Hermes Agent, 대규모 MCP 카탈로그 처리를 위한 도구 검색 기능 도입

1. Hermes Agent, 대규모 MCP 카탈로그 처리를 위한 도구 검색 기능 도입

Nous Research의 Hermes Agent는 이제 대규모 MCP(Model Context Protocol) 툴킷을 통합할 때 컨텍스트 윈도우 제한을 우회하도록 설계된 도구 검색 기능을 포함합니다. 전체 도구 스키마를 점진적 공개 계층으로 대체함으로써, 에이전트는 BM25 알고리즘을 사용하여 쿼리와 도구 설명을 매칭합니다. Anthropic의 모델에서 평가된 이 시스템은 도구 카탈로그를 상태 비저장(stateless)으로 유지하여 동기화 오류를 방지하면서 작업 정확도를 크게 향상시킵니다.

• tool_search, tool_describe, tool_call 등 3가지 브리지 도구를 도입하여 필요할 때만 동적으로 스키마를 가져옵니다.
• BM25 검색 알고리즘을 활용하여 도구 메타데이터와 쿼리를 매칭하고, 부분 문자열 폴백(substring fallback)을 지원합니다.
• Anthropic 평가에서 Claude Opus 4의 정확도를 49%에서 74%로, Claude Opus 4.5의 정확도를 79.5%에서 88.1%로 향상시켰습니다.
• 지연 가능한 도구 스키마가 활성 모델 컨텍스트의 10% 이상을 차지할 때 자동으로 활성화됩니다.
• 핵심 터미널 및 웹 검색 도구는 직접 액세스할 수 있도록 제외하며, 매 턴마다 상태 비저장 도구 카탈로그를 재구축합니다.

대규모 MCP 카탈로그를 사용하여 개발하는 개발자들은 이제 컨텍스트 비대화를 방지하면서 에이전트의 정확도를 크게 높일 수 있습니다.

SOURCES

[1]

2. Text-to-Speech 리더보드, 상위 API 및 오픈 웨이트 모델 순위 발표

최신 Artificial Analysis Speech Arena 벤치마크를 통해 텍스트 음성 변환 분야의 최고 성능 모델을 더 쉽게 평가할 수 있게 되었습니다. 리더보드에는 Cartesia의 Sonic 3.5와 같은 초저지연 모델부터, ElevenLabs Eleven v3 및 Gemini 3.1 Flash TTS와 같이 속도 조절을 위한 인라인 태그를 구문 분석하는 정교한 제어 시스템까지 고도로 최적화된 옵션들이 포함되어 있습니다. 오픈 웨이트 대안을 찾는 개발자들을 위해 Fish Audio S2 Pro가 순위 상단을 차지하고 있으나, 프로덕션 배포를 위해서는 상업용 라이선스가 필요합니다.

• 2026년 5월 30일 기준, Gemini 3.1 Flash TTS, Realtime TTS-2, Sonic 3.5, Realtime TTS 1.5 Max가 Artificial Analysis Speech Arena를 선도하고 있습니다.
• Cartesia의 Sonic 3.5는 상태 공간 모델(State Space Model) 아키텍처를 사용하여 약 82밀리초의 종단 간 지연 시간을 달성합니다.
• Inworld AI의 TTS-1.5 Mini는 P90 기준 첫 오디오 도달 시간(TTFA) 130밀리초 미만으로 실시간 사용 사례를 타겟팅합니다.
• ElevenLabs Eleven v3와 Gemini 3.1 Flash TTS는 스타일 및 속도 제어를 위한 인라인 오디오 형식 태그를 지원합니다.
• Fish Audio S2 Pro는 가장 높은 순위의 오픈 웨이트 모델이지만, 연구 목적 외 사용 시 상업용 라이선스가 필요합니다.
• OpenAI의 GPT-Realtime-2는 실시간 음성 대 음성 상호작용을 위해 GPT-5급 추론 기능을 갖춘 음성 기능을 도입했습니다.

앱에 오디오를 통합하는 개발자들은 주요 상용 및 오픈 웨이트 TTS 모델 전반에 걸쳐 실제 지연 시간, 추론 능력 및 라이선스 조건을 비교할 수 있습니다.

SOURCES

[1]

3. AgentTrove, 에이전트 SFT 데이터셋을 위한 스트리밍 파이프라인 출시

AgentTrove의 새로운 Python 파이프라인을 통해 에이전트 동작으로부터 미세 조정 데이터셋을 생성하는 과정이 간소화되었습니다. 이 오픈 소스 도구는 추적 데이터를 직접 스트리밍하여 개발자가 기가바이트 단위의 원시 파일을 저장하지 않고도 성공적인 결과를 필터링하고 도구 사용을 구문 분석할 수 있게 합니다. 추출된 시퀀스는 즉시 ShareGPT 형식으로 내보낼 수 있어 Axolotl이나 LLaMA-Factory와 같은 일반적인 학습 라이브러리에 쉽게 적용할 수 있습니다.

• AgentTrove는 Python 기반 스트리밍을 통해 액세스할 수 있는 170만 개의 에이전트 상호작용 추적 데이터를 포함합니다.
• 어시스턴트 JSON 출력에서 셸 명령을 구문 분석하여 도구 사용을 평가하는 명령 추출 유틸리티를 포함합니다.
• 해결됨(resolved), 통과됨(passed) 또는 긍정적 보상을 받은 것으로 표시된 추적 데이터를 분리하기 위해 성공 기반 필터를 사용합니다.
• 필터링된 추적 데이터를 Axolotl 및 LLaMA-Factory와 호환되는 깔끔한 ShareGPT 스타일의 JSONL 형식으로 내보냅니다.
• pandas와 matplotlib를 활용하여 작업 소스, 교사 모델 및 턴 수를 요약하고 시각화합니다.

개발자들은 방대한 원시 데이터 파일을 다운로드하지 않고도 복잡한 에이전트 상호작용에서 고품질의 성공 기반 지도 미세 조정(SFT) 데이터셋을 구축할 수 있습니다.

SOURCES

[1]

1. Hermes Agent, 대규모 MCP 카탈로그 처리를 위한 도구 검색 기능 도입

2. Text-to-Speech 리더보드, 상위 API 및 오픈 웨이트 모델 순위 발표

3. AgentTrove, 에이전트 SFT 데이터셋을 위한 스트리밍 파이프라인 출시

데일리 AI 시그널을 인박스로