Audesso | Daily: AI

Hermes Agent introduce la búsqueda de herramientas para gestionar grandes catálogos MCP

00:00 / --:--

No hay audio disponible para este resumen.

← Volver al inicio

Hermes Agent introduce la búsqueda de herramientas para gestionar grandes catálogos MCP

1. Hermes Agent introduce la búsqueda de herramientas para gestionar grandes catálogos MCP

El Hermes Agent de Nous Research ahora incluye una función de búsqueda de herramientas diseñada para evitar las limitaciones de la ventana de contexto al integrar grandes kits de herramientas del Model Context Protocol (MCP). Al reemplazar los esquemas completos de herramientas con una capa de divulgación progresiva, el agente compara las consultas con las descripciones de las herramientas utilizando el algoritmo BM25. Evaluado en los modelos de Anthropic, el sistema mejora drásticamente la precisión de las tareas mientras mantiene el catálogo de herramientas sin estado para evitar la deriva de sincronización.

  • Introduce tres herramientas de puente—tool_search, tool_describe y tool_call—para obtener esquemas dinámicamente solo cuando sea necesario.
  • Aprovecha el algoritmo de recuperación BM25 para comparar consultas con metadatos de herramientas con una alternativa de subcadena.
  • Mejora la precisión del 49% al 74% en Claude Opus 4 y del 79.5% al 88.1% en Claude Opus 4.5 en las evaluaciones de Anthropic.
  • Se activa automáticamente cuando los esquemas de herramientas diferibles consumen más del 10% del contexto del modelo activo.
  • Excluye las herramientas principales de terminal y búsqueda web para mantenerlas directamente accesibles, mientras reconstruye el catálogo de herramientas sin estado en cada turno.

Los desarrolladores que crean aplicaciones con grandes catálogos del Model Context Protocol (MCP) ahora pueden evitar el exceso de contexto mientras aumentan significativamente la precisión del agente.

SOURCES

2. La tabla de clasificación de texto a voz clasifica los mejores modelos de API y de pesos abiertos

Evaluar a los mejores en el panorama de texto a voz es ahora más fácil con los últimos puntos de referencia de Artificial Analysis Speech Arena. La tabla de clasificación muestra opciones altamente optimizadas, que van desde modelos de latencia ultrabaja como Sonic 3.5 de Cartesia hasta sistemas profundamente controlables como ElevenLabs Eleven v3 y Gemini 3.1 Flash TTS, que analizan etiquetas en línea para el ritmo. Para los desarrolladores que buscan alternativas de pesos abiertos, Fish Audio S2 Pro lidera las clasificaciones, pero requiere una licencia comercial para la implementación en producción.

  • Gemini 3.1 Flash TTS, Realtime TTS-2, Sonic 3.5 y Realtime TTS 1.5 Max lideran el Artificial Analysis Speech Arena al 30 de mayo de 2026.
  • Sonic 3.5 de Cartesia utiliza una arquitectura de modelo de espacio de estados para lograr una latencia de extremo a extremo de aproximadamente 82 milisegundos.
  • TTS-1.5 Mini de Inworld AI apunta a casos de uso en tiempo real con un tiempo hasta el primer audio P90 inferior a 130 milisegundos.
  • ElevenLabs Eleven v3 y Gemini 3.1 Flash TTS admiten etiquetas de formato de audio en línea para el control de estilo y ritmo.
  • Fish Audio S2 Pro es el modelo de pesos abiertos mejor clasificado, pero requiere una licencia comercial para uso no relacionado con la investigación.
  • GPT-Realtime-2 de OpenAI introduce capacidades de voz con razonamiento de clase GPT-5 para interacciones de voz a voz en vivo.

Los desarrolladores que integran audio en sus aplicaciones pueden comparar la latencia, el razonamiento y los términos de licencia del mundo real entre los principales modelos de TTS comerciales y de pesos abiertos.

SOURCES

3. AgentTrove lanza una canalización de transmisión para conjuntos de datos SFT de agentes

La creación de conjuntos de datos de ajuste fino a partir del comportamiento agéntico se simplifica con la nueva canalización de Python de AgentTrove. La herramienta de código abierto transmite rastros directamente, permitiendo a los desarrolladores filtrar resultados exitosos y analizar el uso de herramientas sin almacenar gigabytes de archivos sin procesar. Las secuencias extraídas se pueden exportar inmediatamente al formato ShareGPT, lo que facilita su integración en bibliotecas de entrenamiento comunes como Axolotl o LLaMA-Factory.

  • AgentTrove contiene 1.7 millones de rastros de interacción agéntica accesibles mediante transmisión basada en Python.
  • Incluye una utilidad de extracción de comandos que analiza comandos de shell de las salidas JSON del asistente para evaluar el uso de herramientas.
  • Emplea un filtro basado en el éxito para aislar los rastros marcados como resueltos, aprobados o recompensados positivamente.
  • Exporta rastros filtrados a un formato JSONL limpio al estilo ShareGPT compatible con Axolotl y LLaMA-Factory.
  • Utiliza pandas y matplotlib para resumir y visualizar fuentes de tareas, modelos docentes y recuentos de turnos.

Los desarrolladores pueden construir conjuntos de datos de ajuste fino supervisado de alta calidad y filtrados por éxito a partir de interacciones agénticas complejas sin descargar archivos de datos masivos.

SOURCES

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.