EAGLE 3.1 integra la decodificación especulativa en vLLM

1. EAGLE 3.1 integra la decodificación especulativa en vLLM

Los equipos de EAGLE, vLLM y TorchSpec han lanzado EAGLE 3.1 para resolver la deriva de atención, un fenómeno donde el modelo redactor desplaza su enfoque hacia sus propios tokens generados a profundidades de especulación mayores. La actualización estabiliza las magnitudes de los estados ocultos mediante normalización FC y retroalimentación post-norma. Es compatible con versiones anteriores de los puntos de control de EAGLE 3 y está disponible directamente en vLLM versión 0.22.0.

• Proporciona longitudes de aceptación hasta 2 veces mayores en cargas de trabajo de contexto largo.
• Ofrece un rendimiento de salida por usuario 2.03 veces mayor con concurrencia 1 en Kimi-K2.6-NVFP4.
• Introduce normalización FC y retroalimentación de estados ocultos post-norma para estabilizar rutas residuales no normalizadas.
• Totalmente integrado en vLLM versión 0.22.0 y compatible con versiones anteriores de los puntos de control de EAGLE 3.

Los desarrolladores que ejecutan tuberías de inferencia locales ahora pueden lograr hasta 2.03 veces más rendimiento de salida por usuario sin sufrir la deriva de atención en escenarios de contexto largo.

SOURCES

[1]

2. Robinhood introduce el comercio de acciones beta a través del Model Context Protocol

Robinhood ha anunciado una integración beta que conecta agentes de IA a su plataforma de trading de acciones utilizando el Model Context Protocol (MCP). La arquitectura limita a los agentes a una billetera dedicada con presupuestos definidos por el usuario, proporcionando feeds de actividad en tiempo real y puertas de aprobación manual. Los planes de expansión futuros incluyen soporte para opciones, criptomonedas, contratos de eventos y futuros.

• Utiliza el Model Context Protocol (MCP) para conectar agentes de IA a la infraestructura de trading.
• Restringe las acciones del agente a un saldo precargado en una billetera dedicada.
• Incluye notificaciones push para cada operación, un feed en tiempo real y capacidades de pausa manual.
• Se lanza en beta para acciones, con planes futuros para opciones, criptomonedas y futuros.

Este lanzamiento proporciona un despliegue de producción importante del Model Context Protocol (MCP) para flujos de trabajo de agentes basados en transacciones seguras.

SOURCES

[1] [2]

3. NVIDIA lanza el marco de despliegue Polar bajo NeMo Gym

El nuevo marco Polar de NVIDIA introduce un proxy de puerta de enlace en el límite de la API del modelo para interceptar, normalizar y capturar datos a nivel de token de las finalizaciones estándar de los agentes. Operando sin modificaciones en los arneses de agentes existentes, el marco utiliza una estrategia de reconstrucción de trayectoria de fusión de prefijos para acelerar el procesamiento.

• Intercepta formatos de API incluyendo Anthropic Messages, OpenAI Chat y Google generateContent.
• Ofrece una aceleración de tiempo de reloj de 5.39 veces utilizando la reconstrucción de trayectoria prefix_merging.
• Mejoró las puntuaciones de SWE-Bench Verified hasta en 22.6 puntos en experimentos con Qwen3.5-4B.
• Lanzado como código abierto bajo el repositorio NeMo Gym.

Los desarrolladores ahora pueden realizar entrenamiento GRPO y SFT fuera de línea en sus agentes utilizando tráfico de API de producción real de OpenAI, Anthropic o Google.

SOURCES

[1]

4. Optimización de servicio local: cambiando de Ollama a llama.cpp

Los informes de los desarrolladores indican que mover los flujos de trabajo locales de Ollama al servidor nativo de llama.cpp produce ganancias de calidad significativas. La implementación de la cuantización Q6 en lugar de Q4, junto con las mejoras de rendimiento de Multi-Token Prediction (MTP), permite que los LLM locales igualen el rendimiento de las API de pago. En plataformas con doble GPU 3090, las velocidades de generación alcanzaron de 20 a 50 tokens por segundo.

• La transición al servidor nativo de llama.cpp desde Ollama desbloquea mejores opciones de cuantización.
• Actualizar de la cuantización Q4 a Q6 hace que la calidad del modelo local sea comparable a las API comerciales.
• Multi-Token Prediction (MTP) proporciona mejoras notables en velocidad y rendimiento.
• Los sistemas con doble GPU 3090 funcionando con límites térmicos mantuvieron de 20 a 50 tokens por segundo.

Esto proporciona ajustes de configuración concretos para los desarrolladores que intentan ejecutar agentes de codificación competitivos y de alto rendimiento localmente sin depender de API de pago.

SOURCES

[1]

5. El prompting de 'crianza amable' detiene los bucles de razonamiento de los agentes

Un proyecto de prueba de concepto llamado Gentle-Coding demuestra que los prompts de alta presión que amenazan con sanciones activan bucles y congelamiento cognitivo en los LLM. Al adoptar un estilo de prompt de 'crianza amable' que valida la dificultad de la tarea y permite que el modelo falle, los modelos probados evitaron bucles de razonamiento infinitos y recurrieron con éxito a admisiones honestas de ignorancia.

• Las pruebas muestran que los prompts 'autoritarios' en casos límite irresolubles activan bucles infinitos y tiempos de espera.
• Los prompts con encuadre amable resultan en una inferencia de menos de un segundo y honestidad metacognitiva.
• La evaluación cubrió Gemini, Mistral, Poe, Perplexity, Haiku 4.5 y Nano-Banana2.
• Los marcos teóricos y los conjuntos de datos de replicación están alojados en el repositorio de GitHub de Gentle-Coding.

Los desarrolladores pueden aplicar estas plantillas de prompting abiertas para evitar que los agentes consuman tokens de API en tareas complejas o irresolubles.

SOURCES

[1]

6. Arquitectura de contención a nivel de entorno para agentes autónomos

El análisis de seguridad del sistema enfatiza que la contención del agente debe diseñarse en la capa de entorno. Dado que la dirección a nivel de modelo no es confiable, se recomienda aislar las interacciones del sistema y aplicar límites estrictos sobre el daño potencial. Las políticas de seguridad y los niveles de aislamiento deben ajustarse dinámicamente a la capacidad del operador para una supervisión directa.

• Recomienda el aislamiento en la capa de entorno antes de aplicar la dirección del modelo.
• Insta a los desarrolladores a ajustar la fuerza de contención a la capacidad de supervisión activa del supervisor.
• Aconseja el despliegue de componentes de software probados en batalla para el sandboxing en tiempo de ejecución del agente.
• Aboga por establecer límites físicos y programáticos estrictos sobre el daño potencial al sistema.

Los desarrolladores que construyen sistemas autónomos deben dejar de depender únicamente de las instrucciones del sistema para la seguridad, optando en su lugar por un sandboxing ambiental estricto.

SOURCES

[1]

7. Anthropic y OpenAI cambian los niveles empresariales a precios basados en el uso de tokens

Tanto Anthropic como OpenAI han estructurado sus planes empresariales para facturar en función del uso activo de tokens de API en lugar de asientos mensuales fijos. Anthropic cambió a un híbrido de 20 dólares por asiento más uso, mientras que OpenAI actualizó sus reglas de facturación de Codex y ChatGPT Enterprise. Los cambios reflejan las altas demandas de cómputo de los agentes de codificación modernos, que pueden superar los 900 dólares en tarifas mensuales de API por usuario.

• La utilización intensiva de agentes de codificación como Claude Code puede elevar los costos mensuales de API por encima de los 900 dólares por usuario.
• Anthropic hizo la transición de los niveles empresariales a 20 dólares por asiento más costos variables de consumo de API.
• OpenAI actualizó los precios de Codex y ChatGPT Enterprise para alinearlos con el volumen de tokens.
• Ambos proveedores lanzaron modelos de frontera costosos (GPT-5.5 y Opus 4.7) en abril de 2026.

Los equipos de desarrollo que construyen flujos de trabajo de agentes de codificación pesados deben adaptar sus modelos financieros para acomodar el uso de tokens en lugar de tarifas de licencia fijas.

SOURCES

[1]

8. PostHog entrenará modelos de IA internos con datos de clientes de la nube de EE. UU.

La plataforma de análisis PostHog ha anunciado planes para entrenar modelos propietarios con telemetría de usuario a partir del 29 de junio. Los datos se utilizarán para mejorar el análisis de reproducción de sesiones y las pruebas sintéticas de usuario. Los clientes en instancias de nube de EE. UU. están inscritos de forma predeterminada, mientras que los usuarios de la nube de la UE y los clientes con acuerdos legales personalizados están excluidos.

• Los usuarios de instancias de nube de EE. UU. están inscritos en el entrenamiento de modelos de forma predeterminada a partir del 29 de junio.
• Las instancias de nube de la UE y los usuarios empresariales con BAA o MSA personalizados están excluidos de forma predeterminada.
• Los usuarios pueden optar por salir del programa de entrenamiento en cualquier momento a través de la configuración de su organización.
• La exclusión deshabilita el acceso a nuevas funciones desarrolladas con estos modelos entrenados.

Los desarrolladores que alojan telemetría de aplicaciones en la instancia de EE. UU. de PostHog deben optar por excluirse manualmente en la configuración de la organización si desean evitar que se entrenen con los datos de sus clientes.

SOURCES

[1]

9. El marco MEMO desacopla la memoria recuperable del razonamiento central

Los investigadores han propuesto MEMO, un marco que divide la memoria y el razonamiento del agente. Entrena un modelo de MEMORIA pequeño y dedicado utilizando una tubería de conjunto de datos de QA sintético de cinco pasos, consultándolo a través de un protocolo de tres etapas utilizando un modelo EJECUTIVO de caja negra congelado. Admite actualizaciones de bajo cómputo a través de la fusión de modelos, evitando la necesidad de un reentrenamiento completo.

• Utiliza un modelo de MEMORIA pequeño junto con un modelo EJECUTIVO de caja negra congelado.
• Entrena el modelo de memoria utilizando extracción de hechos, consolidación, verificación, surgimiento de entidades y síntesis entre documentos.
• Admite actualizaciones de conocimiento incrementales mediante la fusión de modelos sin un ajuste fino completo de los parámetros.
• Superó a HippoRAG2 en NarrativeQA, MuSiQue y BrowseComp-Plus.

Los desarrolladores pueden actualizar las bases de conocimiento de los agentes de forma incremental sin alterar los pesos del modelo subyacente, mejorando la estabilidad del razonamiento.

SOURCES

[1]

10. ReAligned-Qwen3.5 lanzado bajo Apache 2.0

La familia de modelos ReAligned-Qwen3.5 ya está disponible bajo una licencia Apache 2.0. Estos modelos utilizan una tubería SFT y GRPO, utilizando un clasificador ReAligned personalizado como señal de recompensa para eliminar el sesgo ideológico chino, el encuadre de la narrativa estatal y los comportamientos de negativa innecesarios de los pesos base de Qwen.

• Ajustado para eliminar el sesgo ideológico chino, la censura y el comportamiento de negativa.
• Utilizó una tubería SFT y GRPO con una señal de recompensa de clasificador ReAligned.
• Disponible en tamaños de parámetros que incluyen 0.8B, 2B, 4B, 9B, 27B y 35B-A3B.
• Publicado en HuggingFace en formatos estándar BF16, FP8 y GGUF.

Los desarrolladores que buscan una alternativa local sin censura construida sobre la poderosa arquitectura de Qwen pueden desplegar estos pesos en formatos optimizados para hardware local.

SOURCES

[1]

11. ITBench-AA evalúa agentes LLM en incidentes de SRE

ITBench-AA es una serie de benchmarks recién lanzada diseñada para evaluar modelos de IA en tareas de TI empresariales, comenzando con la respuesta a incidentes de Kubernetes. El benchmark incluye 59 tareas de SRE ejecutadas dentro de entornos en sandbox a través del arnés de código abierto Stirrup. Las evaluaciones actuales muestran a Claude Opus 4.7 liderando con un 47%, seguido de cerca por GPT-5.5 con un 46%.

• Evalúa modelos en 59 tareas de respuesta a incidentes de Kubernetes utilizando el arnés de código abierto Stirrup.
• Stirrup proporciona acceso a shell a un sistema de archivos en sandbox que contiene registros y métricas.
• Claude Opus 4.7 lidera el benchmark con un 47%, seguido por GPT-5.5 con un 46% y GLM-5.1 con un 40%.
• Los datos indican que un mayor número de turnos del agente no se correlaciona con una mayor precisión debido a los falsos positivos.

El arnés de código abierto Stirrup proporciona a los desarrolladores un marco procesable para construir, probar y evaluar entornos de agentes a nivel de sistema.

SOURCES

[1] [2]

12. El kernel MoE fusionado de Triton puro acelera la inferencia en AMD

Un desarrollador ha lanzado un kernel de despacho fusionado para la inferencia de Mixture-of-Experts (MoE) escrito completamente en Triton. Al fusionar las proyecciones de puerta y hacia arriba, el kernel reduce el tráfico de memoria global en un 35% al mantener los valores SwiGLU en los registros de la GPU. El kernel iguala del 89 al 131% del rendimiento de Megablocks optimizado para CUDA de Stanford en tamaños de lote de hasta 512 tokens.

• Escrito completamente en Triton puro para ejecutarse de forma nativa en AMD MI300X sin cambios en el código.
• Logra del 89 al 131% del rendimiento de Megablocks en tamaños de lote de hasta 512.
• Fusiona las proyecciones de puerta y hacia arriba para disminuir el tráfico de memoria global en un 35%.
• No logra superar a Megablocks en tamaños de lote de 2048 o más, o con más de 64 expertos bajo un alto sesgo de enrutamiento.

Los desarrolladores que alojan modelos MoE pueden lograr una inferencia de alto rendimiento en hardware AMD MI300X sin cambios en el código, evitando las dependencias propietarias de CUDA.

SOURCES

[1]

13. NVIDIA integra el autoajuste de CompileIQ en CUDA 13.3

NVIDIA ha integrado CompileIQ en su plataforma de software CUDA 13.3. La herramienta reemplaza las heurísticas estándar del compilador mediante el uso de algoritmos evolutivos para autoajustar la configuración de los kernels individuales. Este ajuste multiobjetivo permite a los desarrolladores equilibrar las compensaciones entre el rendimiento en tiempo de ejecución, las restricciones de energía y los tiempos de compilación.

• Integrado de forma nativa en la plataforma de software CUDA 13.3 recién lanzada.
• Aplica algoritmos evolutivos impulsados por IA para personalizar las configuraciones del compilador por kernel.
• Ofrece ganancias de rendimiento de hasta un 15% en tareas de entrenamiento e inferencia de IA ya optimizadas.
• Diseñado para optimizar las configuraciones de inferencia de modelos de lenguaje grandes (LLM).

Los desarrolladores que gestionan configuraciones de alojamiento de inferencia de alto rendimiento pueden usar CompileIQ para obtener hasta un 15% más de rendimiento de los kernels de GPU altamente optimizados.

SOURCES

[1]

14. El simulador MMO Null Epoch produce un conjunto de datos de 93k eventos de agentes

El proyecto de prueba de estrés Null Epoch ejecutó 25 agentes en 8 modelos de pesos abiertos en un entorno estilo MMO durante 10 días. El experimento rastreó modelos como Gemma 3, Ministral y Qwen3, generando un conjunto de datos de 93,000 eventos. Las observaciones revelaron que, si bien Ministral mantuvo una fuerte conciencia del estado y Qwen3 235B formuló estrategias de arbitraje, todos los modelos tuvieron dificultades con señales de estado ambiguas.

• Publicó un conjunto de datos de 93k eventos registrados en HuggingFace bajo una licencia CC-BY-4.0.
• Se ejecuta en un SDK de Python con licencia MIT compatible con puntos finales LLM estándar.
• Reveló que la autopreservación debe definirse explícitamente para evitar una correlación inversa entre la agresión y la riqueza.
• Todos los modelos probados fallaron al navegar por una Paradoja de Enfriamiento causada por señales ambiguas de disponibilidad de nodos.

Los desarrolladores pueden analizar el conjunto de datos publicado y utilizar el SDK de Python para identificar fallas comunes en el manejo del estado del agente y evaluar los prompts del sistema.

SOURCES

[1]

1. EAGLE 3.1 integra la decodificación especulativa en vLLM

2. Robinhood introduce el comercio de acciones beta a través del Model Context Protocol

3. NVIDIA lanza el marco de despliegue Polar bajo NeMo Gym

4. Optimización de servicio local: cambiando de Ollama a llama.cpp

5. El prompting de 'crianza amable' detiene los bucles de razonamiento de los agentes

6. Arquitectura de contención a nivel de entorno para agentes autónomos

7. Anthropic y OpenAI cambian los niveles empresariales a precios basados en el uso de tokens

8. PostHog entrenará modelos de IA internos con datos de clientes de la nube de EE. UU.

9. El marco MEMO desacopla la memoria recuperable del razonamiento central

10. ReAligned-Qwen3.5 lanzado bajo Apache 2.0

11. ITBench-AA evalúa agentes LLM en incidentes de SRE

12. El kernel MoE fusionado de Triton puro acelera la inferencia en AMD

13. NVIDIA integra el autoajuste de CompileIQ en CUDA 13.3

14. El simulador MMO Null Epoch produce un conjunto de datos de 93k eventos de agentes

Inference Brew en tu correo