1. Fable-5 y Kimi-K2.7-Code encabezan los benchmarks de autoresearch
Un nuevo benchmark que evalúa siete modelos de frontera en tres categorías de tareas de investigación autónoma (ingeniería de ML, ingeniería de arneses/prompts y descubrimiento algorítmico) ha nombrado a Fable-5 de Anthropic como el ganador general, incluso considerando restricciones de costos. Sin embargo, para los desarrolladores enfocados específicamente en ingeniería de ML, el modelo de pesos abiertos Kimi-K2.7-Code superó a todos los modelos de frontera probados, convirtiéndolo en un candidato sólido para pipelines de codificación locales o especializados.
- • Se evaluaron siete modelos de frontera en tres categorías de autoresearch: ingeniería de ML, ingeniería de arneses/prompts y descubrimiento algorítmico.
- • Fable-5 de Anthropic fue el ganador general del benchmark, incluso bajo restricciones de costos.
- • El modelo de pesos abiertos Kimi-K2.7-Code superó a los modelos de frontera específicamente en la categoría de ingeniería de ML.
Los desarrolladores que crean agentes de investigación autónoma o de codificación avanzada pueden utilizar estos benchmarks para seleccionar el modelo más capaz para tareas de descubrimiento algorítmico e ingeniería de ML.
2. Comparativa de rendimiento de Nemotron Super 120B frente a Qwen y GPT-OSS
Benchmarks locales ejecutados en un sistema Strix Halo con 128 GB de memoria compartida comparan el rendimiento de Nemotron Super 120B frente a GPT-OSS 120B, Qwen 3.5 122B y Qwen 3.6 35B. Los resultados muestran que Nemotron Super destaca en el procesamiento de prompts, superando a GPT-OSS 120B a 32K de contexto y a Qwen 3.5 122B a 16K de contexto. Sin embargo, aunque Nemotron Super admite una ventana de contexto masiva de 400K, su velocidad de generación de tokens se degrada a niveles apenas utilizables en la profundidad máxima, lo que convierte al Qwen 3.6 35B, más pequeño, en una alternativa altamente competitiva para uso general.
- • Los benchmarks se realizaron en un sistema Strix Halo con 128 GB de memoria compartida ejecutando Ubuntu 26.04 y Lemonade Server.
- • Modelos comparados: GPT-OSS 120B, Qwen 3.5 122B, Nemotron Super 120B y Qwen 3.6 35B.
- • Nemotron Super tiene una profundidad de contexto máxima de 400K, en comparación con 128K para GPT-OSS y 256K para Qwen 3.5/3.6.
- • Nemotron Super supera a GPT-OSS 120B en velocidad de procesamiento de prompts a 32K de contexto, y a Qwen 3.5 122B a 16K de contexto.
- • La velocidad de generación de tokens de Nemotron Super comienza por encima de 10 TPS y se degrada a niveles apenas utilizables a una profundidad de contexto de 400K.
Los desarrolladores que eligen un modelo local de menos de 120B pueden usar estos benchmarks para equilibrar la velocidad de procesamiento de prompts frente a la latencia de generación en longitudes de contexto profundas.
3. El auge de los protocolos de agentes estandarizados: MCP, ACP, A2A y ANP
El ecosistema de agentes de IA se está consolidando en torno a cuatro protocolos principales lanzados entre finales de 2024 y principios de 2025. El Model Context Protocol (MCP) de Anthropic ha tenido una adopción masiva, con la Linux Foundation reportando más de 10,000 servidores públicos activos y 164 millones de descargas mensuales del SDK de Python para abril de 2026. Si bien los protocolos de capa de aplicación como Agent2Agent (A2A) de Google y Agent Communication Protocol (ACP) de IBM resuelven la coordinación y la mensajería, la capa de transporte subyacente sigue siendo un cuello de botella, dependiendo aún de HTTP y requiriendo infraestructura de retransmisión para agentes detrás de NAT.
- • Se publicaron cuatro protocolos de agentes significativos entre finales de 2024 y principios de 2025: MCP, ACP, A2A y ANP.
- • El Model Context Protocol (MCP) de Anthropic alcanzó más de 10,000 servidores públicos activos y 164 millones de descargas mensuales del SDK de Python para abril de 2026.
- • La interfaz de coordinación de tareas Agent2Agent (A2A) de Google fue donada a la Linux Foundation en junio de 2025.
- • El Agent Communication Protocol (ACP) de IBM Research y el independiente Agent Network Protocol (ANP) abordan la mensajería y el descubrimiento.
- • Los protocolos actuales dependen de HTTP, dejando la capa de transporte para redes de agentes con un retraso de 18 a 24 meses respecto a los protocolos de capa de aplicación.
Los desarrolladores que crean sistemas multi-agente pueden aprovechar los estándares abiertos emergentes para garantizar la interoperabilidad, la compatibilidad con llamadas a herramientas y la coordinación estructurada.
4. Gestión de la degradación del rendimiento de los LLM más allá de los 100k tokens
A pesar de las ventanas de contexto masivas anunciadas, estudios empíricos como RULER y el informe de Chroma muestran que el rendimiento de los LLM se degrada significativamente una vez que el contexto supera aproximadamente los 100,000 tokens. Esta 'zona tonta' es alcanzada fácilmente por los agentes de codificación durante sesiones de depuración de múltiples archivos. Para combatir esto, los desarrolladores se están alejando de la dependencia del tamaño de contexto bruto y, en su lugar, están adoptando flujos de trabajo de 'migas de pan', utilizando herramientas como obra/superpowers o mattpocock/skills para estructurar las tareas de los agentes en torno a pequeños artefactos nombrados, como especificaciones y PRD.
- • Las ventanas de contexto de los LLM exhiben una 'zona inteligente' y una 'zona tonta' que comienza alrededor de los 100,000 tokens.
- • Estudios como RULER y el informe de Chroma confirman que el contexto efectivo es menor de lo anunciado.
- • Los agentes de codificación alcanzan rápidamente el límite de 100,000 tokens durante las tareas de lectura de archivos y depuración.
- • Herramientas como Claude Code utilizan auto-compactación para resumir el historial, pero a menudo después de que el modelo ya se ha degradado.
- • Los desarrolladores están adoptando un 'enfoque de migas de pan' utilizando herramientas como obra/superpowers para estructurar flujos de trabajo en torno a pequeños artefactos nombrados.
Los desarrolladores que crean agentes de codificación y pipelines de RAG deben diseñar flujos de trabajo que mantengan el contexto crítico por debajo de los 100k tokens para evitar una degradación severa del modelo.
5. Construcción de un chatbot de voz a voz local y en tiempo real
Un desarrollador ha construido con éxito un chatbot de voz a voz local y en tiempo real que admite streaming de Server-Sent Events (SSE) y capacidad de interrupción natural en la conversación. El sistema funciona con Qwen3.5-397B (utilizando la cuantización UD-Q3_K_XL de Unsloth), Whisper-small para voz a texto y Orpheus TTS con un decodificador SNAC personalizado en ONNX. Ejecutándose en una sola GPU de 24 GB, la configuración utiliza 21.3 GB de VRAM y requiere 150 GB de RAM del sistema para manejar los expertos MoE de Qwen, manteniendo una ventana de contexto de 131k tokens.
- • El chatbot local admite streaming SSE, capacidad de interrupción y contexto de conversación.
- • Funciona con Qwen3.5-397B (UD-Q3_K_XL), Whisper-small STT y Orpheus Q4_K_XL TTS con un decodificador SNAC personalizado en ONNX.
- • El sistema requiere aproximadamente 21.3 GB de VRAM en una GPU de 24 GB y 150 GB de RAM del sistema para los expertos MoE de Qwen.
- • El modelo se ejecuta con una caché KV bf16 y admite una ventana de contexto de 131,072 tokens.
Los desarrolladores pueden tomar como referencia esta arquitectura para construir agentes de voz locales altamente receptivos que admitan un flujo de conversación natural y la interrupción.
6. Heretic 1.4 lanza Grimoire para la reproducibilidad de modelos locales
El proyecto Heretic ha lanzado la versión 1.4, introduciendo el sistema Heretic Grimoire para garantizar la reproducibilidad de modelos locales y la resiliencia frente a eliminaciones de plataformas. Al utilizar archivos reproduce.json ligeros de 9 KB, los desarrolladores pueden restaurar modelos localmente en aproximadamente un minuto sin repetir cálculos de varias horas. La actualización también añade soporte para exportar LoRAs para minimizar los costos de almacenamiento y transiciona la infraestructura del proyecto al alojamiento descentralizado sobre IPFS.
- • La versión 1.4 de Heretic introduce el sistema Heretic Grimoire para la reproducibilidad de modelos.
- • El sistema utiliza archivos reproduce.json de 9 KB que contienen los metadatos necesarios para recrear modelos localmente.
- • La restauración del modelo toma aproximadamente un minuto y evita los cálculos originales de varias horas.
- • El proyecto se ha expandido al alojamiento descentralizado, haciendo que los archivos de lanzamiento y las firmas estén disponibles a través de IPFS.
- • Heretic 1.4 también añade la capacidad de exportar un LoRA en lugar de un modelo completo para reducir los costos de almacenamiento.
Los desarrolladores pueden proteger sus flujos de trabajo contra las eliminaciones de modelos de Hugging Face manteniendo copias de seguridad locales ligeras y descentralizadas de sus modelos ajustados.
7. Ejecución de Gemma 4 12B localmente en Google Pixel 10 Pro
Una prueba comunitaria ha demostrado la viabilidad de ejecutar el modelo Gemma 4 12B de Google completamente en el dispositivo en un Google Pixel 10 Pro. Utilizando llama.cpp dentro de un entorno Termux, la configuración ejecutó una versión cuantizada del modelo junto con un modelo de borrador para la decodificación especulativa. Operando bajo un envolvente de potencia altamente eficiente de 10 vatios, el sistema logró una velocidad de procesamiento de prompts de 6.5 tokens por segundo y una velocidad de generación de 1.3 tokens por segundo a una profundidad de prompt de 10,000 tokens.
- • Un usuario probó llama.cpp (v9639) en un Google Pixel 10 Pro utilizando el entorno Termux.
- • La configuración ejecutó el modelo gemma-4-12b-it-UD-Q3_K_XL.gguf con un modelo de borrador (mtp-gemma-4-12b-it.gguf).
- • La configuración utilizó una ventana de contexto de 32,000 y tipos de caché q8_0.
- • A una profundidad de prompt de 10,000 tokens, el sistema logró una velocidad de prompt de 6.5 t/s y una velocidad de generación de 1.3 t/s.
- • Toda la configuración operó bajo un consumo de energía de menos de 10 vatios.
Los desarrolladores que crean aplicaciones de IA móvil en el dispositivo pueden tomar como referencia estos benchmarks de potencia y rendimiento de tokens para ejecutar modelos de clase 12B en hardware móvil insignia.
8. Benchmarks de Dual DGX Spark para DeepSeek-V4-Flash MoE
Una nueva guía de código abierto y suite de benchmarks en GitHub describe cómo ejecutar modelos DeepSeek-V4-Flash MoE en una configuración dual DGX Spark. Al vincular dos unidades con un cable de $180 para lograr 200G/s sobre ConnectX-7, la configuración logra 41 t/s de decodificación y 1785 t/s de prellenado utilizando vLLM FP8. Los benchmarks también comparan el rendimiento frente a configuraciones de flujo único, mostrando que la RTX Pro 6000 alcanza 46.9 t/s de decodificación y un Mac Studio M2 Ultra alcanza 29.7 t/s de decodificación.
- • Una nueva guía y suite de benchmarks en GitHub detalla la ejecución de DeepSeek-V4-Flash MoE en dos unidades DGX Spark.
- • La configuración requiere un cable de $180 para lograr 200G/s sobre ConnectX-7.
- • Utilizando vLLM FP8, la configuración de doble unidad logra 41 t/s de decodificación y 1785 t/s de velocidad de prellenado.
- • La configuración de doble unidad alcanza 350 t/s agregados con 32 solicitudes concurrentes a 256k de contexto cada una.
- • Los benchmarks de flujo único muestran que la RTX Pro 6000 alcanza 46.9 t/s de decodificación y el Mac Studio M2 Ultra alcanza 29.7 t/s de decodificación.
Los desarrolladores que buscan autoalojar DeepSeek-V4-Flash pueden tomar como referencia benchmarks concretos de hardware multi-GPU y de flujo único para planificar su infraestructura de despliegue local.
9. Ejecutar DeepSeek-V4-Flash en Mac usando streaming SSD
El motor ds4 de Antirez introduce un flag --ssd-streaming que permite a los desarrolladores ejecutar modelos más grandes que su RAM física en hardware local. Probado en un M3 Max con 96 GB de RAM, el motor ejecuta con éxito DeepSeek-V4-Flash a 11-13 tokens por segundo. Aunque el tiempo de arranque en frío hasta el primer token es de 3-5 segundos y el prellenado de 36,000 tokens toma 2.5 minutos, la técnica abre la posibilidad de realizar pruebas locales de modelos masivos en estaciones de trabajo de desarrolladores estándar.
- • El motor ds4 de Antirez permite ejecutar modelos de aprendizaje automático más grandes que la RAM disponible utilizando el flag --ssd-streaming.
- • En un sistema M3 Max de 96 GB, el motor mantiene un rendimiento de 11-13 tokens por segundo.
- • El tiempo hasta el primer token es de aproximadamente 3-5 segundos después de un arranque en frío.
- • El prellenado de 36,000 tokens toma aproximadamente 2 minutos y 30 segundos.
Los desarrolladores pueden ejecutar modelos más grandes que la RAM física de su sistema en hardware local de Apple Silicon, aunque con una compensación en el rendimiento.