1. Google lanza puntos de control de entrenamiento consciente de cuantización para Gemma 4
Los nuevos puntos de control de entrenamiento consciente de cuantización (QAT) de Google DeepMind simulan la cuantización durante el entrenamiento para minimizar la pérdida de precisión. El lanzamiento incluye un formato Q4_0 y un esquema móvil especializado que optimiza las capas de incrustación y caché KV. Estos modelos están disponibles en Hugging Face en formatos GGUF y tensores comprimidos, compatibles con entornos de ejecución locales populares como llama.cpp, Ollama y vLLM.
- • Google DeepMind lanzó puntos de control QAT para Gemma 4 en formato Q4_0 y un formato móvil especializado.
- • El formato Q4_0 reduce la huella de memoria del modelo Gemma 4 E2B a 3.2 GB y la del modelo E4B a 5 GB.
- • El esquema QAT móvil reduce el modelo E2B a menos de 1 GB utilizando activaciones estáticas, cuantización por canal y compresión dirigida de 2 bits.
- • Los puntos de control están disponibles en Hugging Face con soporte para llama.cpp, Ollama, LM Studio, vLLM, MLX y LiteRT-LM.
- • Las pruebas de rendimiento en una AMD 7900 XTX mostraron una reducción del 45% en el tiempo de generación y un ahorro de 5.7 GB de VRAM para el modelo QAT de 12B en comparación con Q8_0.
Los desarrolladores pueden ejecutar modelos Gemma 4 localmente con requisitos de VRAM significativamente reducidos y una pérdida de calidad mínima en comparación con la cuantización estándar posterior al entrenamiento.
2. Explosión de modelos de pesos abiertos: más de 25 modelos notables lanzados en diversas modalidades
Una semana notable para la IA de código abierto vio más de 25 lanzamientos importantes de pesos abiertos. Los aspectos destacados incluyen el enorme Nemotron 3 Ultra de 550B de NVIDIA, el modelo denso any-to-any Gemma 4 12B de Google y Step-3.7-Flash de StepFun. Los desarrolladores de edge también recibieron nuevas opciones como LFM2.5-8B-A1B de Liquid AI y la canalización dots.tts de RedNote.
- • NVIDIA lanzó Nemotron 3 Ultra (híbrido Mamba-MoE de 550B, contexto de 1M) y Nemotron-3.5 ASR (modelo de streaming de 600M).
- • Google lanzó Gemma 4 12B (denso any-to-any, contexto de 256k, más de 140 idiomas).
- • StepFun lanzó Step-3.7-Flash (VLM MoE disperso de 198B, Apache 2.0).
- • Liquid AI lanzó LFM2.5-8B-A1B (MoE para edge, 1.5B de parámetros activos, compatible con MLX).
- • Otros lanzamientos incluyen Ideogram 4 (DiT de coincidencia de flujo de 9.3B), RedNote dots.tts y NVIDIA Cosmos3-Super (modelo mundial omnimodal de 64B).
Esta lista consolidada proporciona a los desarrolladores una referencia rápida de los últimos modelos autohospedables, incluidos modelos híbridos masivos y modelos especializados para edge.
3. Solución a fallos de llamadas a herramientas y codificación en Gemma 4 12B
Aunque los desarrolladores informaron inicialmente que Gemma 4 12B fallaba frecuentemente en las llamadas a herramientas en los arneses de evaluación, una solución descubierta por la comunidad resuelve el problema. Al compilar llama.cpp desde el código fuente y aplicar una plantilla de chat personalizada a través de las banderas --jinja y --chat-template-file, los desarrolladores pueden restaurar la llamada a herramientas adecuada. Esto permite una implementación local confiable del modelo para flujos de trabajo de agentes.
- • Los usuarios informaron fallos frecuentes en las llamadas a herramientas con Gemma 4 12B, lo que impedía su uso en arneses como OpenCode.
- • La solución requiere compilar llama.cpp desde el código fuente y usar las banderas --jinja y --chat-template-file con una plantilla personalizada.
- • Un desarrollador informó haber alcanzado 50 tokens por segundo con el modelo Unsloth Q5_K_XL (8.6 GB) utilizando una ventana de contexto de 32k y caché KV Q8.
- • Google AI Edge también está permitiendo la implementación local de Gemma 4 12B en computadoras portátiles para flujos de trabajo de agentes.
La aplicación de esta plantilla personalizada permite a los desarrolladores evaluar y utilizar con éxito Gemma 4 12B para flujos de trabajo de agentes locales y tareas de codificación sin fallos en las llamadas a herramientas.
4. Descarga de caché KV a la memoria RAM del sistema con llama.cpp
La opción -nkvo (sin descarga de KV) de llama.cpp permite a los desarrolladores descargar la caché KV a la RAM del sistema en lugar de a la VRAM. En las pruebas con un modelo Qwen3.6 27B en una GPU de 16 GB, esta opción permitió que todo el modelo cupiera en la GPU con una caché KV f16, ampliando la ventana de contexto a 128k. La compensación de rendimiento fue mínima, cayendo de 23 tps a 19 tps en el pico.
- • La opción -nkvo (--no-kv-offload) en llama.cpp descarga la caché KV a la RAM del sistema en lugar de a la VRAM.
- • Las pruebas con Qwen3.6 27B en una RTX 5060 Ti (16 GB) y RAM DDR5 permitieron una ventana de contexto de 128k al mantener 63 capas en la GPU.
- • Habilitar -nkvo logró un pico de 19 tps y 14 tps durante una generación larga, en comparación con 23 tps de pico y 16 tps con caché KV cuantizada q4_0 en la GPU.
- • La cuantización de la caché KV cuando se descarga a la RAM no proporcionó ninguna mejora de rendimiento y, en ocasiones, degradó el rendimiento.
Los desarrolladores pueden aumentar drásticamente las ventanas de contexto (hasta 128k) en GPU con VRAM limitada descargando la caché KV a la RAM DDR5 en lugar de cuantizarla.
5. OpenLumara: Un marco de trabajo de agentes de IA local modular y eficiente en tokens
OpenLumara es un marco de trabajo de agentes de IA modular y de código abierto construido desde cero para modelos locales. A diferencia de los marcos "vibecoded", se centra en la eficiencia de tokens, permitiendo a los desarrolladores deshabilitar módulos para reducir el prompt del sistema de 4k a menos de 1k tokens. Cuenta con un entorno de shell aislado a través de Docker o Podman, enmascaramiento automático de datos confidenciales y un módulo de codificador que apunta a funciones o clases específicas.
- • OpenLumara está diseñado para modelos locales, llama.cpp y koboldcpp, y tiene licencia GPL2.
- • El prompt del sistema predeterminado es de ~4k tokens, pero puede reducirse a menos de 1k tokens deshabilitando módulos no utilizados.
- • Las características de seguridad incluyen un entorno de shell aislado mediante Docker/Podman y el enmascaramiento automático de datos confidenciales.
- • El módulo de codificador apunta a funciones o clases específicas en archivos de código en lugar de usar buscar y reemplazar.
- • Incluye una interfaz de usuario basada en web, un modo CLI y está integrado en la bifurcación esobold de koboldcpp.
Ofrece una alternativa altamente modular y eficiente en tokens a los marcos de trabajo de agentes pesados, permitiendo a los desarrolladores reducir los prompts del sistema a menos de 1k tokens.
6. Alibaba lanza la herramienta CLI Open Code Review de código abierto
Alibaba ha lanzado Open Code Review, una herramienta CLI con licencia Apache-2.0 utilizada internamente durante dos años para identificar millones de defectos de código. La herramienta lee las diferencias de Git y envía los archivos modificados a un LLM configurable para generar comentarios estructurados a nivel de línea. Se puede integrar en canalizaciones de CI/CD, utilizarse como un comando de barra en agentes de codificación e incluye un visor local para explorar el historial de sesiones.
- • Open Code Review es una herramienta CLI de código abierto con licencia Apache-2.0 desarrollada y utilizada internamente por Alibaba.
- • Lee las diferencias de Git y envía los archivos modificados a un LLM configurable para generar comentarios de revisión estructurados con precisión a nivel de línea.
- • La arquitectura combina ingeniería determinista (selección/agrupación de archivos) con un agente para la toma de decisiones dinámica.
- • Admite la integración en canalizaciones de CI/CD, funciona como un comando de barra en agentes de codificación de IA e incluye un visor local para el historial.
- • La instalación es compatible a través de NPM, lanzamientos binarios de GitHub o compilación desde el código fuente.
Los desarrolladores pueden integrar esta herramienta en sus flujos de trabajo locales, agentes de codificación o canalizaciones de CI/CD para automatizar las revisiones de código utilizando LLM configurables.
7. Microsoft anuncia la capa de contexto IQ y el optimizador de agentes en Build 2026
En su conferencia Build 2026, Microsoft anunció varias herramientas para el desarrollo de agentes empresariales. La capa de contexto Microsoft IQ proporciona acceso seguro a datos en fuentes de datos de Fabric, Foundry, Web y Work. Además, Microsoft lanzó el optimizador de agentes, que utiliza una evaluación basada en rúbricas para automatizar las modificaciones de los prompts, y habilitó la identidad de los agentes a través del sistema Entra.
- • La suite Microsoft IQ incluye Fabric IQ, Foundry IQ, Web IQ y Work IQ (API que se lanzarán el 16 de junio).
- • La herramienta de optimización de agentes utiliza una evaluación basada en rúbricas para proporcionar comentarios granulares y modificaciones automáticas de prompts.
- • Microsoft está habilitando la identidad de los agentes a través del sistema Entra, dando a los agentes su propio acceso a correo electrónico y Teams.
- • Microsoft también presentó Scout, un agente de trabajo personal construido sobre la tecnología de código abierto OpenClaw.
Estas herramientas centradas en la empresa proporcionan contexto estructurado, modificaciones automáticas de prompts y gestión de identidad de agentes para los desarrolladores que construyen sobre el ecosistema de Microsoft.
8. Microsoft lanza pg_durable de código abierto para flujos de trabajo en base de datos
Microsoft ha lanzado pg_durable de código abierto, una extensión de PostgreSQL diseñada para la ejecución duradera en la base de datos. Construida utilizando el marco de trabajo pgrx y Rust, la extensión permite a los desarrolladores definir flujos de trabajo de larga duración y tolerantes a fallos utilizando un DSL basado en SQL. Al gestionar el estado y los reintentos de forma nativa dentro de PostgreSQL 17 o 18, pg_durable elimina la necesidad de colas o trabajadores externos.
- • pg_durable es una extensión de PostgreSQL (actualmente en vista previa) que gestiona el estado y los reintentos de forma nativa.
- • Elimina la necesidad de trabajos cron, trabajadores o colas externos.
- • El sistema utiliza un DSL basado en SQL con operadores como ~> y |=> para definir flujos de trabajo.
- • Construido utilizando el marco de trabajo pgrx, se basa en las bibliotecas de Rust duroxide y duroxide-pg.
- • Requiere PostgreSQL 17 o 18 y debe agregarse a shared_preload_libraries.
Los desarrolladores pueden construir flujos de trabajo duraderos, agentes o transaccionales que sobrevivan a fallos y reinicios de forma nativa en PostgreSQL sin infraestructura de colas externa.
9. Optimización de Qwen 3.6 MoE en una GPU de computadora portátil con 8 GB de VRAM
Un desarrollador ejecutó con éxito el modelo MoE Qwen3.6-35B-A3B en una GPU de computadora portátil con 8 GB de VRAM descargando expertos a la CPU. Las optimizaciones clave incluyeron el uso de --no-mmap para evitar fallos de página y mantener 1.5 GB de margen de VRAM. Sorprendentemente, la decodificación especulativa con un modelo de borrador Qwen3.5-0.8B proporcionó una aceleración del 26%, lo que contradice los puntos de referencia de GPU completa donde la decodificación especulativa suele ser neta negativa.
- • La configuración descargó expertos MoE a la CPU, utilizando --no-mmap y manteniendo 1.5 GB de margen de VRAM para evitar la reserva de memoria del sistema de Windows.
- • La decodificación especulativa utilizando un modelo de borrador Qwen3.5-0.8B proporcionó un aumento de velocidad del 26%, logrando ~39 tps.
- • Los K-quants superaron a los i-quants para los expertos descargados a la CPU debido a los núcleos de CPU optimizados.
- • TurboQuant, Flash Attention e i-quants no proporcionaron beneficios o disminuyeron el rendimiento debido a la arquitectura híbrida.
Esto demuestra una configuración viable para ejecutar modelos MoE grandes en hardware de consumo, logrando 39 tokens por segundo con una aceleración del 26% gracias a la decodificación especulativa.
10. NVIDIA presenta Dynamo Snapshot para un inicio rápido de IA en Kubernetes
Dynamo Snapshot de NVIDIA es un sistema de punto de control/restauración diseñado para eliminar la latencia de arranque en frío para la inferencia de IA en Kubernetes. Al combinar cuda-checkpoint para el estado de la GPU y CRIU para el estado del proceso del host, el sistema serializa los contenedores en ejecución. Utiliza la gestión de memoria virtual de CUDA para desasignar la caché KV, reduciendo los tamaños de los puntos de control y permitiendo que un modelo gpt-oss-120b se inicie en menos de 5 segundos.
- • Dynamo Snapshot utiliza cuda-checkpoint para el estado de la GPU y CRIU para el estado del proceso del lado del host.
- • Se implementa como un DaemonSet de snapshot-agent privilegiado sin modificar el tiempo de ejecución del contenedor runc subyacente.
- • La desasignación y liberación de la caché KV a través de la gestión de memoria virtual de CUDA reduce los tamaños de los puntos de control (por ejemplo, de 190 GiB a 6 GiB para Qwen3-0.6B).
- • En una prueba de concepto, redujo el tiempo de inicio de un modelo gpt-oss-120b a menos de 5 segundos.
- • Actualmente requiere nodos de GPU x86_64, controlador NVIDIA 580.xx o más reciente, y admite trabajadores vLLM en vista previa limitada.
Los desarrolladores que implementan modelos grandes en Kubernetes pueden reducir drásticamente los tiempos de arranque en frío y la latencia de escalado mediante la serialización de los estados de la GPU y del proceso del host.
11. La herramienta CLI Lowfat filtra la salida detallada para ahorrar tokens de LLM
La herramienta de código abierto 'lowfat' es un filtro CLI conectable diseñado para reducir la verbosidad de las salidas de terminal enviadas a los agentes de IA. Operando como un binario único local, actúa como un gancho de agente o envoltorio de shell. Cuenta con un sistema de complementos personalizable para comandos específicos, lo que ayuda a los desarrolladores a evitar los límites de tokens en plataformas como Amazon Bedrock.
- • 'lowfat' es una herramienta local de binario único sin telemetría que funciona como un gancho de agente o envoltorio de shell.
- • Cuenta con un sistema de complementos para personalizar filtros para comandos específicos y admite tuberías componibles al estilo UNIX.
- • El desarrollador informó una reducción total de tokens del 91.8% durante dos meses de uso personal.
- • La herramienta ayuda a evitar alcanzar los límites de tokens para servicios como Amazon Bedrock.
Los desarrolladores pueden usar esta herramienta como un gancho de agente o envoltorio de shell para evitar que los agentes de codificación consuman tokens excesivos en salidas CLI largas.
12. Cuantización de caché KV KVarN implementada en BeeLlama.cpp
Un desarrollador ha implementado el método de cuantización de caché KV KVarN de Huawei en una bifurcación de llama.cpp llamada BeeLlama.cpp (v0.3.2 Preview). KVarN proporciona una compresión de 3–5 veces de la caché KV, entregando calidad q5 a 4 bits y calidad q4 a 3.5 bits. La implementación actualmente admite modelos Qwen 3.6 27B y Gemma 4 31B en hardware NVIDIA.
- • KVarN es un método de cuantización de caché KV desarrollado por Huawei que ofrece una compresión de 3–5 veces.
- • Está implementado en el lanzamiento BeeLlama.cpp v0.3.2 Preview, admitiendo Qwen 3.6 27B y Gemma 4 31B.
- • Los usuarios pueden habilitarlo usando las banderas --cache-type-k y --cache-type-v.
- • Los puntos de referencia muestran que KVarN entrega calidad q5 a 4 bits y calidad q4 a 3.5 bits, con mayor precisión que TurboQuant.
Esta implementación permite a los desarrolladores ejecutar Qwen 3.6 27B y Gemma 4 31B con huellas de memoria significativamente reducidas mientras mantienen una alta precisión.
13. Braintrust lanza Topics para el análisis de trazas de agentes a gran escala
Braintrust ha lanzado Topics, una capa de inteligencia diseñada para analizar trazas de agentes de producción a escala. Las herramientas de PNL estándar a menudo fallan al procesar trazas de un millón de tokens con cientos de tramos debido a formas de documentos no uniformes. Topics resuelve esto utilizando un resumen de LLM para hacer que el análisis sea manejable, procesando trazas a través de una canalización de preprocesamiento, incrustación, agrupación y clasificación.
- • El fundador de Braintrust, Ankur Goyal, presentó Topics, inspirado en el artículo Clio de Anthropic.
- • La canalización maneja trazas de un millón de tokens con cientos de tramos que normalmente rompen las herramientas de PNL estándar.
- • Procesa datos a través de preprocesamiento, facetas, incrustación, agrupación, denominación y clasificación.
- • La canalización utiliza un resumen de LLM para evitar ajustar las trazas sin procesar en la ventana de contexto de un modelo de incrustación.
Esto permite a los desarrolladores analizar trazas de agentes de un millón de tokens con cientos de tramos utilizando resúmenes de LLM para hacer que los datos sean manejables para la incrustación y la agrupación.
14. RedNote lanza el modelo de texto a voz de código abierto dots.tts 2B
RedNote (Xiaohongshu) ha lanzado dots.tts, un modelo de texto a voz de 2 mil millones de parámetros de código abierto bajo la licencia Apache 2.0. El modelo presenta una arquitectura totalmente continua que evita tanto los tokens de códec como las canalizaciones de fonemas, sintetizando audio de 48 kHz directamente desde el texto. También admite la clonación de voz de disparo cero.
- • dots.tts es un modelo TTS de código abierto de 2B parámetros lanzado bajo la licencia Apache 2.0.
- • Utiliza una arquitectura totalmente continua que no depende de tokens de códec.
- • El modelo admite síntesis de audio de 48 kHz y clonación de voz de disparo cero.
- • Realiza síntesis directa de texto a voz sin una canalización de fonemas.
Los desarrolladores pueden autohospedar un modelo TTS de alta calidad con licencia Apache 2.0 capaz de sintetizar audio de 48 kHz sin una canalización de fonemas.
15. El tutorial de Microsoft Fara demuestra agentes de uso de navegador en Colab
Un nuevo tutorial describe cómo ejecutar agentes de uso de navegador Microsoft Fara en Google Colab. Al utilizar un punto final simulado compatible con OpenAI, los desarrolladores pueden probar y verificar los bucles de automatización del navegador sin implementar el modelo completo Fara-7B. La configuración clona el repositorio Fara, configura Playwright y proporciona opciones para realizar la transición a implementaciones reales a través de vLLM, LM Studio o Azure Foundry.
- • El tutorial guía a los usuarios a través de la clonación del repositorio Fara, la instalación de dependencias y la configuración de Playwright.
- • Utiliza un punto final simulado compatible con OpenAI para probar el bucle del agente, evitando la necesidad de una implementación Fara-7B completa.
- • Las opciones de configuración permiten cambiar a implementaciones reales de Fara-7B a través de Azure Foundry, vLLM, LM Studio u Ollama.
- • El agente se puede ejecutar a través de fara-cli o el módulo de Python fara.run_fara.
Los desarrolladores pueden probar y verificar rápidamente los bucles de agentes de automatización del navegador en un entorno aislado sin implementar un modelo Fara-7B completo.
16. El servidor llama.cpp ahora admite el intercambio en caliente de modelos en menos de 30 segundos
El proyecto llama.cpp ha introducido una API de intercambio en caliente de modelos que permite a los desarrolladores intercambiar modelos activos en menos de 30 segundos. Esta API es compatible con OpenWebUI y Hermes, ofreciendo una mejora de rendimiento importante sobre los métodos de intercambio basados en PyTorch más antiguos. Los desarrolladores pueden implementar el servidor a través de Podman utilizando la imagen oficial del servidor CUDA 13.
- • La API de intercambio en caliente de modelos de llama.cpp es compatible con OpenWebUI y Hermes.
- • El rendimiento del intercambio de modelos es significativamente más rápido que los métodos basados en PyTorch más antiguos.
- • Hay un comando podman disponible para ejecutar el contenedor del servidor utilizando la imagen ghcr.io/ggml-org/llama.cpp:server-cuda13.
- • La configuración admite un archivo de preajustes de modelos y un límite máximo de modelos.
Los desarrolladores que ejecutan servidores LLM locales pueden cambiar dinámicamente de modelo sobre la marcha sin reiniciar el contenedor, mejorando la utilización de los recursos.
17. Unsloth lanza pesos GGUF y QAT de Gemma 4 MTP
Unsloth ha lanzado pesos GGUF de predicción de múltiples tokens (MTP) para modelos Gemma 4 en Hugging Face. Los pesos están disponibles para los tamaños de modelo 31B, 26B-A4B y 12B en formatos Q8, F16 y BF16. Además, Unsloth ha publicado una colección de modelos Gemma 4 QAT y una guía técnica correspondiente.
- • Unsloth lanzó pesos GGUF MTP para Gemma 4 en tamaños 31B, 26B-A4B y 12B.
- • Los formatos disponibles para los pesos GGUF MTP incluyen Q8, F16 y BF16.
- • Unsloth también publicó una colección de modelos Gemma 4 QAT en Hugging Face junto con una guía técnica.
Este lanzamiento proporciona a los desarrolladores formatos GGUF optimizados y listos para ejecutar de modelos Gemma 4 para la implementación local utilizando herramientas como llama.cpp.
18. NVIDIA lanza el modelo de seguridad de contenido Nemotron 3.5
NVIDIA ha lanzado Nemotron 3.5 Content Safety, un modelo diseñado para la aplicación de la seguridad empresarial. Construido para integrarse en canalizaciones de moderación de producción, el modelo admite entradas multimodales y multilingües. Cuenta con capacidades de razonamiento auditable y se puede personalizar para cumplir con pautas de seguridad empresariales específicas.
- • NVIDIA lanzó Nemotron 3.5 Content Safety para la aplicación de la seguridad empresarial.
- • El modelo admite entradas multimodales y multilingües.
- • Cuenta con capacidades de razonamiento auditable y es personalizable para necesidades empresariales específicas.
Los desarrolladores pueden integrar este modelo en canalizaciones de moderación de producción para aplicar la seguridad con capacidades de razonamiento auditable.