Inference Brew

Z.ai lanza el modelo de pesos abiertos GLM-5.2 con una ventana de contexto de 1 millón

00:00 / --:--

← Volver al inicio

Z.ai lanza el modelo de pesos abiertos GLM-5.2 con una ventana de contexto de 1 millón

1. Z.ai lanza el modelo de pesos abiertos GLM-5.2 con una ventana de contexto de 1 millón

El modelo incorpora optimizaciones arquitectónicas, incluyendo IndexShare, que reutiliza un indexador a través de capas de atención dispersa para reducir los FLOPs de cómputo en 2.9 veces a la longitud máxima de contexto. También incluye una capa de predicción multitoken para decodificación especulativa que aumenta la longitud de tokens aceptados hasta en un 20% durante la inferencia. Los desarrolladores también pueden acceder al modelo a través del nuevo GLM Coding Plan desde $12.60 al mes.

  • GLM-5.2 es un modelo de pesos abiertos de 753 mil millones de parámetros lanzado bajo una licencia MIT sin restricciones.
  • El modelo cuenta con una ventana de contexto de 1 millón de tokens y admite modos de pensamiento 'Max' y 'High' para ajustar el esfuerzo de razonamiento.
  • Obtuvo 62.1 en SWE-bench Pro y 74.4 en FrontierSWE, superando a GPT-5.5 en ambos benchmarks.
  • El acceso a la API tiene un precio de $1.40 por millón de tokens de entrada y $4.40 por millón de tokens de salida.
  • El modelo está disponible de inmediato en Hugging Face, Ollama para ejecución local y la API de Z.ai.

Los desarrolladores pueden alojar por cuenta propia o acceder vía API a un modelo de programación altamente capaz y con licencia MIT que compite con modelos cerrados de vanguardia a una fracción del costo.

2. SubQ 1.1 Small alcanza 12 millones de tokens de contexto con atención subcuadrática

El modelo fue entrenado utilizando una extensión de contexto por etapas seguida de aproximadamente un billón de tokens de preentrenamiento continuo en artefactos largos. Estos resultados de benchmark fueron verificados de forma independiente por Appen, demostrando la viabilidad de la atención subcuadrática para longitudes de contexto extremas.

  • SubQ 1.1 Small es la segunda iteración de la arquitectura de modelo de Atención Dispersa Subcuadrática (SSA).
  • El modelo logra una recuperación de contexto largo casi perfecta de hasta 12 millones de tokens en la prueba 'needle-in-a-haystack'.
  • En un contexto de 1 millón de tokens, requiere 64.5 veces menos cómputo que la atención densa y es 56 veces más rápido que FlashAttention-2.
  • Obtuvo 99.12% en el benchmark RULER a 128K tokens y 85.4% en GPQA Diamond.
  • El modelo está actualmente desplegado con socios de diseño seleccionados, con lanzamientos más amplios planeados para finales de 2026.

Los desarrolladores pueden procesar bases de código masivas o conjuntos de documentos localmente con requisitos de cómputo drásticamente reducidos y velocidades de inferencia más rápidas.

SOURCES

3. Qwable-v1, modelo de pesos abiertos destilado de Claude Fable-5

Claude Fable-5 presentaba un clasificador anti-destilación que redactaba bloques de pensamiento dentro de su API, pero los investigadores evitaron esto entrenando con trazas en texto plano. El modelo resultante Qwable-v1 y su conjunto de datos SFT ya están disponibles públicamente en Hugging Face, ofreciendo una alternativa local para tareas complejas de ingeniería de software.

  • Qwable-v1 se basa en la arquitectura Qwen3.6-35B-A3B y se lanza bajo la licencia AGPL-3.0.
  • El modelo fue destilado de Claude Fable-5, el cual fue suspendido debido a directivas de control de exportación de EE. UU. tras un breve lanzamiento.
  • Fue entrenado con 4,659 trazas de programación agentica en texto plano del corpus Glint-Research/Fable-5-traces.
  • El entrenamiento tomó aproximadamente 14 horas en una sola GPU NVIDIA H200.
  • Qwable-v1 conserva la capacidad de emitir llamadas a herramientas en formato XML, incluida la herramienta str_replace_editor.

Los desarrolladores pueden ejecutar un modelo local de pesos abiertos optimizado para tareas de programación agentica y llamadas a herramientas en formato XML sin depender de APIs costosas o restringidas.

SOURCES

4. VibeThinker-3B, modelo de razonamiento pequeño que alcanza puntuaciones de programación de vanguardia

La alta tasa de éxito del modelo en desafíos de programación no vistos indica fuertes capacidades de generalización a pesar de su pequeño tamaño. El artículo de investigación que detalla la arquitectura y la metodología de entrenamiento está disponible en Hugging Face.

  • VibeThinker-3B es un modelo de lenguaje pequeño diseñado para probar el razonamiento verificable en un régimen denso en parámetros.
  • El modelo logró una tasa de éxito del 96.1% en concursos recientes de LeetCode no vistos, superando 123 de 128 envíos en Python al primer intento.
  • Obtuvo 94.3 en el benchmark matemático AIME'26 y 80.2 en LiveCodeBench v6.
  • Los ajustes de evaluación utilizaron vLLM y Sglang con una temperatura de 1.0 y top_p de 0.95.

Los desarrolladores pueden aprovechar un modelo altamente compacto de 3 mil millones de parámetros para tareas locales de programación y razonamiento matemático de baja latencia.

SOURCES

5. Microsoft lanza el modelo FastContext 4B para exploración de repositorios

La exploración de repositorios es un cuello de botella importante para los agentes de programación, que a menudo requiere ventanas de contexto masivas o consultas de búsqueda costosas. FastContext proporciona una alternativa ligera y especializada que agiliza la forma en que los agentes navegan y recuperan código de grandes repositorios.

  • FastContext es un modelo de 4 mil millones de parámetros lanzado por Microsoft en Hugging Face.
  • El modelo está optimizado específicamente para la recuperación eficiente de código y la exploración de repositorios por parte de agentes de programación.
  • Permite que los agentes de programación de código abierto compitan con modelos de código cerrado en el benchmark SWE-Bench Multilingual.
  • El modelo se basa en el artículo de investigación "FastContext: Training Efficient Repository Explorer for Coding Agents."

Los desarrolladores pueden integrar este modelo especializado de 4B en sus pipelines de agentes de programación para mejorar la recuperación de código a escala de repositorio sin depender de costosos modelos de código cerrado.

SOURCES

6. Microsoft parchea vulnerabilidad crítica en Copilot que exponía códigos 2FA

La cadena de explotación demuestra cómo los atacantes pueden usar lenguaje de marcado o etiquetas HTML incrustadas en contenido de terceros para forzar al LLM a exfiltrar datos a través de solicitudes web. Microsoft parcheó la vulnerabilidad la semana pasada, pero el vector de ataque destaca los desafíos continuos en la seguridad de los flujos de trabajo agenticos que procesan datos externos.

  • La vulnerabilidad permitía a los atacantes recuperar códigos 2FA y datos confidenciales de correos electrónicos accesibles para Copilot.
  • La firma de seguridad Varonis desarrolló la cadena de explotación utilizando "Inyección de Parámetro a Prompt" a través de parámetros de consulta URL.
  • La explotación evitó las protecciones existentes de Microsoft, que incluyen envolver la salida en bloques y restringir sitios web no confiables.
  • La causa raíz es la incapacidad fundamental de los LLMs para distinguir entre las instrucciones del usuario y el contenido de terceros no confiable.

Los desarrolladores que crean aplicaciones de LLM pueden evitar que el contenido de terceros secuestre las instrucciones del modelo y exfiltre datos confidenciales de los usuarios.

SOURCES

7. Ingenieros de Cursor y Graphite anuncian Origin, un competidor de Git enfocado en agentes

Los sistemas de control de versiones tradicionales como Git pueden ser difíciles de navegar para los agentes autónomos debido a la complejidad de las ramas y los conflictos de fusión. Origin soluciona esto proporcionando interfaces amigables para agentes y herramientas de resolución automatizada, facilitando la integración de agentes de programación directamente en los pipelines de CI/CD de producción.

  • Origin es una nueva plataforma de control de versiones diseñada para ser altamente escalable para cargas de trabajo de agentes de IA.
  • La plataforma es totalmente extensible a través de APIs y el Protocolo de Contexto de Modelo (MCP).
  • Cuenta con herramientas automatizadas integradas para la resolución de conflictos de fusión y la resolución de fallos en CI/CD.
  • El producto fue anunciado por Tomas Reimers, ingeniero en Cursor y Graphite.

Los desarrolladores pueden crear flujos de trabajo agenticos que interactúen con el control de versiones de manera más confiable utilizando APIs nativas, soporte para MCP y resolución automatizada de conflictos.

SOURCES

8. DeLM de Stanford reduce los costos multi-agente en un 50% sin orquestadores

Los sistemas multi-agente tradicionales dependen de un orquestador central, lo que introduce una sobrecarga de comunicación significativa y costos de API. Al descentralizar la coordinación y permitir que los agentes lean y escriban en una base de datos de resúmenes compartida, DeLM paraleliza la ejecución y elimina llamadas redundantes a LLMs.

  • DeLM permite que los agentes de IA se coordinen directamente utilizando una base de conocimientos compartida de resúmenes llamados "gists" y una cola de tareas.
  • El marco de trabajo redujo los costos de las tareas en aproximadamente un 50% y tuvo un rendimiento 10.5% mejor que la línea base más fuerte en SWE-bench Verified.
  • Los agentes comparten hallazgos verificados, fallos documentados y restricciones para evitar la exploración redundante.
  • Un sistema desplegable proporciona resúmenes compactos por defecto, permitiendo a los agentes acceder a evidencia detallada solo cuando es necesario.
  • DeLM logró la mayor precisión en cuatro familias de modelos principales en el benchmark LongBench-v2 Multi-Doc QA.

Los desarrolladores pueden crear aplicaciones multi-agente altamente paralelas y rentables que eviten los cuellos de botella de latencia y comunicación de los orquestadores centralizados.

SOURCES

9. Databricks lanza Lakehouse//RT y LTAP para datos de agentes en tiempo real

Los agentes de IA a menudo luchan con datos obsoletos debido a la latencia de los pipelines ETL tradicionales. Al combinar el procesamiento transaccional y analítico directamente en la capa de almacenamiento, Databricks busca simplificar el stack de datos, permitiendo que los agentes tomen decisiones basadas en datos operativos en tiempo real.

  • Lakehouse//RT ofrece una latencia de consulta inferior a 100ms directamente en tablas Delta e Iceberg, eliminando la necesidad de una capa de servicio dedicada en tiempo real.
  • El motor de cómputo Reyden maneja servicios de alta concurrencia y baja latencia, alcanzando hasta 12,000 consultas por segundo.
  • LTAP (Lake Transactional/Analytical Processing) almacena automáticamente datos transaccionales nativos de Postgres en formatos Delta e Iceberg en el momento de la escritura.
  • La arquitectura utiliza Lakebase, un servicio de base de datos PostgreSQL en la nube sin servidor, para unificar los datos en la capa de almacenamiento.
  • LTAP realiza la conversión de filas a columnas en una capa de caché para minimizar los costos de red.

Los desarrolladores pueden crear agentes de IA que consulten bases de datos operativas y analíticas en vivo directamente con una latencia inferior a 100ms, eliminando la necesidad de complejos pipelines ETL.

SOURCES

10. cuTile Rust permite el desarrollo seguro y de alto rendimiento de kernels de GPU

Escribir kernels de CUDA personalizados es notoriamente propenso a errores y difícil de depurar. cuTile Rust soluciona esto llevando las garantías de seguridad en tiempo de compilación de Rust a la programación de GPU, admitiendo lanzamientos síncronos, pipelines asíncronos y repeticiones de grafos CUDA bajo la Licencia Apache, Versión 2.0.

  • cuTile Rust utiliza una macro procedimental para compilar JIT los AST de Rust en cubins de GPU a través de CUDA Tile IR.
  • En una GPU NVIDIA B200, alcanza 2 PFlop/s para GEMM, representando el 92% del rendimiento máximo denso f16.
  • El motor de inferencia Grout, construido sobre cuTile, ejecuta Qwen3-4B a 171 tokens/segundo en una RTX 5090.
  • El sistema extiende la disciplina de propiedad de Rust a través del límite de lanzamiento de la GPU para evitar carreras de datos.
  • Requiere una GPU NVIDIA con capacidad de cómputo sm_80 o superior, CUDA 13.3 y Rust 1.89 o posterior.

Los desarrolladores que crean motores de inferencia locales personalizados o que optimizan la ejecución de modelos pueden escribir kernels de GPU seguros en Rust sin sacrificar el rendimiento bruto de CUDA.

SOURCES

11. La biblioteca Fast-Walk acelera el análisis de AST de Python en 220x

El análisis de AST estándar de Python puede convertirse en un cuello de botella importante cuando los agentes generan y validan código de forma iterativa. Al reemplazar el ast.walk de la biblioteca estándar con esta implementación optimizada en Rust, los desarrolladores pueden acelerar el bucle de validación de sus agentes de programación.

  • La biblioteca fast-walk se desarrolló para resolver cuellos de botella de rendimiento en el linter Reflex AI al procesar código Python generado.
  • La transliteración de la lógica de recorrido a Rust utilizando PyO3 produjo una mejora de rendimiento acumulativa inicial del 78%.
  • Las optimizaciones, incluyendo el acceso directo a diccionarios y la precomputación de información de subclases de AST en una tabla de 2KB, lograron una aceleración final de 220x.
  • El código fuente es de código abierto y está disponible en GitHub bajo el repositorio reflex-dev/fast-walk.

Los desarrolladores que crean herramientas de generación de código, linters o agentes de LLM pueden reducir drásticamente la latencia de análisis y evaluación de ASTs de Python.

SOURCES

12. Fireworks y LangChain crean un juez de trazas de chatbot 100 veces más barato

Evaluar las interacciones de chatbot normalmente requiere que costosos LLMs de vanguardia actúen como jueces. Al ajustar un modelo más pequeño y especializado en trazas de interacción específicas, Fireworks y LangChain demostraron que los desarrolladores pueden lograr una precisión de evaluación de nivel de producción sin los altos costos de API.

  • El juez de trazas se basa en el modelo Qwen-3.5-35B y está diseñado para detectar errores identificados por el usuario.
  • El ajuste fino del modelo con datos de chat-langchain le permitió igualar o superar el rendimiento de los modelos de vanguardia.
  • El juez ajustado opera a un costo aproximadamente 100 veces menor que el uso de modelos de vanguardia para la evaluación.

Los desarrolladores pueden evaluar y monitorear el rendimiento de los chatbots a una fracción del costo de usar modelos de vanguardia para la evaluación de trazas.

SOURCES

13. Artificial Analysis actualiza el Índice de Inteligencia para enfocarse en cargas de trabajo agenticas

El benchmark actualizado GDPval-AA v2 re-establece el Elo al rendimiento humano en 1000, utiliza un panel rotativo de jueces de modelos de vanguardia y aumenta el límite de turnos a 250. Los tiempos de finalización de tareas en el índice varían ampliamente, desde 1.5 minutos para Grok 4.3 (high) hasta 13.5 minutos para Claude Sonnet 4.6 (max).

  • Intelligence Index v4.1 introduce tres nuevas métricas por tarea: costo por tarea, tiempo por tarea y tokens por tarea.
  • La actualización mejora varios benchmarks, incluyendo Terminal-Bench 2.1 y τ³-Bench Banking, mientras elimina el saturado IFBench.
  • Claude Opus 4.8 (max) lidera los modelos disponibles con una puntuación de 56, seguido de cerca por GPT-5.5 (xhigh) con 55.
  • DeepSeek V4 Pro (max) y MiniMax M3 lideran la categoría de pesos abiertos, ambos con una puntuación de 44.
  • El índice informa que DeepSeek V4 Pro (max) cuesta $0.04 por tarea, en comparación con $1.78 para Claude Opus 4.8 y $0.99 para GPT-5.5 (xhigh).

Los desarrolladores pueden comparar modelos de vanguardia y de pesos abiertos utilizando métricas concretas enfocadas en agentes, como el costo y el tiempo de ejecución por tarea.

SOURCES

14. Análisis advierte sobre problemas de rendimiento en destilaciones de Claude a pequeña escala

Aunque los modelos destilados prometen capacidades de nivel de vanguardia en paquetes de pesos abiertos más pequeños, el bajo volumen de datos de ajuste fino a menudo no logra capturar comportamientos de razonamiento complejos. Se recomienda a los desarrolladores realizar evaluaciones independientes para sus casos de uso específicos en lugar de asumir que las variantes destiladas son inherentemente superiores a los modelos base.

  • Las destilaciones recientes suelen utilizar solo de 4,000 a 10,000 muestras, lo que puede ser demasiado bajo para mejorar la calidad del modelo.
  • Estos modelos destilados pueden exhibir mayores alucinaciones y un rendimiento más lento en comparación con el modelo base Qwen 3.6.
  • Las destilaciones exitosas, como DeepSeek-R1, suelen requerir conjuntos de datos mucho más grandes de alrededor de 700,000 muestras.
  • Se ha informado que el modelo Qwopus, destilado de Claude Opus 4.8, exhibe alucinaciones y una ejecución más lenta.

Los desarrolladores pueden evitar la degradación del rendimiento y las alucinaciones en sus aplicaciones que resultan del despliegue de modelos destilados mal entrenados.

SOURCES

15. Configuración de desarrollador y benchmarks para programación agentica local

Aunque los modelos locales se han vuelto significativamente más capaces para tareas de programación en los últimos seis meses, el autor señala que aún no están listos para el desarrollo de software en producción. Se recomienda aislar el servidor de inferencia y el arnés de agentes en Docker para restringir el acceso al sistema durante la ejecución.

  • La configuración utiliza la familia de modelos Gemma 4, específicamente gemma-4-26b-a4b y gemma-4-12b-qat, en una Mac M2 con 64 GB de RAM.
  • Se estima que la programación agentica local opera aproximadamente al 75% de la precisión y velocidad de los modelos de vanguardia de código cerrado.
  • La arquitectura ejecuta LM Studio como servidor de inferencia y Pi como arnés de agentes, ambos aislados dentro de contenedores Docker.
  • Las limitaciones clave incluyen velocidades de inferencia lentas, ventanas de contexto limitadas y desajustes ocasionales en las plantillas de prompt.

Los desarrolladores pueden tomar como referencia esta arquitectura del mundo real para configurar entornos de programación locales y aislados, comprendiendo al mismo tiempo las compensaciones de rendimiento actuales.

SOURCES

16. Anthropic pausa la facturación API planificada para Claude Agent SDK

El cambio de facturación original, anunciado el 13 de mayo, tenía como objetivo tratar el uso del Claude Agent SDK por separado del uso de la interfaz de chat estándar o la CLI oficial. El análisis indica que los suscriptores de Claude Opus pueden ahorrar dinero en costos de uso de API después de enviar solo dos o tres mensajes por día bajo el modelo de suscripción actual.

  • Anthropic pausó los cambios de precios justo antes de que estuvieran programados para entrar en vigor el 15 de junio.
  • Los usuarios del Agent SDK pueden seguir utilizando sus límites de suscripción de Claude existentes en lugar de ser facturados a tarifas de API separadas.
  • El plan pausado habría facturado el uso del SDK a tarifas de API estándar, compensado por un crédito mensual igual al precio de la suscripción.
  • Bajo los niveles de suscripción actuales, el uso del Agent SDK sigue limitado solo por los límites semanales estándar.

Los desarrolladores que crean con el Claude Agent SDK pueden evitar cargos inesperados de API y seguir aprovechando sus límites de suscripción existentes para cargas de trabajo agenticas.

SOURCES

Inference Brew en tu correo

5 minutos al día. Gratis, cancela cuando quieras.

Inference Brew en tu correo

5 minutos al día. Gratis, cancela cuando quieras.