1. Investigadores presentan modelos de lenguaje de contexto latente para una compresión de entrada de 16x
Investigadores de NYU, Columbia, Princeton y otras instituciones han presentado los Latent Context Language Models (LCLMs), una familia de modelos codificador-decodificador de código abierto diseñados para resolver cuellos de botella computacionales en el procesamiento de contexto largo. Al combinar un codificador de 0.6B con un decodificador de 4B, los LCLMs comprimen las secuencias de tokens de entrada antes de que lleguen al decodificador. Este enfoque genera una aceleración de hasta 8.8 veces sobre las líneas base de caché KV estándar con una compresión de 16x, superando a otros métodos de compresión en precisión.
- • Los LCLMs son una familia de modelos codificador-decodificador de código abierto que comprimen secuencias de tokens de entrada antes de que lleguen al decodificador.
- • En el benchmark RULER, los LCLMs con compresión de 16x produjeron resultados 8.8 veces más rápido que las líneas base de caché KV.
- • Con una compresión de 4x, los LCLMs lograron un 91.76% de precisión en RULER, en comparación con el 94.41% sin compresión.
- • Con una compresión de 16x, los LCLMs lograron un 75.06% de precisión, superando a todos los métodos de caché KV probados con la misma proporción.
- • La arquitectura combina un codificador de 0.6B con un decodificador de 4B y fue entrenada con más de 350 mil millones de tokens.
- • Los modelos son de código abierto en HuggingFace y el código está disponible en GitHub.
Esta arquitectura de código abierto permite a los desarrolladores procesar ventanas de contexto masivas hasta 8.8 veces más rápido mientras mantienen una alta precisión.
2. Anthropic revierte su política sobre las barreras de seguridad silenciosas de Claude Fable 5
Anthropic se ha disculpado y ha revertido una política controvertida que degradaba silenciosamente las respuestas de su nuevo modelo Claude Fable 5. La empresa había implementado barreras de seguridad invisibles para evitar que competidores e investigadores utilizaran las salidas de Fable 5 para la destilación de modelos, lo cual está prohibido por sus términos de servicio. Tras una reacción generalizada por la degradación silenciosa del rendimiento y los bloqueos de seguridad excesivamente amplios, Anthropic notificará explícitamente a los usuarios cuando una consulta active una medida de seguridad y redirigirá esas solicitudes a su modelo insignia anterior, Claude Opus 4.8.
- • Anthropic se disculpó por limitar sigilosamente a Claude Fable 5 utilizando barreras de seguridad ocultas diseñadas para evitar la destilación de modelos.
- • La empresa alteró y degradó previamente las respuestas a consultas sospechosas de destilación sin notificar a los usuarios.
- • Anthropic está cambiando su enfoque, redirigiendo las consultas sospechosas de destilación a Claude Opus 4.8 y notificando explícitamente a los usuarios sobre el cambio.
- • Fable es el primer modelo ampliamente disponible en la clase de sistemas de IA Mythos de Anthropic.
- • Anthropic reconoció que las salvaguardas en áreas como la biología estaban calibradas de forma tan amplia que Fable a veces era inutilizable para consultas básicas.
- • La reversión de la política sigue a una reacción significativa de la comunidad de investigación de IA con respecto a las limitaciones silenciosas.
Los desarrolladores que utilizan Claude Fable 5 ya no experimentarán una degradación silenciosa del rendimiento y recibirán notificaciones explícitas si sus consultas son redirigidas a Claude Opus 4.8.
3. xAI lanza el mercado de complementos Grok Build
xAI ha lanzado el mercado de complementos Grok Build, estableciendo un catálogo integrado para su agente de codificación nativo de terminal. El mercado permite a los desarrolladores instalar paquetes que agrupan habilidades, comandos de barra diagonal, agentes, ganchos, servidores MCP y protocolos de servidor de lenguaje (LSPs). Para garantizar la seguridad de la cadena de suministro, la plataforma aplica el anclaje de SHA de confirmación de 40 caracteres y vuelve a verificar los hashes después de la clonación. El mercado se lanzó con seis complementos de socios, incluidas integraciones para Vercel, MongoDB y Cloudflare.
- • El mercado de complementos Grok Build es un catálogo integrado para el agente de codificación de terminal de xAI, Grok Build.
- • Los complementos agrupan habilidades, comandos de barra diagonal, agentes, ganchos, servidores MCP y LSPs en un solo paquete.
- • Los socios de lanzamiento incluyen MongoDB, Vercel, Sentry, Chrome DevTools, Cloudflare y Superpowers.
- • Cada complemento remoto utiliza el anclaje de SHA de confirmación de 40 caracteres, que Grok Build vuelve a verificar después de la clonación para la seguridad de la cadena de suministro.
- • El catálogo está abierto a contribuciones de la comunidad a través de solicitudes de extracción (pull requests) en GitHub.
- • El acceso requiere una suscripción paga a SuperGrok o X Premium Plus.
Los desarrolladores que utilizan Grok Build ahora pueden ampliar fácilmente su agente de terminal con habilidades preempaquetadas, servidores MCP y herramientas de proveedores como Vercel y MongoDB.
4. Perplexity integra Deep Research en su orquestador multimodelo
Perplexity ha integrado sus capacidades de Deep Research en 'Computer', un sistema de orquestación multimodelo que coordina hasta 20 modelos de IA de frontera utilizando Opus 4.6 como su motor de razonamiento central. Operando bajo un paradigma de 'Búsqueda como Código', el sistema escribe y ejecuta código para realizar miles de pasos de recuperación paralelos, cruzando datos web en vivo con archivos PDF y hojas de cálculo cargados. Si bien la función está integrada en Perplexity Max, los desarrolladores pueden acceder a la pila de búsqueda agentica subyacente a través de una API de agente de pago por uso.
- • Perplexity integró Deep Research en 'Computer', un sistema de orquestación que coordina hasta 20 modelos de frontera.
- • El sistema utiliza un enfoque de 'Búsqueda como Código', escribiendo y ejecutando código para realizar miles de pasos de recuperación paralelos.
- • Los desarrolladores pueden acceder a esta pila de búsqueda agentica a través de una API de agente de pago por uso.
- • El sistema puede procesar archivos internos como PDF y hojas de cálculo junto con datos web en vivo.
- • Perplexity informó mejoras en los benchmarks, con la precisión de BrowseComp aumentando del 40.7% al 83.8%.
Los desarrolladores ahora pueden acceder a la búsqueda agentica avanzada y a la pila de orquestación multimodelo de Perplexity a través de una API de agente de pago por uso.
5. Microsoft lanza SkillOpt para optimizar automáticamente las habilidades de los agentes
Microsoft ha publicado como código abierto SkillOpt, un marco con licencia MIT diseñado para optimizar sistemáticamente las habilidades de los agentes de IA. En lugar de modificar los pesos del modelo subyacente, SkillOpt trata los documentos de habilidades en formato markdown basados en texto como objetos entrenables, aplicando conceptos de aprendizaje profundo como tasas de aprendizaje, puertas de validación y momento para refinar las instrucciones. El marco ejecuta un bucle iterativo de propuesta y prueba que separa el modelo de ejecución de tareas del modelo optimizador, produciendo artefactos de habilidades compactos y portátiles que evitan modos de falla comunes como la deriva de habilidades.
- • SkillOpt es un marco de código abierto con licencia MIT que optimiza las habilidades de los agentes de IA tratando los documentos de habilidades en markdown como objetos entrenables.
- • El marco utiliza técnicas de optimización al estilo del aprendizaje profundo, incluyendo tasas de aprendizaje, puertas de validación y momento.
- • Opera a través de un bucle iterativo de propuesta y prueba que separa el modelo de ejecución de tareas del modelo optimizador.
- • Los artefactos de habilidades optimizados son compactos (longitud media de ~920 tokens) y portátiles a través de diferentes arneses de ejecución y escalas de modelo.
- • SkillOpt superó a métodos existentes como TextGrad, GEPA y EvoSkill en 52 combinaciones de modelos y benchmarks.
- • Entrenar una habilidad para una sola tarea generalmente cuesta entre $1 y $5 en tarifas de API.
Los desarrolladores pueden mejorar sistemáticamente el rendimiento de los agentes y prevenir la deriva de habilidades tratando las instrucciones de los prompts en markdown como activos entrenables y portátiles.
6. Xiaomi publica el código abierto del asistente de codificación de terminal MiMo Code
Xiaomi ha anunciado MiMo Code V0.1.0, un asistente de codificación de IA nativo de terminal de código abierto lanzado bajo la licencia MIT. Derivado del agente OpenCode, MiMo Code está diseñado para manejar tareas de ingeniería de software complejas y ultra largas que superan los 200 pasos. Utiliza un sistema de memoria entre sesiones SQLite FTS5 y un subagente de escritura de puntos de control para gestionar el contexto. Xiaomi afirma que la herramienta supera a Claude Code en los benchmarks de SWE-bench cuando se combina con su modelo MiMo-V2.5-Pro, y admite backends estándar compatibles con OpenAI.
- • Xiaomi lanzó MiMo Code V0.1.0 en GitHub bajo una licencia MIT como una bifurcación del agente OpenCode.
- • La herramienta cuenta con un sistema de memoria entre sesiones que utiliza SQLite FTS5 y un subagente dedicado de escritura de puntos de control.
- • Xiaomi afirma que MiMo Code combinado con MiMo-V2.5-Pro supera a Claude Code en SWE-bench Verified y SWE-bench Pro.
- • El asistente incluye mecanismos de automejora, un modo Compose para el desarrollo autónomo y control por voz.
- • Proporciona acceso gratuito por tiempo limitado al modelo MiMo-V2.5, que cuenta con una ventana de contexto de 1 millón de tokens.
- • La herramienta admite backends de terceros, incluidas API compatibles con OpenAI y DeepSeek.
Los desarrolladores pueden adoptar una alternativa gratuita y de código abierto a Claude Code que está optimizada para tareas de ingeniería de software de contexto largo y múltiples pasos.
7. Nous Research lanza el generador de perfiles de agente Hermes
Nous Research ha lanzado el Profile Builder para su agente Hermes de código abierto, integrado directamente en el panel web local del proyecto. La herramienta proporciona un flujo guiado para configurar los ajustes del agente, lo que permite a los desarrolladores gestionar perfiles de agente aislados que mantienen bases de datos separadas de memoria, sesiones, habilidades, trabajos cron y estado. El generador escribe las configuraciones directamente en los archivos YAML y de entorno nativos del agente, admitiendo los principales proveedores de modelos y puntos finales personalizados compatibles con OpenAI.
- • El Profile Builder está integrado en el panel web local del agente Hermes, ejecutándose en localhost de forma predeterminada.
- • Los perfiles del agente Hermes funcionan como directorios de inicio aislados con bases de datos separadas de memoria, sesiones, habilidades y estado.
- • El generador permite a los usuarios configurar la identidad del agente, seleccionar proveedores de modelos, gestionar habilidades y adjuntar servidores MCP.
- • Los proveedores admitidos incluyen Nous Portal, OpenRouter, NVIDIA, OpenAI y puntos finales personalizados compatibles con OpenAI.
- • La herramienta escribe las configuraciones directamente en los archivos config.yaml y .env utilizados por la CLI del agente Hermes.
- • Las limitaciones actuales incluyen la falta de aislamiento del sistema de archivos local y la necesidad de reiniciar las sesiones para que los cambios surtan efecto.
Los desarrolladores ahora pueden configurar visualmente identidades de agentes, habilidades y servidores MCP en entornos aislados sin editar manualmente los archivos YAML.
8. El proyecto Open R1 lanza conjuntos de datos y recetas para la replicación de DeepSeek-R1
El proyecto Open R1 ha logrado un progreso significativo hacia una reproducción totalmente abierta de la tubería de DeepSeek-R1 mediante el lanzamiento de varios conjuntos de datos y recetas de entrenamiento de alta calidad. Estos incluyen el conjunto de datos Mixture-of-Thoughts con 350k trazas de razonamiento verificadas, el conjunto de datos CodeForces-CoTs para programación competitiva y el conjunto de datos OpenR1-Math-220k. Los desarrolladores pueden aprovechar estos recursos junto con marcos como DeepSpeed y vLLM para entrenar y destilar capacidades de razonamiento en modelos base más pequeños.
- • El proyecto Open R1 tiene como objetivo proporcionar una reproducción totalmente abierta de la tubería de DeepSeek-R1, incluidos datos sintéticos y entrenamiento.
- • El proyecto lanzó el conjunto de datos Mixture-of-Thoughts que contiene 350k trazas de razonamiento verificadas y una receta para el modelo OpenR1-Distill-7B.
- • También lanzó el conjunto de datos CodeForces-CoTs de 10k problemas de programación competitiva y el conjunto de datos OpenR1-Math-220k.
- • La tubería admite el ajuste fino supervisado (SFT) y la optimización de políticas relativas de grupo (GRPO) utilizando DDP, DeepSpeed y vLLM.
- • El proyecto requiere versiones de software específicas, incluyendo CUDA 12.4, Python 3.11 y PyTorch v2.6.0.
Los desarrolladores pueden utilizar estos conjuntos de datos y recetas abiertos para ajustar sus propios modelos locales con capacidades de razonamiento avanzadas.
9. Coinbase lanza agentes de trading de IA con el protocolo de pago x402
Coinbase ha introducido nuevos agentes de IA capaces de ejecutar operaciones de cripto al contado y derivados, reequilibrar carteras y comprar investigación premium. Fundamentalmente, los agentes aprovechan el nuevo protocolo de pago x402, desarrollado en colaboración con AWS, Anthropic, Circle y Near, para pagar datos de investigación y computación sobre una base de pago por uso sin suscripciones. Los desarrolladores pueden integrar estas capacidades directamente en ChatGPT o Claude utilizando un servidor MCP proporcionado.
- • Coinbase lanzó agentes de IA que pueden ejecutar operaciones, reequilibrar carteras y pagar por investigación premium.
- • Los agentes aprovechan el nuevo protocolo de pago x402, desarrollado con AWS, Anthropic, Circle y Near, para pagar por investigación y computación sin suscripciones.
- • El agente se puede integrar en ChatGPT o Claude a través de un servidor MCP.
- • Los usuarios pueden ejecutar el agente dentro de su cuenta principal u operarlo dentro de un entorno aislado (sandbox).
- • Las futuras actualizaciones introducirán límites personalizados para el tamaño de las operaciones, la interacción con el servicio y el gasto.
Los desarrolladores ahora pueden crear agentes financieros que paguen de forma autónoma por servicios de API, computación y datos de investigación sin requerir suscripciones tradicionales.
10. Cursor actualiza Bugbot con una aceleración de 3x y menores costos
Cursor ha lanzado una actualización importante para su herramienta de revisión de código automatizada, Bugbot. La herramienta ahora funciona más de tres veces más rápido, con la mayoría de las revisiones de código completándose en menos de tres minutos. Además de las mejoras de velocidad, la actualización reduce los costos de ejecución en un 22% y aumenta la tasa de detección de errores en un 10% por revisión.
- • Cursor actualizó su herramienta Bugbot para que funcione más de 3 veces más rápido que las versiones anteriores.
- • La actualización redujo el costo de ejecutar Bugbot en un 22%.
- • Bugbot ahora encuentra un 10% más de errores por revisión después de la actualización.
- • La mayoría de las ejecuciones de Bugbot ahora se completan en menos de tres minutos.
Los desarrolladores que utilizan Cursor ahora pueden ejecutar revisiones de código automatizadas más rápidas, económicas y precisas directamente dentro de su flujo de trabajo.
11. Show HN: Boo, multiplexor de terminal construido sobre libghostty
Un nuevo multiplexor de terminal llamado boo ha sido lanzado bajo la licencia MIT. Escrito en Zig y potenciado por el núcleo de emulación de terminal libghostty-vt, boo funciona como un multiplexor al estilo GNU screen con persistencia de sesión. Fundamentalmente para los desarrolladores de IA, incluye primitivas de automatización nativas como 'send', 'peek' y 'wait', lo que permite a los scripts y agentes de IA autónomos interactuar directamente con las sesiones de terminal sin necesidad de un TTY estándar.
- • boo es un multiplexor de terminal al estilo GNU screen escrito en Zig y construido sobre el núcleo libghostty-vt.
- • La herramienta mantiene un estado de pantalla preciso, incluidos estilos SGR, posición del cursor y modos de terminal.
- • Proporciona primitivas de automatización como 'send', 'peek' y 'wait' para que los scripts y agentes de IA interactúen con las sesiones sin un TTY.
- • El software incluye un gestor de sesiones de pantalla completa accesible a través del comando 'boo ui'.
- • Se lanza bajo la licencia MIT y requiere Zig 0.15.2 para compilar desde el código fuente.
Los desarrolladores pueden utilizar las primitivas de automatización integradas de Boo para permitir que los agentes de IA interactúen con las sesiones de terminal de forma programática sin requerir un TTY.