Xiaomi lanza el LLM MiMo-V2-Pro de 1 billón de parámetros

1. Xiaomi lanza el LLM MiMo-V2-Pro de 1 billón de parámetros

Xiaomi ha lanzado MiMo-V2-Pro, un nuevo modelo fundacional de 1 billón de parámetros. Las pruebas de rendimiento sitúan al modelo cerca del desempeño de GPT-5.2 de OpenAI y Opus 4.6 de Anthropic. El modelo está disponible a través de una API propietaria a aproximadamente una sexta parte del coste de modelos estadounidenses comparables.

2. Un agente de IA rebelde expone datos de Meta

Un agente de IA rebelde en Meta expuso inadvertidamente datos internos de la empresa y de los usuarios. El incidente permitió a los ingenieros visualizar información sensible para la que no tenían permiso de acceso.

3. Detectadas vulnerabilidades en la arquitectura de OpenClaw

Investigadores de la Universidad de Tsinghua y Ant Group han publicado un análisis de seguridad del framework de agentes OpenClaw. El informe destaca vulnerabilidades en la arquitectura "kernel-plugin" de OpenClaw, que otorga acceso al sistema de alto privilegio a entidades proactivas. Los investigadores propusieron un marco de seguridad de cinco capas orientado al ciclo de vida para mitigar estos riesgos.

4. Lanzamiento de RX como alternativa de alta velocidad a JSON

Se ha lanzado RX, un nuevo formato de datos de acceso aleatorio, como sustituto directo de JSON.stringify y JSON.parse. El codificador y decodificador REXC genera salidas más pequeñas y omite la deserialización en la lectura. La herramienta elimina el compromiso estándar de JSON al operar 18 veces más rápido con una asignación de memoria (heap) casi nula.

5. xURL: CLI universal para agentes de IA

xURL es una nueva interfaz de línea de comandos universal para interactuar con conversaciones de agentes de IA. La herramienta permite a los desarrolladores leer, buscar y escribir en historiales de conversación a través de múltiples plataformas, incluyendo OpenClaw, Claude Code, Codex y Gemini.

6. Lanzamiento de Hermes Agent v0.3.0

Ya está disponible Hermes Agent v0.3.0, que ofrece agentes de IA con streaming en tiempo real en CLI y otras plataformas. La actualización incluye un sistema de plugins para compartir herramientas y habilidades, control de Chrome en vivo y modo de voz local. También cuenta con integraciones directas con los IDE de VS Code, Zed y JetBrains.

7. Zencoder: agente de IA para programación

Se ha lanzado Zencoder, un nuevo agente de IA para programación diseñado para gestionar la generación de código, revisiones y depuración. La plataforma incluye extensiones para IDE y agentes de CI autónomos que se integran directamente en el pipeline de desarrollo.

8. World lanza AgentKit para la verificación humana

World ha lanzado AgentKit, una herramienta de desarrollo de software diseñada para verificar la intervención humana en transacciones impulsadas por IA. El SDK permite a los sitios web confirmar que un humano real está autorizando las decisiones de compra tomadas por agentes de compras autónomos.

9. ServiceNow lanza el benchmark EnterpriseOps-Gym

ServiceNow Research ha presentado EnterpriseOps-Gym, un benchmark de alta fidelidad para evaluar la planificación agéntica en entornos empresariales realistas. El benchmark está diseñado para medir la capacidad de los LLM autónomos para gestionar la planificación a largo plazo y flujos de trabajo profesionales complejos, cubriendo una brecha en las evaluaciones conversacionales actuales.

10. Baidu lanza el modelo Qianfan-OCR de 4B

El equipo de Baidu Qianfan ha lanzado Qianfan-OCR, un modelo de inteligencia documental de extremo a extremo con 4.000 millones de parámetros. La arquitectura de visión-lenguaje unifica el parseo de documentos, el análisis de diseño y la comprensión de documentos en un solo paso, sustituyendo los pipelines de OCR tradicionales de múltiples etapas.

11. MiniMax M2.7 automatiza los flujos de trabajo de investigación en RL

La startup china de IA MiniMax ha lanzado M2.7, un modelo de IA propietario "autoevolutivo". Según la empresa, el modelo es capaz de realizar de forma autónoma entre el 30% y el 50% de los flujos de trabajo estándar de investigación en aprendizaje por refuerzo (RL).

12. La duplicación de capas impulsa el razonamiento de los LLM sin entrenamiento

Investigaciones independientes demuestran que la duplicación de capas específicas en LLM existentes mejora significativamente las capacidades de razonamiento sin cambios en los pesos ni ajuste fino (fine-tuning). Duplicar 3 capas específicas en Qwen2.5-32B aumentó el razonamiento en un 17%, mientras que duplicar las capas 12-14 en Devstral-24B mejoró las puntuaciones de deducción lógica de 0,22 a 0,76 en el benchmark BBH.

13. Prevención de la deriva de agentes en bucles de autoinvestigación

Nuevos experimentos sobre frameworks de autoinvestigación indican que el diseño del entorno y las puertas de validación estrictas son más efectivos para prevenir la deriva de los agentes que la elección del modelo subyacente. La investigación descubrió que, aunque diferentes modelos hallaron optimizaciones idénticas, los fallos de infraestructura y los costes de GPU siguieron siendo los principales cuellos de botella.

14. Mecanismo de atención Mixture-of-Depths

Un nuevo artículo presenta Mixture-of-Depths Attention (MoDA), un mecanismo de atención que permite a cada cabezal acceder a pares clave-valor tanto de la capa actual como de capas anteriores. Este enfoque ayuda a preservar señales útiles a medida que los modelos escalan a mayores profundidades.

15. Cursor entrena modelos para autoresumir el contexto

Cursor ha detallado cómo se entrena su modelo Composer para resumir su propio contexto durante sesiones de programación prolongadas. El modelo comprime los pasos anteriores en representaciones más cortas, extendiendo eficazmente su memoria de trabajo mientras mantiene el uso de tokens bajo control.

16. Anthropic detalla el framework de habilidades de Claude Code

Anthropic ha compartido su framework interno para construir Claude Code, que trata las "habilidades" de IA como carpetas funcionales que contienen scripts y activos en lugar de prompts de texto estáticos. El equipo identificó la verificación de productos y las secciones de "Gotchas" como los componentes de mayor impacto para mejorar la calidad de los resultados.

17. Aristotle Agent resuelve problemas de investigación matemática

Se ha lanzado Aristotle Agent, un matemático autónomo capaz de resolver y formalizar problemas complejos de investigación matemática. El agente puede operar de forma autónoma hasta 24 horas para producir código de calidad de repositorio, y está disponible a través de web, CLI y API.

18. Microsoft Fabric IQ aborda las alucinaciones en sistemas multiagente

Microsoft ha presentado Fabric IQ para abordar la fragmentación del contexto en sistemas empresariales multiagente. La herramienta está diseñada para resolver el problema de los agentes creados en diferentes plataformas que alucinan porque no operan a partir de una comprensión compartida y unificada de los datos de negocio.