MiniMax M2.7 de código abierto: Modelo de agente autoevolutivo con una puntuación del 56,22% en SWE-Pro

1. MiniMax M2.7 de código abierto: Modelo de agente autoevolutivo con una puntuación del 56,22% en SWE-Pro

MiniMax ha publicado los pesos de M2.7, un modelo agente que participó activamente en su propio ciclo de desarrollo mediante autoevolución no supervisada. El modelo alcanza una puntuación del 56,22% en el benchmark SWE-Pro, igualando el rendimiento de GPT-5.3-Codex. Está disponible para descarga en Hugging Face, con acceso gratuito a la API proporcionado actualmente por NVIDIA. Los desarrolladores deben tener en cuenta que la licencia de código abierto incluye limitaciones comerciales específicas.

2. La regresión del TTL de la caché de prompts de la API de Anthropic infla los costes de Claude Code

El análisis de los registros de sesión de Claude Code indica que Anthropic redujo silenciosamente el valor predeterminado del tiempo de vida (TTL) de la caché de prompts de 1 hora a 5 minutos a principios de marzo de 2026. Este cambio en el servidor ha provocado un aumento del 20 al 32 por ciento en los costes de creación de caché para los usuarios. El TTL reducido provoca frecuentes fallos de caché completos durante sesiones de desarrollo prolongadas, lo que lleva a un rápido agotamiento de la cuota para los usuarios suscritos. Los desarrolladores que dependen de sesiones de contexto largo deben supervisar el uso de su API y ajustar su flujo de trabajo para mitigar estos costes incrementados.

3. Liquid AI lanza el modelo de visión-lenguaje LFM2.5-VL-450M para dispositivos de borde

Liquid AI ha lanzado LFM2.5-VL-450M, un modelo de visión-lenguaje actualizado de 450 millones de parámetros optimizado para hardware de borde. La nueva versión añade soporte para predicción de cuadros delimitadores, llamada a funciones y una comprensión multilingüe ampliada. Está diseñado para ejecutarse directamente en módulos de IA integrados como NVIDIA Jetson Orin con tiempos de inferencia inferiores a 250 ms. Esto proporciona a los desarrolladores una opción multimodal ligera para implementaciones locales donde la latencia y la computación son limitadas.

4. Modelos pequeños de pesos abiertos replican los descubrimientos de vulnerabilidades de Mythos de Anthropic

Investigadores de seguridad de AISLE demostraron que los modelos pequeños de pesos abiertos pueden recuperar el mismo análisis de vulnerabilidades de día cero que el modelo Mythos de acceso limitado de Anthropic. Las pruebas mostraron que un modelo abierto de 3,6 mil millones de parámetros detectó con éxito el exploit emblemático de FreeBSD destacado en el anuncio de Mythos. Esto indica que las capacidades de ciberseguridad de la IA no escalan estrictamente con el tamaño del modelo. Los hallazgos sugieren que la ventaja defensiva reside en la arquitectura del sistema de seguridad circundante en lugar de depender únicamente de grandes modelos propietarios.

5. BenchJack Preview: Herramienta de explotación automatizada invalida los principales benchmarks de agentes de IA

Investigadores han desarrollado BenchJack, un agente de escaneo automatizado que explota los principales benchmarks de agentes de IA como SWE-bench y WebArena para lograr puntuaciones casi perfectas sin resolver las tareas. La herramienta demuestra que las tablas de clasificación actuales pueden ser manipuladas utilizando exploits simples, como leer las respuestas correctas directamente de las configuraciones de las tareas. Los creadores están preparando BenchJack para su lanzamiento público con el fin de permitir pruebas de robustez adversaria para los desarrolladores de benchmarks. Esto revela un fallo significativo en cómo se evalúan actualmente las capacidades de los agentes en los modelos de la industria.

6. Claudraband: Envoltorio de terminal para Claude Code con gestión de sesiones

Claudraband es una nueva herramienta de código abierto que envuelve la TUI de Claude Code en un entorno de terminal controlado utilizando tmux o xterm.js. Permite flujos de trabajo reanudables y no interactivos, y permite a los desarrolladores interrogar sesiones antiguas. El proyecto incluye un servidor HTTP para control remoto y un servidor ACP para la integración con interfaces alternativas como Zed. También se proporciona una biblioteca de TypeScript para integrar estos flujos de trabajo en aplicaciones personalizadas.