1. Vista previa de Claude Mythos en Vertex AI
Anthropic ha lanzado Claude Mythos en vista previa privada para clientes selectos de Google Cloud como parte del Project Glasswing. El modelo de frontera está diseñado específicamente para identificar y parchear de forma autónoma vulnerabilidades de software de alta gravedad.
2. Kit de desarrollo de agentes (ADK) de Google
Google ha lanzado el Agent Development Kit (ADK), un marco de trabajo de código abierto y centrado en código para construir y orquestar sistemas multiagente. El kit está optimizado para Gemini y Google Cloud, pero sigue siendo agnóstico al modelo.
3. Ejecución local de Gemma 4 con LM Studio y Claude Code
Un desarrollador desplegó con éxito el modelo Gemma 4 de 26B parámetros para inferencia local en macOS usando la nueva CLI sin interfaz de LM Studio. La configuración aprovecha la arquitectura de mezcla de expertos para ejecutarse eficientemente en un MacBook Pro de 48GB.
4. Decodificación especulativa para Gemma 4 31B
Red Hat AI ha lanzado una implementación de decodificación especulativa para el modelo Gemma 4 31B utilizando el marco EAGLE-3. El método acelera la inferencia mediante el uso de un modelo de borrador más pequeño de 2B para predecir tokens.
5. MegaTrain: Entrenamiento de más de 100B de parámetros en una sola GPU
Investigadores presentaron MegaTrain, un sistema centrado en memoria que entrena modelos con más de 100 mil millones de parámetros en precisión completa en una sola GPU. El sistema almacena parámetros y estados del optimizador en la memoria del host.
6. Netflix VOID: Inpainting de video físicamente plausible
Netflix e INSAIT han liberado VOID, un marco de IA para la eliminación de objetos e interacciones en video. A diferencia de las herramientas estándar, VOID simula las reacciones físicas resultantes, como alterar la trayectoria de los objetos restantes.
7. Fallos de memoria en agentes persistentes OpenClaw
Un proveedor de infraestructura analizó cerca de mil despliegues automatizados del agente OpenClaw y encontró problemas de fiabilidad significativos derivados de la gestión de memoria. El agente pierde contexto crítico durante tareas de larga duración.
8. Reasignación del gasto de Claude Code a Zed y OpenRouter
Un desarrollador compartió un flujo de trabajo práctico para evitar los límites de tasa de Claude Code migrando al editor Zed y OpenRouter. La configuración utiliza el protocolo de cliente de agente (ACP) para interactuar con varios modelos bajo demanda.
9. Encontrando un error del Apolo 11 con Claude y Allium
Desarrolladores utilizaron Claude y el lenguaje de especificación de código abierto Allium para descubrir una fuga de bloqueo de recursos de 57 años en el código de la computadora de guía del Apolo 11.
10. RAGEN-2: Mitigación del colapso de razonamiento en RL agente
Investigadores publicaron RAGEN-2, un estudio que identifica el "colapso de plantilla" como un modo de fallo crítico en el aprendizaje por refuerzo para agentes LLM. Los agentes a menudo dependen de plantillas de razonamiento fijas que ignoran el prompt real.
11. El caso arquitectónico de MCP sobre Skills
Un desarrollador publicó una crítica argumentando que el Model Context Protocol (MCP) sigue siendo una arquitectura superior en comparación con la tendencia emergente de usar archivos de "Skills" estáticos.
12. Gemma Gem: Agente WebGPU en el navegador
Un desarrollador lanzó Gemma Gem, una extensión de Chrome que ejecuta el modelo Gemma 4 2B de Google completamente en el navegador a través de WebGPU. El agente cuenta con herramientas para leer contenido y ejecutar JavaScript.
13. Autodestilación para modelos de generación de código
Un nuevo artículo de investigación demuestra que los modelos de lenguaje grandes pueden mejorar significativamente sus capacidades de generación de código a través de la autodestilación simple (SSD), ajustando modelos exclusivamente con sus propias soluciones.
14. Construyendo Syntaqlite con agentes de codificación de IA
Un ingeniero de Google documentó su experiencia construyendo Syntaqlite, un conjunto de herramientas para SQLite, usando agentes de IA durante tres meses. Concluye que la IA es un multiplicador de fuerza, pero un sustituto peligroso para el diseño de software.
15. Mapeo de vectores de emoción en Claude Sonnet 4.5
El equipo de interpretabilidad de Anthropic ha identificado 171 representaciones lineales internas de conceptos de emoción dentro de Claude Sonnet 4.5. Estos vectores actúan como mecanismos causales que impulsan el comportamiento del modelo.
16. Benchmark APEX-Agents-AA para tareas profesionales
Artificial Analysis ha lanzado la tabla de clasificación APEX-Agents-AA para evaluar agentes de IA en tareas de servicios profesionales de largo alcance, como banca de inversión, consultoría y derecho.
17. HappyHorse-1.0: Modelo unificado de video y audio
El Taotian Future Life Lab ha lanzado HappyHorse-1.0, un modelo Transformer unificado de 15 mil millones de parámetros para la generación conjunta de video y audio, capaz de producir video 1080p con audio sincronizado.
18. MARS: Generación ligera de múltiples tokens
Investigadores han introducido Mask AutoRegreSsion (MARS), un método de ajuste fino ligero para modelos autorregresivos que permite predecir múltiples tokens por paso hacia adelante sin modificaciones arquitectónicas.
19. Sol-RL: Exploración FP4 y entrenamiento BF16
Un nuevo artículo presenta Sol-RL, un marco de aprendizaje por refuerzo de dos etapas diseñado para acelerar la alineación de modelos de difusión, utilizando cuantización FP4 para la exploración y BF16 para la optimización.
20. Construyendo tmux-repl-mcp para desarrollo Lisp
Un desarrollador creó `tmux-repl-mcp`, un servidor de Model Context Protocol basado en Python diseñado para ayudar a los agentes de IA a interactuar sin problemas con entornos REPL, reduciendo el uso de tokens y errores.
21. Directrices de asistencia de IA para el kernel de Linux
El proyecto del kernel de Linux ha publicado directrices oficiales para desarrolladores que utilizan herramientas de IA. El código generado por IA debe cumplir con la licencia GPL-2.0 y los colaboradores deben incluir una etiqueta "Assisted-by".
22. Dataset MegaStyle-1.4M y modelo FLUX
Investigadores han lanzado MegaStyle-1.4M, un conjunto de datos a gran escala con 1.4 millones de imágenes diseñado para el mapeo consistente de estilos de texto a imagen, incluyendo el codificador MegaStyle y el modelo FLUX.