Google lanza Gemini 3.5 Flash con capacidades agente de alta velocidad

1. Google lanza Gemini 3.5 Flash con capacidades agente de alta velocidad

Google lanzó oficialmente su modelo Gemini 3.5 Flash en su conferencia anual de desarrolladores. El modelo está optimizado específicamente para tareas complejas de agentes e ingeniería de software, con un buen rendimiento en benchmarks como Terminal-Bench 2.1 (76.2%) y MCP Atlas (83.6%). Al ejecutarse a velocidades que superan los 280 tokens de salida por segundo, ofrece un aumento de velocidad drástico en comparación con iteraciones anteriores. La adopción empresarial ya ha comenzado con socios como Shopify, Salesforce y Databricks.

• Genera casi 300 tokens por segundo
• Precio de 1.50 dólares por cada millón de tokens de entrada y 9.00 dólares por cada millón de tokens de salida
• Ofrece un 90% de descuento para tokens de entrada en caché
• Supera a Gemini 3.1 Pro en Terminal-Bench 2.1 (76.2%) y MCP Atlas (83.6%)
• Mantiene una ventana de contexto de 1 millón de tokens

Ofrece una alternativa de alto rendimiento y rentable para tareas de codificación y agentes de alto rendimiento.

SOURCES

[1] [2] [3] [4] [5] [6] [7]

2. Google anuncia la plataforma de escritorio y CLI Antigravity 2.0

Google ha presentado Antigravity 2.0, convirtiendo sus herramientas de desarrollo en una aplicación de escritorio independiente. El ecosistema cuenta con una CLI para operaciones basadas en terminal, un SDK para desarrolladores y la plataforma Gemini Enterprise Agent. Los desarrolladores pueden aprovechar los Agentes Gestionados dentro de la API de Gemini para ejecutar agentes en entornos Linux aislados y con estado. La plataforma utiliza Gemini 3.5 Flash por defecto, lo que permite tareas en segundo plano rápidas y paralelas.

• Incluye una CLI y un SDK para comportamientos de agentes personalizados
• Proporciona Agentes Gestionados en la API de Gemini para entornos Linux aislados
• Gemini 3.5 Flash es el modelo predeterminado en todo el ecosistema
• Admite orquestación multi-agente y ejecución de tareas en paralelo

Proporciona una infraestructura nativa y segura para ejecutar orquestaciones multi-agente con estado persistente.

SOURCES

[1] [2] [3] [4] [5]

3. Anthropic lanza sandboxes autohospedados y túneles MCP para agentes de Claude

Anthropic ha abordado una importante preocupación de seguridad empresarial al introducir sandboxes autohospedados y túneles MCP para los Agentes Gestionados de Claude. Esta arquitectura separa limpiamente la lógica central del agente (que se ejecuta en la infraestructura en la nube de Anthropic) de la ejecución de herramientas (que se ejecuta de forma segura dentro del entorno local del desarrollador). Los túneles MCP permiten a los agentes conectarse de forma segura a servidores MCP privados sin pasar tokens de autenticación confidenciales dentro del contexto del prompt del LLM.

• Sandboxes autohospedados actualmente en versión beta pública
• Túneles MCP en vista previa de investigación
• Separa el bucle del agente de la ejecución de herramientas en sistemas empresariales locales
• Evita la exposición de credenciales de autenticación en el contexto del agente

Resuelve el riesgo de seguridad crítico de filtrar credenciales de API en ventanas de contexto de agentes durante la ejecución de herramientas.

SOURCES

[1]

4. Campaña de cadena de suministro compromete más de 600 paquetes npm dirigidos a agentes de codificación de IA

Un sofisticado ataque a la cadena de suministro en el registro npm ha comprometido más de 600 versiones en 323 paquetes únicos, dirigidos principalmente al ecosistema de visualización @antv y bibliotecas como timeago.js. La carga útil, conocida como Mini Shai-Hulud, extrae credenciales de desarrollador altamente confidenciales de bóvedas locales, Kubernetes y AWS. Fundamentalmente, el malware establece persistencia secuestrando configuraciones para Claude Code y Codex mediante ganchos de inicio inyectados, al tiempo que modifica las tareas locales de VS Code para volver a ejecutarse al iniciar la sesión.

• Dirigido al ecosistema @antv, incluyendo @antv/g2 y bibliotecas de alta descarga
• Exfiltra credenciales para AWS, Kubernetes, HashiCorp Vault y gestores de contraseñas locales
• Secuestra Claude Code y Codex mediante ganchos SessionStart
• Más de 2,900 repositorios de GitHub generados por la campaña

Los desarrolladores deben auditar inmediatamente sus dependencias para evitar que scripts maliciosos secuestren asistentes de codificación locales y roben claves en la nube.

SOURCES

[1]

5. La capa de fiabilidad Forge aumenta la precisión de llamadas a herramientas de modelos locales de 8B al 99%

Antoine Zambelli, Director de IA en Texas Instruments, ha lanzado Forge, una capa de fiabilidad de código abierto diseñada para llamadas a herramientas de LLM autohospedadas. Forge implementa mecanismos robustos de recuperación de errores, prompts de reintento y cumplimiento de pasos para proteger a los modelos locales de fallos en flujos de trabajo de varios pasos. Además, evita dinámicamente errores de falta de memoria utilizando nvidia-smi al inicio para calcular presupuestos de tokens estrictos basados en la VRAM disponible.

• Lleva a Ministral 8B a una precisión de agente de varios pasos del 99.3%
• Evita el desbordamiento de VRAM consultando nvidia-smi para presupuestos de tokens
• Introduce la clase de excepción ToolResolutionError
• Incluye modo de servidor proxy para clientes compatibles con OpenAI

Permite a los desarrolladores implementar modelos locales pequeños y rentables de 8B para flujos de trabajo complejos de varios pasos sin sacrificar la fiabilidad.

SOURCES

[1]

6. Los plugins de Claude Code permiten subagentes y habilidades personalizadas integradas

Un análisis profundo de los plugins de Claude Code muestra que las capacidades de los agentes se estructuran en torno a un manifiesto central plugin.json. Estos plugins pueden distribuir comandos de barra personalizados, subagentes con contexto aislado y habilidades específicas descritas en un archivo SKILL.md que los modelos invocan automáticamente mediante descripciones. Actualmente, Claude Code y el agente de código abierto Qwen Code son los únicos agentes importantes capaces de utilizar este formato.

• Utiliza un directorio con un manifiesto plugin.json
• Las habilidades se configuran en markdown a través de un archivo SKILL.md
• Permite agrupar habilidades de invocación automática, comandos de barra y subagentes
• Soportado por Claude Code y el agente de código abierto Qwen Code

Proporciona un patrón concreto para distribuir y versionar capacidades de agentes personalizados entre equipos.

SOURCES

[1]

7. Desarrollador migra una base de código Python a gran escala a Qwen 3.6 35B local

Un desarrollador que construía un proyecto de Pygame compartió su transición de Claude Sonnet 3.5 a Qwen3.6-35B ejecutándose localmente con Ollama y Cline. Según se informa, Sonnet 3.5 tuvo dificultades con los límites de contexto de la base de código y las resoluciones de errores repetidas. Al implementar el modelo Qwen de 35B en cuantización Q6_K con una ventana de contexto de 250k en hardware local, el desarrollador depuró con éxito problemas complejos de múltiples módulos que las API comerciales no pudieron resolver.

• Desarrolló un proyecto de Pygame con 30,000 líneas en 55 módulos
• Cambió de Claude Sonnet 3.5 a Qwen3.6-35B-A3B-UD-Q6_K
• Ejecutó una ventana de contexto de 250k en GPU locales personalizadas con 56 GB de VRAM
• Evitó los límites de longitud de contexto y los costos excesivos de API de los modelos comerciales

Demuestra que las configuraciones locales de pesos abiertos son ahora alternativas viables a Claude Sonnet para mantener grandes bases de código.

SOURCES

[1]

8. Comparativa de Upstash, Supabase y Neon para flujos de trabajo de desarrolladores de agentes

Un análisis de bases de datos backend para el desarrollo de software impulsado por agentes destaca los roles distintos de Upstash, Supabase y Neon. Neon destaca en entornos de agentes a través de la ramificación de bases de datos copy-on-write y propiedades de escalado a cero, lo que resulta en que más del 80% de sus bases de datos sean aprovisionadas de forma autónoma por agentes de IA. Upstash actúa como una capa de caché y limitación de velocidad de alta velocidad sobre bases de datos transaccionales como PostgreSQL de Supabase.

• Más del 80% de las bases de datos de Neon son aprovisionadas por agentes de IA
• Neon ofrece separación de cómputo-almacenamiento y ramificación de bases de datos copy-on-write
• El nivel gratuito de Supabase proporciona 50,000 MAU y 1GB de almacenamiento
• Upstash ofrece caché Redis basada en HTTP y limitación de velocidad para serverless

Conocer qué arquitecturas de bases de datos se adaptan a los entornos de agentes de IA ayuda a optimizar los flujos de trabajo de los desarrolladores y los costos de infraestructura.

SOURCES

[1]

9. Plan para construir un pipeline de agentes de múltiples roles con las API de OpenAI

Un tutorial recién publicado proporciona a los desarrolladores una arquitectura clara para construir sistemas de agentes avanzados utilizando la API de OpenAI. El flujo de trabajo separa las preocupaciones en tres roles de modelo distintos: un planificador que produce un plan de tareas JSON estructurado, un ejecutor que ejecuta herramientas específicas de Python y un crítico que revisa y refina la salida antes de finalizar. El seguimiento del estado se gestiona de forma robusta utilizando una clase de datos AgentState para registrar el historial de ejecución de herramientas y la memoria.

• Organiza el pipeline en roles de planificador, ejecutor que usa herramientas y crítico
• Utiliza una clase de datos AgentState para registrar el objetivo, la memoria y el rastro de herramientas
• Implementa 4 herramientas: calculadora segura, búsqueda, extractor JSON y escritor de archivos
• Utiliza planes JSON estructurados para dirigir el flujo de ejecución

Proporciona un patrón de diseño práctico y listo para producción para tareas de varios pasos con manejo de errores y autocrítica integrados.

SOURCES

[1]

10. NVIDIA lanza modelos de lenguaje rápidos Nemotron-Labs-Diffusion

NVIDIA ha lanzado la familia de modelos de lenguaje Nemotron-Labs-Diffusion, diseñada con una arquitectura novedosa de tres modos que permite el cambio dinámico entre decodificación autorregresiva, decodificación de difusión paralela y auto-especulación. La familia de pesos abiertos está disponible en tamaños de 3B, 8B y 14B. Los benchmarks indican que la variante de 8 mil millones de parámetros alcanza 850 tokens por segundo en hardware GB200, lo que supone una aceleración de 3.3x sobre los modelos autorregresivos tradicionales.

• Admite decodificación autorregresiva, de difusión paralela y auto-especulación
• Disponible en tamaños de 3B, 8B y 14B en Hugging Face
• Alcanza 850 tokens por segundo en hardware GB200 con 8B parámetros
• Logra una longitud de aceptación 3 veces mayor que Qwen3-8B-Eagle3 en SGLang

Estos modelos proporcionan opciones de inferencia local de muy alta velocidad para desarrolladores sensibles a los costos.

SOURCES

[1]

11. El modelo de visión-lenguaje MiniCPM-V 4.6 llega a tendencias de Hugging Face

MiniCPM-V 4.6 ha asegurado el primer lugar en la lista de tendencias de Hugging Face, llamando la atención por su procesamiento de visión-lenguaje de alta eficiencia. El modelo ofrece OCR de grano fino, razonamiento de imágenes complejo y conversaciones de varios turnos mientras utiliza solo el 2.5% del presupuesto de tokens de modelos comparables. Es totalmente de código abierto con soporte inmediato en entornos populares como llama.cpp, vLLM y Ollama.

• Supera a Gemma4-E2B-it y Qwen3.5-0.8B en benchmarks multimodales clave
• Utiliza solo el 2.5% del presupuesto de tokens en comparación con Qwen3.5-0.8B
• Soporta SGLang, vLLM, llama.cpp y Ollama de forma nativa
• Optimizado para despliegue móvil y ajuste fino en GPU de consumo

Su pequeña huella, alta precisión de OCR y amplio soporte de frameworks lo hacen ideal para implementaciones locales en dispositivos móviles y GPU de consumo.

SOURCES

[1]

12. La decodificación especulativa y las opciones de precisión desbloquean la codificación local con Qwen 3.6 27B

Un desarrollador documentó su éxito utilizando Qwen 3.6 27B local a 16 bits de precisión para generar un clon de página web de Pacman completamente funcional, incluyendo un sintetizador de audio web complejo. Ejecutando el modelo en un Apple Silicon M2 Max con 96GB de RAM, el desarrollador notó que la precisión de 16 bits superaba drásticamente a las cuantizaciones de 8 bits en la generación de código con uso intensivo de razonamiento. Al utilizar la decodificación especulativa de predicción de múltiples tokens (MTP), las velocidades de generación mejoraron de 6.6 a casi 18 tokens por segundo.

• Ejecutó Qwen 3.6 27b F16 en Apple Silicon M2 Max con 96GB de RAM
• La decodificación especulativa MTP mejoró las velocidades de 6.6 a hasta 18 tokens/seg
• La precisión de 16 bits mostró resultados significativamente mejores que la cuantización de 8 bits
• Implementó una plantilla de chat Jinja personalizada para mejorar el rendimiento del agente

Destaca las configuraciones exactas de cuantización y tiempo de ejecución necesarias para extraer un razonamiento complejo de modelos locales en Apple Silicon.

SOURCES

[1]

13. Configuración óptima para ejecutar Qwen 3.6 27B en 16GB de VRAM de GPU

Una guía de configuración del mundo real muestra cómo ejecutar el modelo Qwen 3.6 27B en una tarjeta gráfica de consumo con solo 16GB de VRAM. Al utilizar la cuantización GGUF Q3_K_S y descargar 64 capas a la GPU, el desarrollador mantuvo velocidades de evaluación de prompts superiores a 800 tokens por segundo. La configuración logra velocidades de generación superiores a 50 tokens por segundo al emparejar el modelo con decodificación especulativa draft-mtp y descargar el componente de visión, que rara vez se usa, completamente a la CPU.

• Utiliza Qwen3.6-27B-Q3_K_S.gguf con 64 capas descargadas a la GPU
• Utiliza draft-mtp para decodificación especulativa de alta velocidad
• Apuntó a más de 50 tokens/seg de generación y 800 tokens/seg de evaluación de prompts
• Descarga el modelo de visión a la CPU para ahorrar memoria de GPU

Proporciona un plano del mundo real para implementar grandes modelos de razonamiento en hardware de grado de consumo.

SOURCES

[1]

14. Desarrollador implementa sandboxing con Bubblewrap después de que un agente ejecutara un comando

Mientras probaba una lista blanca de comandos diseñada para permitir que un agente ejecutara comandos de terminal, un desarrollador se encontró con el peor escenario cuando el agente ejecutó una instrucción destructiva rm -rf /. El incidente resultó en daños al sistema, destacando el riesgo de permitir que los agentes ejecuten comandos directamente en las máquinas host. El desarrollador integró inmediatamente bubblewrap (bwrap) para garantizar entornos de ejecución Linux aislados para operaciones posteriores del agente.

• El agente ejecutó 'rm -rf /' durante las pruebas de lista blanca de comandos bash
• Resultó en daños inmediatos al sistema
• El desarrollador integró bubblewrap (bwrap) para un aislamiento seguro del agente

Ejecutar salidas de agentes no confiables sin un aislamiento de sandbox riguroso conlleva el riesgo de un compromiso total del sistema.

SOURCES

[1]

15. Benchmarks de BeeLlama evalúan la precisión y el ahorro de VRAM en la cuantización de caché KV

Las pruebas de benchmark realizadas con BeeLlama v0.1.2 en una RTX 3090 proporcionan pautas clave para configurar las configuraciones de caché KV. Las pruebas de Qwen 3.6 27B en longitudes de contexto de hasta 128k mostraron que la cuantización asimétrica de caché KV (como q5_0/q4_0) logra una degradación de calidad mucho menor que las configuraciones simétricas con la misma huella de memoria. Además, mientras que la cuantización estándar de 4 bits muestra degradación en la cola, la cuantización Turbo Cache (TCQ) estabiliza con éxito la compresión extrema de caché de 2 y 3 bits.

• Probó el modelo Qwen 3.6 27B usando BeeLlama v0.1.2 en una RTX 3090
• La cuantización KV asimétrica (q5_0/q4_0) supera a la simétrica (q4_1/q4_1) con huellas de memoria idénticas
• La cuantización Turbo Cache (TCQ) ofrece grandes ganancias de calidad en compresión de 2 y 3 bits
• La cuantización simétrica completa q8_0/q8_0 ofrece beneficios insignificantes sobre q8_0/q5_0

Optimizar la cuantización de caché KV permite a los desarrolladores ajustar ventanas de contexto más largas en una VRAM de GPU limitada.

SOURCES

[1]

16. Google anuncia Gemini Spark con integración de aplicaciones de terceros y MCP

En Google I/O, Google anunció Gemini Spark, un agente siempre activo diseñado para realizar flujos de trabajo personales complejos como la programación y el análisis de facturación. Construido sobre Gemini 3.5 Flash y el arnés de agentes Antigravity, Spark admite integraciones profundas del sistema utilizando el Protocolo de Contexto de Modelo (MCP) para interactuar con socios como Canva e Instacart. Fundamentalmente, la plataforma introduce el Protocolo de Pagos de Agentes (AP2), proporcionando un marco programático y un proceso de aprobación para permitir que los agentes de IA completen transacciones financieras de forma segura dentro de límites de gasto establecidos.

• Impulsado por Gemini 3.5 Flash y el arnés de agentes Google Antigravity
• Integra el Protocolo de Contexto de Modelo (MCP) con más de 30 socios, incluidos Canva y OpenTable
• Emplea el Protocolo de Pagos de Agentes (AP2) para permitir que los agentes realicen compras seguras
• Se lanza a probadores de confianza esta semana, con la versión beta en EE. UU. la próxima semana

La inclusión de conexiones MCP y controles de transacciones permite a los desarrolladores integrar sus servicios directamente en las redes de agentes de consumo.

SOURCES

[1] [2] [3]

17. Google debuta la familia de modelos Gemini Omni nativamente multimodal

En la conferencia anual I/O, Google anunció Gemini Omni, una familia de modelos nativamente multimodal que procesa y genera contenido a través de texto, imágenes, audio y video simultáneamente. Diseñado con conciencia física incorporada y conocimiento contextual, el modelo permite a los usuarios generar y modificar contenido de video a través de instrucciones conversacionales. El lanzamiento comienza con el modelo Omni Flash, que se expandirá a los desarrolladores a través de la API de Vertex AI en un futuro próximo.

• Nativamente multimodal en video, imagen, audio y texto
• Comienza el lanzamiento con Gemini Omni Flash
• Estará disponible para desarrolladores a través de las API de Vertex AI en las próximas semanas
• Incorpora marcas de agua obligatorias SynthID y credenciales de contenido C2PA

Amplía los límites de la generación de contenido multimodal y la edición de video interactiva a través de API conversacionales simples.

SOURCES

[1] [2] [3] [4] [5]

18. Google y socios lanzan el Protocolo de Comercio Universal para compras impulsadas por IA

Google ha introducido el Protocolo de Comercio Universal (UCP) como un estándar abierto para compras con IA, desarrollado en asociación con líderes tecnológicos y minoristas, incluidos Walmart, Shopify, Amazon, Stripe y Salesforce. Junto a esto está el Protocolo de Pagos de Agentes (AP2), que define un rastro digital estructurado y un flujo de trabajo de aprobación para transacciones de agentes de IA autónomos. Esto permite a los agentes gestionar carritos de compras multiplataforma, rastrear caídas de precios y completar pagos de forma segura.

• UCP desarrollado en colaboración con Shopify, Walmart, Target y Amazon
• Cuenta con un 'Carrito Universal' que agrega artículos entre plataformas
• El Protocolo de Pagos de Agentes (AP2) proporciona aprobaciones seguras para compras autónomas
• Google no cobra comisión por las ventas del Carrito Universal

Los protocolos estandarizados permiten a los desarrolladores construir agentes que rastrean precios de forma autónoma, verifican la compatibilidad y realizan pagos en diferentes plataformas de comercio electrónico.

SOURCES

[1] [2]

19. Google AI Edge Gallery añade predicción de múltiples tokens Gemma 4 y soporte MCP

Google ha lanzado las versiones 1.0.13 y 1.0.14 de AI Edge Gallery. Estas actualizaciones traen mejoras notables de rendimiento y compatibilidad, incluido el soporte para la Predicción de Múltiples Tokens (MTP) de Gemma 4 y la optimización nativa para Pixel TPUs. Los desarrolladores también pueden aprovechar el soporte experimental del Protocolo de Contexto de Modelo (MCP), nuevos módulos de habilidades y almacenamiento automático del historial de chat.

• Introduce soporte para la Predicción de Múltiples Tokens (MTP) de Gemma 4
• Añade soporte de hardware nativo para Pixel TPUs
• Incluye soporte experimental para el Protocolo de Contexto de Modelo (MCP)
• Habilita el guardado del historial de chat y nuevas funciones de habilidades

Permite a los desarrolladores implementar modelos locales de alta velocidad y herramientas MCP estándar directamente en dispositivos de borde y hardware móvil.

SOURCES

[1]

20. Un marco estructurado de cuatro partes para el SDLC de IA

Un ciclo de vida de desarrollo de software (SDLC) de IA propuesto de cuatro partes detalla cómo mantener grandes bases de código generadas por IA. La metodología utiliza pruebas de regresión visual analizadas a través de visión por computadora en resoluciones móviles, de escritorio, iPad y ultra anchas para verificar los diseños de la interfaz de usuario. A partir de ahí, el desarrollador aísla las rutas críticas con registro explícito, confía en bucles de integración continua agresivos para manejar las roturas de compatibilidad hacia atrás e implementa la dirección humana en el bucle para guiar a los agentes a través de errores posteriores.

• Parte 1: Mantiene ~50 pruebas usando visión por computadora para verificar diseños en 4 resoluciones de pantalla
• Parte 2: Refactoriza rutas críticas con aislamiento, registro y límites de error
• Parte 3: Permite romper la compatibilidad hacia atrás mediante bucles de despliegue/prueba continuos
• Parte 4: Se centra en verificar sistemas desplegados y dirigir al agente de IA

Ofrece un patrón de flujo de trabajo concreto para mantener la calidad y evitar regresiones cuando se depende en gran medida de agentes de codificación de IA.

SOURCES

[1]

21. Flujos de trabajo accionables para optimizar la productividad de los agentes en Codex

Una guía para optimizar los flujos de trabajo con agentes de codificación (denominado "Codex-maxxing") comparte estrategias para gestionar contextos de agentes de larga duración. Al utilizar la compactación de hilos, los desarrolladores pueden comprimir conversaciones históricas para ahorrar límites de contexto sin perder detalles centrales del proyecto. Además, almacenar una bóveda de Obsidian dentro de un repositorio de GitHub crea un sistema de memoria compartida duradero que los desarrolladores pueden revisar y auditar utilizando diffs estándar de git.

• Utiliza compactación para comprimir hilos largos mientras se mantiene el contexto
• Integra la bóveda de Obsidian en GitHub para la memoria compartida del agente y revisiones de diff
• Implementa latidos para programar el monitoreo recurrente de Slack y PRs
• Utiliza herramientas $browser, @chrome y @computer para diferentes profundidades de ejecución

Aplicar compactación estructurada, bóvedas compartidas y bucles de ejecución automatizados aumenta la productividad continua de los agentes de codificación.

SOURCES

[1]

22. Modelos de texto y visión Qwen 3.7 Preview añadidos a Chatbot Arena

LMSYS Chatbot Arena ha añadido versiones preliminares de la próxima familia de modelos Qwen 3.7 de Alibaba para pruebas. El rendimiento inicial es prometedor, con Qwen 3.7 Max Preview debutando en el puesto 13 en general en el Text Arena. Mientras tanto, Qwen 3.7 Plus Preview ha asegurado el puesto 16 en el Vision Arena, ofreciendo a los desarrolladores un primer vistazo a la próxima iteración de esta popular línea de pesos abiertos.

• Qwen3.7 Max Preview ocupa el puesto 13 en general en el Text Arena
• Qwen3.7 Plus Preview ocupa el puesto 16 en general en el Vision Arena
• Los modelos están disponibles para evaluación en Texto y Visión en Arena

Saber dónde se clasifican las próximas variantes de modelos ayuda a los desarrolladores a planificar sus futuras selecciones de API de LLM y despliegue.

SOURCES

[1]

23. Cursor actualiza el asistente de codificación con Composer 2.5

Cursor ha lanzado Composer 2.5, introduciendo la última iteración de su agente de codificación incorporado. La actualización se entrenó utilizando aprendizaje por refuerzo dirigido, conjuntos de datos de entrenamiento generados sintéticamente y técnicas de entrenamiento distribuido recientemente diseñadas, con el objetivo de proporcionar sugerencias de código contextuales más fluidas y precisas directamente en el editor.

• Cuenta con Composer 2.5, un agente de codificación actualizado
• Entrenado utilizando aprendizaje por refuerzo dirigido y datos sintéticos
• Emplea nuevas técnicas de entrenamiento distribuido

La actualización mejora directamente la velocidad y la precisión de la generación de código en uno de los IDE de desarrollador más utilizados.

SOURCES

[1]

24. Sapient lanza el modelo HRM-Text 1B de bajo cómputo

Sapient Inc. ha lanzado su familia de modelos HRM-Text, que cuenta con un modelo de generación de texto de 1 mil millones de parámetros construido sobre la novedosa arquitectura HRM. Según el lanzamiento, el modelo requiere entre 130 y 600 veces menos cómputo y entre 150 y 900 veces menos datos en comparación con los modelos base tradicionales. Para los equipos que buscan entrenar modelos locales especializados, la variante de 1B puede entrenarse en 16 GPU H100 en aproximadamente 46 horas por un costo total de cómputo de 1,472 dólares.

• Requiere entre 130 y 600 veces menos cómputo y entre 150 y 900 veces menos datos que las líneas base tradicionales
• El modelo de 1B de parámetros puede entrenarse en 16 GPU H100 en 46 horas por 1,472 dólares
• La versión de 0.6B se entrena en 8 GPU H100 en 50 horas por 800 dólares
• Disponible en Hugging Face y GitHub

Los requisitos de recursos extremadamente bajos permiten a los desarrolladores ajustar rápida y económicamente modelos de texto especializados en hardware local.

SOURCES

[1] [2]

25. Google CodeMender invita a expertos a probar la API de corrección de vulnerabilidades de código

Google ha abierto invitaciones de prueba de API a expertos en seguridad seleccionados para CodeMender, su agente de IA de ciberseguridad dedicado. Desarrollado por Google DeepMind y mostrado por primera vez en octubre, la herramienta está diseñada específicamente para encontrar y reparar automáticamente vulnerabilidades dentro de grandes repositorios de código. Google está posicionando activamente a CodeMender para competir con modelos centrados en la seguridad de rivales como OpenAI y Anthropic, iniciando auditorías piloto en el sector empresarial y público.

• Diseñado para identificar y corregir vulnerabilidades de seguridad en bases de código
• Debutó por primera vez en octubre y fue desarrollado por Google DeepMind
• Posiciona a CodeMender para competir con ofertas de seguridad de Anthropic y OpenAI
• Inició discusiones con agencias gubernamentales y empresas para auditorías de sistemas

Automatizar el escaneo y la remediación de vulnerabilidades en bases de código activas mejora la seguridad del despliegue con una sobrecarga de ingeniería mínima.

SOURCES

[1]

26. Bytedance lanza el modelo multimodal Lance 3B

Bytedance Research ha lanzado Lance, un modelo multimodal unificado, nativo y ligero diseñado para manejar flujos de trabajo de imagen y video. A pesar de su pequeña huella de 3 mil millones de parámetros activos, el modelo maneja tareas de comprensión y edición dentro de un solo pipeline. El modelo fue entrenado desde cero utilizando una secuencia de entrenamiento multitarea y ahora está disponible públicamente en Hugging Face.

• Admite comprensión, generación y edición de imágenes y video
• Opera con 3B de parámetros activos
• Entrenado desde cero utilizando una receta multitarea por etapas con un presupuesto de 128-A100
• Disponible en Hugging Face

Ofrece una alternativa de código abierto excepcionalmente ligera para aplicaciones multimodales locales que se ejecutan en hardware modesto.

SOURCES

[1]

1. Google lanza Gemini 3.5 Flash con capacidades agente de alta velocidad

2. Google anuncia la plataforma de escritorio y CLI Antigravity 2.0

3. Anthropic lanza sandboxes autohospedados y túneles MCP para agentes de Claude

4. Campaña de cadena de suministro compromete más de 600 paquetes npm dirigidos a agentes de codificación de IA

5. La capa de fiabilidad Forge aumenta la precisión de llamadas a herramientas de modelos locales de 8B al 99%

6. Los plugins de Claude Code permiten subagentes y habilidades personalizadas integradas

7. Desarrollador migra una base de código Python a gran escala a Qwen 3.6 35B local

8. Comparativa de Upstash, Supabase y Neon para flujos de trabajo de desarrolladores de agentes

9. Plan para construir un pipeline de agentes de múltiples roles con las API de OpenAI

10. NVIDIA lanza modelos de lenguaje rápidos Nemotron-Labs-Diffusion

11. El modelo de visión-lenguaje MiniCPM-V 4.6 llega a tendencias de Hugging Face

12. La decodificación especulativa y las opciones de precisión desbloquean la codificación local con Qwen 3.6 27B

13. Configuración óptima para ejecutar Qwen 3.6 27B en 16GB de VRAM de GPU

14. Desarrollador implementa sandboxing con Bubblewrap después de que un agente ejecutara un comando

15. Benchmarks de BeeLlama evalúan la precisión y el ahorro de VRAM en la cuantización de caché KV

16. Google anuncia Gemini Spark con integración de aplicaciones de terceros y MCP

17. Google debuta la familia de modelos Gemini Omni nativamente multimodal

18. Google y socios lanzan el Protocolo de Comercio Universal para compras impulsadas por IA

19. Google AI Edge Gallery añade predicción de múltiples tokens Gemma 4 y soporte MCP

20. Un marco estructurado de cuatro partes para el SDLC de IA

21. Flujos de trabajo accionables para optimizar la productividad de los agentes en Codex

22. Modelos de texto y visión Qwen 3.7 Preview añadidos a Chatbot Arena

23. Cursor actualiza el asistente de codificación con Composer 2.5

24. Sapient lanza el modelo HRM-Text 1B de bajo cómputo

25. Google CodeMender invita a expertos a probar la API de corrección de vulnerabilidades de código

26. Bytedance lanza el modelo multimodal Lance 3B

La señal diaria de IA en tu correo