Google lanza Gemma 4 12B con una arquitectura multimodal sin codificador

1. Google lanza Gemma 4 12B con una arquitectura multimodal sin codificador

Gemma 4 12B de Google DeepMind representa un cambio arquitectónico importante al eliminar los codificadores separados de visión y audio. En su lugar, un incrustador de 35 millones de parámetros procesa parches visuales, y los marcos de audio sin procesar se proyectan directamente en el espacio de incrustación del LLM central. Este diseño unificado permite que el modelo se ejecute localmente en hardware de consumo con 16 GB de VRAM o memoria unificada, ofreciendo un rendimiento que, según Google, se acerca al de su modelo de mezcla de expertos de 26B.

• Gemma 4 12B es un modelo de 11.95 mil millones de parámetros lanzado bajo la licencia Apache 2.0.
• Cuenta con una arquitectura sin codificador donde el audio sin procesar (16 kHz) y los parches visuales (48x48 píxeles) fluyen directamente hacia el núcleo del LLM.
• Admite una ventana de contexto de 256K tokens, uso de herramientas agente nativo y un modo de razonamiento paso a paso.
• Compatible con llama.cpp, MLX, vLLM, Ollama, SGLang, Unsloth y LM Studio.
• Incluye un modelo de borrador de predicción de múltiples tokens (MTP) dedicado para reducir la latencia de inferencia local.

Permite a los desarrolladores ejecutar un modelo multimodal altamente capaz localmente en computadoras portátiles estándar de 16 GB, eliminando codificadores de visión y audio separados para reducir la complejidad y la latencia.

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9]

2. Nous Research lanza Hermes Desktop GUI para flujos de trabajo de agentes locales

Hermes Desktop aporta una interfaz gráfica pulida al agente autónomo Hermes. La aplicación visualiza la actividad de las herramientas en vivo, las respuestas en streaming y la navegación de archivos, mientras mantiene las capacidades principales del agente, como habilidades reutilizables de auto-mejora y recuperación entre sesiones. Los desarrolladores pueden ejecutar tareas de agentes de forma segura utilizando backends en sandbox como Docker o Modal.

• Hermes Desktop es una aplicación nativa disponible para macOS, Windows y Linux.
• Se integra con Hermes Agent v0.15.2, compartiendo el mismo núcleo, configuración, claves API y memoria que la CLI.
• Admite ejecución en sandbox en cinco backends: local, Docker, SSH, Singularity y Modal.
• Cuenta con integración de herramientas a través del Protocolo de Contexto de Modelo (MCP) y memoria persistente curada por el agente.
• Lanzado bajo la licencia MIT y es agnóstico al modelo.

Simplifica el desarrollo de agentes locales al ofrecer una interfaz visual con salidas de herramientas en streaming, ejecución en sandbox y soporte para el Protocolo de Contexto de Modelo (MCP).

SOURCES

[1]

3. sandboxed ofrece sandboxes de desarrollo de código abierto con URLs de vista previa

Diseñado específicamente para casos de uso multi-inquilino como patios de recreo de codificación de IA y plataformas de agentes, sandboxed simplifica la infraestructura al evitar Kubernetes. Utiliza una configuración ligera de Docker y Traefik en un solo host Linux, utilizando un mecanismo de parada en inactividad para permitir que múltiples sandboxes compartan recursos del servidor de manera eficiente.

• Se ejecuta en un solo servidor utilizando Docker, Traefik y SQLite.
• Cuenta con un mecanismo de parada en inactividad y activación bajo demanda para optimizar la memoria y los costos de alojamiento.
• Incluye CLIs preinstaladas de OpenCode y Claude Code para tareas de codificación impulsadas por IA.
• Admite enrutamiento automático y TLS para URLs de vista previa en vivo.

Permite a los desarrolladores de constructores de aplicaciones de IA y plataformas de agentes crear fácilmente entornos de ejecución seguros y multi-inquilino sin la complejidad de Kubernetes.

SOURCES

[1]

4. Mnemo lanza una capa de memoria de IA local para LLMs

Mnemo aborda el desafío de la memoria de agentes a largo plazo al ejecutarse como un servicio sidecar local. Al analizar las entradas de los LLM para construir un grafo de conocimiento estructurado en SQLite, permite una recuperación rápida y de baja latencia del contexto histórico sin depender de bases de datos en la nube externas o configuraciones complejas de búsqueda vectorial.

• Distribuido como un único binario estático escrito en Rust, utilizando SQLite y petgraph.
• Extrae entidades nombradas y relaciones del texto y realiza actualizaciones atómicas en menos de 50 milisegundos.
• Se integra con Ollama, OpenAI, Anthropic y otras APIs compatibles con OpenAI.
• Proporciona una herramienta CLI, SDK de Python y API REST.

Ofrece a los desarrolladores una capa de memoria rápida y sin dependencia de la nube para mantener el contexto a largo plazo en todas las sesiones de LLM.

SOURCES

[1]

5. Fun-Realtime-TTS de Alibaba encabeza la tabla de clasificación de Speech Arena

Fun-Realtime-TTS de Alibaba ha superado a Gemini 3.1 Flash TTS de Google y a Realtime TTS-2 de Inworld en la tabla de clasificación de Artificial Analysis Speech Arena. El modelo ofrece un conjunto de características robusto que incluye clonación de voz y salida multilingüe con acentos regionales, lo que lo convierte en una opción atractiva para los desarrolladores que crean agentes habilitados por voz.

• Logró una puntuación Elo de 1,219 basada en 962 apariciones en la arena para ocupar el puesto #1.
• Tiene un precio de $27.59 por cada 1 millón de caracteres, que es más bajo que varios modelos de TTS de frontera como Sonic 3.5.
• Admite generación de voz en tiempo real, clonación de voz, diseño de voz y acentos regionales.
• Disponible para desarrolladores a través del acceso a la API de Alibaba Cloud.

Ofrece a los desarrolladores una opción de texto a voz de primer nivel altamente competitiva con baja latencia y precios asequibles.

SOURCES

[1] [2]

6. llama.cpp optimiza la predicción de múltiples tokens para modelos Qwen

Las últimas actualizaciones de llama.cpp se centran en acelerar la inferencia local a través de la Predicción de Múltiples Tokens. Al optimizar cómo se manejan los estados ocultos post-norma, el marco logra tasas de aceptación de borradores más altas, lo que se traduce en una salida de tokens por segundo más rápida al ejecutar modelos Qwen compatibles localmente.

• La versión b9495 de Llama.cpp introduce mejoras relacionadas con MTP específicamente para Qwen3.5 y Qwen3.6.
• Una solicitud de extracción (PR #24025) implementa MTP más rápido mediante el uso de estados ocultos post-norma para Qwen3.5.
• Los primeros puntos de referencia muestran una tasa de aceptación de borradores de 0.526 para Qwen3.6-35B-A3B-MTP.

Aumenta las velocidades de inferencia local para los desarrolladores que ejecutan modelos Qwen al mejorar las tasas de aceptación de borradores durante la generación de múltiples tokens.

SOURCES

[1] [2]

7. Guía paso a paso para ajustar LFM2-1.2B con QLoRA y DPO

Este tutorial de codificación paso a paso proporciona una tubería completa para adaptar el modelo LFM2-1.2B de Liquid AI. Al combinar QLoRA para un entrenamiento eficiente en parámetros con un paso de alineación DPO posterior, los desarrolladores pueden replicar un flujo de trabajo de alineación moderno completamente dentro de un entorno de Google Colab gratuito o de bajo costo.

• Utiliza bibliotecas de código abierto que incluyen Transformers, TRL, PEFT, datasets y bitsandbytes.
• Demuestra el ajuste fino supervisado (SFT) utilizando 500 muestras del conjunto de datos 'smoltalk' en 60 pasos.
• Incorpora la Optimización Directa de Preferencias (DPO) en 40 pasos para alinear las respuestas del modelo.
• Emplea cuantización de 4 bits para minimizar el uso de memoria de la GPU durante el entrenamiento.

Proporciona una receta concreta y de bajos recursos para los desarrolladores que buscan personalizar modelos pequeños y eficientes con sus propios datos.

SOURCES

[1]

8. Vercel recomienda el análisis de BotID para prevenir el robo de inferencia de IA

A medida que crecen las aplicaciones de IA, los atacantes apuntan cada vez más a los puntos finales de API expuestos para robar y revender la inferencia de modelos. El análisis de Vercel destaca que las estrategias estándar de limitación de velocidad no logran bloquear estos ataques, instando a los desarrolladores a adoptar el análisis de BotID para validar la autenticidad del cliente antes de enrutar las solicitudes a los proveedores de LLM.

• Los atacantes explotan los puntos finales de frontend expuestos para secuestrar y revender la inferencia de IA.
• Los límites de velocidad tradicionales a menudo son insuficientes para detener la reventa no autorizada sofisticada.
• Vercel recomienda implementar el análisis de BotID para verificar la legitimidad de cada solicitud de IA entrante.

Ayuda a los desarrolladores a proteger sus claves API y prevenir facturas de nube inesperadas causadas por terceros no autorizados que revenden su acceso al modelo.

SOURCES

[1]

9. Ideogram lanza el modelo de imagen Ideogram 4 con pesos abiertos

Ideogram ha puesto a disposición su último modelo de generación de imágenes v4 como un lanzamiento de pesos abiertos. El modelo ha escalado rápidamente hasta la cima de la tabla de clasificación de DesignArena, ofreciendo a los desarrolladores una alternativa abierta altamente competitiva a las APIs de generación de imágenes propietarias.

• Ideogram v4 se lanza con pesos abiertos.
• Actualmente clasificado como el modelo superior en la plataforma DesignArena.
• Disponible para descarga e integración inmediata.

Brinda a los desarrolladores acceso a un modelo de generación de imágenes de pesos abiertos de última generación que pueden alojar localmente o integrar en sus aplicaciones.

SOURCES

[1] [2]

10. Angular v22 introduce MCP nativo y herramientas de agentes

Angular v22 trae actualizaciones significativas tanto a su marco central como a sus herramientas de desarrollo de IA. Al introducir soporte nativo para MCP y capacidades experimentales de WebMCP, el lanzamiento facilita que los agentes de IA y los asistentes de codificación comprendan, refactoricen e interactúen con las aplicaciones de Angular directamente en el navegador.

• Introduce ofertas actualizadas de MCP y habilidades de agente de Angular para proporcionar a los asistentes de IA un contexto moderno de Angular.
• Agrega soporte experimental para WebMCP, permitiendo que los agentes interactúen directamente con las herramientas del navegador.
• Mueve Signal Forms, Angular Aria y las APIs de reactividad asíncrona a un estado listo para producción.
• Cuenta con compatibilidad con TypeScript 6 y desaprueba Webpack en favor de TSGo.

Permite a los desarrolladores frontend exponer fácilmente el contexto específico de Angular y las herramientas del navegador a los asistentes de codificación de IA.

SOURCES

[1]

11. Construya backends de inteligencia documental con el motor iii

El motor iii y su SDK de Python simplifican la creación de tuberías de inteligencia documental. Al registrar funciones de procesamiento discretas, los desarrolladores pueden orquestar flujos de trabajo complejos que se ejecutan en horarios o se activan a través de HTTP, con soporte integrado de Prometheus que facilita el monitoreo del rendimiento y la salud del sistema.

• Admite funciones modulares para normalización de texto, tokenización, análisis de sentimiento y extracción de palabras clave.
• Ofrece múltiples métodos de ejecución, incluida la invocación directa, puntos finales HTTP y disparadores cron programados.
• Mantiene un estado compartido en memoria para rastrear métricas de tiempo de ejecución y latidos.
• Monitoreable a través de una consola local o mediante el raspado de métricas de Prometheus en el puerto 9464.

Ofrece una forma estructurada y monitoreable de orquestar tuberías de procesamiento de documentos de varios pasos localmente o a través de HTTP.

SOURCES

[1]

1. Google lanza Gemma 4 12B con una arquitectura multimodal sin codificador

2. Nous Research lanza Hermes Desktop GUI para flujos de trabajo de agentes locales

3. sandboxed ofrece sandboxes de desarrollo de código abierto con URLs de vista previa

4. Mnemo lanza una capa de memoria de IA local para LLMs

5. Fun-Realtime-TTS de Alibaba encabeza la tabla de clasificación de Speech Arena

6. llama.cpp optimiza la predicción de múltiples tokens para modelos Qwen

7. Guía paso a paso para ajustar LFM2-1.2B con QLoRA y DPO

8. Vercel recomienda el análisis de BotID para prevenir el robo de inferencia de IA

9. Ideogram lanza el modelo de imagen Ideogram 4 con pesos abiertos

10. Angular v22 introduce MCP nativo y herramientas de agentes

11. Construya backends de inteligencia documental con el motor iii

Inference Brew en tu correo