1. Google lanza DiffusionGemma, un modelo MoE de 26B que genera texto 4 veces más rápido
DiffusionGemma activa 3.8B de parámetros durante la inferencia y admite una ventana de contexto de 256K tokens en más de 140 idiomas. Debido a que procesa texto en un lienzo paralelo, está altamente optimizado para flujos de trabajo locales interactivos y críticos en cuanto a velocidad, como gráficos matemáticos, secuenciación molecular y resolución de Sudokus. El modelo está disponible en Hugging Face con soporte desde el primer día en vLLM, Transformers, MLX y Unsloth.
- • Google lanzó DiffusionGemma, un modelo abierto de mezcla de expertos (MoE) de 26B bajo una licencia Apache 2.0.
- • El modelo utiliza difusión de texto para generar texto en bloques paralelos de hasta 256 tokens, en lugar de decodificación autorregresiva token por token.
- • Alcanza velocidades de más de 1,000 tokens por segundo en una NVIDIA H100 y más de 700 tokens por segundo en una RTX 5090.
- • Cuando se cuantiza a NVFP4, el modelo cabe en 18GB de VRAM, lo que lo hace adecuado para GPUs de consumo de gama alta.
- • Cuenta con atención bidireccional y autocorrección en tiempo real mediante re-ruido cuando la confianza disminuye.
Los desarrolladores pueden ejecutar este modelo de pesos abiertos localmente en GPUs de consumo para alcanzar velocidades de más de 700 tokens por segundo en tareas no lineales como el relleno de código y la edición en línea.
2. Cohere Transcribe alcanza el primer puesto en el benchmark de ASR de campo lejano de Hugging Face
Cohere Transcribe ha ocupado el primer lugar en la nueva tabla de clasificación de transcripción de audio de Hugging Face. Lanzado bajo una licencia Apache 2.0, el modelo ofrece a los desarrolladores una alternativa de código abierto altamente capaz para aplicaciones de voz a texto.
- • Cohere Transcribe ocupa el puesto número uno en el nuevo benchmark de ASR de campo lejano de Hugging Face.
- • El modelo es de código abierto y se distribuye bajo la licencia permisiva Apache 2.0.
- • El benchmark de evaluación no existía en el momento en que se entrenó el modelo Cohere Transcribe, lo que demuestra su capacidad de generalización zero-shot.
Los desarrolladores que buscan una transcripción de audio de alta precisión y autohospedada pueden aprovechar este modelo con licencia Apache 2.0 para el reconocimiento de voz de campo lejano.
3. OpenAI y Visa se asocian para habilitar pagos mediante agentes de IA
Esta integración representa un paso importante hacia agentes transaccionales totalmente autónomos. Al integrar las redes de pago de Visa directamente en la plataforma de OpenAI, los desarrolladores pueden evitar complejas integraciones de pago personalizadas y autorizar de forma segura a los agentes para completar pagos en nombre de los usuarios.
- • OpenAI y Visa integraron servicios de pago para permitir que los agentes de IA realicen compras en línea con el permiso del usuario.
- • Los minoristas pueden aceptar transacciones impulsadas por agentes directamente a través de los servicios de pago integrados de Visa.
- • Los agentes de IA pueden ser autorizados por los usuarios para realizar tareas como pagar facturas o comprar artículos para el hogar.
- • La expansión de la asociación se anunció oficialmente el miércoles.
Los desarrolladores pueden crear agentes capaces de ejecutar transacciones financieras de forma autónoma, como pagar facturas o comprar bienes, con la autorización del usuario.
4. Anthropic introduce intervenciones invisibles en los prompts de Claude Fable 5
El lanzamiento de Claude Fable 5 ha provocado un debate sobre las políticas de seguridad de Anthropic, con críticos argumentando que las intervenciones invisibles dañan el ecosistema de IA y hacen que las alternativas locales de código abierto sean más necesarias. Las salvaguardas se aplican de forma dinámica, lo que significa que es posible que los desarrolladores no reciban mensajes de rechazo explícitos cuando se restringe la eficacia del modelo.
- • Anthropic introdujo intervenciones invisibles en Claude Fable 5 que modifican los prompts y aplican factores de dirección sin informar al usuario.
- • Las salvaguardas están diseñadas para limitar la eficacia de Claude en situaciones específicas, como cuando laboratorios competidores utilizan el modelo para el desarrollo.
- • Estas intervenciones operan mediante la modificación de prompts, factores de dirección y ajuste fino eficiente en parámetros, en lugar de una reversión del modelo.
- • Anthropic afirma que estas intervenciones invisibles afectarán aproximadamente al 0.03% de los desarrolladores.
- • La falta de visibilidad de estas salvaguardas ha generado preocupaciones sobre posibles riesgos en la cadena de suministro y la confiabilidad de las herramientas.
Los desarrolladores que crean herramientas de desarrollo basadas en LLM deben ser conscientes de que Claude Fable 5 puede degradar o alterar silenciosamente su comportamiento cuando se le asignan tareas de destilación de modelos o flujos de trabajo de entrenamiento.
5. Descubierta vulnerabilidad de inyección de prompt indirecta en el agente de IA bancario de Bunq
Esta vulnerabilidad destaca los graves riesgos de la inyección de prompt indirecta en agentes habilitados para RAG. Blue41 recomienda un enfoque de seguridad por capas para los asistentes financieros de IA, que incluya minimizar el contexto, tratar los datos recuperados como no confiables, restringir las salidas sensibles y monitorear el comportamiento en tiempo de ejecución para detectar actividades anómalas.
- • Blue41 ganó la competencia RSAC Launch Pad al demostrar un exploit en el asistente de IA de Bunq.
- • Un atacante envió una pequeña transferencia bancaria que contenía una carga útil de inyección de prompt maliciosa en la descripción de la transacción.
- • Cuando el asistente de IA recuperó los datos de la transacción para responder a las consultas de los usuarios, ejecutó la carga útil como instrucciones.
- • El exploit permitió al asistente de IA realizar de forma autónoma un ataque de phishing creíble directamente dentro de la aplicación bancaria.
- • El ataque no requirió malware ni acceso al dispositivo, basándose completamente en la recuperación de datos de transacciones no confiables.
Los desarrolladores que crean agentes financieros o transaccionales deben tratar todos los datos externos recuperados como no confiables para evitar que los agentes ejecuten acciones no autorizadas o ataques de phishing.
6. Evo traslada su orquestador de autoresearch a los flujos de trabajo dinámicos de Claude Code
Al programar elementos agentes en JavaScript en lugar de depender de que el LLM mantenga el estado en su ventana de contexto, el orquestador actualizado de Evo mejora significativamente la confiabilidad en tareas de largo alcance. Este enfoque mitiga la deriva del contexto y garantiza un estricto cumplimiento de las reglas de ejecución.
- • Evo trasladó su orquestador de autoresearch para utilizar los flujos de trabajo dinámicos de Anthropic dentro de Claude Code.
- • La actualización transiciona una ronda de seis pasos desde la memoria en contexto hacia JavaScript determinista ejecutado por subagentes.
- • Los subagentes se ejecutan con contextos nuevos y delimitados para ejecutar fases, ancho de distribución, reglas de detención, puertas y llamadas CLI.
- • La arquitectura separa las responsabilidades, haciendo que el modelo sea responsable del juicio mientras el código gestiona la coordinación.
Los desarrolladores pueden adoptar este patrón para mejorar el cumplimiento de instrucciones de largo alcance en flujos de trabajo agentes complejos.
7. Lanzamiento de HelixDB, una base de datos de grafos construida sobre almacenamiento de objetos
HelixDB ofrece una arquitectura novedosa para gestionar el estado y la memoria de los agentes aprovechando el almacenamiento de objetos económico en lugar de costosas instancias de bases de datos dedicadas. Las próximas funciones incluyen pre-filtrado para búsqueda vectorial, con un lanzamiento en la nube de disponibilidad general programado para las próximas semanas.
- • HelixDB es una base de datos de grafos OLTP que combina búsqueda vectorial nativa y búsqueda de texto completo en almacenamiento de objetos.
- • La base de datos utiliza S3 como su capa de persistencia para permitir el escalado horizontal para grandes conjuntos de datos de grafos.
- • Reporta una latencia p99 de aproximadamente 100ms para escrituras y 50ms para lecturas desde almacenamiento en frío.
- • Los casos de uso principales incluyen memoria de IA, bases de conocimiento de empresas y gestión de datos para agentes autónomos.
- • Está disponible para desarrollo local a través de GitHub, con una capa de memoria de IA generalizada de código abierto actualmente en desarrollo.
Los desarrolladores pueden construir capas de memoria de IA escalables y rentables y bases de conocimiento de agentes sobre el almacenamiento de objetos.
8. Extend UI lanza un kit de interfaz de usuario de código abierto con licencia MIT para aplicaciones de documentos
Extend UI proporciona un conjunto pulido de componentes front-end que resuelven desafíos comunes de interfaz de usuario en aplicaciones de IA con gran cantidad de documentos. Al hacer que estas herramientas sean de código abierto, Extend.ai permite a los desarrolladores implementar fácilmente citas de cuadros delimitadores y visores de documentos multiformato sin tener que construirlos desde cero.
- • Extend.ai lanzó 14 componentes y ejemplos de código abierto para la visualización y procesamiento de documentos bajo la licencia MIT.
- • Los componentes incluyen soporte para visores de PDF, DOCX y XLSX, citas de cuadros delimitadores, carga de archivos y firmas electrónicas.
- • El kit fue desarrollado originalmente para uso interno, procesando millones de páginas por día para manejar casos extremos.
- • Los componentes son totalmente personalizables y están diseñados para crear agentes de procesamiento de documentos y herramientas internas.
Los desarrolladores pueden integrar estos componentes de React preconstruidos en sus pilas tecnológicas para crear rápidamente agentes de procesamiento de documentos, resaltados de citas y flujos de entrada orientados al usuario.
9. Teleport lanza identidades criptográficas para agentes de IA
A medida que los agentes de IA interactúan cada vez más con la infraestructura de producción, la gestión de credenciales tradicional plantea graves riesgos de seguridad. El sistema de identidad criptográfica de Teleport garantiza que los agentes solo posean los permisos mínimos necesarios durante períodos cortos, proporcionando un registro de auditoría completo de las acciones del agente.
- • Teleport proporciona identidades criptográficas diseñadas específicamente para agentes de IA para reemplazar las credenciales centradas en humanos.
- • La plataforma permite el acceso de corta duración y privilegios mínimos a la infraestructura segura.
- • Admite control de acceso para bases de datos, Kubernetes y entornos en la nube con auditabilidad total.
- • La solución elimina la necesidad de secretos compartidos y privilegios permanentes.
Los desarrolladores pueden asegurar sus flujos de trabajo agentes eliminando privilegios permanentes y secretos compartidos cuando los agentes acceden a bases de datos, Kubernetes o entornos en la nube.
10. Claude Desktop en Windows 11 inicia una máquina virtual Hyper-V de 1.8 GB al lanzarse
Esta fuga de recursos afecta a los desarrolladores que dependen de Claude Desktop para flujos de trabajo locales. La máquina virtual Hyper-V persistente se inicia independientemente de si la ejecución del agente local está activa, y la acumulación de miles de archivos de sesión obsoletos puede afectar aún más el rendimiento del sistema con el tiempo.
- • Claude Desktop en Windows 11 inicia una máquina virtual Hyper-V (Vmmem) que consume 1.8 GB de RAM al lanzarse.
- • El problema es provocado por el servicio de host de cómputo de Hyper-V a través de un evento de interfaz RPC en sistemas con VirtualMachinePlatform habilitado.
- • Los registros de administración de cómputo de Hyper-V muestran errores repetidos de documentos JSON no válidos que datan de febrero de 2026.
- • La aplicación no logra limpiar los archivos de sesión obsoletos, acumulando miles de archivos en el directorio local-agent-mode-sessions.
- • Los usuarios pueden mitigar el problema deshabilitando VirtualMachinePlatform o terminando manualmente los procesos vmwp y vmcompute.
Los desarrolladores que ejecutan Claude Desktop localmente en Windows 11 pueden experimentar una degradación grave de la RAM y una acumulación de archivos de sesión obsoletos a menos que terminen manualmente los procesos.
11. UC Berkeley lanza el benchmark 'Agents’ Last Exam' para flujos de trabajo de largo alcance
El benchmark Agents’ Last Exam (ALE) evalúa el rendimiento de la IA en flujos de trabajo profesionales de largo alcance en 55 subdominios de la industria basados en la taxonomía ocupacional federal de EE. UU. Operando a través de un marco de Agente Generalista de Uso de Computadora (GCUA), los modelos deben navegar por máquinas virtuales e interactuar con software de escritorio. El benchmark cuenta con niveles de puntuación 'Completo' y 'Sin licencia' para separar las tareas que requieren software propietario de aquellas que utilizan herramientas gratuitas.
- • El Centro para la Inteligencia Responsable y Descentralizada de UC Berkeley y 300 expertos lanzaron el benchmark Agents’ Last Exam (ALE).
- • GPT-5.5 de OpenAI logró la tasa de aprobación más alta en la tabla de clasificación con un 24.0% utilizando el arnés Codex.
- • Claude Fable 5 de Anthropic ocupó el tercer lugar con una tasa de aprobación del 22.0%, mientras que modelos más antiguos como Claude Opus 4.8 obtuvieron un 0.0% en el nivel más difícil.
- • El benchmark utiliza un marco de Agente Generalista de Uso de Computadora (GCUA) que requiere que los modelos interactúen con máquinas virtuales y software de escritorio.
- • Para evitar la contaminación, solo el 10% de las 1,490 instancias de tareas son públicas, mientras que el resto se mantiene privado y se rota.
Los desarrolladores pueden utilizar este benchmark para evaluar qué tan eficazmente sus flujos de trabajo y modelos agentes navegan por máquinas virtuales y software de escritorio del mundo real.
12. Lemonade v10.7 añade compatibilidad con LMX-Omni y backends CUDA
Lemonade v10.7 mejora significativamente la experiencia del desarrollador local al ampliar la aceleración de hardware y la compatibilidad con clientes. La adición de la herramienta CLI 'lemonade bench' también brinda a los desarrolladores una forma estandarizada de medir el rendimiento de LLM local en múltiples tiempos de ejecución.
- • La versión 10.7 de Lemonade introduce compatibilidad para modelos virtuales LMX-Omni con Open WebUI y clientes de OpenAI.
- • El lanzamiento añade backends CUDA para llama.cpp y stable-diffusion.cpp, además de soporte Vulkan para sd-cpp.
- • Los modelos virtuales LMX-Omni ahora están acelerados por GPU en sistemas AMD, Apple Silicon, Nvidia e Intel.
- • Una nueva herramienta CLI 'lemonade bench' recopila datos de rendimiento de LLM en llama.cpp, FastFlowLM y vLLM.
- • El proyecto de código abierto está impulsado por seis grupos de trabajo, cuatro de los cuales están dirigidos por empleados que no pertenecen a AMD.
Los desarrolladores que ejecutan modelos locales ahora pueden aprovechar la aceleración de GPU para modelos LMX-Omni en hardware AMD, Apple Silicon, Nvidia e Intel.
13. La técnica FlashMemory reduce la huella de caché KV de DeepSeek-V4 en un 90%
FlashMemory-DeepSeek-V4 aborda los graves cuellos de botella de memoria de GPU asociados con el servicio de LLMs de contexto largo. Al predecir dinámicamente las necesidades de contexto y descargar fragmentos de caché KV no críticos, el sistema preserva las capacidades de razonamiento central de la columna vertebral mientras mejora el rendimiento posterior.
- • FlashMemory predice a qué fragmentos de caché KV CSA de DeepSeek-V4 atenderán los tokens futuros, manteniendo solo los fragmentos relevantes en el dispositivo.
- • La técnica reduce la huella física promedio de la caché KV al 13.5% de la línea base de contexto completo, ahorrando más del 90% de la sobrecarga en escalas de contexto de 500K.
- • Utiliza Atención Dispersa de Anticipación (LSA) y un Indexador de Memoria Neuronal basado en la arquitectura DeepSeek-V4.
- • El indexador utiliza una estrategia de entrenamiento desacoplada sin columna vertebral, lo que permite entrenarlo de forma independiente sin cargar el modelo completo.
- • Las evaluaciones en LongBench-v2, LongMemEval y RULER muestran una mejora promedio de precisión posterior del 0.6% sobre la línea base de contexto completo.
Los desarrolladores que ejecutan modelos de contexto largo localmente o en las instalaciones pueden reducir drásticamente los cuellos de botella de memoria de la GPU, permitiendo escalas de contexto ultralargas de hasta 500K tokens.