Audesso | Daily: AI

Huawei lanza KVarN como código abierto para una cuantización de KV-Cache de 3-5x en vLLM

00:00 / --:--

← Volver al inicio

Huawei lanza KVarN como código abierto para una cuantización de KV-Cache de 3-5x en vLLM

1. Huawei lanza KVarN como código abierto para una cuantización de KV-Cache de 3-5x en vLLM

Huawei ha publicado como código abierto KVarN, un backend de atención nativo para vLLM diseñado para optimizar la cuantización de KV-cache en cargas de trabajo de contexto largo y agentes. KVarN comprime el KV-cache de 3 a 5 veces mediante un proceso de cuatro etapas (rotación de Hadamard, normalización de varianza iterativa y cuantización asimétrica de redondeo al más cercano) sin necesidad de cambios en el modelo ni calibración. Logra hasta 1.3 veces el rendimiento de FP16 y 2.4 veces el de TurboQuant, manteniendo la precisión de razonamiento de nivel FP16.

  • KVarN ofrece una capacidad de KV-cache de 3-5x mayor y hasta 1.3x el rendimiento de FP16.
  • Está implementado como un backend de atención nativo de vLLM que no requiere cambios en el modelo ni calibración.
  • La configuración predeterminada (kvarn_k4v2_g128) utiliza claves de 4 bits y valores de 2 bits.
  • Logra hasta 2.4 veces más rendimiento que TurboQuant manteniendo la precisión de razonamiento de nivel FP16.
  • El software está construido sobre vLLM v0.22.0 y se publica bajo la licencia Apache 2.0.

Los desarrolladores que ejecutan cargas de trabajo de contexto largo o agentes en vLLM pueden aumentar significativamente la capacidad de servicio y el rendimiento sin necesidad de reentrenar o calibrar sus modelos.

SOURCES

2. Stanford y Lambda Labs lanzan el framework de agentes locales OpenJarvis

Investigadores de la Universidad de Stanford y Lambda Labs han lanzado OpenJarvis, un framework de código abierto y centrado en el uso local para ejecutar agentes de IA en el dispositivo. El framework utiliza un objeto de configuración declarativo llamado "spec" para descomponer los sistemas de agentes en cinco primitivas intercambiables. Al utilizar una búsqueda de especificaciones guiada por LLM con un modelo profesor en la nube durante la optimización, OpenJarvis permite que los modelos locales se ejecuten sin llamadas a la nube durante la inferencia, logrando un rendimiento dentro de 3.2 puntos porcentuales de los mejores modelos en la nube con un costo marginal de API 800 veces menor.

  • OpenJarvis es un framework de código abierto y centrado en el uso local, publicado bajo la licencia Apache 2.0.
  • Descompone los sistemas de IA en cinco primitivas: Inteligencia, Motor, Agentes, Herramientas y Memoria, y Aprendizaje.
  • El framework utiliza una búsqueda de especificaciones guiada por LLM con un modelo profesor en la nube para optimizar las especificaciones locales, requiriendo cero llamadas a la nube durante la inferencia.
  • Soporta 11 modelos locales de cuatro familias, incluyendo Qwen3.5, Gemma4, Nemotron y Granite.
  • Igualó o superó el rendimiento de los modelos en la nube en benchmarks como ToolCall-15 y PinchBench.
  • Incluye soporte integrado para más de 25 conectores de datos y 32 canales de mensajería.

Los desarrolladores pueden crear agentes locales altamente capaces que rinden dentro de 3.2 puntos porcentuales de los mejores modelos en la nube, reduciendo los costos de API en 800 veces y la latencia en 4 veces.

SOURCES

3. Anthropic detalla el sandboxing a nivel de SO y la seguridad para Claude Code

Anthropic ha detallado sus estrategias de contención de seguridad para sus productos de agentes, incluyendo Claude Code y Claude Cowork. Para proteger contra el uso indebido por parte del usuario, el comportamiento incorrecto del modelo y ataques externos, Claude Code utiliza sandboxing a nivel de SO (Seatbelt en macOS y bubblewrap en Linux) para aislar la ejecución, mientras que Claude Cowork se ejecuta dentro de máquinas virtuales completas. Anthropic enfatiza que las defensas de seguridad deben priorizar la contención en la capa de entorno, señalando que el red-teaming interno demostró riesgos como prompts maliciosos que exfiltraban credenciales de AWS.

  • Claude Code utiliza sandboxing a nivel de SO (Seatbelt en macOS, bubblewrap en Linux), reduciendo las solicitudes de permisos en un 84%.
  • El modo automático de Claude Code detecta aproximadamente el 83% de los comportamientos excesivamente entusiastas de los agentes antes de su ejecución.
  • Claude Cowork emplea una arquitectura de máquina virtual completa (framework de virtualización de Apple o HCS de Windows) para aislar al agente.
  • Anthropic recibió informes de vulnerabilidades en Claude Code donde la configuración local del proyecto se analizaba antes de establecer un límite de confianza.
  • Un ejercicio de red-teaming interno demostró que un empleado podía ser víctima de phishing para lanzar Claude Code con un prompt malicioso capaz de exfiltrar credenciales de AWS.
  • Anthropic aconseja priorizar la contención en la capa de entorno antes de dirigir el comportamiento en la capa del modelo.

Los desarrolladores que crean o utilizan herramientas de codificación con agentes pueden aprender a asegurar sus entornos contra prompts maliciosos y la exfiltración no autorizada de credenciales.

SOURCES

4. Anthropic publica una implementación de referencia para el descubrimiento autónomo de vulnerabilidades

Anthropic ha lanzado una implementación de referencia para el descubrimiento y remediación autónoma de vulnerabilidades impulsada por Claude. El pipeline de código abierto está diseñado para escanear repositorios, clasificar problemas y sugerir parches, enfocándose específicamente en vulnerabilidades de memoria en C/C++ utilizando Docker y AddressSanitizer (ASAN). Para garantizar la seguridad durante la ejecución, el pipeline aísla a los agentes autónomos utilizando sandboxing de gVisor, y es compatible con las API de Claude en Bedrock, Vertex y Azure.

  • El repositorio proporciona una implementación de referencia para el descubrimiento y remediación autónoma de vulnerabilidades utilizando Claude.
  • El pipeline utiliza sandboxing de gVisor para aislar a los agentes autónomos durante la ejecución.
  • Está configurado para encontrar vulnerabilidades de memoria en C/C++ utilizando Docker y AddressSanitizer (ASAN).
  • El proceso consta de siete etapas: Construcción, Reconocimiento, Búsqueda, Verificación, Deduplicación, Informe y Parcheo.
  • Es compatible con las API de Claude, incluyendo Bedrock, Vertex y Azure.
  • El repositorio no tiene mantenimiento y no acepta contribuciones.

Los desarrolladores pueden implementar un pipeline estructurado y aislado para escanear, clasificar y parchear automáticamente vulnerabilidades de memoria en C/C++ en sus bases de código.

SOURCES

5. Boxes.dev lanza entornos de desarrollo para agentes solo en la nube para Claude Code

Los fundadores Nick y Drew han lanzado boxes.dev, un entorno de desarrollo para agentes exclusivo en la nube diseñado para ejecutar agentes de Claude Code y Codex en computación remota dedicada. Al ejecutar agentes en instantáneas en la nube del entorno de un desarrollador, la plataforma resuelve las limitaciones de recursos locales y los problemas de gestión de git worktree. El servicio incluye una aplicación de escritorio, una aplicación móvil, automatizaciones programadas y una integración con Slack.

  • Boxes.dev proporciona computadoras dedicadas en la nube para ejecutar agentes de Codex y Claude Code.
  • La plataforma tiene como objetivo resolver limitaciones de desarrollo local como la gestión de git worktree y las restricciones de recursos.
  • Permite a los usuarios ejecutar agentes en computación remota utilizando instantáneas de su entorno de desarrollo completo.
  • Las características incluyen una aplicación de escritorio, una aplicación móvil, automatizaciones programadas y una integración con Slack.

Los desarrolladores pueden descargar agentes de codificación que consumen muchos recursos de sus máquinas locales y evitar conflictos de git worktree ejecutando agentes en instantáneas de computación remota.

SOURCES

6. Miso Labs lanza MisoTTS, un modelo de texto a voz de 8B parámetros con pesos abiertos

Miso Labs ha lanzado MisoTTS, un modelo de texto a voz de 8 mil millones de parámetros con pesos abiertos bajo una licencia MIT modificada. El modelo utiliza una arquitectura de cuantización vectorial residual (RVQ), combinando un backbone de 7.7B para la predicción temporal y un decodificador de 300M para la predicción de profundidad. MisoTTS se condiciona tanto al texto como al contexto de audio para igualar el tono del hablante, logrando una latencia declarada de 110ms para interacciones semidúplex de un solo turno.

  • MisoTTS es un modelo de texto a voz de 8B de parámetros con pesos abiertos lanzado bajo una licencia MIT modificada.
  • El modelo utiliza una arquitectura de cuantización vectorial residual (RVQ), que consiste en un backbone de 7.7B y un decodificador de 300M.
  • Se condiciona tanto al texto como al contexto de audio para responder al tono del hablante.
  • Miso Labs declara una latencia de 110ms, en comparación con los 300ms de Sesame y los 700ms de ElevenLabs.
  • El modelo actualmente está limitado a interacciones semidúplex de un solo turno.

Los desarrolladores pueden autoalojar un modelo TTS altamente receptivo y emotivo con una latencia declarada de 110ms, significativamente más rápido que las alternativas comerciales.

SOURCES

7. Lanzamiento de Gradio 6.16.0 con parches de seguridad y latidos configurables

Se ha lanzado la versión 6.16.0 de Gradio, introduciendo varios parches de seguridad y actualizaciones de funciones. La versión aborda una vulnerabilidad de recorrido de ruta en `gr.FileExplorer`, un bypass de redirección abierta en OAuth y vulnerabilidades SSRF en el procesamiento posterior de Image, Gallery y Audio. Además, introduce un latido de sesión configurable a través de la variable de entorno `GRADIO_HEARTBEAT_INTERVAL` y actualiza el endpoint MCP para mostrar una página de aterrizaje en el navegador.

  • Gradio 6.16.0 introduce una función de latido configurable a través de la variable de entorno `GRADIO_HEARTBEAT_INTERVAL`.
  • El endpoint MCP se ha actualizado para mostrar una página de aterrizaje cuando se visita a través de un navegador.
  • Los parches de seguridad abordan el recorrido de ruta en `gr.FileExplorer`, un bypass de redirección abierta en OAuth y SSRF en el procesamiento posterior de Image, Gallery y Audio.
  • La versión incluye correcciones de errores para bloqueos del navegador en Dataframe y Tabs.

Los desarrolladores que utilizan Gradio deben actualizar inmediatamente para parchear vulnerabilidades de recorrido de ruta, redirección abierta y SSRF, mientras obtienen un mejor control de la sesión.

SOURCES

8. NVIDIA lanza LocateAnything 3B, un modelo local para la comprensión de interfaces de usuario

NVIDIA ha lanzado LocateAnything 3B, un modelo ligero diseñado para ejecutarse localmente para la automatización de interfaces de usuario y la comprensión de pantallas. El modelo combina grounding, OCR y comprensión de UI para localizar instantáneamente objetos, botones o texto basados en descripciones verbales, permitiendo a los desarrolladores construir flujos de trabajo de agentes locales conscientes de la pantalla.

  • NVIDIA lanzó el modelo LocateAnything 3B diseñado para ejecutarse localmente.
  • El modelo combina grounding, OCR y comprensión de UI.
  • Localiza instantáneamente objetos, botones o texto basados en descripciones verbales.

Los desarrolladores pueden integrar este modelo local ligero para construir agentes conscientes de la pantalla y herramientas de automatización de UI controladas por voz sin depender de API en la nube.

SOURCES

9. NVIDIA lanza un dataset de seguridad para agentes contra inyecciones de prompts indirectas

NVIDIA ha lanzado un dataset de seguridad para agentes en Hugging Face para ayudar a los desarrolladores a evaluar la seguridad de los agentes que utilizan herramientas. El dataset contiene 1,272 registros sintéticos de red-teaming que abarcan nueve dominios empresariales, diseñados específicamente para probar si los agentes pueden resistir inyecciones de prompts indirectas incrustadas en datos devueltos por herramientas.

  • NVIDIA lanzó un dataset de seguridad para agentes en Hugging Face.
  • El dataset consta de 1,272 registros sintéticos de red-teaming.
  • Cubre nueve dominios empresariales distintos.
  • Está diseñado para probar agentes que utilizan herramientas contra inyecciones de prompts indirectas ocultas en datos devueltos por herramientas.

Los desarrolladores pueden utilizar este dataset para evaluar y fortalecer sus agentes que utilizan herramientas contra cargas útiles maliciosas ocultas en fuentes de datos externas.

SOURCES

10. BeeLlama v0.3.1 integra llama.cpp upstream y acelera la inferencia local

Se han lanzado las versiones 0.3.0 y 0.3.1 de BeeLlama, que traen actualizaciones arquitectónicas que se alinean con llama.cpp upstream. La actualización introduce soporte para Gemma 4 12B, configuraciones DFlash multi-GPU, KV cache q6_0 y nuevas opciones de cuantización. Los benchmarks en una sola RTX 3090 demuestran aceleraciones de hasta 4.93x para los modelos Qwen 3.6 27B y Gemma 4 31B en comparación con el rendimiento base.

  • BeeLlama v0.3.0 y v0.3.1 se alinean con llama.cpp upstream e integran soporte para MTP y Gemma 4 12B.
  • DFlash se ha mejorado para manejar configuraciones de múltiples ranuras y múltiples GPU.
  • La versión proporciona binarios precompilados e imágenes de Docker para todas las plataformas principales.
  • Añade soporte para KV cache q6_0 y opciones de cuantización de modelos TQ3_1S/TQ4_1S.
  • Los benchmarks en una RTX 3090 muestran que DFlash logra aceleraciones de hasta 4.93x para los modelos Qwen 3.6 27B y Gemma 4 31B.

Los desarrolladores que ejecutan modelos locales pueden aprovechar binarios precompilados e imágenes de Docker para acelerar la inferencia para los modelos Qwen 3.6 y Gemma 4.

SOURCES

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.