Divulgada vulnerabilidad de omisión de BitLocker

1. Divulgada vulnerabilidad de omisión de BitLocker

Un investigador de seguridad conocido como Nightmare-Eclipse ha revelado una vulnerabilidad, denominada YellowKey, que permite el acceso no autorizado a volúmenes protegidos por BitLocker. Al manipular el Entorno de Recuperación de Windows, un atacante puede omitir el cifrado de volumen completo sin necesidad de contraseña. El fallo afecta a Windows 11, Windows Server 2022 y Windows Server 2025. Los profesionales de seguridad recomiendan actualmente el uso de herramientas de cifrado alternativas como VeraCrypt hasta que se desplieguen los parches oficiales.

• YellowKey omite el cifrado de BitLocker a través del Entorno de Recuperación de Windows.
• Afecta a Windows 11, Windows Server 2022 y Windows Server 2025.
• No afecta a Windows 10.
• Los expertos en seguridad recomiendan considerar soluciones de cifrado alternativas como VeraCrypt.

Para los desarrolladores y organizaciones que dependen de una infraestructura basada en Windows para cargas de trabajo de IA sensibles, esta vulnerabilidad representa un riesgo crítico para los datos en reposo.

SOURCES

[1]

2. Divulgada vulnerabilidad en AMD SEV-SNP

Investigadores han identificado una vulnerabilidad, CVE-2025-54510, que permite a un hipervisor malicioso comprometer la seguridad de AMD SEV-SNP. Al configurar incorrectamente el enrutamiento de memoria de Infinity Fabric, un atacante puede engañar al coprocesador seguro para que inicialice incorrectamente el entorno, otorgando acceso arbitrario de lectura y escritura a la memoria de la Máquina Virtual Confidencial. El exploit es determinista y afecta a los procesadores EPYC Zen 3, Zen 4 y Zen 5.

• El exploit permite acceso a nivel de hipervisor a la memoria de la Máquina Virtual Confidencial.
• Afecta a los procesadores AMD EPYC Zen 3, Zen 4 y Zen 5.
• AMD ha publicado correcciones bajo el aviso AMD-SB-3034.
• Requiere privilegios de hipervisor para ejecutarse.

Esta vulnerabilidad socava el aislamiento a nivel de hardware necesario para la computación confidencial, la cual es esencial para entornos seguros de inferencia y entrenamiento de IA multiinquilino.

SOURCES

[1]

3. Brecha de seguridad en GitHub de Grafana Labs

Grafana Labs reveló recientemente un incidente de seguridad en el que un actor no autorizado obtuvo acceso a su entorno de GitHub y descargó el código fuente de la empresa. El atacante intentó extorsionar a la compañía, pero Grafana se negó a pagar el rescate, siguiendo las directrices del FBI. Desde entonces, la empresa ha invalidado las credenciales comprometidas e implementado medidas de seguridad adicionales. No se informó de que se hayan visto comprometidos datos de clientes o información personal.

• El acceso no autorizado al entorno de GitHub de Grafana llevó a la descarga del código fuente.
• No se comprometieron datos de clientes ni información personal.
• Grafana se negó a pagar la demanda de extorsión.
• La brecha está vinculada al grupo de extorsión de datos CoinbaseCartel.

Este incidente destaca el riesgo continuo de exposición de la cadena de suministro y del código fuente para los proveedores de infraestructura, enfatizando la necesidad de una gestión robusta de credenciales.

SOURCES

[1]

4. NousResearch lanza el modelo Hermes Agent

NousResearch ha lanzado un modelo de 9B de parámetros diseñado para mejorar las capacidades del agente Hermes. El modelo demuestra mejoras significativas en llamadas a herramientas y tareas de codificación, logrando una puntuación del 53.33% en el benchmark SWE-bench y 85 en el benchmark HermesAgent-20. Se recomienda a los desarrolladores utilizar una temperatura de 1.0 para un rendimiento óptimo en flujos de trabajo agenticos.

• Modelo de 9B de parámetros optimizado para llamadas a herramientas y codificación agentica.
• Logró un 53.33% en SWE-bench (segmento de 200 muestras).
• Supera al modelo base en el benchmark HermesAgent-20.
• La temperatura recomendada para flujos de trabajo agenticos es 1.0.

Este lanzamiento proporciona un modelo de alto rendimiento y menor escala para desarrolladores que construyen agentes de codificación autónomos que requieren un uso fiable de herramientas.

SOURCES

[1]

5. Lanzamiento de Qwopus3.5-9B-Coder

El modelo Qwopus3.5-9B-Coder es un modelo denso de 9B de parámetros diseñado para llamadas a herramientas complejas, depuración y procesamiento de tareas a nivel de repositorio. Está optimizado para ejecutarse con precisión de 8 bits en dispositivos con 16GB de RAM, lo que lo hace adecuado para portátiles estándar y Mac minis. El modelo integra la técnica de aumento de datos Trace Inversion para mejorar la coherencia lógica y el uso de herramientas.

• Modelo denso de 9B para codificación, depuración y llamadas a herramientas.
• Optimizado para precisión de 8 bits en dispositivos con 16GB de RAM.
• Funcional con tan solo 8GB de VRAM.
• Utiliza aumento de datos Trace Inversion para mejorar el razonamiento.

Este modelo ofrece una opción compacta y eficiente para desarrolladores que necesitan capacidades de codificación y llamadas a herramientas de alta calidad en hardware local.

SOURCES

[1]

6. Patrones arquitectónicos para RAG mejorado con grafos

La generación aumentada por recuperación (RAG) a menudo tiene dificultades con datos interconectados porque los enfoques basados solo en vectores capturan la similitud semántica pero ignoran la topología estructural. El RAG mejorado con grafos aborda esto combinando la búsqueda vectorial con bases de datos de grafos para mantener relaciones como jerarquías y dependencias. La arquitectura recomendada utiliza una pila de tres capas: ingesta para la extracción de entidades, una base de datos de grafos para el almacenamiento y recuperación híbrida utilizando tanto escaneos vectoriales como recorridos de grafos.

• El RAG basado solo en vectores a menudo no logra capturar relaciones estructurales.
• El RAG mejorado con grafos combina la búsqueda vectorial con bases de datos de grafos.
• La arquitectura incluye ingesta, almacenamiento en grafos y recuperación híbrida.
• Recomendado para dominios regulados y consultas de relaciones de múltiples saltos.

Para los desarrolladores que construyen sistemas RAG para dominios regulados o complejos, el RAG mejorado con grafos proporciona una mejor explicabilidad y precisión para consultas de múltiples saltos.

SOURCES

[1]

7. Vercel Labs presenta Zero

Zero es un lenguaje de programación de sistemas experimental creado para facilitar el manejo de errores y la reparación de código por parte de máquinas. El compilador emite diagnósticos en JSON estructurado, incluyendo códigos de error estables e identificadores de reparación tipados, que permiten a los agentes de IA entender y corregir problemas de código de forma programática. El lenguaje cuenta con E/S basada en capacidades y evita el async implícito o la recolección de basura para garantizar un flujo de control y memoria predecible.

• Diseñado para que los agentes de IA lean, reparen y envíen programas nativos.
• Compila a ejecutables nativos de menos de 10 KiB.
• Emite diagnósticos en JSON estructurado para el manejo de errores por parte de máquinas.
• Cuenta con E/S basada en capacidades y sin recolección de basura obligatoria.

Zero proporciona una cadena de herramientas especializada para desarrolladores que construyen agentes autónomos que necesitan interactuar con código nativo a nivel de sistema y mantenerlo.

SOURCES

[1]

8. Semble: Búsqueda de código eficiente para agentes

Semble es una herramienta de recuperación de código diseñada para mejorar la eficiencia de los agentes de IA que trabajan en grandes bases de código. Utiliza incrustaciones estáticas Model2Vec combinadas con BM25, fusionadas mediante RRF y reordenadas con señales conscientes del código. La herramienta se ejecuta completamente en la CPU, no requiere claves de API externas y es compatible con servidores MCP como Claude Code y Cursor. Logra el 99% de la calidad de recuperación de modelos transformadores más grandes mientras reduce significativamente el uso de tokens.

• Utiliza incrustaciones estáticas Model2Vec y BM25 para la recuperación.
• Se ejecuta completamente en la CPU sin dependencias de API externas.
• Compatible con Claude Code, Cursor y otros servidores MCP.
• Reduce el uso de tokens en un 98% en comparación con los métodos basados en grep.

Semble ofrece una forma rentable y eficiente para que los agentes naveguen por grandes repositorios sin la sobrecarga de servicios de incrustación externos.

SOURCES

[1]

9. Lanzamiento de tutorial sobre compresión de LLM

Este tutorial proporciona un marco práctico para la cuantización post-entrenamiento de LLMs utilizando la biblioteca llmcompressor. Compara cuatro variantes: línea base FP16, cuantización dinámica FP8, GPTQ W4A16 y SmoothQuant con GPTQ W8A8. El flujo de trabajo evalúa métricas de rendimiento que incluyen tamaño en disco, latencia de generación, rendimiento y perplejidad, utilizando el conjunto de datos UltraChat 200k para la calibración.

• Compara métodos de cuantización FP8, GPTQ y SmoothQuant.
• Evalúa tamaño en disco, latencia, rendimiento y perplejidad.
• Utiliza la biblioteca llmcompressor para la cuantización post-entrenamiento.
• La calibración utiliza 256 muestras del conjunto de datos UltraChat 200k.

Esta guía ayuda a los desarrolladores a optimizar el despliegue de modelos equilibrando la recuperación de precisión con ganancias de rendimiento específicas del hardware.

SOURCES

[1]

10. Actualización de Llama.cpp mejora el procesamiento de prompts

La última actualización de llama.cpp, versión b9200, incluye una optimización para la Predicción de Múltiples Tokens (MTP). Al evitar la copia de logits para cada token en un lote durante el procesamiento de prompts y utilizar la pre-normalización, la actualización reduce el tráfico de memoria. Este cambio está diseñado específicamente para aumentar la velocidad de procesamiento de prompts (PP) para modelos que utilizan MTP.

• Lanzamiento de Llama.cpp b9200.
• Introduce la optimización de logits MTP para reducir el tráfico de memoria.
• Mejora la velocidad de procesamiento de prompts (PP).
• Se basa en la pre-normalización para evitar la copia redundante de logits.

Esta optimización proporciona un impulso directo al rendimiento para los desarrolladores que ejecutan modelos habilitados para MTP localmente, reduciendo la latencia durante la ingesta de prompts.

SOURCES

[1] [2]

11. Corrección de división de tensores para doble GPU en Llama.cpp

Una bifurcación de llama.cpp desarrollada por la comunidad aborda una limitación donde la función de tensor --split-mode solo admitía cachés KV no cuantizados. La corrección permite la división de tensores para cachés cuantizados, lo que resulta en un aumento del 40% en tokens por segundo en configuraciones de doble GPU. La bifurcación también incluye soporte para los últimos cambios de MTP, aunque actualmente se recomienda para modelos densos en lugar de arquitecturas MoE.

• Corrige problemas de división de tensores para cachés KV cuantizados.
• Ofrece un aumento de velocidad del 40% en configuraciones de doble GPU.
• Incluye soporte para los últimos cambios de MTP.
• Recomendado para modelos densos; el soporte para MoE sigue siendo limitado.

Esta corrección permite a los desarrolladores con configuraciones multi-GPU mejorar significativamente el rendimiento de inferencia al usar cachés KV cuantizados.

SOURCES

[1]

12. Benchmarks de motores de inferencia en clústeres de GPU mixtos

Un estudio de benchmark evaluó vLLM, SGLang y llama.cpp en un clúster heterogéneo de 7 GPUs con arquitecturas Blackwell y Ada. vLLM demostró un rendimiento superior en configuraciones multi-GPU mixtas, logrando significativamente más tokens por segundo en comparación con llama.cpp, que tuvo dificultades con el paralelismo de tuberías. SGLang funcionó bien en configuraciones puras de Blackwell pero falló en clústeres mixtos debido a la falta de una alternativa de software para pesos FP4.

• vLLM superó a llama.cpp y SGLang en clústeres de GPU mixtos.
• llama.cpp funcionó de 4 a 6 veces más lento debido a problemas de paralelismo de tuberías.
• SGLang carece de alternativa de software para pesos FP4 en tarjetas Ada más antiguas.
• vLLM admite configuraciones mixtas emulando FP4 en hardware más antiguo.

Para los desarrolladores que gestionan clústeres de hardware heterogéneo, estos resultados destacan la importancia de la selección del motor para el rendimiento de inferencia de contexto largo.

SOURCES

[1]

13. Auto-destilación para aprendizaje continuo

Investigadores han introducido el Ajuste Fino por Auto-destilación (SDFT), un método que permite el aprendizaje en política directamente a partir de demostraciones de expertos. Al utilizar un modelo condicionado por demostraciones como su propio profesor, SDFT genera señales de entrenamiento que preservan las capacidades previas mientras adquieren nuevas habilidades. El método supera constantemente al ajuste fino supervisado (SFT) estándar al lograr una mayor precisión en nuevas tareas y reducir significativamente el olvido catastrófico.

• SDFT utiliza un modelo como su propio profesor para preservar el conocimiento previo.
• Reduce el olvido catastrófico en modelos base.
• Supera al ajuste fino supervisado (SFT) en nuevas tareas.
• Permite el aprendizaje en política a partir de demostraciones de expertos.

SDFT proporciona un enfoque más robusto para el ajuste fino de modelos en conjuntos de datos en evolución, lo cual es crítico para mantener el rendimiento en aplicaciones agenticas o específicas de dominio a largo plazo.

SOURCES

[1]

14. Aumento de costes de suscripción a IA empresarial

Los laboratorios de IA se están alejando de las suscripciones de tarifa plana a medida que los costes de cómputo para las cargas de trabajo de IA agentica superan los modelos de precios actuales. GitHub, por ejemplo, está haciendo la transición de Copilot a una facturación basada en el uso, y otros proveedores están introduciendo precios de nivel superior para usuarios intensivos. A medida que las empresas se preparan para las OPI, el enfoque se desplaza hacia una economía unitaria sostenible, lo que señala el fin de la era de los servicios de IA empresarial fuertemente subsidiados.

• Los modelos de tarifa plana son insostenibles para las cargas de trabajo de IA agentica.
• GitHub Copilot está pasando a una facturación basada en el uso.
• Los laboratorios de IA están cambiando su enfoque hacia la rentabilidad y una mayor economía unitaria.
• La IA agentica aumenta significativamente el consumo de tokens en comparación con los chatbots.

Las organizaciones deben prepararse para costes operativos de IA significativamente más altos a medida que la industria avanza hacia modelos de precios basados en el uso.

SOURCES

[1]

1. Divulgada vulnerabilidad de omisión de BitLocker

2. Divulgada vulnerabilidad en AMD SEV-SNP

3. Brecha de seguridad en GitHub de Grafana Labs

4. NousResearch lanza el modelo Hermes Agent

5. Lanzamiento de Qwopus3.5-9B-Coder

6. Patrones arquitectónicos para RAG mejorado con grafos

7. Vercel Labs presenta Zero

8. Semble: Búsqueda de código eficiente para agentes

9. Lanzamiento de tutorial sobre compresión de LLM

10. Actualización de Llama.cpp mejora el procesamiento de prompts

11. Corrección de división de tensores para doble GPU en Llama.cpp

12. Benchmarks de motores de inferencia en clústeres de GPU mixtos

13. Auto-destilación para aprendizaje continuo

14. Aumento de costes de suscripción a IA empresarial

La señal diaria de IA en tu correo