Audesso | Daily: AI

Lanzamiento de OpenMythos, un modelo de ciberseguridad de pesos abiertos en Hugging Face

00:00 / --:--

← Volver al inicio

Lanzamiento de OpenMythos, un modelo de ciberseguridad de pesos abiertos en Hugging Face

1. Lanzamiento de OpenMythos, un modelo de ciberseguridad de pesos abiertos en Hugging Face

Desarrollado para el Build Small Hackathon, OpenMythos es un nuevo LLM de pesos abiertos diseñado para abordar la tendencia de los modelos de propósito general a alucinar detalles de CVE y pasar por alto patrones de vulnerabilidad. El modelo fue entrenado con un conjunto de datos curado de 1.840 registros de alta calidad provenientes de artículos de ArXiv cs.CR y datos estructurados de CVE. Su proceso de entrenamiento utilizó un ajuste fino supervisado seguido de una etapa de aprendizaje por refuerzo con verificador (RLVR), que validó las salidas de código comparándolas con ramas de GitHub vulnerables y corregidas. El modelo y los conjuntos de datos ya están disponibles en Hugging Face.

  • OpenMythos es un LLM de código abierto desarrollado para el Build Small Hackathon, entrenado específicamente para tareas de ciberseguridad.
  • Los datos de entrenamiento incluyen 1.840 registros de alta calidad filtrados de 10.000 artículos de ArXiv cs.CR y un conjunto de datos estructurado de CVE.
  • El proceso de entrenamiento utilizó una etapa de ajuste fino supervisado (SFT) seguida de una etapa de aprendizaje por refuerzo con verificador (RLVR).
  • La etapa RLVR verificó las salidas del modelo frente a la verdad fundamental utilizando repositorios de GitHub con ramas vulnerables y corregidas emparejadas.
  • El modelo, la demostración y los conjuntos de datos están disponibles para su descarga en Hugging Face.

Los desarrolladores que crean funciones de IA centradas en la seguridad pueden alojar OpenMythos por su cuenta para obtener detalles de CVE y análisis de vulnerabilidades de alta precisión sin depender de LLM de propósito general.

SOURCES

2. OpenRouter lanza Fusion para la síntesis y deliberación de múltiples modelos

OpenRouter ha lanzado Fusion, una herramienta de deliberación de múltiples modelos que sintetiza los resultados de un panel de modelos expertos en una sola respuesta. El sistema envía las instrucciones (prompts) a los modelos participantes en paralelo y luego utiliza un modelo juez para analizar el consenso, las contradicciones y las perspectivas únicas. En las evaluaciones del benchmark de investigación profunda DRACO, un panel económico compuesto por Gemini 3 Flash, Kimi K2.6 y DeepSeek V4 Pro superó a modelos de vanguardia como GPT-5.5 y Opus 4.8 a la mitad del costo de Fable 5. La herramienta está disponible a través de un slug de API compatible con OpenAI.

  • OpenRouter Fusion permite a los desarrolladores configurar un panel de modelos participantes y un modelo juez para sintetizar los resultados.
  • Un panel económico de Gemini 3 Flash, Kimi K2.6 y DeepSeek V4 Pro superó a GPT-5.5 y Opus 4.8 en el benchmark DRACO, costando un 50% menos que Fable 5.
  • La herramienta funciona enviando prompts en paralelo, haciendo que un modelo juez analice el consenso y las contradicciones, y generando una respuesta final.
  • Fusion es accesible a través de una sala de chat, un slug de modelo específico, una herramienta de servidor o un plugin, y es totalmente compatible con OpenAI.
  • Las solicitudes de Fusion suelen ser de 2 a 3 veces más lentas que las llamadas a modelos estándar, y el precio es la suma de todas las finalizaciones de los modelos subyacentes.

Los desarrolladores pueden usar Fusion para lograr una mayor precisión en investigaciones complejas o tareas de alto riesgo combinando las fortalezas de múltiples modelos mediante una única llamada a la API compatible con OpenAI.

SOURCES

3. Sakana AI lanza el agente de investigación Marlin y libera el algoritmo TreeQuest

Sakana AI, con sede en Tokio, ha lanzado su primer producto comercial, Sakana Marlin, un agente de investigación autónomo diseñado para ejecutar bucles de razonamiento continuo durante hasta ocho horas. Junto con el lanzamiento comercial, Sakana AI ha liberado el motor central detrás de Marlin (Búsqueda en árbol de Monte Carlo de ramificación adaptativa o AB-MCTS) como una biblioteca llamada TreeQuest bajo la licencia Apache 2.0. TreeQuest permite a los desarrolladores implementar el escalado de cómputo durante la inferencia en sus propios agentes, permitiendo que los sistemas elijan dinámicamente entre ampliar las rutas de búsqueda o profundizar en las hipótesis existentes.

  • Sakana AI lanzó Sakana Marlin, un agente de investigación B2B autónomo diseñado para tareas de razonamiento de largo alcance.
  • El algoritmo central que impulsa a Marlin, la búsqueda en árbol de Monte Carlo de ramificación adaptativa (AB-MCTS), ha sido liberado como TreeQuest bajo la licencia Apache 2.0.
  • AB-MCTS permite a los agentes escalar el cómputo durante la inferencia eligiendo si ampliar las respuestas candidatas o profundizar en las existentes.
  • Marlin ejecuta bucles de razonamiento continuo durante hasta ocho horas para generar informes completos y presentaciones de diapositivas.
  • Marlin está disponible comercialmente con precios escalonados, incluida una opción de pago por uso a 98 yenes por crédito (100 créditos por ejecución).

Los desarrolladores pueden utilizar la biblioteca de código abierto TreeQuest para implementar una planificación avanzada de búsqueda en árbol de Monte Carlo en sus propias arquitecturas de agentes autónomos.

SOURCES

4. Strands Agents libera su marco de trabajo de agentes agnóstico a la nube

Strands Agents ha liberado su marco de trabajo de agentes agnóstico a la nube, que ya ha acumulado 6.500 estrellas en GitHub. El marco proporciona a los desarrolladores la infraestructura esencial para ejecutar agentes de IA, incluyendo gestión de contexto integrada, límites de ejecución y observabilidad. También cuenta con barreras de seguridad autocorrectivas que proporcionan retroalimentación específica para ayudar a los agentes a corregir su propio rendimiento, al tiempo que permite a los desarrolladores cambiar los backends de LLM sin modificar el código de su aplicación.

  • Strands Agents es un marco de trabajo gratuito y de código abierto que permite a los desarrolladores ejecutar modelos de IA en cualquier proveedor de nube.
  • El marco ha alcanzado las 6.500 estrellas en GitHub.
  • Cuenta con gestión de contexto integrada, límites de ejecución, observabilidad y barreras de seguridad autocorrectivas.
  • La plataforma está diseñada para evitar la dependencia de un proveedor, permitiendo a los desarrolladores cambiar de backend sin cambiar el código de la aplicación.

Los desarrolladores pueden crear y desplegar agentes de IA agnósticos a la nube sin quedar atrapados en un proveedor, utilizando observabilidad integrada y bucles de retroalimentación autocorrectivos.

SOURCES

5. El marco multi-agente Orchestra-o1 supera a las alternativas de código abierto

Se ha introducido un nuevo marco de orquestación multi-agente llamado Orchestra-o1 para manejar tareas omnimodales complejas. El marco funciona descomponiendo grandes tareas en subtareas paralelas gestionadas por agentes especializados. En las evaluaciones del benchmark OmniGAIA, Orchestra-o1 logró una precisión del 72,8%, superando al siguiente mejor enfoque de código abierto por más de 10 puntos porcentuales.

  • Orchestra-o1 es un marco de orquestación multi-agente diseñado para descomponer tareas omnimodales complejas en subtareas paralelas.
  • El marco logró una precisión del 72,8% en el benchmark OmniGAIA.
  • Orchestra-o1 superó al siguiente mejor enfoque de código abierto por más de 10 puntos porcentuales.

Los desarrolladores que crean sistemas de agentes multimodales complejos pueden adoptar el marco Orchestra-o1 para coordinar subtareas paralelas y mejorar significativamente la precisión de las tareas.

SOURCES

6. Un paquete de Swift integra Claude en el marco de modelos base de Apple

Un nuevo paquete de Swift de código abierto, Claude for Foundation Models, lleva los modelos de Anthropic al marco de trabajo nativo de LanguageModel de Apple en el lado del servidor. Al cumplir con el protocolo LanguageModel, el paquete permite a los desarrolladores utilizar la API LanguageModelSession de Apple para interactuar con Claude. Los prompts y las respuestas se envían directamente a la API de Claude, omitiendo a Apple por completo, y el uso se factura directamente a la cuenta de Anthropic del desarrollador. El paquete beta admite streaming, generación guiada, llamadas a herramientas y herramientas del lado del servidor.

  • El paquete de Swift "Claude for Foundation Models" integra Claude en el marco de trabajo de modelos base de Apple.
  • El paquete cumple con el protocolo LanguageModel, permitiendo el uso de la API LanguageModelSession introducida en las versiones beta de OS 27.
  • Las solicitudes se envían directamente a la API de Claude, asegurando que Apple no procese ni vea los prompts o las respuestas.
  • Admite streaming, generación guiada, llamadas a herramientas y herramientas del lado del servidor como búsqueda web y ejecución de código.
  • El paquete tiene licencia Apache 2.0 y actualmente está en fase beta, con el uso facturado directamente a la cuenta de Anthropic del usuario.

Los desarrolladores del ecosistema de Apple pueden integrar Claude en sus aplicaciones utilizando API nativas de Swift, manteniendo la privacidad de los prompts frente a Apple y facturando directamente a sus cuentas de Anthropic.

SOURCES

7. React Native ExecuTorch añade soporte para Gemma 4 sin conexión con aceleración por GPU

El marco react-native-executorch ha añadido soporte para Gemma 4 de Google, permitiendo a los desarrolladores ejecutar el modelo completamente sin conexión dentro de aplicaciones de React Native. La integración cuenta con aceleración de hardware, utilizando el delegado Vulkan en dispositivos Android y el delegado MLX en Apple Silicon. Una aplicación de demostración está disponible en el repositorio de GitHub del proyecto para ayudar a los desarrolladores a implementar rápidamente la inferencia local en el dispositivo.

  • Gemma 4 se ha integrado en el marco react-native-executorch para una ejecución totalmente fuera de línea.
  • La aceleración por GPU es compatible a través del delegado Vulkan en Android y el delegado MLX en Apple Silicon.
  • Una aplicación de demostración que muestra la integración está disponible en el repositorio de GitHub software-mansion/react-native-executorch.

Los desarrolladores móviles pueden desplegar Gemma 4 directamente dentro de aplicaciones de React Native para una inferencia local totalmente fuera de línea y acelerada por hardware en Android e iOS.

SOURCES

8. Flash-KMeans se ejecuta más de 200 veces más rápido que FAISS en GPU

Investigadores de UC Berkeley y UT Austin han lanzado Flash-KMeans, una biblioteca de código abierto que acelera el clustering k-means de Lloyd estándar en más de 200 veces en comparación con FAISS en GPU. A diferencia de los métodos aproximados, Flash-KMeans es matemáticamente idéntico al k-means estándar; logra sus mejoras de velocidad reestructurando el flujo de datos de la GPU utilizando FlashAssign para fusionar los cálculos de distancia y un método de actualización Sort-Inverse para reducir la contención atómica. La biblioteca tiene licencia Apache 2.0 y cuenta con una API compatible con scikit-learn y FAISS, lo que facilita su integración en tuberías de indexación de búsqueda vectorial y compresión de caché KV.

  • Flash-KMeans es una biblioteca de código abierto consciente de E/S para el clustering k-means de Lloyd estándar, lanzada bajo la licencia Apache 2.0.
  • La biblioteca es matemáticamente idéntica al k-means estándar, logrando mejoras de velocidad al reestructurar el flujo de datos de la GPU en lugar de utilizar aproximaciones.
  • Reporta una mejora de velocidad de extremo a extremo de hasta 17,9 veces sobre la mejor línea base, 33 veces sobre NVIDIA cuML y más de 200 veces sobre FAISS en una NVIDIA H200.
  • Flash-KMeans admite el procesamiento fuera de núcleo, lo que permite el clustering de hasta mil millones de puntos.
  • La biblioteca cuenta con una API compatible con scikit-learn y FAISS, lo que la convierte en un reemplazo directo.

Los desarrolladores que crean índices de búsqueda vectorial, enrutamiento de atención dispersa o tuberías de compresión de caché KV pueden usar Flash-KMeans para acelerar drásticamente el clustering sin perder precisión matemática.

SOURCES

9. NewCore se lanza con 66 millones de dólares para proporcionar gestión de identidad para agentes de IA

La startup de ciberseguridad NewCore se ha lanzado fuera del modo sigiloso con 66 millones de dólares en financiación para abordar la seguridad y la gobernanza de los agentes de IA autónomos. En lugar de tratar a los agentes como cuentas de servicio tradicionales, la plataforma de NewCore los gestiona como identidades de primera clase con permisos dedicados y controles de ciclo de vida. La plataforma cuenta con una arquitectura de clave dividida para asegurar las credenciales y ofrece un paquete de integración de "Habilidades Agénticas" compatible con herramientas populares para desarrolladores como Claude Code, Cursor y Codex.

  • NewCore salió del modo sigiloso con 66 millones de dólares en financiación para proporcionar gestión de identidad y gobernanza para agentes de IA empresariales.
  • La plataforma trata a los agentes de IA como identidades de primera clase con permisos dedicados y controles de ciclo de vida en lugar de cuentas de servicio tradicionales.
  • Se utiliza una arquitectura de clave dividida para asegurar las credenciales de identidad y evitar un punto único de compromiso.
  • NewCore proporciona un paquete de integración de "Habilidades Agénticas" para asistentes de codificación, incluidos Claude Code, Codex y Cursor.
  • La plataforma está trabajando actualmente con socios de diseño y planea comenzar a cobrar a los clientes en el verano.

Los desarrolladores que despliegan agentes autónomos pueden asegurar sus integraciones utilizando la arquitectura de clave dividida de NewCore para evitar el compromiso de credenciales y gestionar los permisos de los agentes.

SOURCES

10. Lucebox-Hub optimiza la caché KV de Qwen 3.6 27B para duplicar la velocidad de generación local

Una nueva optimización documentada en el repositorio Luce-Org/lucebox-hub mejora significativamente el rendimiento de la inferencia local para el modelo Qwen3.6-27B Q4_K_M. Al utilizar una caché KV residente altamente comprimida de 72 MiB, la optimización reduce los requisitos de VRAM en una sola RTX 3090 de 21 GB a 17,5 GB, mientras duplica las velocidades de generación a 38,6 tokens por segundo. A pesar de la reducción masiva en el tamaño de la caché, el modelo mantiene una precisión de contexto completa y puntuaciones de referencia idénticas en HumanEval, GSM y MATH.

  • La optimización logra un contexto nativo de 256K a 38,6 tokens por segundo en una sola GPU RTX 3090.
  • El uso de VRAM para el modelo Qwen3.6-27B Q4_K_M disminuyó de 21 GB a 17,5 GB mientras se mantenía la precisión total del contexto.
  • La técnica utiliza 72 MiB de caché KV residente y mantiene una recuperación de aguja (needle recall) del 88-100% con un 6% de residencia.
  • La precisión de Harness permanece sin cambios en comparación con la caché completa en HumanEval, GSM, MATH y suites de agentes.
  • La optimización está documentada y disponible en el repositorio Luce-Org/lucebox-hub.

Los desarrolladores que ejecutan modelos locales ahora pueden ejecutar Qwen3.6-27B con un contexto nativo de 256K en una sola RTX 3090 mientras mantienen la precisión total y ahorran 3,5 GB de VRAM.

SOURCES

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.