Audesso | Daily: AI

OpenAI lanza GPT-Realtime-2

00:00 / --:--

← Volver al inicio

OpenAI lanza GPT-Realtime-2

1. OpenAI lanza GPT-Realtime-2

OpenAI ha presentado GPT-Realtime-2, un modelo insignia nativo de voz a voz diseñado para aplicaciones conversacionales de alto rendimiento. El modelo cuenta con niveles de esfuerzo de razonamiento ajustables y una ventana de contexto ampliada de 128K tokens, frente a los 32K anteriores. Admite entradas de texto, audio e imagen, con mejoras significativas en la latencia, logrando un tiempo hasta el primer audio (Time to First Audio) de 1,12 segundos en modo de razonamiento mínimo.

  • Ventana de contexto de 128K
  • Niveles de esfuerzo de razonamiento ajustables
  • Latencia de 1,12 s en modo mínimo
  • Admite entradas de texto, audio e imagen

Los desarrolladores que crean aplicaciones centradas en la voz pueden aprovechar una menor latencia y mayores capacidades de razonamiento sin aumentos de precio.

SOURCES

2. Mozilla utiliza Mythos de Anthropic para parchear Firefox

Los ingenieros de Mozilla han integrado el modelo de IA Mythos de Anthropic en un arnés de agentes personalizado para automatizar la detección de vulnerabilidades en Firefox. Al proporcionar al modelo acceso directo a las canalizaciones de compilación y entornos de prueba, el equipo identificó 271 fallos de seguridad en dos meses con mínimos falsos positivos. Este enfoque permite a la IA leer archivos, escribir código y evaluar casos de prueba de forma iterativa hasta alcanzar un objetivo de seguridad.

  • 271 vulnerabilidades identificadas
  • Arnés de agentes personalizado utilizado
  • Acceso directo a las canalizaciones de compilación
  • Reducción de alucinaciones en comparación con intentos anteriores

Esto demuestra un patrón práctico y de alta fiabilidad para utilizar LLMs en flujos de trabajo complejos de seguridad de software.

3. El benchmark ProgramBench evalúa la ingeniería de software mediante agentes

ProgramBench desafía a los agentes de IA a recrear ejecutables de software sin código fuente, basándose únicamente en la documentación y la experimentación. El benchmark incluye 200 tareas que van desde herramientas CLI simples hasta software complejo como SQLite y el intérprete de PHP. La evaluación de nueve modelos de lenguaje líderes reveló que ninguno pudo resolver completamente las tareas, y el modelo con mejor rendimiento superó el 95% de las pruebas en solo el 3% de las tareas.

  • 200 tareas que van desde herramientas CLI hasta compiladores
  • Fuzzing impulsado por agentes utilizado para la evaluación
  • Sin acceso al código fuente
  • 9 modelos evaluados sin que ninguno resolviera completamente las tareas

Proporciona un estándar riguroso para medir las verdaderas capacidades de ingeniería de software de los agentes autónomos.

SOURCES

4. Zyphra lanza el modelo de razonamiento ZAYA1-8B

El nuevo modelo ZAYA1-8B de Zyphra es un modelo de lenguaje de mezcla de expertos que cuenta con 8.400 millones de parámetros totales y 760 millones de parámetros activos. Entrenado en GPUs AMD Instinct MI300X, el modelo utiliza un novedoso método de inferencia 'Markovian RSA' para procesar el razonamiento en fragmentos, manteniendo las ventanas de contexto limitadas. Está disponible bajo una licencia Apache 2.0 y está específicamente optimizado para tareas matemáticas y de codificación.

  • 8.4B de parámetros totales, 760M de parámetros activos
  • Licencia Apache 2.0
  • Entrenado en hardware AMD
  • Método de inferencia Markovian RSA

Ofrece una alternativa de código abierto de alta eficiencia para los desarrolladores que necesitan capacidades de razonamiento en hardware de consumo o especializado.

SOURCES

5. Sakana AI lanza RL Conductor para la orquestación de múltiples agentes

Sakana AI ha presentado RL Conductor, un modelo de 7.000 millones de parámetros entrenado para orquestar LLMs trabajadores como GPT-5 y Claude Sonnet. Al analizar dinámicamente las entradas y distribuir las tareas, el Conductor permite flujos de trabajo flexibles y autónomos. El sistema está actualmente disponible en versión beta a través de la API de Fugu, ofreciendo variantes para necesidades de baja latencia y alto rendimiento, y ha superado a los marcos multi-agente existentes en benchmarks de codificación y razonamiento.

  • Modelo de 7B entrenado con RL
  • Orquesta múltiples modelos de frontera
  • API compatible con OpenAI
  • Supera a los marcos multi-agente de referencia

Proporciona una forma escalable de gestionar flujos de trabajo de agentes complejos sin depender de una lógica rígida y codificada.

SOURCES

6. Instructure Canvas LMS sufre una importante brecha de datos

Instructure, la empresa detrás del sistema de gestión de aprendizaje Canvas, está investigando una importante brecha de datos que implica el robo de nombres de usuario, direcciones de correo electrónico y mensajes privados. El grupo de extorsión ShinyHunters afirma haber recopilado 280 millones de registros en 8.800 instituciones educativas. La empresa ha puesto varios portales de Canvas en modo de mantenimiento mientras aborda el incidente.

  • 280 millones de registros robados
  • 8.800 instituciones afectadas
  • El grupo ShinyHunters se atribuyó la responsabilidad
  • Se inició el modo de mantenimiento

Esto destaca los riesgos de seguridad críticos asociados con el acceso a datos basado en API y la importancia de asegurar la infraestructura educativa.

7. Unsloth y NVIDIA optimizan el entrenamiento de LLMs

Unsloth ha colaborado con NVIDIA para implementar optimizaciones de rendimiento que aceleran el entrenamiento de LLMs en aproximadamente un 25%. Las actualizaciones clave incluyen el almacenamiento en caché de secuencias empaquetadas (packed-sequence caching), que reduce la sobrecarga de sincronización, y el doble búfer para el punto de control de activación, que oculta la latencia de copia. Estas optimizaciones ya están disponibles para portátiles RTX, GPUs de centros de datos y máquinas DGX Spark, proporcionando mejoras de velocidad significativas para modelos como Qwen3-14B.

  • Entrenamiento un 25% más rápido
  • Almacenamiento en caché de secuencias empaquetadas
  • Doble búfer
  • Compatible con GPUs RTX y de centros de datos

Estas optimizaciones reducen la barrera de entrada para el ajuste fino (fine-tuning) de modelos grandes en hardware estándar.

SOURCES

8. Anthropic añade funciones de auto-mejora a Claude Managed Agents

Anthropic ha ampliado su plataforma Claude Managed Agents con tres nuevas capacidades: "soñar" (dreaming), que analiza sesiones pasadas para identificar patrones; resultados (outcomes), que permite la autocorrección basada en criterios de éxito; y orquestación multi-agente, que permite a los agentes delegar tareas a subagentes especializados. Estas funciones están diseñadas para mejorar la fiabilidad y la eficiencia de los agentes en entornos empresariales complejos.

  • "Soñar" para el análisis de patrones
  • Resultados para la autocorrección
  • Orquestación multi-agente
  • Enfocado en empresas

Estas funciones proporcionan un camino estructurado para que los desarrolladores creen flujos de trabajo de agentes más autónomos y con capacidad de autocorrección.

SOURCES

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.