xAI lanza el modelo grok-voice-think-fast-1.0

1. xAI lanza el modelo grok-voice-think-fast-1.0

xAI ha lanzado grok-voice-think-fast-1.0, un nuevo modelo de voz insignia diseñado para flujos de trabajo empresariales complejos y de múltiples pasos. El modelo soporta más de 25 idiomas y llamadas a herramientas de alto volumen. Logró una puntuación del 67.3% en el τ-voice Bench, superando a competidores como Gemini 3.1 Flash Live y GPT Realtime 1.5. El modelo ya está desplegado a escala para gestionar las operaciones telefónicas de Starlink.

2. Google DeepMind presenta el generador de imágenes Vision Banana

Google DeepMind ha presentado Vision Banana, un modelo de visión generalista basado en su generador de imágenes Nano Banana Pro. Los investigadores aplicaron un ajuste de instrucciones ligero (instruction-tuning) para replantear tareas de visión 2D y 3D como resultados de generación de imágenes. Este enfoque permite al modelo realizar análisis visuales complejos, como segmentación semántica y estimación de profundidad métrica, sin módulos específicos para cada tarea. El lanzamiento demuestra que el preentrenamiento en generación de imágenes puede servir como base para la comprensión visual.

3. GitNexus lanza un motor de grafos de conocimiento nativo de MCP

Abhigyan Patwari ha lanzado GitNexus, un motor de grafos de conocimiento de código abierto y nativo de MCP para agentes de programación con IA. La herramienta indexa repositorios en un grafo de conocimiento estructurado que mapea llamadas a funciones, importaciones, herencia de clases y flujos de ejecución. Agentes como Claude Code y Cursor pueden consultar estas estructuras de dependencia directamente a través de un servidor Model Context Protocol (MCP). Esta conciencia estructural evita errores comunes donde los agentes modifican código sin entender las dependencias derivadas.

4. Alash3al lanza Stash, una capa de memoria persistente para agentes de IA

Alash3al ha lanzado Stash, una capa cognitiva persistente de código abierto para agentes de IA respaldada por PostgreSQL. El sistema sintetiza observaciones en bruto en hechos, los conecta en un grafo de conocimiento y organiza la información aprendida en espacios de nombres jerárquicos. Utiliza un único backend compatible con OpenAI tanto para embeddings como para razonamiento, soportando proveedores en la nube o modelos locales mediante herramientas como Ollama y vLLM. Stash tiene licencia Apache 2.0 y funciona con cualquier agente compatible con MCP.

5. OpenAI lanza el programa Bio Bug Bounty para GPT-5.5

OpenAI ha lanzado un programa Bio Bug Bounty para probar jailbreaks universales ante riesgos biológicos en GPT-5.5. Actualmente, el modelo solo está disponible a través de Codex Desktop para solicitantes examinados y aceptados. El desafío para los investigadores consiste en encontrar un único prompt que responda con éxito a cinco preguntas de bioseguridad en un chat limpio sin activar la moderación. El programa ofrece una recompensa de 25,000 dólares por el primer jailbreak universal exitoso y estará vigente hasta el 27 de julio de 2026.

6. Desarrollador lanza Wuphf, una wiki para IA basada en Markdown y Git

Un desarrollador ha lanzado Wuphf, una capa de wiki local para agentes de IA que utiliza Markdown y Git como fuente de verdad. El sistema se ejecuta localmente y cuenta con un índice de recuperación BM25 respaldado por SQLite, evitando bases de datos vectoriales o de grafos más pesadas. Proporciona cuadernos privados para agentes individuales y una wiki de equipo compartida, gestionada por una máquina de estados para la promoción de borradores a la wiki y el archivado automático. Los desarrolladores pueden instalar la herramienta a través de npm para mantener un contexto acumulativo entre sesiones de agentes.

7. PageIndex lanza un framework de RAG sin vectores

PageIndex ha lanzado un framework de generación aumentada por recuperación (RAG) de código abierto que sustituye los embeddings vectoriales tradicionales por árboles de documentos jerárquicos. El sistema permite a los LLM navegar por las estructuras de los documentos de forma lógica, similar al uso de un índice de contenidos. Este enfoque de recuperación basado en el razonamiento busca preservar la organización lógica y proporcionar resultados trazables en documentos largos y complejos, como informes financieros o textos legales. El framework ha demostrado una alta precisión en benchmarks como FinanceBench.

8. OpenAI descarta SWE-bench Verified para la evaluación de modelos de frontera

OpenAI ha anunciado que SWE-bench Verified ya no es adecuado para medir las capacidades de ingeniería de software autónoma en modelos de frontera. Una auditoría interna reveló que casi el 60% de los problemas que fallan frecuentemente tienen casos de prueba defectuosos que rechazan entregas funcionalmente correctas. Además, el benchmark sufre de contaminación de datos, ya que los repositorios de código abierto utilizados para los problemas suelen estar incluidos en los datos de entrenamiento de los modelos. OpenAI recomienda ahora el uso de SWE-bench Pro para futuras evaluaciones.

9. OpenAI publica un conjunto de datos clínicos en Hugging Face

OpenAI ha publicado un nuevo conjunto de datos en el hub de Hugging Face destinado a mejorar ChatGPT para aplicaciones clínicas. El lanzamiento forma parte de una iniciativa para apoyar a profesionales sanitarios verificados en EE. UU. con documentación, revisión de evidencia e investigación médica. Incluye benchmarks y modelos que han sido evaluados mediante pruebas dirigidas por médicos. Esto proporciona a los desarrolladores nuevos recursos para crear y evaluar herramientas de IA de alta calidad para flujos de trabajo clínicos.