1. Apple presenta Siri AI y el framework de Modelos Fundacionales en la WWDC 2026
En la WWDC 2026, Apple anunció una renovación importante de su ecosistema de IA, presentando Siri AI impulsado por la tecnología de Google Gemini. Para los desarrolladores, las actualizaciones más significativas se encuentran en el framework ampliado de Modelos Fundacionales, que ahora admite entrada de imágenes, habilidades personalizadas y ejecución en el lado del servidor. Apple también ofrece acceso gratuito a sus Modelos Fundacionales dentro de Private Cloud Compute para desarrolladores independientes con menos de 2 millones de descargas en la App Store, lo que reduce significativamente el costo de la experimentación con IA. Además, el asistente de codificación de Xcode ha sido actualizado para admitir codificación agéntica, localización e interacciones simuladas con dispositivos.
- • Apple presentó Siri AI, un asistente reconstruido que utiliza modelos de Google Gemini para capacidades avanzadas de conversación e interacción con aplicaciones en todo el sistema.
- • El framework actualizado de Modelos Fundacionales ahora admite entrada de imágenes, habilidades personalizadas y ejecución de modelos en el lado del servidor.
- • Los desarrolladores con menos de 2 millones de descargas iniciales en la App Store pueden acceder a los Modelos Fundacionales de Apple en Private Cloud Compute sin costos de API en la nube.
- • El asistente de codificación de Xcode ha sido actualizado para manejar la localización de aplicaciones, interactuar con dispositivos simulados y admitir habilidades personalizadas.
- • Apple amplió el soporte de App Intents para permitir que aplicaciones de terceros se integren directamente con Siri.
Los desarrolladores ahora pueden crear flujos de trabajo agénticos utilizando el framework actualizado de Modelos Fundacionales de Apple, aprovechar habilidades personalizadas en Xcode y acceder a Private Cloud Compute sin costos de API en la nube si tienen menos de 2 millones de descargas.
2. Xiaomi y TileRT llevan el modelo MoE de 1 billón de parámetros a más de 1000 TPS
El equipo MiMo de Xiaomi, en colaboración con el grupo de sistemas TileRT, ha lanzado MiMo-V2.5-Pro-UltraSpeed, un modo de servicio de alta velocidad para su modelo de Mezcla de Expertos (MoE) de 1 billón de parámetros. Al combinar la cuantización MXFP4, la decodificación especulativa DFlash y el tiempo de ejecución del motor persistente TileRT, el sistema logra velocidades de decodificación superiores a 1000 tokens por segundo en un nodo estándar de 8 GPU sin depender de hardware personalizado como Cerebras o Groq. El equipo ha publicado el punto de control del modelo en Hugging Face y ha lanzado módulos selectos de TileRT en GitHub, además de ofrecer una prueba de API limitada.
- • Xiaomi y TileRT lanzaron MiMo-V2.5-Pro-UltraSpeed, logrando velocidades de decodificación superiores a 1000 tokens por segundo en un solo nodo estándar de 8 GPU.
- • El rendimiento se basa en la cuantización MXFP4 en expertos MoE, la decodificación especulativa DFlash y el tiempo de ejecución del motor persistente TileRT.
- • La decodificación especulativa DFlash utiliza predicción paralela enmascarada a nivel de bloque para lograr una longitud de aceptación promedio de 6.30 en tareas de codificación.
- • Xiaomi publicó el punto de control MiMo-V2.5-Pro-FP4-DFlash en Hugging Face y lanzó módulos selectos de TileRT en GitHub.
- • Una prueba de API basada en aplicaciones está disponible del 9 al 23 de junio de 2026, con un precio de tres veces la tarifa estándar de MiMo-V2.5-Pro.
Los desarrolladores ahora pueden ejecutar inferencias ultrarrápidas en un modelo masivo de Mezcla de Expertos de 1 billón de parámetros utilizando hardware comercial estándar en lugar de chips especializados a escala de oblea.
3. DeepSeek V4 Pro supera a GPT-5.5 Pro en el benchmark de precisión
En un enfrentamiento de benchmark reciente, DeepSeek V4 Pro superó a GPT-5.5 Pro con una puntuación de 38.0 a 33.0, mostrando una precisión y confiabilidad superiores. Durante una tarea de redacción de registros de Python, DeepSeek V4 Pro demostró su estricto cumplimiento de las restricciones al utilizar con éxito una única expresión regular y un reemplazador para manejar patrones superpuestos. Por el contrario, GPT-5.5 Pro no pudo manejar la tarea de manera tan efectiva, optando por dividir el trabajo en múltiples expresiones regulares.
- • DeepSeek V4 Pro derrotó a GPT-5.5 Pro en un enfrentamiento de benchmark con una puntuación de 38.0 a 33.0.
- • El modelo demostró mayor confiabilidad y un cumplimiento más estricto de las restricciones en comparación con GPT-5.5 Pro.
- • En una tarea de redacción de registros de Python, DeepSeek V4 Pro utilizó con éxito una única expresión regular y un reemplazador para manejar patrones superpuestos, mientras que GPT-5.5 Pro dividió el trabajo en múltiples expresiones regulares.
Los desarrolladores que buscan generación de código de alta precisión y un estricto cumplimiento de restricciones tienen una alternativa altamente competitiva a GPT-5.5 Pro.
4. xAI lanza grok-imagine-video-1.5-preview con audio nativo
xAI ha lanzado grok-imagine-video-1.5-preview, un nuevo modelo de generación de video disponible a través de su API. El modelo admite la generación de imagen a video con audio nativo para duraciones de hasta 15 segundos, y es capaz de realizar transformaciones estilísticas complejas, como convertir imágenes del mundo real en animaciones estilo anime. Actualmente ocupa el segundo lugar en la categoría de Imagen a Video (con audio) de Artificial Analysis Video Arena, solo detrás de Seedance 2.0 de ByteDance. El servicio de API tiene un precio de $8.40 por minuto de video generado.
- • xAI lanzó grok-imagine-video-1.5-preview, un modelo de generación de imagen a video que admite audio nativo.
- • El modelo genera videos de hasta 15 segundos de duración y es capaz de realizar transformaciones estilísticas como renderizado estilo anime.
- • Ocupa el puesto #2 en la categoría de Imagen a Video (con audio) de Artificial Analysis Video Arena, solo detrás de Seedance 2.0 de ByteDance.
- • El servicio de API tiene un precio de $8.40 por minuto de video generado.
- • El modelo está disponible actualmente a través de la API de xAI, con un despliegue en la aplicación Grok y X en curso.
Los desarrolladores ahora pueden generar programáticamente videos de formato corto de alta calidad con audio nativo sincronizado a través de la API de xAI.
5. Paquetes maliciosos de Microsoft atacan a agentes de codificación de IA en un ataque a la cadena de suministro
En un sofisticado ataque a la cadena de suministro, docenas de paquetes de código abierto verificados criptográficamente de Microsoft fueron comprometidos para incluir código de robo de credenciales. El malware, rastreado como Miasma (un clon del kit de herramientas Mini Shai-Hulud), está diseñado específicamente para ser activado por agentes de codificación de IA. La carga útil de 28 KB recopila credenciales de AWS, Azure, GCP, Kubernetes, administradores de contraseñas y más de 90 configuraciones de herramientas de desarrollo, así como tokens OIDC utilizados en la certificación de procedencia SLSA. GitHub ha deshabilitado 73 paquetes afectados y Microsoft ha eliminado los repositorios para investigar la brecha, que ocurrió después de que un actor de amenazas comprometiera las credenciales de publicación de Microsoft.
- • Docenas de paquetes de código abierto verificados criptográficamente de Microsoft fueron comprometidos para incluir código de robo de credenciales.
- • La carga útil maliciosa, rastreada como Miasma, es activada específicamente por agentes de codificación de IA.
- • GitHub deshabilitó 73 paquetes maliciosos y Microsoft reconoció el compromiso, eliminando los repositorios afectados.
- • La carga útil de 28 KB roba credenciales de AWS, Azure, GCP, Kubernetes, administradores de contraseñas y más de 90 configuraciones de herramientas de desarrollo.
- • El actor de amenazas, rastreado como TeamPCP, eludió las tuberías de compilación al comprometer las credenciales de publicación de Microsoft.
Los desarrolladores que utilizan asistentes de codificación de IA deben auditar sus dependencias de inmediato, ya que los paquetes comprometidos están diseñados específicamente para activar cargas útiles maliciosas durante la ejecución automatizada de agentes.
6. LangSmith lanza Sandboxes para la ejecución segura de agentes
LangSmith ha lanzado Sandboxes, una nueva función que proporciona microVMs virtualizadas por hardware diseñadas para brindar a los agentes de IA un entorno informático seguro. Los Sandboxes permiten a los agentes ejecutar tareas dinámicas, gestionar el estado persistente y ejecutar flujos de trabajo complejos sin comprometer la infraestructura de producción. Esta función aborda directamente los riesgos de seguridad de ejecutar código no confiable generado por LLM al aislar la ejecución dentro de máquinas virtuales seguras y ligeras.
- • LangSmith introdujo Sandboxes, que son microVMs virtualizadas por hardware diseñadas para agentes de IA.
- • Los Sandboxes proporcionan un entorno informático seguro para ejecutar tareas dinámicas y flujos de trabajo complejos.
- • La función permite a los agentes gestionar el estado persistente sin comprometer la infraestructura de producción.
- • Los Sandboxes están diseñados para mitigar los riesgos de seguridad asociados con la ejecución de código no confiable generado por LLMs.
Los desarrolladores pueden permitir de forma segura que los agentes de IA ejecuten código no confiable y ejecuten flujos de trabajo complejos sin arriesgar la infraestructura de producción.
7. Cursor actualiza el Modo de Diseño con interacción directa de elementos
Cursor ha lanzado una actualización de su Modo de Diseño, mejorando la forma en que los desarrolladores interactúan con las aplicaciones en ejecución. El modo actualizado permite a los usuarios señalar, dibujar y hacer clic directamente en los elementos de la interfaz de usuario, así como narrar los cambios deseados. Este enfoque visual facilita la creación de prototipos y la iteración en diseños de front-end directamente dentro del editor.
- • Cursor actualizó su Modo de Diseño para admitir señalar, dibujar y hacer clic en elementos de la interfaz de usuario.
- • La actualización permite a los usuarios narrar cambios directamente en un producto en ejecución.
- • La función agiliza la edición visual y los flujos de trabajo de desarrollo de front-end.
Los desarrolladores pueden acelerar la creación de prototipos de interfaz de usuario y las iteraciones de front-end interactuando visualmente con sus aplicaciones en ejecución dentro de Cursor.
8. Intuned lanza una plataforma de automatización de navegador basada en código con IA de autorreparación
Intuned (YC S22) ha lanzado una plataforma basada en código diseñada para construir, desplegar y mantener automatizaciones de navegador para sitios web que carecen de API. Los desarrolladores escriben automatizaciones utilizando TypeScript o Python basados en Playwright, mientras que el tiempo de ejecución gestionado de Intuned maneja tareas de infraestructura como autenticación, reutilización de sesiones y concurrencia. Para abordar la fragilidad del web scraping, la plataforma integra un agente de IA construido sobre el SDK de Claude Agent que detecta fallas automáticamente, analiza rastros de ejecución y despliega correcciones de autorreparación cuando las estructuras de los sitios web cambian.
- • Intuned es una plataforma basada en código para construir, desplegar y mantener automatizaciones de navegador utilizando TypeScript o Python basados en Playwright.
- • La plataforma proporciona un tiempo de ejecución gestionado que maneja la autenticación, la reutilización de sesiones, la programación y la concurrencia.
- • Un agente de IA integrado, construido sobre el SDK de Claude Agent, ayuda a crear automatizaciones y propone o despliega correcciones automáticamente cuando se detectan fallas.
- • Intuned captura el contexto de ejecución (registros, rastros, parámetros) para facilitar la depuración y las reparaciones asistidas por IA.
- • Una API de Web Task permite el acceso programático a la infraestructura y las capacidades de agente de la plataforma.
Los desarrolladores pueden construir web scrapers y automatizaciones de navegador robustos que se reparan automáticamente cuando cambian las estructuras de los sitios web de destino, reduciendo los costos de mantenimiento.
9. OpenEnv hace la transición a un entorno de ejecución agéntica de código abierto
OpenEnv, una herramienta diseñada para crear entornos de ejecución agéntica como terminales y navegadores, está haciendo la transición a un modelo de código abierto. El proyecto será gobernado por un comité que contará con miembros de Meta-PyTorch, Unsloth, Modal, Prime Intellect, Nvidia, Hugging Face y otros. OpenEnv proporciona un entorno estandarizado para entrenar y ejecutar agentes de IA, y ya ha visto la adopción y el apoyo de importantes organizaciones, incluidas la PyTorch Foundation, vLLM, Lightning AI y Scale AI.
- • OpenEnv es una herramienta diseñada para crear entornos de ejecución agéntica como terminales y navegadores.
- • El proyecto está haciendo la transición a un modelo de código abierto gobernado por un comité.
- • Los miembros del comité incluyen representantes de Meta-PyTorch, Reflection, Unsloth, Modal, Prime Intellect, Nvidia, Mercor, Fleet AI y Hugging Face.
- • El proyecto ha sido adoptado y apoyado por organizaciones como la PyTorch Foundation, vLLM, SkyRL, Lightning AI y Scale AI.
Los desarrolladores que crean agentes de IA obtienen acceso a un entorno sandbox estandarizado y de código abierto respaldado por PyTorch, Hugging Face, Unsloth y Modal.
10. Amazon Bedrock optimiza la consola para las API de Anthropic y OpenAI
Amazon Bedrock ha introducido una consola rediseñada optimizada específicamente para API compatibles con Anthropic y OpenAI. La nueva consola incluye un catálogo completo de modelos, flujos de trabajo basados en proyectos y documentación en vivo que genera automáticamente fragmentos de código. Disponible en múltiples regiones de AWS, la actualización está diseñada para agilizar el proceso de evaluación de modelos y su despliegue en entornos de producción.
- • Amazon Bedrock lanzó una nueva consola optimizada para API compatibles con Anthropic y OpenAI.
- • La consola cuenta con un catálogo completo de modelos, flujos de trabajo basados en proyectos y documentación en vivo con fragmentos de código automáticos.
- • La herramienta está disponible en múltiples regiones de AWS para simplificar la transición de la evaluación a la producción.
Los desarrolladores pueden evaluar, desplegar y realizar la transición de modelos a producción más fácilmente dentro de AWS utilizando formatos de API estandarizados.
11. OpenAI introduce el Modo de Bloqueo para prevenir la inyección de prompts
OpenAI ha introducido una nueva función de seguridad llamada Modo de Bloqueo, diseñada para mitigar el riesgo de ataques de inyección de prompts provenientes de contenido externo y páginas web no confiables. Cuando se habilita, el Modo de Bloqueo deshabilita funciones dinámicas de alto riesgo, incluida la navegación en vivo, la recuperación de imágenes web, la investigación profunda y el modo agente. La función mantiene la funcionalidad principal para el contenido en caché y la generación de imágenes, lo que permite a los usuarios interactuar de forma segura con datos externos.
- • OpenAI introdujo el Modo de Bloqueo para reducir el riesgo de ataques de inyección de prompts desde contenido externo y páginas web.
- • El modo deshabilita la navegación en vivo, la recuperación de imágenes web, la investigación profunda y el modo agente.
- • Mantiene la funcionalidad principal para el contenido en caché y la generación de imágenes mientras está activo.
Los desarrolladores y usuarios empresariales pueden proteger sus interacciones con LLM contra contenido externo malicioso deshabilitando selectivamente las funciones dinámicas de alto riesgo.
12. Google Research introduce RAG agéntico para consultas de múltiples saltos
Google Research ha introducido un framework de RAG agéntico integrado en la plataforma Gemini Enterprise Agent, ahora disponible en vista previa pública. El framework impulsa una nueva función de Recuperación entre Corpus diseñada para consultas empresariales complejas de múltiples saltos. Utiliza una arquitectura multi-agente donde un "Agente de Contexto Suficiente" especializado identifica iterativamente la información faltante y registra las brechas para garantizar un contexto completo antes de generar una respuesta. Google informa que este enfoque mejora la precisión de la veracidad hasta en un 34% en comparación con los sistemas RAG estándar, manteniendo la sobrecarga de latencia dentro del 3% de las configuraciones de un solo corpus.
- • Google Research introdujo un framework de RAG agéntico con una nueva capacidad de Recuperación entre Corpus en vista previa pública.
- • El framework utiliza una arquitectura multi-agente que incluye un Orquestador, Planificador, Reescritor de Consultas, Fanout de Búsqueda, Contexto Suficiente y Agente de Síntesis.
- • El Agente de Contexto Suficiente permite la búsqueda iterativa al identificar información faltante y registrar brechas antes de generar una respuesta.
- • El sistema mejoró la precisión de la veracidad hasta en un 34% en comparación con los sistemas RAG estándar, logrando un 90.1% de precisión en el benchmark FramesQA.
- • La latencia para la recuperación entre corpus se mantuvo dentro del 3% de las configuraciones de un solo corpus durante las pruebas.
Los desarrolladores pueden construir sistemas de búsqueda empresarial más confiables con una precisión de veracidad hasta un 34% mayor para consultas complejas de múltiples saltos.
13. Luce Spark ejecuta modelos MoE de 35B en GPU de 16GB sin penalizaciones de descarga
El proyecto de código abierto Luce Spark ha sido lanzado bajo la licencia Apache 2.0, ofreciendo una forma de ejecutar modelos de Mezcla de Expertos (MoE) de 33-35B, como Qwen3.6 35B-A3B, en GPU de 16GB de grado consumidor. En lugar de pagar un alto impuesto de descarga, Spark mantiene a los expertos activos en la GPU e intercambia otros desde la RAM del sistema utilizando un caché asíncrono limitado. El sistema autoajusta dinámicamente la ubicación de los expertos en función de los datos de enrutamiento en vivo, logrando aproximadamente 100 tokens por segundo (alrededor del 85% del rendimiento de una configuración de solo GPU) sin requerir calibración fuera de línea.
- • Luce Spark es un proyecto de código abierto con licencia Apache 2.0 que reduce los requisitos de VRAM para modelos MoE de 33-35B a menos de 16 GiB.
- • El sistema mantiene a los expertos activos en la GPU mientras intercambia los inactivos desde la RAM del sistema utilizando un caché asíncrono limitado.
- • Spark autoajusta la ubicación de los expertos en función de los datos de enrutamiento en vivo, eliminando la necesidad de calibración fuera de línea.
- • El sistema logra aproximadamente 100 tokens por segundo con un 60% de residencia, en comparación con 119 tokens por segundo para la residencia completa en GPU.
- • El proyecto está disponible en GitHub, pero actualmente carece de pruebas exhaustivas en hardware físico de 16 GB.
Los desarrolladores pueden autoalojar y ejecutar modelos MoE más grandes y altamente capaces en GPU de 16GB de grado consumidor con solo una pequeña compensación de rendimiento.
14. El rendimiento de Gemma 4 casi se duplica en GPU de consumo mediante QAT y MTP
Las optimizaciones recientes que combinan el Entrenamiento Consciente de Cuantización (QAT) y la Predicción de Múltiples Tokens (MTP) han mejorado significativamente el rendimiento de LLM local en GPU con 24GB de VRAM o menos. El soporte para Gemma 4 MTP se fusionó recientemente en llama.cpp (comenzando con la versión b9551), lo que resultó en que el rendimiento de Gemma 4 31b saltara de 40 a 70-80 tokens por segundo en una NVIDIA RTX 3090. Además, los desarrolladores están implementando soporte MTP para modelos Gemma más pequeños para apuntar a hardware de baja potencia como dispositivos móviles y Raspberry Pi.
- • El rendimiento de Gemma 4 31b aumentó de 40 a 70-80 tokens por segundo en una GPU NVIDIA RTX 3090.
- • El soporte de Predicción de Múltiples Tokens (MTP) para Gemma 4 se fusionó en llama.cpp a partir de la versión b9551.
- • Las pruebas en un modelo de 26b mostraron una aceleración de 1.26x (de 143 a 180 tokens por segundo) usando MTP con un n-max de 1.
- • Llama.cpp también está implementando soporte MTP para modelos Gemma diminutos dirigidos a hardware de baja potencia como Raspberry Pi y dispositivos móviles.
- • Las ganancias de rendimiento son impulsadas por una combinación de Entrenamiento Consciente de Cuantización (QAT) y MTP.
Los desarrolladores que ejecutan modelos locales pueden lograr una aceleración de hasta 1.8x en hardware de grado consumidor como la RTX 3090.
15. Compilar llama.cpp con una bandera personalizada ahorra 1.5 GB de VRAM
Los desarrolladores que ejecutan modelos locales a través de llama.cpp pueden recuperar hasta 1.5 GB de VRAM compilando el proyecto con una bandera personalizada. De forma predeterminada, llama.cpp habilita el paralelismo de tubería al descargar todas las capas a la GPU, asignando cuatro copias de búfer de cómputo en VRAM (GGML_SCHED_MAX_COPIES=4). Sin embargo, las pruebas muestran que esta configuración predeterminada no proporciona ningún beneficio de velocidad de inferencia sobre una sola copia. Compilar con -DGGML_SCHED_MAX_COPIES=1 evita esta asignación adicional, ahorrando una cantidad significativa de VRAM y evitando que la hinchazón anule los ahorros logrados mediante la cuantización del caché de contexto.
- • Llama.cpp habilita el paralelismo de tubería de forma predeterminada al descargar todas las capas del modelo a la GPU, asignando cuatro copias de búfer de cómputo en VRAM.
- • Compilar llama.cpp con la opción -DGGML_SCHED_MAX_COPIES=1 evita la asignación de búferes de cómputo adicionales.
- • Las pruebas indican que el paralelismo de tubería con cuatro copias no proporciona ningún beneficio de velocidad de inferencia en comparación con el uso de una copia o deshabilitarlo por completo.
- • La configuración predeterminada de cuatro copias consumía 1.5 GB adicionales de VRAM, anulando parcialmente los ahorros de VRAM de la cuantización del caché de contexto.
- • Las pruebas se realizaron en una configuración mixta de AMD Radeon RX 6800 XT y RX 6700 XT.
Los desarrolladores que ejecutan modelos locales pueden recuperar hasta 1.5 GB de VRAM en configuraciones de múltiples GPU o descargadas sin sacrificar la velocidad de inferencia.