El candidato a lanzamiento del Model Context Protocol introduce un núcleo HTTP sin estado

1. El candidato a lanzamiento del Model Context Protocol introduce un núcleo HTTP sin estado

Este candidato a lanzamiento representa la mayor revisión del Model Context Protocol (MCP) desde su lanzamiento inicial. Al rediseñar el protocolo central para que sea sin estado, se simplifica el despliegue en entornos de nube y entornos sin servidor basados en HTTP, facilitando el escalado de las interacciones de los agentes. Los desarrolladores deben revisar las nuevas especificaciones de autorización y prepararse para los cambios disruptivos antes del lanzamiento estable.

• Cuenta con un núcleo sin estado adaptado para la infraestructura HTTP.
• Añade soporte oficial para extensiones e implementa una autorización alineada con OAuth/OpenID Connect.
• Introduce cambios disruptivos y una nueva política formal de obsolescencia.
• La versión final de la especificación está programada para su lanzamiento el 28 de julio.

La transición del Model Context Protocol a un núcleo HTTP sin estado con autorización OAuth/OpenID y cambios disruptivos obliga a realizar actualizaciones inmediatas en los servidores MCP personalizados.

SOURCES

[1]

2. Los proveedores de autenticación lanzan seguridad OAuth gestionada para servidores MCP

A medida que los agentes de IA específicos para tareas se integran cada vez más en las aplicaciones empresariales, asegurar sus llamadas a herramientas se ha convertido en una prioridad. Para abordar esto, la industria se está estandarizando en OAuth 2.1 con PKCE para despliegues de MCP basados en HTTP protegidos. Los principales proveedores de identidad e integración han lanzado herramientas nativas, desde las integraciones SSO listas para empresas de WorkOS hasta los entornos de ejecución de permisos basados en identidad de Arcade, lo que permite a los desarrolladores implementar una autenticación segura y conforme a las políticas para sus flotas de agentes.

• El Model Context Protocol (MCP) alcanzó los 97 millones de descargas combinadas de Python y TypeScript a finales de 2025.
• Los despliegues de MCP basados en HTTP requieren OAuth 2.1 con PKCE, HTTPS y metadatos de recursos protegidos (RFC 9728).
• WorkOS proporciona OAuth compatible con MCP integrado con SSO, SCIM y autorización de grano fino (FGA).
• Auth0 de Okta hizo que su 'Auth for MCP' estuviera disponible de forma general el 6 de mayo de 2026.
• Otras plataformas como Stytch, Arcade y el SDK de agentes de Cloudflare ofrecen soporte especializado para MCP nativo en el borde y aplicado mediante políticas.

Asegurar las llamadas a herramientas de agentes y los servidores MCP requiere implementar la autenticación estandarizada OAuth 2.1, que ahora cuenta con soporte nativo en los principales proveedores de identidad.

SOURCES

[1]

3. WorkOS lanza el protocolo abierto auth.md para el registro de agentes

El nuevo protocolo auth.md simplifica la forma en que los agentes y servicios autónomos se descubren y confían entre sí. Al alojar un sencillo archivo markdown en un dominio, los servicios pueden publicar flujos de registro admitidos, alcances y reglas de gestión de credenciales. Esto permite a los agentes registrarse mediante programación y recibir credenciales de forma sincrónica utilizando los estándares OAuth existentes.

• Estandariza el registro de agentes utilizando un archivo Markdown alojado en el dominio del servicio.
• Construido sobre los estándares OAuth existentes y es totalmente independiente de la infraestructura.
• Cuenta con un flujo de 'Agente verificado' que utiliza ID-JAG para la emisión de credenciales sincrónica sin intervención humana.
• Admite un flujo de 'Usuario reclamado' que utiliza contraseñas de un solo uso (OTP) para vincular los registros a los usuarios.

Permite a los desarrolladores exponer puntos finales de registro estándar para agentes de IA entrantes sin depender de una infraestructura de autenticación propietaria.

SOURCES

[1]

4. Together AI lanza OSCAR para la cuantización de caché KV de 2 bits

El servicio de modelos de contexto largo a menudo se ve limitado por las enormes huellas de memoria requeridas por la caché KV. OSCAR (Offline Spectral Covariance-Aware Rotation) evita esto utilizando matrices de rotación conscientes de la atención para alinear el ruido de cuantización lejos de las direcciones sensibles. Al combinar la compresión del historial INT2 con un pequeño búfer BF16 para los tokens recientes y de sumidero, los desarrolladores pueden escalar los límites de contexto sin sufrir caídas críticas en la precisión o hinchazón del hardware.

• Logra una reducción de hasta 8 veces en la memoria de caché KV y un aumento de hasta 3 veces en el rendimiento de decodificación con una longitud de contexto de 100K.
• Utiliza un diseño de precisión mixta: los primeros 64 tokens de sumidero y los últimos 256 tokens en BF16, los tokens de historial comprimidos a INT2 de 2 bits.
• Mantiene una precisión cercana a BF16 en modelos como Qwen3-32B y GLM-4.7-FP8.
• Totalmente integrado con SGLang, soportando atención paginada y almacenamiento en caché de prefijos.
• Las matrices de rotación precalculadas y los umbrales de recorte están disponibles en el repositorio RotationZoo.

Reduce la enorme huella de memoria de ejecutar LLM de contexto largo localmente o en puntos finales dedicados entre 7 y 8 veces con una pérdida mínima en la precisión del razonamiento.

SOURCES

[1] [2]

5. NuExtract3: VLM de 4B de pesos abiertos para la extracción estructurada de documentos

Como sucesor del modelo NuMarkdown, NuExtract3 se especializa en convertir documentos visuales no estructurados en formatos de datos o Markdown limpios y estructurados. Su bajo requerimiento de memoria lo hace muy atractivo para los desarrolladores conscientes de los costos que desean ejecutar tuberías de procesamiento de documentos dedicadas y autohospedadas localmente o en entornos sin servidor.

• Lanzado bajo una licencia Apache-2.0 y basado en Qwen3.5-4B.
• Diseñado para la extracción estructurada de PDF, capturas de pantalla, formularios, tablas y facturas.
• Requiere tan solo 4 GB de VRAM para ejecutarse.
• Compatible con pesos Safetensors, GGUF y MLX.
• Probado y compatible con vLLM, SGLang y llama.cpp.

Proporciona una alternativa altamente eficiente y autohospedable a las API comerciales para tareas de análisis de documentos y OCR de alta precisión.

SOURCES

[1]

6. Clerk lanza una CLI de código abierto para autenticación sin interfaz en agentes

Al trasladar la gestión de la autenticación a una interfaz de línea de comandos programable, Clerk elimina la necesidad de iniciar sesión en un panel de control del navegador para gestionar el acceso de los inquilinos. Debido a que la CLI es de código abierto y está diseñada pensando en los agentes, proporciona un camino claro para que los desarrolladores den a sus procesos automatizados un control seguro y granular sobre los límites de identidad.

• Incluye 'clerk init' para andamiaje, 'clerk config' para configuraciones de código y 'clerk api' para operaciones sin interfaz.
• Permite obtener usuarios, organizaciones y sesiones mediante programación.
• De código abierto y optimizado para la integración en arneses de agentes.

Permite a los agentes automatizados ejecutar tareas de gestión de identidad mediante programación sin intervención manual en el panel de control.

SOURCES

[1]

7. Reasonix: Agente de codificación DeepSeek basado en terminal

Reasonix se dirige a los desarrolladores que prefieren mantener sus bucles de codificación dentro de la terminal. Al optimizar las interacciones de los agentes en torno al comportamiento nativo de almacenamiento en caché de prefijos de DeepSeek, la herramienta reduce significativamente las tarifas recurrentes de procesamiento de avisos asociadas normalmente con tareas de programación de múltiples turnos y gran contexto.

• Diseñado como un agente de codificación nativo de DeepSeek diseñado específicamente para entornos de terminal.
• Construido en torno a la estabilidad de la caché de prefijos para mantener sesiones de desarrollador de larga duración.
• Optimizado para minimizar los costos de tokens durante la edición de código extendida.

Permite a los desarrolladores ejecutar sesiones de codificación en terminal largas e interactivas a un bajo costo de tokens aprovechando el almacenamiento en caché estable.

SOURCES

[1]

8. El PR de llama.cpp optimiza el reprocesamiento de avisos para la codificación de agentes

Las herramientas de codificación interactivas a menudo reescriben mensajes anteriores o modifican historiales de avisos, lo que convencionalmente obliga a llama.cpp a desperdiciar ciclos reprocesando decenas de miles de tokens. Esta optimización acorta drásticamente los tiempos de espera durante las sesiones de agentes. Los desarrolladores que ejecutan flujos de trabajo locales también deben tener en cuenta que conservar las etiquetas de 'pensamiento' generadas por el modelo ayuda a mantener la alineación de la caché de contexto.

• Aborda el problema en el que herramientas de agentes como 'opencode' reescriben el contexto, forzando el reprocesamiento de hasta 70k tokens.
• Asegura que llama.cpp solo reprocese las secciones alteradas del contexto del aviso.
• Señala que los modelos que eliminan etiquetas de pensamiento/razonamiento también pueden activar el reprocesamiento completo del aviso.
• Recomienda habilitar 'preservar pensamiento' (como en Qwen 3.6) para evitar pérdidas de contexto de razonamiento.

Mejora la latencia interactiva de los asistentes de codificación locales que reescriben frecuentemente el historial de conversación o eliminan etiquetas de razonamiento.

SOURCES

[1]

9. La actualización de CUDA de llama.cpp implementa la Transformada Rápida de Walsh-Hadamard

Cuantizar la caché KV es una forma popular de ajustar modelos de contexto largo en GPU de consumo, pero puede introducir una sobrecarga computacional. Esta solicitud de extracción aborda ese cuello de botella directamente en dispositivos CUDA. La integración de la Transformada Rápida de Walsh-Hadamard asegura que las operaciones de cuantización de clave-valor se ejecuten más rápido, lo que resulta en una generación de texto local más ágil.

• Implementa la Transformada Rápida de Walsh-Hadamard (FWHT) para la cuantización de caché KV basada en CUDA.
• Proporciona un aumento de rendimiento del 1-2% para el procesamiento de avisos y un aumento del 7-9% para la generación de tokens.
• Probado en NVIDIA RTX 5090 usando gemma4 26B con claves y valores cuantizados de 8 bits (-ctk q8_0 -ctv q8_0).

Los desarrolladores que ejecutan inferencia local cuantizada en GPU NVIDIA verán ganancias de rendimiento inmediatas de hasta un 9%.

SOURCES

[1]

10. OpenAI lanza un flujo de trabajo de macroevaluación para sistemas multiagente

Depurar configuraciones de agentes complejos manualmente es notoriamente difícil debido a la naturaleza no determinista del razonamiento de múltiples pasos. El nuevo enfoque de macroevaluación de OpenAI resuelve esto agregando métricas de ejecución sobre grandes volúmenes de ejecuciones. Los desarrolladores ahora pueden identificar rutas de falla recurrentes, cuellos de botella arquitectónicos y problemas sistémicos en toda su flota de agentes en lugar de perseguir errores individuales de casos extremos.

• Se centra en analizar macro patrones en poblaciones enteras de rastros.
• Se aleja de la evaluación de fallas de agentes individuales y aisladas.
• Introducido por OpenAI para mejorar la previsibilidad de los despliegues multiagente.

Desplaza la evaluación de agentes de comprobaciones manuales frágiles de fallas individuales al análisis agregado a nivel de población de rastros de ejecución.

SOURCES

[1]

1. El candidato a lanzamiento del Model Context Protocol introduce un núcleo HTTP sin estado

2. Los proveedores de autenticación lanzan seguridad OAuth gestionada para servidores MCP

3. WorkOS lanza el protocolo abierto auth.md para el registro de agentes

4. Together AI lanza OSCAR para la cuantización de caché KV de 2 bits

5. NuExtract3: VLM de 4B de pesos abiertos para la extracción estructurada de documentos

6. Clerk lanza una CLI de código abierto para autenticación sin interfaz en agentes

7. Reasonix: Agente de codificación DeepSeek basado en terminal

8. El PR de llama.cpp optimiza el reprocesamiento de avisos para la codificación de agentes

9. La actualización de CUDA de llama.cpp implementa la Transformada Rápida de Walsh-Hadamard

10. OpenAI lanza un flujo de trabajo de macroevaluación para sistemas multiagente

Inference Brew en tu correo