Alibaba lanza Qwen3.7-Max con compatibilidad con la API de Anthropic

1. Alibaba lanza Qwen3.7-Max con compatibilidad con la API de Anthropic

Alibaba Cloud anunció el modelo de razonamiento propietario Qwen3.7-Max en el Alibaba Cloud Summit. Al concentrar las mejoras de rendimiento en la codificación y el razonamiento científico, el modelo obtuvo una puntuación de 56.6 en el Artificial Analysis Intelligence Index. Además de las entradas de texto y los pasos de razonamiento de pensamiento extendido, su compatibilidad con el protocolo de la API de Anthropic permite a los desarrolladores desplegarlo inmediatamente como un backend alternativo para herramientas como Claude Code.

• Cuenta con una ventana de contexto de 1 millón de tokens y un límite máximo de salida de 64K.
• Admite el protocolo de la API de Anthropic directamente, lo que permite su uso en Claude Code.
• El precio se establece en 2.50 dólares por cada millón de tokens de entrada y 7.50 dólares por cada millón de tokens de salida.
• Demostró 35 horas de ejecución autónoma continua con 1,158 llamadas a herramientas en pruebas internas.
• Actualmente es propietario y solo accesible a través de endpoints basados en China.

Los desarrolladores pueden integrar un modelo agente altamente capaz en los flujos de trabajo existentes de Claude Code simplemente cambiando a los endpoints de Qwen3.7-Max basados en China.

SOURCES

[1] [2] [3] [4] [5]

2. CopilotKit lanza las herramientas AIMock y AG-UI para el desarrollo de agentes

La startup con sede en Seattle, CopilotKit, ha introducido tres herramientas independientes del proveedor destinadas a poner en producción los flujos de trabajo de agentes. Los desarrolladores pueden usar AIMock para manejar la detección de desviación de esquemas, pruebas de caos y comportamientos de grabación y reproducción sin incurrir en costos de tokens ni gestionar claves de API reales. Además, el servidor Pathfinder MCP permite realizar consultas en documentación local, bases de código y páginas de Notion utilizando recuperación híbrida de vectores y palabras clave.

• AIMock simula 11 proveedores de LLM, MCP, bases de datos vectoriales y endpoints de búsqueda utilizando configuraciones JSON simples.
• El protocolo AG-UI permite a los agentes de software transmitir la interfaz de usuario, sincronizar estados de aplicaciones y solicitar aprobaciones humanas.
• Pathfinder es un servidor MCP autohospedado con incrustaciones (embeddings) conectables para la recuperación de conocimiento en entornos aislados (air-gapped).
• AG-UI cuenta con el respaldo de proveedores importantes como Google y Microsoft, y marcos de trabajo como PydanticAI y LangChain.

Los nuevos lanzamientos proporcionan una forma optimizada y sin dependencias de simular llamadas completas de agentes en 11 proveedores de LLM, acelerando los entornos de prueba.

SOURCES

[1]

3. Runtime lanza entornos de agentes en sandbox de código abierto

Runtime (YC P26) aborda los riesgos de seguridad y la complejidad de configuración del despliegue de herramientas de agentes como Claude Code, Cursor y Devin. Al abstraer la orquestación de sandbox, permite a los equipos compartir URLs de vista previa seguras de las compilaciones de los agentes. Los controles de salida de red y el control de acceso basado en roles del sistema evitan fugas accidentales de datos durante las ejecuciones de los agentes.

• Realiza instantáneas de entornos completos en ejecución (Docker Compose multiservicio, Kafka, Redis, bases de datos) en milisegundos.
• Orquesta a través de sandboxes de Daytona, E2B, EC2 y Kubernetes autohospedados.
• Incluye un proxy gestionado para la inyección de secretos, listas de permitir/denegar comandos y controles de salida.
• El núcleo de la plataforma es de código abierto y está disponible un nivel alojado con precios basados solo en computación.

Permite a los desarrolladores ejecutar código de agentes no confiable en entornos altamente complejos sin exponer sistemas locales o clústeres de producción.

SOURCES

[1]

4. Daytona se orienta hacia la computación nativa para agentes con sandboxes ultrarrápidos

Daytona ha pasado de los entornos de desarrollo humano a la computación centrada en agentes, apuntando a los límites de rendimiento de los orquestadores de contenedores modernos. El CEO Ivan Burazin afirma que las soluciones estándar como Kubernetes son inadecuadas para las cargas de trabajo de agentes, lo que impulsó una arquitectura personalizada basada en técnicas de metal desnudo (bare-metal) e instantáneas con estado. El servicio está posicionado para actuar como una API de utilidad para la ejecución segura de código.

• Proporciona inicios de sandbox ultrarrápidos de 60 ms para ejecutar código de agentes.
• Capaz de escalar a 50,000 inicios en 75 segundos y maneja 850,000 ejecuciones diarias.
• Evita Kubernetes, optando por la orquestación en metal desnudo e instantáneas con estado.
• Aproximadamente el 50% del uso actual de la plataforma está impulsado por cargas de trabajo de aprendizaje por refuerzo.

Los desarrolladores que crean agentes LLM que ejecutan código pueden utilizar entornos de inicio de 60 ms diseñados específicamente para manejar ejecuciones y evaluaciones de alto volumen.

SOURCES

[1]

5. Docusign introduce un servidor MCP para integraciones con Claude y Gemini

Docusign ha lanzado un conjunto de herramientas para desarrolladores diseñadas para flujos de trabajo de acuerdos mediante agentes. Este lanzamiento permite que los agentes de IA comunes interactúen directamente con las API de Docusign bajo un contexto unificado de gobernanza y seguridad. Los desarrolladores de aplicaciones pueden utilizar estas herramientas para permitir que sus LLM consulten de forma autónoma acuerdos pasados, gestionen metadatos y redacten o dirijan documentos.

• Incluye un servidor de Protocolo de Contexto de Modelo (MCP) dedicado para las capacidades de Docusign.
• Cuenta con una API de gestión de acuerdos y un entorno de Agent Studio.
• Admite la ingesta masiva de documentos y la gobernanza de agentes basada en el historial de acuerdos.
• Permite que los modelos Claude y Gemini activen acciones de acuerdos directamente mediante lenguaje natural.

Los desarrolladores ahora pueden crear agentes de lenguaje natural que gestionen, ingieran y consulten acuerdos de Docusign utilizando marcos de trabajo estándar.

SOURCES

[1]

6. Rmux lleva la automatización de SDK al estilo Playwright a las terminales

RMUX actúa como una capa programable para entornos de línea de comandos locales y remotos. Al igualar los atajos de teclado y comandos de tmux, funciona como un reemplazo directo mientras expone una API asíncrona para la orquestación externa. El proyecto permite a los desarrolladores programar interacciones de terminal, verificar salidas y gestionar sesiones paralelas mediante programación.

• Escrito en Rust y cuenta con una CLI compatible con tmux que admite aproximadamente 90 comandos.
• Incluye un SDK de Rust asíncrono que proporciona IDs de panel estables y esperas al estilo de localizadores.
• Se ejecuta de forma nativa en Linux, macOS y Windows a través de ConPTY sin necesidad de WSL.

Los desarrolladores que crean agentes que ejecutan terminales pueden capturar y controlar mediante programación aplicaciones de consola con IDs de panel estables e instantáneas de estado estructuradas.

SOURCES

[1]

7. llama.cpp corrige una fuga de VRAM en el servidor de predicción de múltiples tokens

Se ha parcheado una fuga de memoria significativa que afectaba al servidor llama.cpp al utilizar arquitecturas de Predicción de Múltiples Tokens (MTP). Anteriormente, el servidor no lograba liberar los decodificadores especulativos y las configuraciones de borrador al entrar en ciclos de suspensión, consumiendo VRAM de manera constante. La actualización impone un orden de destrucción de recursos limpio para garantizar la recuperación total de la VRAM.

• La solicitud de extracción #23461 restablece explícitamente los decodificadores especulativos, el contexto de borrador y los modelos de borrador.
• Corrige un error donde los recursos en la función destroy() de server_context_impl se filtraban.
• Resuelve bloqueos por falta de memoria provocados por ciclos repetidos de suspensión y reanudación de llama-server.

Los desarrolladores que ejecutan modelos Qwen 3.6 locales u otros modelos MTP pueden aplicar la última actualización para evitar errores de falta de memoria causados por ciclos de limpieza fallidos.

SOURCES

[1]

8. ik_llama.cpp acelera la inferencia MTP local en GPU de 12 GB

Una prueba de rendimiento de hardware local ha demostrado mejoras sustanciales en la velocidad para la inferencia de Predicción de Múltiples Tokens (MTP) al usar ik_llama.cpp en lugar del llama.cpp estándar. Al emparejar una GPU RTX 4070 Super con una iGPU para tareas de monitorización del sistema, los desarrolladores pueden utilizar los 12 GB completos de VRAM para alojar un modelo cuantizado de 35B de parámetros localmente. La configuración logra salidas altamente receptivas adecuadas para asistentes de codificación en tiempo real.

• Alcanzó 110.24 tokens por segundo en una RTX 4070 Super de 12 GB usando ik_llama.cpp.
• El llama.cpp estándar alcanzó 89.76 tokens por segundo en la misma configuración de hardware.
• Se utilizó un modelo Qwen3.6-35B-A3B-IQ4_XS cuantizado a 4.19bpw.
• Requiere usar ajustes de --fit-margin para gestionar asignaciones de VRAM ajustadas.

Los desarrolladores que ejecutan entornos de modelos locales pueden lograr una mejora de velocidad del 23% sobre las implementaciones estándar de llama.cpp.

SOURCES

[1]

9. Delta-Mem añade memoria de trabajo ligera a los agentes de IA

Delta-mem introduce una estructura de memoria alternativa para agentes autónomos, abordando los límites de escalado de la ventana de contexto. En lugar de depender de la generación aumentada por recuperación (RAG) para el historial de comportamiento, este método comprime los registros de interacción dinámica en una matriz asociativa rápida. El enfoque deja el modelo central congelado, permitiendo actualizaciones de estado rápidas y ligeras en tareas de largo horizonte.

• Añade solo el 0.12% de los parámetros del modelo base, en comparación con el 76.40% de las líneas base de memoria MLP.
• Implementa un Estado en Línea de Memoria Asociativa (OSAM) para actualizar el estado sin modificar los pesos congelados del LLM.
• Obtuvo un 51.66% en pruebas de rendimiento utilizando una base Qwen3-4B-Instruct, superando la línea base Context2LoRA.
• El código está disponible en GitHub y los pesos entrenados están alojados en Hugging Face.

Los desarrolladores pueden equipar a los agentes con un adaptador de memoria conductual ligero que mantiene una huella de memoria de GPU fija incluso con longitudes de contexto de 32,000 tokens.

SOURCES

[1]

10. ByteDance lanza el modelo multimodal unificado Lance 3B

ByteDance ha lanzado Lance, un modelo de mezcla de expertos de doble flujo con 3B de parámetros activados, entrenado desde cero. Lance utiliza la Codificación Posicional Rotativa Consciente de la Modalidad (MaPE) para segregar limpiamente sus vías de generación y comprensión. Aunque exige una GPU de desarrollador con mucha memoria para ejecutarse localmente, ofrece un procesamiento multimodal unificado sin necesidad de intercambiar modelos discretos.

• Arquitectura unificada para comprender, generar y editar tanto imágenes como videos.
• Lanzado bajo la licencia Apache 2.0 con pesos disponibles en Hugging Face.
• Requiere una GPU con al menos 40 GB de VRAM y CUDA 12.4 o superior.
• Obtiene 0.90 en GenEval y 85.11 en VBench, la puntuación más alta entre los modelos unificados actuales.

Proporciona una alternativa de pesos abiertos bajo licencia Apache 2.0 para crear aplicaciones de video e imagen multimodales.

SOURCES

[1] [2]

1. Alibaba lanza Qwen3.7-Max con compatibilidad con la API de Anthropic

2. CopilotKit lanza las herramientas AIMock y AG-UI para el desarrollo de agentes

3. Runtime lanza entornos de agentes en sandbox de código abierto

4. Daytona se orienta hacia la computación nativa para agentes con sandboxes ultrarrápidos

5. Docusign introduce un servidor MCP para integraciones con Claude y Gemini

6. Rmux lleva la automatización de SDK al estilo Playwright a las terminales

7. llama.cpp corrige una fuga de VRAM en el servidor de predicción de múltiples tokens

8. ik_llama.cpp acelera la inferencia MTP local en GPU de 12 GB

9. Delta-Mem añade memoria de trabajo ligera a los agentes de IA

10. ByteDance lanza el modelo multimodal unificado Lance 3B

La señal diaria de IA en tu correo