Anthropic suspende Claude Fable 5 y Mythos 5 a nivel mundial tras una orden de control de exportaciones de EE. UU.

1. Anthropic suspende Claude Fable 5 y Mythos 5 a nivel mundial tras una orden de control de exportaciones de EE. UU.

Tras una directiva de emergencia de control de exportaciones del gobierno de EE. UU., Anthropic ha retirado sus modelos Claude Fable 5 y Claude Mythos 5 a nivel mundial. La directiva, que restringía el acceso únicamente a ciudadanos estadounidenses, fue provocada por preocupaciones de ciberseguridad e informes de un jailbreak que eludía las medidas de seguridad. Debido a que las restricciones prohibían el acceso a ciudadanos extranjeros —incluidos los propios investigadores internacionales de Anthropic—, la empresa desactivó los modelos por completo para todos los clientes. Anthropic ha cuestionado la gravedad del jailbreak, argumentando que existen capacidades similares en otros modelos de frontera como GPT-5.5 de OpenAI, y está trabajando para resolver el problema con la administración.

• El Departamento de Comercio de EE. UU. emitió una directiva de control de exportaciones que restringe el acceso a Claude Fable 5 y Mythos 5 para todos los ciudadanos extranjeros.
• Anthropic desactivó el acceso global a ambos modelos para todos los usuarios, incluidos los clientes empresariales y su propio personal interno, para garantizar el cumplimiento inmediato.
• La directiva se emitió solo tres días después del lanzamiento público de Fable 5 y Mythos 5.
• La acción del gobierno fue provocada, según se informa, por un método de jailbreak que eludía las medidas de seguridad para prompts de ciberseguridad, química y biología.
• Las sesiones activas para los modelos afectados ahora devuelven errores, y las solicitudes de API se están redirigiendo automáticamente a modelos más antiguos como Opus 4.8.

Los desarrolladores que utilizan o planean integrar Claude Fable 5 o Mythos 5 deben migrar inmediatamente a otros modelos, ya que el acceso global ha sido suspendido por completo.

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22]

2. Lanzamiento de GLM 5.2 con ventana de contexto de 1M y próxima licencia MIT de pesos abiertos

Zhipu AI ha anunciado GLM 5.2, un nuevo modelo que cuenta con una ventana de contexto de 1 millón de tokens y modos de pensamiento especializados diseñados para tareas de codificación complejas. El modelo ya está disponible a través de API, y se espera una versión de pesos abiertos para la próxima semana bajo la licencia permisiva MIT. Los primeros benchmarks de desarrolladores muestran un rendimiento sólido, con el modelo generando con éxito un clon de Pac-Man casi funcional en una prueba de un solo intento. Aunque opera a una velocidad ligeramente más lenta de 70 tokens por segundo en comparación con GLM 5.1, sus capacidades de razonamiento avanzado y su licencia de código abierto lo convierten en un fuerte candidato para el despliegue local.

• GLM 5.2 cuenta con una ventana de contexto de 1 millón de tokens y actualmente está desplegado en el GLM Coding Plan.
• El modelo se lanzará como un modelo de pesos abiertos bajo la licencia permisiva MIT la próxima semana.
• Introduce dos modos de pensamiento, 'max' y 'high', siendo 'max' el recomendado para tareas de codificación complejas.
• En las primeras pruebas de los desarrolladores, GLM 5.2 generó con éxito un clon de Pac-Man casi funcional en un solo intento.
• El modelo opera a aproximadamente 70 tokens por segundo, lo que lo hace ligeramente más lento que su predecesor, GLM 5.1.

Los desarrolladores obtienen acceso a un nuevo modelo de pesos abiertos con una ventana de contexto de 1M y sólidas capacidades de codificación que pueden ser alojadas localmente bajo la licencia MIT.

SOURCES

[1] [2] [3] [4]

3. La plataforma LLMOps de código abierto TensorZero es archivada tras una ronda semilla de 7,3 millones de dólares

TensorZero, una pasarela LLMOps de código abierto y autohospedada construida en Rust, ha archivado abruptamente su repositorio de GitHub durante la noche. La medida se produce inmediatamente después de que la empresa anunciara una ronda de financiación semilla de 7,3 millones de dólares. TensorZero es ampliamente utilizado para el enrutamiento de pasarelas, observabilidad y optimización de prompts, dando soporte a los principales proveedores de API y representando aproximadamente el 1% del gasto global en API de LLM. Aunque la empresa ofrece un producto complementario de pago llamado TensorZero Autopilot, el archivo repentino del repositorio principal de código abierto deja a los despliegues autohospedados sin una ruta de código abierto activa.

• TensorZero ha archivado su repositorio de código abierto tras el anuncio de una ronda semilla de 7,3 millones de dólares.
• La plataforma es una pasarela LLMOps autohospedada construida en Rust, logrando una latencia p99 inferior a 1ms.
• TensorZero es compatible con los principales proveedores de LLM, incluidos OpenAI, Anthropic, AWS Bedrock y Google Vertex AI.
• La plataforma maneja aproximadamente el 1% del gasto global en API de LLM.
• La empresa también ofrece TensorZero Autopilot, un ingeniero de IA automatizado de pago que optimiza prompts y modelos.

Los desarrolladores que dependen de la pasarela de código abierto TensorZero para LLMOps deben ser conscientes de que el repositorio ha sido archivado abruptamente tras su ronda de financiación semilla.

SOURCES

[1]

4. Pi-Setup ofrece una alternativa local de código abierto a Claude Code

El proyecto de código abierto Pi-Setup ha surgido como una alternativa local altamente personalizable a Claude Code. Diseñada para ejecutar modelos locales como Qwen 3.6 27B, la interfaz de terminal integra una extensión de asesor (normalmente configurada con GPT-5.5) y proporciona un pie de página personalizado que rastrea el uso de tokens, el costo y la velocidad de inferencia en tiempo real. También cuenta con un comando de desglose de contexto, un sistema de permisos configurable, habilidades personalizadas y un script de sincronización para configuraciones de múltiples entornos.

• Pi-Setup es una interfaz de terminal de código abierto diseñada para ejecutar modelos locales como Qwen 3.6 27B.
• La configuración cuenta con un pie de página personalizado que muestra el uso de tokens, el costo y la velocidad de inferencia en tiempo real.
• Incluye un comando de desglose de contexto similar a la herramienta nativa claudecode.
• El sistema proporciona un sistema de permisos configurable, soporte para habilidades personalizadas y 10 temas integrados.
• Se incluye un script de sincronización y copia de seguridad para facilitar el despliegue en múltiples entornos de desarrollo.

Los desarrolladores que buscan una alternativa a Claude Code pueden usar esta configuración de terminal de código abierto para ejecutar modelos locales con seguimiento de tokens, extensiones personalizadas y controles de permisos.

SOURCES

[1]

5. Configuración de doble GPU alcanza más de 80 tokens/seg en Qwen 3.6 27B usando decodificación especulativa

Un desarrollador ha detallado una configuración de hardware y software que alcanza de 80 a más de 90 tokens por segundo ejecutando el modelo Qwen 3.6 27B Q8 localmente. Al emparejar una NVIDIA RTX 5080 con una RTX 3090 reacondicionada en una placa base Asus Prime X570-Pro, la configuración divide los carriles PCIe en dos ranuras 8x. La configuración utiliza llama.cpp compilado con soporte para arquitecturas Ampere y Blackwell, aprovechando la decodificación especulativa y distribuyendo la carga de trabajo entre ambas GPU para maximizar el rendimiento de la inferencia local.

• La configuración de hardware empareja una NVIDIA RTX 5080 con una RTX 3090 reacondicionada en una placa base Asus Prime X570-Pro.
• La configuración alcanza de 80 a más de 90 tokens por segundo ejecutando el modelo Qwen 3.6 27B Q8.
• La decodificación especulativa se habilita a través de llama.cpp compilado con soporte para arquitecturas Ampere y Blackwell.
• Los ajustes del BIOS requieren deshabilitar CSM, habilitar Above 4G Decoding, habilitar ReSize BAR y configurar los modos de enlace PCIe a Gen 4.
• La configuración de llama-server utiliza el flag '-ts 2,3' para distribuir la carga de trabajo entre las dos GPU.

Los desarrolladores que ejecutan modelos locales pueden configurar una configuración de doble GPU de generación mixta para lograr una inferencia de alta velocidad en modelos de 27B utilizando decodificación especulativa.

SOURCES

[1]

1. Anthropic suspende Claude Fable 5 y Mythos 5 a nivel mundial tras una orden de control de exportaciones de EE. UU.

2. Lanzamiento de GLM 5.2 con ventana de contexto de 1M y próxima licencia MIT de pesos abiertos

3. La plataforma LLMOps de código abierto TensorZero es archivada tras una ronda semilla de 7,3 millones de dólares

4. Pi-Setup ofrece una alternativa local de código abierto a Claude Code

5. Configuración de doble GPU alcanza más de 80 tokens/seg en Qwen 3.6 27B usando decodificación especulativa

Inference Brew en tu correo