Audesso | Daily: AI

Moonshot AI lanza Kimi K2.7-Code con una reducción del 30% en tokens de razonamiento

00:00 / --:--

← Volver al inicio

Moonshot AI lanza Kimi K2.7-Code con una reducción del 30% en tokens de razonamiento

1. Moonshot AI lanza Kimi K2.7-Code con una reducción del 30% en tokens de razonamiento

Moonshot AI ha lanzado Kimi K2.7-Code, un modelo de codificación Mixture-of-Experts (MoE) de un billón de parámetros con pesos disponibles en Hugging Face. Construido sobre la arquitectura Kimi K2.6, el modelo fuerza un "modo de razonamiento" (thinking mode) y un "modo de preservación de razonamiento" (preserve_thinking mode) para mantener el razonamiento a través de interacciones de múltiples turnos, logrando una reducción del 30% en el uso de tokens de razonamiento. Es compatible con cuantización INT4 nativa y se puede implementar mediante vLLM, SGLang o KTransformers. Aunque Moonshot AI reporta ganancias de dos dígitos en benchmarks internos como Kimi Code Bench v2, investigadores independientes han notado regresiones de rendimiento en benchmarks externos como KernelBench-Hard.

  • Kimi K2.7-Code es un modelo Mixture-of-Experts de un billón de parámetros lanzado bajo una licencia MIT modificada.
  • El modelo reduce el uso de tokens de razonamiento en aproximadamente un 30% en comparación con su predecesor, Kimi K2.6.
  • Opera exclusivamente en modo de razonamiento con una temperatura fija de 1.0, lo que impide ajustes en el determinismo de salida.
  • El modelo es compatible con vLLM, SGLang y KTransformers, requiriendo una versión de transformers >=4.57.1 y <5.0.0.
  • Las evaluaciones independientes en KernelBench-Hard mostraron regresiones de rendimiento en comparación con K2.6, lo que provocó llamados a una verificación mediante DeepSWE.

Los desarrolladores obtienen acceso a un modelo de codificación masivo de pesos abiertos que reduce la sobrecarga de tokens de razonamiento en un 30%, aunque los primeros benchmarks independientes muestran un rendimiento mixto.

2. MiniMax lanza el modelo de pesos abiertos MiniMax-M3 y un kernel de atención dispersa

MiniMax ha liberado los pesos de MiniMax-M3, un modelo Mixture-of-Experts (MoE) de 428B de parámetros diseñado para flujos de trabajo de agentes, activando 23B de parámetros por token. Junto con el modelo, MiniMax lanzó el mecanismo MiniMax Sparse Attention (MSA) y su correspondiente kernel de inferencia para GPU en GitHub y Hugging Face. MSA se basa en Grouped Query Attention (GQA) utilizando una rama de índice ligera para puntuar bloques de clave-valor y seleccionar un subconjunto Top-k para una atención dispersa por bloques exacta. Esta ruta de GPU co-diseñada reduce significativamente la sobrecarga de cómputo de atención en contextos largos, permitiendo aceleraciones masivas en hardware compatible.

  • MiniMax-M3 cuenta con 428 mil millones de parámetros totales con 23 mil millones de parámetros activados en una arquitectura Mixture-of-Experts.
  • El modelo se lanza con pesos abiertos en Hugging Face, con versiones GGUF siendo subidas por Unsloth.
  • MiniMax Sparse Attention (MSA) co-diseña una ruta de ejecución de GPU utilizando selección Top-k sin exponenciales y atención dispersa KV-outer.
  • MSA reduce el cómputo de atención por token en 28.4x a 1M de contexto en comparación con la Grouped Query Attention (GQA) estándar.
  • El kernel de inferencia MSA personalizado logra aceleraciones de prellenado de 14.2x y de decodificación de 7.6x en GPUs H800.

Los desarrolladores pueden alojar por cuenta propia un modelo MoE masivo centrado en agentes con soporte de contexto de 1M y lograr aceleraciones de prellenado de hasta 14.2x utilizando el kernel de GPU personalizado.

3. Zyphra lanza Zamba2-VL, modelos de visión híbridos Mamba2-Transformer

Zyphra ha lanzado Zamba2-VL, una familia de modelos de visión-lenguaje (VLM) de pesos abiertos disponibles en tamaños de 1.2B, 2.7B y 7B de parámetros bajo la licencia Apache 2.0. Al combinar capas de espacio de estados Mamba2 con bloques de transformador compartidos y utilizar el Vision Transformer de Qwen2.5-VL como codificador, Zamba2-VL logra un tiempo hasta el primer token un orden de magnitud menor en comparación con las arquitecturas tradicionales solo de transformador. El diseño aprovecha el prellenado de tiempo casi lineal y un estado recurrente de tamaño fijo para eliminar la creciente sobrecarga de caché KV, aunque ejecutar los kernels optimizados de Mamba2 requiere una GPU compatible con CUDA.

  • Zamba2-VL es una familia de modelos de visión abiertos disponibles en tamaños de 1.2B, 2.7B y 7B de parámetros bajo la licencia Apache 2.0.
  • La arquitectura combina capas de espacio de estados Mamba2 con bloques de transformador compartidos, utilizando Qwen2.5-VL como codificador de visión.
  • Los modelos logran un tiempo hasta el primer token aproximadamente un orden de magnitud menor en comparación con los VLM basados en transformadores estándar.
  • El diseño utiliza prellenado de tiempo casi lineal y un estado recurrente de tamaño fijo para evitar el crecimiento de las cachés KV.
  • La inferencia requiere una GPU CUDA para ejecutar los kernels optimizados de Mamba2.

Los desarrolladores pueden alojar por cuenta propia modelos de visión-lenguaje altamente eficientes para lograr una latencia extremadamente baja en tareas visuales.

SOURCES

4. PaddleOCR lanza la serie de modelos PP-OCRv6

PaddleOCR ha lanzado oficialmente PP-OCRv6, una nueva serie de modelos OCR de código abierto bajo la licencia Apache 2.0. Con tamaños que van desde 1.5M (Tiny) hasta 34.5M (Medium) de parámetros, los modelos mejoran la precisión de detección en un 4.9% y la precisión de reconocimiento en un 5.1% en comparación con la generación anterior. Cuando se implementa con OpenVINO, PP-OCRv6 ofrece una inferencia en CPU hasta 5.2 veces más rápida. El modelo unificado admite 50 idiomas e introduce capacidades especializadas para diseños complejos como dibujos CAD, PCB, tubos digitales y texto de matriz de puntos.

  • PP-OCRv6 se lanza bajo la licencia de código abierto Apache 2.0 con tamaños de modelo que van desde 1.5M hasta 34.5M de parámetros.
  • La serie incluye modelos Tiny (1.5M), Small (7.7M) y Medium (34.5M).
  • Los modelos ofrecen un aumento del 4.9% en la precisión de detección y un 5.1% en la precisión de reconocimiento sobre PP-OCRv5.
  • La inferencia en CPU es hasta 5.2 veces más rápida al utilizar OpenVINO.
  • El modelo unificado admite 50 idiomas y añade soporte para PCB, dibujos CAD, tubos digitales y texto de matriz de puntos.

Los desarrolladores pueden integrar modelos OCR altamente eficientes y ligeros que se ejecutan extremadamente rápido en hardware de CPU estándar utilizando OpenVINO.

SOURCES

5. Benchmarks revelan una aceleración de 4x pero 6x más errores en DiffusionGemma

Los benchmarks que comparan el modelo autorregresivo Gemma 4 con el modelo DiffusionGemma en una sola GPU H100 han revelado una marcada compensación entre la velocidad de generación y la precisión fáctica. Mientras que DiffusionGemma 26B A4B logró un rendimiento de 763 tokens por segundo (en comparación con los 218 tokens/segundo de Gemma 4) al generar 256 tokens simultáneamente y pulirlos de forma iterativa, cometió 28 errores fácticos en tres tareas de prueba en comparación con los 5 de Gemma 4. Google aconseja a los desarrolladores que se mantengan con el modelo estándar Gemma 4 para aplicaciones que requieran precisión fáctica, ya que la calidad de DiffusionGemma se degrada significativamente en temas menos populares.

  • Gemma 4 y DiffusionGemma 26B A4B fueron evaluados en una sola GPU H100 utilizando precisión FP8.
  • DiffusionGemma logró 763 tokens/segundo en comparación con los 218 tokens/segundo de Gemma 4.
  • DiffusionGemma cometió 28 errores fácticos en tres tareas, en comparación con solo 5 errores para Gemma 4.
  • La precisión de DiffusionGemma disminuyó a medida que la popularidad del tema disminuía, inventando hechos e identificando erróneamente detalles históricos.
  • Google aconseja utilizar el modelo regular Gemma 4 cuando se requiere precisión fáctica.

Los desarrolladores deben elegir entre la velocidad de 763 tokens/segundo de DiffusionGemma y la precisión fáctica del estándar Gemma 4, dependiendo de los requisitos de su aplicación.

SOURCES

6. Estudio de caso de Claude Fable 5 destaca los riesgos de los agentes sin sandbox

Una sesión de depuración documentada con Claude Fable 5 ha destacado tanto las capacidades avanzadas como los graves riesgos de seguridad de ejecutar agentes de codificación autónomos sin aislamiento. Mientras resolvía un problema de interfaz de usuario, el agente inició autónomamente un servidor web local en Python para capturar datos de diagnóstico, modificó plantillas de aplicaciones, inyectó JavaScript y utilizó la CLI `screencapture` de macOS para tomar capturas de pantalla de ventanas activas del navegador. La sesión, que costó $12.11 en tokens, sirve como un crudo recordatorio de que los agentes autónomos pueden ejecutar cualquier comando disponible para el usuario anfitrión si se dejan sin aislamiento.

  • Claude Fable 5 demostró una resolución de problemas autónoma altamente proactiva durante una sesión de depuración local.
  • El agente ejecutó autónomamente un servidor de desarrollo local, modificó plantillas e inyectó JavaScript para activar modales de interfaz de usuario.
  • Creó un servidor web Python personalizado para capturar datos de diagnóstico mediante CORS y utilizó la CLI screencapture de macOS para tomar capturas de pantalla.
  • Después de alcanzar un límite de seguridad, el agente se degradó a Claude Opus para verificar la corrección final de CSS.
  • El autor advirtió que ejecutar agentes de codificación autónomos fuera de un sandbox plantea graves riesgos de seguridad.

Los desarrolladores deben aislar los agentes de codificación autónomos para evitar que ejecuten comandos locales arbitrarios, tomen capturas de pantalla o inicien servidores locales no autorizados.

SOURCES

7. NanoClaw y JFrog lanzan integración de seguridad para agentes de IA

NanoClaw se ha asociado con JFrog para lanzar una integración de seguridad diseñada para proteger a los agentes autónomos de la inyección de código malicioso. La integración obliga a los agentes a extraer dependencias de software exclusivamente de registros de JFrog verificados. Si un agente intenta descargar una biblioteca comprometida en segundo plano, el registro bloquea la instalación con un error de política de seguridad 403 y guía al agente hacia una versión aprobada. Esto aborda el creciente riesgo de seguridad de que los agentes autónomos instalen paquetes no verificados sin supervisión humana.

  • La integración obliga a los agentes de NanoClaw a extraer dependencias de software exclusivamente de registros de JFrog verificados.
  • Si un agente intenta descargar una biblioteca comprometida, el registro bloquea la instalación con un error de política de seguridad 403.
  • El servicio es gratuito para la comunidad de código abierto, con enrutamiento comercial disponible para empresas.
  • NanoCo AI también ha establecido asociaciones con Vercel para permisos y Docker para aislamiento en contenedores.

Los desarrolladores pueden asegurar los agentes de codificación autónomos obligándolos a extraer dependencias exclusivamente de registros verificados, bloqueando inyecciones de paquetes maliciosos.

SOURCES

8. Lanzamiento de SkillSpector para escanear habilidades de agentes de IA en busca de vulnerabilidades

SkillSpector ha sido lanzado como un escáner de seguridad de código abierto bajo la Licencia Apache 2.0, abordando investigaciones que muestran que el 26.1% de las habilidades de los agentes de IA contienen vulnerabilidades y el 5.2% exhiben intenciones maliciosas. La herramienta analiza las habilidades de los agentes desde repositorios Git, URLs, archivos zip o directorios locales utilizando un proceso de dos etapas: análisis estático rápido seguido de una evaluación semántica opcional basada en LLM. Escanea 64 patrones de vulnerabilidad en 16 categorías, se integra con OSV.dev para búsquedas de CVE en tiempo real y genera informes de riesgo detallados en múltiples formatos, incluidos SARIF y JSON.

  • SkillSpector es un escáner de seguridad de código abierto lanzado bajo la Licencia Apache 2.0.
  • La herramienta escanea 64 patrones de vulnerabilidad en 16 categorías, incluyendo inyección de prompts y exfiltración de datos.
  • Utiliza un proceso de análisis de dos etapas que combina análisis estático rápido con evaluación semántica opcional basada en LLM.
  • El escáner se integra con OSV.dev para búsquedas de CVE en tiempo real e incluye una alternativa automática sin conexión.
  • Genera una puntuación de riesgo de 0-100 con etiquetas de gravedad en formatos de terminal, JSON, Markdown o SARIF.

Los desarrolladores que construyen o utilizan ecosistemas de agentes pueden auditar automáticamente las habilidades de agentes de terceros en busca de inyección de prompts, exfiltración de datos y escalada de privilegios.

SOURCES

9. Agente de seguridad autónomo descubre 21 vulnerabilidades de día cero en FFmpeg

El agente de seguridad autónomo de Depthfirst ha descubierto 21 vulnerabilidades de día cero en la biblioteca de software FFmpeg, con un costo de solo $1,000 en gasto de API, una décima parte de lo que Anthropic gastó usando su modelo Mythos para un análisis similar. Ocho de las vulnerabilidades han recibido identificadores CVE (CVE-2026-39210 a CVE-2026-39217), afectando componentes críticos como el demuxer TS, el decodificador VP9 y múltiples depaquetizadores RTP. Depthfirst también desarrolló una prueba de concepto de exploit de ejecución remota de código que apunta al depaquetizador MPEG-4 RTP durante la fase RTSP PLAY no autenticada, destacando la necesidad inmediata de que los desarrolladores que usan FFmpeg auditen y parcheen sus tuberías de medios.

  • El agente de seguridad autónomo de Depthfirst identificó 21 vulnerabilidades de día cero en la biblioteca de software FFmpeg.
  • El análisis costó aproximadamente $1,000, que es el 10% del costo que Anthropic gastó usando Mythos para un análisis similar.
  • Ocho vulnerabilidades han recibido identificadores CVE (CVE-2026-39210 a CVE-2026-39217).
  • Las vulnerabilidades afectan componentes que incluyen el demuxer TS, el decodificador VP9 y múltiples depaquetizadores RTP.
  • Depthfirst desarrolló una prueba de concepto de exploit de ejecución remota de código activado durante la fase RTSP PLAY que no requiere autenticación.

Los desarrolladores que utilizan FFmpeg para el procesamiento de audio/video deben parchear sus sistemas, ya que estas vulnerabilidades incluyen exploits de ejecución remota de código.

SOURCES

10. Architect-Loop reduce los costos de tokens de Claude Fable en un 80%

El proyecto de código abierto `architect-loop` ha introducido un patrón de orquestación multi-agente que reduce el consumo de tokens de Claude Fable en un 80%. El sistema designa a Claude Fable como un "arquitecto" para diseñar tareas, escribir puertas de aceptación y revisar código, mientras delega la construcción real y la ejecución de la investigación a GPT-5.5 Codex. Los constructores operan en árboles de trabajo git aislados restringidos a archivos declarados, y todo el bucle se ejecuta con suscripciones de tarifa plana existentes para Claude Code y la CLI de Codex, eliminando la necesidad de claves API adicionales o facturas de tokens.

  • El proyecto architect-loop utiliza a Claude Fable como arquitecto y a GPT-5.5 Codex como constructor para ejecutar tareas.
  • El sistema reduce el uso de tokens de Fable en un 80% al restringir a los constructores a árboles de trabajo git aislados.
  • Se ejecuta con suscripciones de tarifa plana existentes para Claude Code y la CLI de Codex, sin requerir claves API adicionales.
  • El bucle de construcción (/architect) hace que Fable especifique una parte, la divida en carriles y confirme las puertas de aceptación antes de que los constructores ejecuten.
  • El sistema utiliza el historial de git y archivos de documentación específicos como su memoria principal.

Los desarrolladores pueden reducir drásticamente sus facturas de API utilizando un modelo de nivel superior únicamente para la arquitectura y revisión, mientras delegan la ejecución a modelos más baratos.

SOURCES

11. Herramienta CLI de código abierto 'erm' elimina automáticamente las disfluencias de audio

Una nueva herramienta de línea de comandos de código abierto llamada `erm` ha sido lanzada en GitHub para automatizar la eliminación de disfluencias habladas como "um", "uh" y "er" de grabaciones de audio en inglés. Construida sobre la implementación faster-whisper del modelo Whisper de OpenAI, la herramienta ejecuta una tubería de detección de cuatro pasadas para localizar rellenos, incluidos aquellos ocultos en brechas silenciosas o fusionados con palabras adyacentes. Para evitar artefactos de audio, `erm` desliza los puntos de corte hacia lugares silenciosos, los ajusta a puntos de cruce por cero, aplica fundidos cruzados dinámicos a través de ffmpeg y repite una muestra del tono de sala original de la grabación para mantener un ruido de fondo consistente.

  • erm es una herramienta de línea de comandos que elimina automáticamente disfluencias como "um", "uh" y "er" del audio en inglés hablado.
  • La herramienta utiliza la implementación faster-whisper del modelo Whisper de OpenAI para la transcripción y la identificación de tokens.
  • Realiza cuatro pasadas distintas para detectar rellenos, incluido el análisis de brechas silenciosas y rellenos pegados a palabras adyacentes.
  • El empalme se maneja a través de ffmpeg con fundidos cruzados escalados dinámicamente y alineación de cruce por cero para evitar clics de audio.
  • La herramienta se puede instalar mediante pip o uvx y requiere ffmpeg y ffprobe en el sistema anfitrión.

Los desarrolladores que crean funciones de voz, habla o podcasting pueden integrar esta herramienta para limpiar programáticamente las grabaciones de audio y eliminar las palabras de relleno.

SOURCES

12. Modelo de decodificación especulativa EAGLE3 fusionado en llama.cpp

Tras seis meses de desarrollo, el modelo EAGLE3 ha sido fusionado en el repositorio principal de `llama.cpp`. EAGLE3 funciona como un modelo auxiliar diseñado para acelerar las velocidades de inferencia local. A diferencia de las arquitecturas de Predicción de Múltiples Tokens (MTP) que operan de forma independiente, EAGLE3 utiliza la guía activa del modelo principal para realizar la decodificación especulativa, ofreciendo una ruta altamente integrada para la optimización del rendimiento local.

  • El modelo EAGLE3 ha sido fusionado en el repositorio principal de llama.cpp después de seis meses de desarrollo.
  • EAGLE3 actúa como un modelo auxiliar que recibe guía del modelo principal durante la inferencia.
  • A diferencia de la Predicción de Múltiples Tokens (MTP), EAGLE3 utiliza la guía activa del modelo principal en lugar de operar de forma independiente.

Los desarrolladores que ejecutan LLMs locales pueden aprovechar EAGLE3 dentro de llama.cpp para acelerar significativamente las velocidades de inferencia local.

SOURCES

13. PixelRAG reemplaza el análisis de texto con indexación basada en capturas de pantalla

Investigadores de UC Berkeley, Princeton, EPFL y Databricks han introducido PixelRAG, una novedosa tubería RAG que reemplaza el análisis de texto tradicional con indexación basada en capturas de pantalla y lectura mediante modelos de visión-lenguaje. Al renderizar páginas web como capturas de pantalla, PixelRAG preserva los diseños visuales, tablas y tipografía que normalmente se pierden durante la conversión de HTML a texto. Construido utilizando Playwright, Qwen3-VL-Embedding-2B y FAISS, el sistema logra hasta un 18.1% más de precisión en seis benchmarks y ofrece una reducción de 10x en los costos de tokens de agentes en comparación con las alternativas basadas en texto.

  • PixelRAG renderiza páginas web como capturas de pantalla para preservar el diseño, la tipografía y las tablas.
  • El sistema superó al RAG basado en texto en seis benchmarks, logrando hasta un 18.1% más de precisión.
  • Utiliza Playwright para renderizado, Qwen3-VL-Embedding-2B para codificación vectorial y un índice FAISS para la recuperación.
  • PixelRAG proporciona una reducción de 10x en el uso de tokens de agentes en comparación con los sistemas de recuperación basados en texto.
  • Entrenar el modelo de recuperación usando LoRA toma menos de tres horas en una sola GPU H100.

Los desarrolladores pueden evitar el frágil análisis de HTML a texto en las tuberías RAG, reduciendo los costos de tokens de agentes en 10x mientras mejoran la precisión de la recuperación.

SOURCES

14. Los Smart PDFs integran Markdown estructurado para extracción automática

Una nueva técnica de "Smart PDF" aprovecha una propiedad de especificación PDF estándar que data de PDF 1.4 para integrar markdown estructurado directamente en los documentos. Mientras que los renderizadores PDF estándar ignoran estos metadatos y muestran el diseño visual a los humanos, los extractores de texto como PyMuPDF y Poppler leen la propiedad de texto de reemplazo en lugar de las coordenadas de glifos visuales. Esto permite que LLMs como ChatGPT y Claude extraigan instantáneamente markdown limpio con alta densidad de información, evitando tuberías de análisis frágiles con solo un aumento de un solo dígito en el porcentaje del tamaño del archivo.

  • La técnica utiliza una propiedad de especificación PDF estándar (disponible desde la versión 1.4) para definir texto de reemplazo para contenido marcado.
  • Los renderizadores PDF muestran el diseño visual a los humanos, mientras que los extractores de texto devuelven el markdown integrado.
  • Los principales extractores de código abierto como PyMuPDF y Poppler respetan la propiedad de texto de reemplazo.
  • ChatGPT y Claude extraen y devuelven con éxito el markdown integrado al procesar estos archivos.
  • La sobrecarga de tamaño para crear estos "smart PDFs" está en el rango de un solo dígito porcentual.

Los desarrolladores pueden eliminar complejas tuberías de análisis de PDF generando documentos que expongan de forma nativa markdown limpio a LLMs y extractores.

SOURCES

15. Investigadores de Google introducen la 'incertidumbre fiel' para alinear la confianza de los LLM

Investigadores de Google han introducido la "incertidumbre fiel", una técnica metacognitiva diseñada para alinear la expresión lingüística de duda de un LLM con su confianza estadística interna. Este enfoque aborda el "impuesto de utilidad" de los estándares estrictos de cero alucinaciones, que a menudo obligan a los modelos a descartar hasta el 52% de las respuestas correctas solo para reducir las tasas de error. Al permitir que los modelos expresen hipótesis dudosas en lugar de recurrir a una elección binaria de responder o abstenerse, la incertidumbre fiel actúa como una capa de control dinámica para aplicaciones de agentes, ayudando a los sistemas a decidir exactamente cuándo activar herramientas externas o APIs de búsqueda basadas en la confianza interna.

  • La incertidumbre fiel alinea la expresión lingüística de duda de un LLM con su confianza estadística interna.
  • La técnica permite a los modelos proporcionar hipótesis dudosas en lugar de recurrir a un binario inútil de responder o abstenerse.
  • Los datos muestran que reducir una tasa de error del 25% a un objetivo del 5% mediante la imposición de estándares estrictos de cero alucinaciones descarta el 52% de las respuestas correctas.
  • En aplicaciones de agentes, actúa como una capa de control para determinar cuándo activar herramientas externas o APIs de búsqueda.
  • La implementación de la técnica mediante ajuste fino supervisado enfrenta una paradoja de arranque porque la verdad fundamental para la incertidumbre es dinámica.

Los desarrolladores pueden construir agentes más confiables que decidan dinámicamente cuándo activar herramientas externas o APIs de búsqueda basadas en su confianza interna, reduciendo las alucinaciones silenciosas.

SOURCES

16. Escalado de andamiaje de cómputo en tiempo de prueba para modelos Qwen y Gemma

Se ha lanzado un nuevo andamiaje de código abierto para escalar el cómputo en tiempo de prueba para Qwen-3.6-27B y Gemma-4-31B, permitiéndoles superar a Claude Mythos en tareas de optimización de código. El sistema utiliza de 25 a 40 veces más cómputo que los modelos base al emplear una amplitud de exploración de ramas de 5, una profundidad de bucle de correcciones iterativas de 10 y 6 hipótesis selectivas conscientes de las ramas revisadas cada 2 iteraciones. Para evitar que los modelos se atasquen en mínimos locales, el andamiaje inyecta ruido estructurado en el bucle de correcciones y proporciona a los agentes un entorno local de Python para verificar programáticamente su trabajo.

  • El andamiaje utiliza de 25 a 40 veces más cómputo que los modelos base para resolver problemas complejos de optimización.
  • Cuenta con una amplitud de exploración de ramas de 5, una profundidad de bucle de correcciones iterativas de 10 y 6 hipótesis conscientes de las ramas.
  • Un grupo de soluciones añade ruido estructurado al bucle de correcciones iterativas para evitar que los modelos se atasquen en mínimos locales.
  • Los agentes tienen acceso a un entorno de Python para verificar programáticamente sus mejoras de código.
  • El proyecto está alojado en GitHub en github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements.

Los desarrolladores pueden utilizar este andamiaje de refinamiento iterativo para aumentar significativamente el rendimiento de codificación de los modelos de pesos abiertos.

SOURCES

17. Artificial Analysis actualiza el índice de agentes de codificación con el benchmark DeepSWE

Artificial Analysis ha actualizado su Índice de Agentes de Codificación, intercambiando el benchmark SWE-Bench Pro por el benchmark DeepSWE de Datacurve. DeepSWE aborda las preocupaciones de que los benchmarks anteriores eran manipulables a través del historial de confirmaciones del repositorio al generar tareas de evaluación completamente desde cero. Bajo la nueva y más rigurosa evaluación, Claude Code con Fable 5 (max) ocupó el primer lugar con una puntuación de 77, seguido de cerca por Codex con GPT-5.5 (xhigh) con 76, y Claude Code con Opus 4.8 (max) con 73.

  • Artificial Analysis reemplazó SWE-Bench Pro con el benchmark DeepSWE de Datacurve en su Índice de Agentes de Codificación.
  • DeepSWE genera tareas desde cero para evitar que los modelos accedan a soluciones en sus datos de entrenamiento.
  • Claude Code con Fable 5 (max) debutó en la cima del índice actualizado con una puntuación de 77.
  • Codex con GPT-5.5 (xhigh) subió a 76, mientras que Claude Code con Opus 4.8 (max) obtuvo 73.
  • DeepSWE es altamente difícil, con los principales modelos de pesos abiertos obteniendo puntuaciones inferiores a 20.

Los desarrolladores pueden evaluar mejor a los agentes de codificación utilizando un benchmark que genera tareas desde cero para evitar que los modelos manipulen las evaluaciones a través del historial de confirmaciones.

SOURCES

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.

La señal diaria de IA en tu correo

5 minutos al día. Gratis, cancela cuando quieras.