1. Construye pipelines completos de observabilidad de LLM con Langfuse
Langfuse proporciona una plataforma de ingeniería de LLM de código abierto diseñada para manejar el seguimiento, la gestión de prompts y la evaluación automatizada. Este pipeline integral admite experimentos basados en conjuntos de datos con evaluadores personalizados a nivel de elemento y agregados, lo que ayuda a los desarrolladores a iterar en sus aplicaciones con confianza. Al utilizar el controlador de devolución de llamada de LangChain o el seguimiento nativo basado en decoradores, los desarrolladores pueden rastrear los metadatos de la sesión y las métricas de puntuación sin problemas en producción.
- • Admite tanto el seguimiento basado en decoradores como la instrumentación manual para pipelines RAG.
- • Permite la gestión centralizada de prompts y puntuaciones de evaluación numéricas, categóricas y booleanas.
- • Incluye un controlador de devolución de llamada dedicado para una fácil integración con LangChain.
- • Admite la propagación de metadatos como IDs de usuario, IDs de sesión y etiquetas a través de los seguimientos de LLM.
- • Compatible tanto con claves API reales de OpenAI como con LLMs simulados deterministas.
Permite a los desarrolladores implementar fácilmente una telemetría robusta, ejecutar experimentos basados en conjuntos de datos y gestionar centralmente los prompts utilizando APIs en vivo o LLMs simulados.
2. Microsoft lanza Webwright, un framework de agentes web nativo para terminal
Microsoft Research ha publicado el código abierto de Webwright, un framework altamente eficiente y nativo de terminal para agentes web. En lugar de predecir acciones de interfaz de usuario paso a paso, los agentes creados con Webwright escriben y ejecutan código Playwright y comandos bash en un entorno de terminal. El framework cuenta con compactación dinámica del historial para manejar secuencias largas y aplica un ciclo de validación obligatorio para garantizar la finalización de la tarea antes de salir.
- • Logró un 86.7% en Online-Mind2Web y un 60.1% en Odysseys con GPT-5.4.
- • Consta de tres componentes principales: Runner, Model Endpoint y entorno de terminal en menos de 1,000 líneas.
- • Compacta el historial de prompts cada 20 pasos para mitigar las limitaciones de longitud de contexto.
- • Evita la finalización prematura al requerir procesos de autorreflexión y validación.
- • Permite que modelos más pequeños como Qwen3.5-9B alcancen una precisión del 66.2% al usar scripts preconstruidos.
- • Los scripts son reutilizables y compatibles con herramientas como Claude Code, Codex y OpenClaw.
Mejora la fiabilidad de los agentes web y evita los límites de contexto al reemplazar la predicción básica de pasos con la ejecución completa de código Playwright y la compactación automatizada del historial.
3. StepFun lanza StepAudio 2.5 Realtime, un modelo de voz de extremo a extremo
StepFun, con sede en Shanghái, ha lanzado StepAudio 2.5 Realtime, un modelo de voz que omite de forma nativa los pasos separados de STT y TTS al procesar audio a audio sin procesar. Entrenado mediante aumento algorítmico en más de 10,000 personas semilla, el modelo exhibe una consistencia de personalidad robusta y puede analizar matices acústicos para leer el estado de ánimo y la intención del usuario. Los desarrolladores pueden conectar fácilmente sus aplicaciones a estas capacidades de voz de baja latencia utilizando flujos WebSocket estándar.
- • Accesible a través de WebSocket en wss://api.stepfun.com/v1/realtime con el identificador de modelo step-2.5-realtime.
- • Funciona como un sistema unificado que procesa la entrada de audio directa a la salida de audio directa.
- • Admite los idiomas inglés y chino.
- • Entrenado mediante RLHF específico para juegos de rol para mantener la consistencia de la personalidad en los diálogos.
- • Capaz de percepción paralingüística, interpretando el tono, la velocidad y la risa.
- • Logró una puntuación de evaluación humana subjetiva de 80.41 en los benchmarks de abril de 2026.
Permite interfaces de transmisión de audio a audio nativas y de baja latencia con percepción paralingüística avanzada para aplicaciones de IA basadas en voz.
4. hipEngine ofrece inferencia nativa ROCm rápida en AMD RDNA3
hipEngine es un nuevo motor de inferencia local de código abierto y nativo de ROCm diseñado específicamente para el hardware RDNA3 de AMD. Al omitir las pesadas dependencias de PyTorch y utilizar bibliotecas nativas como hipGraph y AOTriton, hipEngine logra una ejecución de alta eficiencia. Su optimización nativa INT8 KVCache desbloquea capacidades de contexto ultralargo, lo que lo convierte en una alternativa viable a llama.cpp para pipelines de desarrollo local.
- • Construido de forma nativa utilizando Python y HIP/C++ con las bibliotecas de AMD hipBLASLt, hipGraph y AOTriton.
- • Admite formatos de modelo ParoQuant y GGUF, incluidas las variantes Q4_K_M y Q4_K_S.
- • Incluye INT8 KVCache casi sin pérdidas, lo que permite que Qwen 3.6 se ejecute con un contexto de 256K en menos de 24 GB de memoria.
- • Tiene un rendimiento competitivo con llama.cpp en benchmarks de hardware gfx1100.
- • Incluye documentación KERNELS.md, ROOFLINE.md y LESSONS-LEARNED.md.
- • Las optimizaciones del kernel se generaron utilizando herramientas de desarrollo asistidas por IA.
Permite a los desarrolladores que utilizan hardware de consumo de AMD, como Strix Halo o 7900 XTX, ejecutar modelos de contexto masivo localmente sin pesadas dependencias de PyTorch.
5. Lanzados formatos cuantizados locales de Uncensored Genesis Qwen 3.6 35B
La variante sin censura recién lanzada de Qwen 3.6 35B ofrece estabilidad de alto contexto para implementaciones locales. Las pruebas muestran que, bajo configuraciones óptimas, el modelo mantiene un comportamiento confiable en sesiones masivas de 200k tokens. Para evitar la degradación del rendimiento, los desarrolladores deben inicializar el modelo con su prompt de sistema específico de Alibaba Cloud y cumplir con los parámetros de muestreo recomendados.
- • Disponible en GGUF, FP8 Safetensors y FP8 MTP-Safetensors.
- • Probado con éxito en hardware Strix Halo utilizando cuantización Q8_K_P MTP sin bucles ni fallos hasta un contexto de 200k.
- • Mantiene la estabilidad de cambio de tarea más allá de los 120k tokens en ejecuciones de benchmark.
- • Admite conversiones APEX, cuantización APEX Compact, MTP y MLX.
- • Requiere un prompt de sistema específico que comience con 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' para funcionar de manera óptima.
- • Las configuraciones recomendadas incluyen 0.7 de temperatura, 20 Top K, 1.5 de penalización de presencia y 1.0 de penalización de repetición.
Proporciona a los desarrolladores un modelo sin censura altamente estable capaz de realizar tareas de contexto largo sin repetir bucles cuando se configura correctamente.
6. IBM lanza granite-docling-2stage-258m para un análisis de documentos robusto
IBM ha actualizado su línea de OCR y análisis de documentos de código abierto con granite-docling-2stage-258m. El modelo mejora la detección de diseño al precomputar dinámicamente las estructuras de página dentro de su prompt, lo que lo hace más resistente al analizar diseños de PDF atípicos y geometrías de documentos complejas.
- • Una actualización evolutiva de la arquitectura de análisis Granite Docling existente.
- • Introduce un prompt dinámico que precomputa objetos de diseño en una página determinada.
- • Diseñado específicamente para manejar diseños de documentos fuera de distribución de manera robusta.
Mejora el OCR y la comprensión estructural de documentos cuando se trabaja con diseños fuera de distribución.