Sakana AI presenta la arquitectura tandem speech-to-speech KAME

1. Sakana AI presenta la arquitectura tandem speech-to-speech KAME

Sakana AI ha introducido KAME, una arquitectura tandem speech-to-speech (S2S) que inyecta conocimiento de LLM en tiempo real en la IA conversacional. El sistema combina un modelo S2S de baja latencia para una respuesta inmediata con un LLM asíncrono en el backend que proporciona señales de conocimiento refinadas. Este diseño permite que el agente hable mientras piensa, cerrando la brecha entre los modelos S2S rápidos y los sistemas en cascada de conocimiento profundo sin penalizaciones de latencia.

2. Lanzan DeepClaude, un proxy para Claude Code

Un desarrollador ha lanzado DeepClaude, un proxy de código abierto que integra DeepSeek V4 Pro con la CLI Claude Code de Anthropic. La herramienta intercambia el modelo subyacente manteniendo la UX de la terminal, la edición de archivos, la ejecución de bash y los bucles de codificación autónomos de varios pasos. Al enrutar las llamadas a la API del modelo hacia DeepSeek u OpenRouter mientras se mantiene el puente WebSocket de Anthropic, los desarrolladores pueden ejecutar el bucle del agente a un coste por millón de tokens significativamente menor.

3. Flue lanza un framework de TypeScript para agentes de IA autónomos

Flue ha publicado un nuevo framework de TypeScript diseñado para crear agentes de IA autónomos y programables. El framework utiliza una arquitectura de sandbox que combina un arnés de agente con un espacio de trabajo de contenedor seguro y aislado. Esto permite a los agentes editar archivos, ejecutar código, generar subagentes y ejecutar comandos de terminal de forma segura. Los desarrolladores pueden desplegar el framework mediante CLI o HTTP para crear flujos de trabajo personalizados sin depender de sistemas alojados genéricos.

4. Nexu lanza Open Design, un flujo de trabajo de diseño de código abierto

Nexu ha lanzado Open Design, una alternativa de código abierto y local-first a Claude Design de Anthropic. La herramienta conecta agentes de codificación locales existentes, como Claude Code, Codex o Cursor Agent, en un flujo de trabajo de diseño basado en habilidades. Utiliza un demonio para crear una carpeta de proyecto real en disco con plantillas base y librerías de diseño, aplicando comprobaciones previas y autocrítica antes de renderizar artefactos en un iframe aislado. La capa web puede desplegarse en Vercel, permitiendo a los desarrolladores usar sus propias claves en cada nivel.

5. Lanzan Agent-desktop, una CLI para la automatización de escritorio

Un desarrollador ha lanzado Agent-desktop, una CLI nativa de automatización de escritorio para agentes de IA. En lugar de depender del frágil raspado de capturas de pantalla que consume muchos tokens, la herramienta utiliza APIs de accesibilidad estructuradas del SO como macOS Accessibility, Windows UI Automation y Linux AT-SPI. Esto proporciona a los agentes información estructurada de la interfaz de usuario, de forma similar a cómo opera Playwright en la web. Este enfoque permite una automatización de escritorio más fiable y eficiente para agentes de uso de computadora.

6. Portan el modelo 3D SHARP de Apple al navegador

Un desarrollador ha lanzado una implementación basada en navegador del modelo SHARP de Apple para 3D Gaussian splatting a partir de una sola imagen. El proyecto exporta el predictor a ONNX y lo ejecuta completamente en el lado del cliente usando onnxruntime-web con el proveedor de ejecución WebGPU. Los usuarios pueden cargar una imagen y generar un archivo .ply descargable localmente sin enviar datos a un servidor. La implementación requiere una carga de caché inicial considerable, pero completa la inferencia en segundos en hardware reciente.