Veo 3.1 Lite: Generación de video de menor costo a través de la API de Gemini

1. Veo 3.1 Lite: Generación de video de menor costo a través de la API de Gemini

Google presentó Veo 3.1 Lite, un nuevo nivel de modelo de video generativo disponible a través de la API de Gemini. El modelo ofrece la misma velocidad de generación que Veo 3.1 Fast, pero opera a menos de la mitad del costo. Esta estructura de precios está diseñada para soportar aplicaciones de generación de video a gran escala donde el costo por segundo ha sido anteriormente un cuello de botella.

2. TRL v1.0: Hugging Face estabiliza la API de post-entrenamiento

Hugging Face ha lanzado oficialmente TRL (Transformer Reinforcement Learning) v1.0, convirtiendo la biblioteca en un marco estable y listo para producción. El lanzamiento proporciona una API unificada y estandarizada para flujos de trabajo de post-entrenamiento de modelos de lenguaje grandes. Admite más de 75 métodos de post-entrenamiento, incluidos el ajuste fino supervisado (SFT), el modelado de recompensas, la optimización de preferencia directa (DPO) y la optimización de política relativa de grupo (GRPO).

3. GLM-5V-Turbo: Zhipu AI lanza un modelo de codificación de visión multimodal

Zhipu AI lanzó GLM-5V-Turbo, un modelo multimodal nativo de visión-lenguaje optimizado para generar código a partir de entradas visuales como maquetas de diseño y capturas de pantalla. El modelo procesa imágenes, video y texto para respaldar flujos de trabajo de ingeniería agéntica. Incluye soporte nativo para llamadas a herramientas, descomposición de tareas, interacción con GUI e integración con el marco OpenClaw.

4. Storage Buckets para Spaces: Volúmenes persistentes en Hugging Face

Hugging Face introdujo Storage Buckets para Spaces, permitiendo a los usuarios montar volúmenes de almacenamiento persistente directamente en sus entornos desplegados. Los desarrolladores pueden crear o seleccionar buckets, configurar rutas de montaje y establecer modos de acceso dentro de la configuración de Space. Esta función facilita el almacenamiento en caché de pesos de modelos, el almacenamiento de cargas de usuarios y el intercambio de archivos entre múltiples Spaces dentro de la misma organización.

5. Gemini API Docs MCP y Developer Skills: Herramientas para agentes de codificación

Google introdujo el Protocolo de Contexto de Modelo (MCP) de la documentación de la API de Gemini y las habilidades de desarrollador de la API de Gemini. Estas herramientas brindan a los agentes de codificación acceso directo a la documentación más actualizada y a las mejores prácticas de la API de Gemini. Al mitigar los problemas causados por datos de entrenamiento obsoletos, las herramientas combinadas permiten a los agentes alcanzar una tasa de éxito del 96.3% en el conjunto de evaluación de Google.

6. LFM2.5-350M: Liquid AI lanza un modelo compacto para el borde (edge)

Liquid AI lanzó LFM2.5-350M, un modelo de 350 millones de parámetros construido sobre la arquitectura LFM2. El modelo fue entrenado con 28 billones de tokens y utiliza aprendizaje por refuerzo a gran escala para mejorar el rendimiento. Está específicamente optimizado para el despliegue en el borde, centrándose en tareas como la extracción de datos y el uso de herramientas.

7. Razonamiento semi-formal: Meta publica una técnica de prompting estructurado para revisión de código

Investigadores de Meta introdujeron el "razonamiento semi-formal", una técnica de prompting estructurado diseñada para mejorar el rendimiento de los modelos de lenguaje grandes en tareas de revisión de código a escala de repositorio. El método requiere que el agente de IA establezca explícitamente las premisas, rastree rutas de ejecución concretas y derive conclusiones formales en un certificado lógico antes de responder. Este enfoque evita la necesidad de entornos de ejecución dinámica computacionalmente pesados, al tiempo que reduce las suposiciones no respaldadas y las alucinaciones.