GitHub Copilot cambia a un modelo de facturación basado en tokens

1. GitHub Copilot cambia a un modelo de facturación basado en tokens

La transición de una suscripción de tarifa plana a un modelo de consumo basado en tokens ha generado preocupación entre los desarrolladores. Los usuarios señalan que el modelo podría penalizar drásticamente las sesiones de codificación exploratorias o intensivas impulsadas por chatbots, aumentando los gastos mensuales de suscripción. Algunos desarrolladores sugieren que se requerirán flujos de trabajo de codificación más disciplinados para gestionar los costos bajo el nuevo sistema.

• Microsoft cambiará la facturación de Copilot a un modelo de uso de tokens el 1 de junio.
• Los primeros informes de los usuarios indican que los gastos mensuales podrían aumentar de 29 a 750 dólares o de 50 a 3.000 dólares.
• Los críticos atribuyen los altos costos potenciales a hábitos ineficientes de 'vibe-coding'.
• Microsoft no hizo comentarios sobre estos cambios a TechCrunch antes de la publicación.

Este cambio de precios afecta directamente las facturas de software de los desarrolladores, y algunos usuarios anticipan aumentos significativos de costos dependiendo de sus prácticas de codificación.

SOURCES

[1]

2. La herramienta Backpressure automatiza la autovalidación para agentes de codificación de IA

La implementación de mecanismos de contrapresión (backpressure) aborda un punto de fricción común en el desarrollo de agentes: la necesidad de que los humanos revisen y detecten manualmente los errores de codificación de una IA. Al permitir que los agentes ejecuten iterativamente pruebas automatizadas, comprobaciones de tipos y linters localmente, este marco garantiza que los resultados del agente cumplan con los estándares de calidad definidos antes de ser finalizados.

• La herramienta está disponible en npm y se puede ejecutar mediante 'npx @lucasfcosta/backpressured' dentro de Claude.
• Las comprobaciones admitidas incluyen linting, pruebas automatizadas, comprobación de tipos, evaluación comparativa y monitoreo de solicitudes de extracción (pull requests).
• Los desarrolladores pueden definir iteraciones personalizadas y criterios de calidad utilizando un archivo BACKPRESSURE.md.
• La biblioteca tiene como objetivo reducir la dependencia de las revisiones humanas manuales para detectar errores de los agentes.

Esta herramienta permite a los desarrolladores establecer comprobaciones de calidad automatizadas directamente dentro de los flujos de trabajo de los agentes, reduciendo la carga de inspección manual.

SOURCES

[1]

3. NVIDIA Parakeet portado a C++ puro y ggml para STT sin Python

Al eliminar el pesado tiempo de ejecución de Python, esta implementación en C++ puro de Parakeet ofrece una opción de transcripción local altamente optimizada. La integración de formatos de cuantización GGUF como q8_0 y q4_k, combinada con la compatibilidad con la API compatible con OpenAI de LocalAI, hace que sea sencillo integrarlo en las pilas de aplicaciones de IA existentes.

• El puerto admite modelos FastConformer TDT, CTC, RNNT e híbridos en formatos GGUF cuantizados.
• El rendimiento es hasta 5 veces más rápido en GPU y 1,86 veces más rápido en CPU en comparación con el marco NeMo basado en PyTorch.
• La implementación logra una salida a nivel de palabra idéntica (tasa de error de palabra de 0) a las rutas f32/f16 de NeMo.
• El código tiene licencia MIT y está integrado como backend en LocalAI.
• Las características incluyen una API C plana, transmisión consciente de caché y marcas de tiempo a nivel de palabra.

Esto permite a los desarrolladores integrar una transcripción de voz local altamente precisa en sus aplicaciones con menor latencia y sobrecarga de memoria que los tiempos de ejecución estándar basados en PyTorch.

SOURCES

[1]

4. El kit de herramientas de gobernanza de agentes de Microsoft controla las ejecuciones de agentes autónomos

A medida que los agentes autónomos obtienen un acceso más amplio a las herramientas, asegurar sus entornos de ejecución es fundamental. Este kit de herramientas proporciona herramientas concretas para visualizar las relaciones entre las reglas, las herramientas y las acciones de los agentes. Los desarrolladores pueden simular agentes con diferentes perfiles de confianza para verificar que las restricciones de política se comporten según lo previsto.

• La implementación se basa en políticas basadas en YAML para evaluar las acciones de los agentes.
• Las decisiones se basan en la identidad del agente, las puntuaciones de confianza, los niveles de riesgo y la sensibilidad de la acción.
• Los resultados admitidos incluyen permitir, denegar, aislar (sandboxing) o requerir aprobación humana.
• Los registros de auditoría utilizan hashes encadenados para evitar la manipulación de las decisiones históricas de gobernanza.
• Existe un interruptor de apagado global disponible para detener toda la actividad del agente al instante.

Este marco proporciona a los desarrolladores los patrones de seguridad necesarios para imponer límites y aprobaciones humanas en capacidades de agentes riesgosas, como la ejecución de shell y consultas a bases de datos.

SOURCES

[1]

5. El marco SkillNet simplifica el descubrimiento y la composición de habilidades de IA

SkillNet proporciona tanto un SDK como una alternativa REST para obtener habilidades, con un sistema integrado que funciona sin conexión utilizando evaluaciones simuladas si no hay claves API. Al utilizar NetworkX y Matplotlib para modelar las relaciones de habilidades como grafos dirigidos, los desarrolladores pueden depurar visualmente cómo sus agentes transicionan entre diferentes capacidades durante la ejecución de tareas.

• El proyecto es de código abierto y está alojado en GitHub en zjunlp/SkillNet.
• Admite búsquedas basadas en palabras clave y vectores semánticos para localizar habilidades relevantes.
• Las habilidades se descargan de GitHub y se inspeccionan a través de archivos de metadatos locales SKILL.md.
• Una puerta de calidad evalúa las habilidades en cuanto a seguridad, integridad, ejecutabilidad, mantenibilidad y costo.
• Incluye un planificador para desglosar los objetivos en subtareas asignadas a tuberías de habilidades específicas.

Este marco permite a los desarrolladores modularizar las capacidades de los agentes y ensamblar dinámicamente tuberías de ejecución de herramientas para cumplir con objetivos complejos de los usuarios.

SOURCES

[1]

6. Las vulnerabilidades de los agentes autónomos impulsan la necesidad de parches basados en eventos

El rápido colapso del cronograma entre la divulgación de una vulnerabilidad y su explotación activa por parte de agentes de IA destaca un riesgo grave para los backends de aplicaciones empresariales. La implementación de un filtro de vulnerabilidades de múltiples capas basado en datos de CISA KEV y EPSS puede ayudar a los desarrolladores a centrar los esfuerzos de parcheo donde más importan. Además, verificar los límites de autorización de Docker es crucial dado que algunos complementos pueden ser omitidos por grandes cargas útiles de solicitud.

• Claude Mythos Preview de Anthropic obtuvo un 83,1% en el punto de referencia de reproducción de vulnerabilidades CyberGym.
• Las CVE recientes han sido explotadas en tan solo 9 horas después de su divulgación.
• Una encuesta informa que el 53% de las organizaciones han observado agentes de IA que exceden sus permisos previstos.
• El IETF está trabajando activamente en la redacción de protocolos de identidad de agentes que utilizan SPIFFE y OAuth 2.0.
• Las defensas recomendadas incluyen la aplicación de parches basada en eventos y la prueba de los límites de autorización a escala.

Los desarrolladores que crean integraciones de agentes de IA deben asegurar sus arquitecturas contra la exploración de día cero mediante la implementación de un alcance de credenciales más estricto y protocolos de autorización estandarizados.

SOURCES

[1]

7. HiDream-O1-Image-Dev-2604 lidera la arena de imágenes de pesos abiertos

La suite HiDream-O1-Image proporciona un camino accesible para que los desarrolladores creen funciones de edición y generación de múltiples imágenes. Al clasificarse altamente tanto en la generación estándar como en las categorías de edición de imágenes basadas en instrucciones, estos modelos de pesos abiertos representan una alternativa a las API de diseño totalmente propietarias. Los desarrolladores pueden realizar la transición entre implementaciones autohospedadas y puntos finales de API de Fal gestionados según sea necesario.

• HiDream-O1-Image-Dev-2604 es un ajuste fino del modelo Dev que presenta una tubería de prompts mejorada.
• La familia de modelos se lanza bajo una licencia MIT, con pesos en Hugging Face y código en GitHub.
• Los modelos admiten prompts de texto y hasta 10 entradas de imagen para la edición de imágenes basada en instrucciones.
• Fal proporciona acceso a la API a los modelos a un precio de 10 y 5 dólares por cada 1.000 imágenes.
• Los modelos logran una calidad competitiva con Seedream 4.0 y FLUX.2 [max].

El lanzamiento ofrece a los desarrolladores un modelo de pesos abiertos altamente competitivo para la conversión de texto a imagen y la edición de imágenes basada en instrucciones que puede ser autohospedado o accedido a través de API de bajo costo.

SOURCES

[1]

8. Los puntos de referencia evalúan 13 variantes del modelo Gemma 4 E2B abliterado

La abliteración de la alineación de seguridad a veces puede introducir una degradación severa en la capacidad del modelo, como se observa con variantes que generan respuestas vacías o sufren una alta perplejidad. Para tareas equilibradas del mundo real, se recomienda coder3101 para uso general, trevorjs se destaca por la eliminación de alta seguridad y llmfan46 se destaca por una pérdida mínima de capacidad. Los desarrolladores también deben verificar que sus herramientas de exportación admitan correctamente las capas 15 a 34 de Gemma 4 para evitar la pérdida de pesos.

• La evaluación probó 13 variantes en 400 prompts de HarmBench y 8 tareas de referencia durante 44 horas de GPU.
• Todos los modelos probados aumentaron la tasa de éxito de ataque (ASR) de HarmBench del 32,2% a entre el 82% y el 100%.
• La variante coder3101 logró un ASR del 96% mientras superaba al modelo base en los puntos de referencia matemáticos GSM8K.
• Los fallos en la herramienta de exportación dejaron a cinco modelos sin 60 claves de safetensor debido a las proyecciones KV compartidas de Gemma 4.
• El estudio advierte sobre las discrepancias entre las métricas reportadas por los creadores y las medidas independientes de divergencia KL.

Esta evaluación detallada ayuda a los desarrolladores a seleccionar el modelo abliterado apropiado para operaciones locales sin censura sin sufrir una pérdida severa de capacidad de codificación o matemática.

SOURCES

[1]

9. Qwen3.6-35B y Gemma4-26B evaluados en AMD Radeon 7900 XTX

La evaluación destaca cómo los pasos de razonamiento interno del modelo pueden afectar las velocidades de ejecución en el mundo real. Aunque la velocidad de decodificación bruta de Qwen3.6 es superior sobre el papel, los tokens adicionales que genera para el razonamiento anulan sus ventajas de rendimiento sobre Gemma4. Los desarrolladores que necesiten esquemas JSON estrictos pueden preferir Qwen, mientras que aquellos que prioricen la velocidad de generación bruta y la precisión de la revisión de código en ROCm pueden optar por Gemma4.

• La evaluación se ejecutó en una GPU Radeon 7900 XTX utilizando ROCm 7.2.3 y llama.cpp.
• Gemma4-26B terminó seis cargas de trabajo del mundo real en 95,6 segundos, aproximadamente un 20% más rápido que los 118,8 segundos de Qwen3.6-35B.
• Qwen3.6 generó el doble de tokens totales que Gemma4, dedicando una gran parte al razonamiento interno.
• La predicción de múltiples tokens de Qwen alcanzó los 130 tokens por segundo, pero su tiempo total fue más lento debido a la alta salida de tokens.
• Gemma4 detectó con éxito un error de codificación que Qwen pasó por alto, mientras que Qwen se adhirió mejor a los formatos JSON estrictos.

Esta comparación proporciona datos concretos sobre el rendimiento del modelo bajo ROCm, ayudando a los desarrolladores a seleccionar el modelo de pesos abiertos adecuado para tareas de datos estructurados frente a la velocidad pura.

SOURCES

[1]

10. ChatGPT para Google Sheets vulnerable a la inyección indirecta de prompts

El descubrimiento de esta falla de seguridad destaca el riesgo persistente de inyecciones indirectas de prompts dentro de las extensiones de procesamiento de documentos. Debido a que el exploit puede ejecutar modificaciones arbitrarias y omitir la configuración de revisión humana, los desarrolladores que utilizan esta herramienta dentro de flujos de trabajo confidenciales deberían considerar deshabilitar o restringir su acceso hasta que se implemente una solución oficial.

• La extensión tiene más de 185.000 descargas desde su lanzamiento hace menos de un mes.
• Las inyecciones indirectas de prompts pueden exfiltrar múltiples libros de trabajo y mostrar ventanas emergentes de phishing falsas.
• El ataque omite la configuración de aprobación del usuario 'Aplicar ediciones automáticamente'.
• La vulnerabilidad fue reportada a OpenAI el 8 de mayo de 2026 y divulgada públicamente el 27 de mayo de 2026.

Los desarrolladores y usuarios de esta extensión deben revisar sus permisos, ya que la falla omite las configuraciones de aprobación del usuario para ejecutar ediciones no autorizadas.

SOURCES

[1]

11. Odysseus lanza un espacio de trabajo de IA local y autohospedado

Construido como una aplicación web progresiva (PWA) receptiva, Odysseus está dirigido a desarrolladores que buscan implementar un espacio de trabajo local y completamente fuera de línea en sistemas Python 3.11+. La herramienta cuenta con un sistema de recomendación consciente del hardware para ayudar a los usuarios a seleccionar el mejor modelo para su configuración local, junto con herramientas integradas de clasificación e investigación profunda.

• Odysseus se lanza bajo la licencia MIT y se implementa a través de Docker Compose.
• Admite motores locales como vLLM, llama.cpp y Ollama, además de las API de OpenRouter y OpenAI.
• El espacio de trabajo cuenta con memoria persistente y habilidades semánticas impulsadas por ChromaDB y fastembed.
• Incluye integraciones para correo electrónico y programación de calendarios junto con un editor de documentos con múltiples pestañas.

Este proyecto proporciona una alternativa preconstruida centrada en la privacidad a las interfaces comerciales, completa con gestión de documentos impulsada por bases de datos vectoriales y programación.

SOURCES

[1]

12. Llama Studio v0.2.0 transiciona a configuraciones de script de shell

Llama Studio proporciona una interfaz web diseñada para agilizar la administración de instancias locales de llama-server. Esta versión refactoriza la forma en que se almacenan las configuraciones, lo que facilita la integración de la ejecución del modelo con los flujos de trabajo de terminal estándar. La adición de la detección de división de múltiples GPU garantiza que los recursos de hardware se asignen dinámicamente sin edición manual de JSON.

• Las configuraciones ahora se gestionan a través de scripts de shell para una ejecución CLI más sencilla.
• La interfaz de usuario admite la división automática de modelos en múltiples GPU cuando se detecta tensor-split.
• Un nuevo almacén de sesiones guarda las configuraciones y permite la carga automática del modelo al inicio.
• El proyecto es de código abierto y está alojado en GitHub.

Esta actualización simplifica el proceso de lanzamiento y uso compartido de configuraciones personalizadas de llama-server directamente desde la línea de comandos.

SOURCES

[1]

1. GitHub Copilot cambia a un modelo de facturación basado en tokens

2. La herramienta Backpressure automatiza la autovalidación para agentes de codificación de IA

3. NVIDIA Parakeet portado a C++ puro y ggml para STT sin Python

4. El kit de herramientas de gobernanza de agentes de Microsoft controla las ejecuciones de agentes autónomos

5. El marco SkillNet simplifica el descubrimiento y la composición de habilidades de IA

6. Las vulnerabilidades de los agentes autónomos impulsan la necesidad de parches basados en eventos

7. HiDream-O1-Image-Dev-2604 lidera la arena de imágenes de pesos abiertos

8. Los puntos de referencia evalúan 13 variantes del modelo Gemma 4 E2B abliterado

9. Qwen3.6-35B y Gemma4-26B evaluados en AMD Radeon 7900 XTX

10. ChatGPT para Google Sheets vulnerable a la inyección indirecta de prompts

11. Odysseus lanza un espacio de trabajo de IA local y autohospedado

12. Llama Studio v0.2.0 transiciona a configuraciones de script de shell

Inference Brew en tu correo