1. Veo 3.1 Lite:Gemini API経由で低コストな動画生成を実現
GoogleはGemini APIを通じて利用可能な新しい動画生成モデル「Veo 3.1 Lite」を発表しました。このモデルはVeo 3.1 Fastと同等の生成速度を維持しつつ、コストを半分以下に抑えています。この価格設定は、秒単位のコストがボトルネックとなっていた大量生産規模の動画生成アプリケーションを支援するために設計されています。
2. TRL v1.0:Hugging FaceがポストトレーニングAPIを安定化
Hugging FaceはTRL (Transformer Reinforcement Learning) v1.0を正式にリリースし、ライブラリを安定した本番環境対応フレームワークへと移行させました。このリリースにより、大規模言語モデルのポストトレーニングワークフロー向けに統一された標準APIが提供されます。SFT(教師ありファインチューニング)、報酬モデリング、DPO(直接選好最適化)、GRPOなど、75以上のポストトレーニング手法をサポートしています。
3. GLM-5V-Turbo:Zhipu AIがマルチモーダル視覚コーディングモデルをリリース
Zhipu AIは、デザインモックアップやスクリーンショットなどの視覚入力からコードを生成するために最適化された、ネイティブマルチモーダル視覚言語モデル「GLM-5V-Turbo」を公開しました。このモデルは画像、動画、テキストを処理し、エージェントによるエンジニアリングワークフローをサポートします。ツール呼び出し、タスク分解、GUI操作、OpenClawフレームワークとの統合をネイティブでサポートしています。
4. Storage Buckets for Spaces:Hugging Faceで永続ボリュームが利用可能に
Hugging Faceは「Storage Buckets for Spaces」を導入し、デプロイされた環境に永続ストレージボリュームを直接マウントできるようにしました。開発者はSpace設定内でバケットの作成や選択、マウントパスの設定、アクセスモードの指定が可能です。この機能により、モデルウェイトのキャッシュ、ユーザーアップロードの保存、同一組織内の複数のSpace間でのファイル共有が容易になります。
5. Gemini API Docs MCPとDeveloper Skills:コーディングエージェント向けツール
Googleは「Gemini API Docs Model Context Protocol (MCP)」と「Gemini API Developer Skills」を発表しました。これらのツールは、コーディングエージェントに最新のGemini APIドキュメントとベストプラクティスへの直接的なアクセスを提供します。学習データの古さに起因する問題を軽減することで、これらのツールを組み合わせたエージェントは、Googleの評価セットにおいて96.3%のパス率を達成しました。
6. LFM2.5-350M:Liquid AIがコンパクトなエッジモデルをリリース
Liquid AIは、LFM2アーキテクチャに基づいた3億5000万パラメータのモデル「LFM2.5-350M」をリリースしました。このモデルは28兆トークンで学習され、大規模な強化学習を活用してパフォーマンスを向上させています。データ抽出やツール使用などのタスクに焦点を当て、エッジ環境へのデプロイに最適化されています。
7. 半形式的推論:Metaがコードレビューのための構造化プロンプト技術を発表
Metaの研究者は、リポジトリ規模のコードレビュータスクにおける大規模言語モデルのパフォーマンスを向上させるための構造化プロンプト技術「半形式的推論」を発表しました。この手法では、AIエージェントが回答を出す前に、前提条件を明示し、具体的な実行パスを追跡し、論理的な証明書の中で形式的な結論を導き出すことが求められます。これにより、計算負荷の高い動的実行サンドボックスを必要とせず、根拠のない推測やハルシネーションを削減します。