1. OpenAIがGPT-Realtime-2をリリース
OpenAIは、高性能な会話型アプリケーション向けに設計された、主力となるネイティブ音声対音声モデル「GPT-Realtime-2」を発表しました。このモデルは、調整可能な推論努力レベルと、従来の32Kから128Kに拡張されたコンテキストウィンドウを備えています。テキスト、音声、画像の入力をサポートし、レイテンシが大幅に改善され、最小推論モードでは音声応答までの時間(Time to First Audio)が1.12秒に短縮されました。
- • 128Kのコンテキストウィンドウ
- • 調整可能な推論努力レベル
- • 最小モードで1.12秒のレイテンシ
- • テキスト、音声、画像の入力をサポート
音声ファーストのアプリケーションを構築する開発者は、価格を上げることなく、より低いレイテンシとより高い推論能力を活用できます。
2. MozillaがAnthropicのMythosを使用してFirefoxの脆弱性を修正
Mozillaのエンジニアは、AnthropicのAIモデル「Mythos」をカスタムエージェントハーネスに統合し、Firefoxにおける脆弱性検出を自動化しました。モデルにビルドパイプラインやテスト環境への直接アクセス権を与えることで、チームは2ヶ月間で271件のセキュリティ欠陥を、誤検知を最小限に抑えながら特定しました。このアプローチにより、AIはセキュリティ目標が達成されるまで、反復的にファイルの読み取り、コードの記述、テストケースの評価を行うことができます。
- • 271件の脆弱性を特定
- • カスタムエージェントハーネスを使用
- • ビルドパイプラインへの直接アクセス
- • 以前の試行と比較してハルシネーションを低減
これは、複雑なソフトウェアセキュリティワークフローにおいてLLMを使用するための、実用的で信頼性の高いパターンを示しています。
3. エージェント型ソフトウェアエンジニアリングを評価するベンチマーク「ProgramBench」
ProgramBenchは、ソースコードに頼らず、ドキュメントと実験のみに基づいてソフトウェアの実行ファイルを再作成するようAIエージェントに課すベンチマークです。このベンチマークには、単純なCLIツールからSQLiteやPHPインタープリタのような複雑なソフトウェアまで、200のタスクが含まれています。主要な9つの言語モデルを評価した結果、どのモデルもタスクを完全に解決することはできず、最も優れたモデルでもタスクの3%において95%のテストを通過するにとどまりました。
- • CLIツールからコンパイラまで200のタスク
- • 評価にエージェント駆動型のファジングを使用
- • ソースコードへのアクセスは不可
- • 9つのモデルを評価したが完全に解決できたモデルはなし
これは、自律型エージェントの真のソフトウェアエンジニアリング能力を測定するための厳格な基準を提供します。
4. Zyphraが推論モデル「ZAYA1-8B」をリリース
Zyphraの新しいモデル「ZAYA1-8B」は、合計84億パラメータ、アクティブパラメータ7億6000万を持つMixture-of-Experts(MoE)言語モデルです。AMD Instinct MI300X GPUでトレーニングされたこのモデルは、独自の「Markovian RSA」推論手法を利用して推論をチャンク単位で処理し、コンテキストウィンドウを制限内に保ちます。Apache 2.0ライセンスで提供されており、数学およびコーディングタスクに特化して最適化されています。
- • 合計8.4Bパラメータ、アクティブ760Mパラメータ
- • Apache 2.0ライセンス
- • AMDハードウェアでトレーニング
- • Markovian RSA推論手法
コンシューマー向けハードウェアや特殊なハードウェア上で推論能力を必要とする開発者にとって、高効率なオープンソースの選択肢を提供します。
5. Sakana AIがマルチエージェントオーケストレーション向け「RL Conductor」を発表
Sakana AIは、GPT-5やClaude SonnetのようなワーカーLLMを調整するためにトレーニングされた70億パラメータのモデル「RL Conductor」を発表しました。入力を動的に分析してタスクを分散させることで、Conductorは柔軟で自律的なワークフローを実現します。このシステムは現在Fugu APIを通じてベータ版として利用可能で、低レイテンシおよび高性能なニーズに対応するバリエーションを提供しており、コーディングや推論のベンチマークにおいて既存のマルチエージェントフレームワークを上回る性能を示しています。
- • 強化学習でトレーニングされた7Bモデル
- • 複数のフロンティアモデルをオーケストレーション
- • OpenAI互換API
- • 既存のマルチエージェントフレームワークを上回る性能
厳格でハードコードされたロジックに頼ることなく、複雑なエージェントパイプラインを管理するためのスケーラブルな方法を提供します。
6. Instructure Canvas LMSで大規模なデータ侵害が発生
学習管理システム「Canvas」を提供するInstructureは、ユーザー名、メールアドレス、プライベートメッセージの盗難を含む重大なデータ侵害を調査しています。恐喝グループ「ShinyHunters」は、8,800の教育機関にわたる2億8000万件のレコードを収集したと主張しています。同社は、インシデントへの対応中、いくつかのCanvasポータルをメンテナンスモードに移行しました。
- • 2億8000万件のレコードが盗難
- • 8,800の教育機関が影響
- • ShinyHuntersグループが犯行声明
- • メンテナンスモードを開始
これは、APIベースのデータアクセスに関連する重大なセキュリティリスクと、教育インフラを保護することの重要性を浮き彫りにしています。
7. UnslothとNVIDIAがLLMトレーニングを最適化
UnslothはNVIDIAと協力し、LLMのトレーニングを約25%高速化するパフォーマンス最適化を実装しました。主なアップデートには、同期オーバーヘッドを削減する「パックシーケンスキャッシング(packed-sequence caching)」や、コピーレイテンシを隠蔽するアクティベーションチェックポインティング用の「ダブルバッファリング」が含まれます。これらの最適化は、RTX搭載ノートPC、データセンターGPU、DGX Sparkマシンで利用可能となり、Qwen3-14Bのようなモデルに対して大幅な高速化を提供します。
- • トレーニングが25%高速化
- • パックシーケンスキャッシング
- • ダブルバッファリング
- • RTXおよびデータセンターGPUと互換性あり
これらの最適化により、標準的なハードウェアで大規模モデルをファインチューニングするための参入障壁が下がります。
8. AnthropicがClaude Managed Agentsに自己改善機能を追加
Anthropicは、Claude Managed Agentsプラットフォームを拡張し、3つの新しい機能を導入しました。過去のセッションを分析してパターンを特定する「ドリーミング(dreaming)」、成功基準に基づいて自己修正を可能にする「成果(outcomes)」、そしてエージェントが専門的なサブエージェントにタスクを委任できるようにする「マルチエージェントオーケストレーション」です。これらの機能は、複雑なエンタープライズ環境におけるエージェントの信頼性と効率を向上させるために設計されています。
- • パターン分析のためのドリーミング
- • 自己修正のための成果
- • マルチエージェントオーケストレーション
- • エンタープライズ向け
これらの機能は、開発者がより自律的で自己修正可能なエージェントワークフローを構築するための構造化された道筋を提供します。