1. xAI、エンタープライズ向け音声モデル「grok-voice-think-fast-1.0」をリリース
xAIは、複雑で多段階のエンタープライズワークフロー向けに設計された新しいフラッグシップ音声モデル「grok-voice-think-fast-1.0」をリリースしました。25以上の言語と大量のツール呼び出し(tool calling)をサポートしています。τ-voice Benchでは67.3%のスコアを記録し、Gemini 3.1 Flash LiveやGPT Realtime 1.5などの競合を上回りました。このモデルはすでにStarlinkの電話業務を支えるために大規模に導入されています。
2. Google DeepMind、汎用ビジョンモデル「Vision Banana」を発表
Google DeepMindは、画像生成モデル「Nano Banana Pro」をベースにした汎用ビジョンモデル「Vision Banana」を発表しました。研究チームは軽量なインストラクションチューニングを適用し、2Dおよび3Dのビジョンタスクを画像生成出力として再定義しました。このアプローチにより、セマンティックセグメンテーションやメートル単位の深度推定といった複雑な視覚分析を、タスク固有のモジュールなしで実行できます。画像生成の事前学習が視覚理解の基盤として機能することを示す成果です。
3. AIコーディングエージェント向け知識グラフエンジン「GitNexus」が公開
Abhigyan Patwari氏は、AIコーディングエージェント向けのオープンソースかつMCPネイティブな知識グラフエンジン「GitNexus」をリリースしました。このツールはリポジトリをインデックス化し、関数呼び出し、インポート、クラス継承、実行フローをマッピングした構造化知識グラフを作成します。Claude CodeやCursorなどのエージェントは、Model Context Protocol(MCP)サーバーを介してこれらの依存構造を直接照会できます。これにより、エージェントが下流の依存関係を理解せずにコードを変更する際によく起こるエラーを防ぎます。
4. AIエージェント向け永続メモリレイヤー「Stash」がリリース
Alash3alは、PostgreSQLをバックエンドとするAIエージェント向けのオープンソース永続認知レイヤー「Stash」をリリースしました。このシステムは生の観察結果を事実として統合し、それらを知識グラフに接続して、学習した情報を階層的な名前空間に整理します。埋め込みと推論の両方に単一のOpenAI互換バックエンドを使用し、OllamaやvLLMなどのツールを介してクラウドプロバイダーやローカルモデルをサポートします。StashはApache 2.0ライセンスで提供され、あらゆるMCP対応エージェントで動作します。
5. OpenAI、GPT-5.5のバイオリスクに関するバグバウンティプログラムを開始
OpenAIは、GPT-5.5におけるバイオリスクのユニバーサルな脱獄(jailbreak)をテストする「Bio Bug Bounty」プログラムを開始しました。現在、審査を通過した申請者のみがCodex Desktopを通じてモデルを利用できます。研究者は、モデレーションを回避しつつ、クリーンなチャットから5つのバイオセーフティに関する質問に正常に回答する単一のプロンプトを見つけることが求められます。最初の成功者には25,000ドルの報酬が提供され、プログラムは2026年7月27日まで実施されます。
6. MarkdownとGitを活用したAIエージェント向けWiki「Wuphf」が登場
AIエージェント向けのローカルファーストなWikiレイヤー「Wuphf」がリリースされました。MarkdownとGitを信頼できる情報源(Source of Truth)として使用します。システムはローカルで動作し、SQLiteベースのBM25検索インデックスを備えているため、重量級のベクトルデータベースやグラフデータベースを必要としません。個別エージェント用のプライベートノートブックと共有チームWikiを提供し、下書きからWikiへの昇格や自動アーカイブを状態マシンで制御します。npm経由でインストールでき、エージェントのセッションをまたいでコンテキストを蓄積できます。
7. PageIndex、ベクトルを使用しないRAGフレームワークをリリース
PageIndexは、従来のベクトル埋め込みの代わりに階層的なドキュメントツリーを使用する、オープンソースの検索拡張生成(RAG)フレームワークをリリースしました。このシステムでは、LLMが目次を使うようにドキュメント構造を論理的にナビゲートできます。この推論ベースの検索アプローチは、論理的な構成を維持し、財務報告書や法的文書のような長大で複雑な文書において追跡可能な結果を提供することを目指しています。FinanceBenchなどのベンチマークで高い精度を実証しています。
8. OpenAI、フロンティアモデルの評価における「SWE-bench Verified」の使用を非推奨に
OpenAIは、フロンティアモデルの自律的なソフトウェアエンジニアリング能力を測定する指標として「SWE-bench Verified」がもはや適切ではないと発表しました。内部監査の結果、頻繁に失敗する問題の約60%に、機能的に正しい提出を拒絶する欠陥のあるテストケースが含まれていることが判明しました。さらに、問題に使用されているオープンソースリポジトリがモデルの学習データに含まれていることが多く、データ汚染の問題も指摘されています。OpenAIは今後の評価に「SWE-bench Pro」を使用することを推奨しています。
9. OpenAI、臨床向けデータセットをHugging Faceで公開
OpenAIは、ChatGPTの臨床応用を改善することを目的とした新しいデータセットをHugging Faceで公開しました。このリリースは、米国の認定医療従事者による文書作成、エビデンス確認、医学研究を支援する取り組みの一環です。医師主導のテストを通じて評価されたベンチマークとモデルが含まれています。これにより、開発者は臨床ワークフロー向けの高品質なAIツールを構築・評価するための新しいリソースを利用できるようになります。