Fable-5とKimi-K2.7-Codeが自動リサーチベンチマークでトップに

1. Fable-5とKimi-K2.7-Codeが自動リサーチベンチマークでトップに

MLエンジニアリング、ハーネス/プロンプトエンジニアリング、アルゴリズム発見という3つのカテゴリーの自律型リサーチタスクで7つのフロンティアモデルを評価した新しいベンチマークにおいて、コスト制約を考慮してもAnthropicのFable-5が総合1位に選ばれました。一方で、MLエンジニアリングに特化した開発者にとっては、オープンウェイトモデルのKimi-K2.7-Codeがテストされたすべてのフロンティアモデルを上回っており、ローカル環境や専門的なコーディングパイプラインにおいて強力な選択肢となります。

• 7つのフロンティアモデルを、MLエンジニアリング、ハーネス/プロンプトエンジニアリング、アルゴリズム発見の3つの自動リサーチカテゴリーでベンチマーク評価。
• AnthropicのFable-5が、コスト制約下でもベンチマークの総合1位を獲得。
• オープンウェイトモデルのKimi-K2.7-Codeが、特にMLエンジニアリングのカテゴリーでフロンティアモデルを上回る性能を記録。

自律型リサーチや高度なコーディングエージェントを構築する開発者は、これらのベンチマークを活用して、アルゴリズム発見やMLエンジニアリングのタスクに最適なモデルを選択できます。

SOURCES

[1]

2. Nemotron Super 120BとQwen、GPT-OSSのベンチマーク比較

Strix Halo 128GB共有メモリシステム上で実行されたローカルベンチマークにより、Nemotron Super 120Bと、GPT-OSS 120B、Qwen 3.5 122B、Qwen 3.6 35Bの性能を比較しました。結果として、Nemotron Superはプロンプト処理に優れており、32KコンテキストではGPT-OSS 120Bを、16KコンテキストではQwen 3.5 122Bを上回りました。しかし、Nemotron Superは400Kという巨大なコンテキストウィンドウをサポートしているものの、最大深度ではトークン生成速度が実用レベルを大きく下回るため、汎用目的では小型のQwen 3.6 35Bが非常に競争力のある代替手段となります。

• Ubuntu 26.04とLemonade Serverを搭載したStrix Halo 128GB共有メモリシステムでベンチマークを実施。
• 比較モデル：GPT-OSS 120B、Qwen 3.5 122B、Nemotron Super 120B、Qwen 3.6 35B。
• Nemotron Superの最大コンテキスト深度は400K。GPT-OSSは128K、Qwen 3.5/3.6は256K。
• Nemotron Superは、32KコンテキストでGPT-OSS 120Bを、16KコンテキストでQwen 3.5 122Bをプロンプト処理速度で上回る。
• Nemotron Superのトークン生成速度は10 TPS以上から始まり、400Kコンテキスト深度では実用困難なレベルまで低下する。

120B未満のローカルモデルを選択する開発者は、これらのベンチマークを参考に、プロンプト処理速度と深いコンテキスト長における生成レイテンシのバランスを判断できます。

SOURCES

[1]

3. 標準化されたエージェントプロトコルの台頭：MCP、ACP、A2A、ANP

AIエージェントエコシステムは、2024年後半から2025年前半にかけてリリースされた4つの主要プロトコルを中心に統合が進んでいます。AnthropicのModel Context Protocol (MCP) は急速に普及しており、Linux Foundationの報告によると、2026年4月時点で1万以上の公開サーバーが稼働し、Python SDKの月間ダウンロード数は1億6400万回に達しました。GoogleのAgent2Agent (A2A) やIBMのAgent Communication Protocol (ACP) といったアプリケーション層のプロトコルが調整やメッセージングの問題を解決する一方で、基盤となるトランスポート層は依然としてボトルネックとなっており、HTTPへの依存やNAT配下のエージェントに対するリレーインフラが必要な状況です。

• 2024年後半から2025年前半にかけて、MCP、ACP、A2A、ANPという4つの重要なエージェントプロトコルが公開された。
• AnthropicのModel Context Protocol (MCP) は、2026年4月時点で1万以上の公開サーバーと、月間1億6400万回のPython SDKダウンロード数を記録。
• GoogleのAgent2Agent (A2A) タスク調整インターフェースは、2025年6月にLinux Foundationへ寄贈された。
• IBM ResearchのAgent Communication Protocol (ACP) と独立したAgent Network Protocol (ANP) が、メッセージングと発見を担う。
• 現在のプロトコルはHTTPに依存しており、エージェントネットワークのトランスポート層はアプリケーション層のプロトコルより18〜24ヶ月遅れている。

マルチエージェントシステムを構築する開発者は、新興のオープン標準を活用することで、相互運用性、ツール呼び出しの互換性、構造化された調整を確保できます。

SOURCES

[1]

4. 10万トークンを超えた際のLLM性能低下への対処

広告で謳われる巨大なコンテキストウィンドウとは裏腹に、RULERやChromaのレポートなどの実証研究では、コンテキストが約10万トークンを超えるとLLMの性能が著しく低下することが示されています。この「ダムゾーン（性能低下領域）」は、マルチファイルのデバッグセッション中にコーディングエージェントが容易に到達してしまう領域です。これに対処するため、開発者は生のコンテキストサイズに頼ることをやめ、obra/superpowersやmattpocock/skillsといったツールを使用して、仕様書やPRDなどの小さな名前付きアーティファクトを中心にエージェントのタスクを構造化する「パンくずリスト」ワークフローを採用し始めています。

• LLMのコンテキストウィンドウには「スマートゾーン」と、約10万トークンから始まる「ダムゾーン」が存在する。
• RULERやChromaのレポートなどの研究により、有効なコンテキストは広告よりも小さいことが確認されている。
• コーディングエージェントは、ファイルの読み込みやデバッグタスク中に、10万トークンの制限にすぐに到達してしまう。
• Claude Codeのようなツールは履歴を要約する自動圧縮機能を持つが、多くの場合、モデルの性能がすでに低下した後に実行される。
• 開発者は、obra/superpowersのようなツールを使用して、小さな名前付きアーティファクトを中心にワークフローを構造化する「パンくずリストアプローチ」を採用している。

コーディングエージェントやRAGパイプラインを構築する開発者は、深刻なモデル性能低下を避けるため、重要なコンテキストを10万トークン以内に収めるワークフローを設計する必要があります。

SOURCES

[1]

5. ローカルで動作するリアルタイム音声対話チャットボットの構築

ある開発者が、Server-Sent Events (SSE) ストリーミングと自然な会話の割り込みをサポートする、ローカルで動作するリアルタイム音声対話チャットボットの構築に成功しました。このシステムは、Qwen3.5-397B（UnslothのUD-Q3_K_XL量子化を使用）、音声認識用のWhisper-small、およびONNX上のカスタムSNACデコーダーを備えたOrpheus TTSで駆動します。単一の24GB GPUで動作し、VRAMを21.3GB使用。QwenのMoEエキスパートを処理するために150GBのシステムRAMを必要とし、131kトークンのコンテキストウィンドウを維持します。

• ローカルチャットボットは、SSEストリーミング、割り込み機能、会話コンテキストをサポート。
• Qwen3.5-397B (UD-Q3_K_XL)、Whisper-small STT、ONNX上のカスタムSNACデコーダーを備えたOrpheus Q4_K_XL TTSで駆動。
• システムは24GB GPU上で約21.3GBのVRAMを消費し、QwenのMoEエキスパートのために150GBのシステムRAMを必要とする。
• モデルはbf16 KVキャッシュで実行され、131,072トークンのコンテキストウィンドウをサポート。

開発者はこのアーキテクチャを参考に、自然な会話の流れと割り込みをサポートする、応答性の高いローカル音声エージェントを構築できます。

SOURCES

[1]

6. Heretic 1.4がローカルモデル再現のための「Grimoire」をリリース

Hereticプロジェクトはバージョン1.4をリリースし、ローカルでのモデル再現性とプラットフォームによる削除への耐性を確保するための「Heretic Grimoire」システムを導入しました。軽量な9KBのreproduce.jsonファイルを利用することで、開発者は数時間の計算を繰り返すことなく、約1分でローカルにモデルを復元できます。今回のアップデートでは、ストレージコストを最小限に抑えるためのLoRAエクスポートのサポートが追加され、プロジェクトのインフラはIPFSによる分散型ホスティングへと移行しました。

• Hereticバージョン1.4で、モデル再現のためのHeretic Grimoireシステムを導入。
• システムは、モデルをローカルで再作成するために必要なメタデータを含む9KBのreproduce.jsonファイルを使用。
• モデルの復元は約1分で完了し、元の数時間の計算をバイパスできる。
• プロジェクトは分散型ホスティングへ拡大し、リリースアーカイブと署名をIPFS経由で利用可能にした。
• Heretic 1.4では、ストレージコストを削減するために、モデル全体ではなくLoRAをエクスポートする機能も追加。

開発者は、微調整したモデルの軽量で分散化されたローカルバックアップを維持することで、Hugging Faceからのモデル削除といったリスクからワークフローを保護できます。

SOURCES

[1]

7. Google Pixel 10 ProでGemma 4 12Bをローカル実行

コミュニティによるテストで、GoogleのGemma 4 12BモデルをGoogle Pixel 10 Proのデバイス上で完全に実行できる可能性が実証されました。Termux環境内でllama.cppを利用し、量子化されたモデルと推論デコーディング用のドラフトモデルを併用しました。10ワットという非常に効率的な電力枠内で動作し、プロンプト深度10,000トークンにおいて、プロンプト処理速度6.5トークン/秒、生成速度1.3トークン/秒を達成しました。

• ユーザーがTermux環境を使用してGoogle Pixel 10 Proでllama.cpp (v9639) をテスト。
• gemma-4-12b-it-UD-Q3_K_XL.ggufモデルとドラフトモデル (mtp-gemma-4-12b-it.gguf) を実行。
• 32,000のコンテキストウィンドウとq8_0キャッシュタイプを使用。
• プロンプト深度10,000トークンで、プロンプト速度6.5 t/s、生成速度1.3 t/sを達成。
• システム全体が10ワット未満の消費電力で動作。

オンデバイスのモバイルAIアプリケーションを構築する開発者は、フラッグシップモバイルハードウェアで12Bクラスのモデルを実行するための電力およびトークン処理能力のベンチマークとして参照できます。

SOURCES

[1]

8. DeepSeek-V4-Flash MoE向けのデュアルDGX Sparkベンチマーク

GitHubで公開された新しいオープンソースガイドとベンチマークスイートでは、デュアルDGX Spark構成でDeepSeek-V4-Flash MoEモデルを実行する方法が概説されています。180ドルのケーブルを使用してConnectX-7経由で200G/sを達成する構成により、vLLM FP8を使用してデコード41 t/s、プリフィル1785 t/sを実現しました。ベンチマークではシングルストリーム構成との比較も行われており、RTX Pro 6000でデコード46.9 t/s、Mac Studio M2 Ultraでデコード29.7 t/sという結果が出ています。

• GitHubの新しいガイドとベンチマークスイートで、2台のDGX SparkユニットでのDeepSeek-V4-Flash MoE実行を詳述。
• ConnectX-7経由で200G/sを達成するには180ドルのケーブルが必要。
• vLLM FP8を使用し、デュアルユニット構成でデコード41 t/s、プリフィル1785 t/sの速度を達成。
• デュアルユニット構成は、各256kコンテキストの32の同時リクエストで、合計350 t/sに到達。
• シングルストリームのベンチマークでは、RTX Pro 6000でデコード46.9 t/s、Mac Studio M2 Ultraでデコード29.7 t/sを記録。

DeepSeek-V4-Flashのセルフホストを検討している開発者は、具体的なマルチGPUおよびシングルストリームのハードウェアベンチマークを参考に、ローカル展開のインフラを計画できます。

SOURCES

[1]

9. SSDストリーミングを使用してMacでDeepSeek-V4-Flashを実行

Antirezのds4エンジンに導入された--ssd-streamingフラグにより、開発者は物理RAMよりも大きなモデルをローカルハードウェアで実行できるようになりました。96GBのRAMを搭載したM3 Maxでテストしたところ、このエンジンはDeepSeek-V4-Flashを毎秒11〜13トークンの速度で実行することに成功しました。コールドブートから最初のトークンまでの時間は3〜5秒、36,000トークンのプリフィルには2.5分かかりますが、この手法により、標準的な開発者用ワークステーションで巨大なモデルをローカルテストすることが可能になります。

• Antirezのds4エンジンは、--ssd-streamingフラグを使用して、利用可能なRAMよりも大きな機械学習モデルを実行可能にする。
• M3 Max 96GBシステム上で、毎秒11〜13トークンの性能を維持。
• コールドブート後の最初のトークンまでの時間は約3〜5秒。
• 36,000トークンのプリフィルには約2分30秒を要する。

開発者は、パフォーマンスとのトレードオフはありますが、Apple Siliconハードウェア上でシステムの物理RAMを超えるサイズのモデルを実行できるようになります。

SOURCES

[1]

1. Fable-5とKimi-K2.7-Codeが自動リサーチベンチマークでトップに

2. Nemotron Super 120BとQwen、GPT-OSSのベンチマーク比較

3. 標準化されたエージェントプロトコルの台頭：MCP、ACP、A2A、ANP

4. 10万トークンを超えた際のLLM性能低下への対処

5. ローカルで動作するリアルタイム音声対話チャットボットの構築

6. Heretic 1.4がローカルモデル再現のための「Grimoire」をリリース

7. Google Pixel 10 ProでGemma 4 12Bをローカル実行

8. DeepSeek-V4-Flash MoE向けのデュアルDGX Sparkベンチマーク

9. SSDストリーミングを使用してMacでDeepSeek-V4-Flashを実行

Inference Brewを受信箱へ