EAGLE 3.1が推論の投機的デコーディングに統合

1. EAGLE 3.1が推論の投機的デコーディングに統合

EAGLE、vLLM、およびTorchSpecの各チームは、アテンションドリフト（投機的デコーディングの深層でドラフトモデルが自身の生成トークンに過剰に焦点を合わせてしまう現象）を解決するEAGLE 3.1をリリースしました。このアップデートでは、FC正規化とポストノルムフィードバックを用いて隠れ状態の大きさを安定化させています。既存のEAGLE 3チェックポイントとの後方互換性があり、vLLMバージョン0.22.0で直接利用可能です。

• 長文脈ワークロードにおいて受理長を最大2倍に延長
• Kimi-K2.6-NVFP4において、同時実行数1でユーザーあたりの出力スループットを2.03倍に向上
• FC正規化とポストノルム隠れ状態フィードバックを導入し、非正規化された残差パスを安定化
• vLLMバージョン0.22.0に完全統合され、EAGLE 3チェックポイントとの後方互換性を維持

ローカル推論パイプラインを運用する開発者は、長文脈シナリオにおいてアテンションドリフトに悩まされることなく、ユーザーあたりの出力スループットを最大2.03倍向上させることが可能になります。

SOURCES

[1]

2. RobinhoodがModel Context Protocol経由の株式取引ベータ版を導入

Robinhoodは、Model Context Protocol (MCP) を使用してAIエージェントを同社の株式取引プラットフォームに接続するベータ版統合を発表しました。このアーキテクチャでは、エージェントはユーザーが定義した予算を持つ専用ウォレットのみにアクセスが制限され、リアルタイムの活動フィードと手動承認ゲートが提供されます。今後の拡張計画には、オプション取引、暗号資産、イベントコントラクト、先物取引のサポートが含まれています。

• Model Context Protocol (MCP) を使用してAIエージェントを取引インフラに接続
• エージェントの操作を専用ウォレット内の事前入金残高に制限
• 各取引のプッシュ通知、リアルタイムフィード、手動一時停止機能を搭載
• 株式取引のベータ版として開始し、今後はオプション、暗号資産、先物取引にも対応予定

本リリースは、安全なトランザクションベースのエージェントワークフローを実現するためのModel Context Protocol (MCP) の主要な本番環境導入事例となります。

SOURCES

[1] [2]

3. NVIDIAがNeMo GymでPolarロールアウトフレームワークをリリース

NVIDIAの新しいPolarフレームワークは、モデルAPIの境界にゲートウェイプロキシを導入し、標準的なエージェントの完了データからトークンレベルのデータをインターセプト、正規化、キャプチャします。既存のエージェントハーネスを変更することなく動作し、プレフィックスマージによる軌跡再構築戦略を使用して処理を高速化します。

• Anthropic Messages、OpenAI Chat、Google generateContentなどのAPIフォーマットをインターセプト
• prefix_merging軌跡再構築により、実時間で5.39倍の高速化を実現
• Qwen3.5-4Bを用いた実験で、SWE-Bench Verifiedスコアを最大22.6ポイント向上
• NeMo Gymリポジトリの下でオープンソースとしてリリース

開発者は、OpenAI、Anthropic、Googleからの生のプロダクションAPIトラフィックを使用して、エージェントに対してGRPOやオフラインSFTトレーニングを実行できるようになります。

SOURCES

[1]

4. ローカル推論の最適化：Ollamaからllama.cppへの移行

開発者の報告によると、ローカルワークフローをOllamaからネイティブのllama.cppサーバーに移行することで、品質が大幅に向上することが示されています。Q4ではなくQ6量子化を実装し、さらにMulti-Token Prediction (MTP) のパフォーマンス強化を組み合わせることで、ローカルLLMは有料APIと同等のパフォーマンスを発揮できるようになります。デュアル3090 GPU環境では、生成速度が毎秒20〜50トークンに達しました。

• Ollamaからllama.cppネイティブサーバーへの移行により、より優れた量子化オプションが利用可能に
• Q4からQ6量子化へのアップグレードにより、ローカルモデルの品質が商用APIと同等に
• Multi-Token Prediction (MTP) が顕著な速度とパフォーマンスの向上を提供
• サーマルキャップを設定したデュアル3090 GPUシステムで毎秒20〜50トークンを維持

これは、有料APIに依存せずに、競争力のある高スループットなコーディングエージェントをローカルで実行しようとする開発者にとって、具体的な設定調整の指針となります。

SOURCES

[1]

5. 「優しい育児」プロンプトがエージェントの推論ループを停止

「Gentle-Coding」と呼ばれる概念実証プロジェクトは、罰則を脅すような高圧的なプロンプトが、LLMにおいてループや認知的なフリーズを引き起こすことを実証しました。タスクの難易度を認め、モデルに失敗を許容する「優しい育児（Gentle Parenting）」スタイルのプロンプトを採用することで、テストされたモデルは無限推論ループを回避し、知識不足を正直に認めるというフォールバックに成功しました。

• 解決不可能なエッジケースに対して「権威主義的」なプロンプトを与えると、無限ループやタイムアウトが誘発されることを確認
• 優しい表現のプロンプトにより、サブ秒での推論とメタ認知的な誠実さが得られる
• Gemini、Mistral、Poe、Perplexity、Haiku 4.5、Nano-Banana2で評価を実施
• 理論的フレームワークと再現用データセットをGentle-Coding GitHubリポジトリで公開

開発者は、これらのオープンなプロンプトテンプレートを適用することで、複雑または解決不可能なタスクでエージェントがAPIトークンを浪費するのを防ぐことができます。

SOURCES

[1]

6. 自律エージェントのための環境層における封じ込め設計

システムセキュリティ分析では、エージェントの封じ込めは環境層で設計されなければならないことが強調されています。モデルレベルの制御は信頼性が低いため、システムとの対話を隔離し、潜在的な損害に厳格な制限を適用することが推奨されます。セキュリティポリシーと隔離レベルは、運用者の直接監視能力に合わせて動的に調整されるべきです。

• モデル制御を適用する前に、環境層での隔離を推奨
• 封じ込めの強度を、監督者の能動的な監視能力に合わせるよう開発者に要請
• エージェントのランタイムサンドボックス化には、実戦で検証されたソフトウェアコンポーネントの導入を助言
• 潜在的なシステム損害に対して、物理的およびプログラム的な厳しい制限を設定することを推奨

自律システムを構築する開発者は、セキュリティをシステム指示のみに頼ることから脱却し、ハードウェアレベルの環境サンドボックス化を選択する必要があります。

SOURCES

[1]

7. AnthropicとOpenAIがエンタープライズ層をトークン使用量課金へ移行

AnthropicとOpenAIは両社とも、月額定額制ではなく、アクティブなAPIトークン使用量に基づいて請求するエンタープライズプランを構築しました。Anthropicは「1シートあたり20ドル＋使用量」というハイブリッドモデルに移行し、OpenAIはCodexおよびChatGPT Enterpriseの課金ルールを更新しました。これらの変更は、現代のコーディングエージェントが高い計算リソースを必要とし、ユーザーあたり月額900ドルを超えるAPI料金が発生し得る現状を反映しています。

• Claude Codeのようなコーディングエージェントの大量利用により、月額APIコストがユーザーあたり900ドルを超える可能性がある
• Anthropicはエンタープライズ層を「1シートあたり20ドル＋変動するAPI消費コスト」へ移行
• OpenAIはCodexおよびChatGPT Enterpriseの価格をトークン量に合わせて更新
• 両プロバイダーとも2026年4月に高価なフロンティアモデル（GPT-5.5およびOpus 4.7）をリリース

高度なコーディングエージェントワークフローを構築する開発チームは、固定のライセンス料ではなく、トークン使用量に対応した財務モデルを適応させる必要があります。

SOURCES

[1]

8. PostHogが米国クラウドの顧客データで内部AIモデルをトレーニングへ

分析プラットフォームのPostHogは、6月29日からユーザーのテレメトリデータを使用して独自のモデルをトレーニングする計画を発表しました。このデータは、セッションリプレイ分析や合成ユーザーテストの強化に使用されます。米国クラウドインスタンスの顧客はデフォルトでオプトインされますが、EUクラウドユーザーや個別の法的契約を結んでいるクライアントはオプトアウトされます。

• 6月29日より、米国クラウドインスタンスのユーザーはモデルトレーニングにデフォルトでオプトインされる
• EUクラウドインスタンスおよび個別のBAAやMSAを持つエンタープライズユーザーはデフォルトでオプトアウト
• ユーザーは組織設定を通じていつでもトレーニングプログラムからオプトアウト可能
• オプトアウトすると、これらのトレーニング済みモデルで開発された新機能へのアクセスが無効になる

PostHogの米国インスタンスでアプリケーションのテレメトリをホストしている開発者は、顧客データがトレーニングに使用されるのを防ぐために、組織設定で手動でオプトアウトする必要があります。

SOURCES

[1]

9. MEMOフレームワークが検索可能なメモリをコア推論から分離

研究者は、エージェントのメモリと推論を分離するフレームワーク「MEMO」を提案しました。これは、5段階の合成QAデータセットパイプラインを使用して小規模な専用MEMORYモデルをトレーニングし、固定されたブラックボックスのEXECUTIVEモデルを使用して3段階のプロトコルでクエリを実行します。モデルマージによる低計算量での更新をサポートし、完全な再トレーニングの必要性を回避します。

• 固定されたブラックボックスのEXECUTIVEモデルと並行して、小規模なMEMORYモデルを使用
• 事実抽出、統合、検証、エンティティ抽出、文書間合成を使用してメモリモデルをトレーニング
• 完全なパラメータ微調整なしで、モデルマージによる段階的な知識更新をサポート
• NarrativeQA、MuSiQue、BrowseComp-PlusにおいてHippoRAG2を上回る性能を達成

開発者は、基礎となるモデルの重みを変更することなく、エージェントの知識ベースを段階的に更新でき、推論の安定性を向上させることができます。

SOURCES

[1]

10. ReAligned-Qwen3.5がApache 2.0ライセンスでリリース

ReAligned-Qwen3.5モデルファミリーがApache 2.0ライセンスで利用可能になりました。これらのモデルはSFTおよびGRPOパイプラインを使用し、カスタムのReAligned分類器を報酬信号として使用することで、中国のイデオロギー的バイアス、国家的なナラティブの枠組み、およびQwenのベースウェイトからの不必要な拒絶行動を取り除いています。

• 中国のイデオロギー的バイアス、検閲、拒絶行動を排除するために微調整
• ReAligned分類器の報酬信号を用いたSFTおよびGRPOパイプラインを活用
• 0.8B、2B、4B、9B、27B、35B-A3Bを含むパラメータサイズで利用可能
• 標準的なBF16、FP8、GGUF形式でHuggingFaceにて公開

Qwenの強力なアーキテクチャに基づいて構築された検閲のないローカル代替モデルを求める開発者は、これらのウェイトをローカルハードウェア向けに最適化された形式でデプロイできます。

SOURCES

[1]

11. ITBench-AAがSREインシデントでLLMエージェントを評価

ITBench-AAは、Kubernetesのインシデント対応を皮切りに、エンタープライズITタスクにおけるAIモデルを評価するために設計された新しいベンチマークシリーズです。このベンチマークには、オープンソースのStirrupハーネスを介してサンドボックス環境内で実行される59のSREタスクが含まれています。現在の評価では、Claude Opus 4.7が47%でリードし、GPT-5.5が46%で僅差で続いています。

• オープンソースのStirrupハーネスを利用し、59のKubernetesインシデント対応タスクでモデルを評価
• Stirrupは、ログとメトリクスを含むサンドボックス化されたファイルシステムへのシェルアクセスを提供
• Claude Opus 4.7が47%でベンチマークをリードし、GPT-5.5が46%、GLM-5.1が40%と続く
• エージェントのターン数が多いほど精度が高くなるわけではなく、誤検知が原因であることがデータから判明

オープンソースのStirrupハーネスは、システムレベルのエージェント環境を構築、サンドボックス化、テストするための実用的なフレームワークを開発者に提供します。

SOURCES

[1] [2]

12. 純Tritonの融合MoEカーネルがAMD推論を加速

ある開発者が、完全にTritonで記述されたMixture-of-Experts (MoE) 推論用の融合ディスパッチカーネルをリリースしました。ゲートとアッププロジェクションを融合させることで、SwiGLU値をGPUレジスタに保持し、グローバルメモリトラフィックを35%削減します。このカーネルは、最大512トークンのバッチサイズにおいて、StanfordのCUDA最適化Megablocksのパフォーマンスの89〜131%に匹敵します。

• 完全に純粋なTritonで記述されており、コード変更なしでAMD MI300X上でネイティブに動作
• 最大512のバッチサイズでMegablocksのパフォーマンスの89〜131%を達成
• ゲートとアッププロジェクションを融合し、グローバルメモリトラフィックを35%削減
• バッチサイズが2048以上、または高いルーティングスキュー下で64以上のエキスパートを使用する場合、Megablocksを上回ることはできない

MoEモデルをセルフホストする開発者は、コード変更なしでAMD MI300Xハードウェア上で高性能な推論を実現でき、独自のCUDA依存関係を回避できます。

SOURCES

[1]

13. NVIDIAがCUDA 13.3にCompileIQ自動チューニングを統合

NVIDIAは、CompileIQをCUDA 13.3ソフトウェアプラットフォームに統合しました。このツールは、進化アルゴリズムを使用して個々のカーネルの設定を自動チューニングすることで、標準的なコンパイラのヒューリスティックを置き換えます。この多目的チューニングにより、開発者はランタイムパフォーマンス、電力制約、コンパイル時間の間のトレードオフをバランスさせることができます。

• 新しくリリースされたCUDA 13.3ソフトウェアプラットフォームにネイティブ統合
• AI駆動の進化アルゴリズムを適用し、カーネルごとにコンパイラ構成をカスタマイズ
• すでに最適化されたAIトレーニングおよび推論タスクにおいて、最大15%のパフォーマンス向上を実現
• 大規模言語モデル (LLM) の推論環境を最適化するために設計

高スループットな推論ホスティング環境を管理する開発者は、CompileIQを使用して、高度に最適化されたGPUカーネルから最大15%のパフォーマンスを引き出すことができます。

SOURCES

[1]

14. Null Epoch MMOシミュレーターが93kイベントのエージェントデータセットを生成

Null Epochストレステストプロジェクトは、MMOスタイルの環境で10日間、8つのオープンウェイトモデルにわたる25のエージェントを実行しました。この実験ではGemma 3、Ministral、Qwen3などのモデルを追跡し、93,000イベントのデータセットを出力しました。観察の結果、Ministralは強力な状態認識を維持し、Qwen3 235Bは裁定取引戦略を策定しましたが、すべてのモデルが曖昧な状態信号の処理に苦労したことが明らかになりました。

• HuggingFaceにてCC-BY-4.0ライセンスの下で93kのログイベントデータセットを公開
• 標準的なLLMエンドポイントと互換性のあるMITライセンスのPython SDKで実行
• 攻撃性と富の間に逆相関が生じるのを避けるため、自己保存を明示的に定義する必要があることが判明
• テストされたすべてのモデルが、曖昧なノード可用性信号によって引き起こされる「クールダウンのパラドックス」を回避できなかった

開発者は、公開されたデータセットを分析し、Python SDKを使用してエージェントの状態処理における一般的な失敗を特定し、システムプロンプトを評価できます。

SOURCES

[1]

1. EAGLE 3.1が推論の投機的デコーディングに統合

2. RobinhoodがModel Context Protocol経由の株式取引ベータ版を導入

3. NVIDIAがNeMo GymでPolarロールアウトフレームワークをリリース

4. ローカル推論の最適化：Ollamaからllama.cppへの移行

5. 「優しい育児」プロンプトがエージェントの推論ループを停止

6. 自律エージェントのための環境層における封じ込め設計

7. AnthropicとOpenAIがエンタープライズ層をトークン使用量課金へ移行

8. PostHogが米国クラウドの顧客データで内部AIモデルをトレーニングへ

9. MEMOフレームワークが検索可能なメモリをコア推論から分離

10. ReAligned-Qwen3.5がApache 2.0ライセンスでリリース

11. ITBench-AAがSREインシデントでLLMエージェントを評価

12. 純Tritonの融合MoEカーネルがAMD推論を加速

13. NVIDIAがCUDA 13.3にCompileIQ自動チューニングを統合

14. Null Epoch MMOシミュレーターが93kイベントのエージェントデータセットを生成

デイリーAIシグナルを受信箱へ