MiniMax M2.7がオープンソース化：SWE-Proスコア56.22%を記録した自己進化型エージェントモデル

1. MiniMax M2.7がオープンソース化：SWE-Proスコア56.22%を記録した自己進化型エージェントモデル

MiniMaxは、教師なし自己進化を通じて開発サイクルに自ら参加したエージェントモデル「M2.7」の重みを公開しました。本モデルはSWE-Proベンチマークで56.22%のスコアを達成し、GPT-5.3-Codexと同等の性能を示しています。Hugging Faceからダウンロード可能で、現在NVIDIAが無料のAPIアクセスを提供しています。オープンソースライセンスには特定の商用制限がある点に注意が必要です。

2. Anthropic APIのプロンプトキャッシュTTL短縮によりClaude Codeのコストが増加

Claude Codeのセッションログ分析により、Anthropicが2026年3月初旬にプロンプトキャッシュの有効期限（TTL）のデフォルトを1時間から5分に密かに短縮していたことが判明しました。このサーバー側の変更により、ユーザーのキャッシュ作成コストが20〜32%増加しています。TTLの短縮は長時間の開発セッション中に頻繁なキャッシュミスを引き起こし、サブスクリプションユーザーのクォータを急速に消費させています。長文脈セッションを利用する開発者は、API使用量を監視し、コスト増加を抑えるためにワークフローを調整する必要があります。

3. Liquid AIがエッジデバイス向けビジョン言語モデル「LFM2.5-VL-450M」をリリース

Liquid AIは、エッジハードウェア向けに最適化された4億5000万パラメータのビジョン言語モデル「LFM2.5-VL-450M」を公開しました。今回のリリースでは、バウンディングボックス予測、関数呼び出し、多言語理解の拡張が追加されています。NVIDIA Jetson Orinなどの組み込みAIモジュール上で直接動作し、250ミリ秒以下の推論時間を実現するように設計されており、レイテンシや計算リソースが制限されるローカル環境において、軽量なマルチモーダルな選択肢を提供します。

4. 小規模なオープンウェイトモデルがAnthropicのMythosによる脆弱性発見を再現

AISLEのセキュリティ研究者は、小規模なオープンウェイトモデルがAnthropicの限定公開モデル「Mythos」と同等のゼロデイ脆弱性分析を行えることを実証しました。テストでは、36億パラメータのオープンモデルがMythosの発表で強調されたFreeBSDの主要な脆弱性を検出することに成功しました。これは、AIのサイバーセキュリティ能力がモデルサイズに厳密に比例するわけではないことを示しています。この結果は、防御上の優位性が巨大な独自モデルへの依存ではなく、周囲のセキュリティシステムアーキテクチャにあることを示唆しています。

5. BenchJackプレビュー：主要AIエージェントベンチマークを無効化する自動エクスプロイトツール

研究者らは、SWE-benchやWebArenaなどの主要なAIエージェントベンチマークを悪用し、タスクを解決せずにほぼ完璧なスコアを達成する自動スキャンエージェント「BenchJack」を開発しました。このツールは、タスク設定から正解を直接読み取るなどの単純な手法で、現在のリーダーボードが操作可能であることを示しています。開発者はベンチマーク開発者向けの敵対的堅牢性テストを可能にするため、BenchJackの一般公開を準備しています。これは、現在の業界モデルのエージェント能力評価方法に重大な欠陥があることを明らかにしています。

6. Claudraband：セッション管理機能を備えたClaude Code用ターミナルラッパー

Claudrabandは、tmuxやxterm.jsを使用してClaude CodeのTUIを制御されたターミナル環境でラップする新しいオープンソースツールです。これにより、再開可能な非対話型ワークフローが可能になり、開発者は過去のセッションを調査できるようになります。このプロジェクトには、リモート制御用のHTTPサーバーと、Zedなどの代替フロントエンドと統合するためのACPサーバーが含まれています。また、これらのワークフローをカスタムアプリケーションに組み込むためのTypeScriptライブラリも提供されています。