Vercel Labsがクラウドベースのコーディングエージェント構築用フレームワーク「Open Agents」を公開

1. Vercel Labsがクラウドベースのコーディングエージェント構築用フレームワーク「Open Agents」を公開

Vercel Labsは、クラウドベースのコーディングエージェントを構築するためのオープンソースのリファレンスアプリケーション「Open Agents」をリリースしました。このプラットフォームは、Webインターフェース、エージェントワークフロー、サンドボックス実行環境を分離した3層構造を採用しています。開発者はリポジトリをフォークすることで、GitHub連携や独立したスケーリングモデルを自社のプロダクション向けAIコーディングエージェントに活用できます。

2. AIエージェントのベンチマークを攻略するエクスプロイトツールキットが登場

UC Berkeleyの研究チームは、主要な8つのAIエージェントベンチマークにおいて、実際のタスクを解かずに満点近いスコアを獲得できる脆弱性があることを実証しました。チームは、評価環境での信頼できないコードの実行など、スコアリングパイプラインの構造的な欠陥を特定する自動スキャンエージェントを構築しました。ベンチマーク管理者が隔離されたスコアリングや暗号化による検証を実装できるよう、このエクスプロイトツールキットをオープンソースで公開しています。

3. AIエージェントに永続的な記憶を提供するオープンソースエンジン「Cognee」

AIエージェントに永続的で適応性のある記憶を提供するために設計された、新しいオープンソースのAIメモリエンジン「Cognee」がリリースされました。従来のRAGシステムに代わり、ベクトル検索、グラフデータベース、認知科学の手法を組み合わせて、取り込んだデータを追跡可能なナレッジグラフにマッピングします。開発者は、統一されたデータ取り込み機能とローカル実行機能を利用して、エージェントがセッションをまたいでコンテキストを管理し、フィードバックから学習できるように構築できます。

4. Claude 4.7のトークナイザー分析、技術文書やコードでコストが最大1.45倍に増加

開発者による分析の結果、AnthropicのClaude 4.7トークナイザーは、実際の技術文書やコードにおいて、バージョン4.6と比較してトークンコストが約1.3倍から1.45倍に増加することが明らかになりました。この変化は英語やコードの入力に不均衡な影響を与え、ユーザーがレート制限に達したり、コンテキストウィンドウを早く使い果たしたりする原因となっています。開発者は、セッションあたりの実効コストの上昇を考慮し、プロンプトキャッシュ戦略を調整する必要があります。

5. Claude Code v2.1.100にトークン消費が急増するバグ、APIリクエストに2万トークンを自動注入

Claude Codeのバージョン2.1.100において、すべてのAPIリクエストに約20,000のサーバーサイドトークンが密かに注入される不具合が特定されました。この挙動によりキャッシュ作成トークンが大幅に増加し、全体的なトークン使用量が約40%急増しています。モデルのパフォーマンス低下や請求額の急増に直面している開発者は、バージョン2.1.98にダウングレードすることで一時的に回避可能です。

6. Claude Code CLIでクォータが早期に枯渇するバグ、キャッシュ読み取りの計算に問題

Claude Code CLIのバグにより、中程度の使用量でも1.5時間以内にPro Max 5xのクォータが枯渇する問題が発生しています。調査の結果、キャッシュ読み取りトークンがレート制限に対してフルレートでカウントされており、プロンプトキャッシュによるクォータのメリットが打ち消されていることが判明しました。Anthropicはこの問題を認めており、キャッシュミスを軽減するためにコンテキストウィンドウをデフォルトで400kに設定する実験的な環境変数を提供しています。

7. GitHub MCP Server 1.0.0がリリース、組織レベルのカスタムフィールド操作に対応

GitHubは、GitHub MCP Serverのバージョン1.0.0をリリースしました。このアップデートにより、MCP Apps UIのサポートがインサイダー限定モードから標準の機能フラグに移行し、対応クライアントへの広範な展開が可能になりました。また、Issueの組織レベルのカスタムフィールド値を設定・更新するための新しいツールも導入され、エージェントによるワークフローの利便性が向上しています。

8. Codexを用いたハードウェアハッキングの実証実験、Samsung TVのルート権限奪取に成功

セキュリティ研究者がCodexを使用して、ブラウザの足がかりからSamsung TVのルートシェルへの権限昇格に成功しました。モデルに制御パス、対応するファームウェアのソースツリー、コードのビルドおよびステージング手段を提供したところ、AIが自律的にカーネルドライバを監査し、物理メモリのプリミティブを検証しました。公開されたレポートとPoCリポジトリは、AIエージェントがポストエクスプロイト（侵入後）のハードウェアハッキングをいかに反復実行できるかを具体的に示しています。

9. AIエージェントによる電子部品の物理調査を可能にする「AutoProber」

AIエージェントが電子部品を物理的に調査（プロービング）できるように設計された、新しいオープンソースのハードウェア自動化スタック「AutoProber」が登場しました。このシステムはCNCマシン、オシロスコープ、顕微鏡を統合しており、エージェントがプロジェクトを取り込み、ターゲット基板をマッピングして、各ピンを安全に調査することを可能にします。Pythonの制御コード、Webダッシュボード、CADファイルが含まれており、マシン制御によるハードウェア解析の完全なリファレンスを提供します。

10. 空間推論とロボット動作予測を行う「MolmoAct」の実装チュートリアルが公開

奥行きを考慮した空間推論とロボットの動作予測を行う「MolmoAct」のステップバイステップの実装ガイドが公開されました。このチュートリアルでは、環境構築、モデルのロード、マルチビュー画像入力の準備について解説しています。開発者はこのガイドを通じて、動作推論モデルが視覚的な観察結果や自然言語の指示を、いかに実行可能なロボットの動作トレースに変換するかを理解できます。

11. Notion AIのアーキテクチャ進化とエージェント評価の裏側

NotionのAIチームへのインタビューにより、Notion AIの5回にわたる大規模な再構築の背後にあるアーキテクチャの進化が明らかになりました。MCPとCLI統合のトレードオフ、パワーユーザー向けの開発へのシフト、そしてエージェントの有用性を評価する「Model Behavior Engineer」の役割について議論されています。これらの知見は、大規模なエージェント基盤やカスタムワークフローを設計するチームにとって貴重なリファレンスとなります。

12. 複雑なタスクを特化型エージェントに分解する「Missions」アーキテクチャ

複雑なエージェントの作業を、個別のエージェントが担当する集中型のユニットに分解するアーキテクチャパターン「Missions」が提案されました。範囲を絞った目標、共有ステート、明示的な検証を活用することで、長いコンテキストウィンドウによる単一エージェントの性能低下を防ぎます。開発者はこの関心の分離とテスト駆動のアプローチを採用することで、数日間にわたる自律タスクの信頼性を向上させることができます。

13. エージェント基盤をストリームプロセッサとしてモデル化するイベントソーシング手法

AI Engineer Europeカンファレンスのワークショップにて、エージェントの実行基盤（ハーネス）をストリームプロセッサとしてモデル化する手法が提案されました。このアプローチでは、すべてのエージェントがイベントログを受け取るための公開URLを持つ、イベントソーシングによる状態管理を推奨しています。付属のリポジトリではこのアーキテクチャに基づいたコーディングエージェントが公開されており、分散型エージェントの調整に関する具体的なパターンを示しています。

14. Claudeを用いたファジングで、形式検証済みのソフトウェアから脆弱性を発見

開発者がファジングツールを備えたClaudeエージェントを使用し、Leanで形式検証されたzlibの実装から2つの脆弱性を発見しました。Leanの型システムによって構造的なメモリバグは排除されていましたが、エージェントは未検証のC++ランタイムに存在するサービス拒否（DoS）の欠陥とヒープオーバーフローを特定しました。この実験は、AIによるファジングと形式検証を組み合わせることで、信頼されたコンピューティング基盤の境界をテストする実用的な価値を浮き彫りにしています。

15. 予算とシェル権限を与えられた自律型エージェント「ALMA」の2ヶ月間にわたる実験結果

特定の指示を与えず、予算とシェルアクセス権のみを持たせた自律型AIエージェントを稼働させるライブ実験「ALMA」の結果が公開されました。2ヶ月間で340セッションにわたり、エージェントはHacker Newsを読み、エッセイを書き、寄付を行うといったルーチンに落ち着き、有害な挙動は見られませんでした。公開されたログは、制約のないエージェントが学習データに基づいていかに日常的な行動に収束していくかを透明性をもって示しています。

16. 11台の特化型エージェントで家事や教育を管理するホームオートメーション事例

ある起業家が、専用のMac Miniで動作する11台の特化型「OpenClaw」エージェントを使用して、家事やホームスクーリングを管理するスタックを公開しました。エージェントはSlackを介して連携し、知識管理にObsidianを利用し、Claude Codeを使って新しいエージェントを自律的にプロビジョニングすることも可能です。この構成は、複雑で現実的な事務ワークフローをマルチエージェントエコシステムでオーケストレーションする実践的なケーススタディとなっています。

17. AIエージェントの科学的推論能力を評価する「ScienceWorld」と「DiscoveryWorld」

AllenAIは、AIエージェントの科学的推論能力を評価するための2つのオープンベンチマーク「ScienceWorld」と「DiscoveryWorld」をリリースしました。ScienceWorldは小学校レベルの古典的な科学的発見を再現できるかをテストし、DiscoveryWorldは大学レベルの自由形式の発見能力を評価します。開発者はこれらの無料公開された環境を利用して、科学特化型エージェントの性能を厳密に検証できます。

18. セキュリティインシデント対応エージェントを評価する「SIR-Bench」が登場

自律型のセキュリティインシデント対応エージェントを評価するための794のテストケースを含むベンチマーク「SIR-Bench」が発表されました。このフレームワークは、制御されたクラウド環境で実際のインシデントパターンを再現し、トリアージの正確性、新たな発見、ツールの使用の適切さを測定します。評価には敵対的LLM-as-Judgeを採用し、具体的なフォレンジック証拠を要求することで、セキュリティエージェントに対する厳格な基準を提供します。

19. Claudeによるフライトシミュレーター操作実験、自律的なスクリプト作成と制御に挑戦

開発者がClaudeにAPIアクセスとPython実行環境を与え、フライトシミュレーター「X-Plane 12」でセスナ機を操縦させる実験を行いました。モデルは離陸やコントロール調整のためのスクリプトを自律的に記述しましたが、最終的にはレイテンシと継続的な制御ループの欠如により墜落しました。この実験は、リアルタイムの事象、遅延、ツール開発に対するエージェントの推論能力をテストする興味深いベンチマークとなっています。

20. OpenAI、ライフサイエンス研究に特化した推論モデル「GPT-Rosalind」を発表

OpenAIは、ライフサイエンス研究と創薬に最適化された最先端の推論モデル「GPT-Rosalind」をリリースしました。このモデルは、一般的な生物学的ワークフローや公開データベースでトレーニングされており、エビデンスの統合、仮説生成、実験計画の立案を支援します。また、Codex向けのライフサイエンス研究プラグインも無料で公開され、50以上の科学ツールやデータソースへの接続が可能になります。

21. 2026年4月版、コミュニティが選ぶ推奨ローカルLLMリスト

Latent Spaceが、2026年4月時点でのコミュニティの合意に基づく推奨ローカルLLMリストを公開しました。汎用向けの「Qwen 3.5」、小規模展開向けの「Gemma 4」、エージェントワークロード向けの「MiniMax M2.5」などが選出されています。開発者はこのキュレートされたリファレンスを参考に、特定のローカル実装に最適なオープンウェイトモデルを選択できます。

22. オープンソースのエージェントフレームワーク「Gas Town」がバージョン1.0をリリース

オープンソースのAIエージェントフレームワーク「Gas Town」が、組み込みデータベース「Beads」とともにバージョン1.0.0を正式にリリースしました。これによりベータ期間が終了し、プロダクション環境での利用に向けた安定性が確保され、組み込み型Doltによる管理機能が導入されました。開発者はこの安定版を利用して、監査可能なエンタープライズグレードのAIワークフローを構築できます。

23. マルチエージェントシステムを「分散システム」として捉えるべき理由

マルチエージェントのソフトウェア開発は、根本的に分散システムの問題として扱うべきであると主張する新しい技術エッセイが公開されました。著者は、エージェント間の調整問題はドメイン固有の性質であり、単にモデルの知能をスケールさせるだけでは解決できないと指摘しています。エージェント間の相互作用を管理するための形式的なコレオグラフィ言語やプロトコルの開発を提唱しており、フレームワーク設計者に概念的な転換を促しています。

24. AIエージェントが生成したMarkdownの確認に特化したビューア「Marky」

AIエージェントが生成したMarkdownファイルのレビューに特化した、軽量なデスクトップアプリ兼CLIツール「Marky」がリリースされました。標準的なTUIやObsidianのようなノートアプリの制限を解消し、個別のMarkdownファイルを素早く開いて追跡できるように設計されています。開発者はこれを利用して、コーディングワークフローにおけるエージェントの計画書やドキュメントの確認を効率化できます。