1. AlibabaがAnthropic API互換のQwen3.7-Maxを発表
Alibaba Cloudは、Alibaba Cloud Summitにて独自の推論モデル「Qwen3.7-Max」を発表しました。コーディングと科学的推論に特化した性能を持ち、Artificial Analysis Intelligence Indexで56.6を記録しています。テキスト入力や拡張思考(extended-thinking)の推論ステップに加え、Anthropic APIプロトコルをサポートしているため、開発者はClaude Codeなどのツールのバックエンドとして即座に導入可能です。
- • 100万トークンのコンテキストウィンドウと最大64Kの出力制限を備えています。
- • Anthropic APIプロトコルを直接サポートしており、Claude Codeでの利用が可能です。
- • 価格は入力100万トークンあたり2.50ドル、出力100万トークンあたり7.50ドルに設定されています。
- • 内部テストでは、35時間の継続的な自律実行と1,158回のツール呼び出しを実証しました。
- • 現在はプロプライエタリ(独自)モデルであり、中国ベースのエンドポイント経由でのみアクセス可能です。
開発者は、中国ベースのQwen3.7-Maxエンドポイントに切り替えるだけで、既存のClaude Codeワークフローに高性能なエージェントモデルを統合できます。
2. CopilotKitがエージェント開発用ツール「AIMock」と「AG-UI」をリリース
シアトルを拠点とするスタートアップCopilotKitは、エージェントワークフローの実用化を目的としたベンダーニュートラルなツールを3つ導入しました。開発者は「AIMock」を使用して、トークンコストを発生させたり実際のAPIキーを管理したりすることなく、スキーマドリフトの検出、カオスエンジニアリング、記録・再生動作のテストを行えます。さらに、「Pathfinder MCPサーバー」により、ローカルのドキュメント、コードベース、Notionページに対して、ハイブリッドベクトル検索とキーワード検索を用いたクエリが可能になります。
- • AIMockは、単一のJSON設定を使用して11のLLMプロバイダー、MCP、ベクトルデータベース、検索エンドポイントをシミュレートします。
- • AG-UIプロトコルにより、ソフトウェアエージェントがUIをストリーミングし、アプリケーション状態を同期し、人間による承認を要求できるようになります。
- • Pathfinderは、エアギャップ環境でのナレッジ検索用にプラグイン可能な埋め込みを備えたセルフホスト型MCPサーバーです。
- • AG-UIは、GoogleやMicrosoftなどの主要プロバイダーや、PydanticAI、LangChainなどのフレームワークでサポートされています。
これらの新リリースにより、11のLLMプロバイダー全体でエージェント呼び出し全体をモック化する、依存関係のない効率的な方法が提供され、テスト環境の構築が加速します。
3. Runtimeがオープンソースのサンドボックス型エージェント環境を公開
Runtime (YC P26) は、Claude Code、Cursor、Devinといったエージェントツールを導入する際のセキュリティリスクと設定の複雑さという課題に対処します。サンドボックスのオーケストレーションを抽象化することで、チームはエージェントビルドの安全なプレビューURLを共有できるようになります。システムのネットワーク出口制御とロールベースのアクセス制御(RBAC)により、エージェント実行中の偶発的なデータ漏洩を防ぎます。
- • 実行中のフル環境(マルチサービスDocker Compose、Kafka、Redis、データベース)をミリ秒単位でスナップショット化します。
- • Daytona、E2B、EC2、セルフホスト型Kubernetesサンドボックス全体をオーケストレーションします。
- • シークレット注入、コマンドの許可/拒否リスト、出口制御のためのマネージドプロキシが含まれています。
- • プラットフォームのコアはオープンソースであり、コンピューティング料金のみのホスト型ティアも利用可能です。
ローカルシステムや本番環境のクラスターを公開することなく、信頼できないエージェントコードを非常に複雑な環境で実行できるようになります。
4. DaytonaがAIエージェント向け超高速サンドボックスへピボット
Daytonaは、人間向けの開発環境からエージェント中心のコンピューティングへと移行し、現代のコンテナオーケストレーターの性能限界をターゲットにしています。CEOのIvan Burazin氏は、Kubernetesのような標準的なソリューションはエージェントのワークロードには不十分であると主張し、ベアメタルとステートフルなスナップショット技術に基づくカスタムアーキテクチャを構築しました。このサービスは、安全なコード実行のためのユーティリティAPIとして位置付けられています。
- • エージェントによるコード実行のために、60msという超高速なサンドボックス起動を提供します。
- • 75秒で50,000回の起動までスケール可能で、1日あたり85万回の実行を処理します。
- • Kubernetesを避け、ベアメタルオーケストレーションとステートフルなスナップショットを選択しています。
- • 現在、プラットフォーム利用の約50%が強化学習ワークロードによって占められています。
コードを実行するLLMエージェントを構築する開発者は、大量の実行や評価を処理するために特別に設計された、60msで起動する環境を利用できます。
5. DocusignがClaudeおよびGemini統合用のMCPサーバーを導入
Docusignは、エージェントによる契約ワークフロー向けに設計された開発者ツールスイートを立ち上げました。このリリースにより、一般的なAIエージェントが、統一されたガバナンスとセキュリティコンテキストの下でDocusign APIと直接対話できるようになります。アプリ開発者はこれらのツールを利用して、LLMが過去の契約を自律的に照会したり、メタデータを管理したり、文書を作成・ルーティングしたりできるようにすることが可能です。
- • Docusign機能専用のModel Context Protocol (MCP) サーバーが含まれています。
- • Agreement Manager APIとAgent Studio環境を備えています。
- • 契約履歴に基づいた大量の文書取り込みとエージェントガバナンスをサポートしています。
- • ClaudeやGeminiモデルが、自然言語を通じて直接契約アクションをトリガーできるようにします。
開発者は、標準的なフレームワークを使用して、Docusignの契約を管理、取り込み、照会する自然言語エージェントを構築できるようになりました。
6. RmuxがPlaywrightスタイルのSDK自動化をターミナルに導入
RMUXは、ローカルおよびリモートのコマンドライン環境のためのプログラム可能なレイヤーとして機能します。tmuxのキーバインドやコマンドと互換性があるため、そのまま置き換えが可能でありながら、外部オーケストレーション用の非同期APIを提供します。このプロジェクトにより、開発者はターミナル操作のスクリプト化、出力の検証、並列セッションのプログラム管理が可能になります。
- • Rustで記述されており、約90のコマンドをサポートするtmux互換のCLIを備えています。
- • 安定したペインIDとロケーター形式の待機を提供する非同期Rust SDKが含まれています。
- • WSLを必要とせず、ConPTYを介してLinux、macOS、Windows上でネイティブに動作します。
ターミナルで動作するエージェントを構築する開発者は、安定したペインIDと構造化された状態スナップショットを使用して、コンソールアプリケーションをプログラムでキャプチャおよび操作できます。
7. llama.cppがマルチトークン予測サーバーのVRAMリークを修正
Multi-Token Prediction (MTP) アーキテクチャを使用する際にllama.cppサーバーに影響を与えていた深刻なメモリリークが修正されました。以前は、スリープサイクルに入る際にサーバーが投機的デコーダーやドラフト設定を解放できず、VRAMを継続的に消費していました。今回のアップデートでは、リソースの破棄順序を厳格化し、VRAMの完全な回収を保証しています。
- • プルリクエスト #23461により、投機的デコーダー、ドラフトコンテキスト、ドラフトモデルが明示的にリセットされます。
- • server_context_implのdestroy()関数内のリソースがリークしていたバグを修正しました。
- • llama-serverの繰り返しのスリープおよび復帰サイクルによって引き起こされるメモリ不足クラッシュを解決しました。
ローカルでQwen 3.6やその他のMTPモデルを実行している開発者は、最新のアップデートを適用することで、クリーンアップ失敗によるメモリ不足エラーを防ぐことができます。
8. ik_llama.cppが12GB GPUでのローカルMTP推論を高速化
ローカルハードウェアのベンチマークにより、標準のllama.cppと比較して、ik_llama.cppを使用したMulti-Token Prediction (MTP) 推論の大幅な高速化が実証されました。RTX 4070 Super GPUとシステムモニタータスク用のiGPUを組み合わせることで、開発者は12GBのVRAMをフル活用して、量子化された35Bパラメータモデルをローカルでホストできます。この構成により、リアルタイムのコーディングアシスタントに適した非常に応答性の高い出力が実現します。
- • ik_llama.cppを使用して、RTX 4070 Super 12GBで毎秒110.24トークンを達成しました。
- • 同じハードウェア構成で、標準のllama.cppは毎秒89.76トークンでした。
- • 4.19bpwに量子化されたQwen3.6-35B-A3B-IQ4_XSモデルを使用しました。
- • 厳しいVRAM割り当てを管理するために、--fit-margin調整を使用する必要があります。
ローカルモデル環境を実行する開発者は、標準のllama.cpp実装と比較して23%の速度向上を達成できます。
9. Delta-MemがAIエージェントに軽量なワーキングメモリを追加
Delta-memは、自律エージェントのための代替メモリ構造を導入し、コンテキストウィンドウのスケーリング制限に対処します。行動履歴のために検索拡張生成(RAG)に依存するのではなく、この手法は動的なインタラクションログを高速な連想行列に圧縮します。コアモデルを凍結したままにするため、長期的なタスクにおいて高速かつ軽量な状態更新が可能です。
- • MLPメモリベースラインの76.40%に対し、バックボーンモデルのパラメータのわずか0.12%しか追加しません。
- • 凍結されたLLMの重みを変更せずに状態を更新する、Online State of Associative Memory (OSAM) を実装しています。
- • Qwen3-4B-Instructバックボーンを使用してベンチマークで51.66%を達成し、Context2LoRAベースラインを上回りました。
- • コードはGitHubで公開されており、学習済み重みはHugging Faceでホストされています。
開発者は、32,000トークンのコンテキスト長でも固定されたGPUメモリフットプリントを維持する、軽量な行動メモリアダプターをエージェントに装備できます。
10. ByteDanceが統合マルチモーダルモデル「Lance 3B」をリリース
ByteDanceは、ゼロから学習された3Bアクティブパラメータのデュアルストリーム混合エキスパート(MoE)モデル「Lance」をリリースしました。Lanceは、Modality-Aware Rotary Positional Encoding (MaPE) を使用して、生成と理解の経路を明確に分離しています。ローカルで実行するには高性能な開発者用GPUが必要ですが、個別のモデルを切り替えることなく、統合されたマルチモーダル処理を提供します。
- • 画像と動画の両方の理解、生成、編集のための統合アーキテクチャです。
- • Apache 2.0ライセンスの下でリリースされ、重みはHugging Faceで入手可能です。
- • 少なくとも40GBのVRAMとCUDA 12.4以上を搭載したGPUが必要です。
- • GenEvalで0.90、VBenchで85.11を記録し、現在の統合モデルの中で最高スコアを達成しました。
マルチモーダルな動画および画像アプリケーションを構築するための、Apache 2.0ライセンスのオープンウェイトな代替手段を提供します。