1. Hugging Faceでサイバーセキュリティ特化型オープンウェイトモデル「OpenMythos」が公開
「Build Small Hackathon」向けに開発されたOpenMythosは、汎用モデルがCVEの詳細をハルシネーションしたり、脆弱性パターンを見逃したりする傾向に対処するために設計された新しいオープンウェイトLLMです。このモデルは、ArXivのcs.CR論文から抽出された1.84K件の高品質なレコードと、構造化されたCVEデータセットで学習されました。学習パイプラインでは、教師ありファインチューニング(SFT)の後に、GitHubの脆弱なブランチと修正済みブランチのペアに対してコード出力を検証する「検証器付き強化学習(RLVR)」ステージが採用されています。モデルとデータセットは現在Hugging Faceで公開されています。
- • OpenMythosは「Build Small Hackathon」向けに開発されたオープンソースLLMで、サイバーセキュリティタスクに特化して学習されています。
- • 学習データには、1万件のArXiv cs.CR論文からフィルタリングされた1.84K件の高品質レコードと、構造化されたCVEデータセットが含まれています。
- • 学習パイプラインでは、教師ありファインチューニング(SFT)の後に、検証器付き強化学習(RLVR)ステージが使用されました。
- • RLVRステージでは、脆弱なブランチと修正済みブランチのペアを持つGitHubリポジトリを使用して、モデルの出力を正解データと照合し検証しました。
- • モデル、デモ、およびデータセットはHugging Faceからダウンロード可能です。
セキュリティ重視のAI機能を構築する開発者は、OpenMythosをセルフホストすることで、汎用LLMに頼ることなく、高精度なCVE詳細情報や脆弱性分析を得ることができます。
2. OpenRouterがマルチモデル合成・審議ツール「Fusion」をリリース
OpenRouterは、専門モデルのパネルから得られた結果を単一の回答に統合するマルチモデル審議ツール「Fusion」を立ち上げました。このシステムは、プロンプトを参加モデルに並列で送信し、その後ジャッジモデルを使用してコンセンサス、矛盾、独自の洞察を分析します。深層リサーチベンチマーク「DRACO」の評価では、Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Proで構成される予算重視のパネルが、Fable 5の半分のコストでGPT-5.5やOpus 4.8といったフロンティアモデルを上回る性能を示しました。このツールはOpenAI互換のAPIスラッグ経由で利用可能です。
- • OpenRouter Fusionを使用すると、開発者は参加モデルのパネルとジャッジモデルを設定して出力を統合できます。
- • Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Proのパネルは、DRACOベンチマークでGPT-5.5やOpus 4.8を上回り、Fable 5より50%低いコストを実現しました。
- • このツールは、プロンプトを並列送信し、ジャッジモデルがコンセンサスや矛盾を分析して最終回答を生成する仕組みで動作します。
- • Fusionはチャットルーム、特定モデルのスラッグ、サーバーツール、またはプラグイン経由でアクセス可能で、完全にOpenAI互換です。
- • Fusionのリクエストは通常、標準的なモデル呼び出しより2〜3倍低速であり、価格はすべての基盤モデルの完了コストの合計となります。
開発者はFusionを使用することで、単一のOpenAI互換API呼び出しを通じて複数のモデルの強みを組み合わせ、複雑なリサーチや重要なタスクにおいてより高い精度を達成できます。
3. Sakana AIがリサーチエージェント「Marlin」をリリースし、アルゴリズム「TreeQuest」をオープンソース化
東京を拠点とするSakana AIは、最大8時間の継続的な推論ループを実行するように設計された自律型リサーチエージェント「Sakana Marlin」を初の商用製品としてリリースしました。この商用リリースと併せて、Sakana AIはMarlinの中核エンジンである「適応型分岐モンテカルロ木探索(AB-MCTS)」を、Apache 2.0ライセンスの下で「TreeQuest」というライブラリとしてオープンソース化しました。TreeQuestにより、開発者は独自のエージェントに推論時の計算スケーリングを実装でき、システムが探索パスを広げるか、既存の仮説を深めるかを動的に選択できるようになります。
- • Sakana AIは、長期間の推論タスク向けに設計された自律型B2Bリサーチエージェント「Sakana Marlin」をリリースしました。
- • Marlinを支える中核アルゴリズム「適応型分岐モンテカルロ木探索(AB-MCTS)」が、Apache 2.0ライセンスの下で「TreeQuest」としてオープンソース化されました。
- • AB-MCTSにより、エージェントは候補となる回答を広げるか、既存の回答を深めるかを選択することで、推論時の計算量をスケーリングできます。
- • Marlinは最大8時間の継続的な推論ループを実行し、包括的なレポートやスライドデッキを生成します。
- • Marlinは商用利用可能で、1クレジットあたり98円(1実行あたり100クレジット)の従量課金制を含む段階的な料金体系が用意されています。
開発者はオープンソースのTreeQuestライブラリを使用して、独自の自律エージェントアーキテクチャに高度なモンテカルロ木探索プランニングを実装できます。
4. Strands Agentsがクラウド非依存のエージェントフレームワークをオープンソース化
Strands Agentsは、GitHubで6,500以上のスターを獲得しているクラウド非依存のエージェントフレームワークをオープンソース化しました。このフレームワークは、コンテキスト管理、実行制限、可観測性など、AIエージェントを実行するための不可欠なインフラストラクチャを開発者に提供します。また、エージェントが自身のパフォーマンスを修正するための具体的なフィードバックを提供する自己修正ガードレールを備えており、開発者はアプリケーションコードを変更することなくLLMバックエンドを切り替えることができます。
- • Strands Agentsは、開発者が任意のクラウドプロバイダー上でAIモデルを実行できる無料のオープンソースフレームワークです。
- • このフレームワークはGitHubで6,500のスターを獲得しています。
- • 組み込みのコンテキスト管理、実行制限、可観測性、および自己修正ガードレールを備えています。
- • このプラットフォームはベンダーロックインを防ぐように設計されており、開発者はアプリケーションコードを変更せずにバックエンドを切り替えることができます。
開発者は、組み込みの可観測性と自己修正フィードバックループを活用しながら、ベンダーロックインなしでクラウド非依存のAIエージェントを構築・デプロイできます。
5. マルチエージェントフレームワーク「Orchestra-o1」がオープンソースのベースラインを上回る性能を達成
複雑なオムニモーダルタスクを処理するために、新しいマルチエージェントオーケストレーションフレームワーク「Orchestra-o1」が導入されました。このフレームワークは、大規模なタスクを専門エージェントが管理する並列サブタスクに分解することで動作します。OmniGAIAベンチマークでの評価において、Orchestra-o1は72.8%の精度を達成し、次点のオープンソース手法を10パーセントポイント以上上回りました。
- • Orchestra-o1は、複雑なオムニモーダルタスクを並列サブタスクに分解するように設計されたマルチエージェントオーケストレーションフレームワークです。
- • このフレームワークはOmniGAIAベンチマークで72.8%の精度を達成しました。
- • Orchestra-o1は、次点のオープンソース手法を10パーセントポイント以上上回る性能を示しました。
複雑なマルチモーダルエージェントシステムを構築する開発者は、Orchestra-o1フレームワークを採用することで、並列サブタスクを調整し、タスクの精度を大幅に向上させることができます。
6. AppleのFoundation ModelsフレームワークにClaudeを統合するSwiftパッケージが登場
新しいオープンソースのSwiftパッケージ「Claude for Foundation Models」は、AnthropicのモデルをAppleのネイティブなサーバーサイドLanguageModelフレームワークにもたらします。LanguageModelプロトコルに準拠したこのパッケージにより、開発者はAppleのLanguageModelSession APIを使用してClaudeと対話できます。プロンプトと応答はAppleを介さずにClaude APIへ直接送信され、利用料金は開発者のAnthropicアカウントに直接請求されます。このベータ版パッケージは、ストリーミング、ガイド付き生成、ツール呼び出し、サーバーサイドツールをサポートしています。
- • 「Claude for Foundation Models」Swiftパッケージは、ClaudeをAppleのFoundation Modelsフレームワークに統合します。
- • このパッケージはLanguageModelプロトコルに準拠しており、OS 27ベータ版で導入されたLanguageModelSession APIの使用を可能にします。
- • リクエストはClaude APIに直接送信されるため、Appleがプロンプトや応答を処理・閲覧することはありません。
- • ストリーミング、ガイド付き生成、ツール呼び出し、およびWeb検索やコード実行などのサーバーサイドツールをサポートしています。
- • このパッケージはApache 2.0ライセンスで提供されるベータ版であり、利用料金はユーザーのAnthropicアカウントに直接請求されます。
Appleエコシステムの開発者は、ネイティブなSwift APIを使用してClaudeをアプリに統合でき、プロンプトをAppleから秘匿しつつ、Anthropicアカウントへ直接課金することが可能です。
7. React Native ExecuTorchがGPUアクセラレーションによるオフラインGemma 4サポートを追加
react-native-executorchフレームワークがGoogleのGemma 4のサポートを追加し、開発者がReact Nativeアプリケーション内でモデルを完全にオフラインで実行できるようになりました。この統合にはハードウェアアクセラレーションが含まれており、AndroidデバイスではVulkanデリゲート、Apple SiliconではMLXデリゲートを利用します。開発者がデバイス上でのローカル推論を迅速に実装できるよう、プロジェクトのGitHubリポジトリでデモアプリケーションが公開されています。
- • Gemma 4がreact-native-executorchフレームワークに統合され、完全なオフライン実行が可能になりました。
- • GPUアクセラレーションは、AndroidではVulkanデリゲート、Apple SiliconではMLXデリゲートを介してサポートされています。
- • この統合を紹介するデモアプリケーションが、software-mansion/react-native-executorch GitHubリポジトリで公開されています。
モバイル開発者は、Gemma 4をReact Nativeアプリ内に直接デプロイし、AndroidおよびiOS上で完全にオフラインかつハードウェアアクセラレーションされたローカル推論を実現できます。
8. Flash-KMeansがGPU上でFAISSより200倍以上高速に動作
カリフォルニア大学バークレー校とテキサス大学オースティン校の研究者が、GPU上でFAISSと比較して標準的なLloydのk-meansクラスタリングを200倍以上高速化するオープンソースライブラリ「Flash-KMeans」をリリースしました。近似手法とは異なり、Flash-KMeansは標準的なk-meansと数学的に同一です。FlashAssignを使用して距離計算を融合し、Sort-Inverse Updateメソッドでアトミックな競合を減らすことでGPUデータフローを再構築し、高速化を実現しています。このライブラリはApache 2.0ライセンスで提供され、scikit-learnやFAISSと互換性のあるAPIを備えているため、ベクトル検索インデックス作成やKVキャッシュ圧縮パイプラインへの統合が容易です。
- • Flash-KMeansは、標準的なLloydのk-meansクラスタリングのためのオープンソースのIO認識型ライブラリであり、Apache 2.0ライセンスでリリースされています。
- • このライブラリは標準的なk-meansと数学的に同一であり、近似を使用する代わりにGPUデータフローを再構築することで高速化を実現しています。
- • NVIDIA H200上で、最良のベースラインに対して最大17.9倍、NVIDIA cuMLに対して33倍、FAISSに対して200倍以上のエンドツーエンドの高速化を報告しています。
- • Flash-KMeansはアウトオブコア処理をサポートしており、最大10億個のポイントのクラスタリングが可能です。
- • このライブラリはscikit-learnおよびFAISSと互換性のあるAPIを備えており、ドロップインでの置き換えが可能です。
ベクトル検索インデックス、スパースアテンションルーティング、またはKVキャッシュ圧縮パイプラインを構築する開発者は、Flash-KMeansを導入することで、数学的な精度を損なうことなくクラスタリングを劇的に高速化できます。
9. NewCoreが6,600万ドルを調達し、AIエージェント向けのID管理サービスを開始
サイバーセキュリティスタートアップのNewCoreは、自律型AIエージェントのセキュリティとガバナンスに対処するため、6,600万ドルの資金調達を行いステルス状態から脱却しました。NewCoreのプラットフォームは、エージェントを従来のサービスアカウントとして扱うのではなく、専用の権限とライフサイクル制御を持つ「ファーストクラスのID」として管理します。このプラットフォームは、認証情報を保護するためのスプリットキーアーキテクチャを特徴としており、Claude Code、Cursor、Codexなどの一般的な開発者ツールと互換性のある「Agentic Skill」統合パッケージを提供します。
- • NewCoreは、エンタープライズAIエージェント向けのID管理とガバナンスを提供するために、6,600万ドルの資金調達を行いステルス状態から脱却しました。
- • このプラットフォームは、AIエージェントを従来のサービスアカウントではなく、専用の権限とライフサイクル制御を持つファーストクラスのIDとして扱います。
- • ID認証情報を保護し、単一障害点による漏洩を防ぐためにスプリットキーアーキテクチャが使用されています。
- • NewCoreは、Claude Code、Codex、Cursorなどのコーディングアシスタント向けの「Agentic Skill」統合パッケージを提供しています。
- • 同社は現在デザインパートナーと協力しており、夏には顧客への課金を開始する予定です。
自律型エージェントをデプロイする開発者は、NewCoreのスプリットキーアーキテクチャを使用して統合を保護し、認証情報の漏洩を防ぎ、エージェントの権限を管理できます。
10. Lucebox-HubがQwen 3.6 27BのKVキャッシュを最適化し、ローカル生成速度を2倍に向上
Luce-Org/lucebox-hubリポジトリで文書化された新しい最適化により、Qwen3.6-27B Q4_K_Mモデルのローカル推論パフォーマンスが大幅に向上しました。72 MiBの高度に圧縮された常駐KVキャッシュを利用することで、この最適化は単一のRTX 3090におけるVRAM要件を21GBから17.5GBに削減し、生成速度を毎秒38.6トークンに倍増させました。キャッシュサイズの大幅な削減にもかかわらず、モデルはHumanEval、GSM、MATH全体で完全なコンテキスト精度と同一のベンチマークスコアを維持しています。
- • この最適化により、単一のRTX 3090 GPU上で毎秒38.6トークンの速度でネイティブな256Kコンテキストを実現します。
- • Qwen3.6-27B Q4_K_MモデルのVRAM使用量は21GBから17.5GBに減少し、コンテキスト精度は完全に維持されています。
- • この技術は72 MiBの常駐KVキャッシュを利用し、6%の常駐率で88〜100%のニードルリコールを維持します。
- • HumanEval、GSM、MATH、およびエージェントスイート全体において、フルキャッシュと比較して精度に変化はありません。
- • この最適化はLuce-Org/lucebox-hubリポジトリで文書化され、利用可能です。
ローカルモデルを実行する開発者は、Qwen3.6-27Bをネイティブな256Kコンテキストで単一のRTX 3090上で実行できるようになり、精度を完全に維持しながら3.5GBのVRAMを節約できます。