Audesso | Daily: AI

研究者が16倍の入力圧縮を実現する「Latent Context Language Models」を発表

00:00 / --:--

← ホームへ戻る

研究者が16倍の入力圧縮を実現する「Latent Context Language Models」を発表

1. 研究者が16倍の入力圧縮を実現する「Latent Context Language Models」を発表

ニューヨーク大学、コロンビア大学、プリンストン大学などの研究者らが、長文コンテキスト処理における計算上のボトルネックを解決するために設計されたオープンソースのエンコーダー・デコーダーモデル群「Latent Context Language Models (LCLMs)」を発表しました。0.6Bのエンコーダーと4Bのデコーダーを組み合わせることで、LCLMsは入力トークンシーケンスをデコーダーに渡す前に圧縮します。この手法により、16倍圧縮時には標準的なKVキャッシュベースラインと比較して最大8.8倍の高速化を実現し、他の圧縮手法よりも高い精度を達成しています。

  • LCLMsは、入力トークンシーケンスをデコーダーに渡す前に圧縮するオープンソースのエンコーダー・デコーダーモデル群です。
  • RULERベンチマークにおいて、16倍圧縮時のLCLMsはKVキャッシュベースラインより8.8倍高速な出力を生成しました。
  • 4倍圧縮時、LCLMsはRULERで91.76%の精度を達成しました(圧縮なしの場合は94.41%)。
  • 16倍圧縮時、LCLMsは75.06%の精度を達成し、同倍率のすべてのKVキャッシュ手法を上回りました。
  • このアーキテクチャは0.6Bのエンコーダーと4Bのデコーダーを組み合わせ、3500億トークン以上で学習されています。
  • モデルはHuggingFaceでオープンソース化されており、コードはGitHubで公開されています。

このオープンソースアーキテクチャにより、開発者は高い精度を維持しながら、巨大なコンテキストウィンドウを最大8.8倍高速に処理できるようになります。

SOURCES

2. Anthropic、「Claude Fable 5」のサイレントガードレールに関する方針を撤回

Anthropicは、新しい「Claude Fable 5」モデルの応答を密かに低下させていた物議を醸す方針を謝罪し、撤回しました。同社は、利用規約で禁止されているモデル蒸留に競合他社や研究者がFable 5の出力を使用することを防ぐため、目に見えないガードレールを実装していました。性能のサイレント低下や過度に広範な安全ブロックに対する広範な反発を受け、Anthropicは今後、クエリが安全性のフォールバックをトリガーした際にユーザーへ明示的に通知し、そのリクエストを以前のフラッグシップモデルである「Claude Opus 4.8」にルーティングするように変更します。

  • Anthropicは、モデル蒸留を防ぐために隠されたガードレールを使用してClaude Fable 5を密かに制限していたことを謝罪しました。
  • 同社は以前、ユーザーに通知することなく、蒸留の疑いがあるクエリに対する応答を変更・低下させていました。
  • Anthropicはアプローチを変更し、蒸留の疑いがあるクエリをClaude Opus 4.8にルーティングし、フォールバックについてユーザーに明示的に通知します。
  • Fableは、Anthropicの「Mythos」クラスのAIシステムとして広く利用可能な最初のモデルです。
  • Anthropicは、生物学などの分野における安全対策が広範に調整されていたため、Fableが基本的なクエリに対しても使用不能になる場合があったことを認めました。
  • この方針転換は、サイレントな制限に対するAI研究コミュニティからの大きな反発を受けたものです。

Claude Fable 5を使用する開発者は、今後サイレントな性能低下を経験することはなくなり、クエリがClaude Opus 4.8に再ルーティングされる場合は明示的な通知を受け取ることになります。

3. xAIが「Grok Build Plugin Marketplace」を立ち上げ

xAIは、ターミナルネイティブなコーディングエージェント向けの組み込みカタログである「Grok Build Plugin Marketplace」を立ち上げました。このマーケットプレイスでは、スキル、スラッシュコマンド、エージェント、フック、MCPサーバー、言語サーバープロトコル(LSP)をバンドルしたパッケージをインストールできます。サプライチェーンセキュリティを確保するため、プラットフォームは40文字のコミットSHAピン留めを強制し、クローン後にハッシュを再検証します。マーケットプレイスは、Vercel、MongoDB、Cloudflareなどの統合を含む6つのパートナープラグインで開始されました。

  • Grok Build Plugin Marketplaceは、xAIのターミナルコーディングエージェント「Grok Build」のための組み込みカタログです。
  • プラグインは、スキル、スラッシュコマンド、エージェント、フック、MCPサーバー、LSPを単一のパッケージにまとめます。
  • ローンチパートナーには、MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare、Superpowersが含まれます。
  • すべてのリモートプラグインは40文字のコミットSHAピン留めを使用しており、Grok Buildはサプライチェーンセキュリティのためにクローン後にこれを再検証します。
  • カタログはGitHubのプルリクエストを通じてコミュニティからの貢献を受け付けています。
  • アクセスには、有料のSuperGrokまたはX Premium Plusサブスクリプションが必要です。

Grok Buildを使用する開発者は、VercelやMongoDBなどのプロバイダーが提供するスキル、MCPサーバー、ツールをパッケージ化された形式でターミナルエージェントに簡単に拡張できるようになりました。

SOURCES

4. Perplexityが「Deep Research」をマルチモデルオーケストレーターに統合

Perplexityは、その「Deep Research」機能を、Opus 4.6をコア推論エンジンとして最大20のフロンティアAIモデルを調整するマルチモデルオーケストレーションシステム「Computer」に統合しました。「Search as Code」パラダイムに基づいて動作するこのシステムは、コードを記述・実行して数千の並列検索ステップを実行し、ライブWebデータとアップロードされたPDFやスプレッドシートを相互参照します。この機能はPerplexity Maxに組み込まれていますが、開発者は従量課金制のAgent APIを通じて基盤となるエージェント型検索スタックにアクセスできます。

  • Perplexityは、最大20のフロンティアモデルを調整するオーケストレーションシステム「Computer」にDeep Researchを統合しました。
  • このシステムは「Search as Code」アプローチを採用し、コードを記述・実行して数千の並列検索ステップを実行します。
  • 開発者は、従量課金制のAgent APIを通じてこのエージェント型検索スタックにアクセスできます。
  • システムは、ライブWebデータと並行してPDFやスプレッドシートなどの内部ファイルを処理できます。
  • Perplexityはベンチマークの改善を報告しており、BrowseCompの精度が40.7%から83.8%に向上しました。

開発者は、Perplexityの高度なエージェント型検索およびマルチモデルオーケストレーションスタックに、従量課金制のAgent APIを通じてアクセスできるようになりました。

SOURCES

5. MicrosoftがAIエージェントのスキルを自動最適化する「SkillOpt」をリリース

Microsoftは、AIエージェントのスキルを体系的に最適化するために設計されたMITライセンスのフレームワーク「SkillOpt」をオープンソース化しました。SkillOptは、基盤となるモデルの重みを変更するのではなく、テキストベースのマークダウンスキルドキュメントを学習可能なオブジェクトとして扱い、学習率、検証ゲート、モメンタムといったディープラーニングの概念を適用して指示を洗練させます。このフレームワークは、タスク実行モデルとオプティマイザーモデルを分離する反復的な提案・テストループを実行し、スキルドリフトのような一般的な失敗モードを防ぐ、コンパクトでポータブルなスキルアーティファクトを生成します。

  • SkillOptは、マークダウンスキルドキュメントを学習可能なオブジェクトとして扱うことでAIエージェントのスキルを最適化する、MITライセンスのオープンソースフレームワークです。
  • このフレームワークは、学習率、検証ゲート、モメンタムを含むディープラーニングスタイルの最適化手法を使用します。
  • タスク実行モデルとオプティマイザーモデルを分離する反復的な提案・テストループを通じて動作します。
  • 最適化されたスキルアーティファクトはコンパクト(中央値約920トークン)で、さまざまな実行ハーネスやモデルスケール間でポータブルです。
  • SkillOptは、52のモデルとベンチマークの組み合わせにおいて、TextGrad、GEPA、EvoSkillなどの既存手法を上回りました。
  • 単一タスクのスキル学習には、通常1ドルから5ドルのAPI料金がかかります。

開発者は、マークダウンのプロンプト指示を学習可能でポータブルな資産として扱うことで、エージェントのパフォーマンスを体系的に向上させ、スキルドリフトを防ぐことができます。

SOURCES

6. Xiaomiがターミナルコーディングアシスタント「MiMo Code」をオープンソース化

Xiaomiは、MITライセンスの下でリリースされたオープンソースのターミナルネイティブAIコーディングアシスタント「MiMo Code V0.1.0」を発表しました。OpenCodeエージェントからフォークされたMiMo Codeは、200ステップを超える複雑で超長文のソフトウェアエンジニアリングタスクを処理するように設計されています。コンテキストを管理するために、SQLite FTS5クロスセッションメモリシステムとチェックポイントライターサブエージェントを利用しています。Xiaomiは、このツールが「MiMo-V2.5-Pro」モデルと組み合わせた場合にSWE-benchベンチマークでClaude Codeを上回ると主張しており、標準的なOpenAI互換バックエンドをサポートしています。

  • Xiaomiは、OpenCodeエージェントのフォークとして、MITライセンスの下でMiMo Code V0.1.0をGitHubでリリースしました。
  • このツールは、SQLite FTS5を使用したクロスセッションメモリシステムと、専用のチェックポイントライターサブエージェントを備えています。
  • Xiaomiは、MiMo-V2.5-Proと組み合わせたMiMo Codeが、SWE-bench VerifiedおよびSWE-bench ProでClaude Codeを上回ると主張しています。
  • このアシスタントには、自己改善メカニズム、自律開発のためのComposeモード、音声制御が含まれています。
  • 100万トークンのコンテキストウィンドウを備えたMiMo-V2.5モデルへの期間限定の無料アクセスを提供します。
  • このツールは、OpenAI互換APIやDeepSeekを含むサードパーティのバックエンドをサポートしています。

開発者は、長文コンテキストやマルチステップのソフトウェアエンジニアリングタスクに最適化された、Claude Codeの無料のオープンソース代替品を採用できます。

SOURCES

7. Nous Researchが「Hermes Agent Profile Builder」を立ち上げ

Nous Researchは、オープンソースの「Hermes Agent」向けに、プロジェクトのローカルWebダッシュボードに直接統合された「Profile Builder」をリリースしました。このツールは、エージェント設定のためのガイド付きフローを提供し、開発者がメモリ、セッション、スキル、cronジョブ、状態データベースを個別に保持する分離されたエージェントプロファイルを管理できるようにします。ビルダーは設定をエージェントのネイティブなYAMLおよび環境ファイルに直接書き込み、主要なモデルプロバイダーやカスタムのOpenAI互換エンドポイントをサポートしています。

  • Profile Builderは、デフォルトでlocalhost上で実行されるHermes AgentローカルWebダッシュボードに統合されています。
  • Hermes Agentプロファイルは、メモリ、セッション、スキル、状態データベースを個別に持つ分離されたホームディレクトリとして機能します。
  • ビルダーを使用すると、ユーザーはエージェントのアイデンティティの設定、モデルプロバイダーの選択、スキルの管理、MCPサーバーの接続が可能です。
  • サポートされているプロバイダーには、Nous Portal、OpenRouter、NVIDIA、OpenAI、およびカスタムのOpenAI互換エンドポイントが含まれます。
  • このツールは、Hermes Agent CLIで使用されるconfig.yamlおよび.envファイルに設定を直接書き込みます。
  • 現在の制限には、ローカルファイルシステムのサンドボックス化の欠如や、変更を反映するためにセッションを再起動する必要がある点が含まれます。

開発者は、YAMLファイルを直接編集することなく、分離された環境でエージェントのアイデンティティ、スキル、MCPサーバーを視覚的に設定できるようになりました。

SOURCES

8. Open R1プロジェクトがDeepSeek-R1複製用のデータセットとレシピをリリース

Open R1プロジェクトは、いくつかの高品質なデータセットと学習レシピをリリースすることで、DeepSeek-R1パイプラインの完全なオープンな再現に向けて大きく前進しました。これには、35万件の検証済み推論トレースを含む「Mixture-of-Thoughts」データセット、競技プログラミング用の「CodeForces-CoTs」データセット、および「OpenR1-Math-220k」データセットが含まれます。開発者は、DeepSpeedやvLLMなどのフレームワークと併せてこれらのリソースを活用し、推論能力をより小さなベースモデルに学習・蒸留させることができます。

  • Open R1プロジェクトは、合成データや学習を含むDeepSeek-R1パイプラインの完全なオープンな再現を提供することを目指しています。
  • プロジェクトは、35万件の検証済み推論トレースを含むMixture-of-Thoughtsデータセットと、OpenR1-Distill-7Bモデルのレシピをリリースしました。
  • また、1万件の競技プログラミング問題を含むCodeForces-CoTsデータセットと、OpenR1-Math-220kデータセットもリリースしました。
  • パイプラインは、DDP、DeepSpeed、vLLMを使用した教師あり微調整(SFT)およびグループ相対ポリシー最適化(GRPO)をサポートしています。
  • プロジェクトには、CUDA 12.4、Python 3.11、PyTorch v2.6.0などの特定のソフトウェアバージョンが必要です。

開発者は、これらのオープンなデータセットとレシピを使用して、高度な推論能力を備えた独自のローカルモデルを微調整できます。

SOURCES

9. Coinbaseが「x402」決済プロトコルを備えたAIトレーディングエージェントを立ち上げ

Coinbaseは、暗号資産のスポット取引やデリバティブ取引の実行、ポートフォリオのリバランス、プレミアムリサーチの購入が可能な新しいAIエージェントを導入しました。重要な点として、エージェントはAWS、Anthropic、Circle、Nearと共同開発された新しい「x402」決済プロトコルを活用し、サブスクリプションなしで従量課金ベースでリサーチデータや計算リソースの支払いを行います。開発者は、提供されたMCPサーバーを使用して、これらの機能をChatGPTやClaudeに直接統合できます。

  • Coinbaseは、取引の実行、ポートフォリオのリバランス、プレミアムリサーチの支払いができるAIエージェントを立ち上げました。
  • エージェントは、AWS、Anthropic、Circle、Nearと共同開発された新しいx402決済プロトコルを活用し、サブスクリプションなしでリサーチや計算リソースの支払いを行います。
  • エージェントは、MCPサーバーを介してChatGPTやClaudeに統合できます。
  • ユーザーは、メインアカウント内でエージェントを実行するか、別のサンドボックス内で操作することができます。
  • 今後のアップデートでは、取引サイズ、サービスインタラクション、支出に対するカスタム制限が導入される予定です。

開発者は、従来のサブスクリプションを必要とせずに、APIサービス、計算リソース、リサーチデータの支払いを自律的に行う金融エージェントを構築できるようになりました。

SOURCES

10. Cursorが「Bugbot」をアップデート、3倍の高速化とコスト削減を実現

Cursorは、自動コードレビューツール「Bugbot」のメジャーアップデートをリリースしました。このツールは3倍以上高速に動作するようになり、ほとんどのコードレビューが3分以内に完了します。速度の向上に加え、今回のアップデートにより実行コストが22%削減され、レビューあたりのバグ検出率が10%向上しました。

  • CursorはBugbotツールをアップデートし、以前のバージョンより3倍以上高速に動作するようにしました。
  • アップデートにより、Bugbotの実行コストが22%削減されました。
  • Bugbotはアップデート後、レビューごとに10%多くのバグを発見できるようになりました。
  • ほとんどのBugbotの実行は、現在3分以内に完了します。

Cursorを使用する開発者は、ワークフロー内で直接、より高速で安価、かつ正確な自動コードレビューを実行できるようになりました。

SOURCES

11. Show HN: libghosttyベースのターミナルマルチプレクサ「Boo」

「boo」という新しいターミナルマルチプレクサがMITライセンスの下でリリースされました。Zigで記述され、libghostty-vtターミナルエミュレーションコアを搭載したbooは、セッション永続性を備えたGNU screenスタイルのマルチプレクサとして機能します。AI開発者にとって重要な点として、このツールには「send」、「peek」、「wait」といったネイティブな自動化プリミティブが含まれており、スクリプトや自律型AIエージェントが標準のTTYを必要とせずにターミナルセッションと直接対話できるようになっています。

  • booは、Zigで記述され、libghostty-vtコア上に構築されたGNU screenスタイルのターミナルマルチプレクサです。
  • このツールは、SGRスタイル、カーソル位置、ターミナルモードを含む正確な画面状態を維持します。
  • スクリプトやAIエージェントがTTYなしでセッションと対話するための「send」、「peek」、「wait」などの自動化プリミティブを提供します。
  • ソフトウェアには、「boo ui」コマンドからアクセスできるフルスクリーンセッションマネージャーが含まれています。
  • MITライセンスの下でリリースされており、ソースからビルドするにはZig 0.15.2が必要です。

開発者は、Booの組み込み自動化プリミティブを使用して、TTYを必要とせずにAIエージェントがプログラムでターミナルセッションと対話できるようにすることができます。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。