Audesso | Daily: AI

Huawei、vLLM向けKVキャッシュ量子化で3〜5倍の高速化を実現する「KVarN」をオープンソース化

00:00 / --:--

← ホームへ戻る

Huawei、vLLM向けKVキャッシュ量子化で3〜5倍の高速化を実現する「KVarN」をオープンソース化

1. Huawei、vLLM向けKVキャッシュ量子化で3〜5倍の高速化を実現する「KVarN」をオープンソース化

Huaweiは、長文脈やエージェントワークロード向けにKVキャッシュ量子化を最適化する、vLLM用のネイティブアテンションバックエンド「KVarN」をオープンソース化しました。KVarNは、モデルの変更やキャリブレーションを必要とせず、4段階のプロセス(アダマール変換、反復分散正規化、非対称丸め量子化)を通じてKVキャッシュを3〜5倍に圧縮します。FP16と比較して最大1.3倍、TurboQuantと比較して最大2.4倍のスループットを実現しつつ、FP16と同等の推論精度を維持します。

  • KVarNはKVキャッシュ容量を3〜5倍に拡大し、FP16比で最大1.3倍のスループットを実現します。
  • モデルの変更やキャリブレーションが不要なvLLMネイティブのアテンションバックエンドとして実装されています。
  • デフォルト設定(kvarn_k4v2_g128)では、4ビットのキーと2ビットの値を使用します。
  • FP16と同等の推論精度を維持しながら、TurboQuantと比較して最大2.4倍のスループットを達成します。
  • vLLM v0.22.0をベースに構築されており、Apache 2.0ライセンスで公開されています。

vLLMで長文脈やエージェントワークロードを実行する開発者は、モデルの再学習やキャリブレーションを行うことなく、サービング容量とスループットを大幅に向上させることができます。

SOURCES

2. StanfordとLambda Labs、ローカルエージェントフレームワーク「OpenJarvis」を公開

スタンフォード大学とLambda Labsの研究チームは、オンデバイスAIエージェントを実行するためのオープンソースのローカルファーストフレームワーク「OpenJarvis」を立ち上げました。このフレームワークは「spec」と呼ばれる宣言型設定オブジェクトを使用し、エージェントシステムを5つの交換可能なプリミティブに分解します。最適化中にクラウド上の教師モデルを用いたLLMガイド付きspec検索を活用することで、OpenJarvisは推論時にクラウドへの呼び出しを一切行わずにローカルモデルを実行可能にし、クラウド上のトップモデルと遜色ない性能を、800分の1の限界APIコストで実現します。

  • OpenJarvisは、Apache 2.0ライセンスで公開されたオープンソースのローカルファーストフレームワークです。
  • AIシステムを「Intelligence」「Engine」「Agents」「Tools & Memory」「Learning」の5つのプリミティブに分解します。
  • LLMガイド付きspec検索とクラウド教師モデルを使用してローカルspecを最適化し、推論時のクラウド呼び出しをゼロにします。
  • Qwen3.5、Gemma4、Nemotron、Graniteなど、4つのファミリーにわたる11種類のローカルモデルをサポートしています。
  • ToolCall-15やPinchBenchなどのベンチマークにおいて、クラウドモデルと同等以上の性能を達成しました。
  • 25以上のデータコネクタと32のメッセージングチャネルを標準サポートしています。

開発者は、APIコストを800分の1、レイテンシを4分の1に削減しつつ、クラウド上のトップモデルと3.2パーセントポイント以内の性能差で動作する、高性能なローカルエージェントを構築できます。

SOURCES

3. Anthropic、「Claude Code」のOSレベルのサンドボックスとセキュリティ対策を詳細に解説

Anthropicは、Claude CodeやClaude Coworkを含むエージェント製品のセキュリティ封じ込め戦略を詳細に説明しました。ユーザーの誤用、モデルの不適切な動作、外部からの攻撃を防ぐため、Claude CodeはOSレベルのサンドボックス(macOSではSeatbelt、Linuxではbubblewrap)を使用して実行を分離し、Claude Coworkは完全な仮想マシン内で実行されます。Anthropicは、セキュリティ防御は環境レイヤーでの封じ込めに優先順位を置くべきだと強調しており、内部のレッドチーミングにおいて悪意のあるプロンプトによるAWS認証情報の流出といったリスクが実証されたと指摘しています。

  • Claude CodeはOSレベルのサンドボックス(macOSはSeatbelt、Linuxはbubblewrap)を利用し、権限確認プロンプトを84%削減しています。
  • Claude Codeの自動モードは、過剰なエージェント動作の約83%を実行前に検知します。
  • Claude Coworkは、エージェントを分離するために完全な仮想マシンアーキテクチャ(AppleのVirtualizationフレームワークまたはWindows HCS)を採用しています。
  • Claude Codeにおいて、信頼境界を確立する前にプロジェクトローカルの設定が解析される脆弱性が報告されました。
  • 内部レッドチーム演習により、従業員がフィッシングによって悪意のあるプロンプトでClaude Codeを起動させ、AWS認証情報を流出させられる可能性が実証されました。
  • Anthropicは、モデルレイヤーでの動作制御よりも、環境レイヤーでの封じ込めを優先するよう助言しています。

エージェント型のコーディングツールを構築または利用する開発者は、悪意のあるプロンプトや不正な認証情報の流出に対して、どのように環境を保護すべきかを学ぶことができます。

SOURCES

4. Anthropic、自律的な脆弱性発見のためのリファレンス実装をオープンソース化

Anthropicは、Claudeを活用した脆弱性の自律的な発見と修正のためのリファレンス実装を公開しました。このオープンソースのパイプラインは、リポジトリのスキャン、問題のトリアージ、パッチの提案を行うように設計されており、特にDockerとAddressSanitizer(ASAN)を使用したC/C++のメモリ脆弱性を対象としています。実行時の安全性を確保するため、パイプラインはgVisorサンドボックスを使用して自律エージェントを分離し、Bedrock、Vertex、Azure上のClaude APIをサポートしています。

  • このリポジトリは、Claudeを使用した脆弱性の自律的な発見と修正のためのリファレンス実装を提供します。
  • パイプラインはgVisorサンドボックスを使用して、実行中の自律エージェントを分離します。
  • DockerとAddressSanitizer(ASAN)を使用してC/C++のメモリ脆弱性を発見するように構成されています。
  • プロセスは「Build」「Recon」「Find」「Verify」「Dedupe」「Report」「Patch」の7つのステージで構成されています。
  • Bedrock、Vertex、Azureを含むClaude APIをサポートしています。
  • このリポジトリはメンテナンスされておらず、コントリビューションも受け付けていません。

開発者は、構造化されたサンドボックス化されたパイプラインを導入し、コードベース内のC/C++メモリ脆弱性を自動的にスキャン、トリアージ、パッチ適用できるようになります。

SOURCES

5. Boxes.dev、Claude Code向けクラウド専用エージェント開発環境をローンチ

Nick氏とDrew氏が、専用のリモートコンピューティング上でClaude CodeおよびCodexエージェントを実行するために設計された、クラウド専用のエージェント開発環境「boxes.dev」を立ち上げました。開発者の環境のクラウドスナップショット上でエージェントを実行することで、ローカルのリソース制約やgitワークツリー管理の問題を解決します。このサービスには、デスクトップアプリ、モバイルアプリ、スケジュール自動化、Slack連携が含まれています。

  • Boxes.devは、CodexおよびClaude Codeエージェントを実行するための専用クラウドコンピュータを提供します。
  • このプラットフォームは、gitワークツリー管理やリソース制約といったローカル開発の制限を解決することを目的としています。
  • ユーザーは、開発環境全体のクラウドスナップショットを使用して、リモートコンピューティング上でエージェントを実行できます。
  • デスクトップアプリ、モバイルアプリ、スケジュール自動化、Slack連携などの機能を備えています。

開発者は、リソースを大量に消費するコーディングエージェントをローカルマシンからオフロードし、リモートコンピューティングのスナップショット上でエージェントを実行することで、gitワークツリーの競合を回避できます。

SOURCES

6. Miso Labs、オープンウェイトのテキスト読み上げモデル「MisoTTS 8B」をリリース

Miso Labsは、修正MITライセンスの下で、80億パラメータのオープンウェイト・テキスト読み上げモデル「MisoTTS」をリリースしました。このモデルは残差ベクトル量子化(RVQ)アーキテクチャを採用しており、時間予測用の77億パラメータのバックボーンと、深さ予測用の3億パラメータのデコーダーを組み合わせています。MisoTTSはテキストと音声コンテキストの両方を条件として話者のトーンを再現し、半二重の単一ターン対話において110msというレイテンシを実現したと主張しています。

  • MisoTTSは、修正MITライセンスでリリースされた80億パラメータのオープンウェイト・テキスト読み上げモデルです。
  • モデルは残差ベクトル量子化(RVQ)アーキテクチャを使用しており、77億のバックボーンと3億のデコーダーで構成されています。
  • テキストと音声コンテキストの両方を条件として、話者のトーンに応答します。
  • Miso Labsは、Sesameの300msやElevenLabsの700msと比較して、110msのレイテンシを主張しています。
  • このモデルは現在、半二重の単一ターン対話に限定されています。

開発者は、商用代替品よりも大幅に高速な110msのレイテンシを謳う、応答性が高く感情豊かなTTSモデルをセルフホストできます。

SOURCES

7. Gradio 6.16.0リリース、セキュリティパッチと設定可能なハートビート機能を導入

Gradioバージョン6.16.0がリリースされ、いくつかのセキュリティパッチと機能アップデートが導入されました。今回のリリースでは、`gr.FileExplorer`におけるパストラバーサル脆弱性、OAuthにおけるオープンリダイレクトバイパス、およびImage、Gallery、AudioのポストプロセッシングにおけるSSRF脆弱性に対処しています。さらに、`GRADIO_HEARTBEAT_INTERVAL`環境変数による設定可能なセッションハートビート機能が導入され、MCPエンドポイントがブラウザでランディングページを表示するように更新されました。

  • Gradio 6.16.0では、`GRADIO_HEARTBEAT_INTERVAL`環境変数を通じて設定可能なハートビート機能が導入されました。
  • MCPエンドポイントは、ブラウザからアクセスした際にランディングページを表示するように更新されました。
  • セキュリティパッチは、`gr.FileExplorer`のパストラバーサル、OAuthのオープンリダイレクトバイパス、Image/Gallery/AudioのSSRFに対処しています。
  • DataframeおよびTabsのブラウザフリーズに関するバグ修正が含まれています。

Gradioを使用している開発者は、パストラバーサル、オープンリダイレクト、SSRFの脆弱性を修正し、より優れたセッション制御を得るために、直ちにアップデートを行うべきです。

SOURCES

8. NVIDIA、UI理解のためのローカルモデル「LocateAnything 3B」をリリース

NVIDIAは、UI自動化と画面理解のためにローカルで実行するように設計された軽量モデル「LocateAnything 3B」をリリースしました。このモデルは、グラウンディング、OCR、UI理解を組み合わせ、口頭での説明に基づいてオブジェクト、ボタン、テキストを即座に特定します。これにより、開発者は画面を認識するローカルなエージェントワークフローを構築できます。

  • NVIDIAは、ローカルで実行するように設計されたLocateAnything 3Bモデルをリリースしました。
  • モデルはグラウンディング、OCR、UI理解を組み合わせています。
  • 口頭での説明に基づいて、オブジェクト、ボタン、テキストを即座に特定します。

開発者は、この軽量なローカルモデルを統合することで、クラウドAPIに依存することなく、画面を認識するエージェントや音声制御のUI自動化ツールを構築できます。

SOURCES

9. NVIDIA、間接的プロンプトインジェクションに対するエージェント安全データセットを公開

NVIDIAは、開発者がツールを使用するエージェントのセキュリティを評価できるように、Hugging Face上でエージェント安全データセットを公開しました。このデータセットには、9つのエンタープライズドメインにわたる1,272件の合成レッドチーミングレコードが含まれており、ツールが返すデータに埋め込まれた間接的プロンプトインジェクションに対してエージェントが耐性を持てるかどうかをテストするように設計されています。

  • NVIDIAはHugging Faceでエージェント安全データセットを公開しました。
  • データセットは1,272件の合成レッドチーミングレコードで構成されています。
  • 9つの異なるエンタープライズドメインをカバーしています。
  • ツールが返すデータに隠された間接的プロンプトインジェクションに対して、ツールを使用するエージェントをテストするように設計されています。

開発者はこのデータセットを使用して、外部データソースに隠された悪意のあるペイロードに対して、ツールを使用するエージェントを評価し、強化することができます。

SOURCES

10. BeeLlama v0.3.1、llama.cppのアップストリーム統合とローカル推論の高速化を実現

BeeLlama v0.3.0およびv0.3.1がリリースされ、アップストリームのllama.cppに準拠したアーキテクチャ更新が行われました。このアップデートでは、Gemma 4 12B、マルチGPU DFlash構成、q6_0 KVキャッシュ、および新しい量子化オプションのサポートが導入されました。単一のRTX 3090でのベンチマークでは、Qwen 3.6 27BおよびGemma 4 31Bモデルにおいて、ベースライン性能と比較して最大4.93倍の高速化が実証されました。

  • BeeLlama v0.3.0およびv0.3.1は、アップストリームのllama.cppに準拠し、MTPおよびGemma 4 12Bサポートを統合しました。
  • DFlashは、マルチスロットおよびマルチGPU構成を処理できるように改善されました。
  • すべての主要プラットフォーム向けのビルド済みバイナリとDockerイメージを提供します。
  • q6_0 KVキャッシュおよびTQ3_1S/TQ4_1Sモデル量子化オプションのサポートを追加しました。
  • RTX 3090でのベンチマークでは、DFlashがQwen 3.6 27BおよびGemma 4 31Bモデルで最大4.93倍の高速化を達成しました。

ローカルモデルを実行する開発者は、ビルド済みのバイナリとDockerイメージを活用して、Qwen 3.6およびGemma 4モデルの推論を加速できます。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。