1. BitLockerバイパスの脆弱性が公開
Nightmare-Eclipseとして知られるセキュリティ研究者が、BitLockerで保護されたボリュームへの不正アクセスを可能にする「YellowKey」という脆弱性を公開しました。攻撃者はWindows回復環境を操作することで、パスワードなしでフルボリューム暗号化をバイパスできます。この欠陥はWindows 11、Windows Server 2022、およびWindows Server 2025に影響します。セキュリティ専門家は、公式パッチが完全に適用されるまで、VeraCryptなどの代替暗号化ツールの使用を推奨しています。
- • YellowKeyはWindows回復環境を介してBitLocker暗号化をバイパスする。
- • Windows 11、Windows Server 2022、Windows Server 2025に影響する。
- • Windows 10には影響しない。
- • セキュリティ専門家はVeraCryptなどの代替暗号化ソリューションの検討を推奨している。
機密性の高いAIワークロードをWindowsベースのインフラストラクチャに依存している開発者や組織にとって、この脆弱性は保存データに対する重大なリスクとなります。
2. AMD SEV-SNPの脆弱性が公開
研究者は、悪意のあるハイパーバイザーがAMD SEV-SNPのセキュリティを侵害できる脆弱性「CVE-2025-54510」を特定しました。Infinity Fabricのメモリルーティングを誤設定することで、攻撃者はセキュア・コプロセッサを欺いて環境を不適切に初期化させ、機密仮想マシン(Confidential VM)のメモリへの任意の読み取りおよび書き込みアクセス権を取得できます。このエクスプロイトは決定論的であり、Zen 3、Zen 4、およびZen 5 EPYCプロセッサに影響します。
- • エクスプロイトにより、ハイパーバイザーレベルで機密仮想マシンのメモリへのアクセスが可能になる。
- • AMD Zen 3、Zen 4、およびZen 5 EPYCプロセッサに影響する。
- • AMDはアドバイザリ「AMD-SB-3034」で修正プログラムをリリース済み。
- • 実行にはハイパーバイザーの権限が必要。
この脆弱性は、セキュアなマルチテナントAI推論および学習環境に不可欠な、ハードウェアレベルの分離を損なうものです。
3. Grafana LabsのGitHub侵害
Grafana Labsは最近、権限のない攻撃者が同社のGitHub環境にアクセスし、ソースコードをダウンロードしたセキュリティインシデントを公表しました。攻撃者は同社を恐喝しようとしましたが、GrafanaはFBIのガイダンスに従い、身代金の支払いを拒否しました。同社はその後、侵害された認証情報を無効化し、追加のセキュリティ対策を講じました。顧客データや個人情報が侵害されたという報告はありません。
- • GrafanaのGitHub環境への不正アクセスにより、ソースコードがダウンロードされた。
- • 顧客データや個人情報は侵害されていない。
- • Grafanaは恐喝の要求を拒否した。
- • この侵害はデータ恐喝グループ「CoinbaseCartel」に関連している。
このインシデントは、インフラストラクチャプロバイダーにとってのサプライチェーンおよびソースコード露出のリスクが継続していることを浮き彫りにしており、堅牢な認証情報管理の必要性を強調しています。
4. NousResearchがHermes Agentモデルをリリース
NousResearchは、Hermesエージェントの機能を強化するために設計された9Bパラメータモデルをリリースしました。このモデルはツール呼び出しとコーディングタスクにおいて大幅な改善を示しており、SWE-benchベンチマークで53.33%、HermesAgent-20ベンチマークで85のスコアを達成しました。開発者は、エージェント型ワークフローで最適なパフォーマンスを得るために、温度(temperature)を1.0に設定することが推奨されています。
- • ツール呼び出しとエージェント型コーディングに最適化された9Bパラメータモデル。
- • SWE-benchで53.33%を達成(200サンプルのスライス)。
- • HermesAgent-20ベンチマークでベースモデルを上回る性能。
- • エージェント型ワークフローの推奨温度は1.0。
このリリースは、信頼性の高いツール使用を必要とする自律型コーディングエージェントを構築する開発者向けに、高性能かつ小規模なモデルを提供します。
5. Qwopus3.5-9B-Coderがリリース
Qwopus3.5-9B-Coderモデルは、複雑なツール呼び出し、デバッグ、リポジトリレベルのタスク処理のために設計された9Bパラメータの密結合モデルです。16GBのRAMを搭載したデバイス上で8ビット精度で実行できるように最適化されており、標準的なノートPCやMac miniに適しています。このモデルは、論理的な一貫性とツール使用能力を向上させるために「Trace Inversion」データ拡張を統合しています。
- • コーディング、デバッグ、ツール呼び出しのための9B密結合モデル。
- • 16GB RAMデバイスでの8ビット精度実行に最適化。
- • 最小8GBのVRAMで動作可能。
- • 推論向上のためにTrace Inversionデータ拡張を使用。
このモデルは、ローカルハードウェア上で高品質なコーディングとツール呼び出し機能を必要とする開発者にとって、コンパクトで効率的な選択肢を提供します。
6. グラフ拡張RAGのためのアーキテクチャパターン
検索拡張生成(RAG)は、ベクトルのみのアプローチでは意味的な類似性は捉えられるものの、構造的なトポロジーを無視するため、相互に関連するデータに対して苦戦することがよくあります。グラフ拡張RAGは、ベクトル検索とグラフデータベースを組み合わせることで、階層や依存関係などの関係性を維持し、この問題に対処します。推奨されるアーキテクチャは、エンティティ抽出のためのインジェスト、ストレージのためのグラフデータベース、ベクトルスキャンとグラフ探索の両方を使用するハイブリッド検索の3層スタックです。
- • ベクトルのみのRAGは構造的な関係性を捉えられないことが多い。
- • グラフ拡張RAGはベクトル検索とグラフデータベースを組み合わせる。
- • アーキテクチャにはインジェスト、グラフストレージ、ハイブリッド検索が含まれる。
- • 規制の厳しい領域やマルチホップ関係クエリに推奨される。
規制の厳しい領域や複雑な領域でRAGシステムを構築する開発者にとって、グラフ拡張RAGはマルチホップクエリに対してより優れた説明可能性と精度を提供します。
7. Vercel LabsがZeroを導入
Zeroは、機械によるエラー処理とコード修復を容易にするために構築された実験的なシステムプログラミング言語です。コンパイラは、安定したエラーコードや型付きの修復IDを含む構造化されたJSON診断を出力し、AIエージェントがプログラム的にコードの問題を理解して修正できるようにします。この言語は機能ベースのI/Oを特徴とし、予測可能なメモリと制御フローを保証するために暗黙的な非同期処理やガベージコレクションを回避しています。
- • AIエージェントがネイティブプログラムを読み取り、修復し、出荷するために設計された。
- • 10 KiB未満のネイティブ実行ファイルにコンパイルされる。
- • 機械によるエラー処理のために構造化されたJSON診断を出力する。
- • 機能ベースのI/Oを特徴とし、必須のガベージコレクションはない。
Zeroは、ネイティブなシステムレベルのコードを操作・保守する必要がある自律型エージェントを構築する開発者向けに、専門的なツールチェーンを提供します。
8. Semble:エージェントのための効率的なコード検索
Sembleは、大規模なコードベースで作業するAIエージェントの効率を向上させるために設計されたコード検索ツールです。静的なModel2Vec埋め込みとBM25を組み合わせ、RRFで融合し、コード認識シグナルで再ランク付けを行います。このツールは完全にCPU上で動作し、外部APIキーを必要とせず、Claude CodeやCursorなどのMCPサーバーと互換性があります。より大きなTransformerモデルの検索品質の99%を達成しつつ、トークン使用量を大幅に削減します。
- • 検索に静的なModel2Vec埋め込みとBM25を使用。
- • 外部API依存なしで完全にCPU上で動作。
- • Claude Code、Cursor、その他のMCPサーバーと互換性がある。
- • grepベースの手法と比較してトークン使用量を98%削減。
Sembleは、外部の埋め込みサービスのオーバーヘッドなしに、エージェントが大規模なリポジトリをナビゲートするための費用対効果が高く高性能な方法を提供します。
9. LLM圧縮チュートリアルが公開
このチュートリアルは、llmcompressorライブラリを使用してLLMの学習後量子化を行うための実用的なフレームワークを提供します。FP16ベースライン、FP8動的量子化、GPTQ W4A16、SmoothQuant(GPTQ W8A8)の4つのバリエーションを比較します。ワークフローでは、キャリブレーションにUltraChat 200kデータセットを使用し、ディスクサイズ、生成レイテンシ、スループット、パープレキシティなどのパフォーマンス指標を評価します。
- • FP8、GPTQ、SmoothQuantの量子化手法を比較。
- • ディスクサイズ、レイテンシ、スループット、パープレキシティを評価。
- • 学習後量子化にllmcompressorライブラリを使用。
- • キャリブレーションにはUltraChat 200kデータセットから256サンプルを使用。
このガイドは、精度回復とハードウェア固有のパフォーマンス向上のバランスを取りながら、モデルのデプロイを最適化するのに役立ちます。
10. Llama.cppのアップデートでプロンプト処理が向上
llama.cppの最新アップデート(バージョンb9200)には、マルチトークン予測(MTP)の最適化が含まれています。プロンプト処理中にバッチ内のすべてのトークンのロジットをコピーすることを回避し、プリノルム(pre-norm)を活用することで、メモリトラフィックを削減します。この変更は、MTPを使用するモデルのプロンプト処理(PP)速度を向上させるために特別に設計されています。
- • Llama.cpp b9200がリリースされた。
- • メモリトラフィックを削減するためにMTPロジット最適化を導入。
- • プロンプト処理(PP)速度が向上。
- • 冗長なロジットコピーを回避するためにプリノルムに依存。
この最適化は、MTP対応モデルをローカルで実行する開発者にとって直接的なパフォーマンス向上をもたらし、プロンプト取り込み時のレイテンシを削減します。
11. Llama.cppのデュアルGPUテンソル分割修正
コミュニティが開発したllama.cppのフォークは、「--split-mode tensor」機能が非量子化KVキャッシュのみをサポートしていた制限に対処しました。この修正により量子化キャッシュのテンソル分割が可能になり、デュアルGPUセットアップでトークン生成速度が40%向上しました。このフォークには最新のMTP変更へのサポートも含まれていますが、現時点ではMoEアーキテクチャよりも密結合モデルでの使用が推奨されています。
- • 量子化KVキャッシュのテンソル分割問題を修正。
- • デュアルGPUセットアップで40%の速度向上を実現。
- • 最新のMTP変更へのサポートを含む。
- • 密結合モデル向けに推奨。MoEサポートは限定的。
この修正により、マルチGPUセットアップを使用する開発者は、量子化KVキャッシュを使用する際の推論パフォーマンスを大幅に向上させることができます。
12. 混合GPUクラスターでの推論エンジンベンチマーク
ベンチマーク調査では、BlackwellおよびAdaアーキテクチャを搭載した7基のGPUによる異種混合クラスター上で、vLLM、SGLang、llama.cppを評価しました。vLLMは混合マルチGPUセットアップで優れたパフォーマンスを発揮し、パイプライン並列処理に苦戦したllama.cppと比較して、1秒あたりのトークン生成数が大幅に高くなりました。SGLangは純粋なBlackwellセットアップでは良好に動作しましたが、FP4重みに対するソフトウェアフォールバックが不足しているため、混合クラスターでは失敗しました。
- • vLLMが混合GPUクラスターでllama.cppおよびSGLangを上回った。
- • llama.cppはパイプライン並列処理の問題により4〜6倍低速だった。
- • SGLangは古いAdaカードでのFP4重みに対するソフトウェアフォールバックが不足している。
- • vLLMは古いハードウェアでFP4をエミュレートすることで混合セットアップをサポート。
異種ハードウェアクラスターを管理する開発者にとって、これらの結果は長文脈推論のパフォーマンスにおけるエンジン選択の重要性を強調しています。
13. 継続学習のための自己蒸留
研究者は、専門家のデモンストレーションから直接オンポリシー学習を可能にする手法「自己蒸留ファインチューニング(SDFT)」を導入しました。デモンストレーション条件付きモデルを自身の教師として使用することで、SDFTは新しいスキルを獲得しながら以前の能力を維持するトレーニング信号を生成します。この手法は、新しいタスクでより高い精度を達成し、破滅的忘却を大幅に低減することで、標準的な教師ありファインチューニング(SFT)を一貫して上回ります。
- • SDFTはモデルを自身の教師として使用し、以前の知識を保持する。
- • 基盤モデルにおける破滅的忘却を低減する。
- • 新しいタスクにおいて教師ありファインチューニング(SFT)を上回る。
- • 専門家のデモンストレーションからのオンポリシー学習を可能にする。
SDFTは、進化するデータセット上でモデルを微調整するためのより堅牢なアプローチを提供し、長期的なエージェント型アプリケーションやドメイン固有のアプリケーションでパフォーマンスを維持するために不可欠です。
14. エンタープライズAIのサブスクリプションコストが上昇
AIラボは、エージェント型AIワークロードの計算コストが現在の価格モデルを超過しているため、定額制サブスクリプションから離れつつあります。例えばGitHubはCopilotを従量課金制に移行しており、他のプロバイダーもヘビーユーザー向けに高価格帯の料金プランを導入しています。企業がIPOに向けて準備を進める中、焦点は持続可能なユニットエコノミクスへと移っており、手厚い補助金付きのエンタープライズAIサービスの時代が終わりつつあることを示唆しています。
- • 定額制モデルはエージェント型AIワークロードには持続不可能。
- • GitHub Copilotは従量課金制に移行中。
- • AIラボは収益性とより高いユニットエコノミクスに焦点を移している。
- • エージェント型AIはチャットボットと比較してトークン消費量が大幅に増加する。
業界が従量課金制モデルへと移行する中、組織はAI運用コストが大幅に上昇することに備える必要があります。