1. Google、Gemma 4の量子化対応トレーニング(QAT)チェックポイントを公開
Google DeepMindの新しい量子化対応トレーニング(QAT)チェックポイントは、トレーニング中に量子化をシミュレートすることで精度の低下を最小限に抑えます。今回のリリースには、Q4_0フォーマットと、埋め込み層およびKVキャッシュ層を最適化したモバイル専用スキーマが含まれています。これらのモデルはHugging Face上でGGUFおよび圧縮テンソル形式で提供されており、llama.cpp、Ollama、vLLMといった一般的なローカルランタイムと互換性があります。
- • Google DeepMindがGemma 4のQATチェックポイントをQ4_0およびモバイル専用フォーマットで公開。
- • Q4_0フォーマットにより、Gemma 4 E2Bモデルのメモリ消費量は3.2GB、E4Bモデルは5GBに削減。
- • モバイル用QATスキーマでは、静的アクティベーション、チャネルごとの量子化、ターゲットを絞った2ビット圧縮により、E2Bモデルを1GB未満に削減。
- • チェックポイントはHugging Faceで入手可能で、llama.cpp、Ollama、LM Studio、vLLM、MLX、LiteRT-LMをサポート。
- • AMD 7900 XTXでの性能テストでは、12B QATモデルにおいてQ8_0と比較して生成時間が45%短縮され、VRAMを5.7GB節約。
開発者は、標準的な事後量子化と比較して、最小限の品質低下でVRAM要件を大幅に削減し、Gemma 4モデルをローカルで実行できるようになります。
2. オープンウェイトモデルが急増:主要AIラボから25以上の注目モデルがリリース
オープンソースAIにとって注目すべき1週間となり、25以上の重要なオープンウェイトモデルが公開されました。NVIDIAの巨大な550B Nemotron 3 Ultra、Googleの密なany-to-anyモデルGemma 4 12B、StepFunのStep-3.7-Flashなどがハイライトです。エッジ開発者向けにも、Liquid AIのLFM2.5-8B-A1BやRedNoteのdots.ttsパイプラインといった新しい選択肢が登場しました。
- • NVIDIAがNemotron 3 Ultra(550BハイブリッドMamba-MoE、1Mコンテキスト)とNemotron-3.5 ASR(600Mストリーミングモデル)をリリース。
- • GoogleがGemma 4 12B(密なany-to-any、256kコンテキスト、140以上の言語)をリリース。
- • StepFunがStep-3.7-Flash(198BスパースMoE VLM、Apache 2.0)をリリース。
- • Liquid AIがLFM2.5-8B-A1B(エッジMoE、1.5Bアクティブパラメータ、MLX互換)をリリース。
- • その他、Ideogram 4(9.3BフローマッチングDiT)、RedNote dots.tts、NVIDIA Cosmos3-Super(64Bオムニモーダル世界モデル)などがリリース。
この統合リストは、巨大なハイブリッドモデルから特殊なエッジモデルまで、最新のセルフホスト可能なモデルを素早く確認するためのリファレンスとなります。
3. Gemma 4 12Bのツール呼び出しおよびコーディング失敗の修正
当初、Gemma 4 12Bは評価ハーネスにおいてツール呼び出しに頻繁に失敗すると報告されていましたが、コミュニティによって修正策が発見されました。llama.cppをソースからコンパイルし、--jinjaおよび--chat-template-fileフラグを使用してカスタムチャットテンプレートを適用することで、適切なツール呼び出しを復元できます。これにより、エージェントワークフローでの信頼性の高いローカルデプロイが可能になります。
- • ユーザーからGemma 4 12Bでのツール呼び出し失敗が報告され、OpenCodeなどのハーネスでの利用が阻害されていた。
- • 修正にはllama.cppのソースからのコンパイルと、カスタムテンプレートを用いた--jinjaおよび--chat-template-fileフラグの使用が必要。
- • ある開発者は、Unsloth Q5_K_XLモデル(8.6GB)を使用し、32kコンテキストウィンドウとQ8 KVキャッシュで毎秒50トークンを達成したと報告。
- • Google AI Edgeも、エージェントワークフロー向けにノートPCでのGemma 4 12Bのローカルデプロイを可能にしている。
このカスタムテンプレートを適用することで、開発者はツール呼び出しの失敗なしに、ローカルのエージェントワークフローやコーディングタスクでGemma 4 12Bを評価・利用できるようになります。
4. llama.cppでKVキャッシュをシステムRAMへオフロード
llama.cppの-nkvo(no KV offload)オプションを使用すると、開発者はKVキャッシュをVRAMではなくシステムRAMにオフロードできます。16GB GPUを搭載した環境でQwen3.6 27Bモデルを用いたテストでは、このオプションによりf16 KVキャッシュを使用してモデル全体をGPUに収め、コンテキストウィンドウを128kまで拡張できました。パフォーマンスのトレードオフは最小限で、ピーク時の速度は23 tpsから19 tpsへの低下にとどまりました。
- • llama.cppの-nkvo(--no-kv-offload)オプションは、KVキャッシュをVRAMではなくシステムRAMにオフロードする。
- • RTX 5060 Ti(16GB)とDDR5 RAM環境でQwen3.6 27Bをテストし、63層をGPUに保持することで128kコンテキストウィンドウを実現。
- • -nkvo有効時はピーク時19 tps、長文生成時14 tpsを達成。GPU上で量子化されたq4_0 KVキャッシュを使用した場合はピーク時23 tps、16 tpsであった。
- • RAMへオフロードした際にKVキャッシュを量子化してもパフォーマンス向上は見られず、逆に低下する場合もあった。
開発者は、KVキャッシュを量子化する代わりにDDR5 RAMへオフロードすることで、VRAMが限られたGPUでもコンテキストウィンドウを最大128kまで劇的に拡大できます。
5. OpenLumara:モジュール式でトークン効率の高いローカルAIエージェントフレームワーク
OpenLumaraは、ローカルモデルのためにゼロから構築されたモジュール式のオープンソースAIエージェントフレームワークです。いわゆる「vibecoded」なフレームワークとは異なり、トークン効率に重点を置いており、モジュールを無効化することでシステムプロンプトを4kから1kトークン未満に縮小できます。DockerやPodmanによるサンドボックス化されたシェル環境、機密データの自動マスキング、特定の関数やクラスをターゲットにするコーダーモジュールを備えています。
- • OpenLumaraはローカルモデル、llama.cpp、koboldcpp向けに設計されており、GPL2ライセンスで提供。
- • デフォルトのシステムプロンプトは約4kトークンだが、未使用のモジュールを無効化することで1kトークン未満に削減可能。
- • セキュリティ機能として、Docker/Podmanを使用したサンドボックス化されたシェル環境と、機密データの自動マスキングを搭載。
- • コーダーモジュールは、検索・置換ではなく、コードファイル内の特定の関数やクラスをターゲットにする。
- • WebベースのUI、CLIモードを備え、koboldcppのesoboldフォークに統合されている。
重量級のエージェントフレームワークに代わる、非常にモジュール性が高くトークン効率の良い選択肢であり、システムプロンプトを1kトークン未満にまで縮小可能です。
6. Alibaba、コードレビューCLIツール「Open Code Review」をオープンソース化
Alibabaは、社内で2年間使用され、数百万件のコード欠陥を特定してきたApache-2.0ライセンスのCLIツール「Open Code Review」をオープンソース化しました。このツールはGitの差分を読み取り、変更されたファイルを構成可能なLLMに送信して、構造化された行レベルのコメントを生成します。CI/CDパイプラインへの統合や、コーディングエージェントでのスラッシュコマンドとしての利用が可能で、セッション履歴を閲覧するためのローカルビューアも含まれています。
- • Open Code Reviewは、Alibabaが開発し社内で使用していたオープンソースのApache-2.0ライセンスCLIツール。
- • Gitの差分を読み取り、変更されたファイルを構成可能なLLMに送信して、行レベルの精度で構造化されたレビューコメントを生成。
- • アーキテクチャは、決定論的なエンジニアリング(ファイルの選択・バンドル)と、動的な意思決定を行うエージェントを組み合わせている。
- • CI/CDパイプラインへの統合、AIコーディングエージェントでのスラッシュコマンドとしての動作、履歴閲覧用のローカルビューアをサポート。
- • NPM、GitHubのバイナリリリース、またはソースからのビルドを通じてインストール可能。
開発者はこのツールをローカルワークフロー、コーディングエージェント、またはCI/CDパイプラインに統合し、構成可能なLLMを使用してコードレビューを自動化できます。
7. Microsoft、Build 2026でIQコンテキストレイヤーとエージェントオプティマイザーを発表
Build 2026カンファレンスにおいて、Microsoftはエンタープライズエージェント開発のためのいくつかのツールを発表しました。Microsoft IQコンテキストレイヤーは、Fabric、Foundry、Web、Workの各データソース全体で安全なデータアクセスを提供します。さらに、ルーブリックベースの評価を使用してプロンプトの修正を自動化する「Agent Optimizer」を立ち上げ、Entraシステムを通じてエージェントのアイデンティティを有効にしました。
- • Microsoft IQスイートには、Fabric IQ、Foundry IQ、Web IQ、Work IQが含まれる(APIは6月16日リリース)。
- • Agent Optimizerツールは、ルーブリックベースの評価を使用して、詳細なフィードバックと自動化されたプロンプト修正を提供。
- • MicrosoftはEntraシステムを通じてエージェントのアイデンティティを有効にし、エージェントに独自のメールアドレスとTeamsアクセス権を付与。
- • Microsoftは、オープンソースのOpenClaw技術に基づいて構築されたパーソナルワークエージェント「Scout」も導入。
これらのエンタープライズ向けツールは、Microsoftのエコシステム上で構築する開発者に対し、構造化されたコンテキスト、自動化されたプロンプト修正、エージェントのアイデンティティ管理を提供します。
8. Microsoft、データベース内ワークフロー向けに「pg_durable」をオープンソース化
Microsoftは、データベース内での永続的な実行を目的としたPostgreSQL拡張機能「pg_durable」をオープンソース化しました。pgrxフレームワークとRustを使用して構築されたこの拡張機能により、開発者はSQLベースのDSLを使用して、長時間実行される耐障害性のあるワークフローを定義できます。PostgreSQL 17または18内でネイティブに状態と再試行を管理することで、外部のキューやワーカーが不要になります。
- • pg_durableは、状態と再試行をネイティブに管理するPostgreSQL拡張機能(現在プレビュー版)。
- • 外部のcronジョブ、ワーカー、キューの必要性を排除。
- • システムは、ワークフローを定義するために~>や|=>といった演算子を含むSQLベースのDSLを使用。
- • pgrxフレームワークを使用して構築され、Rustライブラリのduroxideおよびduroxide-pgに依存。
- • PostgreSQL 17または18が必要で、shared_preload_librariesに追加する必要がある。
開発者は、外部のキューインフラストラクチャを必要とせず、クラッシュや再起動に耐えうる永続的なエージェントワークフローやトランザクションワークフローをPostgreSQL内でネイティブに構築できます。
9. 8GB VRAMのノートPC GPUでQwen 3.6 MoEを最適化
ある開発者が、専門家をCPUにオフロードすることで、8GB VRAMのノートPC GPUでQwen3.6-35B-A3B MoEモデルの実行に成功しました。主な最適化には、ページフォールトを防ぐための--no-mmapの使用と、1.5GBのVRAMヘッドルームの維持が含まれます。驚くべきことに、Qwen3.5-0.8Bドラフトモデルを使用した推論デコーディングにより、推論デコーディングが通常はマイナスに働くフルGPUベンチマークとは対照的に、26%の速度向上が見られました。
- • セットアップではMoEのエキスパートをCPUにオフロードし、--no-mmapを使用してWindowsシステムメモリへのフォールバックを回避するために1.5GBのVRAMヘッドルームを維持。
- • Qwen3.5-0.8Bドラフトモデルを使用した推論デコーディングにより、26%の速度向上を実現し、約39 tpsを達成。
- • CPUオフロードされたエキスパートについては、最適化されたCPUカーネルにより、i-quantsよりもK-quantsの方が優れたパフォーマンスを発揮。
- • TurboQuant、Flash Attention、i-quantsは、ハイブリッドアーキテクチャのため、メリットがないか、パフォーマンスを低下させた。
これは、コンシューマー向けハードウェアで大規模なMoEモデルを実行するための実行可能な構成を示しており、推論デコーディングによって26%の速度向上を伴う毎秒39トークンの生成を達成しました。
10. NVIDIA、Kubernetesでの高速AI起動を実現する「Dynamo Snapshot」を発表
NVIDIAのDynamo Snapshotは、Kubernetes上のAI推論におけるコールドスタートレイテンシを排除するために設計されたチェックポイント/リストアシステムです。GPU状態用のcuda-checkpointとホストプロセス状態用のCRIUを組み合わせることで、実行中のコンテナをシリアライズします。CUDA仮想メモリ管理を利用してKVキャッシュをアンマップすることでチェックポイントサイズを縮小し、gpt-oss-120bモデルを5秒未満で起動できるようにしました。
- • Dynamo Snapshotは、GPU状態用にcuda-checkpoint、ホスト側のプロセス状態用にCRIUを使用。
- • 基盤となるruncコンテナランタイムを変更することなく、特権付きのsnapshot-agent DaemonSetとしてデプロイされる。
- • CUDA仮想メモリ管理によるKVキャッシュのアンマップと解放により、チェックポイントサイズを縮小(例:Qwen3-0.6Bで190 GiBから6 GiBへ)。
- • 概念実証において、gpt-oss-120bモデルの起動時間を5秒未満に短縮。
- • 現在、x86_64 GPUノード、NVIDIAドライバー580.xx以降が必要で、vLLMワーカーを限定プレビューでサポート。
Kubernetes上で大規模モデルをデプロイする開発者は、GPUとホストプロセスの状態をシリアライズすることで、コールドスタート時間とスケールアップレイテンシを劇的に短縮できます。
11. CLIツール「lowfat」が冗長な出力をフィルタリングし、LLMトークンを節約
オープンソースツールの「lowfat」は、AIエージェントに送信されるターミナル出力の冗長性を削減するために設計されたプラグイン可能なCLIフィルタです。ローカルファーストの単一バイナリとして動作し、エージェントフックまたはシェルラッパーとして機能します。特定のコマンドに対するカスタマイズ可能なプラグインシステムを備えており、Amazon Bedrockなどのプラットフォームでのトークン制限を回避するのに役立ちます。
- • 「lowfat」は、テレメトリのない単一バイナリのローカルファーストツールで、エージェントフックまたはシェルラッパーとして機能。
- • 特定のコマンドのフィルタをカスタマイズするプラグインシステムを備え、UNIXスタイルの構成可能なパイプをサポート。
- • 開発者は、2ヶ月間の個人的な使用で合計トークンを91.8%削減したと報告。
- • このツールは、Amazon Bedrockなどのサービスのトークン制限に達するのを回避するのに役立つ。
開発者はこのツールをエージェントフックやシェルラッパーとして使用することで、コーディングエージェントが長いCLI出力で過剰なトークンを消費するのを防ぐことができます。
12. BeeLlama.cppにKVarN KVキャッシュ量子化が実装
ある開発者が、HuaweiのKVarN KVキャッシュ量子化手法をBeeLlama.cpp(v0.3.2 Preview)というllama.cppのフォークに実装しました。KVarNはKVキャッシュの3〜5倍の圧縮を提供し、4ビットでq5品質、3.5ビットでq4品質を実現します。この実装は現在、NVIDIAハードウェア上のQwen 3.6 27BおよびGemma 4 31Bモデルをサポートしています。
- • KVarNはHuaweiが開発したKVキャッシュ量子化手法で、3〜5倍の圧縮を提供。
- • BeeLlama.cpp v0.3.2 Previewリリースに実装され、Qwen 3.6 27BおよびGemma 4 31Bをサポート。
- • ユーザーは--cache-type-kおよび--cache-type-vフラグを使用して有効化可能。
- • ベンチマークによると、KVarNはTurboQuantよりも高い精度で、4ビットでq5品質、3.5ビットでq4品質を実現。
この実装により、開発者は高い精度を維持しながら、メモリ消費量を大幅に削減してQwen 3.6 27BおよびGemma 4 31Bを実行できます。
13. Braintrust、大規模エージェントトレース分析のための「Topics」を立ち上げ
Braintrustは、本番環境のエージェントトレースを大規模に分析するために設計されたインテリジェンスレイヤー「Topics」を立ち上げました。標準的なNLPツールは、非均一なドキュメント形状のために、数百のスパンを持つ百万トークンのトレースを処理する際に壊れることがよくあります。Topicsは、LLMの要約を使用して分析を扱いやすくすることでこれを解決し、前処理、埋め込み、クラスタリング、分類のパイプラインを通じてトレースを処理します。
- • Braintrustの創設者Ankur Goyalが、AnthropicのClio論文に触発されてTopicsを導入。
- • パイプラインは、標準的なNLPツールを壊すような、数百のスパンを持つ百万トークンのトレースを処理。
- • データは、前処理、ファセット化、埋め込み、クラスタリング、命名、分類のプロセスを経て処理される。
- • パイプラインは、生のトレースを埋め込みモデルのコンテキストウィンドウに収めることを避けるために、LLMの要約を使用。
これにより、開発者はLLMの要約を使用してデータを埋め込みやクラスタリングに適したものにすることで、数百のスパンを持つ百万トークンのエージェントトレースを分析できるようになります。
14. RedNote、2Bのオープンソーステキスト読み上げモデル「dots.tts」をリリース
RedNote(小紅書)は、Apache 2.0ライセンスの下で、20億パラメータのオープンソーステキスト読み上げモデル「dots.tts」をリリースしました。このモデルは、コーデックトークンと音素パイプラインの両方をバイパスする完全に連続的なアーキテクチャを特徴としており、テキストから直接48 kHzの音声を合成します。また、ゼロショット音声クローンもサポートしています。
- • dots.ttsは、Apache 2.0ライセンスでリリースされた2BパラメータのオープンソースTTSモデル。
- • コーデックトークンに依存しない完全に連続的なアーキテクチャを利用。
- • 48 kHzの音声合成とゼロショット音声クローンをサポート。
- • 音素パイプラインなしで直接テキスト読み上げ合成を実行。
開発者は、音素パイプラインなしで48 kHzの音声合成が可能な、高品質でApache 2.0ライセンスのTTSモデルをセルフホストできます。
15. Microsoft Faraのチュートリアル、Colabでのブラウザ利用エージェントを実演
新しいチュートリアルでは、Google ColabでMicrosoft Faraのブラウザ利用エージェントを実行する方法を概説しています。モックのOpenAI互換エンドポイントを利用することで、開発者は完全なFara-7Bモデルをデプロイすることなく、ブラウザ自動化ループをテストおよび検証できます。このセットアップでは、Faraリポジトリをクローンし、Playwrightを構成し、vLLM、LM Studio、またはAzure Foundryを介して実際のデプロイメントに移行するためのオプションを提供します。
- • チュートリアルでは、Faraリポジトリのクローン、依存関係のインストール、Playwrightの構成手順を案内。
- • モックのOpenAI互換エンドポイントを使用してエージェントループをテストし、完全なFara-7Bデプロイメントの必要性を回避。
- • 構成オプションにより、Azure Foundry、vLLM、LM Studio、またはOllamaを介した実際のFara-7Bデプロイメントへの切り替えが可能。
- • エージェントは、fara-cliまたはfara.run_fara Pythonモジュールを介して実行可能。
開発者は、完全なFara-7Bモデルをデプロイすることなく、サンドボックス環境でブラウザ自動化エージェントループを迅速にテストおよび検証できます。
16. llama.cppサーバーが30秒未満のモデルホットスワップをサポート
llama.cppプロジェクトは、開発者が30秒未満でアクティブなモデルをスワップできるモデルホットスワップAPIを導入しました。このAPIはOpenWebUIおよびHermesと互換性があり、古いPyTorchベースのスワップ手法よりも大幅なパフォーマンス向上を提供します。開発者は、公式のCUDA 13サーバーイメージを使用してPodman経由でサーバーをデプロイできます。
- • llama.cppモデルホットスワップAPIはOpenWebUIおよびHermesと互換性がある。
- • モデルスワップのパフォーマンスは、古いPyTorchベースの手法よりも大幅に高速。
- • ghcr.io/ggml-org/llama.cpp:server-cuda13イメージを使用してサーバーコンテナを実行するためのpodmanコマンドが利用可能。
- • 構成は、モデルプリセットファイルと最大モデル制限をサポート。
ローカルLLMサーバーを実行している開発者は、コンテナを再起動することなく、オンザフライで動的にモデルを切り替えることができ、リソース利用率が向上します。
17. Unsloth、Gemma 4 MTP GGUFおよびQATウェイトをリリース
Unslothは、Hugging FaceでGemma 4モデル用のマルチトークン予測(MTP)GGUFウェイトをリリースしました。ウェイトは、31B、26B-A4B、12Bのモデルサイズで、Q8、F16、BF16フォーマットで利用可能です。さらに、UnslothはGemma 4 QATモデルのコレクションと、それに対応する技術ガイドを公開しました。
- • Unslothは、31B、26B-A4B、12BサイズのGemma 4用MTP GGUFウェイトをリリース。
- • MTP GGUFウェイトで利用可能なフォーマットには、Q8、F16、BF16が含まれる。
- • Unslothは、技術ガイドとともに、Hugging FaceでGemma 4 QATモデルのコレクションも公開。
このリリースにより、開発者はllama.cppなどのツールを使用したローカルデプロイ用に、最適化されたすぐに実行可能なGemma 4モデルのGGUFフォーマットを入手できます。
18. NVIDIA、Nemotron 3.5コンテンツセーフティモデルをリリース
NVIDIAは、エンタープライズの安全性強化のために設計されたモデル「Nemotron 3.5 Content Safety」をリリースしました。本番環境のモデレーションパイプラインに統合されるように構築されており、マルチモーダルおよび多言語入力をサポートしています。監査可能な推論機能を備えており、特定のエンタープライズ安全ガイドラインを満たすようにカスタマイズ可能です。
- • NVIDIAはエンタープライズの安全性強化のためにNemotron 3.5 Content Safetyをリリース。
- • モデルはマルチモーダルおよび多言語入力をサポート。
- • 監査可能な推論機能を備えており、特定のエンタープライズニーズに合わせてカスタマイズ可能。
開発者はこのモデルを本番環境のモデレーションパイプラインに統合し、監査可能な推論機能で安全性を強化できます。