Googleがエンコーダー不要のマルチモーダルモデル「Gemma 4 12B」をリリース

1. Googleがエンコーダー不要のマルチモーダルモデル「Gemma 4 12B」をリリース

Google DeepMindは、同シリーズで初めてネイティブな音声入力を処理できる中規模オープンウェイトモデル「Gemma 4 12B」をリリースしました。このモデルはエンコーダー不要のアーキテクチャを採用しており、個別の視覚や音声エンコーダーに頼ることなく、16kHzの音声フレームと視覚パッチをバックボーンとなるLLMで直接処理します。Hugging Face、Kaggle、Google AI Edge GalleryでApache 2.0ライセンスのもと公開されたこの119.5億パラメーターのモデルは、標準的な16GB RAMを搭載したデバイスでローカル動作します。また、Googleはローカルハードウェアでの推論レイテンシを最適化するための「Multi-Token Prediction (MTP)」ドラフターモデルも同時に公開しました。

• Gemma 4 12Bは、119.5億パラメーターのデコーダー専用トランスフォーマーで、256Kのコンテキストウィンドウを持ち、Apache 2.0ライセンスで提供されます。
• 生の音声（最大30秒）と動画パッチ（最大60秒）をLLMに直接入力する、統合されたエンコーダー不要のアーキテクチャを特徴としています。
• 16GBのVRAMまたはユニファイドメモリを必要とし、コンシューマー向けGPU搭載ノートPCやAppleシリコンと互換性があります。
• Googleはローカルでの推論レイテンシを削減するためのMulti-Token Prediction (MTP)ドラフターモデルを同梱しました。
• llama.cpp、vLLM、SGLang、Ollama、MLX、Unslothとすぐに互換性があります。

開発者は、個別のエンコーダーを必要とせず、テキスト、画像、動画、ネイティブ音声をLLMのコアバックボーンで直接処理できる中規模のローカルモデルをデプロイできるようになりました。

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9]

2. MnemoがLLM向けのローカルファーストなナレッジグラフメモリ層をローンチ

Hacker Newsで公開された「mnemo」は、LLMに永続的なナレッジグラフ機能を提供するために設計された、オープンソースのローカルファーストなAIメモリ層です。クラウド依存ゼロのサイドカーサービスとして動作するmnemoは、LLMを使用してテキストから名前付きエンティティとその関係を抽出し、ローカルのSQLiteデータベースに保存します。このエンジンは、アトミックな更新のためにインメモリのpetgraphライブラリを活用することで50ミリ秒未満の検索速度を実現しており、Python SDK、REST API、CLIツールを通じて機能を提供します。

• mnemoは、単一の静的バイナリとして配布されるローカルファーストなAIメモリ層です。
• LLMを使用して入力テキストから名前付きエンティティと関係を抽出し、SQLiteに保存します。
• インメモリのpetgraphを使用してナレッジグラフへのアトミックな更新を行い、50ミリ秒未満で検索を実行します。
• Ollama、OpenAI、Anthropic、およびその他のOpenAI互換APIと統合可能です。
• 開発者向けにCLIツール、Python SDK、REST APIを提供しています。

アプリ開発者は、外部のクラウドAPIを必要とせず、50ミリ秒未満の検索レイテンシでLLM駆動型アプリケーションにローカルな永続メモリ層を統合できます。

SOURCES

[1]

3. SandboxedがAIエージェント向けプレイグラウンド用のオープンソースローカルエンジンをリリース

オープンソースエンジン「sandboxed」がリリースされ、開発者がAIアプリビルダーやコーディングプレイグラウンド用のホスティングバックエンドを構築できるようになりました。Docker、Traefik、SQLiteで動作するこのシステムは、Kubernetesやメッセージキューの複雑さを回避しつつ、コーディングエージェント向けに分離されたLinuxコンテナを提供します。自動ルーティングとTLSを備えたライブプレビューURLをサポートし、メモリ使用量を最適化するためのアイドル時停止およびリクエスト時起動メカニズムも備えています。このプラットフォームには、環境内にOpenCodeおよびClaude Code CLIが事前設定されています。

• sandboxedはDocker、Traefik、SQLiteを使用して単一サーバー上で動作し、Kubernetesや複雑なメッセージキューをバイパスします。
• 実行中のサンドボックスアプリケーションのライブプレビューURLに対して、自動ルーティングとTLSを提供します。
• メモリ使用量を最適化し、ホスティングコストを削減するためのアイドル時停止およびリクエスト時起動メカニズムを備えています。
• OpenCodeおよびClaude Code CLIをプリインストールし、分離されたLinuxコンテナ内でのAI駆動型コーディングタスクを容易にします。
• MITライセンスでリリースされており、マルチテナント型のAIプレイグラウンドやエージェントビルダー向けに調整されています。

開発者は、Kubernetesをオーケストレーションする複雑さやコストをかけずに、マルチテナント型のAIアプリビルダーやコーディングエージェント環境を構築できます。

SOURCES

[1]

4. Nous Researchがローカルエージェント向け「Hermes Desktop」のパブリックプレビューを開始

Nous Researchは、自律型エージェント「Hermes Agent v0.15.2」向けのネイティブGUIである「Hermes Desktop」のパブリックプレビューを開始しました（macOS、Windows、Linux対応）。このデスクトップアプリケーションは、既存のCLIバージョンとコアエージェント設定、セッションストレージ、メモリを共有します。開発者は、ローカル、Docker、SSH、Singularity、Modalを含む5つのサンドボックス実行バックエンド全体で自律的な計画ループを実行できます。MITライセンスのこのプラットフォームは、Model Context Protocol (MCP)を介したツール統合をサポートし、FTS5セッション検索による永続メモリを維持します。

• Hermes Desktopは、macOS、Windows、Linux向けのネイティブなクロスプラットフォームアプリケーションのパブリックプレビュー版です。
• 自律型でMITライセンスのHermes Agent v0.15.2向けのグラフィカルインターフェースを提供します。
• ローカル、Docker、SSH、Singularity、Modalという5つのサンドボックス実行バックエンドをサポートしています。
• ツールサポートのためにModel Context Protocol (MCP)を統合し、ストリーミング応答とファイルブラウザ機能を備えています。
• FTS5検索とLLM要約を使用して、セッション間での呼び出しが可能なエージェント管理型の永続メモリを実装しています。

MCPツールと、ローカル、Docker、クラウドランタイム全体でのサンドボックス実行を統合した、すぐに使えるUIとローカルエージェント環境を提供します。

SOURCES

[1]

5. Llama.cppがQwenモデル向けのMulti-Token Predictionを最適化

Llama.cppプロジェクトはバージョンb9495をリリースし、Qwen3.5およびQwen3.6モデルにおけるMulti-Token Prediction (MTP)の主要なパフォーマンス最適化とバグ修正を提供しました。マージされたプルリクエスト（PR #24025）では、MTP実行を加速するためにポストノルム隠れ状態を使用するサポートが導入されました。Qwen3.6-35B-A3B-MTP-UD-Q5_K_XLモデルで更新されたランナーを使用したコミュニティメンバーによるベンチマークでは、ドラフト受け入れ率0.52614が実証されており、ローカル実行時のテキスト生成速度の向上が期待されます。

• Llama.cppバージョンb9495では、QwenのMulti-Token Prediction (MTP)に関する最適化とバグ修正が導入されました。
• マージされたプルリクエスト（PR #24025）により、Qwen3.5 MTP向けのポストノルム隠れ状態のサポートが追加されました。
• 最適化は、Qwen3.6-35B-A3B-MTP-UD-Q5_K_XLバリアントを含むQwen3.5およびQwen3.6モデルファミリーを対象としています。
• 最適化されたMTP構成を使用した共有ベンチマークでは、ドラフト受け入れ率0.52614が報告されました。

このリリースにより、Qwenモデルをローカルで実行する開発者の推論スループットが向上し、レイテンシが減少します。

SOURCES

[1] [2]

6. 開発者がAndroidデバイスをVulkanアクセラレーション対応のローカルLLMノードとして構成

ある開発者が、Samsung Galaxy Z Fold 6を、自己ホスト型AIメッシュ内のポータブルなVulkanアクセラレーション対応GGUF推論ノードとして構成することに成功しました。Vulkanを介してモバイルGPUに89層をオフロードすることで、このセットアップはLiteLLMを通じてローカルにルーティングされるOpenAI互換のAPIエンドポイントを公開します。Tailscaleを使用することで、モバイルデバイスはプライベートネットワークにリンクされ、メッシュから切断された際にはスタンドアロンサーバーとして機能しつつ、接続時にはMac StudioやRTX搭載マシンなどのより大きなノードに自動的にフォールバックします。

• Androidデバイス（Z Fold 6）がポータブルなGGUF推論ノードとして構成されました。
• Vulkan GPUアクセラレーションを利用して89個のGPU層をオフロードしています。
• LiteLLMを経由してルーティングされるOpenAI互換エンドポイントを公開しています。
• Tailscaleを介して自己ホスト型AIメッシュに統合され、Mac StudioやRTX搭載マシンへのフォールバックルーティングを備えています。
• 他のローカルノードがオフラインの際にも、スタンドアロンでのモバイル推論が可能です。

開発者がハイエンドのモバイルハードウェアを、ローカルの自己ホスト型フォールバック推論メッシュにおけるコスト効率が高くポータブルなノードとして活用する方法を示しています。

SOURCES

[1]

7. Alibabaの「Fun-Realtime-TTS」がSpeech Arenaリーダーボードで首位を獲得

Alibabaの「Fun-Realtime-TTS」モデルが、Artificial AnalysisのSpeech Arenaリーダーボードで首位を獲得し、962回の対戦でEloスコア1,219を達成しました。このモデルは、GoogleのGemini 3.1 Flash TTSやCartesia Sonic 3.5を含む、主要な商用代替製品を上回りました。Alibaba Cloud APIを通じて開発者に提供されており、価格は100万文字あたり27.60ドルで、リアルタイムのテキスト読み上げ生成、音声クローン、音声デザイン、多言語出力をサポートしています。

• Fun-Realtime-TTSは、962回の登場でElo 1,219を記録し、Artificial Analysis Speech Arenaリーダーボードで1位を獲得しました。
• Gemini 3.1 Flash TTS、Inworld Realtime TTS-2 Research Preview、Cartesia Sonic 3.5を上回りました。
• Alibaba Cloudでの価格は100万文字あたり27.59ドル（または27.6ドル）です。
• 機能には、リアルタイム音声生成、音声クローン、音声デザイン、多言語出力、地域アクセントのサポートが含まれます。

開発者は、低レイテンシの音声合成とリアルタイムの音声対話において、パフォーマンスが高くコスト競争力のある新しい選択肢を得ました。

SOURCES

[1] [2]

8. LFM2-1.2B向けのQLoRAおよびDPOファインチューニングの詳細ガイドが公開

Google Colab上の完全なステップバイステップの開発者向けチュートリアルで、Liquid AIのLFM2-1.2BモデルをQLoRA、教師ありファインチューニング（SFT）、および直接選好最適化（DPO）を使用してファインチューニングする方法が解説されています。PyTorch、Transformers、TRL、PEFT、bitsandbytes上に構築されたこのパイプラインは、4ビット量子化を活用してVRAMを節約します。SFTトレーニングプロセスでは、「smoltalk」データセットから500サンプルを使用し、シーケンス長1024で60ステップのトレーニングを行い、その後アダプターのマージと、モデルの選好を最適化するための40ステップのDPOシーケンスを実行します。

• Google Colab上でQLoRA、教師ありファインチューニング（SFT）、直接選好最適化（DPO）を使用してLFM2-1.2Bをファインチューニングする方法を実演しています。
• Transformers、TRL、PEFT、datasets、bitsandbytes、PyTorchなどの標準ライブラリを利用しています。
• 「smoltalk」データセットから500サンプルを使用し、最大シーケンス長1024で60ステップのSFTトレーニングを行っています。
• トレーニング中のGPUメモリ要件を削減するために4ビット量子化を適用しています。
• LoRAアダプターをベースモデルにマージし、モデルの応答の整合性を調整するために40ステップのDPOトレーニングフェーズを実行します。

開発者がオープンソースライブラリを使用して、コンシューマーハードウェア上でコンパクトな状態空間モデルやLiquidモデルをファインチューニングするための実践的な青写真を提供します。

SOURCES

[1]

9. VercelがAI推論の盗用に対するBotID防御策の概要を公開

VercelはAI推論の盗用に関する分析を公開し、攻撃者が公開された開発者エンドポイントを悪用してLLMアクセスをスクレイピングおよび再販する手口を詳述しました。標準的なレート制限では、洗練された分散型の抽出試行を阻止できないため、Vercelは開発者に対してBotID分析の実装を推奨しています。このメカニズムは、各クライアントリクエストをアップストリームのLLM APIに転送する前にその正当性を検証し、開発者がAPIキーを保護し、予期せぬクラウド請求を回避するのに役立ちます。

• Vercelは、攻撃者が公開されたアプリケーションエンドポイントを悪用して盗まれたAI推論を再販する仕組みを解説する詳細な分析を公開しました。
• 標準的なレート制限制御では、組織的な推論再販オペレーションを阻止するには不十分な場合が多いと指摘しています。
• すべての着信AIリクエストを検証し、不正なスクレイパーをブロックするためにBotID分析を統合することを推奨しています。

開発者がAPIエンドポイントを保護し、LLMアクセスをスクレイピングまたは再販する悪意のあるアクターによるAPI料金の増大を防ぐのに役立ちます。

SOURCES

[1]

10. Angular v22がリリース、エージェント向けツールとWebMCPサポートを内蔵

Angular v22が正式にリリースされ、本番環境対応のAPI群とともに、専用のエージェント向けツールが提供されました。Signal Formsなどの機能の安定化や@Serviceデコレーターの導入に加え、今回のリリースには、AIアシスタントが最新のAngularコードベースをナビゲートするのを支援するための、更新されたModel Context Protocol (MCP)統合とAngular Agent Skillsが含まれています。重要な点として、今回のアップデートではWebMCPの実験的サポートが追加されており、ブラウザベースのAIエージェントがWebベースのデバッグツールや開発ツールと直接対話できるようになります。

• Angular v22は、本番環境対応のSignal Forms、Angular Aria、および非同期リアクティビティAPIを特徴としています。
• 新しいエージェント向けツールとして、更新されたMCPの提供と、AIアシスタントにコードコンテキストを提供するAngular Agent Skillsが含まれています。
• WebMCPの実験的サポートを導入し、エージェントがブラウザツールと直接対話できるようにしました。
• 新しい@Serviceデコレーターと、injectAsyncによる非同期依存関係注入を追加しました。

Angularを使用するWeb開発者は、ローカルおよびWebベースのAIコーディングエージェントとよりシームレスに連携するアプリケーションを構築できるようになりました。

SOURCES

[1]

1. Googleがエンコーダー不要のマルチモーダルモデル「Gemma 4 12B」をリリース

2. MnemoがLLM向けのローカルファーストなナレッジグラフメモリ層をローンチ

3. SandboxedがAIエージェント向けプレイグラウンド用のオープンソースローカルエンジンをリリース

4. Nous Researchがローカルエージェント向け「Hermes Desktop」のパブリックプレビューを開始

5. Llama.cppがQwenモデル向けのMulti-Token Predictionを最適化

6. 開発者がAndroidデバイスをVulkanアクセラレーション対応のローカルLLMノードとして構成

7. Alibabaの「Fun-Realtime-TTS」がSpeech Arenaリーダーボードで首位を獲得

8. LFM2-1.2B向けのQLoRAおよびDPOファインチューニングの詳細ガイドが公開

9. VercelがAI推論の盗用に対するBotID防御策の概要を公開

10. Angular v22がリリース、エージェント向けツールとWebMCPサポートを内蔵

デイリーAIシグナルを受信箱へ