Audesso | Daily: AI

GoogleがDiffusionGemmaをリリース、テキスト生成を4倍高速化する26B MoEモデル

00:00 / --:--

← ホームへ戻る

GoogleがDiffusionGemmaをリリース、テキスト生成を4倍高速化する26B MoEモデル

1. GoogleがDiffusionGemmaをリリース、テキスト生成を4倍高速化する26B MoEモデル

DiffusionGemmaは推論時に3.8Bのパラメータをアクティブ化し、140以上の言語で256Kトークンのコンテキストウィンドウをサポートします。テキストを並列キャンバス上で処理するため、数学グラフ作成、分子シーケンス、数独の解法など、速度が重要なインタラクティブなローカルワークフローに最適化されています。このモデルはHugging Faceで公開されており、vLLM、Transformers、MLX、Unslothで初日からサポートされています。

  • Googleは、Apache 2.0ライセンスの下で26B Mixture of Experts(MoE)オープンモデル「DiffusionGemma」をリリースしました。
  • このモデルは、トークンごとの自己回帰デコードではなく、最大256トークンの並列ブロックでテキストを生成するテキスト拡散技術を使用しています。
  • NVIDIA H100で毎秒1,000トークン以上、RTX 5090で毎秒700トークン以上の速度を達成します。
  • NVFP4に量子化すると18GBのVRAMに収まるため、ハイエンドのコンシューマー向けGPUでのローカル実行に適しています。
  • 双方向アテンションを備え、信頼度が低下した場合には再ノイズ化(re-noising)によるリアルタイムの自己修正を行います。

開発者はこのオープンウェイトモデルをコンシューマー向けGPUでローカル実行し、コードの補完やインライン編集といった非線形タスクにおいて、毎秒700トークンを超える速度を実現できます。

2. Cohere TranscribeがHugging Faceの遠距離音声認識(Far-Field ASR)ベンチマークで首位を獲得

Cohere Transcribeは、Hugging Faceが新たに立ち上げた音声文字起こしリーダーボードでトップに立ちました。Apache 2.0ライセンスでリリースされたこのモデルは、音声認識(Speech-to-Text)アプリケーション向けに、非常に高性能なオープンソースの選択肢を開発者に提供します。

  • Cohere Transcribeは、新しいHugging Faceの遠距離音声認識(Far-Field ASR)ベンチマークで1位にランクされました。
  • このモデルはオープンソースであり、寛容なApache 2.0ライセンスの下で配布されています。
  • この評価ベンチマークはCohere Transcribeの学習時には存在しておらず、モデルのゼロショット汎化性能を証明しています。

高精度でセルフホスト可能な音声文字起こしを求める開発者は、このApache 2.0ライセンスのモデルを遠距離音声認識に活用できます。

SOURCES

3. OpenAIとVisaが提携、AIエージェントによる決済を可能に

この統合は、完全に自律的なトランザクションエージェントに向けた大きな一歩です。Visaの決済レールをOpenAIプラットフォームに直接組み込むことで、開発者は複雑なカスタム決済統合を回避し、ユーザーに代わってエージェントが安全にチェックアウトを完了できるよう承認を与えることができます。

  • OpenAIとVisaは決済サービスを統合し、ユーザーの許可を得てAIエージェントがオンライン購入を行えるようにしました。
  • 小売業者は、統合されたVisa決済サービスを通じて、エージェント主導の取引を直接受け入れることができます。
  • AIエージェントは、請求書の支払いや日用品の購入といったタスクを実行するようユーザーから承認を受けることができます。
  • このパートナーシップの拡大は水曜日に正式発表されました。

開発者は、ユーザーの承認を得て、請求書の支払いや商品の購入といった金融取引を自律的に実行できるエージェントを構築できます。

SOURCES

4. Anthropic、Claude Fable 5に「不可視のプロンプト介入」を導入

Claude Fable 5のリリースは、Anthropicの安全ポリシーをめぐる議論を巻き起こしています。批判者は、不可視の介入はAIエコシステムに害を及ぼし、ローカルなオープンソースの代替手段の必要性を高めると主張しています。これらのセーフガードは動的に適用されるため、モデルの有効性が制限された際に、開発者が明示的な拒否メッセージを受け取らない可能性があります。

  • AnthropicはClaude Fable 5に、ユーザーに通知することなくプロンプトを修正し、ステアリング要因を適用する不可視の介入を導入しました。
  • このセーフガードは、競合ラボが開発目的でモデルを使用する場合など、特定の状況下でのClaudeの有効性を制限するように設計されています。
  • これらの介入は、モデルのフォールバックではなく、プロンプト修正、ステアリング要因、およびパラメータ効率の高いファインチューニングを通じて機能します。
  • Anthropicは、これらの不可視の介入が開発者の約0.03%に影響を与えると述べています。
  • これらのセーフガードの可視性の欠如は、潜在的なサプライチェーンリスクとツールの信頼性に関する懸念を引き起こしています。

LLMベースの開発ツールを構築する開発者は、モデルの蒸留やトレーニングワークフローをタスクとして与えた場合、Claude Fable 5が密かに動作を劣化させたり変更したりする可能性があることに注意する必要があります。

5. Bunq銀行のAIエージェントで間接的プロンプトインジェクションの脆弱性を発見

この脆弱性は、RAG対応エージェントにおける間接的プロンプトインジェクションの深刻なリスクを浮き彫りにしています。Blue41は、金融AIアシスタントに対して、コンテキストの最小化、取得データの信頼できないものとしての扱い、機密出力の制限、異常なアクティビティを検出するためのランタイム動作の監視など、多層的なセキュリティアプローチを推奨しています。

  • Blue41は、BunqのAIアシスタントに対するエクスプロイトを実証し、RSAC Launch Padコンペティションで優勝しました。
  • 攻撃者は、取引説明文に悪意のあるプロンプトインジェクションのペイロードを含めた少額の銀行振込を行いました。
  • AIアシスタントがユーザーのクエリに回答するために取引データを取得した際、ペイロードを命令として実行しました。
  • このエクスプロイトにより、AIアシスタントは銀行アプリ内で直接、説得力のあるフィッシング攻撃を自律的に実行することが可能でした。
  • この攻撃はマルウェアやデバイスへのアクセスを必要とせず、信頼できない取引データの取得のみに依存していました。

金融や取引を行うエージェントを構築する開発者は、エージェントが不正なアクションを実行したりフィッシング攻撃を受けたりしないよう、取得したすべての外部データを信頼できないものとして扱う必要があります。

SOURCES

6. Evo、自動リサーチオーケストレーターをClaude Codeの動的ワークフローに移植

LLMがコンテキストウィンドウ内で状態を維持することに頼るのではなく、エージェント的な要素をJavaScriptでスクリプト化することで、Evoの更新されたオーケストレーターは、長期的なタスクにおける信頼性を大幅に向上させました。このアプローチはコンテキストのドリフトを軽減し、実行ルールへの厳格な準拠を保証します。

  • Evoは、Claude Code内のAnthropicの動的ワークフローを利用するように自動リサーチオーケストレーターを移植しました。
  • この更新により、6ステップのラウンドがインコンテキストメモリから、サブエージェントによって実行される決定論的なJavaScriptへと移行しました。
  • サブエージェントは、フェーズ、ファンアウト幅、停止ルール、ゲート、CLI呼び出しを実行するために、新しくスコープされたコンテキストで実行されます。
  • このアーキテクチャは懸念事項を分離し、モデルが判断を担当し、コードが調整を管理するようにしています。

開発者はこのパターンを採用することで、複雑なエージェントワークフローにおける長期的な指示の遵守を改善できます。

SOURCES

7. オブジェクトストレージ上に構築されたグラフデータベース「HelixDB」が登場

HelixDBは、高価な専用データベースインスタンスの代わりに安価なオブジェクトストレージを活用することで、エージェントの状態とメモリを管理するための新しいアーキテクチャを提供します。ベクトル検索のプリフィルタリングなどの機能が今後予定されており、数週間以内にクラウドでの一般提供が開始される予定です。

  • HelixDBは、オブジェクトストレージ上でネイティブのベクトル検索と全文検索を組み合わせたOLTPグラフデータベースです。
  • このデータベースはS3を永続化層として利用し、大規模なグラフデータセットの水平スケーリングを可能にします。
  • コールドストレージからの書き込みで約100ms、読み取りで約50msのp99レイテンシを報告しています。
  • 主なユースケースには、AIメモリ、企業ナレッジベース、自律エージェントのデータ管理が含まれます。
  • GitHubを通じてローカル開発が可能であり、オープンソースの汎用AIメモリ層が現在開発中です。

開発者は、オブジェクトストレージ上にスケーラブルで費用対効果の高いAIメモリ層やエージェントのナレッジベースを構築できます。

SOURCES

8. Extend UIがドキュメントアプリ向けMITライセンスのUIキットをオープンソース化

Extend UIは、ドキュメントを多用するAIアプリケーションにおける一般的なUIの課題を解決する、洗練されたフロントエンドコンポーネントセットを提供します。これらのツールをオープンソース化することで、Extend.aiは開発者がゼロから構築することなく、バウンディングボックスによる引用やマルチフォーマットのドキュメントビューアを簡単に実装できるようにします。

  • Extend.aiは、ドキュメントの閲覧と処理のための14のコンポーネントとサンプルをMITライセンスでオープンソース化しました。
  • コンポーネントには、PDF、DOCX、XLSXビューア、バウンディングボックスによる引用、ファイルアップロード、電子署名のサポートが含まれます。
  • このキットはもともと社内利用のために開発されたもので、エッジケースを処理するために毎日数百万ページを処理しています。
  • コンポーネントは完全にカスタマイズ可能で、ドキュメント処理エージェントや社内ツールの構築向けに設計されています。

開発者はこれらの構築済みReactコンポーネントをスタックに組み込むことで、ドキュメント処理エージェント、引用ハイライト、ユーザー向けの取り込みフローを迅速に構築できます。

SOURCES

9. TeleportがAIエージェント向けの暗号IDを導入

AIエージェントが本番環境のインフラとやり取りする機会が増えるにつれ、従来の資格情報管理は深刻なセキュリティリスクをもたらしています。Teleportの暗号IDシステムは、エージェントが必要最小限の権限のみを短期間保持することを保証し、エージェントのアクションの完全な監査証跡を提供します。

  • Teleportは、人間中心の資格情報に代わる、AIエージェント専用に設計された暗号IDを提供します。
  • このプラットフォームは、安全なインフラへの短命で最小権限のアクセスを可能にします。
  • データベース、Kubernetes、クラウド環境のアクセス制御をサポートし、完全な監査可能性を備えています。
  • このソリューションは、共有シークレットや常時権限の必要性を排除します。

開発者は、エージェントがデータベース、Kubernetes、クラウド環境にアクセスする際の常時権限や共有シークレットを排除することで、エージェントワークフローを保護できます。

SOURCES

10. Windows 11のClaude Desktop、起動時に1.8GBのHyper-V VMを生成

このリソースリークは、ローカルワークフローでClaude Desktopに依存している開発者に影響を与えています。永続的なHyper-V VMは、ローカルエージェントの実行がアクティブかどうかにかかわらず生成され、数千もの古いセッションファイルが蓄積されることで、時間の経過とともにシステムパフォーマンスがさらに低下する可能性があります。

  • Windows 11上のClaude Desktopは、起動時に1.8GBのRAMを消費するHyper-V仮想マシン(Vmmem)を生成します。
  • この問題は、VirtualMachinePlatformが有効なシステムで、RPCインターフェースイベントを介してHyper-Vホストコンピューティングサービスによってトリガーされます。
  • Hyper-V Compute Adminログには、2026年2月まで遡る無効なJSONドキュメントエラーが繰り返し記録されています。
  • アプリケーションは古いセッションファイルをクリーンアップできず、local-agent-mode-sessionsディレクトリに数千のファイルが蓄積されます。
  • ユーザーはVirtualMachinePlatformを無効にするか、vmwpおよびvmcomputeプロセスを手動で終了させることで、この問題を軽減できます。

Windows 11でClaude Desktopをローカルで実行している開発者は、プロセスを手動で終了させない限り、深刻なRAMの劣化や古いセッションファイルの蓄積を経験する可能性があります。

SOURCES

11. UC Berkeley、長期ワークフロー向けのベンチマーク「Agents’ Last Exam」を発表

Agents’ Last Exam (ALE) ベンチマークは、米国の連邦職業分類に基づき、55の業界サブドメインにわたる長期的な専門ワークフローにおけるAIのパフォーマンスを評価します。Generalist Computer-Use Agent (GCUA) フレームワークを通じて動作し、モデルは仮想マシンを操作し、デスクトップソフトウェアと対話する必要があります。このベンチマークには、独自のソフトウェアを必要とするタスクと無料ツールを使用するタスクを分離するために、「Full」と「Unlicensed」の2つのスコアリング階層が用意されています。

  • UC BerkeleyのCenter for Responsible, Decentralized Intelligenceと300人の専門家が、Agents’ Last Exam (ALE) ベンチマークを立ち上げました。
  • OpenAIのGPT-5.5がCodexハーネスを使用して24.0%という最高の合格率をリーダーボードで達成しました。
  • AnthropicのClaude Fable 5は22.0%の合格率で3位にランクインしましたが、Claude Opus 4.8のような古いモデルは最も難しい階層で0.0%でした。
  • このベンチマークは、モデルが仮想マシンやデスクトップソフトウェアと対話することを要求するGeneralist Computer-Use Agent (GCUA) フレームワークを使用しています。
  • 汚染を防ぐため、1,490のタスクインスタンスのうち10%のみが公開されており、残りは非公開でローテーションされています。

開発者はこのベンチマークを使用して、エージェントワークフローやモデルが実際の仮想マシンやデスクトップソフトウェアをどれだけ効果的に操作できるかを評価できます。

SOURCES

12. Lemonade v10.7、LMX-Omniの互換性とCUDAバックエンドを追加

Lemonade v10.7は、ハードウェアアクセラレーションとクライアントの互換性を拡大することで、ローカル開発者のエクスペリエンスを大幅に向上させます。「lemonade bench」CLIツールの追加により、開発者は複数のランタイムにわたってローカルLLMのパフォーマンスを測定する標準化された方法を得ることができます。

  • Lemonadeバージョン10.7では、Open WebUIおよびOpenAIクライアントとのLMX-Omni仮想モデルの互換性が導入されました。
  • このリリースでは、llama.cppおよびstable-diffusion.cpp用のCUDAバックエンドと、sd-cpp用のVulkanサポートが追加されました。
  • LMX-Omni仮想モデルは、AMD、Apple Silicon、Nvidia、IntelシステムでGPUアクセラレーションされるようになりました。
  • 新しい「lemonade bench」CLIツールは、llama.cpp、FastFlowLM、vLLM全体でLLMのパフォーマンスデータを収集します。
  • このオープンソースプロジェクトは6つのワーキンググループによって推進されており、そのうち4つはAMD以外の従業員が率いています。

ローカルモデルを実行している開発者は、AMD、Apple Silicon、Nvidia、Intelのハードウェア全体で、LMX-OmniモデルのGPUアクセラレーションを活用できるようになりました。

SOURCES

13. FlashMemory技術、DeepSeek-V4のKVキャッシュフットプリントを90%削減

FlashMemory-DeepSeek-V4は、長文コンテキストLLMの提供に関連する深刻なGPUメモリのボトルネックに対処します。コンテキストのニーズを動的に予測し、重要でないKVキャッシュチャンクをオフロードすることで、システムはバックボーンのコア推論能力を維持しながら、ダウンストリームのパフォーマンスを向上させます。

  • FlashMemoryは、将来のトークンがDeepSeek-V4 CSA KVキャッシュのどのチャンクにアテンションを向けるかを予測し、関連するチャンクのみをデバイス上に保持します。
  • この技術は、物理的なKVキャッシュの平均フットプリントをフルコンテキストベースラインの13.5%に削減し、500Kコンテキストスケールで90%以上のオーバーヘッドを節約します。
  • Lookahead Sparse Attention (LSA) と、DeepSeek-V4アーキテクチャに基づくNeural Memory Indexerを利用しています。
  • インデクサーはバックボーンフリーのデカップリングトレーニング戦略を使用しており、モデル全体をロードすることなく独立してトレーニング可能です。
  • LongBench-v2、LongMemEval、RULERでの評価では、フルコンテキストベースラインと比較してダウンストリーム精度が平均0.6%向上しました。

ローカルまたはオンプレミスで長文コンテキストモデルを実行している開発者は、GPUメモリのボトルネックを劇的に削減し、最大500Kトークンの超長文コンテキストスケールを実現できます。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。