Audesso | Daily: AI

Multi-Token Predictionがllama.cppに統合

00:00 / --:--

このブリーフィングのオーディオはありません。

← ホームへ戻る

Multi-Token Predictionがllama.cppに統合

1. Multi-Token Predictionがllama.cppに統合

llama.cppプロジェクトは、Multi-Token Prediction (MTP)をマスターブランチに統合しました。このアップデートにより、推論エンジンは複数の将来のトークンを同時に予測できるようになり、対応モデルの生成スループットが向上する可能性があります。開発者はこの機能を活用して、ローカルLLMデプロイメントのパフォーマンスを最適化できます。

  • プルリクエスト22673がマスターブランチにマージされました。
  • MTPサポートがllama.cppのコードベースに正式に組み込まれました。
  • MTP機能で学習されたモデルにおいて、生成スループットの向上が期待できます。

MTPはローカル推論における重要な最適化であり、ハードウェアの負荷を増やすことなくトークン生成速度を向上させる道を開きます。

SOURCES

2. リポジトリレベルのコードインテリジェンスを実現する「Repowise」

Repowiseは、リポジトリをインデックス化し、グラフベースの分析を行うことで、開発者がコードベースをより深く理解できるようにします。NetworkXなどのツールを使用してPageRankスコアを計算し、主要なコンポーネントの特定やデッドコードの検出を行います。また、AIエージェントが開発タスクにおいてより良いコンテキストを得られるよう、CLAUDE.mdファイルの生成もサポートしています。

  • グラフ分析をサポートし、アーキテクチャの依存関係を特定します。
  • デッドコード検出およびアーキテクチャ決定の追跡機能が含まれています。
  • CLAUDE.mdファイルを生成し、特定のコードベースにおけるAIエージェントのパフォーマンスを向上させます。

AIエージェントがより多くのコーディングタスクを担うようになるにつれ、ハルシネーションを減らしコード品質を向上させるためには、正確でリポジトリ全体にわたるコンテキストを提供することが不可欠です。

SOURCES

3. CTF競技を混乱させるフロンティアAIモデル

Claude Opus 4.5やGPT-5.5といった高度なAIモデルの台頭により、中級から上級レベルのCTF課題の自動化が可能になり、競技環境は人間のスキルからAIオーケストレーションへとシフトしています。セキュリティ専門家は、エージェントが最小限の介入で複雑な課題を解決できるようになったため、公開リーダーボードはもはや人間の能力を測る信頼できる指標ではないと主張しています。

  • AIモデルは、最小限の人間による入力で中級および上級のCTF課題を解決できるようになりました。
  • CTFTimeのリーダーボードは、もはや人間のセキュリティスキルを測る信頼できる指標とは見なされていません。
  • セキュリティ専門家は、picoGymやHackTheBoxといった教育プラットフォームへと関心を移しています。

この変化により、従来の競技形式はAI主導の自動化に対して脆弱になっているため、セキュリティスキルをどのように測定・検証すべきかの再評価が迫られています。

SOURCES

4. NVIDIAが世界モデル「SANA-WM」をリリース

SANA-WMは、1枚の画像と6DoF(6自由度)のカメラ軌道を使用して、1分間の720p動画を生成する新しいオープンソースの世界モデルです。このモデルは、Gated DeltaNetブロックを備えたハイブリッドアーキテクチャを採用しており、一定のリカレント状態を維持することで効率的な動画生成を可能にします。Apache 2.0ライセンスで提供されており、ハイエンドのコンシューマー向けハードウェアであれば1分以内にクリップを生成できます。

  • 1枚の画像から60秒間の720p動画を生成します。
  • 効率的なリカレント状態管理のためのハイブリッドアーキテクチャを特徴としています。
  • NVlabs/Sanaリポジトリを通じてApache 2.0ライセンスで利用可能です。

このリリースは、動画生成と世界モデリングのための高性能なオープンソースツールを開発者に提供し、長尺の合成動画コンテンツを作成するハードルを大幅に下げます。

SOURCES

5. DeepSeek-V4-FlashとローカルLLMステアリング

llama.cppのバージョンであるDwarfStar 4を使用すると、開発者は組み込みのステアリング機能を使用してDeepSeek-V4-Flashをローカルで実行できます。推論中に内部の数値活性化を操作することで、ユーザーはモデルの挙動を誘導できます。ステアリングは出力を制御する手段を提供しますが、標準的なプロンプトエンジニアリングと比較すると、依然としてニッチな技術です。

  • ステアリングにはモデルの活性化への直接アクセスが必要であり、オープンウェイトモデルに限定されます。
  • DwarfStar 4は、ステアリングをllama.cppの推論ワークフローに直接統合しています。
  • ほとんどのステアリング用途は、現在、より単純なプロンプトエンジニアリング技術に取って代わられています。

直接的な活性化ステアリングは、モデルの挙動を制御するための強力かつ複雑な手法であり、オープンウェイトモデルでのみ実現可能です。

SOURCES

6. Pwn2Own 2026で標的となったAIコーディングエージェント

Pwn2Own Berlin 2026イベントでは、AIを統合した開発者ツールの攻撃対象領域が拡大していることが浮き彫りになりました。研究者は、Cursor AIコーディングエージェントおよびOpenAIのCodexにおけるゼロデイエクスプロイトを発見し、多額の報奨金を獲得しました。これらの発見は、ローカルの開発環境と対話するAIエージェントをデプロイすることに伴うセキュリティリスクを強調しています。

  • Cursor AIおよびOpenAI Codexにおいてゼロデイ脆弱性が特定されました。
  • 研究者はAI特有のエクスプロイトで合計5万ドルの報奨金を獲得しました。
  • このイベントは、AIを統合した開発プラットフォームのセキュリティ監査の必要性を再認識させるものです。

AIコーディングエージェントがローカルファイルやシステムへの深いアクセス権を持つようになるにつれ、攻撃者にとって価値の高い標的となり、AIネイティブなツールに対するより堅牢なセキュリティ慣行が必要となっています。

SOURCES

7. LiteLLM Agent Platformがリリース

LiteLLM Agent Platformは、本番環境で複数のAIエージェントを管理するために設計されたセルフホスト型のインフラストラクチャ層を提供します。チームごと、コンテキストごとのサンドボックス分離を提供し、ポッドの再起動時にもセッションの継続性を保証します。このプラットフォームは、既存のLiteLLM AI Gatewayと統合してモデルのルーティングとコスト追跡を処理し、さらに永続ストレージとランタイム管理機能を追加します。

  • エージェントセッションのための分離されたランタイム環境を提供します。
  • ポッドの再起動やアップグレード時にもセッションの継続性を保証します。
  • Kubernetes上に構築されており、LiteLLM AI Gatewayと統合されています。

このプラットフォームは、特に分離、永続性、インフラ管理の観点から、本番環境でAIエージェントをスケーリングする際の運用上の課題に対処します。

SOURCES

8. 長文コンテキスト事前学習のためのLighthouse Attention

Lighthouse Attentionは、クエリ、キー、値をプールするためにマルチレベルのピラミッドを使用することで、スケーリングされたドット積アテンションの計算コストを削減します。このアプローチにより、アテンションの複雑さがO(N²d)からO(S²d)に低下し、事前学習中の実時間(ウォールクロック)の大幅な短縮を実現します。この手法は学習専用に設計されており、推論時には密なアテンション(dense attention)に戻して互換性を維持することが可能です。

  • アテンションの複雑さをO(N²d)からO(S²d)に削減します。
  • 事前学習中のエンドツーエンドの速度を1.4〜1.7倍向上させます。
  • 学習後の推論時には、密なアテンションと互換性があります。

効率的な長文コンテキストの事前学習は現代のLLMにおける主要なボトルネックであり、この手法は標準的な密なアテンションの法外なコストをかけずに100万トークン以上にスケールする方法を提供します。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。