Apple、WWDC 2026でSiri AIとFoundation Modelsフレームワークを発表

1. Apple、WWDC 2026でSiri AIとFoundation Modelsフレームワークを発表

WWDC 2026において、AppleはAIエコシステムの抜本的な刷新を発表し、Google Geminiテクノロジーを搭載した「Siri AI」を導入しました。開発者にとって最も重要なアップデートは、画像入力、カスタムスキル、サーバーサイド実行をサポートするようになったFoundation Modelsフレームワークの拡張です。Appleは、App Storeのダウンロード数が200万回未満のインディー開発者に対し、Private Cloud Compute内でのFoundation Modelsへの無料アクセスを提供し、AI実験のコストを大幅に引き下げます。さらに、Xcodeのコーディングアシスタントは、エージェント型コーディング、ローカライゼーション、シミュレートされたデバイス操作をサポートするようにアップグレードされました。

• Appleは、高度な会話機能とシステム全体でのアプリ操作機能を実現するため、Google Geminiモデルを活用した再構築版アシスタント「Siri AI」を導入しました。
• アップデートされたFoundation Modelsフレームワークは、画像入力、カスタムスキル、サーバーサイドでのモデル実行をサポートします。
• App Storeの初回ダウンロード数が200万回未満の開発者は、クラウドAPIコストなしでPrivate Cloud Compute内のAppleのFoundation Modelsにアクセスできます。
• Xcodeのコーディングアシスタントは、アプリのローカライゼーション、シミュレートされたデバイスとの対話、カスタムスキルのサポートに対応しました。
• AppleはApp Intentsのサポートを拡大し、サードパーティ製アプリケーションがSiriと直接統合できるようにしました。

開発者は、Appleの最新のFoundation Modelsフレームワークを使用してエージェント型ワークフローを構築し、Xcodeでカスタムスキルを活用できるほか、ダウンロード数が200万回未満であればクラウドAPIコストゼロでPrivate Cloud Computeにアクセスできるようになります。

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26]

2. XiaomiとTileRT、1兆パラメータのMoEモデルで1000 TPS超えを達成

XiaomiのMiMoチームは、TileRTシステムグループと共同で、1兆パラメータのMixture-of-Experts（MoE）モデル向けの高速サービングモード「MiMo-V2.5-Pro-UltraSpeed」をリリースしました。MXFP4量子化、DFlash推論デコード、TileRT永続エンジンランタイムを組み合わせることで、CerebrasやGroqのようなカスタムハードウェアに頼ることなく、一般的な8基のGPUノードで毎秒1000トークンを超えるデコード速度を実現しています。チームはHugging Faceでモデルチェックポイントをオープンソース化し、一部のTileRTモジュールをGitHubで公開したほか、限定的なAPIトライアルも提供しています。

• XiaomiとTileRTは「MiMo-V2.5-Pro-UltraSpeed」をリリースし、単一の8基GPUノードで毎秒1000トークンを超えるデコード速度を達成しました。
• このパフォーマンスは、MoEエキスパートへのMXFP4量子化、DFlash推論デコード、TileRT永続エンジンランタイムによって実現されています。
• DFlash推論デコードは、ブロックレベルのマスク付き並列予測を使用して、コーディングタスクで平均6.30のアクセプタンス長を達成します。
• XiaomiはHugging Faceで「MiMo-V2.5-Pro-FP4-DFlash」チェックポイントをオープンソース化し、GitHubで一部のTileRTモジュールを公開しました。
• 2026年6月9日から6月23日まで、標準のMiMo-V2.5-Pro料金の3倍の価格で、アプリケーションベースのAPIトライアルが利用可能です。

開発者は、特殊なウェハースケールチップではなく、一般的なハードウェアを使用して、1兆パラメータという巨大なMixture-of-Expertsモデルで超高速推論を実行できるようになります。

SOURCES

[1] [2] [3]

3. DeepSeek V4 Pro、精度ベンチマークでGPT-5.5 Proを上回る

最近のベンチマーク対決において、DeepSeek V4 Proは38.0対33.0のスコアでGPT-5.5 Proを上回り、優れた精度と信頼性を実証しました。Pythonログリダクタータスクにおいて、DeepSeek V4 Proは単一の正規表現と置換処理を使用して重複パターンを処理することに成功し、制約を厳格に遵守する能力を示しました。対照的に、GPT-5.5 Proはこのタスクを効果的に処理できず、複数の正規表現に作業を分割する結果となりました。

• DeepSeek V4 Proはベンチマーク対決で38.0対33.0のスコアでGPT-5.5 Proを破りました。
• このモデルは、GPT-5.5 Proと比較して高い信頼性と厳格な制約遵守能力を実証しました。
• Pythonログリダクタータスクにおいて、DeepSeek V4 Proは単一の正規表現と置換処理で重複パターンを処理しましたが、GPT-5.5 Proは複数の正規表現に作業を分割しました。

高精度なコード生成と厳格な制約遵守を求める開発者にとって、GPT-5.5 Proに代わる非常に競争力のある選択肢が登場しました。

SOURCES

[1]

4. xAI、ネイティブ音声対応の「grok-imagine-video-1.5-preview」をリリース

xAIは、API経由で利用可能な新しい動画生成モデル「grok-imagine-video-1.5-preview」をリリースしました。このモデルは、ネイティブ音声付きで最大15秒の画像から動画への生成をサポートしており、現実世界の画像をアニメスタイルのアニメーションに変換するような複雑なスタイル変換も可能です。現在、Artificial Analysis Video Arenaの「Image to Video (With Audio)」カテゴリで、ByteDanceのSeedance 2.0に次ぐ2位にランクインしています。APIサービスの価格は、生成された動画1分あたり8.40ドルです。

• xAIは、ネイティブ音声をサポートする画像から動画への生成モデル「grok-imagine-video-1.5-preview」をリリースしました。
• このモデルは最大15秒の動画を生成し、アニメスタイルへのレンダリングのようなスタイル変換が可能です。
• Artificial Analysis Video Arenaの「Image to Video (With Audio)」カテゴリで、ByteDanceのSeedance 2.0に次ぐ2位にランクインしています。
• APIサービスの価格は、生成された動画1分あたり8.40ドルです。
• このモデルは現在xAIのAPI経由で利用可能であり、GrokアプリおよびXへの展開も進行中です。

開発者は、xAIのAPIを通じて、同期されたネイティブ音声付きの高品質なショート動画をプログラムで生成できるようになります。

SOURCES

[1] [2]

5. Microsoftの悪意あるパッケージがAIコーディングエージェントを標的にしたサプライチェーン攻撃

巧妙なサプライチェーン攻撃により、Microsoftの暗号学的に検証された数十のオープンソースパッケージが、認証情報を窃取するコードを含むように改ざんされました。「Miasma」（Mini Shai-Huludツールキットのクローン）として追跡されているこのマルウェアは、AIコーディングエージェントによってトリガーされるように特別に設計されています。28KBのペイロードは、AWS、Azure、GCP、Kubernetes、パスワードマネージャー、および90以上の開発者ツール設定から認証情報を収集し、SLSA来歴証明で使用されるOIDCトークンも窃取します。GitHubは影響を受けた73個のパッケージを無効化し、Microsoftはリポジトリを削除して侵害の調査を行っています。この侵害は、脅威アクターがMicrosoftの公開用認証情報を侵害した後に発生しました。

• Microsoftの暗号学的に検証された数十のオープンソースパッケージが、認証情報を窃取するコードを含むように改ざんされました。
• 「Miasma」として追跡されている悪意のあるペイロードは、AIコーディングエージェントによって特別にトリガーされます。
• GitHubは73個の悪意のあるパッケージを無効化し、Microsoftは侵害を認め、影響を受けたリポジトリを削除しました。
• 28KBのペイロードは、AWS、Azure、GCP、Kubernetes、パスワードマネージャー、および90以上の開発者ツール設定から認証情報を窃取します。
• 「TeamPCP」として追跡されている脅威アクターは、Microsoftの公開用認証情報を侵害することでビルドパイプラインを回避しました。

AIコーディングアシスタントを使用する開発者は、直ちに依存関係を監査する必要があります。改ざんされたパッケージは、自動化されたエージェント実行中に悪意のあるペイロードをトリガーするように特別に設計されているためです。

SOURCES

[1]

6. LangSmith、安全なエージェント実行のための「Sandboxes」をローンチ

LangSmithは、AIエージェントに安全なコンピューティング環境を提供するために設計された、ハードウェア仮想化マイクロVMを提供する新機能「Sandboxes」をローンチしました。Sandboxesを使用すると、エージェントは本番環境のインフラストラクチャを危険にさらすことなく、動的なタスクの実行、永続的な状態の管理、複雑なワークフローの実行が可能になります。この機能は、信頼できないLLM生成コードを実行する際のセキュリティリスクに対し、安全で軽量な仮想マシン内での実行を分離することで直接対処します。

• LangSmithは、AIエージェント向けに設計されたハードウェア仮想化マイクロVM「Sandboxes」を導入しました。
• Sandboxesは、動的なタスクを実行し、複雑なワークフローを実行するための安全なコンピューティング環境を提供します。
• この機能により、エージェントは本番環境のインフラストラクチャを損なうことなく、永続的な状態を管理できます。
• Sandboxesは、LLMによって生成された信頼できないコードを実行することに関連するセキュリティリスクを軽減するように設計されています。

開発者は、本番環境のインフラストラクチャを危険にさらすことなく、AIエージェントに信頼できないコードを実行させたり、複雑なワークフローを実行させたりできるようになります。

SOURCES

[1]

7. Cursor、直接的な要素操作を可能にするデザインモードをアップデート

Cursorはデザインモードのアップデートをリリースし、開発者が実行中のアプリケーションと対話する方法を強化しました。アップデートされたモードでは、ユーザーはUI要素を直接ポイント、描画、クリックできるほか、希望する変更をナレーションで伝えることができます。このビジュアルファーストのアプローチにより、エディタ内で直接フロントエンドデザインのプロトタイプ作成や反復作業を行うことが容易になります。

• Cursorはデザインモードをアップデートし、UI要素のポイント、描画、クリックをサポートしました。
• このアップデートにより、ユーザーは実行中の製品上で直接変更をナレーションで伝えることができます。
• この機能は、視覚的な編集とフロントエンド開発のワークフローを効率化します。

開発者は、Cursor内で実行中のアプリケーションと視覚的に対話することで、UIのプロトタイプ作成やフロントエンドの反復作業を加速できます。

SOURCES

[1]

8. Intuned、自己修復AIを備えたコードファーストのブラウザ自動化プラットフォームをローンチ

Intuned (YC S22) は、APIを持たないWebサイト向けのブラウザ自動化を構築、デプロイ、保守するために設計されたコードファーストのプラットフォームをローンチしました。開発者はPlaywrightベースのTypeScriptまたはPythonを使用して自動化を記述し、Intunedのマネージドランタイムが認証、セッションの再利用、同時実行などのインフラストラクチャタスクを処理します。Webスクレイピングの脆弱性に対処するため、このプラットフォームにはClaude Agent SDK上に構築されたAIエージェントが統合されており、障害を自動的に検出し、実行トレースを分析し、Webサイトの構造が変更された際に自己修復修正をデプロイします。

• Intunedは、PlaywrightベースのTypeScriptまたはPythonを使用してブラウザ自動化を構築、デプロイ、保守するためのコードファーストプラットフォームです。
• このプラットフォームは、認証、セッションの再利用、スケジューリング、同時実行を処理するマネージドランタイムを提供します。
• Claude Agent SDK上に構築された統合AIエージェントが、自動化の作成を支援し、障害が検出された際に修正を提案またはデプロイします。
• Intunedは実行コンテキスト（ログ、トレース、パラメータ）をキャプチャし、デバッグとAI支援による修復を容易にします。
• Web Task APIにより、プラットフォームのインフラストラクチャとエージェント機能へのプログラムによるアクセスが可能です。

開発者は、ターゲットとなるWebサイトの構造が変更された際に自動的に修復される堅牢なWebスクレイパーやブラウザ自動化を構築でき、保守のオーバーヘッドを削減できます。

SOURCES

[1]

9. OpenEnv、オープンソースのエージェント実行環境へ移行

ターミナルやブラウザのようなエージェント実行環境を作成するために設計されたツール「OpenEnv」が、オープンソースモデルへ移行します。このプロジェクトは、Meta-PyTorch、Unsloth、Modal、Prime Intellect、Nvidia、Hugging Faceなどのメンバーで構成される委員会によって管理されます。OpenEnvはAIエージェントをトレーニングおよび実行するための標準化された環境を提供し、すでにPyTorch Foundation、vLLM、Lightning AI、Scale AIなどの主要組織から採用・支持されています。

• OpenEnvは、ターミナルやブラウザのようなエージェント実行環境を作成するために設計されたツールです。
• このプロジェクトは、委員会によって管理されるオープンソースモデルへ移行しています。
• 委員会のメンバーには、Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI、Hugging Faceの代表者が含まれています。
• このプロジェクトは、PyTorch Foundation、vLLM、SkyRL、Lightning AI、Scale AIなどの組織によって採用・支持されています。

AIエージェントを構築する開発者は、PyTorch、Hugging Face、Unsloth、Modalによってサポートされる、標準化されたオープンソースのサンドボックス環境を利用できるようになります。

SOURCES

[1]

10. Amazon Bedrock、AnthropicおよびOpenAI API向けにコンソールを最適化

Amazon Bedrockは、AnthropicおよびOpenAI互換API向けに特別に最適化された再設計版コンソールを導入しました。新しいコンソールには、包括的なモデルカタログ、プロジェクトベースのワークフロー、コードスニペットを自動生成するライブドキュメントが含まれています。複数のAWSリージョンで利用可能なこのアップデートは、モデルの評価から本番環境へのデプロイまでのプロセスを効率化するように設計されています。

• Amazon Bedrockは、AnthropicおよびOpenAI互換API向けに最適化された新しいコンソールを立ち上げました。
• このコンソールは、包括的なモデルカタログ、プロジェクトベースのワークフロー、自動コードスニペット付きのライブドキュメントを備えています。
• このツールは複数のAWSリージョンで利用可能であり、評価から本番環境への移行を簡素化します。

開発者は、標準化されたAPI形式を使用して、AWS内でのモデルの評価、デプロイ、本番環境への移行をより容易に行えるようになります。

SOURCES

[1]

11. OpenAI、プロンプトインジェクションを防ぐ「Lockdown Mode」を導入

OpenAIは、信頼できない外部コンテンツやWebページに起因するプロンプトインジェクション攻撃のリスクを軽減するために設計された「Lockdown Mode」という新しいセキュリティ機能を導入しました。Lockdown Modeを有効にすると、ライブブラウジング、Web画像取得、ディープリサーチ、エージェントモードなどの高リスクな動的機能が無効になります。この機能は、キャッシュされたコンテンツや画像生成のコア機能を維持し、ユーザーが外部データと安全に対話できるようにします。

• OpenAIは、外部コンテンツやWebページからのプロンプトインジェクション攻撃のリスクを軽減するためにLockdown Modeを導入しました。
• このモードは、ライブブラウジング、Web画像取得、ディープリサーチ、エージェントモードを無効にします。
• 有効な間も、キャッシュされたコンテンツや画像生成のコア機能は維持されます。

開発者やエンタープライズユーザーは、高リスクな動的機能を選択的に無効にすることで、悪意のある外部コンテンツからLLMとの対話を保護できます。

SOURCES

[1]

12. Google Research、マルチホップクエリ向けの「Agentic RAG」を導入

Google Researchは、Gemini Enterprise Agent Platformに統合されたエージェント型RAGフレームワークを導入し、パブリックプレビューで利用可能にしました。このフレームワークは、複雑なマルチホップのエンタープライズクエリ向けに設計された新しい「Cross-Corpus Retrieval」機能を強化します。これは、専門化された「Sufficient Context Agent」が不足している情報を反復的に特定し、回答を生成する前に完全なコンテキストを確保するためにギャップを記録するマルチエージェントアーキテクチャを利用しています。Googleによると、このアプローチにより、標準的なRAGシステムと比較して事実の正確性が最大34%向上し、レイテンシのオーバーヘッドを単一コーパス設定の3%以内に抑えることができました。

• Google Researchは、パブリックプレビューで新しいCross-Corpus Retrieval機能を備えたエージェント型RAGフレームワークを導入しました。
• このフレームワークは、Orchestrator、Planner、Query Rewriter、Search Fanout、Sufficient Context、Synthesis Agentを含むマルチエージェントアーキテクチャを使用しています。
• Sufficient Context Agentは、回答を生成する前に不足している情報を特定し、ギャップを記録することで反復的な検索を可能にします。
• このシステムは標準的なRAGシステムと比較して事実の正確性が最大34%向上し、FramesQAベンチマークで90.1%の精度を達成しました。
• テスト中、クロスコーパス検索のレイテンシは単一コーパス設定の3%以内に収まりました。

開発者は、複雑なマルチホップクエリに対して事実の正確性が最大34%高い、より信頼性の高いエンタープライズ検索システムを構築できます。

SOURCES

[1]

13. Luce Spark、オフロードペナルティなしで16GB GPU上で35B MoEモデルを実行

Apache 2.0ライセンスの下でリリースされたオープンソースプロジェクト「Luce Spark」は、Qwen3.6 35B-A3Bのような33-35BのMixture-of-Experts（MoE）モデルを、コンシューマーグレードの16GB GPU上で実行する方法を提供します。Sparkは重いオフロードコストを支払う代わりに、アクティブなエキスパートをGPU上に保持し、バウンド非同期キャッシュを使用してシステムRAMから他のエキスパートをスワップします。このシステムはライブルーティングデータに基づいてエキスパートの配置を動的に自己調整し、オフラインキャリブレーションを必要とせずに、毎秒約100トークン（全GPU構成のパフォーマンスの約85%）を達成します。

• Luce Sparkは、33-35B MoEモデルのVRAM要件を16 GiB未満に削減するApache 2.0ライセンスのオープンソースプロジェクトです。
• このシステムは、アクティブなエキスパートをGPU上に保持しつつ、バウンド非同期キャッシュを使用して非アクティブなエキスパートをシステムRAMからスワップします。
• Sparkはライブルーティングデータに基づいてエキスパートの配置を自己調整し、オフラインキャリブレーションの必要性を排除します。
• このシステムは、60%の常駐率で毎秒約100トークンを達成します（フルGPU常駐の場合は毎秒119トークン）。
• このプロジェクトはGitHubで公開されていますが、物理的な16GBハードウェアでの広範なテストはまだ行われていません。

開発者は、コンシューマーグレードの16GB GPU上で、わずかなパフォーマンスのトレードオフのみで、より大きく高性能なMoEモデルをセルフホストして実行できます。

SOURCES

[1]

14. Gemma 4、QATとMTPによりコンシューマーGPUでのパフォーマンスがほぼ2倍に

Quantization Aware Training（QAT）とMulti-Token Prediction（MTP）を組み合わせた最近の最適化により、24GB以下のVRAMを搭載したGPUでのローカルLLMパフォーマンスが大幅に向上しました。Gemma 4 MTPのサポートが最近llama.cpp（リリースb9551以降）にマージされ、NVIDIA RTX 3090上でGemma 4 31bのパフォーマンスが毎秒40トークンから70-80トークンへと跳ね上がりました。さらに、開発者はモバイルデバイスやRaspberry Piのような低電力ハードウェアをターゲットにするため、より小さなGemmaモデルへのMTPサポートの実装を進めています。

• NVIDIA RTX 3090 GPU上で、Gemma 4 31bのパフォーマンスが毎秒40トークンから70-80トークンに向上しました。
• Gemma 4向けのMulti-Token Prediction（MTP）サポートが、リリースb9551からllama.cppにマージされました。
• 26bモデルでのテストでは、n-maxを1としたMTPを使用することで1.26倍の速度向上（毎秒143から180トークン）が見られました。
• Llama.cppは、Raspberry Piやモバイルデバイスのような低電力ハードウェアをターゲットとした小さなGemmaモデルへのMTPサポートも実装しています。
• パフォーマンスの向上は、Quantization Aware Training（QAT）とMTPの組み合わせによって実現されています。

ローカルモデルを実行する開発者は、RTX 3090のようなコンシューマーグレードのハードウェアで最大1.8倍の速度向上を達成できます。

SOURCES

[1] [2] [3]

15. llama.cppをカスタムフラグでコンパイルし、1.5GBのVRAMを節約

llama.cppを介してローカルモデルを実行している開発者は、カスタムフラグを使用してプロジェクトをコンパイルすることで、最大1.5GBのVRAMを回収できます。デフォルトでは、llama.cppはすべてのレイヤーをGPUにオフロードする際にパイプライン並列処理を有効にし、VRAM内に4つの計算バッファコピーを割り当てます（GGML_SCHED_MAX_COPIES=4）。しかし、テストの結果、このデフォルト設定は単一コピーと比較して推論速度の利点がないことが示されています。「-DGGML_SCHED_MAX_COPIES=1」でコンパイルすると、この余分な割り当てが防止され、大幅なVRAMが節約され、コンテキストキャッシュ量子化によって達成された節約分が肥大化によって相殺されるのを防ぎます。

• Llama.cppは、すべてのモデルレイヤーをGPUにオフロードする際にデフォルトでパイプライン並列処理を有効にし、VRAM内に4つの計算バッファコピーを割り当てます。
• llama.cppを「-DGGML_SCHED_MAX_COPIES=1」オプションでコンパイルすると、余分な計算バッファの割り当てが防止されます。
• テストでは、4つのコピーを使用したパイプライン並列処理は、1つのコピーを使用した場合や完全に無効にした場合と比較して、推論速度の利点がないことが示されています。
• デフォルトの4コピー構成では追加で1.5GBのVRAMが消費され、コンテキストキャッシュ量子化によるVRAM節約分が部分的に相殺されていました。
• テストは、AMD Radeon RX 6800 XTとRX 6700 XTの混合セットアップで実施されました。

ローカルモデルを実行する開発者は、推論速度を犠牲にすることなく、マルチGPUまたはオフロード設定で最大1.5GBのVRAMを回収できます。

SOURCES

[1]

1. Apple、WWDC 2026でSiri AIとFoundation Modelsフレームワークを発表

2. XiaomiとTileRT、1兆パラメータのMoEモデルで1000 TPS超えを達成

3. DeepSeek V4 Pro、精度ベンチマークでGPT-5.5 Proを上回る

4. xAI、ネイティブ音声対応の「grok-imagine-video-1.5-preview」をリリース

5. Microsoftの悪意あるパッケージがAIコーディングエージェントを標的にしたサプライチェーン攻撃

6. LangSmith、安全なエージェント実行のための「Sandboxes」をローンチ

7. Cursor、直接的な要素操作を可能にするデザインモードをアップデート

8. Intuned、自己修復AIを備えたコードファーストのブラウザ自動化プラットフォームをローンチ

9. OpenEnv、オープンソースのエージェント実行環境へ移行

10. Amazon Bedrock、AnthropicおよびOpenAI API向けにコンソールを最適化

11. OpenAI、プロンプトインジェクションを防ぐ「Lockdown Mode」を導入

12. Google Research、マルチホップクエリ向けの「Agentic RAG」を導入

13. Luce Spark、オフロードペナルティなしで16GB GPU上で35B MoEモデルを実行

14. Gemma 4、QATとMTPによりコンシューマーGPUでのパフォーマンスがほぼ2倍に

15. llama.cppをカスタムフラグでコンパイルし、1.5GBのVRAMを節約

Inference Brewを受信箱へ