1. MicrosoftがMAI-Transcribe-1.5を筆頭とする7つの自社製MAIモデルを発表
MicrosoftはBuild 2026において、MAIファミリーの7つの新モデルを発表しました。これには、MAI-Image 2.5(フラッシュ版を含む)、15の新しい言語をサポートするMAI-Voice-2、そしてトップクラスのソフトウェアエンジニアリングベンチマークに匹敵する推論モデルのフラッグシップであるMAI-Thinking-1が含まれます。文字起こし分野では、MAI-Transcribe-1.5がArtificial Analysisのリーダーボードでトップ10に入る最速の音声認識オプションとして際立っており、ドメイン固有の語彙に対するキーワードバイアス機能も備えています。
- • MAI-Transcribe-1.5は276倍のリアルタイム速度で動作し、AA-WERリーダーボードで2.4%の単語誤り率(WER)を達成。
- • Transcribe-1.5はMicrosoft Foundry経由で音声1,000分あたり6ドルで提供され、43言語をサポート。
- • MAI-Thinking-1は、ゼロから学習された35Bパラメータの推論モデルで、128Kのコンテキストウィンドウを持つ。
- • MAI-Code-1-Flashは、GitHub CopilotおよびVS Codeに直接統合された推論効率の高いコーディングモデル。
開発者に高速な音声文字起こし機能と新しい推論特化型モデルの選択肢を提供し、Microsoftの自社モデルへのシフトを象徴しています。
2. Alibabaが100万トークンのコンテキストと高度な推論を備えたQwen3.7-Plusを発表
Qwen3.7-Plusは、テキスト、ビデオ、画像入力を解釈するように設計されたマルチモーダルエージェントモデルです。GUIとCLIの対話を統合されたエージェントループに組み込んでおり、Terminal Bench 2.0-Terminusベンチマークで70.3、ScreenSpot Proで79.0を記録しました。テキスト専用の兄弟モデルであるQwen3.7-Maxは、Artificial Analysis Intelligence Indexで56.6を記録しました。なお、このモデルはローカルでの重みデプロイをサポートしていません。
- • 100万トークンのコンテキストウィンドウをサポートし、内部の思考プロセス(Chain-of-Thought)用に256Kトークンを含む。
- • 価格は入力100万トークンあたり0.40ドル、キャッシュされた読み取りは100万トークンあたり0.04ドル。
- • マルチターンチャット全体で内部推論ループを保持するための「preserve_thinking」APIパラメータを含む。
- • Alibaba Cloudの国際エンドポイントを通じてアクセスする必要があり、クローズドな商用ライセンス下にある。
堅牢なマルチターン会話のための専用推論パラメータを備えた、非常に手頃な価格の長文脈マルチモーダルモデルを提供します。
3. AWS BedrockがOpenAIモデルをホストし、Responses APIをサポート
OpenAIクックブックの新しいガイダンスは、OpenAIのモデル機能とAWSのクラウドネイティブインフラストラクチャを橋渡しするものです。Responses APIを活用することで、開発者はAWS Bedrockのホスティング環境下で、構造化データ出力や関数呼び出しといった標準的なパターンを維持できます。
- • BedrockでホストされたOpenAIモデルを使用した本番ワークフローの構築方法を実証。
- • Responses APIを活用して、構造化出力、ツール呼び出し、ファイル入力をサポート。
- • 状態管理とプロンプトキャッシュのための運用ガイドを提供。
AWS開発者がOpenAIモデルを実行しながら、Bedrockの構造化出力やツール呼び出し機能を容易に活用できるようになります。
4. TinyFishがオープンソースのマルチエージェントデータセット構築ツール「BigSet」をリリース
TinyFishのBigSetフレームワークは、開発者がターゲットデータを自然言語で記述できるようにすることで、データ抽出を効率化します。このシステムは2〜5分でサブエージェントを立ち上げ、詳細を収集し、完全に属性付けされたデータテーブルを作成します。セルフホスト型のDockerコンテナを実行するには、TinyFish、OpenRouter、ClerkのAPIキーが必要です。
- • AGPL-3.0ライセンスで提供され、Docker経由でセルフホスト可能。
- • データ構造を定義するスキーマ推論モデルと、並列サブエージェントを調整するオーケストレーターエージェントを使用。
- • データセットIDをアクセス不可能なJavaScriptクロージャ内に分離することで、プロンプトインジェクションを防止。
- • 30分から週単位までのスケジュールされたデータ更新をサポートし、ソースの属性情報と共に結果をエクスポート。
Webデータを自動的に収集・構造化し、クリーンなCSVやXLSXファイルに変換するための、安全なセルフホスト型ツールを開発者に提供します。
5. MicrosoftがカーネルレベルのAIエージェントサンドボックス用「Execution Containers」を発表
Microsoft Execution Containers (MXC) は、AIエージェントを安全に実行するための構造化されたフレームワークを開発者や管理者に提供します。OpenAI、Nvidia、Manus、Nous Research、OpenClawプロジェクトなどのパートナーが、MXCを自社の開発フレームワークに積極的に統合しています。さらにMicrosoftは、MXCの運用をDefenderやPurviewなどのエンタープライズセキュリティスイートと連携させる「Agent 365」を7月にプレビュー公開すると発表しました。
- • 実行時にWindows OSカーネルレベルでAIエージェントのポリシー駆動型実行境界を強制。
- • 軽量なプロセス分離からマイクロ仮想マシンまで、スケーラブルな分離スペクトルをサポート。
- • 各エージェントをローカルまたはMicrosoft EntraベースのIDに紐付け、監査可能なアクション追跡を実現。
- • エージェントの実行をデスクトップ、クリップボード、入力UIから分離し、UIスプーフィングやセッション間の漏洩を防止。
アクションを高度にカスタマイズ可能なOSレベルのサンドボックスに限定することで、信頼できない可能性のあるエージェントコードを安全に実行できるようになります。
6. Perplexityがカスタム検索パイプライン向け「Search as Code (SaC)」SDKを導入
Search as Code (SaC) は、検索アーキテクチャを静的なAPI呼び出しからモデル主導のプロセスへと移行させます。オーケストレーションを行うAIモデルに検索パラメータの直接的な制御権を与えることで、SaCはタスク固有のパイプライン構成を可能にし、非常に堅牢で文脈的に正確なエージェント検索を実現します。
- • AIモデルがプログラムで検索パイプラインを構成できるSDKを提供。
- • モノリシックな検索APIと比較して、パフォーマンスとコスト効率を向上させるように設計。
- • 複雑な検索ベンチマーク、特にWANDRにおいて競合他社を上回る性能を記録。
開発者が硬直的な検索APIを、LLMによって動的に構成される柔軟なパイプラインに置き換えることを可能にします。
7. MistralがAI検索パイプライン向けオープンソース「Search Toolkit」をリリース
Mistral Search Toolkitは、本番環境のAIパイプライン構築におけるエンジニアリングのオーバーヘッドを簡素化することを目的としています。インジェストと検索のインターフェースを標準化することで、開発者は検索ベースのアーキテクチャにおけるコンポーネントの切り替え、最適化、評価をより容易に行えるようになります。
- • オープンソースフレームワークとしてパブリックプレビューでリリース。
- • データ取り込み、検索、評価という3つの主要ステップを統合するように設計。
- • 検索操作を管理するための共有インターフェースを提供。
RAGパイプライン内でのデータ取り込み、検索、評価を効率化するための構造化されたオープンソースライブラリを開発者に提供します。
8. Microsoftがエージェントのコンテキストとデータを統合する「IQ」および「Rayfin SDK」を発表
Build 2026で発表されたMicrosoft IQとRayfinは、複雑なエンタープライズエージェントを構築する開発者が直面する、断片化されたデータストレージとユーザーコンテキストの乖離という大きな課題を解決します。Rayfin SDKを通じてOneLake上のバックエンドを標準化することで、組織はエージェントが生成したすべてのアプリケーションが、一元管理されたガバナンスの効いた組織知識レイヤーにフィードバックされることを保証できます。Fabric IQ内のオントロジーは、間もなく一般提供される予定です。
- • Rayfinは、エージェントアプリケーションをMicrosoft Fabricに直接デプロイするオープンソースのSDKおよびCLI。
- • Microsoft IQは、Work IQ、Foundry IQ、Fabric IQ、Web IQという4つのコンテキストソースを統合。
- • アプリデータをMicrosoft OneLakeに直接ルーティングし、サイロ化されたストレージを防止。
- • ハイブリッド検索の意図が2026年1月の10.3%から3月には33.3%に増加した市場の変化に対応。
開発者がエージェントによって構築されたアプリをガバナンスの効いたMicrosoft Fabricバックエンドに直接デプロイしつつ、コンテキストを一元管理できるようになります。
9. Microsoftが仕様駆動型AI評価のための「ASSERT」をオープンソース化
ASSERTは、厳密でアプリケーション固有のAI評価に対する高まる需要に応えるものです。このフレームワークは、シナリオテストケースを自動生成し、ターゲットシステムの応答を評価し、ユーザー定義の制約に基づいて回帰スコアを割り当てます。開発者は、カスタムのシステムコンテキストやツールを提供することで、特定の統合ニーズに合わせてテスト環境を調整できます。
- • Adaptive Spec-driven Scoring for Evaluation and Regression Testing (ASSERT) の略。
- • 自然言語の目標、ポリシー、動作ガイドラインを、移植可能でスコア付けされたテストスイートに変換。
- • 詳細な実行トレース、中間アクション、ツール呼び出しを保存し、デバッグを簡素化。
- • デプロイ前の構築や継続的なデプロイ後の監視を含む、開発ライフサイクル全体で適用可能。
開発者が平易な英語の説明を使用して、エージェントの動作に関する再現可能な回帰テストを迅速に生成・実行できるようになります。
10. LiteRT経由でGemma 4を実行し、テキスト生成速度を2.4倍に向上
テストにより、Gemma 4 E4BモデルをGoogleのLiteRTエンジンでデプロイすると、標準的なllama.cpp実装と比較してテキスト生成タスクの速度が劇的に向上することが明らかになりました。このベンチマークでは、ビジョンエンコーダーのボトルネックはほとんど変わらないため、速度向上は主にテキストデコーダー側にあることが強調されています。開発者は、著者のオープンソースPythonラッパーを使用して、ローカルで互換性のあるAPIエンドポイントを立ち上げることができます。
- • マルチトークン予測(MTP)を備えたLiteRT-LM 4Bは、RTX 4060ti上で157.2 tok/sを達成(llama.cpp Q4 GGUFは66.3 tok/s)。
- • 画像キャプション生成では1.1倍の緩やかな速度向上にとどまり、ビジョンエンコーダーが主なボトルネックとなっている。
- • 統合を簡素化するために、OpenAI互換のPythonラッパーがGitHubで利用可能。
- • 現在の制限として、決定論的な出力(温度設定を無視)、シングルセッション実行、バッチ処理なし、Linuxのみのサポートがある。
Gemma 4 4BモデルをLinux環境に統合する開発者に対し、明確なローカルパフォーマンス最適化の道筋を提供します。
11. 反復的なローカルタスク自動化に向けた小型LLMのベンチマーク
ベンチマーク調査では、特定のシステムユーティリティタスク向けに小型LLMを評価しました。モデルはコンテキストを1kから32kトークンにスケーリングすると、生成速度が通常20%〜35%低下することが指摘されています。さらに、サードパーティのファインチューンモデルでは、壊れたチャットテンプレートや幻覚的な関数名などの問題が頻繁に発生することが観察され、自動化ワークフローには適切に設計されたベースモデルに依存することの重要性が再確認されました。
- • 6GBのRTX 4050上で、ツール呼び出し、指示順守、計画分解をターゲットにしたカスタムの6つのプローブセットを使用して20モデルをテスト。
- • LFM2.5-1.2B-Instructが高速で低VRAMのオプションとして特定され、Granite-4.1-3Bが品質のベースラインとして機能。
- • Gemma-4-agentic-e2bは、256kトークンのサポートにより長文脈タスクに推奨。
- • LiquidaiのLFM2.5-8B-A1Bがトップオーケストレーターとして選出され、速度とコンテキスト利用率で高密度な8Bモデルを上回った。
開発者がローカルエージェントのサブタスクやバックグラウンド実行に最も効率的で堅牢な小型モデルを選択するのに役立ちます。
12. エージェント向けローカル代替モデルとしてのQwen3.6-27Bの評価
評価の結果、Qwen3.6-27Bはローカルの推論レイヤーとして機能し得るものの、クラウドベースのAPIモデルに匹敵させるには厳格なソフトウェアによる緩和策が必要であることが確認されました。検出されないサブエージェントのエラーにより47回の実行中3回でエージェントの連鎖的な失敗が発生したため、開発者は構造化出力の強制、計画承認ゲート、明示的な失敗処理ロジックを実装する必要があります。
- • OpenYabbyを使用した47のコーディングワークフローにおいて、RTX 3090(24GB VRAM)上でQ6_K量子化のQwen3.6-27Bをテスト。
- • 計画生成では95%のスキーマ妥当性を達成したが、JSONツール呼び出しでは12%という高いフォーマットエラー率を示した。
- • 二次的なQwen自動レビューインスタンスを通じて、Claudeと比較してバグの約60%を捕捉。
- • 14kトークンを超えると長文脈のドリフトが発生し、実用的な限界は12kトークンであることが判明。
クラウドLLM APIをセルフホスト型の推論モデルに置き換えようとする開発者に対し、具体的な指標とアーキテクチャの推奨事項を提供します。
13. インジェスト時の画像記述によるクエリ時RAGオーバーヘッドの削減
Kapaの調査結果によると、クエリ時にマルチモーダル処理を実行することは経済的に非効率であり、ペイロード制限エラーが発生しやすいことがわかりました。画像記述をインラインで埋め込むのではなく、個別のテキストチャンクとして保存する方がはるかに費用対効果が高いことが証明されました。現在プレビューで展開されているこのシステムは、数百万枚の画像を含む技術文書を処理するように設計されています。
- • インデックス作成時にビジョンモデルを使用して画像を記述し、クエリ時に画像を処理するのではなく、出力をテキストチャンクとして保存。
- • インジェスト時にゼロショット分類器を使用して、ロゴやバナーなどの重要でない画像を除外。
- • 生成時にビジョンモデルに周囲のテキストコンテキストを提供することで、キャプションの品質を向上。
- • 3つの顧客向けドキュメントアシスタントプロジェクトにおいて、94%〜99%の正確な画像配置を達成。
クエリのペイロード制限に達することなく、数百万枚の文書画像に対してマルチモーダルRAGを実装するための、非常に費用対効果の高いパターンを提供します。
14. クリーンなMarkdown RAG処理のためのWeb検索APIの比較
適切な検索APIを選択することは、検索拡張生成(RAG)における過剰なトークン消費や解析ノイズを回避するために不可欠です。Tavilyはエージェントに広く使用されていますが、開発者はトークンのオーバーヘッドに関して賛否両論の報告をしています。セルフホスト型の予算重視のセットアップではSearXNGが選択肢として残りますが、埋め込み前に生のHTMLをクリーンアップするためのカスタム後処理が必要です。
- • Brave Searchは、事前にフォーマットされ、関連性でランク付けされたMarkdownチャンクを提供するLLM Context APIを提供。
- • Parallel AIのExtract APIは、JSを多用するページを密度の高いMarkdownトークンに圧縮。
- • Exaは、LLMへの直接取り込み用に明示的に構築されたネイティブのMarkdown抽出機能を備えている。
- • FirecrawlとJina Readerは、生のURLをクリーンなMarkdownに変換するための指定ツール。
開発者が重いスクレイピングミドルウェアを排除し、RAGパイプラインにおけるトークンオーバーヘッドを削減する検索エンドポイントを選択するのに役立ちます。
15. NVIDIA Apex融合カーネルによるTransformer学習の高速化
このチュートリアルは、学習パイプラインを近代化するための明確な道筋を示しています。Apexの非推奨となった混合精度コンポーネントに頼るのではなく、PyTorchのネイティブAMPを使用しつつ、Apexの高度に最適化された融合CUDAカーネルを活用するように開発者を導きます。実行時にカーネルの可用性を検証することは、より低速な標準実装へのサイレントなフォールバックを防ぐために重要であると強調されています。
- • Apexを主にFusedAdam、FusedLayerNorm、FusedRMSNormなどの高性能な融合カーネルのために使用。
- • 非推奨のapex.ampライブラリではなく、ネイティブのPyTorch torch.amp(autocastおよびGradScaler)とのペアリングを推奨。
- • カーネルの可用性を確保するために、CUDAおよびC++拡張機能を使用してソースからApexをビルドする必要がある。
- • FusedAdamとPyTorch AdamWをベンチマーク比較することで、スループットの向上を実証。
カスタムモデルのファインチューニング実行を最適化し、より高い学習スループットを達成するのに役立ちます。
16. AMD MI300Xハードウェア上でのDeepSeek-V4-Flashの最適化
AMD MI300Xは同等のNvidiaハードウェアよりも低いレンタル価格でオンデマンド利用可能ですが、vLLMでDeepSeek-V4-Flashのような最先端モデルをデプロイするには、これまでカスタムのソフトウェア回避策が必要でした。調整されたROCmヘルパーを開発し、FP8指数バイアスの違いに対処することで、エンジニアはチップのコアレベルのライブラリ制限を回避し、高スループットのローカル推論を実現することに成功しました。
- • AMD MI300Xは192GBのHBM3メモリを搭載しており、NVIDIA H100(80GB)の2倍の容量。
- • 最適化により、新しいAMDチップ上のOCP標準FP8と「fnuz」FP8ダイアレクトの非互換性を回避。
- • カスタムROCmヘルパーを利用して、CDNA3コア向けのAMDのAITERチューニングカーネルライブラリにおける不均一なカバレッジを克服。
- • GPUあたり毎秒2699出力トークンを達成し、8.6%のパフォーマンス向上を実現。
安価なAMDハードウェア上で大規模なオープンモデルを実行することで、ホスティングコストを大幅に削減しようとする開発者に実用的な道筋を提供します。
17. MicrosoftがローカルAI向け128GBユニファイドメモリ搭載「Surface RTX Spark Dev Box」を発表
Build 2026で発表されたSurface RTX Spark Dev Boxは、集中的なAIワークロードをクラウドAPI課金から固定コストのローカルハードウェアへと移行させるというMicrosoftの取り組みを象徴しています。このコンパクトなマシンは、QualcommのキャンセルされたSnapdragon Dev Kitの精神的後継として機能し、ローカルファーストのAI開発に最適化されています。今年後半に米国のMicrosoft Storeで発売される予定ですが、公式価格はまだ発表されていません。
- • Nvidia BlackwellアーキテクチャのRTX Sparkチップと128GBのユニファイドメモリを搭載。
- • 100ワットの熱設計電力(TDP)で1ペタフロップスのAI演算性能を評価。
- • Windows 11 Pro、WSL 2、VS Code、Git、Python、Node.jsがプリインストール済み。
- • パッシブヒートシンクとして機能する3Dプリントされた金属製シャーシで設計。
開発者が最大1200億パラメータのモデルをローカルで実行し、トークンごとのクラウドコストを回避できるようになります。