開発者向けの毎日AIブリーフィング

1. Moonshot AIがオープンウェイトモデル「Kimi K3」をリリース

Moonshot AIは7月16日の約束通り、Kimi K3モデルのウェイトをHugging Faceで一般公開しました。この2.8兆パラメータのMixture-of-Experts（MoE）モデルは、100万トークンのコンテキストウィンドウとネイティブな視覚認識機能を備えており、デプロイが可能です。MXFP4での量子化対応トレーニングにより、モデルウェイトのダウンロードサイズは約1.4TBに達し、実行にはマルチノードのH200やB300構成などの強力なハードウェアリソースが必要です。

• Moonshot AIは7月16日の発表に続き、Kimi K3のウェイトをHugging Faceで正式に公開しました。
• 本モデルは2.8兆パラメータのMoEアーキテクチャで、896のエキスパートとトークンあたり16のアクティブエキスパートを備えています。
• 100万トークンのコンテキストウィンドウとネイティブな視覚認識機能をサポートしています。
• 1.4TBのダウンロードサイズ（MXFP4量子化）のため、8x H200や8x B300のマルチノード構成など、大規模なインフラが必要です。

開発者は最先端クラスのKimi K3モデルにアクセスしてデプロイできるようになりましたが、1.4TBという巨大なサイズのため、ローカル運用にはハイエンドなマルチノードハードウェアが不可欠です。

SOURCES

[1] [2] [3] [4] [5] [6]

2. 言語モデル「Celeris-1」が応答速度15倍を主張

Celeris-1は、拡散ベースのアーキテクチャを採用することで、低レイテンシなLLM推論への新しいアプローチを導入しました。この設計により、汎用モデルでありながらGPT-5レベルに近い知能を維持しつつ、従来の自己回帰モデルよりも最大15倍高速に動作します。p50応答レイテンシは157ms、スループットは毎秒1,280トークンを達成しており、リアルタイムの会話インターフェースや高速なエージェントループに最適です。

• Celeris-1は、GPT-5レベルに近い知能を謳う汎用言語モデルです。
• 新しい拡散ベースの推論アーキテクチャを採用し、標準的なモデルと比較して15倍の応答速度を実現しています。
• p50応答レイテンシは157msを達成しています。
• Celeris-1は毎秒1,280トークンという超高スループットをサポートしています。

開発者は、毎秒1,280トークンのスループットをサポートするモデルを使用して、非常にインタラクティブなリアルタイムアプリケーションを構築できます。

SOURCES

[1]

3. NVIDIAがSANAビデオシリーズを拡充、2.0をリリース

2026年5月にリリースされたSANA-WMワールドモデルを基盤として、NVIDIAはSANA-Video 2.0を導入しました。以前のSANA-WMがGated DeltaNetを用いた長期間の生成に焦点を当てていたのに対し、今回の2.0リリースでは線形アテンションと周期ソフトマックスアーキテクチャに移行しています。これらの5Bおよび14Bパラメータモデルは、単一GPUハードウェア上で高解像度720p出力を維持するように設計されており、長尺動画生成のための新しいツールセットを開発者に提供します。

• NVIDIAは5Bおよび14Bパラメータモデルを特徴とするSANA-Video 2.0をリリースしました。
• 新しいアーキテクチャは、以前のSANA-WMで使用されていたGated DeltaNetとは異なり、線形アテンションと周期ソフトマックス層を使用しています。
• 単一GPUで720pの動画生成をサポートしています。
• 本リリースは、2026年5月のSANA-WMワールドモデル公開に続くSANAエコシステムの拡大となります。

このリリースにより、開発者はSANAファミリーのより大規模で高性能なモデルを利用できるようになり、以前のSANA-WMとは異なる高解像度動画生成のためのアーキテクチャを選択可能になります。

SOURCES

[1]

4. BasetenがGLM-5.2向けに最適化された「Fast」APIを公開

Basetenは、GLM-5.2の既存の提供体制を基盤として、レイテンシに敏感なコーディングやエージェントタスク向けに最適化された新しい「Fast」APIバリアントをデプロイしました。このアップデートにより、モデルのパフォーマンスは初期リリース時の速度から2倍に向上し、ピークスループットは毎秒280トークン、平均で毎秒100トークンに達しました。同社は、今後の推論デコーディングのアップデートを通じて、さらなるパフォーマンス向上を図る計画も発表しています。

• BasetenのGLM-5.2向け新しい「Fast」APIは、ピーク速度で毎秒280トークンを実現します。
• このアップデートにより、初期リリース時のAPIと比較してパフォーマンスが2倍に向上しました。
• このバリアントは、コーディングアシスタントやエージェントベースのワークフローのレイテンシを削減するために特別に調整されています。
• Basetenは、今後の推論デコーディングアルゴリズムのアップデートを通じて、さらなるパフォーマンス向上を統合する予定です。

この最適化により、開発者はGLM-5.2のより高速な推論パスを利用できるようになり、インタラクティブなコーディングアシスタントやエージェントに必要なレイテンシ要件に対応できます。

SOURCES

[1]

5. Feynが背景削除モデル「FeyNoBg」とトレーニングライブラリ「NoBg」をオープンソース化

Feynは、FeyNoBgとそれに付随するNoBg Pythonライブラリのリリースにより、画像前処理のための強力なオープンソースソリューションを導入しました。FeyNoBgは、既存のモデルを複数のベンチマークで上回る最先端のパフォーマンスを提供する自動背景削除モデルです。カスタムトレーニングを容易にするため、オープンソースのNoBgライブラリは、前処理から評価までパイプライン全体を処理する統合Pythonインターフェースを提供しており、現在はBiRefNetアーキテクチャに焦点を当てています。これにより、開発者は高品質な画像マット処理をローカルワークフローに簡単に統合できます。

• Feynは、10のデータセットにわたる26.1Kの多様なサンプルでトレーニングされた自動背景削除モデル「FeyNoBg」をリリースしました。
• 本モデルは8つのベンチマークのうち4つで最高スコアを達成し、残りの4つでもリーダーと2%以内の差で動作します。
• Feynは、画像マット処理モデルの前処理、トレーニング、評価を行うためのPythonライブラリ「NoBg」をオープンソース化しました。
• FeyNoBgのトレーニングプロセスでは、BiRefNet特徴抽出器の第3ステージを18ブロックから24ブロックに拡張しつつ、事前学習済みウェイトを保持しました。
• NoBgは現在BiRefNetアーキテクチャをサポートしており、将来的にはさらなるアーキテクチャを追加する予定です。

開発者は最先端の背景削除モデルをセルフホストし、カスタム画像マット処理パイプラインを容易にトレーニングできるようになります。

SOURCES

[1]

6. Langflowインスタンスを標的としたランサムウェア「ENCFORGE」キャンペーン

Langflowの重大な脆弱性に関する以前の開示に続き、新たな脅威が浮上しました。脅威アクターグループ「JADEPUFFER」は、認証欠如の欠陥であるCVE-2025-3248を積極的に悪用し、ランサムウェア「ENCFORGE」を展開しています。2026年7月に観測されたこのキャンペーンは、特にPyTorch、TensorFlow、GGUFモデルファイルを標的として破壊します。CISAが複数のLangflowの脆弱性を「悪用が確認された脆弱性（KEV）」カタログに追加したことで、公開されているインスタンスへのリスクは、不正アクセスから破壊的なランサムウェア攻撃へとエスカレートしています。

• 脅威グループJADEPUFFERは、7月1日と7月20日にインターネットに公開されたLangflowサーバーを標的としたキャンペーンを開始しました。
• 攻撃は、リモートでのPython実行を可能にする認証欠如の脆弱性「CVE-2025-3248」を悪用しています。
• ENCFORGEランサムウェアは、PyTorch、TensorFlow、GGUFモデルファイルを暗号化および破壊するために使用されています。
• CISAは、CVE-2025-3248を含む複数のLangflowの脆弱性を「悪用が確認された脆弱性（KEV）」カタログに追加しました。
• セキュリティチームは、Langflowの更新、Dockerソケットアクセスの制限、モデルウェイトの不変バックアップの維持を行う必要があります。

Langflowデプロイメントへの脅威は、一般的な脆弱性の露出から、アクティブで破壊的なランサムウェア攻撃へとエスカレートしており、即時のパッチ適用とモデルアーティファクトに対するセキュリティ強化が不可欠です。

SOURCES

[1]

7. 共有されたClaudeチャットとArtifactsが検索エンジンのインデックスに露出

Anthropic Claudeの「チャット共有」機能にセキュリティ上の露出が確認されました。この機能は、会話やインタラクティブなArtifactsへの公開リンクを生成するものです。Anthropicは共有ページに「noindex」タグを実装するのではなくrobots.txtに依存していたため、GoogleやBingなどの主要な検索エンジンがこれらのURLをインデックスし、ユーザーのプライベートな会話やビジネス文書が公開検索可能になってしまいました。不正なアカウントアクセスの証拠はありませんが、このインシデントはプライバシー保護におけるrobots.txtの限界を浮き彫りにし、組織が共有AIリンクを他のコラボレーションソフトウェアと同様のガバナンスで扱う必要性を強調しています。

• 共有されたClaudeの会話やインタラクティブなArtifactsが、GoogleやBingでインデックスされ、検索可能になっていることが発見されました。
• この露出は、Anthropicがrobots.txtファイルに依存していたために発生しました。検索エンジンは、ページが他の場所からリンクされている場合、インデックスを防ぐための指示としてrobots.txtを尊重しません。
• 調査の結果、共有されたClaudeチャットページには、検索エンジンが推奨するインデックス防止用の「noindex」メタタグが欠如していたことが確認されました。
• 露出したコンテンツには、政治的アドバイス、法的倫理、ビジネス文書などの機密ユーザーデータが含まれていました。
• Anthropicはインデックスされた検索結果の削除や検索困難化を開始したと報告されていますが、企業に対しては共有コンテンツの監査を推奨しています。

開発者やチームは、共有されたClaudeリンクを監査し、機密データの露出を防ぐために、AIコラボレーションプラットフォームを厳格なデータガバナンスの下で扱う必要があります。

SOURCES

[1] [2] [3] [4]

8. Moonshot AIがスケーラブルなエージェント強化学習用「AgentENV」をオープンソース化

AgentENVは、Moonshotの2.8兆パラメータモデル「Kimi K3」のトレーニングに使用された、エージェント強化学習環境を大規模に実行するための分散プラットフォームです。Firecracker microVMを活用することで、AgentENVはコンテナベースのサンドボックスの速度を犠牲にすることなく、カーネルレベルの分離を実現します。このプラットフォームは、100ms未満での一時停止や、50ms未満でのスナップショットからの起動・再開を含む高度な状態管理をサポートしています。また、実行中のサンドボックスを単一ノード上で最大16の独立した子サンドボックスにフォークできるため、単一のタスク状態から効率的な並列ロールアウトが可能です。

• Moonshot AIとkvcache-aiは、AgentENVをMITライセンスでオープンソース化しました。
• 本プラットフォームはFirecracker microVMを使用して、エージェントサンドボックスにカーネルレベルの分離を提供します。
• スナップショット作成、一時停止、再開、フォークをサポートしており、起動および再開時間は50ms未満です。
• 実行中の単一サンドボックスを、並列ロールアウトのために同一ノード上で最大16の独立した子サンドボックスにフォークできます。
• AgentENVはE2B互換のHTTP APIを提供しており、既存のE2B PythonおよびTypeScript SDKをコード変更なしで使用できます。

開発者は、50ms未満の起動時間とネイティブなE2B SDK互換性を備えた、安全で分離されたエージェント環境を実行できます。

SOURCES

[1]

9. PerplexityがSearch API向けの公式CLIをリリース

以前リリースされたAgent APIとSearch as Code SDKを基盤として、Perplexityは単一バイナリのコマンドラインツール「pplx」を導入しました。このCLIは、開発者がライブWeb検索を実行し、クリーンなページテキストを取得するための直接的なインターフェースを提供し、Perplexityの検索スタックをターミナルベースのコーディングエージェントや自動化パイプラインに容易に統合できるようにします。

• Perplexityは、Search API向けの公式単一バイナリコマンドラインクライアント「pplx」をリリースしました。
• このツールは人間およびコーディングエージェント向けに設計されており、検索および取得コマンドを提供します。
• 標準的な終了コードを使用し、JSON形式で構造化データを出力します。
• インストールは、macOSおよびLinuxの~/.local/binに単一バイナリをインストールするシェルスクリプト経由で行われます。
• このツールには、長い文字列を切り捨てるトークン予算機能が含まれており、非TTY環境もサポートしています。

開発者は、公式CLIを使用して、リアルタイムのWeb検索とクリーンなマークダウン形式のテキスト抽出機能を、コーディングエージェントやターミナルワークフローに簡単に組み込めるようになりました。

SOURCES

[1]

10. OpenRouterが推論タギング用の「Classifiers」ベータ版を導入

OpenRouterの新しいClassifiers機能は、開発者にLLM API使用状況に対する詳細な可観測性を提供します。現在ベータ版であるClassifiersを使用すると、チームは推論リクエストにメタデータタグを付与できます。これにより、開発者はタスクタイプ、部門、エージェントの複雑さなどの特定の次元でAPI呼び出しを分類でき、コストの追跡、パフォーマンスの分析、マルチエージェントシステムのデバッグが容易になります。

• OpenRouterは、現在ベータ版である新機能「Classifiers」を公開しました。
• この機能により、開発者はワークスペース内の推論アクティビティをタグ付けして分類できます。
• 開発者は、タスクタイプ、部門、エージェントの複雑さ、またはカスタム基準でAPI呼び出しを整理できます。

開発者は、タスク、部門、エージェントの複雑さごとにAPI呼び出しをタグ付けすることで、LLMコストの監視、分析、割り当てをより適切に行うことができます。

SOURCES

[1]

11. 推論エンジン「Ninfer」のパフォーマンスがRTX 5090で毎秒720トークンに向上

オープンソースのNinfer推論エンジンは、初期リリースを基盤として大幅なパフォーマンス向上を達成し、NVIDIA RTX 5090上で毎秒最大720トークンを実現しました。このアップデートは、7月20日に報告された毎秒542トークンのベンチマークを改善し、250kのフルコンテキストウィンドウを備えたQwen3.6 27Bおよび35Bモデル向けにエンジンをさらに最適化しています。エンジンは引き続きGitHubで入手可能で、LinuxとWindowsの両方をサポートしています。

• RTX 5090におけるNinferのパフォーマンスは、毎秒550〜720トークンに向上しました。
• このアップデートは、7月20日に報告された毎秒542トークンのベンチマークを改善するものです。
• エンジンは引き続き、250kコンテキストウィンドウを備えたQwen3.6 27Bおよび35Bモデルをサポートしています。
• ソフトウェアは引き続きオープンソースであり、LinuxおよびWindowsをサポートしてGitHubで入手可能です。

このパフォーマンス向上は、フラッグシップのコンシューマーハードウェアにおけるローカル推論エンジンの急速な最適化を実証しており、高コンテキストモデルの応答時間をさらに短縮します。

SOURCES

[1]

AI開発者が見逃してはならない今日のニュース。

今日のブリーフィング

1. Moonshot AIがオープンウェイトモデル「Kimi K3」をリリース

2. 言語モデル「Celeris-1」が応答速度15倍を主張

3. NVIDIAがSANAビデオシリーズを拡充、2.0をリリース

4. BasetenがGLM-5.2向けに最適化された「Fast」APIを公開

5. Feynが背景削除モデル「FeyNoBg」とトレーニングライブラリ「NoBg」をオープンソース化

6. Langflowインスタンスを標的としたランサムウェア「ENCFORGE」キャンペーン

7. 共有されたClaudeチャットとArtifactsが検索エンジンのインデックスに露出

8. Moonshot AIがスケーラブルなエージェント強化学習用「AgentENV」をオープンソース化

9. PerplexityがSearch API向けの公式CLIをリリース

10. OpenRouterが推論タギング用の「Classifiers」ベータ版を導入

11. 推論エンジン「Ninfer」のパフォーマンスがRTX 5090で毎秒720トークンに向上

今日のブリーフィング

1. Moonshot AIがオープンウェイトモデル「Kimi K3」をリリース

2. 言語モデル「Celeris-1」が応答速度15倍を主張

3. NVIDIAがSANAビデオシリーズを拡充、2.0をリリース

4. BasetenがGLM-5.2向けに最適化された「Fast」APIを公開

5. Feynが背景削除モデル「FeyNoBg」とトレーニングライブラリ「NoBg」をオープンソース化

6. Langflowインスタンスを標的としたランサムウェア「ENCFORGE」キャンペーン

7. 共有されたClaudeチャットとArtifactsが検索エンジンのインデックスに露出

8. Moonshot AIがスケーラブルなエージェント強化学習用「AgentENV」をオープンソース化

9. PerplexityがSearch API向けの公式CLIをリリース

10. OpenRouterが推論タギング用の「Classifiers」ベータ版を導入

11. 推論エンジン「Ninfer」のパフォーマンスがRTX 5090で毎秒720トークンに向上

Inference Brewを受信箱へ