悪意のあるnpmパッケージがClaude Codeの設定と開発者の認証情報を標的に

1. 悪意のあるnpmパッケージがClaude Codeの設定と開発者の認証情報を標的に

Red Hat Cloud Servicesのnpmパッケージの侵害されたバージョンから、高度な多段階の認証情報収集マルウェアが発見されました。このマルウェアは、preinstallスクリプトによって自動的にトリガーされ、4層にわたってペイロードを難読化し、自己増殖型のワームとして機能します。AI開発者にとって最も深刻なのは、このペイロードがClaude Codeの設定に直接SessionStartフックを注入し、さらにVS Codeのワークスペースタスク設定を変更することで永続性を確立する点です。影響を受けるリポジトリには、javascript-clients、frontend-components、platform-frontend-ai-toolkitが含まれます。

• StepSecurityは2026年6月1日、@redhat-cloud-servicesのnpmスコープ内で32個のパッケージに影響を与えるマルウェアを発見しました。
• このマルウェアは、package.json内のpreinstallスクリプトを通じて、npm installプロセス中に自動的にトリガーされます。
• 侵害されたパッケージには、@redhat-cloud-services/chrome、@redhat-cloud-services/compliance-client、@redhat-cloud-services/frontend-componentsが含まれます。
• 永続性は、Claude Codeの設定へのSessionStartフックの注入と、VS Codeワークスペース設定へのfolderOpenタスクの注入によって達成されます。
• 盗まれた認証情報は、GitHub Actionsのシークレット、AWS、GCP、Azure、Kubernetes、HashiCorp Vault、およびnpmトークンを標的とし、bypass_2faを使用してバックドア付きのバージョンを再公開します。

Claude CodeやVS Codeを使用する開発者は、クラウドやバージョン管理のアクセストークンの盗難を防ぐため、直ちに依存関係の監査を行う必要があります。

SOURCES

[1] [2]

2. MiniMaxが100万トークンのコンテキストと推論計算量を削減したM3モデルをリリース

新しいMiniMax M3モデルは、ネイティブな画像・動画処理機能とオペレーティングシステムの実行機能を導入し、開発者がデスクトップ自動化エージェントを構築できるようにします。独自のSparse Attention (MSA) アーキテクチャにより、モデルはコンテキストを100万トークンまで拡張しつつ、プリフィルと生成の両方で大幅な高速化を維持しています。また、今回のリリースには、敵対的なProducerとVerifierのループを使用して自律的なソフトウェアエンジニアリングワークフローを実行するMiniMax Codeアシスタントも含まれています。

• MiniMax M3は2026年6月1日にリリースされ、MiniMax Sparse Attention (MSA) アーキテクチャを採用しています。
• MSAはトークンあたりの計算需要を従来のM2モデルの20分の1に削減し、100万コンテキストにおいてプリフィルを9倍、デコードを15倍高速化します。
• このモデルはSWE-Bench Proで59.0%、OSWorld-Verifiedで70.06%のスコアを記録しました。
• MiniMaxは、リリースから10日以内にオープンウェイトライセンスでモデルウェイトを公開する予定です。
• API料金は1週間限定で、入力100万トークンあたり0.3ドル、出力100万トークンあたり1.20ドルに割引され、標準サブスクリプションプランは月額20ドルからとなります。

開発者は、一般的なAPIコストの数分の一で、長文脈の推論とデスクトップ環境の制御が可能なオープンウェイトモデルを利用できるようになります。

SOURCES

[1] [2] [3] [4]

3. xAIがGrok Build 0.1 BetaをAPI経由で公開

Web開発とソフトウェアデバッグを目的として設計されたgrok-build-0.1モデルが、パブリックベータ版として利用可能になりました。毎秒100トークンを超えるスループットを実現するこのAPIは、コード生成ワークロードを実行したいチームにとって、手頃な価格のエージェント最適化オプションを提供します。一般的な開発ツールとネイティブに統合されているため、既存のIDE環境に簡単に導入できます。

• grok-build-0.1モデルは、xAI APIを通じてパブリックベータ版として利用可能です。
• このモデルはWeb開発とデバッグタスクに特化しており、毎秒100トークン以上を処理します。
• 価格は入力100万トークンあたり1ドル、出力100万トークンあたり2ドルに設定されています。
• Grok Build、Cursor、OpenClawを含むプラットフォーム全体で統合がサポートされています。

開発者は、xAIのエージェント型コーディング機能をCursor、OpenClaw、Grok Buildなどのローカル環境に統合できます。

SOURCES

[1]

4. OpenAIのフロンティアモデルとCodexがAWS Bedrockで利用可能に

AWSの顧客は、Amazon Bedrockを通じてOpenAIの基盤モデルとCodexを直接デプロイできるようになりました。この一般提供により、開発者は既存のAWSガバナンスおよびセキュリティ設定の範囲内でデータを厳格に管理しながら、これらのモデルを利用できます。今後のアップデートでは、安全なコードレビューと依存関係のリスク分析のための専用ツールを提供するOpenAIのDaybreakサイバースイートがAWSに追加される予定です。

• OpenAIのフロンティアモデルとCodexが、Amazon Bedrockを通じてAWSで一般提供されています。
• これらのモデルは、既存のAWSのセキュリティ、コンプライアンス、調達、請求システムと統合されます。
• AWSの商用リージョンおよびGovCloudリージョンの両方で利用可能です。
• OpenAIは将来的に、安全なコードレビューや脅威モデリングモデルを備えたDaybreakスイートをAWSで提供する予定です。

エンタープライズ開発者は、個別の調達やコンプライアンスチャネルを通すことなく、AWS管理環境内で直接OpenAIモデルを使用できるようになります。

SOURCES

[1]

5. DepsGuardがパッケージマネージャーのセキュリティ強化を自動化

自己増殖型のパッケージレジストリエクスプロイトに対抗するため、DepsGuardはローカルの開発環境設定を強化するワンコマンドのソリューションを提供します。このCLIツールは設定ファイルをスキャンし、任意のライフサイクルスクリプトの無効化やパッケージの経過時間制限の強制など、推奨されるセキュリティポリシーをユーザーに提示します。また、DependabotやRenovateの設定管理もサポートしており、企業の依存関係セキュリティを効率化します。

• DepsGuardはRustで記述されており、MITライセンスで提供されています。
• npm、pnpm、yarn、bun、uv全体の設定強化をサポートしています。
• 最小リリース経過時間（クールダウン）やインストールスクリプトの無視などのセキュリティ設定を有効化します。
• 設定をスキャンし、差分を表示し、変更を適用する前にタイムスタンプ付きのバックアップを作成します。
• cargo、brew、apt、winget、scoop経由でインストール可能です。

開発者は、悪意のあるpreinstallスクリプトをブロックし、パッケージリリースのクールダウンを強制することで、ローカル環境を即座に保護できます。

SOURCES

[1]

6. Hermes Agent向けMemory OSアーキテクチャがリリース

Claudio Drews氏によって開発されたMemory OSは、AIエージェント向けの高度なセルフホスト型メモリ層を提供します。MITライセンスのこのシステムは、LLM呼び出しの前後における情報フローを構造化し、ゲート制御された重複排除プロセスを使用して関連する過去のコンテキストを取得します。開発の初期段階であり、公開されたベンチマークはまだありませんが、長期的なエージェントの相互作用を管理するための構造化されたローカルアーキテクチャを提供します。

• Memory OSはHermes Agent用に設計されたMITライセンスのシステムで、2026年5月31日にリリースされました。
• ワークスペースファイル、セッション履歴、構造化された事実、フォークされたIcarusプラグイン、Qdrantベクトルデータベース、自動キュレーションされたLLM Wikiの6層を利用します。
• Docker、Redis、Qdrant、Python 3.11+を介してローカルで実行されます。
• OpenAI、Anthropic、Ollamaなど、HermesがサポートするあらゆるLLMプロバイダーと互換性があります。
• 事前呼び出し時の取得には4レベルのフォールバックカスケードを使用し、メモリの肥大化を管理するために毎週の減衰スキャナーを使用します。

開発者は、ワークスペースファイル、ベクトルストア、構造化された事実をまたぎ、自動減衰機能を備えた複雑なローカルエージェントメモリ構造を実行できます。

SOURCES

[1]

7. pi-dynamic-workflows拡張機能がローカルでのサブエージェントオーケストレーションを実現

pi-dynamic-workflows拡張機能を使用すると、開発者はPiアシスタント環境上で高度なローカルオーケストレーションを実行できます。このワークフローツールはJavaScriptコードを解釈して複数の並列サブエージェントを起動し、各サブエージェントにファイルとの対話やターミナルタスクの実行を行うためのサンドボックス化された権限を与え、その出力を収集・統合します。これにより、コードレビューや複雑なリサーチフローの自動化に役立つツールとなります。

• pi-dynamic-workflows拡張機能は、Piアシスタントに専用のワークフローツールを導入します。
• このツールは、JavaScriptスクリプトを介して複数の分離されたサブエージェントをオーケストレーションします。
• サブエージェントは、ファイルの読み取り、シェルコマンドの実行、構造化された出力の生成を行う能力を持っています。
• 対象となるユースケースには、コードベースの監査、多角的なレビュー、並列化されたリサーチが含まれます。

開発者は、コード監査やリファクタリングタスクなど、アシスタントツール内で複雑なマルチエージェントフローを構築できます。

SOURCES

[1]

8. llama.cppがマルチGPU量子化KVキャッシュ修正をマージ

llama.cppメインリポジトリにおいて、重要なマルチGPUキャッシュの問題が解決されました。メタバックエンドがテンソルの形状変更後に正しいテンソルレイアウトを再構築できるようにすることで、新しいb9455リリースは以前のマルチGPUクラッシュを回避します。この内部的な改善により、高コンテキストで量子化されたKVキャッシュを使用してローカルモデルをデプロイする開発者は、ハードウェア設定をスムーズに最適化し続けることができます。

• リリースb9455は、量子化されたKVキャッシュで「--sm tensor」フラグを使用するとマルチGPU設定でクラッシュが発生するバグを解決しました。
• このバグは、KVキャッシュ回転のためのテンソル平坦化中に形状情報が失われることが原因でした。
• この修正により、ggml_backend_meta_split_state仕様が拡張され、セグメントの繰り返し頻度が追跡されるようになりました。
• この実装は、既存の計算グラフを変更することなく、そのまま機能します。

複数のグラフィックスカードで大規模なローカルモデルを実行する開発者は、量子化されたKVキャッシュを使用する際の安定性が向上します。

SOURCES

[1]

9. MicrosoftがBuildカンファレンスで新しい推論モデルとローカルAIへの注力を発表へ

MicrosoftのBuildカンファレンスでは、Windowsシステム上でのローカルAIモデル実行への強力なシフトが強調される予定です。待望の推論モデル「MAI-Thinking-1」のデビューや新しい画像モデルが注目されており、開発者イベントではデバイス上の計算オプションが強調されます。さらに、Microsoftは、スクリプトやツールがプリインストールされた、開発者向けに最適化されたWindows 11の集中モードを導入する予定です。

• Microsoft Buildの基調講演は、6月2日火曜日にサンフランシスコで開催される予定です。
• MicrosoftのAI責任者Mustafa Suleyman氏が、蒸留なしで構築された推論モデル「MAI-Thinking-1」を発表する見込みです。
• 新しいモデルには、MAI-Image-2.5およびMAI-Image-2.5-Flashが含まれます。
• カンファレンスでは、ローカルの計算能力を活用するためにWindows上で実行されるローカルAIモデルが紹介されます。
• MicrosoftのOpenClawの取り組みに基づいた「Scout」というAIエージェントがデモンストレーションされる予定です。

Windows上の開発者は、ローカルモデルのより深い統合、集中できる開発環境、および新しい非蒸留推論モデルへのアクセスを得ることになります。

SOURCES

[1]

10. NVIDIAが物理AI向けCosmos 3基盤モデルをリリース

NVIDIAのCosmos 3は、物理世界の推論と物理認識生成に最適化されたオープンウェイトモデルを導入します。デュアルタワーのMixture-of-Transformersアーキテクチャを利用して、言語理解と動画およびアクション出力を橋渡しします。開発者はHugging Faceのチェックポイントを介してCosmos 3をローカルで実行したり、利用可能なReasoner NIMマイクロサービスを活用したり、今後登場するファーストパーティおよびサードパーティのAPIを待つことができます。

• Cosmos 3は、ReasonerタワーとGeneratorタワーを組み合わせたMixture-of-Transformers (MoT) アーキテクチャを利用しています。
• NVIDIAは、16Bパラメータ（Cosmos 3 Nano）と64Bパラメータ（Cosmos 3 Super）の2つのバージョンを提供しています。
• OpenMDW 1.1ライセンスの下でリリースされ、ウェイト、コード、データセットがHugging Faceで入手可能です。
• Cosmos 3 Superは、Artificial AnalysisリーダーボードのText-to-ImageおよびImage-to-Videoの両方でオープンウェイトランキング1位を獲得しました。
• NIMマイクロサービスはBF16、FP8、NVFP4量子化をサポートしており、NVFP4は推論速度を最大2倍に向上させます。

開発者は、非常に高性能なオープンウェイトと最適化されたNIMマイクロサービスを使用して、物理AIや物理認識動画システムを構築できます。

SOURCES

[1] [2] [3]

11. NVIDIAが550BパラメータのNemotron 3 Ultraを発表

Jensen Huang氏のComputex基調講演で紹介されたNemotron 3 Ultraは、Nemotron 3シリーズの中で最大のモデルです。5500億パラメータという規模にもかかわらず、モデルの90%のスパース性により推論時にアクティブなパラメータは550億個のみとなり、卓越した生成速度を実現しています。Artificial Analysis Intelligence Indexにおいて、Nemotron 3 Ultraはいくつかの著名なオープンウェイトモデルを上回りましたが、Kimi K2.6モデルよりは低いスコアでした。

• Nemotron 3 Ultraは、90%のスパース性により、合計550Bパラメータのうち55Bパラメータがアクティブです。
• このモデルは、リリース前のDeepInfraエンドポイントで毎秒300トークンを超える速度に達しました。
• Artificial Analysis Intelligence Indexで48のスコアを獲得し、Gemma 4 31BやNemotron 3 Superを上回りました。
• ウェイトはBF16で利用可能で、より高いパフォーマンスのためにNVFP4量子化を提供する計画があります。

このリリースは、エンタープライズ規模のホスティングハードウェアにアクセスできる開発者にとって、非常にインテリジェントなオープンウェイトの選択肢を提供します。

SOURCES

[1] [2]

12. JetBrainsがMellum-2コーディングMoEモデルをオープンソース化

JetBrainsは、AI開発パイプライン内での高速実行をターゲットとしたMellum-2 MoEモデルシリーズをオープンソースとしてリリースしました。コーディング操作を効率的に実行するために特別に設計されており、コアとなる推論モデルはプログラミング能力において標準的な大規模モデルに匹敵します。ただし、プログラミングやソフトウェアエンジニアリング以外のタスクでは、モデルのパフォーマンスが小型の汎用ベースラインを下回ることに注意が必要です。

• Mellum-2は、JetBrainsが開発した小型のMixture-of-Experts (MoE) コーディングモデルシリーズです。
• このモデルはHugging Faceでホストされており、arXiv論文2605.31268で文書化されています。
• JetBrainsは、この推論モデルがコーディングタスクにおいてQwen 3.5 9Bに匹敵する性能を発揮すると主張しています。
• コーディング以外のタスクでは、Qwen 3.5 4Bよりもパフォーマンスが劣ります。

開発者は、標準的なハードウェア上でコーディングワークフローに特化して最適化された、高速なローカルMoEモデルを実行できます。

SOURCES

[1] [2]

13. Anthropicがブラウザエージェントのシステムカードで31.5%のハイジャック率を詳細報告

Anthropicが新たに公開したシステムカードは、自律的なブラウザベースのエージェントがプロンプトインジェクション攻撃に対して永続的な脆弱性を持っていることを強調しています。いくつかの環境でテストされた結果、モデルはアクティブなシステムレベルのセーフガードが応答する前に、Webコンテンツに埋め込まれた悪意のある指示の犠牲になることが頻繁にありました。開発者がWebスクレイピングやアクション実行エージェントを構築する機会が増えるにつれ、これらの調査結果は、ベースモデルのコンプライアンスだけに頼るのではなく、実行時に入力を検証する必要性を強調しています。

• Anthropicは、4つの表面にわたるプロンプトインジェクションの脆弱性を詳述した244ページのシステムカードを公開しました。
• Opus 4.8は、ブラウザ環境において、セーフガードが適用される前に31.5%のプロンプトインジェクション成功率を経験しました。
• OpenAIのGPT-5.5モデルカードは、既知のコネクタ攻撃に対して0.963の堅牢性スコアを報告しています。
• Metaは、防御パフォーマンスを評価するためにPurple LlamaスタックとAgentDojoベンチマークを利用しています。
• プロンプトインジェクションの指標を報告するための業界標準は現在存在せず、開示に一貫性がありません。

Webに接続されたエージェントを構築する開発者は、高リスクのプロンプトインジェクション率を軽減するために、厳格な二次防御を実装する必要があります。

SOURCES

[1]

14. トークンバッファリングがエージェント型RLループにおける勾配ドリフトを排除

強化学習を通じてエージェントの行動を微調整する場合、トークン再エンコード中の微妙な変化によって引き起こされる信頼性の低い勾配に悩まされることがよくあります。サンプリング中に生成された正確なトークンのための厳格なバッファを保持し、生の文字列の再解析を回避することで、開発者はモデルの出力と報酬の間の決定論的な整合性を確保できます。このアプローチは、標準的なチャットテンプレートを活用して生成状態を保持し、トレーニング効率を最適化します。

• 強化学習では、トレーニングのドリフトを防ぐために、正確にサンプリングされたトークン上で動作する必要があります。
• この解決策には、サンプリングされたトークンをバッファリングし、デコードされたトークンを再エンコードしないことが含まれます。
• この手法は、ほとんどの最新テンプレートでサポートされているプレフィックス保持チャットテンプレートプロパティに依存しています。
• 再レンダリングを排除することで、学習勾配が安定し、冗長なオーバーヘッドが削除されます。

LLMで強化学習を実装する開発者は、勾配ドリフトを防ぎ、信頼性の高い最適化ループを確保できます。

SOURCES

[1]

15. AgentControlツールが本番環境でのAIエージェントを監視・制御

AIエージェントが本番環境へのアクセスを委ねられるようになるにつれ、AgentControlは監督の重要なニーズに対応します。このプラットフォームにより、開発者はアクティブな実行を検査し、実行前に不要なアクションをブロックし、コードの更新をプッシュすることなくモデルのパスを動的に制御できます。この制御層は、開発者が本番環境でのエージェントの信頼性に自信を持ち、直接的な行動テレメトリを収集するのに役立ちます。

• AgentControlは、本番AIエージェントを監視および管理するためのツールです。
• エージェントの動作のリアルタイム表示、不正なアクションのブロック、応答の制御が可能です。
• 完全なデプロイサイクルを実行することなく、エージェントの動作バリエーションをテストできます。
• 現在、無料トライアルでアクセス可能です。

自律型エージェントを本番環境にデプロイする開発者は、エージェントの暴走を防ぐために必要な可視性とライブオーバーライドツールを得ることができます。

SOURCES

[1]

16. Qwen 3.6 27Bがローカル開発者ワークフローでGemini Proを上回る

llama.cppへのマルチトークン予測（MTP）の統合により、中規模モデルをローカルで実行することが商用APIの実行可能な代替手段となりました。個別の評価によると、8ビット量子化形式のQwen 3.6 27Bは、詳細なリサーチタスクにおいて、最近のGemini Proの反復と比較して優れた安定性と低いハルシネーション率を提供します。Apple Siliconや大容量メモリシステムを実行している開発者にとって、このシフトによりローカルデスクトップアシスタンスは非常に競争力のあるものになります。

• Qwen 3.6 27Bは、Open WebUIで8ビットunsloth量子化を使用してローカルで実行されます。
• マルチトークン予測（MTP）サポートを追加した最近のllama.cppアップデートにより、Qwen 27Bのローカルパフォーマンスが大幅に向上しました。
• ある開発者は、キャリアアドバイス、ポートフォリオ分析、移民リサーチにおいて、Qwen 27BがGemini Proを上回ったと報告しました。
• Gemini Proは、同じリサーチタスク中に顕著なパフォーマンスの低下、ハルシネーション、コンテキストの固定を示しました。
• 128GB RAMのM5 Maxシステムでは、速度の制約により、8ビット量子化でGemma 4 31Bを効率的に実行するのに苦労しました。

ローカル推論を実行する開発者は、不安定または劣化した商用APIを、非常に高性能な中規模のオープンウェイトモデルに置き換えることができます。

SOURCES

[1]

17. 開発者向けのVRAM固有のローカルLLM推奨事項

適切なオープンウェイトモデルを選択するかどうかは、利用可能なハードウェアの制約に大きく依存します。現在の開発者ベンチマークでは、高いトークンスループットを維持するために、特定のアーキテクチャをVRAM層に合わせることを推奨しています。モバイルやローエンドのラップトップGPU向けに設計された超コンパクトなMiniCPM5から、マルチGPUワークステーション向けのStep-3.7-Flashのような大規模なスパースアーキテクチャまで、これらのターゲットにより、開発者はメモリのスラッシングを回避しながらエージェントのパフォーマンスを最大化できます。

• MiniCPM5は4GBから8GBのVRAMに推奨され、小型マシンでのエージェント型ツール使用に最適化されています。
• LFM-2.5-8Bは8GBから16GBのVRAMに推奨され、1.5Bのアクティブパラメータと131kのコンテキストウィンドウを備えた8B MoEアーキテクチャを提供します。
• ds4flashモデルは96GBから128GBのVRAMに適しており、論理的な会話スタイルと強力なエージェント能力を備えています。
• Step-3.7-Flashは196GB以上のVRAMを搭載したシステムに推奨され、ビジョンと256kのコンテキストを備え、毎秒150トークンで実行されます。

ローカル推論設定を最適化しようとしている開発者は、GPUまたはシステムメモリの制限に正確に一致するモデルを選択できます。

SOURCES

[1]

1. 悪意のあるnpmパッケージがClaude Codeの設定と開発者の認証情報を標的に

2. MiniMaxが100万トークンのコンテキストと推論計算量を削減したM3モデルをリリース

3. xAIがGrok Build 0.1 BetaをAPI経由で公開

4. OpenAIのフロンティアモデルとCodexがAWS Bedrockで利用可能に

5. DepsGuardがパッケージマネージャーのセキュリティ強化を自動化

6. Hermes Agent向けMemory OSアーキテクチャがリリース

7. pi-dynamic-workflows拡張機能がローカルでのサブエージェントオーケストレーションを実現

8. llama.cppがマルチGPU量子化KVキャッシュ修正をマージ

9. MicrosoftがBuildカンファレンスで新しい推論モデルとローカルAIへの注力を発表へ

10. NVIDIAが物理AI向けCosmos 3基盤モデルをリリース

11. NVIDIAが550BパラメータのNemotron 3 Ultraを発表

12. JetBrainsがMellum-2コーディングMoEモデルをオープンソース化

13. Anthropicがブラウザエージェントのシステムカードで31.5%のハイジャック率を詳細報告

14. トークンバッファリングがエージェント型RLループにおける勾配ドリフトを排除

15. AgentControlツールが本番環境でのAIエージェントを監視・制御

16. Qwen 3.6 27Bがローカル開発者ワークフローでGemini Proを上回る

17. 開発者向けのVRAM固有のローカルLLM推奨事項

デイリーAIシグナルを受信箱へ