Audesso | Daily: AI

Claude Code v2.1.87で未公開の設定項目が発見される

00:00 / --:--

このブリーフィングのオーディオはありません。

← ホームへ戻る

Claude Code v2.1.87で未公開の設定項目が発見される

1. Claude Code v2.1.87で未公開の設定項目が発見される

Claude Codeのnpmソースコードを分析した結果、いくつかの実験的かつ未公開の機能が明らかになりました。これには、CLIコマンドをバックグラウンドのサブエージェントとして実行できるリアルタイムフック(context: fork設定を使用)が含まれますが、異なるモデルを実行するとプロンプトキャッシュが機能しなくなるという制約があります。さらに、「MAGIC DOC」機能により特定のH1見出し形式を使用してドキュメントを自動維持できるほか、autoDreamEnabledのような高度な設定により、ツールがセッションメモリを自動的に統合できるようになります。

  • Claude Codeのフックは、updatedInput、permissionDecision、additionalContextなどのフィールドを含むJSONをstdoutに返すことで、CLIの動作をリアルタイムで変更できます。
  • settings.json内のautoMemoryEnabledおよびautoDreamEnabledフラグは、セッションメモリを抽出・統合する未公開の自己改善ループを有効にします。
  • YOLO Classifierの自動モードは、コマンドの自動承認に関する安全ポリシーを制御するために、平易な英語で記述された環境設定が可能です。
  • スキルのフロントマターは、model、effort、hooks、agent、disable-model-invocation、shellなど、いくつかの未公開フィールドをサポートしています。
  • カスタムエージェントの永続メモリは、memoryフィールドを使用してユーザー、プロジェクト、またはローカルスコープに設定できます。

Claude Codeを使用する開発者は、高度な未公開フック、スコープ指定が可能なカスタムエージェント、自動化されたセッションメモリを活用することで、より強力で自律的なローカルAIエージェントを構築できるようになります。

SOURCES

2. StepFunが198BパラメータのMoE視覚言語モデル「Step 3.7 Flash」をリリース

StepFunは、198Bパラメータの巨大な混合エキスパート(MoE)視覚言語モデル「Step 3.7 Flash」をリリースしました。これには、エンティティ認識用のVisual Search Toolや、クロップおよびバウンディングボックス画像分析用のPython Toolなどの組み込みツールが付属しています。開発者はOpenRouterやNVIDIA NIMなどのプラットフォームを通じてモデルを統合したり、Apache 2.0ライセンスの下で直接重みをダウンロードしたりできます。

  • Step 3.7 Flashは196Bパラメータの言語バックボーンと1.8Bの視覚エンコーダーで構成され、トークンあたり11Bパラメータをアクティブ化し、256kのコンテキストウィンドウを備えています。
  • SWE-Bench Proで56.26%、Terminal-Bench 2.1で59.55%のスコアを達成しました。
  • Advisor Modeは複雑なタスクをより大きなモデルに委任し、SWE-Bench Verifiedでタスクあたり0.19ドルで76.3%の精度を達成します。
  • 価格は入力トークン100万あたり0.20ドル(キャッシュミス時)、0.04ドル(キャッシュヒット時)、出力トークン100万あたり1.15ドルです。
  • Apache 2.0ライセンスでリリースされ、Hugging Face、OpenRouter、NVIDIA NIM、StepFunで利用可能です。

このモデルは、開発者が3段階の推論深度を選択してレイテンシと推論精度のバランスを容易に調整できるほか、Advisor Modeを通じて複雑なタスクに対する費用対効果の高いルーティングを提供します。

SOURCES

3. Hexo Labsが自己改善エージェントフレームワーク「SIA」をオープンソース化

SIAは、初期構成を行うメタエージェント、実行を担当するタスク特化型エージェント、ハーネスプロンプトの調整やLoRAファインチューニングを実行するフィードバックエージェントの3つのエージェントアーキテクチャを利用します。フィードバックエージェントは、報酬フィードバックに基づいてPPO(GAE付き)、GRPO、エントロピー優位性重み付けなどの最適化アルゴリズムを選択します。開発者は、SIA-W+Hがハーネスのみの構成よりも優れている一方で、共同最適化の不動点は摂動に対して脆弱なままである可能性があると指摘しています。

  • SIAはエージェントをハーネス(プロンプト、ツールディスパッチ、再試行ポリシー)とモデルの重みに分割します。
  • 重みの更新は、Modal上のH100を使用して、ベースモデルopenai/gpt-oss-120bに対してLoRA(ランク32)で行われます。
  • Claude Sonnet 4.6をメタエージェントおよびフィードバックエージェントとして使用し、最適化ループを管理します。
  • ハーネスのみの手法を上回り、LawBenchでハーネスのみの50.0%に対し70.1%の精度を達成しました。
  • TriMulタスクでの実行時間を1,017マイクロ秒に短縮し、ハーネスのみのピーク時と比較して91.9%の削減を実現しました。

このフレームワークは、エージェントのハーネスとモデルの重みの両方を単一のループで編集する初の試みであり、タスク特化型のローカルエージェントに対して大幅なパフォーマンスと速度の向上をもたらします。

SOURCES

4. AIエージェントの耐久性のあるワークフローに向けたSQLiteとLitestreamの活用

公開されたアーキテクチャガイドでは、SQLiteをLitestreamと組み合わせることで、Obeliskプラットフォームのような耐久性のあるワークフローエンジンに最適であると主張しています。Litestreamによるレプリケーションは非同期であり、共有ネットワークデータベースのようなアクティブな高可用性とは異なりますが、開発者がローカルエージェントの状態を簡単にパッケージ化およびスナップショット化することを可能にします。これにより、耐久性を犠牲にすることなく、エージェントプロセスを非常にポータブルかつ低コストで実行できます。

  • 耐久性のある実行はワークフローの状態を永続化することに依存しており、計算リソースを使い捨てにすることが可能です。
  • SQLiteはローカルでトランザクション状態の更新を提供し、ネットワークホップや外部コントロールプレーンを排除します。
  • LitestreamはSQLiteの変更をS3互換ストレージに直接非同期レプリケーションすることを可能にします。
  • このアーキテクチャは、小さく自己完結型の実行状態ユニットを必要とするAIエージェントに非常に適しています。
  • 高可用性、マルチノードスケーリング、または同期的な耐久性が必要な場合は、引き続きPostgresが推奨されます。

AIワークフローを構築する開発者は、Postgresのような標準的なクライアントサーバー型データベースのレイテンシ、ネットワークホップ、設定の複雑さを伴わずに、耐久性のある実行を実現できます。

SOURCES

5. Pinterestが視覚レイヤーを事前計算済み埋め込みに置き換え、AIコストを90%削減

オープンソースのQwen3-VLモデルの視覚レイヤーを取り除き、独自の事前計算済み埋め込みを言語モデルのバックボーンに直接入力することで、Pinterestはチャット中のライブ画像エンコーディングを回避しました。このハイブリッドアプローチにより、ショッピングアシスタントは、動的なユーザーアクティビティの嗜好グラフと低レイテンシのLLM推論を組み合わせ、関連性の高いコンテキストを考慮した商品を迅速に取得できるようになりました。

  • PinterestはQwen3-VLモデルの視覚レイヤーを、事前計算されたオフラインの独自埋め込みに置き換えました。
  • 推論レイテンシは、リアルタイムの画像エンコーディングと比較して20倍削減されました。
  • 視覚レイヤーをカスタマイズすることで、会話型アシスタント「Navigator 1」のターゲットタスク精度が30%向上しました。
  • 嗜好グラフアーキテクチャは、グラフ構造と表現学習を組み合わせ、アクティビティに基づいてユーザーの埋め込みを動的に更新します。
  • Navigator 1は、Pinterestの月間アクティブユーザー6億2000万人の一部にサービスを提供しています。

これは、ライブチャット中に高価な視覚モデルに生の画像アセットを入力するのではなく、マルチモーダル表現をオフラインで事前計算するという、大幅なコスト削減パターンを示しています。

SOURCES

6. Agent Judgeが長文脈の軌跡評価を強化

本番環境のエージェントを評価することは、長いコンテキストの軌跡やステートフルな副作用のために非常に困難です。Agent Judgeは、深い実行パスをナビゲートし、システム状態に対して出力を検証することでこれらの課題に対処します。実際のフィードバックに基づいて評価基準を適応させることで、このフレームワークは、単純なプロンプトベースの判定よりも、マルチステップのエージェントの動作を監査するためのより正確で堅牢な方法を提供します。

  • Agent Judgeは、検索(Search)、検証(Verification)、適応(Adaptation)という3つの主要なメカニズムに焦点を当てています。
  • 長いエージェントの軌跡を評価し、ステートフルなアクションをターゲットシステムに対して検証します。
  • 実際の実行フィードバックを使用して、評価基準を反復的に洗練および更新します。
  • テストでは、Agent Judgeが従来のLLM評価手法よりも精度と一貫性の面で優れていることが示されています。

開発者はAgent Judgeを使用して複雑なマルチステップエージェントのテストを自動化し、従来の静的なLLM評価基準の限界を回避できます。

SOURCES

7. Hugging FaceのサーバーレスGPUジョブでGitHub Actionsを実行

自動評価やモデルテストを標準的な開発ワークフローに統合することは、高価または低速なCIランナーによってボトルネックになることがよくあります。GitHub ActionsパイプラインをHugging Face Jobsに移行することで、開発チームはモデル評価、埋め込みテスト、その他のハードウェア依存のステップをサーバーレスGPU上で直接実行でき、実行速度とインフラストラクチャコストの両方を最適化できます。

  • Hugging Face Jobsは、デフォルトのGitHub Actions CIランナーを置き換えることができます。
  • 信頼性の高いCPUと低コストのサーバーレスGPUオプションへのアクセスを提供します。
  • サーバーレスGPUの実行コストは、1実行あたり0.01ドル未満です。
  • 標準的なリポジトリワークフロー内で、AIモデルと埋め込みの自動テストを可能にします。

この統合により、開発者はモデルのGPUベースの統合テストや回帰テストを、実行あたり1セント未満のコストでCI/CDパイプライン内で直接実行できるようになります。

SOURCES

8. OpenRouterがプロンプトキャッシュの有効価格メトリクスを導入

開発者が実際のトークン使用コストをより正確に見積もれるよう、OpenRouterはプロンプトキャッシュによるコスト削減額をモデル詳細ページに集約して表示するようになりました。これにより、DeepSeek V4 FlashとTencentの人気のHy3プレビューなど、プロバイダーのキャッシュ効率やデータプライバシー設定によってパフォーマンスが大きく左右されるモデル間の有効価格の差が明確になります。

  • OpenRouterは、プロンプトキャッシュヒットの割引を考慮した有効価格表をモデルページに表示するようになりました。
  • DeepSeek V4 Flashは、2%のキャッシュ読み取りコストにより、DeepSeekから直接入力トークン100万あたり0.018ドルの有効価格を実現しています。
  • TencentのHy3プレビューはOpenRouterで人気が急上昇しており、2026年5月8日に無料SKUから有料SKUに移行しました。
  • SiliconFlowは、OpenRouterにおけるHy3プレビューの独占プロバイダーです。
  • 一部のユーザーは、DeepSeekのデフォルトのデータポリシー(プロンプトをモデルトレーニングに利用するオプトイン設定)に関して懸念を報告しています。

開発者はAPI間のコスト比較をより正確に行い、実際のプロンプトキャッシュ効率に基づいてモデルを選択できるようになります。

SOURCES

9. Tiny-vLLM: 高性能なLlama 3.2 C++/CUDA推論エンジン

Jędrzej Maczanによって作成されたtiny-vllmは、オープンソースの軽量エンジンであると同時に、カスタムLLM推論スタックを構築するための実践的なコースとしても機能します。大規模なエンタープライズラッパーを避けることで、このコードベースは、連続バッチ処理やKVキャッシュなどの重要な推論最適化を、ネイティブのCUDA計算パイプラインを使用してベアメタルのGPUハードウェア上で直接構築する方法を開発者に示しています。

  • bfloat16精度のSafetensors重みを利用したLlama 3.2 1B Instructをサポートしています。
  • PagedAttention、KVキャッシュ、静的および連続バッチ処理を実装しています。
  • Linux上でC++ 17、GCC 15.2.1、CUDA Toolkit 13.1を使用して開発されました。
  • AMD Ryzen 7 9800X3DおよびNVIDIA RTX 5090ハードウェアでテストおよび検証済みです。
  • Apache License 2.0の下でリリースされています。

これは、ローカル推論を行う開発者に教育的なリファレンスを提供し、カスタマイズされたCUDA操作を使用して小規模パラメータモデルをネイティブに実行するための高性能な基盤となります。

SOURCES

10. NVIDIAがONNX Runtime向けに最適化されたKokoro TTSをリリース

NVIDIAによる8200万パラメータのKokoro TTSモデルの最適化により、低レイテンシでリソース効率の高い音声生成が可能になりました。ONNX Runtimeを使用することで、開発者は最小限のメモリフットプリントと標準的なGPUハードウェアでの高速な実行速度で、ローカルのテキスト読み上げ機能をアプリケーションコンテナに簡単に統合できます。

  • Kokoro TTSは、8200万パラメータを持つ軽量な音声合成モデルです。
  • 最適化されたバージョンはHugging Faceプラットフォームでホストされています。
  • ONNX Runtimeを利用してNVIDIA GPU上で実行するように特別に設計されています。
  • このモデルは商用利用が完全に可能です。

このリリースにより、ONNX Runtimeを使用してNVIDIA GPU上で高品質なローカル音声合成を非常に高速かつ低コストで展開できるようになります。

SOURCES

11. Pierre Computer Companyが高性能な差分レンダリング用「CodeView」をリリース

LLMによるコード生成から大規模な差分をレンダリングすると、Webインターフェースがクラッシュすることがよくあります。@pierre/diffsライブラリは、DOMノードをプールし、重い解析やトークン化プロセスをWebワーカーに移動することで、このボトルネックを解決します。ただし、テストにより、SafariのWebKitにおいて、特にスティッキーなコンポジットやフレームレート制限に関連するパフォーマンスの限界が依然として存在することが明らかになったため、開発者は注意が必要です。

  • CodeViewは@pierre/diffs npmパッケージで利用可能であり、DiffsHub.comでテスト可能です。
  • 大規模な差分(Linuxカーネルのバージョンアップなど)のメモリ消費量を2.4 GBから1.15 GBに削減します。
  • DOMプーリングと共有状態オプションを使用して、解析時間を約80%短縮します。
  • メインスレッドのブロックを防ぐため、Webワーカー内でShikiを使用した構文ハイライトを遅延実行します。
  • スムーズなネイティブスクロールをサポートするために「逆スティッキー技術(Inverse Sticky Technique)」を利用しています。

社内のコードレビューツールやAIコーディングアシスタントを構築する開発者は、このライブラリを使用して、ブラウザのメインスレッドをフリーズさせることなく巨大なファイルや差分をレンダリングできます。

SOURCES

12. エンタープライズアーキテクチャがAIエージェント向けに決定論的スパインへ移行

Temporal Technologiesによると、アドホックなエンタープライズAIエージェント導入の初期の波は、構造的な再構築の過程にあります。マルチステップのエージェントシステムは数時間から数日にわたって実行されることが多く、実行中のネットワークやコンテナの障害に対して非常に脆弱です。決定論的なオーケストレーション層を使用してLLM生成から実行の安全性を切り離すことで、開発者はエージェントが失敗した場所から正確に再開できるようにし、トークンコストを節約してシステムの安定性を維持できます。

  • 第1世代のAIエージェントは、長時間実行されるワークフロー中に深刻な信頼性の問題に直面します。
  • 最初からやり直さなければならない失敗したマルチステッププロセスは、推論コストとレイテンシを大幅に増加させます。
  • 決定論的なオーケストレーションスパインは信頼性の高い状態マネージャーとして機能し、LLMを確率的なコンポーネントとして維持します。
  • オーケストレーションプラットフォームは、長く複雑なマルチステップエージェントパス全体でのトークン消費の可視性を提供します。
  • 企業はこれらのパターンを利用して、ガバナンスとモデル選択のための舗装された道(paved paths)を構築しています。

これは、確率的なLLMの動作を厳格な状態管理実行システムでラップし、状態を失ったりAPIコストを浪費したりすることなくクラッシュを処理するという重要な設計パターンを示しています。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。