1. Harness-1 20B Retrieval SubagentがStateful Search Harnessと共にリリース
Harness-1は、検索エージェント向けのステートフルな認知オフロードアーキテクチャを導入しています。ポリシーによる意味検索の決定と、Harnessによる事務的なタスクを分離することで、エージェントはドキュメントプールやエビデンスグラフを効率的に管理できます。このモデルは、GPT-5.4の軌跡を用いた教師ありファインチューニングと、それに続くSECクエリでのオンポリシーCISPO強化学習によって訓練されており、オープンウェイトの検索モデルとして最高水準の性能を実現しています。
- • Harness-1は、UIUC、UC Berkeley、Chromaの研究者らによってgpt-oss-20bモデルをベースに構築された20Bの検索サブエージェントです。
- • このエージェントは、意味検索の決定(ポリシーが担当)と日常的な事務処理(ステートフルなHarnessが管理)を分離しています。
- • ステートフルなHarnessは、最大30個のドキュメント候補プール、正規表現抽出を用いたエビデンスグラフ、および全文ストアを保持します。
- • ポリシーは、fan_out_search、search_corpus、grep_corpus、read_documentを含む8つの特定のツールを利用します。
- • Harness-1は8つのベンチマーク全体で平均0.730のキュレーション済みリコールを達成し、Tongyi DeepResearch 30Bを11.4ポイント上回りました。
- • モデルのウェイトとHarnessのコードは、Hugging FaceおよびGitHubで公開されています。
複雑なドキュメント検索や抽出に最適化されたオープンウェイトのエージェントモデルを開発者に提供し、既存のオープンソースの代替モデルを凌駕する性能を発揮します。
2. SilurusがブラウザベースのOOXMLビューアとエージェント対応MCPサーバーをリリース
@silurus/ooxmlライブラリは、WebAssemblyにコンパイルされたRustベースのパーサーとCanvas 2D APIを使用して、Office Open XMLドキュメントのピクセル単位で忠実なレンダリングエンジンを提供します。すべてClaudeによって構築されているため、現代のAI統合を念頭に置いて設計されており、開発者が解析されたドキュメント構造をLLMエージェントに直接簡単に供給できる専用のMCPサーバーが付属しています。
- • @silurus/ooxmlライブラリは、DOCX、XLSX、PPTXファイルをブラウザ内のHTML Canvas要素に直接レンダリングします。
- • RustパーサーやTypeScriptレンダラーを含むコードベース全体が、AnthropicのClaude AIアシスタントによって実装されました。
- • このプロジェクトには、AIエージェントがOfficeドキュメントを解析・読み取りできるようにするためのRustベースのModel Context Protocol (MCP) サーバーが含まれています。
- • セキュリティ機能として、zip爆弾攻撃を防ぐための非圧縮ZIPエントリに対するデフォルトの512 MiB制限や、roxmltreeによるXXE安全性などが備わっています。
- • このライブラリはMITライセンスの下で完全にオープンソースであり、デフォルトではネットワークリクエストを行いません。
開発者は、安全なクライアントサイドでのOfficeドキュメントレンダリングを構築し、構築済みのMCPサーバーを介してドキュメントの内容をAIエージェントに簡単に公開できるようになります。
3. オープンソースの「Automated Doubt」パイプラインがサブエージェントでLLMコードを監査
LLMが生成するコードの信頼性の問題を解決するために、この「自動化された疑念(Automated Doubt)」開発プロセスは、構造化された多段階の監査パイプラインを導入しています。サブエージェントを使用してコードを書くのではなく、開発には単一のClaude Codeターミナルインスタンスを使用し、設計、実装、APIコントラクトをリリース前に厳格に監査するために専門のバリデーターエージェントを配置します。
- • 「自動化された疑念」プロセスでは、専門のサブエージェントを使用して、3つのフェーズにわたってコード、仕様、ドキュメントを監査します。
- • フェーズ1(設計)では、Pre-Implementation Architect、Documentation Validator、Assumption Excavatorなどのエージェントを使用します。
- • フェーズ2(開発)では、Code Validator、Type Safety Validator、Security Analystを雇用してコード品質を監査します。
- • フェーズ3(出荷)では、API Contract ValidatorとRelease Readiness Validatorを利用してリリースの準備状況を検証します。
- • 著者はAssumption Excavatorを汎用的なエージェントとして推奨しており、パイプラインをGitHubで公開しています。
AIが生成したコードの信頼性や懸念を軽減するために、開発者が採用できる具体的なマルチエージェント監査パターンを提供します。
4. NightwatchがオープンソースのローカルファーストAI SREエージェントを立ち上げ
Nightwatchは、ライブシステムを調査し、オンコールエンジニアのために根本原因の仮説を形成するように設計された、安全な読み取り専用のAI SREエージェントを提供します。認証情報をローカルに保持し、リモートのLLM呼び出しを行う前にシークレットやIPアドレスなどの機密データをマスクすることで、ツール呼び出しモデルを活用してインシデントトリアージを自動化しつつ、本番環境のセキュリティを確保します。
- • Nightwatchは、アラートの嵐をインシデントにグループ化し、ノイズの多いチェックを特定する、ローカルファーストの読み取り専用監視レイヤーです。
- • アーキテクチャは、ローカル環境に常駐し、中央の「脳」へのアウトバウンド接続を行う「baby owl」エージェントを使用します。
- • システムは、本番環境へのインバウンドアクセスを必要とせずに動作します。
- • リモートのLLM呼び出しに対して、Nightwatchは機密データ(シークレット、IP、ホスト名、パス)を可逆的なプレースホルダーでマスクします。
- • クラスタリングおよび推奨機能は、LLMを使用せず完全にオフラインで機能します。
インバウンドアクセスを必要としたり、生の認証情報を公開したりすることなく、本番システムをトラブルシューティングできる、プライバシーを保護したエージェント型のSREツールを開発者に提供します。
5. GEPAフレームワークがマルチコンポーネントのプロンプト最適化を自動化
GEPAフレームワークは、プロンプト最適化を進化ループとして扱うことで、プロンプトエンジニアリングの退屈なプロセスを自動化します。タスクモデルとリフレクションモデルをペアにすることで、GEPAはトレーニングセットに対するパフォーマンスを評価し、推論やフォーマットの失敗に関する構造化されたフィードバックを生成し、ホールドアウトされた検証セットへの汎化を確実にするためにプロンプトコンポーネントを洗練させます。
- • GEPAは、指示フィールドと出力形式ルールを同時に進化させる反射的なプロンプト進化フレームワークです。
- • 最適化プロセスでは、弱いシードプロンプト、決定論的なベンチマークデータセット、構造化された評価器、およびリフレクションモデルを利用します。
- • フレームワークは、タスクモデルとしてgpt-4o-miniを、リフレクションモデルとしてgpt-4.1を使用します。
- • 評価器は、正確性とフォーマットルールへの厳格な準拠に基づいて出力をスコアリングします。
- • GEPAは、推論、フォーマット、またはその両方に関連する失敗を特定するために、リフレクションモデルに構造化されたフィードバックを提供します。
手動の試行錯誤に頼るのではなく、決定論的なデータセット上で複雑なプロンプトを進化させ、検証するための体系的かつプログラム的な方法を開発者に提供します。
6. Docker化されたNemotron 3.5 ASRがCPU上で4.5倍のリアルタイム速度を達成
ParakeetからNemotron 3.5 ASRへの移行により、オーディオファイル全体をバッファリングする遅延なしで、ネイティブなストリーミング音声認識が可能になります。新しく共有されたDockerコンテナとAPI例により、開発者はonnxruntime-genaiバックエンドを使用して、標準的なCPUハードウェア上でこの多言語モデルを簡単にデプロイできます。
- • Nemotron 3.5 ASRは、API呼び出し用のサンプルファイルを含むDockerコンテナにパッケージ化されています。
- • このモデルは単一モデル内で40以上のロケールをサポートしており、Parakeetよりも優れた多言語サポートを提供します。
- • オーディオファイル全体をバッファリングする必要がないネイティブストリーミングアーキテクチャを利用しています。
- • onnxruntime-genaiバックエンドを使用したCPU上でのテストでは、約4.5倍のリアルタイム速度を達成しました。
40以上のロケールをサポートし、高価なGPUを必要とせずに標準的なCPUハードウェア上で高速に動作する、非常に効率的で自己ホスト可能な音声認識パイプラインを提供します。
7. NVIDIAがgarakを使用した防御的LLMレッドチーミングワークフローの詳細を公開
NVIDIAによるgarakフレームワークのチュートリアルでは、LLMセキュリティへの構造化されたアプローチが概説されています。開発者はgarakプラグインエコシステムを調査して利用可能なプローブ、検出器、ジェネレーターを発見し、REST構成テンプレートを介してモデルエンドポイントに対してスキャンを実行し、結果として得られる安全スコアを分析して、プロンプトインジェクションやその他の脆弱性に対してアプリケーションを強化できます。
- • NVIDIA garakは、防御的なLLMレッドチーミング用に設計されたフレームワークです。
- • ワークフローには、プラグインの発見、ドライラン、実モデルスキャン、マルチプローブ評価、およびカスタムプローブ/検出器の作成が含まれます。
- • garakレポートは、pandasとNumPyを使用して分析し、安全スコアと攻撃成功率を計算できます。
- • このフレームワークは、構造化されたAVID形式での脆弱性レポートのエクスポートをサポートしています。
- • garakを外部モデルエンドポイントに接続するためのREST構成テンプレートが提供されています。
開発者がLLM統合の脆弱性を体系的にスキャンし、安全スコアを計算し、出荷前に構造化されたレポートをエクスポートするのに役立ちます。