1. Langfuseで完全なLLMオブザーバビリティパイプラインを構築
Langfuseは、トレーシング、プロンプト管理、自動評価を処理するために設計されたオープンソースのLLMエンジニアリングプラットフォームです。この包括的なパイプラインは、カスタムのアイテムレベルおよび集計評価器を用いたデータセットベースの実験をサポートしており、開発者が自信を持ってアプリケーションを反復改善できるよう支援します。LangChainコールバックハンドラーまたはネイティブのデコレータベースのトレーシングを使用することで、開発者は本番環境においてセッションメタデータやスコアリングメトリクスをシームレスに追跡できます。
- • デコレータベースのトレーシングとRAGパイプライン向けの手動インストルメンテーションの両方をサポート
- • プロンプトの一元管理と、数値、カテゴリ、ブール値による評価スコアの管理が可能
- • LangChainとの統合を容易にする専用のコールバックハンドラーを同梱
- • ユーザーID、セッションID、タグなどのメタデータをLLMトレース全体で伝播可能
- • 実際のOpenAI APIキーと決定論的なモックLLMの両方と互換性あり
開発者は、堅牢なテレメトリの実装、データセットベースの実験の実行、およびライブAPIやモックLLMを使用したプロンプトの一元管理を容易に行うことができます。
2. MicrosoftがターミナルネイティブなWebエージェントフレームワーク「Webwright」を公開
Microsoft Researchは、Webエージェント向けの非常に効率的なターミナルネイティブフレームワーク「Webwright」をオープンソース化しました。Webwrightで構築されたエージェントは、ステップバイステップのUI操作を予測する代わりに、ターミナル環境でPlaywrightコードとbashコマンドを記述・実行します。このフレームワークは、長いシーケンスを処理するための動的な履歴圧縮機能を備えており、終了前にタスク完了を保証するための必須の検証サイクルを強制します。
- • GPT-5.4を使用し、Online-Mind2Webで86.7%、Odysseysで60.1%のスコアを達成
- • Runner、Model Endpoint、ターミナル環境の3つのコアコンポーネントで構成され、1,000行以下のコード量
- • コンテキスト長の制限を緩和するため、20ステップごとにプロンプト履歴を圧縮
- • 自己反省と検証プロセスを必須とすることで、時期尚早な完了を防止
- • Qwen3.5-9Bのような小型モデルでも、構築済みスクリプトを使用することで66.2%の精度を達成可能
- • スクリプトは再利用可能で、Claude Code、Codex、OpenClawなどのツールと互換性あり
基本的なステップ予測を完全なPlaywrightコード実行と自動履歴圧縮に置き換えることで、Webエージェントの信頼性を向上させ、コンテキスト制限を回避します。
3. StepFunがリアルタイム・エンドツーエンド音声モデル「StepAudio 2.5 Realtime」をリリース
上海を拠点とするStepFunは、STT(音声認識)とTTS(音声合成)の個別のステップをネイティブにバイパスし、生の音声から音声へ直接処理を行う音声モデル「StepAudio 2.5 Realtime」を立ち上げました。1万以上のシードペルソナを用いたアルゴリズムによる拡張学習を経て、このモデルは堅牢なペルソナの一貫性を発揮し、音響的なニュアンスを分析してユーザーの気分や意図を読み取ることができます。開発者は、標準的なWebSocketストリームを使用して、この低遅延な音声機能を自身のアプリに簡単に組み込むことができます。
- • wss://api.stepfun.com/v1/realtime にて、モデル識別子「step-2.5-realtime」を使用してWebSocket経由でアクセス可能
- • 直接的な音声入力を直接的な音声出力へと処理する統合システムとして機能
- • 英語と中国語の両方をサポート
- • 対話全体でペルソナの一貫性を維持するために、ロールプレイに特化したRLHFを使用して学習
- • トーン、速度、笑い声を解釈する超言語的知覚が可能
- • 2026年4月のベンチマークにおいて、主観的な人間評価スコア80.41を達成
音声駆動型AIアプリケーション向けに、高度な超言語的知覚を備えた低遅延かつネイティブな音声対音声ストリーミングインターフェースを実現します。
4. hipEngineがAMD RDNA3向けに高速なROCmネイティブ推論を提供
hipEngineは、AMDのRDNA3ハードウェア専用に設計された新しいオープンソースのROCmネイティブローカル推論エンジンです。重いPyTorch依存関係を回避し、hipGraphやAOTritonといったネイティブライブラリを活用することで、hipEngineは高効率な実行を実現します。ネイティブなINT8 KVCache最適化により超長文コンテキスト機能が解放され、ローカル開発パイプラインにおいてllama.cppの有力な代替手段となります。
- • AMDライブラリのhipBLASLt、hipGraph、AOTritonを使用し、PythonおよびHIP/C++でネイティブに構築
- • ParoQuantおよびGGUFモデル形式(Q4_K_MおよびQ4_K_Sバリアントを含む)をサポート
- • ほぼロスレスなINT8 KVCacheを搭載し、Qwen 3.6を24GB未満のメモリで256Kコンテキストにて実行可能
- • gfx1100ハードウェアベンチマークにおいてllama.cppと競合する性能を発揮
- • KERNELS.md、ROOFLINE.md、LESSONS-LEARNED.mdのドキュメントを同梱
- • カーネルの最適化はAI支援開発ツールを使用して生成
Strix Haloや7900 XTXなどのAMDコンシューマー向けハードウェアを使用する開発者が、重いPyTorch依存関係なしで大規模なコンテキストモデルをローカルで実行できるようになります。
5. 検閲なしの「Genesis Qwen 3.6 35B」ローカル量子化フォーマットがリリース
新たにリリースされたQwen 3.6 35Bの検閲なしバリアントは、ローカルデプロイメント向けに高いコンテキスト安定性を提供します。テストによると、最適な設定下では、このモデルは200kトークンの大規模セッション全体で信頼性の高い動作を維持します。パフォーマンスの低下を防ぐため、開発者はAlibaba Cloudの特定のシステムプロンプトでモデルを初期化し、推奨されるサンプラーパラメータに従う必要があります。
- • GGUF、FP8 Safetensors、およびFP8 MTP-Safetensors形式で利用可能
- • Strix Haloハードウェア上でQ8_K_P MTP量子化を使用してテスト済み。200kコンテキストまでループや不具合なし
- • ベンチマーク実行において、120kトークンを超えてもタスク切り替えの安定性を保持
- • APEX、APEX Compact量子化、MTP、およびMLX変換をサポート
- • 最適に機能させるには「You are Qwen, created by Alibaba Cloud. You are a helpful assistant.」で始まる特定のシステムプロンプトが必要
- • 推奨設定は、温度0.7、Top K 20、Presence Penalty 1.5、Repeat Penalty 1.0
正しく設定すれば、繰り返しループに陥ることなく長文コンテキストタスクを実行できる、非常に安定した検閲なしモデルを開発者に提供します。
6. IBMが堅牢なドキュメント解析向け「granite-docling-2stage-258m」をリリース
IBMは、オープンなOCRおよびドキュメント解析ラインナップを更新し、granite-docling-2stage-258mをリリースしました。このモデルは、プロンプト内でページ構造を動的に事前計算することでレイアウト検出を強化しており、非定型なPDFレイアウトや複雑なドキュメント形状を解析する際の耐性を高めています。
- • 既存のGranite Docling解析アーキテクチャに対する進化的アップデート
- • 特定のページ上のレイアウトオブジェクトを事前計算する動的プロンプトを導入
- • 分布外のドキュメントレイアウトを堅牢に処理するために特別に設計
分布外(out-of-distribution)のレイアウトを扱う際のOCRおよびドキュメント構造の理解能力を向上させます。