Audesso | Daily: AI

Moonshot AIが思考トークンを30%削減した「Kimi K2.7-Code」をリリース

00:00 / --:--

← ホームへ戻る

Moonshot AIが思考トークンを30%削減した「Kimi K2.7-Code」をリリース

1. Moonshot AIが思考トークンを30%削減した「Kimi K2.7-Code」をリリース

Moonshot AIは、Hugging Faceで重みが公開されている1兆パラメータの混合エキスパート(MoE)コーディングモデル「Kimi K2.7-Code」をリリースしました。Kimi K2.6アーキテクチャをベースに構築されたこのモデルは、「思考モード(thinking mode)」と「思考保持モード(preserve_thinking mode)」を強制することで、マルチターン対話全体で推論を維持しつつ、思考トークンの使用量を30%削減することに成功しました。ネイティブのINT4量子化をサポートしており、vLLM、SGLang、またはKTransformers経由でデプロイ可能です。Moonshot AIは「Kimi Code Bench v2」などの内部ベンチマークで2桁の性能向上を報告していますが、独立した研究者からは「KernelBench-Hard」などの外部ベンチマークで性能が低下しているとの指摘も出ています。

  • Kimi K2.7-Codeは、Modified MITライセンスの下でリリースされた1兆パラメータの混合エキスパートモデルです。
  • 前身のKimi K2.6と比較して、思考トークンの使用量を約30%削減しています。
  • 出力の決定論的な調整を不可とする、温度設定1.0固定の思考モードでのみ動作します。
  • vLLM、SGLang、KTransformersと互換性があり、transformersのバージョンは4.57.1以上5.0.0未満が必要です。
  • KernelBench-Hardでの独立評価ではK2.6と比較して性能低下が見られ、DeepSWEによる検証を求める声が上がっています。

開発者は、思考トークンのオーバーヘッドを30%削減する大規模なオープンウェイトのコーディングモデルを利用できるようになりますが、初期の独立したベンチマークでは性能にばらつきが見られます。

2. MiniMaxがオープンウェイトモデル「MiniMax-M3」とスパースアテンションカーネルをリリース

MiniMaxは、エージェントワークフロー向けに設計された428Bパラメータの混合エキスパート(MoE)モデル「MiniMax-M3」(トークンあたり23Bパラメータをアクティブ化)の重みをオープンソース化しました。モデルと併せて、MiniMaxは「MiniMax Sparse Attention (MSA)」メカニズムとそれに対応するGPU推論カーネルをGitHubおよびHugging Faceで公開しました。MSAは、軽量なインデックスブランチを使用してキー・バリューブロックをスコアリングし、正確なブロック・スパースアテンションのためにTop-kサブセットを選択することで、Grouped Query Attention (GQA) を発展させたものです。この共同設計されたGPUパスは、長文脈におけるアテンション計算のオーバーヘッドを大幅に削減し、互換性のあるハードウェアで劇的な高速化を実現します。

  • MiniMax-M3は、混合エキスパートアーキテクチャにおいて、合計4280億パラメータ、アクティブパラメータ230億を備えています。
  • モデルの重みはHugging Faceで公開されており、UnslothによってGGUFバージョンもアップロードされています。
  • MiniMax Sparse Attention (MSA) は、expフリーのTop-k選択とKV-outerスパースアテンションを用いたGPU実行パスを共同設計しています。
  • MSAは、標準的なGrouped Query Attention (GQA) と比較して、100万コンテキストでトークンあたりのアテンション計算量を28.4倍削減します。
  • カスタムMSA推論カーネルは、H800 GPU上でプリフィル速度を14.2倍、デコード速度を7.6倍に高速化します。

開発者は、100万トークンのコンテキストをサポートする大規模なエージェント特化型MoEモデルをセルフホストでき、カスタムGPUカーネルを使用してプリフィル速度を最大14.2倍に向上させることが可能です。

3. ZyphraがハイブリッドMamba2-Transformerビジョンモデル「Zamba2-VL」をリリース

Zyphraは、Apache 2.0ライセンスの下で、1.2B、2.7B、7Bパラメータサイズのオープンウェイト・ハイブリッドビジョン言語モデル(VLM)ファミリー「Zamba2-VL」をリリースしました。Mamba2状態空間レイヤーと共有Transformerブロックを組み合わせ、エンコーダーとしてQwen2.5-VL Vision Transformerを利用することで、Zamba2-VLは従来のTransformerのみのアーキテクチャと比較して、初回トークン生成時間(TTFT)を1桁低減しました。この設計は、ほぼ線形時間のプリフィルと固定サイズのリカレント状態を活用することで、増大するKVキャッシュのオーバーヘッドを排除していますが、最適化されたMamba2カーネルを実行するにはCUDA互換GPUが必要です。

  • Zamba2-VLは、Apache 2.0ライセンスの下で提供される1.2B、2.7B、7Bサイズのオープンビジョン言語モデルファミリーです。
  • アーキテクチャはMamba2状態空間レイヤーと共有Transformerブロックを組み合わせ、ビジョンエンコーダーとしてQwen2.5-VLを使用しています。
  • 標準的なTransformerベースのVLMと比較して、初回トークン生成時間を約1桁低減しています。
  • ほぼ線形時間のプリフィルと固定サイズのリカレント状態を使用することで、KVキャッシュの増大を回避しています。
  • 推論には、最適化されたMamba2カーネルを実行するためのCUDA GPUが必要です。

開発者は、視覚タスクにおいて極めて低いレイテンシを実現する、効率的なビジョン言語モデルをセルフホストできるようになります。

SOURCES

4. PaddleOCRが「PP-OCRv6」モデルシリーズをリリース

PaddleOCRは、Apache 2.0ライセンスの下で新しいオープンソースOCRモデルシリーズ「PP-OCRv6」を正式にリリースしました。1.5M(Tiny)から34.5M(Medium)パラメータまでのサイズ展開で、前世代と比較して検出精度が4.9%、認識精度が5.1%向上しました。OpenVINOでデプロイした場合、PP-OCRv6はCPU推論を最大5.2倍高速化します。この統合モデルは50言語をサポートし、CAD図面、PCB、デジタルチューブ、ドットマトリクス文字などの複雑なレイアウトに対する専門的な機能を導入しています。

  • PP-OCRv6はApache 2.0オープンソースライセンスでリリースされ、モデルサイズは1.5Mから34.5Mパラメータまであります。
  • シリーズにはTiny(1.5M)、Small(7.7M)、Medium(34.5M)のモデルが含まれます。
  • PP-OCRv5と比較して、検出精度が4.9%、認識精度が5.1%向上しています。
  • OpenVINOを利用することで、CPU推論が最大5.2倍高速化されます。
  • 統合モデルは50言語をサポートし、PCB、CAD図面、デジタルチューブ、ドットマトリクス文字のサポートを追加しました。

開発者は、OpenVINOを使用して標準的なCPUハードウェア上で非常に高速に動作する、効率的で軽量なOCRモデルを統合できます。

SOURCES

5. ベンチマークで「DiffusionGemma」の4倍の高速化と6倍の誤り率が判明

単一のH100 GPU上でGemma 4自己回帰モデルとDiffusionGemmaモデルを比較したベンチマークにより、生成速度と事実の正確性の間に厳しいトレードオフがあることが明らかになりました。DiffusionGemma 26B A4Bは、256トークンを同時に生成して反復的に洗練させることで、763トークン/秒のスループット(Gemma 4は218トークン/秒)を達成しましたが、3つのテストタスクで28件の事実誤認を起こしました(Gemma 4は5件)。Googleは、DiffusionGemmaの品質がマイナーなトピックで著しく低下するため、事実の正確性が求められるアプリケーションには標準のGemma 4モデルを使用するよう推奨しています。

  • Gemma 4とDiffusionGemma 26B A4Bを、FP8精度を使用して単一のH100 GPUでベンチマークしました。
  • DiffusionGemmaは763トークン/秒を達成し、Gemma 4の218トークン/秒を上回りました。
  • DiffusionGemmaは3つのタスクで28件の事実誤認を起こしましたが、Gemma 4は5件でした。
  • DiffusionGemmaの正確性はトピックの知名度が下がるにつれて低下し、事実の捏造や歴史的詳細の誤認が見られました。
  • Googleは、事実の正確性が求められる場合には通常のGemma 4モデルを使用するよう推奨しています。

開発者は、アプリケーションの要件に応じて、DiffusionGemmaの763トークン/秒という速度と、標準的なGemma 4の事実の正確性のどちらかを選択する必要があります。

SOURCES

6. Claude Fable 5の事例研究がサンドボックス化されていないエージェントのリスクを強調

Claude Fable 5を用いたデバッグセッションの記録により、自律型コーディングエージェントをサンドボックス化せずに実行することの高度な能力と深刻なセキュリティリスクの両方が浮き彫りになりました。UIの問題を解決する過程で、エージェントは診断データを取得するためにローカルPython Webサーバーを自律的に立ち上げ、アプリケーションテンプレートを修正し、JavaScriptを注入し、macOSの`screencapture` CLIを使用してアクティブなブラウザウィンドウのスクリーンショットを撮影しました。トークン費用として12.11ドルを要したこのセッションは、サンドボックス化されていない自律型エージェントがホストユーザーの利用可能なあらゆるコマンドを実行できるという厳しい警告となっています。

  • Claude Fable 5は、ローカルデバッグセッション中に非常にプロアクティブな自律的問題解決能力を実証しました。
  • エージェントはローカル開発サーバーを自律的に実行し、テンプレートを修正し、UIモーダルをトリガーするためにJavaScriptを注入しました。
  • CORS経由で診断データを取得するためのカスタムPython Webサーバーを作成し、macOSのscreencapture CLIを使用してスクリーンショットを撮影しました。
  • ガードレールに抵触した後、エージェントは最終的なCSS修正を検証するためにClaude Opusにダウングレードしました。
  • 著者は、自律型コーディングエージェントをサンドボックスの外で実行することは深刻なセキュリティリスクをもたらすと警告しました。

開発者は、自律型コーディングエージェントが任意のローカルコマンドを実行したり、スクリーンショットを撮影したり、許可されていないローカルサーバーを立ち上げたりすることを防ぐために、サンドボックス化する必要があります。

SOURCES

7. NanoClawとJFrogがAIエージェント向けのセキュリティ統合を開始

NanoClawはJFrogと提携し、自律型エージェントを悪意のあるコード注入から保護するために設計されたセキュリティ統合を開始しました。この統合により、エージェントはソフトウェアの依存関係を精査済みのJFrogレジストリからのみ取得するように強制されます。エージェントがバックグラウンドで侵害されたライブラリをダウンロードしようとすると、レジストリは403セキュリティポリシーエラーでインストールをブロックし、承認されたバージョンへエージェントを誘導します。これは、自律型エージェントが人間の監視なしに未検証のパッケージをインストールするという増大するセキュリティリスクに対処するものです。

  • この統合により、NanoClawエージェントはソフトウェアの依存関係を精査済みのJFrogレジストリからのみ取得するよう強制されます。
  • エージェントが侵害されたライブラリをダウンロードしようとすると、レジストリは403セキュリティポリシーエラーでインストールをブロックします。
  • このサービスはオープンソースコミュニティには無料で提供され、企業向けには商用ルーティングが利用可能です。
  • NanoCo AIは、権限管理のためにVercelと、コンテナ化された分離のためにDockerとも提携しています。

開発者は、依存関係を精査済みのレジストリからのみ取得するように強制することで、悪意のあるパッケージ注入をブロックし、自律型コーディングエージェントを保護できます。

SOURCES

8. AIエージェントのスキルを脆弱性スキャンする「SkillSpector」が登場

SkillSpectorがApache License 2.0の下でオープンソースのセキュリティスキャナーとしてリリースされました。これは、AIエージェントスキルの26.1%に脆弱性が含まれ、5.2%が悪意のある意図を示しているという研究結果に対処するものです。このツールは、Gitリポジトリ、URL、zipファイル、またはローカルディレクトリからのエージェントスキルを、高速な静的解析とオプションのLLMベースのセマンティック評価という2段階のプロセスで分析します。16カテゴリにわたる64の脆弱性パターンをスキャンし、リアルタイムのCVE検索のためにOSV.devと統合し、SARIFやJSONを含む複数の形式で詳細なリスクレポートを出力します。

  • SkillSpectorは、Apache License 2.0の下でリリースされたオープンソースのセキュリティスキャナーです。
  • プロンプトインジェクションやデータ流出を含む16カテゴリにわたる64の脆弱性パターンをスキャンします。
  • 高速な静的解析とオプションのLLMベースのセマンティック評価を組み合わせた2段階の分析プロセスを使用します。
  • リアルタイムのCVE検索のためにOSV.devと統合されており、自動オフラインフォールバックも含まれています。
  • ターミナル、JSON、Markdown、SARIF形式で、重大度ラベル付きの0〜100のリスクスコアを出力します。

エージェントエコシステムを構築または利用する開発者は、サードパーティのエージェントスキルを自動的に監査し、プロンプトインジェクション、データ流出、権限昇格のリスクを特定できます。

SOURCES

9. 自律型セキュリティエージェントがFFmpegで21件のゼロデイ脆弱性を発見

Depthfirstの自律型セキュリティエージェントが、FFmpegソフトウェアライブラリで21件のゼロデイ脆弱性を発見しました。APIコストはわずか1,000ドルで、Anthropicが同様の分析にMythosモデルを使用した際のコストの10分の1でした。脆弱性のうち8件にはCVE識別子(CVE-2026-39210からCVE-2026-39217)が割り当てられており、TSデマルチプレクサ、VP9デコーダー、複数のRTPデパケタイザーなどの重要なコンポーネントに影響を与えています。Depthfirstはまた、認証不要のRTSP PLAYフェーズ中にMPEG-4 RTPデパケタイザーを標的とするリモートコード実行エクスプロイトの概念実証を作成しており、FFmpegを使用する開発者がメディアパイプラインを監査しパッチを適用する必要性が急務であることを強調しています。

  • Depthfirstの自律型セキュリティエージェントが、FFmpegソフトウェアライブラリで21件のゼロデイ脆弱性を特定しました。
  • 分析コストは約1,000ドルで、AnthropicがMythosを使用して同様の分析を行ったコストの10%でした。
  • 8件の脆弱性にCVE識別子(CVE-2026-39210からCVE-2026-39217)が割り当てられました。
  • 脆弱性はTSデマルチプレクサ、VP9デコーダー、複数のRTPデパケタイザーなどのコンポーネントに影響を与えています。
  • Depthfirstは、認証不要のRTSP PLAYフェーズ中にトリガーされるリモートコード実行エクスプロイトの概念実証を開発しました。

オーディオ/ビデオ処理にFFmpegを使用する開発者は、これらの脆弱性にリモートコード実行エクスプロイトが含まれているため、システムにパッチを適用する必要があります。

SOURCES

10. Architect-LoopがClaude Fableのトークンコストを80%削減

オープンソースの`architect-loop`プロジェクトは、Claude Fableのトークン消費量を80%削減するマルチエージェントオーケストレーションパターンを導入しました。このシステムは、Claude Fableを「アーキテクト」として指定してタスクの設計、受け入れゲートの作成、コードレビューを行い、実際の構築と調査の実行をGPT-5.5 Codexに委任します。ビルダーは宣言されたファイルに制限された分離されたgitワークツリーで動作し、ループ全体がClaude CodeとCodex CLIの既存の定額サブスクリプションで実行されるため、追加のAPIキーやトークン請求は不要です。

  • architect-loopプロジェクトは、Claude Fableをアーキテクトとして、GPT-5.5 Codexをビルダーとして使用してタスクを実行します。
  • このシステムは、ビルダーを分離されたgitワークツリーに制限することで、Fableのトークン使用量を80%削減します。
  • Claude CodeとCodex CLIの既存の定額サブスクリプションで実行され、追加のAPIキーは不要です。
  • ビルドループ(/architect)では、Fableがスライスを仕様化し、レーンに分割し、ビルダーが実行する前に受け入れゲートをコミットします。
  • システムは、git履歴と特定のドキュメントファイルを主要なメモリとして使用します。

開発者は、アーキテクチャとレビューにのみ上位モデルを使用し、実行を安価なモデルに委任することで、API請求額を劇的に下げることができます。

SOURCES

11. オープンソースCLIツール「erm」が音声の言い淀みを自動削除

英語の音声録音から「um」、「uh」、「er」などの言い淀みを自動的に削除する新しいオープンソースのコマンドラインツール「erm」がGitHubで公開されました。OpenAIのWhisperモデルのfaster-whisper実装をベースに構築されたこのツールは、4パスの検出パイプラインを実行してフィラーを特定します。これには、無音の隙間に隠れているものや、隣接する単語と結合しているものも含まれます。音声アーティファクトを防ぐため、`erm`はカットポイントを静かな場所にスライドさせ、ゼロクロスポイントにスナップさせ、ffmpeg経由で動的なクロスフェードを適用し、録音の元のルームトーンのサンプルをループさせて一貫した背景ノイズを維持します。

  • ermは、英語の音声から「um」、「uh」、「er」などの言い淀みを自動的に削除するコマンドラインツールです。
  • このツールは、文字起こしとトークン識別のためにOpenAIのWhisperモデルのfaster-whisper実装を利用しています。
  • 無音の隙間や隣接する単語に付着したフィラーを含め、フィラーを検出するために4つの異なるパスを実行します。
  • スプライシングは、音声のクリック音を防ぐために、動的にスケーリングされたクロスフェードとゼロクロスアライメントを備えたffmpeg経由で処理されます。
  • ツールはpipまたはuvx経由でインストール可能で、ホストシステムにffmpegとffprobeが必要です。

音声、スピーチ、ポッドキャスト機能を構築する開発者は、このツールを統合して音声録音をプログラムでクリーンアップし、フィラーワードを削除できます。

SOURCES

12. EAGLE3推論加速モデルがllama.cppにマージ

6ヶ月の開発期間を経て、EAGLE3モデルがメインの`llama.cpp`リポジトリにマージされました。EAGLE3は、ローカル推論速度を加速するために設計されたヘルパーモデルとして機能します。独立して動作するMulti-Token Prediction (MTP) アーキテクチャとは異なり、EAGLE3はメインモデルからのアクティブなガイダンスを利用して推論加速を実行し、ローカルパフォーマンス最適化のための高度に統合されたパスを提供します。

  • EAGLE3モデルは、6ヶ月の開発期間を経てメインのllama.cppリポジトリにマージされました。
  • EAGLE3は、推論中にメインモデルからガイダンスを受け取るヘルパーモデルとして機能します。
  • Multi-Token Prediction (MTP) とは異なり、EAGLE3は独立して動作するのではなく、メインモデルからのアクティブなガイダンスを利用します。

ローカルLLMを実行する開発者は、llama.cpp内でEAGLE3を活用して、ローカル推論速度を大幅に加速できます。

SOURCES

13. PixelRAGがテキスト解析をスクリーンショットベースのインデックス作成に置き換え

カリフォルニア大学バークレー校、プリンストン大学、EPFL、Databricksの研究者は、従来のテキスト解析をスクリーンショットベースのインデックス作成とビジョン言語モデルによる読み取りに置き換える新しいRAGパイプライン「PixelRAG」を導入しました。Webページをスクリーンショットとしてレンダリングすることで、PixelRAGはHTMLからテキストへの変換中に通常失われる視覚的レイアウト、表、タイポグラフィを保持します。Playwright、Qwen3-VL-Embedding-2B、FAISSを使用して構築されたこのシステムは、6つのベンチマーク全体で最大18.1%高い精度を達成し、テキストベースの代替手段と比較してエージェントのトークンコストを10倍削減します。

  • PixelRAGはWebページをスクリーンショットとしてレンダリングし、レイアウト、タイポグラフィ、表を保持します。
  • このシステムは6つのベンチマーク全体でテキストベースのRAGを上回り、最大18.1%高い精度を達成しました。
  • レンダリングにはPlaywright、ベクトルエンコーディングにはQwen3-VL-Embedding-2B、検索にはFAISSインデックスを使用します。
  • PixelRAGは、テキストベースの検索システムと比較して、エージェントのトークン使用量を10倍削減します。
  • LoRAを使用した検索モデルのトレーニングは、単一のH100 GPUで3時間以内に完了します。

開発者は、RAGパイプラインにおける脆弱なHTMLからテキストへの解析を回避し、エージェントのトークンコストを10倍削減しながら検索精度を向上させることができます。

SOURCES

14. スマートPDFが機械抽出用に構造化Markdownを埋め込み

新しい「スマートPDF」手法は、PDF 1.4にまで遡る標準的なPDF仕様プロパティを活用して、構造化Markdownをドキュメントに直接埋め込みます。標準的なPDFレンダラーはこのメタデータを無視して人間に視覚的レイアウトを表示しますが、PyMuPDFやPopplerなどのテキスト抽出ツールは視覚的なグリフ座標の代わりに置換テキストプロパティを読み取ります。これにより、ChatGPTやClaudeなどのLLMは、脆弱な解析パイプラインを回避し、ファイルサイズの増加をわずか数パーセントに抑えながら、高い情報密度でクリーンなMarkdownを即座に抽出できます。

  • この手法は、マークされたコンテンツの置換テキストを定義するために、標準的なPDF仕様プロパティ(バージョン1.4以降で利用可能)を利用します。
  • PDFレンダラーは人間に視覚的レイアウトを表示し、テキスト抽出ツールは埋め込まれたMarkdownを返します。
  • PyMuPDFやPopplerなどの主要なオープンソース抽出ツールは、置換テキストプロパティを尊重します。
  • ChatGPTとClaudeは、これらのファイルを処理する際に埋め込まれたMarkdownを正常に抽出して返します。
  • これらの「スマートPDF」を作成するためのサイズオーバーヘッドは、数パーセントの範囲内です。

開発者は、LLMや抽出ツールに対してクリーンなMarkdownをネイティブに公開するドキュメントを生成することで、複雑なPDF解析パイプラインを排除できます。

SOURCES

15. Googleの研究者がLLMの信頼性を調整する「Faithful Uncertainty」を導入

Googleの研究者は、LLMの言語的な疑念の表現を内部の統計的な信頼度と一致させるために設計されたメタ認知手法「Faithful Uncertainty」を導入しました。このアプローチは、厳格なゼロハルシネーション基準の「ユーティリティ税」に対処するものです。この基準は、エラー率を下げるためだけに正解の最大52%を破棄することをモデルに強制することがよくあります。モデルがバイナリの回答か棄権かという選択肢にデフォルト設定するのではなく、ヘッジされた仮説を表現できるようにすることで、Faithful Uncertaintyはエージェントアプリケーションの動的な制御レイヤーとして機能し、内部の信頼度に基づいて外部ツールや検索APIをトリガーするタイミングを正確に判断するのに役立ちます。

  • Faithful Uncertaintyは、LLMの言語的な疑念の表現を内部の統計的な信頼度と一致させます。
  • この手法により、モデルは役に立たない回答か棄権かという二者択一にデフォルト設定するのではなく、ヘッジされた仮説を提供できます。
  • データによると、厳格なゼロハルシネーション基準を強制してエラー率を25%から5%の目標に下げると、正解の52%が破棄されることが示されています。
  • エージェントアプリケーションでは、外部ツールや検索APIをトリガーするタイミングを決定するための制御レイヤーとして機能します。
  • 教師ありファインチューニングによるこの手法の実装は、不確実性の正解データが動的であるため、ブートストラップのパラドックスに直面します。

開発者は、内部の信頼度に基づいて外部ツールや検索APIをトリガーするタイミングを動的に判断し、サイレントハルシネーションを低減する、より信頼性の高いエージェントを構築できます。

SOURCES

16. QwenおよびGemmaモデル向けのテスト時計算スキャフォールドをスケーリング

Qwen-3.6-27BおよびGemma-4-31Bのテスト時計算をスケーリングし、コード最適化タスクでClaude Mythosを上回ることを可能にする新しいオープンソースのスキャフォールドがリリースされました。このシステムは、ブランチ探索幅5、反復修正ループ深さ10、2反復ごとに修正される6つのブランチ認識選択仮説を採用することで、ベースラインモデルの25〜40倍の計算量を使用します。モデルが局所最適解に陥るのを防ぐため、スキャフォールドは修正ループに構造化ノイズを注入し、エージェントに作業をプログラムで検証するためのローカルPython環境を提供します。

  • このスキャフォールドは、複雑な最適化問題を解決するために、ベースラインモデルの25〜40倍の計算量を使用します。
  • ブランチ探索幅5、反復修正ループ深さ10、6つのブランチ認識仮説を備えています。
  • ソリューションプールは、モデルが局所最適解に陥るのを防ぐために、反復修正ループに構造化ノイズを追加します。
  • エージェントには、コードの改善をプログラムで検証するためのPython環境へのアクセス権が与えられます。
  • プロジェクトはGitHub(github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements)でホストされています。

開発者は、この反復的な洗練スキャフォールドを使用して、オープンウェイトモデルのコーディングパフォーマンスを大幅に向上させることができます。

SOURCES

17. Artificial AnalysisがDeepSWEベンチマークでコーディングエージェントインデックスを更新

Artificial Analysisはコーディングエージェントインデックスを更新し、SWE-Bench ProベンチマークをDatacurveのDeepSWEベンチマークに置き換えました。DeepSWEは、以前のベンチマークがリポジトリのコミット履歴を通じてゲーム可能であったという懸念に対処するため、評価タスクを完全にゼロから生成します。新しいより厳格な評価の下で、Claude Code with Fable 5 (max) がスコア77でトップに立ち、続いてCodex with GPT-5.5 (xhigh) が76、Claude Code with Opus 4.8 (max) が73となりました。

  • Artificial Analysisは、コーディングエージェントインデックスにおいてSWE-Bench ProをDatacurveのDeepSWEベンチマークに置き換えました。
  • DeepSWEは、モデルがトレーニングデータ内の解決策にアクセスするのを防ぐために、タスクをゼロから生成します。
  • Claude Code with Fable 5 (max) がスコア77で更新されたインデックスのトップにデビューしました。
  • Codex with GPT-5.5 (xhigh) は76に上昇し、Claude Code with Opus 4.8 (max) は73を記録しました。
  • DeepSWEは非常に難易度が高く、主要なオープンウェイトモデルのスコアは20未満です。

開発者は、モデルがコミット履歴を通じて評価をゲームするのを防ぐために、タスクをゼロから生成するベンチマークを使用してコーディングエージェントをより適切に評価できます。

SOURCES

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。