Audesso | Daily: AI

Sakana AI、タンデム型音声対話アーキテクチャ「KAME」を発表

00:00 / --:--

← ホームへ戻る

Sakana AI、タンデム型音声対話アーキテクチャ「KAME」を発表

1. Sakana AI、タンデム型音声対話アーキテクチャ「KAME」を発表

Sakana AIが、リアルタイムのLLM知識を対話型AIに組み込むタンデム型音声対話(S2S)アーキテクチャ「KAME」を発表しました。このシステムは、即応性に優れた低遅延のS2Sモデルと、高度な知識を提供する非同期のバックエンドLLMを組み合わせています。これにより、エージェントが「考えながら話す」ことが可能になり、遅延を増大させることなく、高速な応答と深い知識を両立させています。

2. Claude CodeでDeepSeekを利用可能にするプロキシ「DeepClaude」が公開

Anthropicの「Claude Code」CLIにDeepSeek V4 Proを統合できるオープンソースのプロキシ「DeepClaude」が公開されました。このツールは、ターミナルのUIやファイル編集、bash実行、自律的なマルチステップのコーディングループといった機能を維持したまま、基盤となるモデルを入れ替えることができます。APIコールをDeepSeekやOpenRouterにルーティングすることで、エージェントの実行コストを大幅に抑えることが可能です。

3. Flue、自律型AIエージェント構築のためのTypeScriptフレームワークをリリース

Flueが、自律型AIエージェント構築のための新しいTypeScriptフレームワークをリリースしました。このフレームワークは、エージェントの制御部と、安全に隔離されたコンテナワークスペースを組み合わせたサンドボックス・アーキテクチャを採用しています。これにより、エージェントによるファイルの編集、コード実行、サブエージェントの生成、ターミナルコマンドの実行を安全に行うことができます。CLIやHTTP経由でデプロイでき、独自のワークフローを構築可能です。

4. オープンソースのデザインワークフロー「Open Design」が登場

Nexuが、Anthropicの「Claude Design」に代わるローカルファーストのオープンソースツール「Open Design」をリリースしました。このツールは、Claude CodeやCursor Agentなどの既存のローカルコーディングエージェントを、スキルベースのデザインワークフローに組み込みます。デーモンがテンプレートやライブラリを含む実際のプロジェクトフォルダをローカルに作成し、サンドボックス化されたiframeでレンダリングする前に自動チェックや自己批判を行います。Vercelへのデプロイも可能で、各レイヤーで独自のAPIキーを使用できます。

5. OSのアクセシビリティAPIを活用したデスクトップ自動化CLI「Agent-desktop」

AIエージェント向けのネイティブ・デスクトップ自動化CLI「Agent-desktop」が公開されました。このツールは、トークン消費が激しく不安定なスクリーンショットの解析に頼るのではなく、macOS AccessibilityやWindows UI AutomationといったOS標準のアクセシビリティAPIを利用します。これにより、WebにおけるPlaywrightのように、エージェントが構造化されたUI情報を直接取得できるようになり、より信頼性が高く効率的なデスクトップ操作が可能になります。

6. Appleの3D生成モデル「SHARP」がブラウザに移植、WebGPUで高速動作

Appleの単一画像3Dガウススプラッティング(3D Gaussian Splatting)モデル「SHARP」をブラウザ上で動作させるプロジェクトが公開されました。モデルをONNX形式に変換し、onnxruntime-webとWebGPUを使用してクライアントサイドのみで実行します。ユーザーは画像をドロップするだけで、サーバーにデータを送信することなく、ローカルで.plyファイルを生成・ダウンロードできます。初回起動時に大きなキャッシュの読み込みが必要ですが、最新のハードウェアであれば数秒で推論が完了します。

デイリーAIシグナルを受信箱へ

1日5分。無料、いつでも解除できます。