1. Anthropic、米国の輸出管理令を受けClaude Fable 5とMythos 5を世界的に停止
米国政府からの緊急輸出管理指令を受け、AnthropicはClaude Fable 5およびClaude Mythos 5モデルを世界的にオフラインにしました。米国市民のみにアクセスを制限するこの指令は、サイバーセキュリティ上の懸念と、安全ガードレールを回避するジェイルブレイクの報告が引き金となりました。この制限により、Anthropic自身の海外研究者を含む外国籍のユーザーがシステムにアクセスできなくなったため、同社はすべての顧客に対してモデルを完全に無効化しました。Anthropicは、OpenAIのGPT-5.5など他のフロンティアモデルにも同様の機能が存在すると主張し、ジェイルブレイクの深刻さに異議を唱えており、政府と協力して問題の解決に取り組んでいます。
- • 米国商務省は、すべての外国籍者に対してClaude Fable 5およびMythos 5へのアクセスを制限する輸出管理指令を発行しました。
- • Anthropicは、即時のコンプライアンスを確保するため、エンタープライズ顧客や自社の内部スタッフを含む全ユーザーに対して、両モデルへの世界的なアクセスを無効化しました。
- • この指令は、Fable 5とMythos 5の一般公開からわずか3日後に発行されました。
- • 政府の措置は、サイバーセキュリティ、化学、生物学に関するプロンプトの安全ガードレールを回避するジェイルブレイク手法が報告されたことが引き金になったとされています。
- • 影響を受けるモデルのアクティブなセッションは現在エラーを返し、APIリクエストはOpus 4.8などの旧モデルへ自動的にルーティングされています。
Claude Fable 5またはMythos 5を利用中、あるいは導入を計画していた開発者は、世界的なアクセス停止に伴い、直ちに他のモデルへ移行する必要があります。
2. GLM 5.2がリリース、100万トークンのコンテキストウィンドウとMITライセンスでのオープンウェイト公開を予定
Zhipu AIは、100万トークンのコンテキストウィンドウと、複雑なコーディングタスク向けに設計された特殊な思考モードを備えた新モデル「GLM 5.2」を発表しました。このモデルは現在API経由で利用可能であり、来週には寛容なMITライセンスの下でオープンウェイト版がリリースされる予定です。初期の開発者ベンチマークでは強力なパフォーマンスを示しており、シングルショットのテストでほぼ機能するPac-Manのクローンを生成することに成功しました。GLM 5.1と比較して毎秒70トークンとわずかに速度は低下しますが、その高度な推論能力とオープンソースライセンスにより、ローカルデプロイメントの有力な候補となります。
- • GLM 5.2は100万トークンのコンテキストウィンドウを備え、現在GLM Coding Planに導入されています。
- • このモデルは来週、寛容なMITライセンスの下でオープンウェイトモデルとしてリリースされる予定です。
- • 「max」と「high」の2つの思考モードが導入され、複雑なコーディングタスクには「max」が推奨されています。
- • 初期の開発者テストにおいて、GLM 5.2はシングルショットでほぼ機能するPac-Manのクローンを生成することに成功しました。
- • このモデルの動作速度は毎秒約70トークンであり、前モデルのGLM 5.1よりもわずかに低速です。
開発者は、100万トークンのコンテキストウィンドウと強力なコーディング能力を持ち、MITライセンスの下でセルフホスト可能な新しいオープンウェイトモデルを利用できるようになります。
3. オープンソースLLMOpsプラットフォーム「TensorZero」、730万ドルのシードラウンド調達直後にアーカイブ化
Rustで構築されたオープンソースのセルフホスト型LLMOpsゲートウェイ「TensorZero」が、GitHubリポジトリを突然アーカイブしました。この動きは、同社が730万ドルのシード資金調達を発表した直後に行われました。TensorZeroは、ゲートウェイルーティング、可観測性、プロンプト最適化に広く利用されており、主要なAPIプロバイダーをサポートし、世界のLLM API支出の約1%を占めていました。同社は「TensorZero Autopilot」という補完的な有料製品を提供していますが、コアとなるオープンソースリポジトリが突然アーカイブされたことで、セルフホスト環境のユーザーはアクティブなアップストリームのオープンソースパスを失うことになります。
- • TensorZeroは、730万ドルのシード資金調達発表後、一夜にしてオープンソースリポジトリをアーカイブしました。
- • このプラットフォームはRustで構築されたセルフホスト型LLMOpsゲートウェイであり、1ms未満のp99レイテンシオーバーヘッドを実現していました。
- • TensorZeroは、OpenAI、Anthropic、AWS Bedrock、Google Vertex AIを含む主要なLLMプロバイダーをサポートしています。
- • このプラットフォームは、世界のLLM API支出の約1%を処理していると報告されています。
- • 同社は、プロンプトとモデルを最適化する有料の自動AIエンジニア「TensorZero Autopilot」も提供しています。
LLMOpsのためにオープンソースのTensorZeroゲートウェイに依存している開発者は、シード資金調達後にリポジトリが突然アーカイブされたことに注意する必要があります。
4. 「Pi-Setup」、Claude Codeのオープンソースかつローカルな代替手段を提供
オープンソースプロジェクト「Pi-Setup」は、Claude Codeのローカルファーストで高度にカスタマイズ可能な代替手段として登場しました。Qwen 3.6 27Bのようなローカルモデルを実行するように設計されたこのターミナルインターフェースは、アドバイザー拡張機能(通常はGPT-5.5で構成)を統合し、トークン使用量、コスト、推論速度をリアルタイムで追跡するカスタムフッターを提供します。また、コンテキスト内訳コマンド、構成可能な権限システム、カスタムスキル、マルチ環境セットアップ用の同期スクリプトも備えています。
- • Pi-Setupは、Qwen 3.6 27Bのようなローカルモデルを実行するために設計されたオープンソースのターミナルインターフェースです。
- • このセットアップは、リアルタイムのトークン使用量、コスト、推論速度を表示するカスタムフッターを備えています。
- • ネイティブのclaudecodeツールと同様のコンテキスト内訳コマンドが含まれています。
- • システムは、構成可能な権限システム、カスタムスキルのサポート、10種類の組み込みテーマを提供します。
- • 複数の開発環境へのデプロイを容易にするための同期およびバックアップスクリプトが含まれています。
Claude Codeの代替手段を探している開発者は、このオープンソースのターミナルセットアップを使用して、トークン追跡、カスタム拡張機能、権限制御を備えたローカルモデルを実行できます。
5. デュアルGPU構成により、推論デコーディングを用いたQwen 3.6 27Bで毎秒80トークン以上を達成
ある開発者が、Qwen 3.6 27B Q8モデルをローカルで実行し、毎秒80〜90トークン以上を達成するハードウェアおよびソフトウェア構成を詳細に公開しました。NVIDIA RTX 5080と中古のRTX 3090をAsus Prime X570-Proマザーボード上で組み合わせ、PCIeレーンを2つの8xスロットに分割しています。この構成では、AmpereとBlackwellの両方のアーキテクチャをサポートするようにコンパイルされたllama.cppを利用し、推論デコーディング(Speculative Decoding)を活用して両方のGPUにワークロードを分散させることで、ローカル推論パフォーマンスを最大化しています。
- • ハードウェア構成は、NVIDIA RTX 5080と中古のRTX 3090をAsus Prime X570-Proマザーボード上で組み合わせています。
- • このセットアップは、Qwen 3.6 27B Q8モデルを実行して毎秒80〜90トークン以上を達成します。
- • AmpereとBlackwellの両方のアーキテクチャをサポートするようにコンパイルされたllama.cppにより、推論デコーディングが有効になっています。
- • BIOS調整には、CSMの無効化、Above 4G Decodingの有効化、ReSize BARの有効化、PCIeリンクモードのGen 4への設定が必要です。
- • llama-serverの構成では、「-ts 2,3」フラグを使用して2つのGPU間でワークロードを分散させています。
ローカルモデルを実行する開発者は、混合世代のデュアルGPU構成を構築することで、推論デコーディングを使用して27Bモデルで高速な推論を実現できます。