1. Anthropic, 미국 수출 통제 명령에 따라 Claude Fable 5 및 Mythos 5 전 세계 서비스 중단
미국 정부의 긴급 수출 통제 지침에 따라 Anthropic은 Claude Fable 5와 Claude Mythos 5 모델을 전 세계적으로 오프라인 전환했습니다. 미국 시민에게만 접근을 제한하는 이 지침은 사이버 보안 우려와 안전 가드레일을 우회하는 탈옥(jailbreak) 사례 보고로 인해 발동되었습니다. 해당 제한으로 인해 Anthropic의 자체 해외 연구원을 포함한 외국인의 시스템 접근이 차단됨에 따라, 회사는 모든 고객을 대상으로 모델 서비스를 완전히 중단했습니다. Anthropic은 OpenAI의 GPT-5.5와 같은 다른 최첨단 모델에서도 유사한 기능이 존재한다고 주장하며 탈옥의 심각성에 대해 이의를 제기하고 있으며, 행정부와 함께 문제를 해결하기 위해 노력 중입니다.
- • 미국 상무부는 모든 외국인의 Claude Fable 5 및 Mythos 5 접근을 제한하는 수출 통제 지침을 발표했습니다.
- • Anthropic은 즉각적인 규정 준수를 위해 기업 고객 및 내부 직원을 포함한 모든 사용자의 모델 접근을 전 세계적으로 차단했습니다.
- • 이번 지침은 Fable 5와 Mythos 5가 공개 출시된 지 불과 3일 만에 내려졌습니다.
- • 정부의 조치는 사이버 보안, 화학, 생물학 관련 프롬프트의 안전 가드레일을 우회하는 탈옥 방식이 보고되면서 촉발된 것으로 알려졌습니다.
- • 현재 해당 모델의 활성 세션은 오류를 반환하며, API 요청은 Opus 4.8과 같은 이전 모델로 자동 라우팅되고 있습니다.
Claude Fable 5 또는 Mythos 5를 사용 중이거나 통합할 계획이었던 개발자들은 전 세계적인 서비스 중단으로 인해 즉시 다른 모델로 마이그레이션해야 합니다.
2. 1M 컨텍스트 윈도우를 갖춘 GLM 5.2 출시 및 MIT 라이선스 기반 오픈 웨이트 공개 예정
Zhipu AI는 100만 토큰 컨텍스트 윈도우와 복잡한 코딩 작업을 위해 설계된 특수 사고 모드를 갖춘 새로운 모델 GLM 5.2를 발표했습니다. 이 모델은 현재 API를 통해 사용할 수 있으며, 다음 주에는 허용적인 MIT 라이선스 하에 오픈 웨이트 버전이 출시될 예정입니다. 초기 개발자 벤치마크 결과, 단일 샷 테스트에서 거의 완벽하게 작동하는 팩맨(Pac-Man) 클론을 생성하는 등 강력한 성능을 보여주었습니다. GLM 5.1보다 초당 70토큰으로 다소 느리게 작동하지만, 고급 추론 능력과 오픈 소스 라이선스 덕분에 로컬 배포를 위한 강력한 후보로 꼽힙니다.
- • GLM 5.2는 100만 토큰 컨텍스트 윈도우를 특징으로 하며 현재 GLM 코딩 플랜에 배포되어 있습니다.
- • 다음 주 MIT 라이선스 하에 오픈 웨이트 모델로 출시될 예정입니다.
- • 'max'와 'high'라는 두 가지 사고 모드를 도입했으며, 복잡한 코딩 작업에는 'max' 모드를 권장합니다.
- • 초기 개발자 테스트에서 GLM 5.2는 단 한 번의 시도로 거의 완벽한 팩맨 클론을 생성했습니다.
- • 초당 약 70토큰의 속도로 작동하며, 이전 모델인 GLM 5.1보다 약간 느립니다.
개발자들은 MIT 라이선스 하에 자체 호스팅이 가능하며 100만 컨텍스트 윈도우와 강력한 코딩 능력을 갖춘 새로운 오픈 웨이트 모델을 사용할 수 있게 되었습니다.
3. 730만 달러 시드 투자 유치 후 오픈 소스 LLMOps 플랫폼 TensorZero 갑작스러운 아카이브 전환
Rust로 구축된 오픈 소스 자체 호스팅 LLMOps 게이트웨이인 TensorZero가 하룻밤 사이에 GitHub 저장소를 아카이브했습니다. 이번 조치는 회사가 730만 달러 규모의 시드 투자 유치를 발표한 직후 이루어졌습니다. TensorZero는 게이트웨이 라우팅, 관측 가능성, 프롬프트 최적화에 널리 사용되며 주요 API 제공업체를 지원하고 전 세계 LLM API 지출의 약 1%를 차지합니다. 회사는 TensorZero Autopilot이라는 유료 보완 제품을 제공하고 있지만, 핵심 오픈 소스 저장소가 갑자기 아카이브되면서 자체 호스팅 배포 환경은 활성화된 업스트림 오픈 소스 경로를 잃게 되었습니다.
- • TensorZero는 730만 달러의 시드 투자 발표 후 하룻밤 사이에 오픈 소스 저장소를 아카이브했습니다.
- • 이 플랫폼은 Rust로 구축된 자체 호스팅 LLMOps 게이트웨이로, 1ms 미만의 p99 지연 시간 오버헤드를 달성했습니다.
- • TensorZero는 OpenAI, Anthropic, AWS Bedrock, Google Vertex AI를 포함한 주요 LLM 제공업체를 지원합니다.
- • 이 플랫폼은 전 세계 LLM API 지출의 약 1%를 처리하는 것으로 알려져 있습니다.
- • 회사는 프롬프트와 모델을 최적화하는 유료 자동화 AI 엔지니어인 TensorZero Autopilot도 제공합니다.
LLMOps를 위해 오픈 소스 TensorZero 게이트웨이에 의존하던 개발자들은 시드 투자 유치 이후 저장소가 갑작스럽게 아카이브되었다는 점을 인지해야 합니다.
4. Claude Code의 오픈 소스 로컬 대안, Pi-Setup 공개
오픈 소스 프로젝트인 Pi-Setup이 Claude Code의 로컬 우선 대안으로 등장했습니다. Qwen 3.6 27B와 같은 로컬 모델을 실행하도록 설계된 이 터미널 인터페이스는 어드바이저 확장 기능(일반적으로 GPT-5.5로 구성)을 통합하며, 토큰 사용량, 비용, 추론 속도를 실시간으로 추적하는 사용자 정의 푸터를 제공합니다. 또한 컨텍스트 분석 명령, 구성 가능한 권한 시스템, 사용자 정의 스킬, 다중 환경 설정을 위한 동기화 스크립트 등의 기능을 갖추고 있습니다.
- • Pi-Setup은 Qwen 3.6 27B와 같은 로컬 모델을 실행하기 위해 설계된 오픈 소스 터미널 인터페이스입니다.
- • 실시간 토큰 사용량, 비용, 추론 속도를 표시하는 사용자 정의 푸터가 특징입니다.
- • 기본 claudecode 도구와 유사한 컨텍스트 분석 명령을 포함합니다.
- • 구성 가능한 권한 시스템, 사용자 정의 스킬 지원, 10가지 내장 테마를 제공합니다.
- • 여러 개발 환경에 걸쳐 배포를 용이하게 하는 동기화 및 백업 스크립트가 포함되어 있습니다.
Claude Code의 대안을 찾는 개발자들은 이 오픈 소스 터미널 설정을 사용하여 토큰 추적, 사용자 정의 확장, 권한 제어 기능을 갖춘 로컬 모델을 실행할 수 있습니다.
5. 듀얼 GPU 설정으로 추측 디코딩을 활용해 Qwen 3.6 27B에서 초당 80토큰 이상 달성
한 개발자가 Qwen 3.6 27B Q8 모델을 로컬에서 실행하여 초당 80~90토큰 이상의 속도를 달성하는 하드웨어 및 소프트웨어 구성을 상세히 공개했습니다. NVIDIA RTX 5080과 리퍼비시 RTX 3090을 Asus Prime X570-Pro 메인보드에 장착하여 PCIe 레인을 두 개의 8x 슬롯으로 분할했습니다. 이 구성은 Ampere 및 Blackwell 아키텍처를 모두 지원하도록 컴파일된 llama.cpp를 활용하며, 추측 디코딩(speculative decoding)을 사용하고 두 GPU에 워크로드를 분산시켜 로컬 추론 성능을 극대화합니다.
- • 하드웨어 구성은 NVIDIA RTX 5080과 리퍼비시 RTX 3090을 Asus Prime X570-Pro 메인보드에 결합했습니다.
- • Qwen 3.6 27B Q8 모델 실행 시 초당 80~90토큰 이상의 속도를 달성합니다.
- • Ampere 및 Blackwell 아키텍처를 모두 지원하도록 컴파일된 llama.cpp를 통해 추측 디코딩이 활성화됩니다.
- • BIOS 조정 시 CSM 비활성화, Above 4G Decoding 활성화, ReSize BAR 활성화, PCIe 링크 모드를 Gen 4로 설정해야 합니다.
- • llama-server 구성은 '-ts 2,3' 플래그를 사용하여 두 GPU에 워크로드를 분산합니다.
로컬 모델을 실행하는 개발자들은 혼합 세대 듀얼 GPU 설정을 구성하여 추측 디코딩을 통해 27B 모델에서 고속 추론을 달성할 수 있습니다.