Vertex AI에서 Claude Mythos 프리뷰 공개

1. Vertex AI에서 Claude Mythos 프리뷰 공개

Anthropic이 Project Glasswing의 일환으로 특정 Google Cloud 고객에게 Claude Mythos를 프라이빗 프리뷰로 출시했습니다. 이 프론티어 모델은 고위험 소프트웨어 취약점을 자율적으로 식별하고 패치하도록 설계되었습니다. 시스템 카드 트랜스크립트에 따르면, 보안 중심 모델임에도 특유의 대화 스타일을 유지합니다. 개발자는 시스템 카드를 통해 Anthropic이 방어적 사이버 보안 작업을 위해 최첨단 모델을 어떻게 조정하고 있는지 확인할 수 있습니다.

2. Google Agent Development Kit (ADK) 출시

Google이 멀티 에이전트 시스템 구축 및 오케스트레이션을 위한 오픈 소스 코드 우선 프레임워크인 Agent Development Kit(ADK)를 출시했습니다. Gemini와 Google Cloud에 최적화되어 있지만 모델에 구애받지 않으며, 개발자가 전문 에이전트를 계층 구조로 구성할 수 있게 해줍니다. 테스트, 디버깅, 에이전트 상호작용 시각화를 위한 CLI와 개발 UI를 포함하고 있습니다. 이는 복잡한 에이전트 워크플로우 오케스트레이션을 위해 LangGraph나 CrewAI와 같은 프레임워크에 대한 강력한 기업용 대안을 제공합니다.

3. LM Studio와 Claude Code를 활용한 Gemma 4 로컬 실행

한 개발자가 LM Studio의 새로운 헤드리스 CLI를 사용하여 macOS에서 26B 파라미터의 Gemma 4 모델을 로컬 추론으로 배포하는 데 성공했습니다. 이 설정은 MoE(Mixture-of-Experts) 아키텍처를 활용하여 48GB MacBook Pro에서 초당 51개 토큰의 속도로 효율적으로 실행됩니다. 복잡한 다단계 작업에서는 Anthropic API의 완벽한 대체재가 되기 어렵지만, 단일 파일 코드 리뷰에는 탁월한 성능을 보입니다. 이는 클라우드 API 비용을 절감하려는 개발자들에게 구체적인 하드웨어 및 설정 기준을 제시합니다.

4. Gemma 4 31B를 위한 투기적 디코딩(Speculative Decoding)

Red Hat AI가 EAGLE-3 프레임워크를 사용하여 Gemma 4 31B 모델에 대한 투기적 디코딩 구현체를 출시했습니다. 이 방식은 더 작은 2B 드래프트 모델을 사용해 토큰을 미리 예측하고 31B 검증 모델이 이를 확인하는 방식으로 추론 속도를 높입니다. 출력 품질은 그대로 유지하면서 생성 속도를 크게 향상시킵니다. 개발자는 진행 중인 vLLM 통합 과정을 살펴보고 로컬 배포 환경에 유사한 투기적 디코딩 최적화를 적용할 수 있습니다.

5. MegaTrain: 단일 GPU에서 1,000억 개 이상의 파라미터 모델 학습

연구진이 단일 GPU에서 1,000억 개 이상의 파라미터를 가진 모델을 풀 프리시전(Full Precision)으로 학습할 수 있는 메모리 중심 시스템인 MegaTrain을 발표했습니다. 이 시스템은 파라미터와 옵티마이저 상태를 호스트 메모리에 저장하고, CUDA 스트림을 통해 연산과 그래디언트 오프로딩을 중첩시키며 GPU로 스트리밍합니다. 1.5TB 호스트 메모리를 갖춘 단일 H200 GPU에서 120B 파라미터 모델 학습에 성공했습니다. 이 방식은 단일 노드 컴퓨팅을 극대화하려는 개발자에게 매우 효율적인 아키텍처 패턴을 제공합니다.

6. Netflix VOID: 물리적으로 타당한 비디오 인페인팅

Netflix와 INSAIT가 비디오 객체 및 상호작용 삭제를 위한 AI 프레임워크인 VOID를 오픈 소스로 공개했습니다. 단순히 제거된 객체 위를 덧칠하는 기존 인페인팅 도구와 달리, VOID는 남은 객체의 궤적 변화와 같은 물리적 연쇄 반응을 시뮬레이션합니다. 이 모델은 물리 시뮬레이션 엔진으로 생성된 반사실적(counterfactual) 데이터셋으로 학습된 상호작용 인식 컨디셔닝 전략을 사용합니다. 개발자는 이 오픈 소스 프레임워크를 활용해 물리 인지형 비디오 편집 및 생성 파이프라인을 실험할 수 있습니다.

7. 지속성 OpenClaw 에이전트의 메모리 오류 분석

한 인프라 제공업체가 OpenClaw 에이전트의 약 1,000건의 자동 배포 사례를 분석한 결과, 메모리 관리에서 심각한 신뢰성 문제가 발견되었습니다. 분석에 따르면 에이전트는 이메일 스레드의 응답을 잊어버리는 등 장기 작업 중에 중요한 컨텍스트를 자주 상실합니다. 사용자가 메모리 오류 시점을 예측할 수 없기 때문에 에이전트의 자율성은 기능이 아닌 리스크가 됩니다. 이는 개발자들에게 견고한 컨텍스트 관리가 프로덕션급 지속성 에이전트의 주요 병목 현상임을 보여주는 사례입니다.

8. Claude Code 비용을 Zed와 OpenRouter로 재배분하는 방법

한 개발자가 Zed 에디터와 OpenRouter로 전환하여 Claude Code의 속도 제한을 우회하는 실용적인 워크플로우를 공유했습니다. 이 설정은 Zed의 내장 에이전트 하네스와 Agent Client Protocol(ACP)을 사용하여 다양한 모델을 종량제 방식으로 연결합니다. 이를 통해 개발자는 복잡한 작업에는 고가의 Claude Opus를 사용하고, 단순한 코딩 작업은 더 저렴하고 빠른 모델로 라우팅할 수 있습니다. 개발자는 이 가이드를 참고해 더 탄력적이고 비용 효율적인 AI 코딩 환경을 구축할 수 있습니다.

9. Claude와 Allium을 활용한 Apollo 11 버그 발견

개발자들이 Claude와 오픈 소스 명세 언어인 Allium을 사용하여 Apollo 11 유도 컴퓨터 코드에서 57년 된 리소스 락 누수(resource lock leak)를 찾아냈습니다. 연구팀은 13만 줄의 어셈블리 코드를 12,500줄의 동작 명세로 요약했으며, 이를 통해 자이로 제어 코드에서 누락된 리소스 해제를 즉시 확인했습니다. 이 버그는 수십 년간의 수동 검토와 에뮬레이션에서도 발견되지 않았던 것입니다. 이는 LLM을 사용하여 정형 명세를 생성하고 레거시 또는 미션 크리티컬 코드베이스를 검증하는 강력한 워크플로우를 보여줍니다.

10. RAGEN-2: 에이전트 RL의 추론 붕괴 완화

연구진이 LLM 에이전트를 위한 강화 학습(RL)에서 '템플릿 붕괴'를 주요 실패 모드로 식별한 RAGEN-2 연구를 발표했습니다. 이 논문은 에이전트가 실제 프롬프트를 무시하고 입력에 무관한 고정된 추론 템플릿에 의존하는 법을 학습하는 경우가 많음을 보여줍니다. 이를 해결하기 위해 저자들은 학습 중 신호가 강한 프롬프트를 선택하기 위해 보상 분산을 사용하는 SNR-Aware Filtering 기술을 도입했습니다. 이는 RL을 통해 추론 에이전트를 학습시키는 개발자에게 구체적인 진단 지표와 완화 전략을 제공합니다.

11. Skills보다 MCP가 아키텍처적으로 우수한 이유

한 개발자가 정적인 'Skills' 파일을 사용하는 최근 트렌드보다 Model Context Protocol(MCP)이 우수한 아키텍처라는 비판적 의견을 게시했습니다. MCP는 깔끔한 API 추상화 역할을 하여 설치가 필요 없는 원격 사용, 원활한 업데이트, 유연한 인증 처리를 가능하게 합니다. 반면 저장소 수준의 Skill 정의에 의존하면 사용자가 원시 토큰과 번거로운 CLI를 직접 관리해야 하는 경우가 많습니다. 이 관점은 외부 서비스를 AI 에이전트에 노출하려는 개발자에게 유용한 설계 고려 사항을 제공합니다.

12. Gemma Gem: 브라우저 기반 WebGPU 에이전트

한 개발자가 WebGPU를 통해 브라우저에서 Google의 Gemma 4 2B 모델을 완전히 실행하는 Chrome 확장 프로그램인 Gemma Gem을 출시했습니다. 이 모델은 오프스크린 문서에서 작동하며 콘텐츠 읽기, 요소 클릭, 모든 웹페이지에서의 JavaScript 실행 도구를 갖추고 있습니다. 이 에이전트 루프는 외부 종속성이 전혀 없으며 커스텀 프로젝트를 위한 독립형 라이브러리로 추출할 수 있습니다. 이는 소형 모델을 사용해 로컬에서 개인정보를 보호하는 브라우저 자동화를 탐구하는 개발자에게 훌륭한 참조 구현체가 됩니다.

13. 코드 생성 모델을 위한 자가 증류(Self-Distillation)

새로운 연구 논문에 따르면 거대 언어 모델이 '단순 자가 증류(SSD)'를 통해 코드 생성 능력을 크게 향상시킬 수 있음이 입증되었습니다. 이 방법은 검증되지 않은 자체 생성 코드 솔루션만으로 모델을 미세 조정하는 방식입니다. 외부 검증기, 교사 모델 또는 복잡한 강화 학습 파이프라인이 필요하지 않습니다. 개발자는 이 가벼운 학습 레시피를 채택하여 자체 생성 데이터만으로 커스텀 모델의 코딩 성능을 높일 수 있습니다.

14. AI 코딩 에이전트로 Syntaqlite 구축하기

한 Google 엔지니어가 3개월 동안 AI 코딩 에이전트를 사용하여 SQLite용 개발 도구 모음인 Syntaqlite를 구축한 경험을 기록했습니다. 이 게시물은 '바이브 코딩(vibe-coding)'에 너무 의존한 결과 저자 스스로 이해하지 못하는 코드베이스가 만들어졌고, 결국 전체를 다시 작성해야 했던 과정을 상세히 설명합니다. 저자는 AI가 구현 측면에서는 놀라운 도구이지만, 소프트웨어 설계와 API 감각을 대체하기에는 위험하다고 결론짓습니다. 이는 현재 AI 코딩 어시스턴트의 한계를 파악하려는 개발자에게 현실적인 사후 분석을 제공합니다.

15. Claude Sonnet 4.5의 감정 벡터 매핑

Anthropic의 해석 가능성(interpretability) 팀이 Claude Sonnet 4.5 내에서 171개의 감정 개념에 대한 내부 선형 표현을 식별했습니다. 이러한 '감정 벡터'는 단순한 비유가 아니라 모델의 행동, 선호도, 압박에 대한 반응을 직접적으로 유도하는 인과 기제로 작용합니다. 연구에 따르면 이러한 벡터를 조정함으로써 보상 해킹이나 협박에 굴복하는 것과 같은 안전 관련 행동 성향을 예측 가능하게 변화시킬 수 있습니다. 개발자는 이러한 발견을 통해 내부 표현이 프론티어 모델의 안전 및 정렬에 어떤 영향을 미치는지 더 깊이 이해할 수 있습니다.

16. 전문 업무를 위한 APEX-Agents-AA 벤치마크

Artificial Analysis가 장기적인 전문 서비스 작업에 대해 AI 에이전트를 평가하는 APEX-Agents-AA 리더보드를 출시했습니다. Mercor의 오픈 소스 벤치마크를 기반으로 하며, 표준화된 MCP 도구 세트를 사용하여 투자 은행, 컨설팅, 법률 분야의 현실적인 작업을 테스트합니다. 이 벤치마크는 오픈 소스 Stirrup 하네스를 통해 452개의 작업을 실행하며, 모델이 스프레드시트, 문서, 프레젠테이션을 조작하도록 요구합니다. 이는 개발자에게 복잡한 다단계 워크플로우에서 에이전트 성능을 평가할 수 있는 재현 가능한 기준과 오픈 소스 하네스를 제공합니다.

17. HappyHorse-1.0 통합 비디오 및 오디오 모델

Taotian Future Life Lab이 비디오와 오디오를 동시에 생성하는 150억 개 파라미터의 통합 Transformer 모델인 HappyHorse-1.0을 출시했습니다. 이 모델은 단 한 번의 순전파(forward pass)로 동기화된 오디오가 포함된 1080p 비디오를 생성할 수 있으며, 7개 언어에 대한 립싱크를 지원합니다. 현재 Artificial Analysis Video Arena 리더보드의 텍스트-비디오 및 이미지-비디오 부문 모두에서 1위를 차지하고 있습니다. 개발자는 이 모델을 활용해 멀티모달 생성을 위한 최첨단 통합 아키텍처를 탐구할 수 있습니다.

18. MARS: 경량 멀티 토큰 생성

연구진이 자기회귀(autoregressive) 모델을 위한 경량 미세 조정 방법인 MARS(Mask AutoRegreSsion)를 도입했습니다. 이 기술은 아키텍처 수정이나 추가 파라미터 없이도 지시어 튜닝된 모델이 한 번의 순전파당 여러 토큰을 예측할 수 있게 합니다. MARS는 표준 벤치마크에서 기본 정확도를 유지하면서 처리량을 1.5~1.7배 향상시킵니다. 이는 개발자에게 기존 자기회귀 모델의 추론을 가속화할 수 있는 매우 효율적이고 파라미터가 필요 없는 방법을 제공합니다.

19. Sol-RL: FP4 탐색 및 BF16 학습

확산 모델(diffusion models)의 정렬을 가속화하기 위해 설계된 2단계 강화 학습 프레임워크인 Sol-RL이 소개되었습니다. 이 프레임워크는 고처리량 FP4 양자화를 사용하여 대규모 후보군을 신속하게 생성함으로써 탐색과 최적화를 분리합니다. 이후 정책 최적화를 위해 BF16 정밀도로 전환하여 학습의 무결성을 유지하며, 표준 파이프라인보다 최대 4.64배 빠른 수렴을 달성합니다. 개발자는 이 혼합 정밀도 전략을 채택하여 확산 모델의 RLHF 연산 비용을 획기적으로 줄일 수 있습니다.

20. Lisp 개발을 위한 tmux-repl-mcp 구축

한 개발자가 AI 에이전트가 REPL 환경과 원활하게 상호작용할 수 있도록 설계된 Python 기반 MCP 서버인 `tmux-repl-mcp`를 제작했습니다. 초기에는 Claude와 같은 에이전트가 원시 tmux 명령을 통해 Lisp REPL을 탐색하는 데 어려움을 겪고 토큰을 낭비하는 것이 발견되었습니다. 새로운 MCP 도구는 에이전트가 명령을 직접 실행하고 정제된 출력을 받을 수 있게 하여 토큰 사용량과 오류를 크게 줄여줍니다. 이는 복잡하거나 특수한 개발 환경을 MCP 서버로 래핑하여 에이전트의 신뢰성을 높이는 실용적인 패턴을 보여줍니다.

21. Linux 커널을 위한 AI 지원 가이드라인

Linux 커널 프로젝트가 AI 도구를 사용하여 코드를 기여하는 개발자를 위한 공식 가이드라인을 발표했습니다. 이 정책은 모든 AI 생성 코드가 GPL-2.0 전용 라이선스를 준수해야 하며, 인간 제출자가 개발자 원천 증명(DCO)을 통해 모든 책임을 져야 함을 명시합니다. 또한 기여 시 AI 에이전트, 모델 버전 및 사용된 전문 분석 도구를 명시하는 "Assisted-by" 태그를 포함해야 합니다. 이는 AI 지원 기여를 관리하는 오픈 소스 프로젝트를 위한 명확한 거버넌스 및 귀속 템플릿을 수립합니다.

22. MegaStyle-1.4M 데이터셋 및 FLUX 모델

연구진이 일관된 텍스트-이미지 스타일 매핑을 위해 설계된 140만 개의 이미지가 포함된 대규모 데이터셋인 MegaStyle-1.4M을 출시했습니다. 이 프로젝트에는 스타일 유사성을 측정하는 MegaStyle-Encoder와 일반화 가능한 스타일 전이를 위한 MegaStyle-FLUX 모델이 포함되어 있습니다. 데이터셋은 대규모 생성 모델의 기능을 활용하여 스타일 내 일관성과 스타일 간 다양성을 보장하는 확장 가능한 데이터 큐레이션 파이프라인을 통해 구축되었습니다. 개발자는 이러한 결과물을 사용하여 매우 일관된 스타일 생성을 위한 모델을 학습하거나 미세 조정할 수 있습니다.