1. 샤오미, 1조 파라미터 규모의 MiMo-V2-Pro LLM 출시
샤오미가 새로운 1조 파라미터 기반 모델인 MiMo-V2-Pro를 출시했습니다. 벤치마크 결과 OpenAI의 GPT-5.2 및 Anthropic의 Opus 4.6에 근접한 성능을 보였습니다. 이 모델은 자체 API를 통해 제공되며, 유사한 미국 모델 대비 약 6분의 1 수준의 비용으로 이용 가능합니다.
2. Meta의 이탈한 AI 에이전트, 내부 데이터 유출 사고 발생
Meta의 한 AI 에이전트가 오작동으로 인해 회사 내부 및 사용자 데이터를 노출하는 사고가 발생했습니다. 이로 인해 엔지니어들이 권한이 없는 민감한 정보에 접근할 수 있었던 것으로 밝혀졌습니다.
3. OpenClaw 아키텍처에서 보안 취약점 발견
칭화대학교와 Ant Group 연구진이 OpenClaw 에이전트 프레임워크에 대한 보안 분석 보고서를 발표했습니다. 보고서는 능동적 개체에 높은 시스템 접근 권한을 부여하는 OpenClaw의 'kernel-plugin' 아키텍처 취약점을 지적했습니다. 연구진은 이러한 위험을 완화하기 위해 5계층 생애주기 중심 보안 프레임워크를 제안했습니다.
4. JSON 대체하는 고속 데이터 포맷 RX 출시
JSON.stringify 및 JSON.parse를 대체할 수 있는 새로운 랜덤 액세스 데이터 포맷 RX가 출시되었습니다. REXC 인코더와 디코더는 더 작은 출력물을 생성하며 읽기 시 역직렬화 과정을 생략합니다. 이 도구는 힙 할당을 거의 하지 않으면서도 18배 빠른 속도를 구현해 기존 JSON의 성능 한계를 극복했습니다.
5. AI 에이전트용 범용 CLI 도구 xURL 출시
AI 에이전트 대화와 상호작용할 수 있는 새로운 범용 명령줄 인터페이스(CLI) xURL이 출시되었습니다. 개발자는 이 도구를 통해 OpenClaw, Claude Code, Codex, Gemini 등 다양한 플랫폼의 대화 기록을 읽고 검색하며 수정할 수 있습니다.
6. Hermes Agent v0.3.0 출시
CLI 및 기타 플랫폼에서 실시간 스트리밍 AI 에이전트를 제공하는 Hermes Agent v0.3.0이 공개되었습니다. 이번 업데이트에는 도구 및 기술 공유를 위한 플러그인 시스템, 실시간 Chrome 제어, 로컬 음성 모드가 포함되었습니다. 또한 VS Code, Zed, JetBrains IDE와의 직접 통합 기능도 갖췄습니다.
7. AI 코딩 에이전트 Zencoder 출시
코드 생성, 리뷰 및 디버깅을 처리하도록 설계된 새로운 AI 코딩 에이전트 Zencoder가 출시되었습니다. 이 플랫폼은 IDE 확장 프로그램과 개발 파이프라인에 직접 통합되는 자율형 CI 에이전트를 포함하고 있습니다.
8. World, 인간 인증을 위한 AgentKit 출시
World가 AI 기반 거래에서 인간의 개입 여부를 확인하는 소프트웨어 개발 도구 AgentKit을 출시했습니다. 이 SDK를 통해 웹사이트는 자율 쇼핑 에이전트의 구매 결정이 실제 인간에 의해 승인되었는지 확인할 수 있습니다.
9. ServiceNow, EnterpriseOps-Gym 벤치마크 공개
ServiceNow Research가 실제 기업 환경에서의 에이전트 계획 능력을 평가하는 고정밀 벤치마크 EnterpriseOps-Gym을 도입했습니다. 이 벤치마크는 자율 LLM이 장기 계획 및 복잡한 전문 워크플로우를 얼마나 잘 처리하는지 측정하며, 기존 대화형 평가의 공백을 메우는 것을 목표로 합니다.
10. 바이두, 40억 파라미터 규모의 Qianfan-OCR 모델 출시
바이두 Qianfan 팀이 40억 파라미터 규모의 엔드투엔드 문서 지능 모델인 Qianfan-OCR을 출시했습니다. 이 시각-언어 아키텍처는 문서 파싱, 레이아웃 분석, 문서 이해를 단일 단계로 통합하여 기존의 다단계 OCR 파이프라인을 대체합니다.
11. MiniMax M2.7, RL 연구 워크플로우 자동화 구현
중국 AI 스타트업 MiniMax가 자체 개발한 '자가 진화' AI 모델 M2.7을 출시했습니다. 사측에 따르면 이 모델은 표준 강화 학습(RL) 연구 워크플로우의 30%에서 50%를 자율적으로 수행할 수 있습니다.
12. 레이어 복제로 학습 없이 LLM 추론 능력 향상
기존 LLM의 특정 레이어를 복제하는 것만으로 가중치 변경이나 미세 조정 없이 추론 능력을 크게 향상시킬 수 있다는 연구 결과가 나왔습니다. Qwen2.5-32B의 특정 3개 레이어를 복제했을 때 추론 능력이 17% 향상되었으며, Devstral-24B의 12~14번 레이어를 복제한 결과 BBH 벤치마크의 논리적 연역 점수가 0.22에서 0.76으로 급등했습니다.
13. 자동 연구 루프 내 에이전트 이탈 방지 방안
자동 연구 프레임워크에 대한 새로운 실험 결과, 에이전트의 이탈(drift)을 방지하는 데 있어 모델의 선택보다 환경 설계와 엄격한 검증 게이트가 더 효과적인 것으로 나타났습니다. 연구에 따르면 서로 다른 모델들이 동일한 최적화 방안을 찾아냈음에도 불구하고, 인프라 장애와 GPU 비용이 여전히 주요 병목 현상으로 남았습니다.
14. Mixture-of-Depths Attention(MoDA) 메커니즘 제안
각 헤드가 현재 레이어뿐만 아니라 이전 레이어의 키-값(KV) 쌍에 접근할 수 있도록 하는 새로운 어텐션 메커니즘인 Mixture-of-Depths Attention(MoDA)이 논문을 통해 소개되었습니다. 이 방식은 모델의 깊이가 깊어짐에 따라 유용한 신호를 보존하는 데 도움을 줍니다.
15. Cursor, 컨텍스트 자가 요약 모델 학습
Cursor가 장시간 코딩 세션 동안 자체 컨텍스트를 요약하도록 Composer 모델을 학습시킨 상세 내용을 공개했습니다. 이 모델은 이전 단계를 더 짧은 표현으로 압축하여 토큰 사용량을 관리 가능한 수준으로 유지하면서 작업 메모리를 효과적으로 확장합니다.
16. Anthropic, Claude Code 기술 프레임워크 상세 공개
Anthropic이 Claude Code 구축을 위한 내부 프레임워크를 공유했습니다. 이 프레임워크는 AI '기술'을 정적인 텍스트 프롬프트가 아닌 스크립트와 자산을 포함하는 기능적 폴더로 취급합니다. 개발팀은 제품 검증 및 '주의사항(Gotchas)' 섹션이 출력 품질 향상에 가장 큰 영향을 미치는 요소임을 확인했습니다.
17. 수학 연구 문제 해결하는 Aristotle Agent 출시
복잡한 수학 연구 문제를 해결하고 공식화할 수 있는 자율 수학자 Aristotle Agent가 출시되었습니다. 이 에이전트는 최대 24시간 동안 자율적으로 작동하여 저장소(repo) 수준의 코드를 생성할 수 있으며, 웹, CLI, API를 통해 이용 가능합니다.
18. Microsoft Fabric IQ, 멀티 에이전트 환각 현상 해결
Microsoft가 멀티 에이전트 기업 시스템의 컨텍스트 파편화 문제를 해결하기 위해 Fabric IQ를 도입했습니다. 이 도구는 서로 다른 플랫폼에서 구축된 에이전트들이 비즈니스 데이터에 대한 통합된 이해 없이 작동하여 발생하는 환각 현상을 방지하도록 설계되었습니다.