1. 연구진, 16배 입력 압축이 가능한 Latent Context Language Models 발표
NYU, 컬럼비아, 프린스턴 등 여러 기관의 연구진이 긴 문맥 처리의 계산 병목 현상을 해결하기 위해 설계된 오픈소스 인코더-디코더 모델 제품군인 Latent Context Language Models(LCLMs)를 발표했습니다. 0.6B 인코더와 4B 디코더를 결합한 LCLM은 디코더에 도달하기 전에 입력 토큰 시퀀스를 압축합니다. 이 접근 방식은 16배 압축 시 표준 KV 캐시 기준 대비 최대 8.8배의 속도 향상을 제공하며, 정확도 면에서도 기존 압축 방식들을 능가합니다.
- • LCLM은 디코더에 도달하기 전 입력 토큰 시퀀스를 압축하는 오픈소스 인코더-디코더 모델 제품군입니다.
- • RULER 벤치마크에서 16배 압축 시 LCLM은 KV 캐시 기준 대비 8.8배 빠른 출력을 생성했습니다.
- • 4배 압축 시 LCLM은 RULER에서 91.76%의 정확도를 달성했으며, 이는 압축하지 않았을 때의 94.41%와 비교됩니다.
- • 16배 압축 시 LCLM은 75.06%의 정확도를 달성하여 동일 비율의 모든 KV 캐시 방식보다 우수한 성능을 보였습니다.
- • 이 아키텍처는 0.6B 인코더와 4B 디코더를 결합하며 3,500억 개 이상의 토큰으로 학습되었습니다.
- • 모델은 HuggingFace에 오픈소스로 공개되었으며 코드는 GitHub에서 확인할 수 있습니다.
이 오픈소스 아키텍처를 통해 개발자는 높은 정확도를 유지하면서도 최대 8.8배 더 빠르게 방대한 문맥 윈도우를 처리할 수 있습니다.
2. Anthropic, Claude Fable 5의 조용한 가드레일 정책 철회
Anthropic은 자사의 새로운 Claude Fable 5 모델의 응답을 몰래 저하시켰던 논란의 정책을 철회하고 사과했습니다. 회사는 서비스 약관에 따라 금지된 모델 증류를 위해 경쟁사나 연구자가 Fable 5의 출력을 사용하는 것을 방지하고자 보이지 않는 가드레일을 구현했었습니다. 성능 저하와 과도한 안전 차단에 대한 광범위한 반발에 따라, Anthropic은 이제 쿼리가 안전성 폴백을 트리거할 때 사용자에게 명시적으로 알리고 해당 요청을 이전 플래그십 모델인 Claude Opus 4.8로 라우팅할 예정입니다.
- • Anthropic은 모델 증류를 방지하기 위해 숨겨진 가드레일로 Claude Fable 5의 성능을 몰래 제한한 것에 대해 사과했습니다.
- • 회사는 이전에 사용자에게 알리지 않고 의심스러운 증류 쿼리에 대한 응답을 변경하거나 저하시켰습니다.
- • Anthropic은 접근 방식을 변경하여 의심스러운 증류 쿼리를 Claude Opus 4.8로 라우팅하고 사용자에게 폴백 사실을 명시적으로 알릴 예정입니다.
- • Fable은 Anthropic의 Mythos 계열 AI 시스템 중 처음으로 널리 공개된 모델입니다.
- • Anthropic은 생물학 등 분야의 안전 장치가 너무 광범위하게 설정되어 Fable이 기본적인 쿼리에도 때때로 사용할 수 없게 되었음을 인정했습니다.
- • 이번 정책 철회는 AI 연구 커뮤니티의 조용한 제한 조치에 대한 상당한 반발에 따른 것입니다.
Claude Fable 5를 사용하는 개발자는 더 이상 예고 없는 성능 저하를 겪지 않게 되며, 쿼리가 Claude Opus 4.8로 재라우팅될 경우 명확한 알림을 받게 됩니다.
3. xAI, Grok Build 플러그인 마켓플레이스 출시
xAI는 터미널 네이티브 코딩 에이전트를 위한 내장 카탈로그인 Grok Build 플러그인 마켓플레이스를 출시했습니다. 이 마켓플레이스를 통해 개발자는 기술, 슬래시 명령어, 에이전트, 훅, MCP 서버 및 언어 서버 프로토콜(LSP)을 번들로 묶은 패키지를 설치할 수 있습니다. 공급망 보안을 보장하기 위해 플랫폼은 40자 커밋 SHA 고정을 강제하며 복제 후 해시를 재검증합니다. 마켓플레이스는 Vercel, MongoDB, Cloudflare 등을 포함한 6개의 파트너 플러그인과 함께 시작되었습니다.
- • Grok Build 플러그인 마켓플레이스는 xAI의 터미널 코딩 에이전트인 Grok Build를 위한 내장 카탈로그입니다.
- • 플러그인은 기술, 슬래시 명령어, 에이전트, 훅, MCP 서버 및 LSP를 단일 패키지로 묶습니다.
- • 출시 파트너로는 MongoDB, Vercel, Sentry, Chrome DevTools, Cloudflare, Superpowers가 있습니다.
- • 모든 원격 플러그인은 40자 커밋 SHA 고정을 사용하며, Grok Build는 공급망 보안을 위해 복제 후 이를 재검증합니다.
- • 카탈로그는 GitHub 풀 리퀘스트를 통해 커뮤니티 기여가 가능합니다.
- • 액세스하려면 유료 SuperGrok 또는 X Premium Plus 구독이 필요합니다.
Grok Build를 사용하는 개발자는 이제 Vercel, MongoDB와 같은 제공업체의 사전 패키지된 기술, MCP 서버 및 도구를 사용하여 터미널 에이전트를 쉽게 확장할 수 있습니다.
4. Perplexity, 다중 모델 오케스트레이터에 Deep Research 통합
Perplexity는 Opus 4.6을 핵심 추론 엔진으로 사용하여 최대 20개의 최첨단 AI 모델을 조정하는 다중 모델 오케스트레이션 시스템인 'Computer'에 Deep Research 기능을 통합했습니다. 'Search as Code' 패러다임으로 작동하는 이 시스템은 코드를 작성하고 실행하여 수천 개의 병렬 검색 단계를 수행하며, 실시간 웹 데이터와 업로드된 PDF 및 스프레드시트를 교차 참조합니다. 이 기능은 Perplexity Max에 내장되어 있지만, 개발자는 종량제 Agent API를 통해 기본 에이전트 검색 스택에 액세스할 수 있습니다.
- • Perplexity는 최대 20개의 최첨단 모델을 조정하는 오케스트레이션 시스템인 'Computer'에 Deep Research를 통합했습니다.
- • 이 시스템은 'Search as Code' 방식을 사용하여 코드를 작성하고 실행함으로써 수천 개의 병렬 검색 단계를 수행합니다.
- • 개발자는 종량제 Agent API를 통해 이 에이전트 검색 스택에 액세스할 수 있습니다.
- • 이 시스템은 실시간 웹 데이터와 함께 PDF 및 스프레드시트와 같은 내부 파일을 처리할 수 있습니다.
- • Perplexity는 BrowseComp 정확도가 40.7%에서 83.8%로 향상되는 등 벤치마크 개선을 보고했습니다.
개발자는 이제 종량제 Agent API를 통해 Perplexity의 고급 에이전트 검색 및 다중 모델 오케스트레이션 스택을 활용할 수 있습니다.
5. Microsoft, 에이전트 기술 자동 최적화 도구 SkillOpt 출시
Microsoft는 AI 에이전트 기술을 체계적으로 최적화하기 위해 설계된 MIT 라이선스 프레임워크인 SkillOpt를 오픈소스로 공개했습니다. SkillOpt는 기본 모델 가중치를 수정하는 대신 텍스트 기반 마크다운 기술 문서를 학습 가능한 객체로 취급하며, 학습률, 검증 게이트, 모멘텀과 같은 딥러닝 개념을 적용하여 지침을 개선합니다. 이 프레임워크는 작업을 실행하는 모델과 최적화 모델을 분리하는 반복적인 제안-테스트 루프를 실행하여, 기술 드리프트와 같은 일반적인 실패 모드를 방지하는 작고 휴대 가능한 기술 아티팩트를 생성합니다.
- • SkillOpt는 마크다운 기술 문서를 학습 가능한 객체로 취급하여 AI 에이전트 기술을 최적화하는 오픈소스 MIT 라이선스 프레임워크입니다.
- • 이 프레임워크는 학습률, 검증 게이트, 모멘텀을 포함한 딥러닝 스타일의 최적화 기술을 사용합니다.
- • 작업 실행 모델과 최적화 모델을 분리하는 반복적인 제안-테스트 루프를 통해 작동합니다.
- • 최적화된 기술 아티팩트는 작으며(중앙값 약 920 토큰) 다양한 실행 환경과 모델 규모에서 휴대 가능합니다.
- • SkillOpt는 52개의 모델 및 벤치마크 조합에서 TextGrad, GEPA, EvoSkill과 같은 기존 방식을 능가했습니다.
- • 단일 작업에 대한 기술 학습 비용은 일반적으로 API 비용으로 1달러에서 5달러 사이입니다.
개발자는 마크다운 프롬프트 지침을 학습 가능하고 휴대 가능한 자산으로 취급함으로써 에이전트 성능을 체계적으로 개선하고 기술 드리프트를 방지할 수 있습니다.
6. Xiaomi, 터미널 코딩 어시스턴트 MiMo Code 오픈소스 공개
Xiaomi는 MIT 라이선스로 출시된 오픈소스 터미널 네이티브 AI 코딩 어시스턴트인 MiMo Code V0.1.0을 발표했습니다. OpenCode 에이전트에서 포크된 MiMo Code는 200단계가 넘는 복잡하고 매우 긴 소프트웨어 엔지니어링 작업을 처리하도록 설계되었습니다. 이 도구는 SQLite FTS5 교차 세션 메모리 시스템과 컨텍스트 관리를 위한 체크포인트 작성기 서브 에이전트를 활용합니다. Xiaomi는 이 도구가 MiMo-V2.5-Pro 모델과 결합되었을 때 SWE-bench 벤치마크에서 Claude Code를 능가하며, 표준 OpenAI 호환 백엔드를 지원한다고 주장합니다.
- • Xiaomi는 OpenCode 에이전트의 포크 버전인 MiMo Code V0.1.0을 GitHub에 MIT 라이선스로 공개했습니다.
- • 이 도구는 SQLite FTS5를 사용하는 교차 세션 메모리 시스템과 전용 체크포인트 작성기 서브 에이전트를 특징으로 합니다.
- • Xiaomi는 MiMo-V2.5-Pro와 결합된 MiMo Code가 SWE-bench Verified 및 SWE-bench Pro에서 Claude Code를 능가한다고 주장합니다.
- • 이 어시스턴트에는 자가 개선 메커니즘, 자율 개발을 위한 Compose 모드, 음성 제어 기능이 포함되어 있습니다.
- • 100만 토큰 문맥 윈도우를 특징으로 하는 MiMo-V2.5 모델에 대한 제한된 시간 무료 액세스를 제공합니다.
- • 이 도구는 OpenAI 호환 API 및 DeepSeek를 포함한 타사 백엔드를 지원합니다.
개발자는 긴 문맥과 다단계 소프트웨어 엔지니어링 작업에 최적화된 무료 오픈소스 Claude Code 대안을 채택할 수 있습니다.
7. Nous Research, Hermes 에이전트 프로필 빌더 출시
Nous Research는 프로젝트의 로컬 웹 대시보드에 직접 통합된 오픈소스 Hermes 에이전트용 프로필 빌더를 출시했습니다. 이 도구는 에이전트 설정을 구성하기 위한 가이드 흐름을 제공하며, 개발자가 별도의 메모리, 세션, 기술, 크론 작업 및 상태 데이터베이스를 유지하는 격리된 에이전트 프로필을 관리할 수 있게 합니다. 빌더는 구성을 에이전트의 기본 YAML 및 환경 파일에 직접 작성하며, 주요 모델 제공업체와 사용자 지정 OpenAI 호환 엔드포인트를 지원합니다.
- • 프로필 빌더는 기본적으로 localhost에서 실행되는 Hermes 에이전트 로컬 웹 대시보드에 통합되어 있습니다.
- • Hermes 에이전트 프로필은 별도의 메모리, 세션, 기술 및 상태 데이터베이스를 갖춘 격리된 홈 디렉토리로 기능합니다.
- • 빌더를 통해 사용자는 에이전트 ID 구성, 모델 제공업체 선택, 기술 관리 및 MCP 서버 연결을 수행할 수 있습니다.
- • 지원되는 제공업체로는 Nous Portal, OpenRouter, NVIDIA, OpenAI 및 사용자 지정 OpenAI 호환 엔드포인트가 있습니다.
- • 이 도구는 Hermes 에이전트 CLI에서 사용하는 config.yaml 및 .env 파일에 직접 구성을 작성합니다.
- • 현재 제한 사항으로는 로컬 파일 시스템 샌드박싱 부족과 변경 사항 적용을 위해 세션을 다시 시작해야 하는 점이 있습니다.
개발자는 이제 YAML 파일을 수동으로 편집할 필요 없이 격리된 환경에서 에이전트 ID, 기술 및 MCP 서버를 시각적으로 구성할 수 있습니다.
8. Open R1 프로젝트, DeepSeek-R1 복제를 위한 데이터셋 및 레시피 공개
Open R1 프로젝트는 여러 고품질 데이터셋과 학습 레시피를 공개함으로써 DeepSeek-R1 파이프라인의 완전한 오픈 복제를 향한 중요한 진전을 이루었습니다. 여기에는 35만 개의 검증된 추론 추적이 포함된 Mixture-of-Thoughts 데이터셋, 경쟁 프로그래밍을 위한 CodeForces-CoTs 데이터셋, OpenR1-Math-220k 데이터셋이 포함됩니다. 개발자는 DeepSpeed 및 vLLM과 같은 프레임워크와 함께 이러한 리소스를 활용하여 더 작은 기본 모델에 추론 기능을 학습시키고 증류할 수 있습니다.
- • Open R1 프로젝트는 합성 데이터와 학습을 포함하여 DeepSeek-R1 파이프라인의 완전한 오픈 복제를 제공하는 것을 목표로 합니다.
- • 이 프로젝트는 35만 개의 검증된 추론 추적이 포함된 Mixture-of-Thoughts 데이터셋과 OpenR1-Distill-7B 모델을 위한 레시피를 공개했습니다.
- • 또한 1만 개의 경쟁 프로그래밍 문제가 포함된 CodeForces-CoTs 데이터셋과 OpenR1-Math-220k 데이터셋을 공개했습니다.
- • 이 파이프라인은 DDP, DeepSpeed 및 vLLM을 사용하는 지도 미세 조정(SFT) 및 그룹 상대 정책 최적화(GRPO)를 지원합니다.
- • 이 프로젝트는 CUDA 12.4, Python 3.11, PyTorch v2.6.0을 포함한 특정 소프트웨어 버전을 요구합니다.
개발자는 이러한 오픈 데이터셋과 레시피를 사용하여 고급 추론 기능을 갖춘 자체 로컬 모델을 미세 조정할 수 있습니다.
9. Coinbase, x402 결제 프로토콜을 갖춘 AI 트레이딩 에이전트 출시
Coinbase는 암호화폐 현물 및 파생 상품 거래를 실행하고, 포트폴리오를 재조정하며, 프리미엄 연구를 구매할 수 있는 새로운 AI 에이전트를 도입했습니다. 결정적으로, 이 에이전트는 AWS, Anthropic, Circle, Near와 협력하여 개발된 새로운 x402 결제 프로토콜을 활용하여 구독 없이 종량제로 연구 데이터와 컴퓨팅 비용을 지불합니다. 개발자는 제공된 MCP 서버를 사용하여 이러한 기능을 ChatGPT나 Claude에 직접 통합할 수 있습니다.
- • Coinbase는 거래 실행, 포트폴리오 재조정, 프리미엄 연구 비용 지불이 가능한 AI 에이전트를 출시했습니다.
- • 이 에이전트는 AWS, Anthropic, Circle, Near와 함께 개발된 새로운 x402 결제 프로토콜을 활용하여 구독 없이 연구 및 컴퓨팅 비용을 지불합니다.
- • 에이전트는 MCP 서버를 통해 ChatGPT나 Claude에 통합될 수 있습니다.
- • 사용자는 메인 계정 내에서 에이전트를 실행하거나 별도의 샌드박스 내부에서 운영할 수 있습니다.
- • 향후 업데이트에서는 거래 규모, 서비스 상호 작용 및 지출에 대한 사용자 지정 제한이 도입될 예정입니다.
개발자는 이제 기존 구독 없이 API 서비스, 컴퓨팅 및 연구 데이터 비용을 자율적으로 지불하는 금융 에이전트를 구축할 수 있습니다.
10. Cursor, 3배 속도 향상 및 비용 절감된 Bugbot 업데이트
Cursor는 자동 코드 검토 도구인 Bugbot에 대한 주요 업데이트를 출시했습니다. 이 도구는 이제 3배 이상 빠르게 실행되며, 대부분의 코드 검토가 3분 이내에 완료됩니다. 속도 향상 외에도 이번 업데이트는 실행 비용을 22% 절감하고 검토당 버그 탐지율을 10% 향상시켰습니다.
- • Cursor는 Bugbot 도구를 업데이트하여 이전 버전보다 3배 이상 빠르게 실행되도록 했습니다.
- • 이번 업데이트로 Bugbot 실행 비용이 22% 절감되었습니다.
- • 업데이트 이후 Bugbot은 검토당 10% 더 많은 버그를 찾아냅니다.
- • 대부분의 Bugbot 실행은 이제 3분 이내에 완료됩니다.
Cursor를 사용하는 개발자는 이제 워크플로우 내에서 더 빠르고 저렴하며 정확한 자동 코드 검토를 수행할 수 있습니다.
11. Show HN: libghostty 기반의 Boo 터미널 멀티플렉서
boo라는 이름의 새로운 터미널 멀티플렉서가 MIT 라이선스로 출시되었습니다. Zig로 작성되고 libghostty-vt 터미널 에뮬레이션 코어로 구동되는 boo는 세션 지속성을 갖춘 GNU screen 스타일의 멀티플렉서로 기능합니다. AI 개발자에게 중요한 점은 'send', 'peek', 'wait'와 같은 기본 자동화 요소를 포함하고 있어, 스크립트와 자율 AI 에이전트가 표준 TTY 없이도 터미널 세션과 직접 상호 작용할 수 있다는 것입니다.
- • boo는 Zig로 작성되고 libghostty-vt 코어를 기반으로 구축된 GNU screen 스타일 터미널 멀티플렉서입니다.
- • 이 도구는 SGR 스타일, 커서 위치 및 터미널 모드를 포함하여 정확한 화면 상태를 유지합니다.
- • 스크립트와 AI 에이전트가 TTY 없이 세션과 상호 작용할 수 있도록 'send', 'peek', 'wait'와 같은 자동화 기본 요소를 제공합니다.
- • 이 소프트웨어에는 'boo ui' 명령을 통해 액세스할 수 있는 전체 화면 세션 관리자가 포함되어 있습니다.
- • MIT 라이선스로 출시되었으며 소스에서 빌드하려면 Zig 0.15.2가 필요합니다.
개발자는 Boo의 내장 자동화 기본 요소를 사용하여 AI 에이전트가 TTY 없이도 프로그래밍 방식으로 터미널 세션과 상호 작용하도록 할 수 있습니다.