1. Anthropic, 하이브리드 모델 라우팅을 위한 Claude API 'Advisor' 도구 추가
Anthropic이 단일 워크플로우 내에서 서로 다른 모델을 조합할 수 있는 Claude 플랫폼 API용 Advisor 도구를 출시했습니다. 이 기능을 통해 Sonnet이나 Haiku 같은 빠르고 비용 효율적인 실행 모델이 작업 도중 Opus와 같은 고지능 Advisor 모델의 자문을 받을 수 있습니다. 이 하이브리드 방식은 Messages API 요청에 직접 통합되어, 전략적 지침이 필요할 때만 대형 모델을 호출함으로써 운영 비용을 낮게 유지하면서도 Opus 수준의 추론 성능을 구현할 수 있게 해줍니다.
2. NVIDIA, 에이전트 워크플로우를 위한 Nemotron 3 Super 120B 모델 출시
NVIDIA가 1,200억 개의 파라미터를 가진 하이브리드 Mixture-of-Experts 모델인 Nemotron 3 Super를 오픈 소스로 공개했습니다. 이 모델은 120억 개의 활성 파라미터를 사용하며, 고성능 멀티 에이전트 애플리케이션을 위해 설계된 Mamba-Transformer 아키텍처와 100만 토큰 컨텍스트 윈도우를 특징으로 합니다. 가중치, 데이터셋, 학습 레시피가 모두 공개되었으며, 개발자는 LM Studio, Together AI, OpenRouter 등의 플랫폼을 통해 즉시 이용할 수 있습니다.
3. Sentence Transformers v5.4, 멀티모달 임베딩 및 리랭커 모델 도입
Sentence Transformers 라이브러리의 v5.4 업데이트를 통해 멀티모달 임베딩 및 리랭커(reranker) 모델 지원이 추가되었습니다. 이를 통해 개발자는 텍스트, 이미지, 오디오, 비디오를 하나의 공유 임베딩 공간 내에서 인코딩하고 비교할 수 있습니다. 이번 업데이트는 특히 크로스 모달 검색과 검색 증강 생성(RAG) 워크플로우를 지원하며, 멀티모달 리랭커를 포함하여 혼합 모달리티 쌍에 대한 고품질 스코어링을 제공함으로써 검색 정확도를 향상시킵니다.
4. NVIDIA, 3D 모션 확산 모델 'Kimodo' 오픈 소스 공개
NVIDIA Research가 오픈 소스 운동학적(kinematic) 모션 확산 모델인 Kimodo를 Hugging Face에 출시했습니다. 이 모델은 700시간 분량의 광학 모션 캡처 데이터를 학습하여 고품질의 인간 및 로봇 3D 모션을 생성합니다. 개발자는 텍스트 프롬프트와 특정 운동학적 제약 조건을 사용하여 생성된 결과물을 제어할 수 있으며, 이는 공간 컴퓨팅이나 로보틱스 애플리케이션에 3D 모션 생성을 통합할 수 있는 직접적인 프로그래밍 도구를 제공합니다.
5. Hugging Face Hub, 최적화된 하드웨어 커널 네이티브 지원 추가
Hugging Face가 자사 허브에 새로운 저장소 유형인 'Kernels'를 도입했습니다. 이 기능을 통해 개발자는 특정 하드웨어 제공업체에 최적화된 바이너리 연산 모음을 공유하고 통합할 수 있습니다. 플랫폼은 CUDA, ROCm, Apple Silicon, Intel XPU 지원을 주요 기능으로 다루며, 첫 출시 버전에는 SGLang 프로젝트 팀의 Flash Attention 커널이 포함되었습니다.
6. Twill.ai, 자율 코딩 에이전트를 위한 클라우드 샌드박스 출시
Twill.ai가 Claude Code 및 Codex와 같은 코딩 CLI를 격리된 클라우드 샌드박스 내부에서 실행하는 플랫폼을 출시했습니다. 개발자가 Slack, GitHub, Linear 또는 CLI를 통해 작업을 위임하면 에이전트가 풀 리퀘스트(PR)나 진단 결과를 반환합니다. 이 서비스는 에이전트가 로컬 파일 시스템에 대한 전체 접근 권한 없이도 독립적으로 실행될 수 있게 하여 로컬 병렬화 및 지속성 문제를 해결합니다. 무료 티어는 월 10 크레딧을 제공하며, 유료 플랜은 BYOK(Bring-Your-Own-Key) 구성을 지원합니다.
7. 커뮤니티, 엣지 배포용 Gemopus-4 26B 파인튜닝 모델 공개
새로운 커뮤니티 파인튜닝 모델인 Gemopus-4-26B-A4B-it이 Hugging Face에 공개되었습니다. Gemma 4 26B Mixture-of-Experts 아키텍처를 기반으로 한 이 모델은 40억 개의 활성 파라미터와 131k 컨텍스트 윈도우를 갖추고 있습니다. 추론 증류(reasoning distillation) 기술을 사용하여 Claude Opus 스타일의 출력을 모방하도록 학습되었습니다. 로컬 및 엣지 배포에 최적화되어 있으며, Q6_K 양자화 시 약 22.7 GB의 VRAM이 필요합니다.
8. Alibaba, 멀티모달 비디오 생성 모델 'HappyHorse-1.0' 예고
Alibaba가 텍스트-비디오 및 이미지-비디오 모달리티를 지원하며 네이티브 오디오 생성 기능을 갖춘 새로운 비디오 생성 모델 HappyHorse-1.0을 공개했습니다. 이 모델은 최근 Artificial Analysis Video Arena 리더보드에서 상위권을 기록했습니다. 현재는 미출시 상태이나, Alibaba는 4월 30일에 개발자를 위한 공개 API 액세스를 시작할 계획입니다.