1. Veo 3.1 Lite: Gemini API를 통한 저비용 영상 생성
구글은 Gemini API를 통해 제공되는 새로운 생성형 영상 모델 등급인 Veo 3.1 Lite를 출시했습니다. 이 모델은 Veo 3.1 Fast와 동일한 생성 속도를 제공하면서 비용은 절반 이하로 낮췄으며, 초당 비용이 병목 현상이었던 대규모 영상 생성 애플리케이션을 지원하도록 설계되었습니다.
2. TRL v1.0: Hugging Face, 포스트 트레이닝 API 안정화
Hugging Face가 TRL(Transformer Reinforcement Learning) v1.0을 공식 출시하며 라이브러리를 안정적인 프로덕션 준비 프레임워크로 전환했습니다. 이번 릴리스는 대규모 언어 모델의 포스트 트레이닝 워크플로우를 위한 통합 표준 API를 제공하며, SFT, Reward Modeling, DPO, GRPO 등 75개 이상의 포스트 트레이닝 방식을 지원합니다.
3. GLM-5V-Turbo: Zhipu AI, 멀티모달 비전 코딩 모델 출시
Zhipu AI는 디자인 목업이나 스크린샷과 같은 시각적 입력에서 코드를 생성하도록 최적화된 네이티브 멀티모달 비전-언어 모델 GLM-5V-Turbo를 출시했습니다. 이 모델은 이미지, 영상, 텍스트를 처리하여 에이전트 기반 엔지니어링 워크플로우를 지원하며, 도구 호출, 작업 분해, GUI 상호작용 및 OpenClaw 프레임워크 통합을 기본적으로 지원합니다.
4. Storage Buckets for Spaces: Hugging Face의 영구 볼륨 지원
Hugging Face는 사용자가 배포된 환경에 영구 스토리지 볼륨을 직접 마운트할 수 있는 Storage Buckets for Spaces를 도입했습니다. 개발자는 Space 설정 내에서 버킷을 생성하거나 선택하고, 마운트 경로를 구성하며 액세스 모드를 설정할 수 있어 모델 가중치 캐싱, 사용자 업로드 저장 및 조직 내 여러 Space 간 파일 공유가 가능해졌습니다.
5. Gemini API Docs MCP 및 개발자 스킬: 코딩 에이전트를 위한 도구
구글은 코딩 에이전트가 최신 Gemini API 문서와 모범 사례에 직접 접근할 수 있도록 Gemini API Docs MCP(Model Context Protocol)와 Gemini API 개발자 스킬을 도입했습니다. 학습 데이터 노후화로 인한 문제를 완화하여 구글의 평가 세트에서 96.3%의 통과율을 달성했습니다.
6. LFM2.5-350M: Liquid AI, 소형 엣지 모델 출시
Liquid AI는 LFM2 아키텍처를 기반으로 한 3억 5천만 파라미터 모델인 LFM2.5-350M을 출시했습니다. 이 모델은 28조 개의 토큰으로 학습되었으며 대규모 강화 학습을 활용해 성능을 개선했습니다. 데이터 추출 및 도구 사용과 같은 작업에 중점을 두고 엣지 배포에 최적화되었습니다.
7. 준형식적 추론(Semi-Formal Reasoning): Meta, 코드 리뷰를 위한 구조화된 프롬프트 기법 발표
Meta 연구진은 리포지토리 규모의 코드 리뷰 작업에서 대규모 언어 모델의 성능을 향상시키기 위해 '준형식적 추론'이라는 구조화된 프롬프트 기법을 도입했습니다. 이 방법은 AI 에이전트가 답변하기 전에 전제를 명시하고, 구체적인 실행 경로를 추적하며, 논리적 증명서 내에서 형식적 결론을 도출하도록 요구하여 계산 비용이 많이 드는 동적 실행 샌드박스 없이도 근거 없는 추측과 환각을 줄여줍니다.