1. Google, Gemma 4 12B 인코더 없는 멀티모달 모델 출시
Google DeepMind는 네이티브 오디오 입력을 처리할 수 있는 Gemma 제품군 최초의 중형 오픈 웨이트 모델인 Gemma 4 12B를 출시했습니다. 이 모델은 별도의 비전이나 오디오 인코더에 의존하는 대신, 16kHz 오디오 프레임과 비주얼 패치를 백본 LLM에서 직접 처리하는 인코더 없는 아키텍처를 사용합니다. Hugging Face, Kaggle, Google AI Edge Gallery를 통해 Apache 2.0 라이선스로 공개된 이 119억 5천만 파라미터 모델은 표준 16GB RAM 장치에서 로컬로 실행됩니다. 또한 Google은 로컬 하드웨어에서 추론 지연 시간을 최적화하기 위한 MTP(Multi-Token Prediction) 드래프터 모델도 함께 공개했습니다.
- • Gemma 4 12B는 119.5억 파라미터의 디코더 전용 트랜스포머 모델로, 256K 컨텍스트 윈도우를 지원하며 Apache 2.0 라이선스가 적용됩니다.
- • 원시 오디오(최대 30초)와 비디오 패치(최대 60초)를 LLM으로 직접 전달하는 통합된 인코더 없는 아키텍처를 특징으로 합니다.
- • 16GB VRAM 또는 통합 메모리가 필요하며, 소비자용 GPU 노트북 및 Apple Silicon과 호환됩니다.
- • Google은 로컬 추론 지연 시간을 줄이기 위해 MTP(Multi-Token Prediction) 드래프터 모델을 함께 출시했습니다.
- • llama.cpp, vLLM, SGLang, Ollama, MLX, Unsloth와 즉시 호환됩니다.
개발자들은 이제 별도의 인코더 없이 텍스트, 이미지, 비디오, 네이티브 오디오를 핵심 LLM 백본에서 직접 처리하는 중형 로컬 모델을 배포할 수 있게 되었습니다.
2. Mnemo, LLM을 위한 로컬 우선 지식 그래프 메모리 레이어 출시
Hacker News를 통해 공개된 mnemo는 LLM에 지속적인 지식 그래프 기능을 제공하기 위해 설계된 오픈 소스 로컬 우선 AI 메모리 레이어입니다. 클라우드 의존성이 전혀 없는 사이드카 서비스로 작동하는 mnemo는 LLM을 사용하여 텍스트에서 명명된 엔티티와 그 관계를 추출하고 로컬 SQLite 데이터베이스에 저장합니다. 이 엔진은 원자적 업데이트를 위해 메모리 내 petgraph 라이브러리를 활용하여 50밀리초 미만의 검색 속도를 달성하며, Python SDK, REST API 및 CLI 도구를 통해 기능을 제공합니다.
- • mnemo는 단일 정적 바이너리로 배포되는 로컬 우선 AI 메모리 레이어입니다.
- • LLM을 사용하여 입력 텍스트에서 명명된 엔티티와 관계를 추출하고 SQLite에 저장합니다.
- • 메모리 내 petgraph를 사용하여 지식 그래프에 대한 원자적 업데이트를 수행하며 50밀리초 미만의 검색 속도를 제공합니다.
- • Ollama, OpenAI, Anthropic 및 기타 OpenAI 호환 API와 통합됩니다.
- • 개발자 통합을 위한 CLI 도구, Python SDK 및 REST API를 제공합니다.
앱 개발자는 외부 클라우드 API 요구 사항 없이 50ms 미만의 검색 지연 시간으로 LLM 기반 애플리케이션에 로컬 지속성 메모리 레이어를 통합할 수 있습니다.
3. Sandboxed, 에이전트 플레이그라운드를 위한 오픈 소스 로컬 엔진 출시
오픈 소스 엔진인 sandboxed는 개발자가 AI 앱 빌더 및 코딩 플레이그라운드를 위한 호스팅 백엔드를 구축할 수 있도록 돕기 위해 출시되었습니다. Docker, Traefik, SQLite로 구동되는 단일 서버에서 실행되는 이 시스템은 Kubernetes나 메시지 큐의 복잡성을 피하면서 코딩 에이전트를 위한 격리된 Linux 컨테이너를 제공합니다. 자동 라우팅 및 TLS가 포함된 라이브 미리보기 URL을 지원하며, 메모리 사용량을 최적화하기 위해 유휴 상태 시 중지 및 요청 시 깨우기 메커니즘을 갖추고 있습니다. 이 플랫폼은 환경 내에 OpenCode 및 Claude Code CLI가 사전 구성되어 있습니다.
- • sandboxed는 Docker, Traefik, SQLite를 사용하여 단일 서버에서 실행되며 Kubernetes 및 복잡한 메시지 큐를 우회합니다.
- • 실행 중인 샌드박스 애플리케이션의 라이브 미리보기 URL을 위한 자동 라우팅 및 TLS를 포함합니다.
- • 메모리 사용량을 최적화하고 호스팅 비용을 절감하기 위해 유휴 상태 시 중지 및 요청 시 깨우기 메커니즘을 갖추고 있습니다.
- • 격리된 Linux 컨테이너 내에서 AI 기반 코딩 작업을 용이하게 하기 위해 OpenCode 및 Claude Code CLI가 사전 설치되어 있습니다.
- • 다중 테넌트 AI 플레이그라운드 및 에이전트 빌더를 위해 맞춤화된 MIT 라이선스로 출시되었습니다.
개발자는 Kubernetes를 오케스트레이션하는 복잡성이나 비용 없이 다중 테넌트 AI 앱 빌더 또는 코딩 에이전트 환경을 구축할 수 있습니다.
4. Nous Research, 로컬 에이전트를 위한 Hermes Desktop 공개 프리뷰 출시
Nous Research는 macOS, Windows, Linux에서 자율 Hermes Agent v0.15.2를 위한 네이티브 GUI를 제공하는 Hermes Desktop의 공개 프리뷰를 출시했습니다. 이 데스크톱 애플리케이션은 기존 CLI 버전과 핵심 에이전트 구성, 세션 저장소 및 메모리를 공유합니다. 개발자는 로컬, Docker, SSH, Singularity, Modal을 포함한 5개의 샌드박스 실행 백엔드에서 자율 계획 루프를 실행할 수 있습니다. MIT 라이선스가 적용된 이 플랫폼은 MCP(Model Context Protocol)를 통한 도구 통합을 지원하며 FTS5 세션 검색을 통해 지속적인 메모리를 유지합니다.
- • Hermes Desktop은 macOS, Windows, Linux용 공개 프리뷰 상태의 네이티브 크로스 플랫폼 애플리케이션입니다.
- • 자율적인 MIT 라이선스 Hermes Agent v0.15.2를 위한 그래픽 인터페이스를 제공합니다.
- • 로컬, Docker, SSH, Singularity, Modal 등 5가지 샌드박스 실행 백엔드를 지원합니다.
- • 도구 지원을 위해 MCP(Model Context Protocol)를 통합하며 스트리밍 응답 및 파일 브라우저 기능을 제공합니다.
- • FTS5 검색 및 LLM 요약을 사용하여 세션 간 호출이 가능한 지속적인 에이전트 큐레이션 메모리를 구현합니다.
로컬, Docker 또는 클라우드 런타임 전반에서 MCP 도구와 샌드박스 실행을 통합하는 즉시 사용 가능한 UI 및 로컬 에이전트 환경을 제공합니다.
5. Llama.cpp, Qwen 모델을 위한 다중 토큰 예측(MTP) 최적화
Llama.cpp 프로젝트는 버전 b9495를 출시하여 Qwen3.5 및 Qwen3.6 모델에 대한 다중 토큰 예측(MTP)의 주요 성능 최적화 및 버그 수정을 제공합니다. 병합된 풀 리퀘스트(PR #24025)는 MTP 실행을 가속화하기 위해 포스트 노름 은닉 상태를 사용하는 지원을 구체적으로 도입했습니다. Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL 모델에서 업데이트된 러너를 사용하는 커뮤니티 멤버들이 공유한 벤치마크에 따르면, 드래프트 수락률이 0.52614로 나타나 로컬 실행 중 텍스트 생성 속도를 높일 수 있는 기반을 마련했습니다.
- • Llama.cpp 버전 b9495는 Qwen 다중 토큰 예측(MTP)을 위한 최적화 및 버그 수정을 도입합니다.
- • 병합된 풀 리퀘스트(PR #24025)는 Qwen3.5 MTP를 위한 포스트 노름 은닉 상태 지원을 추가합니다.
- • 최적화는 Qwen3.6-35B-A3B-MTP-UD-Q5_K_XL 변형을 포함하여 Qwen3.5 및 Qwen3.6 모델 제품군을 대상으로 합니다.
- • 최적화된 MTP 구성을 사용한 공유 벤치마크에서 0.52614의 드래프트 수락률이 보고되었습니다.
이 릴리스는 Qwen 모델을 로컬에서 실행하는 개발자의 로컬 추론 처리량을 높이고 지연 시간을 줄여줍니다.
6. 개발자, Android 기기를 Vulkan 가속 로컬 LLM 노드로 구성
한 개발자가 Samsung Galaxy Z Fold 6를 자체 호스팅 AI 메시 내의 휴대용 Vulkan 가속 GGUF 추론 노드로 성공적으로 구성했습니다. Vulkan을 통해 모바일 GPU로 89개 레이어를 오프로딩함으로써, 이 설정은 LiteLLM을 통해 로컬로 라우팅되는 OpenAI 호환 API 엔드포인트를 노출합니다. Tailscale을 사용하여 모바일 장치는 Mac Studio나 RTX 장착 머신과 같은 더 큰 노드로 자동 폴백되는 사설 네트워크에 연결되며, 메시에서 연결이 끊어지면 휴대폰이 독립형 서버로 기능할 수 있습니다.
- • Android 기기(Z Fold 6)가 휴대용 GGUF 추론 노드로 구성되었습니다.
- • Vulkan GPU 가속을 활용하여 89개의 GPU 레이어를 오프로딩합니다.
- • LiteLLM을 통해 라우팅되는 OpenAI 호환 엔드포인트를 노출합니다.
- • Tailscale을 통해 자체 호스팅 AI 메시로 통합되며 Mac Studio 또는 RTX 장착 머신으로의 폴백 라우팅을 지원합니다.
- • 다른 로컬 노드가 오프라인일 때 독립형 모바일 추론을 허용합니다.
개발자가 고성능 모바일 하드웨어를 로컬 자체 호스팅 폴백 추론 메시에서 비용 효율적이고 휴대 가능한 노드로 활용하는 방법을 보여줍니다.
7. Alibaba Fun-Realtime-TTS, Speech Arena 리더보드 1위 차지
Alibaba의 Fun-Realtime-TTS 모델이 962번의 아레나 매치업에서 Elo 점수 1,219를 기록하며 Artificial Analysis의 Speech Arena 리더보드에서 1위를 차지했습니다. 이 모델은 Google의 Gemini 3.1 Flash TTS 및 Cartesia Sonic 3.5를 포함한 여러 주요 상용 대안을 능가했습니다. Alibaba Cloud API를 통해 개발자가 사용할 수 있는 이 모델은 100만 문자당 27.60달러의 가격으로 실시간 텍스트 음성 변환, 음성 복제, 음성 디자인 및 다국어 출력을 지원합니다.
- • Fun-Realtime-TTS는 962번의 등장에서 Elo 1,219를 기록하며 Artificial Analysis Speech Arena 리더보드 1위를 차지했습니다.
- • Gemini 3.1 Flash TTS, Inworld Realtime TTS-2 Research Preview, Cartesia Sonic 3.5를 능가했습니다.
- • Alibaba Cloud에서 100만 문자당 27.59달러(또는 27.6달러)로 책정되었습니다.
- • 기능에는 실시간 음성 생성, 음성 복제, 음성 디자인, 다국어 출력 및 지역 억양 지원이 포함됩니다.
개발자들은 저지연 음성 합성 및 실시간 오디오 상호 작용을 위한 새롭고 성능이 뛰어나며 비용 경쟁력이 있는 옵션을 갖게 되었습니다.
8. LFM2-1.2B를 위한 QLoRA 및 DPO 파인튜닝 단계별 가이드
Google Colab의 완벽한 단계별 개발자 튜토리얼은 QLoRA, SFT(Supervised Fine-Tuning) 및 DPO(Direct Preference Optimization)를 사용하여 Liquid AI의 LFM2-1.2B 모델을 파인튜닝하는 과정을 안내합니다. PyTorch, Transformers, TRL, PEFT 및 bitsandbytes를 기반으로 구축된 이 파이프라인은 4비트 양자화를 활용하여 VRAM을 절약합니다. SFT 훈련 과정은 1024의 시퀀스 길이로 60단계 동안 'smoltalk' 데이터셋의 500개 샘플을 활용하며, 이후 어댑터 병합과 모델 선호도를 최적화하기 위한 40단계의 DPO 시퀀스가 이어집니다.
- • QLoRA, SFT(지도 미세 조정) 및 DPO(직접 선호도 최적화)를 사용하여 Google Colab에서 LFM2-1.2B를 미세 조정하는 방법을 보여줍니다.
- • Transformers, TRL, PEFT, datasets, bitsandbytes 및 PyTorch를 포함한 표준 라이브러리를 활용합니다.
- • 1024 최대 시퀀스 길이로 60번의 훈련 단계 동안 'smoltalk' 데이터셋의 500개 샘플을 사용합니다.
- • 훈련 중 GPU 메모리 요구 사항을 줄이기 위해 4비트 양자화를 적용합니다.
- • LoRA 어댑터를 기본 모델에 병합하고 40단계의 DPO 훈련 단계를 실행하여 모델 응답 정렬을 개선합니다.
개발자가 오픈 소스 라이브러리를 사용하여 소비자용 하드웨어에서 소형 상태 공간 또는 리퀴드 모델을 파인튜닝할 수 있는 실용적인 청사진을 제공합니다.
9. Vercel, AI 추론 도용에 대한 BotID 방어 전략 개요
Vercel은 공격자가 노출된 개발자 엔드포인트를 악용하여 LLM 액세스를 스크랩하고 재판매하는 방법을 자세히 설명하는 AI 추론 도용 분석을 게시했습니다. 표준 속도 제한으로는 정교하고 분산된 추출 시도를 막을 수 없기 때문에, Vercel은 개발자에게 BotID 분석을 구현할 것을 권장합니다. 이 메커니즘은 각 클라이언트 요청을 업스트림 LLM API로 전달하기 전에 합법성을 확인하여 개발자가 API 키를 보호하고 예상치 못한 클라우드 비용을 방지하도록 돕습니다.
- • Vercel은 공격자가 노출된 애플리케이션 엔드포인트를 악용하여 도난당한 AI 추론을 재판매하는 방법을 설명하는 심층 분석을 게시했습니다.
- • 표준 속도 제한 제어는 조직적인 추론 재판매 작업을 방지하기에 종종 불충분하다고 지적합니다.
- • 모든 들어오는 AI 요청을 확인하고 승인되지 않은 스크래퍼를 차단하기 위해 BotID 분석을 통합할 것을 권장합니다.
개발자가 API 엔드포인트를 보호하고 LLM 액세스를 스크랩하거나 재판매하는 악의적인 행위자로 인해 발생하는 API 비용 급증을 방지하도록 돕습니다.
10. Angular v22 출시, 내장 에이전트 도구 및 WebMCP 지원
Angular v22가 공식 출시되어 프로덕션 준비가 완료된 API와 전용 에이전트 도구를 제공합니다. Signal Forms와 같은 기능을 안정화하고 @Service 데코레이터를 도입하는 것 외에도, 이번 릴리스에는 업데이트된 MCP(Model Context Protocol) 통합과 AI 어시스턴트가 최신 Angular 코드베이스를 탐색하도록 돕는 Angular Agent Skills가 포함되어 있습니다. 결정적으로, 이번 업데이트는 브라우저 기반 AI 에이전트가 웹 기반 디버깅 및 개발 도구와 직접 상호 작용할 수 있도록 하는 WebMCP에 대한 실험적 지원을 추가했습니다.
- • Angular v22는 프로덕션 준비가 완료된 Signal Forms, Angular Aria 및 비동기 반응성 API를 특징으로 합니다.
- • AI 어시스턴트에게 코드 컨텍스트를 제공하기 위해 업데이트된 MCP 제공 및 Angular Agent Skills를 포함한 새로운 에이전트 도구를 포함합니다.
- • 에이전트가 브라우저 도구와 직접 상호 작용할 수 있도록 WebMCP에 대한 실험적 지원을 도입합니다.
- • 새로운 @Service 데코레이터와 injectAsync를 통한 비동기 의존성 주입을 추가합니다.
Angular를 사용하는 웹 개발자는 이제 로컬 및 웹 기반 AI 코딩 에이전트와 더 원활하게 인터페이스하는 애플리케이션을 구축할 수 있습니다.