Google, Gemma 4 양자화 인식 학습(QAT) 체크포인트 공개

1. Google, Gemma 4 양자화 인식 학습(QAT) 체크포인트 공개

Google DeepMind의 새로운 QAT 체크포인트는 학습 과정에서 양자화를 시뮬레이션하여 정밀도 손실을 최소화합니다. 이번 릴리스에는 Q4_0 형식과 임베딩 및 KV 캐시 레이어를 최적화하는 특수 모바일 스키마가 포함되어 있습니다. 이 모델들은 Hugging Face에서 GGUF 및 압축 텐서 형식으로 제공되며, llama.cpp, Ollama, vLLM과 같은 인기 있는 로컬 런타임과 호환됩니다.

• Google DeepMind가 Gemma 4 QAT 체크포인트를 Q4_0 및 특수 모바일 형식으로 공개함.
• Q4_0 형식은 Gemma 4 E2B 모델의 메모리 사용량을 3.2GB로, E4B 모델을 5GB로 줄여줌.
• 모바일 QAT 스키마는 정적 활성화, 채널별 양자화, 타겟 2비트 압축을 사용하여 E2B 모델을 1GB 미만으로 줄임.
• 체크포인트는 Hugging Face에서 제공되며 llama.cpp, Ollama, LM Studio, vLLM, MLX, LiteRT-LM을 지원함.
• AMD 7900 XTX에서 테스트한 결과, 12B QAT 모델은 Q8_0 대비 생성 시간이 45% 단축되고 VRAM 5.7GB 절감 효과를 보임.

개발자는 표준 사후 학습 양자화 대비 품질 저하를 최소화하면서 VRAM 요구 사항을 크게 줄여 Gemma 4 모델을 로컬에서 실행할 수 있습니다.

SOURCES

[1] [2] [3] [4]

2. 오픈 웨이트 모델의 폭발적 증가: 다양한 모달리티에 걸쳐 25개 이상의 주목할 만한 모델 공개

오픈 소스 AI 분야에서 25개 이상의 주목할 만한 오픈 웨이트 모델이 공개된 놀라운 한 주였습니다. 주요 모델로는 NVIDIA의 거대한 550B Nemotron 3 Ultra, Google의 밀집형 any-to-any Gemma 4 12B, StepFun의 Step-3.7-Flash가 있습니다. 엣지 개발자들을 위한 Liquid AI의 LFM2.5-8B-A1B와 RedNote의 dots.tts 파이프라인과 같은 새로운 옵션들도 제공되었습니다.

• NVIDIA가 Nemotron 3 Ultra(550B 하이브리드 Mamba-MoE, 1M 컨텍스트)와 Nemotron-3.5 ASR(600M 스트리밍 모델)을 공개함.
• Google이 Gemma 4 12B(밀집형 any-to-any, 256k 컨텍스트, 140개 이상 언어)를 공개함.
• StepFun이 Step-3.7-Flash(198B 희소 MoE VLM, Apache 2.0)를 공개함.
• Liquid AI가 LFM2.5-8B-A1B(엣지 MoE, 1.5B 활성 파라미터, MLX 호환)를 공개함.
• 기타 릴리스로는 Ideogram 4(9.3B flow-matching DiT), RedNote dots.tts, NVIDIA Cosmos3-Super(64B 옴니모달 월드 모델) 등이 있음.

이 통합 목록은 개발자들에게 거대한 하이브리드 모델과 특수 엣지 모델을 포함하여 최신 셀프 호스팅 가능 모델에 대한 빠른 참조를 제공합니다.

SOURCES

[1]

3. Gemma 4 12B 도구 호출 및 코딩 오류 수정

초기에 개발자들은 Gemma 4 12B가 평가 도구에서 도구 호출에 자주 실패한다고 보고했으나, 커뮤니티에서 발견한 수정안으로 이 문제가 해결되었습니다. llama.cpp를 소스에서 컴파일하고 --jinja 및 --chat-template-file 플래그를 통해 커스텀 채팅 템플릿을 적용하면 올바른 도구 호출 기능을 복구할 수 있습니다. 이를 통해 에이전트 워크플로우를 위한 모델의 안정적인 로컬 배포가 가능해집니다.

• 사용자들이 Gemma 4 12B에서 빈번한 도구 호출 오류를 보고하여 OpenCode와 같은 도구 사용에 지장이 있었음.
• 수정하려면 llama.cpp를 소스에서 컴파일하고 커스텀 템플릿과 함께 --jinja 및 --chat-template-file 플래그를 사용해야 함.
• 한 개발자는 32k 컨텍스트 윈도우와 Q8 KV 캐시를 사용하여 Unsloth Q5_K_XL 모델(8.6GB)로 초당 50토큰을 달성했다고 보고함.
• Google AI Edge 또한 에이전트 워크플로우를 위해 노트북에서 Gemma 4 12B의 로컬 배포를 지원하고 있음.

이 커스텀 템플릿을 적용하면 개발자는 도구 호출 오류 없이 로컬 에이전트 워크플로우 및 코딩 작업에 Gemma 4 12B를 성공적으로 평가하고 사용할 수 있습니다.

SOURCES

[1] [2] [3]

4. llama.cpp를 사용하여 KV 캐시를 시스템 RAM으로 오프로드하기

llama.cpp의 -nkvo(no KV offload) 옵션을 사용하면 개발자가 KV 캐시를 VRAM이 아닌 시스템 RAM으로 오프로드할 수 있습니다. 16GB GPU에서 Qwen3.6 27B 모델을 테스트한 결과, 이 옵션을 통해 f16 KV 캐시를 사용하여 전체 모델을 GPU에 올리고 컨텍스트 윈도우를 128k까지 확장할 수 있었습니다. 성능 저하는 미미하여 최고 속도가 23 tps에서 19 tps로 떨어지는 수준이었습니다.

• llama.cpp의 -nkvo(--no-kv-offload) 옵션은 KV 캐시를 VRAM 대신 시스템 RAM으로 오프로드함.
• RTX 5060 Ti(16GB)와 DDR5 RAM에서 Qwen3.6 27B를 테스트한 결과, 63개 레이어를 GPU에 유지하여 128k 컨텍스트 윈도우를 구현함.
• -nkvo 활성화 시 최고 19 tps, 긴 생성 시 14 tps를 달성했으며, 이는 GPU에서 양자화된 q4_0 KV 캐시 사용 시의 최고 23 tps, 16 tps와 비교됨.
• RAM으로 오프로드할 때 KV 캐시를 양자화해도 성능 향상은 없었으며 오히려 성능이 저하되는 경우도 있었음.

개발자는 KV 캐시를 양자화하는 대신 DDR5 RAM으로 오프로드함으로써 제한된 VRAM GPU에서도 컨텍스트 윈도우를 최대 128k까지 극적으로 늘릴 수 있습니다.

SOURCES

[1]

5. OpenLumara: 모듈형, 토큰 효율적인 로컬 AI 에이전트 프레임워크

OpenLumara는 로컬 모델을 위해 처음부터 구축된 모듈형 오픈 소스 AI 에이전트 프레임워크입니다. 'vibecoded' 프레임워크와 달리 토큰 효율성에 중점을 두어 개발자가 모듈을 비활성화하여 시스템 프롬프트를 4k에서 1k 토큰 미만으로 줄일 수 있습니다. Docker 또는 Podman을 통한 샌드박스 셸 환경, 민감한 데이터 자동 마스킹, 특정 함수나 클래스를 타겟팅하는 코더 모듈을 특징으로 합니다.

• OpenLumara는 로컬 모델, llama.cpp, koboldcpp용으로 설계되었으며 GPL2 라이선스를 따름.
• 기본 시스템 프롬프트는 약 4k 토큰이지만 사용하지 않는 모듈을 비활성화하여 1k 토큰 미만으로 줄일 수 있음.
• 보안 기능으로는 Docker/Podman을 사용하는 샌드박스 셸 환경과 민감한 데이터 자동 마스킹이 포함됨.
• 코더 모듈은 검색 및 바꾸기 대신 코드 파일의 특정 함수나 클래스를 타겟팅함.
• 웹 기반 UI, CLI 모드를 포함하며 koboldcpp의 esobold 포크에 통합되어 있음.

무거운 에이전트 프레임워크에 대한 모듈형의 토큰 효율적인 대안을 제공하여 개발자가 시스템 프롬프트를 1k 토큰 미만으로 줄일 수 있게 합니다.

SOURCES

[1]

6. Alibaba, 오픈 코드 리뷰 CLI 도구 오픈 소스화

Alibaba는 2년 동안 내부적으로 사용하여 수백만 개의 코드 결함을 식별했던 Apache-2.0 라이선스 CLI 도구인 Open Code Review를 오픈 소스로 공개했습니다. 이 도구는 Git diff를 읽고 변경된 파일을 구성 가능한 LLM으로 전송하여 구조화된 라인 단위 코멘트를 생성합니다. CI/CD 파이프라인에 통합하거나 코딩 에이전트에서 슬래시 명령어로 사용할 수 있으며, 세션 기록을 탐색하기 위한 로컬 뷰어가 포함되어 있습니다.

• Open Code Review는 Alibaba가 내부적으로 개발 및 사용해 온 오픈 소스 Apache-2.0 라이선스 CLI 도구임.
• Git diff를 읽고 변경된 파일을 구성 가능한 LLM으로 전송하여 라인 단위 정밀도로 구조화된 리뷰 코멘트를 생성함.
• 아키텍처는 결정론적 엔지니어링(파일 선택/번들링)과 동적 의사 결정을 위한 에이전트를 결합함.
• CI/CD 파이프라인 통합을 지원하고 AI 코딩 에이전트에서 슬래시 명령어로 작동하며 기록을 위한 로컬 뷰어를 포함함.
• NPM, GitHub 바이너리 릴리스 또는 소스 빌드를 통해 설치할 수 있음.

개발자는 이 도구를 로컬 워크플로우, 코딩 에이전트 또는 CI/CD 파이프라인에 통합하여 구성 가능한 LLM을 사용한 코드 리뷰 자동화를 구현할 수 있습니다.

SOURCES

[1]

7. Microsoft, Build 2026에서 IQ 컨텍스트 레이어 및 에이전트 최적화 도구 발표

Build 2026 컨퍼런스에서 Microsoft는 엔터프라이즈 에이전트 개발을 위한 여러 도구를 발표했습니다. Microsoft IQ 컨텍스트 레이어는 Fabric, Foundry, Web, Work 데이터 소스 전반에 걸쳐 안전한 데이터 액세스를 제공합니다. 또한, 루브릭 기반 평가를 사용하여 프롬프트 수정을 자동화하는 에이전트 최적화 도구(Agent Optimizer)를 출시하고 Entra 시스템을 통한 에이전트 ID 기능을 활성화했습니다.

• Microsoft IQ 제품군에는 Fabric IQ, Foundry IQ, Web IQ, Work IQ가 포함됨(API는 6월 16일 출시).
• 에이전트 최적화 도구는 루브릭 기반 평가를 사용하여 세분화된 피드백과 자동화된 프롬프트 수정을 제공함.
• Microsoft는 Entra 시스템을 통해 에이전트 ID를 활성화하여 에이전트에게 고유한 이메일 및 Teams 액세스 권한을 부여함.
• Microsoft는 오픈 소스 OpenClaw 기술을 기반으로 구축된 개인 업무 에이전트인 Scout도 도입함.

이러한 엔터프라이즈 중심 도구들은 Microsoft 생태계에서 개발하는 개발자들에게 구조화된 컨텍스트, 자동화된 프롬프트 수정, 에이전트 ID 관리 기능을 제공합니다.

SOURCES

[1]

8. Microsoft, 데이터베이스 내 워크플로우를 위한 pg_durable 오픈 소스화

Microsoft는 데이터베이스 내 내구성 있는 실행을 위해 설계된 PostgreSQL 확장인 pg_durable을 오픈 소스로 공개했습니다. pgrx 프레임워크와 Rust를 사용하여 구축된 이 확장을 통해 개발자는 SQL 기반 DSL을 사용하여 장기 실행되는 결함 허용 워크플로우를 정의할 수 있습니다. PostgreSQL 17 또는 18 내에서 상태와 재시도를 기본적으로 관리함으로써 pg_durable은 외부 큐나 워커의 필요성을 제거합니다.

• pg_durable은 상태와 재시도를 기본적으로 관리하는 PostgreSQL 확장(현재 프리뷰)임.
• 외부 크론 작업, 워커, 큐의 필요성을 제거함.
• 시스템은 워크플로우를 정의하기 위해 ~> 및 |=>와 같은 연산자가 포함된 SQL 기반 DSL을 사용함.
• pgrx 프레임워크를 사용하여 구축되었으며 Rust 라이브러리 duroxide 및 duroxide-pg에 의존함.
• PostgreSQL 17 또는 18이 필요하며 shared_preload_libraries에 추가해야 함.

개발자는 외부 큐 인프라 없이도 PostgreSQL 내에서 충돌과 재시작을 견디는 내구성 있는 에이전트형 또는 트랜잭션 워크플로우를 구축할 수 있습니다.

SOURCES

[1]

9. 8GB VRAM 노트북 GPU에서 Qwen 3.6 MoE 최적화하기

한 개발자가 전문가를 CPU로 오프로드하여 8GB VRAM 노트북 GPU에서 Qwen3.6-35B-A3B MoE 모델을 성공적으로 실행했습니다. 주요 최적화로는 페이지 폴트를 방지하기 위해 --no-mmap을 사용하고 1.5GB의 VRAM 여유 공간을 유지하는 것이 포함되었습니다. 놀랍게도 Qwen3.5-0.8B 초안 모델을 사용한 추측 디코딩은 26%의 속도 향상을 제공했는데, 이는 추측 디코딩이 종종 순손실이 되는 전체 GPU 벤치마크와는 상반되는 결과입니다.

• 설정은 MoE 전문가를 CPU로 오프로드하고 --no-mmap을 사용하며 Windows 시스템 메모리 폴백을 피하기 위해 1.5GB VRAM 여유 공간을 유지함.
• Qwen3.5-0.8B 초안 모델을 사용한 추측 디코딩은 26%의 속도 향상을 제공하여 약 39 tps를 달성함.
• K-quants는 최적화된 CPU 커널 덕분에 CPU 오프로드 전문가에게 i-quants보다 더 나은 성능을 보임.
• TurboQuant, Flash Attention, i-quants는 하이브리드 아키텍처로 인해 이점이나 성능 향상을 제공하지 않음.

이는 소비자용 하드웨어에서 대규모 MoE 모델을 실행하기 위한 실행 가능한 구성을 보여주며, 추측 디코딩을 통해 26%의 속도 향상과 함께 초당 39토큰을 달성했습니다.

SOURCES

[1]

10. NVIDIA, 빠른 Kubernetes AI 시작을 위한 Dynamo Snapshot 도입

NVIDIA의 Dynamo Snapshot은 Kubernetes에서 AI 추론을 위한 콜드 스타트 지연 시간을 제거하기 위해 설계된 체크포인트/복원 시스템입니다. GPU 상태를 위한 cuda-checkpoint와 호스트 프로세스 상태를 위한 CRIU를 결합하여 실행 중인 컨테이너를 직렬화합니다. CUDA 가상 메모리 관리를 활용하여 KV 캐시를 언맵(unmap)함으로써 체크포인트 크기를 줄이고 gpt-oss-120b 모델을 5초 미만에 시작할 수 있게 합니다.

• Dynamo Snapshot은 GPU 상태를 위해 cuda-checkpoint를, 호스트 측 프로세스 상태를 위해 CRIU를 사용함.
• 기본 runc 컨테이너 런타임을 수정하지 않고 권한이 있는 snapshot-agent DaemonSet으로 배포됨.
• CUDA 가상 메모리 관리를 통한 KV 캐시 언맵 및 해제로 체크포인트 크기가 줄어듦(예: Qwen3-0.6B의 경우 190 GiB에서 6 GiB로).
• 개념 증명에서 gpt-oss-120b 모델의 시작 시간을 5초 미만으로 단축함.
• 현재 x86_64 GPU 노드, NVIDIA 드라이버 580.xx 이상이 필요하며 제한된 프리뷰에서 vLLM 워커를 지원함.

Kubernetes에 대규모 모델을 배포하는 개발자는 GPU 및 호스트 프로세스 상태를 직렬화하여 콜드 스타트 시간과 스케일업 지연 시간을 크게 줄일 수 있습니다.

SOURCES

[1]

11. Lowfat CLI 도구, LLM 토큰 절약을 위해 장황한 출력 필터링

오픈 소스 도구 'lowfat'은 AI 에이전트로 전송되는 터미널 출력의 장황함을 줄이기 위해 설계된 플러그인 가능한 CLI 필터입니다. 로컬 우선 단일 바이너리로 작동하며 에이전트 훅이나 셸 래퍼 역할을 합니다. 특정 명령에 대한 사용자 정의 가능한 플러그인 시스템을 갖추고 있어 개발자가 Amazon Bedrock과 같은 플랫폼에서 토큰 제한을 피하도록 돕습니다.

• 'lowfat'은 에이전트 훅이나 셸 래퍼로 기능하는 텔레메트리가 없는 단일 바이너리 로컬 우선 도구임.
• 특정 명령에 대한 필터를 사용자 정의할 수 있는 플러그인 시스템을 갖추고 있으며 UNIX 스타일의 구성 가능한 파이프를 지원함.
• 개발자는 2개월간의 개인적인 사용을 통해 총 토큰의 91.8%를 절약했다고 보고함.
• 이 도구는 Amazon Bedrock과 같은 서비스의 토큰 제한에 도달하는 것을 방지하는 데 도움이 됨.

개발자는 이 도구를 에이전트 훅이나 셸 래퍼로 사용하여 코딩 에이전트가 긴 CLI 출력에서 과도한 토큰을 소비하는 것을 방지할 수 있습니다.

SOURCES

[1]

12. BeeLlama.cpp에 구현된 KVarN KV 캐시 양자화

한 개발자가 BeeLlama.cpp(v0.3.2 Preview)라는 llama.cpp 포크에 Huawei의 KVarN KV 캐시 양자화 방식을 구현했습니다. KVarN은 KV 캐시의 3~5배 압축을 제공하여 4비트에서 q5 품질을, 3.5비트에서 q4 품질을 제공합니다. 이 구현은 현재 NVIDIA 하드웨어에서 Qwen 3.6 27B 및 Gemma 4 31B 모델을 지원합니다.

• KVarN은 3~5배 압축을 제공하는 Huawei가 개발한 KV 캐시 양자화 방식임.
• BeeLlama.cpp v0.3.2 Preview 릴리스에 구현되어 Qwen 3.6 27B 및 Gemma 4 31B를 지원함.
• --cache-type-k 및 --cache-type-v 플래그를 사용하여 활성화할 수 있음.
• 벤치마크에 따르면 KVarN은 4비트에서 q5 품질을, 3.5비트에서 q4 품질을 제공하며 TurboQuant보다 높은 정밀도를 보임.

이 구현을 통해 개발자는 높은 정밀도를 유지하면서 메모리 사용량을 크게 줄여 Qwen 3.6 27B 및 Gemma 4 31B를 실행할 수 있습니다.

SOURCES

[1]

13. Braintrust, 대규모 에이전트 추적 분석을 위한 Topics 출시

Braintrust는 프로덕션 에이전트 추적을 대규모로 분석하도록 설계된 지능형 레이어인 Topics를 출시했습니다. 표준 NLP 도구는 비균일한 문서 모양으로 인해 수백 개의 스팬이 있는 백만 토큰 추적을 처리할 때 종종 중단됩니다. Topics는 LLM 요약을 사용하여 분석을 처리 가능하게 만들고 전처리, 임베딩, 클러스터링, 분류 파이프라인을 통해 추적을 처리함으로써 이 문제를 해결합니다.

• Braintrust 설립자 Ankur Goyal은 Anthropic의 Clio 논문에서 영감을 받아 Topics를 도입함.
• 파이프라인은 표준 NLP 도구를 중단시키는 수백 개의 스팬이 있는 백만 토큰 추적을 처리함.
• 전처리, 패싯, 임베딩, 클러스터링, 명명, 분류를 통해 데이터를 처리함.
• 파이프라인은 원시 추적을 임베딩 모델의 컨텍스트 윈도우에 맞추지 않기 위해 LLM 요약을 사용함.

이를 통해 개발자는 LLM 요약을 사용하여 데이터를 임베딩 및 클러스터링에 적합하게 만듦으로써 수백 개의 스팬이 있는 백만 토큰 에이전트 추적을 분석할 수 있습니다.

SOURCES

[1]

14. RedNote, dots.tts 2B 오픈 소스 텍스트 음성 변환 모델 공개

RedNote(샤오홍슈)는 Apache 2.0 라이선스 하에 오픈 소스 20억 파라미터 텍스트 음성 변환 모델인 dots.tts를 출시했습니다. 이 모델은 코덱 토큰과 음소 파이프라인을 모두 우회하는 완전 연속 아키텍처를 특징으로 하며 텍스트에서 직접 48kHz 오디오를 합성합니다. 또한 제로샷 음성 복제를 지원합니다.

• dots.tts는 Apache 2.0 라이선스로 출시된 2B 파라미터 오픈 소스 TTS 모델임.
• 코덱 토큰에 의존하지 않는 완전 연속 아키텍처를 활용함.
• 48kHz 오디오 합성 및 제로샷 음성 복제를 지원함.
• 음소 파이프라인 없이 직접 텍스트 음성 변환 합성을 수행함.

개발자는 음소 파이프라인 없이 48kHz 오디오 합성이 가능한 고품질의 Apache 2.0 라이선스 TTS 모델을 셀프 호스팅할 수 있습니다.

SOURCES

[1]

15. Microsoft Fara 튜토리얼, Colab에서 브라우저 사용 에이전트 시연

새로운 튜토리얼은 Google Colab에서 Microsoft Fara 브라우저 사용 에이전트를 실행하는 방법을 설명합니다. 모의 OpenAI 호환 엔드포인트를 활용하여 개발자는 전체 Fara-7B 모델을 배포하지 않고도 브라우저 자동화 루프를 테스트하고 검증할 수 있습니다. 이 설정은 Fara 저장소를 복제하고 Playwright를 구성하며 vLLM, LM Studio 또는 Azure Foundry를 통해 실제 배포로 전환할 수 있는 옵션을 제공합니다.

• 튜토리얼은 Fara 저장소 복제, 종속성 설치, Playwright 구성을 안내함.
• 모의 OpenAI 호환 엔드포인트를 사용하여 에이전트 루프를 테스트하므로 전체 Fara-7B 배포가 필요 없음.
• 구성 옵션을 통해 Azure Foundry, vLLM, LM Studio 또는 Ollama를 통해 실제 Fara-7B 배포로 전환할 수 있음.
• 에이전트는 fara-cli 또는 fara.run_fara Python 모듈을 통해 실행할 수 있음.

개발자는 전체 Fara-7B 모델을 배포하지 않고도 샌드박스 환경에서 브라우저 자동화 에이전트 루프를 빠르게 테스트하고 검증할 수 있습니다.

SOURCES

[1]

16. llama.cpp 서버, 30초 미만의 모델 핫 스왑 지원

llama.cpp 프로젝트는 개발자가 30초 미만에 활성 모델을 교체할 수 있는 모델 핫스왑 API를 도입했습니다. 이 API는 OpenWebUI 및 Hermes와 호환되며 이전의 PyTorch 기반 교체 방식보다 주요 성능 향상을 제공합니다. 개발자는 공식 CUDA 13 서버 이미지를 사용하여 Podman을 통해 서버를 배포할 수 있습니다.

• llama.cpp 모델 핫스왑 API는 OpenWebUI 및 Hermes와 호환됨.
• 모델 교체 성능은 이전의 PyTorch 기반 방식보다 훨씬 빠름.
• ghcr.io/ggml-org/llama.cpp:server-cuda13 이미지를 사용하여 서버 컨테이너를 실행하는 podman 명령을 사용할 수 있음.
• 구성은 모델 프리셋 파일과 최대 모델 제한을 지원함.

로컬 LLM 서버를 실행하는 개발자는 컨테이너를 재시작하지 않고도 즉석에서 모델을 동적으로 전환하여 리소스 활용도를 높일 수 있습니다.

SOURCES

[1]

17. Unsloth, Gemma 4 MTP GGUF 및 QAT 가중치 공개

Unsloth가 Hugging Face에 Gemma 4 모델을 위한 다중 토큰 예측(MTP) GGUF 가중치를 공개했습니다. 가중치는 31B, 26B-A4B, 12B 모델 크기에 대해 Q8, F16, BF16 형식으로 제공됩니다. 또한 Unsloth는 Gemma 4 QAT 모델 컬렉션과 해당 기술 가이드를 게시했습니다.

• Unsloth는 31B, 26B-A4B, 12B 크기의 Gemma 4를 위한 MTP GGUF 가중치를 공개함.
• MTP GGUF 가중치에 사용할 수 있는 형식에는 Q8, F16, BF16이 포함됨.
• Unsloth는 또한 기술 가이드와 함께 Hugging Face에 Gemma 4 QAT 모델 컬렉션을 게시함.

이 릴리스는 개발자들에게 llama.cpp와 같은 도구를 사용하여 로컬 배포를 위한 최적화되고 즉시 실행 가능한 Gemma 4 모델의 GGUF 형식을 제공합니다.

SOURCES

[1] [2]

18. NVIDIA, Nemotron 3.5 콘텐츠 안전 모델 공개

NVIDIA는 엔터프라이즈 안전 강화를 위해 설계된 모델인 Nemotron 3.5 Content Safety를 공개했습니다. 프로덕션 조정 파이프라인에 통합되도록 구축된 이 모델은 멀티모달 및 다국어 입력을 지원합니다. 감사 가능한 추론 기능을 갖추고 있으며 특정 엔터프라이즈 안전 지침을 충족하도록 사용자 정의할 수 있습니다.

• NVIDIA는 엔터프라이즈 안전 강화를 위해 Nemotron 3.5 Content Safety를 공개함.
• 모델은 멀티모달 및 다국어 입력을 지원함.
• 감사 가능한 추론 기능을 갖추고 있으며 특정 엔터프라이즈 요구 사항에 맞게 사용자 정의할 수 있음.

개발자는 이 모델을 프로덕션 조정 파이프라인에 통합하여 감사 가능한 추론 기능으로 안전을 강화할 수 있습니다.

SOURCES

[1]

1. Google, Gemma 4 양자화 인식 학습(QAT) 체크포인트 공개

2. 오픈 웨이트 모델의 폭발적 증가: 다양한 모달리티에 걸쳐 25개 이상의 주목할 만한 모델 공개

3. Gemma 4 12B 도구 호출 및 코딩 오류 수정

4. llama.cpp를 사용하여 KV 캐시를 시스템 RAM으로 오프로드하기

5. OpenLumara: 모듈형, 토큰 효율적인 로컬 AI 에이전트 프레임워크

6. Alibaba, 오픈 코드 리뷰 CLI 도구 오픈 소스화

7. Microsoft, Build 2026에서 IQ 컨텍스트 레이어 및 에이전트 최적화 도구 발표

8. Microsoft, 데이터베이스 내 워크플로우를 위한 pg_durable 오픈 소스화

9. 8GB VRAM 노트북 GPU에서 Qwen 3.6 MoE 최적화하기

10. NVIDIA, 빠른 Kubernetes AI 시작을 위한 Dynamo Snapshot 도입

11. Lowfat CLI 도구, LLM 토큰 절약을 위해 장황한 출력 필터링

12. BeeLlama.cpp에 구현된 KVarN KV 캐시 양자화

13. Braintrust, 대규모 에이전트 추적 분석을 위한 Topics 출시

14. RedNote, dots.tts 2B 오픈 소스 텍스트 음성 변환 모델 공개

15. Microsoft Fara 튜토리얼, Colab에서 브라우저 사용 에이전트 시연

16. llama.cpp 서버, 30초 미만의 모델 핫 스왑 지원

17. Unsloth, Gemma 4 MTP GGUF 및 QAT 가중치 공개

18. NVIDIA, Nemotron 3.5 콘텐츠 안전 모델 공개

Inference Brew를 인박스로