Audesso | Daily: AI

Huawei, vLLM용 3-5배 KV-캐시 양자화 기술인 KVarN 오픈소스 공개

00:00 / --:--

← 메인으로

Huawei, vLLM용 3-5배 KV-캐시 양자화 기술인 KVarN 오픈소스 공개

1. Huawei, vLLM용 3-5배 KV-캐시 양자화 기술인 KVarN 오픈소스 공개

Huawei는 긴 컨텍스트 및 에이전트 워크로드를 위해 KV-캐시 양자화를 최적화하도록 설계된 vLLM용 네이티브 어텐션 백엔드인 KVarN을 오픈소스로 공개했습니다. KVarN은 모델 변경이나 보정 없이 4단계 프로세스(Hadamard 회전, 반복적 분산 정규화, 비대칭 반올림 양자화)를 통해 KV 캐시를 3-5배 압축합니다. 이를 통해 FP16 대비 최대 1.3배, TurboQuant 대비 2.4배의 처리량을 달성하면서도 FP16 수준의 추론 정확도를 유지합니다.

  • KVarN은 3-5배 더 많은 KV-캐시 용량을 제공하며 FP16 대비 최대 1.3배의 처리량을 달성합니다.
  • 모델 변경이나 보정이 필요 없는 네이티브 vLLM 어텐션 백엔드로 구현되었습니다.
  • 기본 구성(kvarn_k4v2_g128)은 4비트 키와 2비트 값을 사용합니다.
  • FP16 수준의 추론 정확도를 유지하면서 TurboQuant보다 최대 2.4배 높은 처리량을 달성합니다.
  • vLLM v0.22.0을 기반으로 구축되었으며 Apache 2.0 라이선스로 출시되었습니다.

vLLM에서 긴 컨텍스트나 에이전트 워크로드를 실행하는 개발자는 모델을 재학습하거나 보정할 필요 없이 서비스 용량과 처리량을 크게 늘릴 수 있습니다.

SOURCES

2. Stanford와 Lambda Labs, 로컬 에이전트 프레임워크 OpenJarvis 출시

Stanford 대학교와 Lambda Labs의 연구진은 온디바이스 AI 에이전트를 실행하기 위한 오픈소스 로컬 우선 프레임워크인 OpenJarvis를 출시했습니다. 이 프레임워크는 'spec'이라는 선언적 구성 객체를 사용하여 에이전트 시스템을 5개의 교체 가능한 기본 요소로 분해합니다. 최적화 과정에서 클라우드 티처 모델을 활용한 LLM 기반 spec 검색을 통해, OpenJarvis는 추론 시 클라우드 호출 없이 로컬 모델을 실행할 수 있으며, 클라우드 모델 대비 800배 낮은 한계 API 비용으로 상위 클라우드 모델과 3.2% 포인트 이내의 성능을 달성합니다.

  • OpenJarvis는 Apache 2.0 라이선스로 출시된 오픈소스 로컬 우선 프레임워크입니다.
  • AI 시스템을 지능, 엔진, 에이전트, 도구 및 메모리, 학습이라는 5가지 기본 요소로 분해합니다.
  • LLM 기반 spec 검색과 클라우드 티처 모델을 사용하여 로컬 spec을 최적화하며, 추론 시 클라우드 호출이 전혀 필요 없습니다.
  • Qwen3.5, Gemma4, Nemotron, Granite 등 4개 제품군에 걸쳐 11개의 로컬 모델을 지원합니다.
  • ToolCall-15 및 PinchBench와 같은 벤치마크에서 클라우드 모델 성능과 대등하거나 그 이상의 결과를 보였습니다.
  • 25개 이상의 데이터 커넥터와 32개의 메시징 채널에 대한 기본 지원을 포함합니다.

개발자는 API 비용을 800배 절감하고 지연 시간을 4배 단축하면서도 상위 클라우드 모델과 3.2% 포인트 이내의 성능을 내는 고성능 로컬 에이전트를 구축할 수 있습니다.

SOURCES

3. Anthropic, Claude Code의 OS 수준 샌드박싱 및 보안 상세 공개

Anthropic은 Claude Code 및 Claude Cowork를 포함한 에이전트 제품의 보안 격리 전략을 상세히 공개했습니다. 사용자 오용, 모델 오작동 및 외부 공격으로부터 보호하기 위해 Claude Code는 OS 수준 샌드박싱(macOS의 Seatbelt, Linux의 bubblewrap)을 사용하여 실행을 격리하며, Claude Cowork는 전체 가상 머신 내에서 실행됩니다. Anthropic은 내부 레드팀 테스트를 통해 악의적인 프롬프트가 AWS 자격 증명을 탈취하는 등의 위험을 확인했으며, 보안 방어는 환경 계층에서의 격리를 우선시해야 한다고 강조합니다.

  • Claude Code는 OS 수준 샌드박싱(macOS의 Seatbelt, Linux의 bubblewrap)을 사용하여 권한 요청을 84% 줄였습니다.
  • Claude Code의 자동 모드는 실행 전 과도하게 의욕적인 에이전트 동작의 약 83%를 포착합니다.
  • Claude Cowork는 에이전트를 격리하기 위해 전체 가상 머신 아키텍처(Apple의 가상화 프레임워크 또는 Windows HCS)를 사용합니다.
  • Anthropic은 신뢰 경계를 설정하기 전에 프로젝트 로컬 구성이 파싱되는 Claude Code의 취약점 보고를 받았습니다.
  • 내부 레드팀 연습을 통해 직원이 악의적인 프롬프트로 Claude Code를 실행하도록 유도되어 AWS 자격 증명이 탈취될 수 있음이 입증되었습니다.
  • Anthropic은 모델 계층에서 동작을 제어하기 전에 환경 계층에서의 격리를 우선시할 것을 권장합니다.

에이전트 기반 코딩 도구를 구축하거나 사용하는 개발자는 악의적인 프롬프트와 무단 자격 증명 탈취로부터 환경을 보호하는 방법을 배울 수 있습니다.

SOURCES

4. Anthropic, 자율 취약점 탐지를 위한 참조 구현 오픈소스 공개

Anthropic은 Claude 기반의 자율 취약점 탐지 및 수정을 위한 참조 구현을 공개했습니다. 이 오픈소스 파이프라인은 Docker와 AddressSanitizer(ASAN)를 사용하여 C/C++ 메모리 취약점을 타겟팅하며, 저장소를 스캔하고 문제를 분류하며 패치를 제안하도록 설계되었습니다. 실행 중 안전을 보장하기 위해 파이프라인은 gVisor 샌드박스를 사용하여 자율 에이전트를 격리하며, Bedrock, Vertex, Azure 전반의 Claude API를 지원합니다.

  • 이 저장소는 Claude를 사용한 자율 취약점 탐지 및 수정을 위한 참조 구현을 제공합니다.
  • 파이프라인은 실행 중 자율 에이전트를 격리하기 위해 gVisor 샌드박스를 사용합니다.
  • Docker와 AddressSanitizer(ASAN)를 사용하여 C/C++ 메모리 취약점을 찾도록 구성되었습니다.
  • 프로세스는 빌드, 정찰, 탐지, 검증, 중복 제거, 보고, 패치의 7단계로 구성됩니다.
  • Bedrock, Vertex, Azure를 포함한 Claude API를 지원합니다.
  • 이 저장소는 유지 관리되지 않으며 기여를 받지 않습니다.

개발자는 코드베이스 내 C/C++ 메모리 취약점을 자동으로 스캔, 분류 및 패치하기 위한 구조화된 샌드박스 파이프라인을 배포할 수 있습니다.

SOURCES

5. Boxes.dev, Claude Code를 위한 클라우드 전용 에이전트 개발 환경 출시

창업자 Nick과 Drew는 전용 원격 컴퓨팅에서 Claude Code 및 Codex 에이전트를 실행하도록 설계된 클라우드 전용 에이전트 개발 환경인 boxes.dev를 출시했습니다. 개발자 환경의 클라우드 스냅샷에서 에이전트를 실행함으로써, 이 플랫폼은 로컬 리소스 제약 및 git 워크트리 관리 문제를 해결합니다. 이 서비스에는 데스크톱 앱, 모바일 앱, 예약된 자동화 및 Slack 통합 기능이 포함되어 있습니다.

  • Boxes.dev는 Codex 및 Claude Code 에이전트를 실행하기 위한 전용 클라우드 컴퓨터를 제공합니다.
  • 이 플랫폼은 git 워크트리 관리 및 리소스 제약과 같은 로컬 개발의 한계를 해결하는 것을 목표로 합니다.
  • 사용자가 전체 개발 환경의 스냅샷을 사용하여 원격 컴퓨팅에서 에이전트를 실행할 수 있습니다.
  • 데스크톱 앱, 모바일 앱, 예약된 자동화 및 Slack 통합 기능을 포함합니다.

개발자는 리소스 집약적인 코딩 에이전트를 로컬 머신에서 오프로드하고 원격 컴퓨팅 스냅샷에서 에이전트를 실행하여 git 워크트리 충돌을 피할 수 있습니다.

SOURCES

6. Miso Labs, 8B 파라미터 오픈 가중치 텍스트 음성 변환(TTS) 모델 MisoTTS 출시

Miso Labs는 수정된 MIT 라이선스 하에 80억 파라미터 오픈 가중치 텍스트 음성 변환 모델인 MisoTTS를 출시했습니다. 이 모델은 시간 예측을 위한 7.7B 백본과 깊이 예측을 위한 300M 디코더를 결합한 잔차 벡터 양자화(RVQ) 아키텍처를 사용합니다. MisoTTS는 텍스트와 오디오 컨텍스트를 모두 조건으로 하여 화자의 톤을 일치시키며, 반이중 단일 턴 상호작용에서 110ms의 지연 시간을 달성한다고 주장합니다.

  • MisoTTS는 수정된 MIT 라이선스로 출시된 8B 파라미터 오픈 가중치 텍스트 음성 변환 모델입니다.
  • 이 모델은 7.7B 백본과 300M 디코더로 구성된 잔차 벡터 양자화(RVQ) 아키텍처를 사용합니다.
  • 화자의 톤에 반응하기 위해 텍스트와 오디오 컨텍스트를 모두 조건으로 합니다.
  • Miso Labs는 Sesame의 300ms, ElevenLabs의 700ms와 비교하여 110ms의 지연 시간을 주장합니다.
  • 이 모델은 현재 반이중 단일 턴 상호작용으로 제한됩니다.

개발자는 상용 대안보다 훨씬 빠른 110ms의 지연 시간을 가진 반응성이 뛰어나고 감정이 풍부한 TTS 모델을 직접 호스팅할 수 있습니다.

SOURCES

7. Gradio 6.16.0 출시, 보안 패치 및 구성 가능한 하트비트 도입

Gradio 버전 6.16.0이 출시되어 여러 보안 패치와 기능 업데이트가 도입되었습니다. 이번 릴리스는 `gr.FileExplorer`의 경로 탐색 취약점, OAuth의 오픈 리다이렉트 우회, Image, Gallery 및 Audio 후처리의 SSRF 취약점을 해결합니다. 또한 `GRADIO_HEARTBEAT_INTERVAL` 환경 변수를 통한 구성 가능한 세션 하트비트를 도입하고, MCP 엔드포인트가 브라우저에서 랜딩 페이지를 표시하도록 업데이트했습니다.

  • Gradio 6.16.0은 `GRADIO_HEARTBEAT_INTERVAL` 환경 변수를 통해 구성 가능한 하트비트 기능을 도입합니다.
  • MCP 엔드포인트가 브라우저를 통해 방문할 때 랜딩 페이지를 표시하도록 업데이트되었습니다.
  • 보안 패치는 `gr.FileExplorer`의 경로 탐색, OAuth의 오픈 리다이렉트 우회, Image, Gallery 및 Audio 후처리의 SSRF를 해결합니다.
  • Dataframe 및 Tabs 브라우저 멈춤 현상에 대한 버그 수정이 포함되어 있습니다.

Gradio를 사용하는 개발자는 경로 탐색, 오픈 리다이렉트 및 SSRF 취약점을 패치하고 더 나은 세션 제어를 위해 즉시 업데이트해야 합니다.

SOURCES

8. NVIDIA, UI 이해를 위한 3B 로컬 모델 LocateAnything 출시

NVIDIA는 UI 자동화 및 화면 이해를 위해 로컬에서 실행되도록 설계된 경량 모델인 LocateAnything 3B를 출시했습니다. 이 모델은 그라운딩, OCR 및 UI 이해를 결합하여 언어적 설명에 따라 객체, 버튼 또는 텍스트를 즉시 찾아내며, 개발자가 화면을 인식하는 로컬 에이전트 워크플로우를 구축할 수 있도록 지원합니다.

  • NVIDIA는 로컬에서 실행되도록 설계된 LocateAnything 3B 모델을 출시했습니다.
  • 이 모델은 그라운딩, OCR 및 UI 이해를 결합합니다.
  • 언어적 설명에 따라 객체, 버튼 또는 텍스트를 즉시 찾아냅니다.

개발자는 이 경량 로컬 모델을 통합하여 클라우드 API에 의존하지 않고도 화면을 인식하는 에이전트 및 음성 제어 UI 자동화 도구를 구축할 수 있습니다.

SOURCES

9. NVIDIA, 간접 프롬프트 주입을 위한 에이전트 안전 데이터셋 출시

NVIDIA는 개발자가 도구를 사용하는 에이전트의 보안을 평가할 수 있도록 돕기 위해 Hugging Face에 에이전트 안전 데이터셋을 공개했습니다. 이 데이터셋에는 9개 엔터프라이즈 도메인에 걸친 1,272개의 합성 레드팀 레코드가 포함되어 있으며, 에이전트가 도구 반환 데이터에 포함된 간접 프롬프트 주입에 저항할 수 있는지 테스트하도록 특별히 설계되었습니다.

  • NVIDIA는 Hugging Face에 에이전트 안전 데이터셋을 공개했습니다.
  • 데이터셋은 1,272개의 합성 레드팀 레코드로 구성됩니다.
  • 9개의 서로 다른 엔터프라이즈 도메인을 다룹니다.
  • 도구 반환 데이터에 숨겨진 간접 프롬프트 주입에 대해 도구를 사용하는 에이전트를 테스트하도록 설계되었습니다.

개발자는 이 데이터셋을 사용하여 외부 데이터 소스에 숨겨진 악의적인 페이로드로부터 도구를 사용하는 에이전트를 평가하고 강화할 수 있습니다.

SOURCES

10. BeeLlama v0.3.1, 업스트림 llama.cpp 통합 및 로컬 추론 가속화

BeeLlama 버전 0.3.0 및 0.3.1이 출시되어 업스트림 llama.cpp와 일치하는 아키텍처 업데이트를 제공합니다. 이번 업데이트는 Gemma 4 12B, 다중 GPU DFlash 구성, q6_0 KV 캐시 및 새로운 양자화 옵션에 대한 지원을 도입합니다. 단일 RTX 3090에서의 벤치마크 결과, Qwen 3.6 27B 및 Gemma 4 31B 모델에 대해 기본 성능 대비 최대 4.93배의 속도 향상을 보였습니다.

  • BeeLlama v0.3.0 및 v0.3.1은 업스트림 llama.cpp와 일치하며 MTP 및 Gemma 4 12B 지원을 통합합니다.
  • DFlash는 다중 슬롯 및 다중 GPU 구성을 처리하도록 개선되었습니다.
  • 모든 주요 플랫폼에 대한 사전 빌드된 바이너리와 Docker 이미지를 제공합니다.
  • q6_0 KV 캐시 및 TQ3_1S/TQ4_1S 모델 양자화 옵션에 대한 지원이 추가되었습니다.
  • RTX 3090에서의 벤치마크 결과, DFlash는 Qwen 3.6 27B 및 Gemma 4 31B 모델에 대해 최대 4.93배의 속도 향상을 달성했습니다.

로컬 모델을 실행하는 개발자는 사전 빌드된 바이너리와 Docker 이미지를 활용하여 Qwen 3.6 및 Gemma 4 모델의 추론을 가속화할 수 있습니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.