1. BitLocker 우회 취약점 공개
Nightmare-Eclipse라는 보안 연구원이 BitLocker로 보호된 볼륨에 무단으로 접근할 수 있는 'YellowKey'라는 취약점을 공개했습니다. 공격자는 Windows 복구 환경을 조작하여 암호 없이 전체 볼륨 암호화를 우회할 수 있습니다. 이 결함은 Windows 11, Windows Server 2022, Windows Server 2025에 영향을 미칩니다. 보안 전문가들은 공식 패치가 완전히 배포될 때까지 VeraCrypt와 같은 대체 암호화 도구 사용을 권장하고 있습니다.
- • YellowKey는 Windows 복구 환경을 통해 BitLocker 암호화를 우회합니다.
- • Windows 11, Windows Server 2022, Windows Server 2025에 영향을 미칩니다.
- • Windows 10에는 영향을 미치지 않습니다.
- • 보안 전문가들은 VeraCrypt와 같은 대체 암호화 솔루션 고려를 권장합니다.
민감한 AI 워크로드를 위해 Windows 기반 인프라에 의존하는 개발자와 조직에게 이 취약점은 저장 데이터에 대한 심각한 위험을 초래합니다.
2. AMD SEV-SNP 취약점 공개
연구원들이 악의적인 하이퍼바이저가 AMD SEV-SNP 보안을 손상시킬 수 있는 CVE-2025-54510 취약점을 발견했습니다. 공격자는 Infinity Fabric 메모리 라우팅을 잘못 구성하여 보안 보조 프로세서가 환경을 부적절하게 초기화하도록 속임으로써, 기밀 가상 머신(Confidential Virtual Machine) 메모리에 대한 임의의 읽기 및 쓰기 권한을 얻을 수 있습니다. 이 공격은 결정론적이며 Zen 3, Zen 4, Zen 5 EPYC 프로세서에 영향을 미칩니다.
- • 공격을 통해 하이퍼바이저 수준에서 기밀 가상 머신 메모리에 접근할 수 있습니다.
- • AMD Zen 3, Zen 4, Zen 5 EPYC 프로세서에 영향을 미칩니다.
- • AMD는 AMD-SB-3034 권고를 통해 수정 사항을 발표했습니다.
- • 실행하려면 하이퍼바이저 권한이 필요합니다.
이 취약점은 보안 다중 테넌트 AI 추론 및 학습 환경에 필수적인 기밀 컴퓨팅(Confidential Computing)에 필요한 하드웨어 수준의 격리를 약화시킵니다.
3. Grafana Labs GitHub 침해 사고
Grafana Labs는 최근 권한 없는 행위자가 자사의 GitHub 환경에 접근하여 회사 코드베이스를 다운로드한 보안 사고를 공개했습니다. 공격자는 회사에 금품을 요구했으나, Grafana는 FBI의 지침에 따라 몸값 지불을 거부했습니다. 이후 회사는 침해된 자격 증명을 무효화하고 추가적인 보안 조치를 시행했습니다. 고객 데이터나 개인 정보가 유출되었다는 보고는 없습니다.
- • Grafana의 GitHub 환경에 대한 무단 접근으로 코드베이스가 다운로드되었습니다.
- • 고객 데이터나 개인 정보는 유출되지 않았습니다.
- • Grafana는 금품 요구에 응하지 않았습니다.
- • 이번 침해 사고는 CoinbaseCartel 데이터 갈취 그룹과 관련이 있습니다.
이 사건은 인프라 제공업체에 대한 공급망 및 소스 코드 노출의 지속적인 위험을 강조하며, 강력한 자격 증명 관리의 필요성을 보여줍니다.
4. NousResearch, Hermes Agent 모델 출시
NousResearch는 Hermes 에이전트의 기능을 향상시키기 위해 설계된 9B 파라미터 모델을 출시했습니다. 이 모델은 도구 호출 및 코딩 작업에서 상당한 개선을 보여주었으며, SWE-bench 벤치마크에서 53.33%, HermesAgent-20 벤치마크에서 85점을 기록했습니다. 개발자들은 에이전트 워크플로우에서 최적의 성능을 위해 1.0의 온도를 사용할 것을 권장합니다.
- • 도구 호출 및 에이전트 코딩에 최적화된 9B 파라미터 모델입니다.
- • SWE-bench(200개 샘플 슬라이스)에서 53.33%를 달성했습니다.
- • HermesAgent-20 벤치마크에서 기본 모델보다 뛰어난 성능을 보입니다.
- • 에이전트 워크플로우에 권장되는 온도는 1.0입니다.
이 릴리스는 신뢰할 수 있는 도구 사용이 필요한 자율 코딩 에이전트를 구축하는 개발자들에게 고성능의 소규모 모델을 제공합니다.
5. Qwopus3.5-9B-Coder 출시
Qwopus3.5-9B-Coder 모델은 복잡한 도구 호출, 디버깅 및 리포지토리 수준의 작업 처리를 위해 설계된 9B 파라미터 밀집 모델입니다. 16GB RAM을 탑재한 기기에서 8비트 정밀도로 실행되도록 최적화되어 표준 노트북 및 Mac mini에 적합합니다. 이 모델은 논리적 일관성과 도구 사용 능력을 향상시키기 위해 Trace Inversion 데이터 증강을 통합했습니다.
- • 코딩, 디버깅 및 도구 호출을 위한 9B 밀집 모델입니다.
- • 16GB RAM 기기에서 8비트 정밀도로 최적화되었습니다.
- • 최소 8GB VRAM에서도 작동합니다.
- • 추론 능력 향상을 위해 Trace Inversion 데이터 증강을 사용합니다.
이 모델은 로컬 하드웨어에서 고품질 코딩 및 도구 호출 기능이 필요한 개발자들에게 작고 효율적인 옵션을 제공합니다.
6. 그래프 강화 RAG를 위한 아키텍처 패턴
검색 증강 생성(RAG)은 벡터 전용 방식이 의미론적 유사성은 포착하지만 구조적 토폴로지는 무시하기 때문에 상호 연결된 데이터에서 어려움을 겪는 경우가 많습니다. 그래프 강화 RAG는 벡터 검색과 그래프 데이터베이스를 결합하여 계층 구조 및 종속성과 같은 관계를 유지함으로써 이를 해결합니다. 권장되는 아키텍처는 엔티티 추출을 위한 수집, 저장을 위한 그래프 데이터베이스, 벡터 스캔과 그래프 탐색을 모두 사용하는 하이브리드 검색의 3계층 스택을 사용합니다.
- • 벡터 전용 RAG는 구조적 관계를 포착하지 못하는 경우가 많습니다.
- • 그래프 강화 RAG는 벡터 검색과 그래프 데이터베이스를 결합합니다.
- • 아키텍처에는 수집, 그래프 저장, 하이브리드 검색이 포함됩니다.
- • 규제 도메인 및 다중 홉 관계 쿼리에 권장됩니다.
규제 대상이거나 복잡한 도메인을 위한 RAG 시스템을 구축하는 개발자에게 그래프 강화 RAG는 다중 홉(multi-hop) 쿼리에 대해 더 나은 설명 가능성과 정확성을 제공합니다.
7. Vercel Labs, Zero 언어 도입
Zero는 기계 기반 오류 처리 및 코드 수정을 용이하게 하기 위해 구축된 실험적 시스템 프로그래밍 언어입니다. 컴파일러는 안정적인 오류 코드와 유형이 지정된 수정 ID를 포함하는 구조화된 JSON 진단을 출력하여 AI 에이전트가 프로그래밍 방식으로 코드 문제를 이해하고 수정할 수 있도록 합니다. 이 언어는 기능 기반 I/O를 특징으로 하며, 예측 가능한 메모리 및 제어 흐름을 보장하기 위해 암시적 비동기(async)나 가비지 컬렉션을 피합니다.
- • AI 에이전트가 네이티브 프로그램을 읽고, 수정하고, 배포하도록 설계되었습니다.
- • 10 KiB 미만의 네이티브 실행 파일로 컴파일됩니다.
- • 기계 기반 오류 처리를 위해 구조화된 JSON 진단을 출력합니다.
- • 기능 기반 I/O를 특징으로 하며 필수 가비지 컬렉션이 없습니다.
Zero는 네이티브 시스템 수준의 코드와 상호 작용하고 유지 관리해야 하는 자율 에이전트를 구축하는 개발자에게 전문화된 툴체인을 제공합니다.
8. Semble: 에이전트를 위한 효율적인 코드 검색
Semble은 대규모 코드베이스에서 작업하는 AI 에이전트의 효율성을 높이기 위해 설계된 코드 검색 도구입니다. 정적 Model2Vec 임베딩과 BM25를 결합하고, RRF를 통해 융합하며, 코드 인식 신호로 재순위(rerank)를 지정합니다. 이 도구는 완전히 CPU에서 실행되며 외부 API 키가 필요 없고 Claude Code 및 Cursor와 같은 MCP 서버와 호환됩니다. 대형 트랜스포머 모델의 검색 품질을 99% 유지하면서 토큰 사용량을 크게 줄입니다.
- • 검색을 위해 정적 Model2Vec 임베딩과 BM25를 사용합니다.
- • 외부 API 의존성 없이 완전히 CPU에서 실행됩니다.
- • Claude Code, Cursor 및 기타 MCP 서버와 호환됩니다.
- • grep 기반 방식에 비해 토큰 사용량을 98% 줄입니다.
Semble은 외부 임베딩 서비스의 오버헤드 없이 에이전트가 대규모 리포지토리를 탐색할 수 있는 비용 효율적이고 성능이 뛰어난 방법을 제공합니다.
9. LLM 압축 튜토리얼 공개
이 튜토리얼은 llmcompressor 라이브러리를 사용하여 LLM의 사후 학습 양자화(post-training quantization)를 위한 실용적인 프레임워크를 제공합니다. FP16 기준, FP8 동적 양자화, GPTQ W4A16, GPTQ W8A8을 사용한 SmoothQuant 등 네 가지 변형을 비교합니다. 워크플로우는 UltraChat 200k 데이터셋을 보정용으로 사용하여 디스크 크기, 생성 지연 시간, 처리량 및 퍼플렉서티(perplexity)를 포함한 성능 지표를 평가합니다.
- • FP8, GPTQ 및 SmoothQuant 양자화 방식을 비교합니다.
- • 디스크 크기, 지연 시간, 처리량 및 퍼플렉서티를 평가합니다.
- • 사후 학습 양자화를 위해 llmcompressor 라이브러리를 사용합니다.
- • 보정에는 UltraChat 200k 데이터셋에서 256개의 샘플을 사용합니다.
이 가이드는 개발자가 정확도 복구와 하드웨어별 성능 향상 사이의 균형을 맞춰 모델 배포를 최적화하도록 돕습니다.
10. Llama.cpp 업데이트, 프롬프트 처리 개선
llama.cpp의 최신 업데이트인 버전 b9200에는 MTP(Multi-Token Prediction)를 위한 최적화가 포함되어 있습니다. 프롬프트 처리 중 배치 내 모든 토큰에 대해 로짓을 복사하는 것을 방지하고 사전 정규화(pre-norm)를 활용함으로써, 이 업데이트는 메모리 트래픽을 줄입니다. 이 변경 사항은 MTP를 사용하는 모델의 프롬프트 처리(PP) 속도를 높이기 위해 특별히 설계되었습니다.
- • Llama.cpp b9200이 출시되었습니다.
- • 메모리 트래픽을 줄이기 위해 MTP 로짓 최적화를 도입했습니다.
- • 프롬프트 처리(PP) 속도를 향상시킵니다.
- • 중복 로짓 복사를 방지하기 위해 사전 정규화에 의존합니다.
이 최적화는 MTP 지원 모델을 로컬에서 실행하는 개발자에게 직접적인 성능 향상을 제공하여 프롬프트 수집 중 지연 시간을 줄여줍니다.
11. Llama.cpp용 듀얼 GPU 텐서 분할 수정
커뮤니티에서 개발한 llama.cpp 포크 버전은 --split-mode 텐서 기능이 비양자화된 KV 캐시만 지원하던 제한 사항을 해결합니다. 이 수정 사항은 양자화된 캐시에 대한 텐서 분할을 가능하게 하여 듀얼 GPU 설정에서 초당 토큰 수를 40% 증가시킵니다. 이 포크 버전은 최신 MTP 변경 사항에 대한 지원도 포함하고 있지만, 현재 MoE 아키텍처보다는 밀집 모델에 권장됩니다.
- • 양자화된 KV 캐시에 대한 텐서 분할 문제를 수정합니다.
- • 듀얼 GPU 설정에서 40%의 속도 향상을 제공합니다.
- • 최신 MTP 변경 사항에 대한 지원을 포함합니다.
- • 밀집 모델에 권장되며, MoE 지원은 여전히 제한적입니다.
이 수정 사항을 통해 다중 GPU 설정을 사용하는 개발자는 양자화된 KV 캐시를 사용할 때 추론 성능을 크게 향상시킬 수 있습니다.
12. 혼합 GPU 클러스터에서의 추론 엔진 벤치마크
벤치마크 연구는 Blackwell 및 Ada 아키텍처를 특징으로 하는 이기종 7-GPU 클러스터에서 vLLM, SGLang 및 llama.cpp를 평가했습니다. vLLM은 혼합 다중 GPU 설정에서 우수한 성능을 입증했으며, 파이프라인 병렬 처리로 어려움을 겪은 llama.cpp에 비해 초당 토큰 수가 훨씬 높았습니다. SGLang은 순수 Blackwell 설정에서는 잘 작동했지만, FP4 가중치에 대한 소프트웨어 폴백(fallback)이 부족하여 혼합 클러스터에서는 실패했습니다.
- • vLLM이 혼합 GPU 클러스터에서 llama.cpp 및 SGLang보다 뛰어난 성능을 보였습니다.
- • llama.cpp는 파이프라인 병렬 처리 문제로 인해 4~6배 느리게 작동했습니다.
- • SGLang은 구형 Ada 카드에서 FP4 가중치에 대한 소프트웨어 폴백이 부족합니다.
- • vLLM은 구형 하드웨어에서 FP4를 에뮬레이션하여 혼합 설정을 지원합니다.
이기종 하드웨어 클러스터를 관리하는 개발자에게 이러한 결과는 긴 컨텍스트 추론 성능을 위해 엔진 선택이 얼마나 중요한지를 강조합니다.
13. 지속적 학습을 위한 자기 증류(Self-Distillation)
연구원들은 전문가 시연으로부터 직접 온폴리시(on-policy) 학습을 가능하게 하는 SDFT(Self-Distillation Fine-Tuning) 방법을 도입했습니다. 시연 조건부 모델을 자체 교사로 사용함으로써, SDFT는 새로운 기술을 습득하면서 이전 기능을 보존하는 학습 신호를 생성합니다. 이 방법은 새로운 작업에서 더 높은 정확도를 달성하고 파멸적 망각을 크게 줄임으로써 표준 지도 미세 조정(SFT)보다 지속적으로 뛰어난 성능을 보입니다.
- • SDFT는 이전 지식을 보존하기 위해 모델을 자체 교사로 사용합니다.
- • 파운데이션 모델의 파멸적 망각을 줄입니다.
- • 새로운 작업에서 지도 미세 조정(SFT)보다 뛰어난 성능을 보입니다.
- • 전문가 시연으로부터 온폴리시 학습을 가능하게 합니다.
SDFT는 진화하는 데이터셋에서 모델을 미세 조정하기 위한 보다 강력한 접근 방식을 제공하며, 이는 장기적인 에이전트 또는 도메인별 애플리케이션에서 성능을 유지하는 데 중요합니다.
14. 엔터프라이즈 AI 구독 비용 상승
AI 연구소들은 에이전트 AI 워크플로우에 대한 컴퓨팅 비용이 현재의 가격 모델을 초과함에 따라 정액제 구독에서 벗어나고 있습니다. 예를 들어, GitHub는 Copilot을 사용량 기반 과금으로 전환하고 있으며, 다른 제공업체들도 헤비 유저를 위한 더 높은 등급의 가격 책정을 도입하고 있습니다. 기업들이 IPO를 준비함에 따라 초점은 지속 가능한 단위 경제성으로 이동하고 있으며, 이는 보조금이 많이 지원되던 엔터프라이즈 AI 서비스 시대의 종말을 알리는 신호입니다.
- • 정액제 모델은 에이전트 AI 워크플로우에 지속 가능하지 않습니다.
- • GitHub Copilot은 사용량 기반 과금으로 전환하고 있습니다.
- • AI 연구소들은 수익성과 더 높은 단위 경제성에 초점을 맞추고 있습니다.
- • 에이전트 AI는 챗봇에 비해 토큰 소비를 크게 증가시킵니다.
업계가 사용량 기반 가격 모델로 이동함에 따라 조직은 훨씬 더 높은 AI 운영 비용에 대비해야 합니다.