1. Multi-Token Prediction이 llama.cpp에 병합됨
llama.cpp 프로젝트가 마스터 브랜치에 Multi-Token Prediction(MTP)을 통합했습니다. 이번 업데이트를 통해 추론 엔진이 여러 개의 미래 토큰을 동시에 예측할 수 있게 되어, 지원되는 모델의 생성 처리량이 향상될 수 있습니다. 개발자들은 이제 이 기능을 활용하여 로컬 LLM 배포 환경에서 성능을 최적화할 수 있습니다.
- • Pull request 22673이 마스터 브랜치에 병합되었습니다.
- • MTP 지원이 이제 공식적으로 llama.cpp 코드베이스의 일부가 되었습니다.
- • 개발자들은 MTP 기능으로 학습된 모델에서 향상된 생성 처리량을 기대할 수 있습니다.
MTP는 로컬 추론을 위한 중요한 최적화 기술로, 더 큰 하드웨어 자원 없이도 토큰 생성 속도를 높일 수 있는 경로를 제공합니다.
2. 리포지토리 수준의 코드 인텔리전스를 위한 Repowise
Repowise는 리포지토리를 인덱싱하고 그래프 기반 분석을 수행하여 개발자가 코드베이스를 더 깊이 이해할 수 있도록 돕습니다. NetworkX와 같은 도구를 사용하여 PageRank 점수를 계산해 핵심 구성 요소를 식별하고 데드 코드를 탐지합니다. 또한 CLAUDE.md 파일 생성을 지원하여 AI 에이전트가 개발 작업에 필요한 더 나은 컨텍스트를 확보할 수 있도록 합니다.
- • 그래프 분석을 지원하여 아키텍처 의존성을 식별합니다.
- • 데드 코드 탐지 및 아키텍처 결정 추적 기능을 포함합니다.
- • CLAUDE.md 파일을 생성하여 특정 코드베이스에서 AI 에이전트의 성능을 향상시킵니다.
AI 에이전트가 더 많은 코딩 작업을 수행함에 따라, 환각을 줄이고 코드 품질을 개선하기 위해 정확한 리포지토리 전체 컨텍스트를 제공하는 것이 중요해졌습니다.
3. CTF 대회를 뒤흔드는 프론티어 AI 모델
Claude Opus 4.5 및 GPT-5.5와 같은 고급 AI 모델의 등장은 중급 및 고급 CTF 문제의 자동화를 가능하게 했으며, 경쟁의 중심을 인간의 기술에서 AI 오케스트레이션으로 옮겨놓았습니다. 보안 전문가들은 에이전트가 최소한의 개입으로 복잡한 문제를 해결할 수 있게 됨에 따라, 공개 리더보드가 더 이상 인간의 능력을 측정하는 신뢰할 수 있는 지표가 아니라고 주장합니다.
- • AI 모델은 이제 최소한의 인간 개입으로 중급 및 고급 CTF 문제를 해결할 수 있습니다.
- • CTFTime 리더보드는 더 이상 인간의 보안 기술을 측정하는 신뢰할 수 있는 지표로 간주되지 않습니다.
- • 보안 전문가들은 picoGym이나 HackTheBox와 같은 교육 플랫폼으로 이동하고 있습니다.
전통적인 경쟁 방식이 AI 기반 자동화에 점점 더 취약해짐에 따라, 보안 기술을 측정하고 검증하는 방법에 대한 재평가가 요구되고 있습니다.
4. NVIDIA, SANA-WM 월드 모델 공개
SANA-WM은 단일 이미지와 6DoF 카메라 궤적을 사용하여 1분 길이의 720p 영상을 생성하는 새로운 오픈소스 월드 모델입니다. 이 모델은 Gated DeltaNet 블록을 포함한 하이브리드 아키텍처를 사용하여 일정한 순환 상태를 유지함으로써 효율적인 영상 생성을 가능하게 합니다. Apache 2.0 라이선스로 제공되며, 고성능 소비자용 하드웨어에서 1분 이내에 클립을 생성할 수 있습니다.
- • 단일 이미지로부터 60초 분량의 720p 영상을 생성합니다.
- • 효율적인 순환 상태 관리를 위한 하이브리드 아키텍처를 특징으로 합니다.
- • NVlabs/Sana 리포지토리를 통해 Apache 2.0 라이선스로 제공됩니다.
이번 공개는 개발자들에게 고성능 오픈소스 영상 생성 및 월드 모델링 도구를 제공하여, 장편 합성 영상 콘텐츠 제작의 진입 장벽을 크게 낮췄습니다.
5. DeepSeek-V4-Flash와 로컬 LLM 스티어링
llama.cpp의 버전인 DwarfStar 4를 통해 개발자들은 내장된 스티어링 기능을 사용하여 DeepSeek-V4-Flash를 로컬에서 실행할 수 있습니다. 추론 과정에서 내부 수치 활성화를 조작함으로써 사용자는 모델의 동작을 유도할 수 있습니다. 스티어링은 출력에 영향을 주는 방법을 제공하지만, 표준 프롬프트 엔지니어링에 비하면 여전히 틈새 기술로 남아 있습니다.
- • 스티어링은 모델 활성화에 대한 직접적인 접근이 필요하므로 오픈 웨이트 모델로 제한됩니다.
- • DwarfStar 4는 스티어링을 llama.cpp 추론 워크플로우에 직접 통합합니다.
- • 대부분의 스티어링 애플리케이션은 현재 더 간단한 프롬프트 엔지니어링 기술에 밀리고 있습니다.
직접적인 활성화 스티어링은 모델 동작을 제어하는 강력하면서도 복잡한 방법을 제공하며, 이는 오픈 웨이트 모델에서만 가능합니다.
6. Pwn2Own 2026에서 표적이 된 AI 코딩 에이전트
Pwn2Own Berlin 2026 행사는 AI가 통합된 개발 도구의 공격 표면이 커지고 있음을 보여주었습니다. 연구원들은 Cursor AI 코딩 에이전트와 OpenAI의 Codex에서 제로데이 취약점을 발견하여 상당한 상금을 받았습니다. 이러한 발견은 로컬 개발 환경과 상호 작용하는 AI 에이전트를 배포할 때 내재된 보안 위험을 강조합니다.
- • Cursor AI와 OpenAI Codex에서 제로데이 취약점이 식별되었습니다.
- • 연구원들은 AI 관련 취약점 공격으로 총 5만 달러의 상금을 받았습니다.
- • 이번 행사는 AI 통합 개발 플랫폼에 대한 보안 감사의 필요성을 강화합니다.
AI 코딩 에이전트가 로컬 파일 및 시스템에 대한 접근 권한을 확보함에 따라 공격자들의 주요 표적이 되고 있으며, 이에 따라 AI 네이티브 도구에 대한 더 강력한 보안 관행이 필요해졌습니다.
7. LiteLLM 에이전트 플랫폼 출시
LiteLLM 에이전트 플랫폼은 프로덕션 환경에서 여러 AI 에이전트를 관리하기 위해 설계된 셀프 호스팅 인프라 계층을 제공합니다. 팀별 및 컨텍스트별 샌드박스 격리를 제공하여 포드 재시작 시에도 세션 연속성을 보장합니다. 이 플랫폼은 기존 LiteLLM AI 게이트웨이와 통합되어 모델 라우팅 및 비용 추적을 처리하는 동시에 영구 저장소와 런타임 관리를 추가합니다.
- • 에이전트 세션을 위한 격리된 런타임 환경을 제공합니다.
- • 포드 재시작 및 업그레이드 전반에 걸쳐 세션 연속성을 보장합니다.
- • Kubernetes 기반으로 구축되었으며 LiteLLM AI 게이트웨이와 통합됩니다.
이 플랫폼은 프로덕션 환경에서 AI 에이전트를 확장할 때 발생하는 격리, 지속성 및 인프라 관리와 같은 운영상의 문제를 해결합니다.
8. 장기 컨텍스트 사전 학습을 위한 Lighthouse Attention
Lighthouse Attention은 쿼리, 키, 값을 풀링하기 위해 다단계 피라미드를 사용하여 스케일드 닷 프로덕트 어텐션의 계산 비용을 줄입니다. 이 접근 방식은 어텐션 복잡도를 O(N²d)에서 O(S²d)로 낮추어 사전 학습 중 실제 소요 시간을 크게 단축합니다. 이 방법은 학습 전용으로 설계되었으며, 추론 호환성을 위해 밀집 어텐션(dense attention)으로 모델을 재개할 수 있습니다.
- • 어텐션 복잡도를 O(N²d)에서 O(S²d)로 줄입니다.
- • 사전 학습 중 1.4~1.7배의 엔드투엔드 속도 향상을 제공합니다.
- • 학습 후 추론을 위해 밀집 어텐션과 호환됩니다.
효율적인 장기 컨텍스트 사전 학습은 현대 LLM의 주요 병목 현상이며, 이 방법은 표준 밀집 어텐션의 막대한 비용 없이 100만 개 이상의 토큰으로 확장할 수 있는 방법을 제공합니다.