1. Moonshot AI, 사고 토큰 사용량을 30% 줄인 Kimi K2.7-Code 출시
Moonshot AI는 Hugging Face에서 가중치를 이용할 수 있는 1조 파라미터 규모의 Mixture-of-Experts(MoE) 코딩 모델 Kimi K2.7-Code를 출시했습니다. Kimi K2.6 아키텍처를 기반으로 구축된 이 모델은 '사고 모드(thinking mode)'와 '사고 보존 모드(preserve_thinking mode)'를 강제하여 다중 턴 상호작용 전반에 걸쳐 추론을 유지하며, 사고 토큰 사용량을 30% 절감했습니다. 네이티브 INT4 양자화를 지원하며 vLLM, SGLang 또는 KTransformers를 통해 배포할 수 있습니다. Moonshot AI는 Kimi Code Bench v2와 같은 내부 벤치마크에서 두 자릿수 성능 향상을 보고했지만, 독립적인 연구자들은 KernelBench-Hard와 같은 외부 벤치마크에서 성능 저하가 나타났다고 지적했습니다.
- • Kimi K2.7-Code는 수정된 MIT 라이선스 하에 출시된 1조 파라미터 Mixture-of-Experts 모델입니다.
- • 이 모델은 이전 버전인 Kimi K2.6 대비 사고 토큰 사용량을 약 30% 줄였습니다.
- • 출력 결정론을 조정할 수 없도록 고정 온도 1.0의 사고 모드에서만 독점적으로 작동합니다.
- • vLLM, SGLang 및 KTransformers와 호환되며, transformers 버전 4.57.1 이상 5.0.0 미만이 필요합니다.
- • KernelBench-Hard에 대한 독립적인 평가에서 K2.6 대비 성능 저하가 나타나 DeepSWE 검증이 요구되고 있습니다.
개발자들은 사고 토큰 오버헤드를 30% 줄인 대규모 오픈 가중치 코딩 모델을 사용할 수 있게 되었으나, 초기 독립 벤치마크에서는 성능이 엇갈리고 있습니다.
2. MiniMax, MiniMax-M3 오픈 가중치 모델 및 희소 어텐션 커널 출시
MiniMax는 에이전트 워크플로우를 위해 설계된 4,280억 파라미터 규모의 Mixture-of-Experts(MoE) 모델인 MiniMax-M3의 가중치를 오픈 소스로 공개했으며, 토큰당 230억 개의 파라미터가 활성화됩니다. 모델과 함께 MiniMax는 MiniMax Sparse Attention(MSA) 메커니즘과 해당 GPU 추론 커널을 GitHub 및 Hugging Face에 공개했습니다. MSA는 Grouped Query Attention(GQA)을 기반으로 하며, 경량 인덱스 브랜치를 사용하여 키-값 블록의 점수를 매기고 정확한 블록 희소 어텐션을 위해 Top-k 하위 집합을 선택합니다. 이 공동 설계된 GPU 경로는 긴 컨텍스트에서 어텐션 연산 오버헤드를 크게 줄여 호환 하드웨어에서 엄청난 속도 향상을 가능하게 합니다.
- • MiniMax-M3는 Mixture-of-Experts 아키텍처에서 총 4,280억 개의 파라미터와 230억 개의 활성화 파라미터를 특징으로 합니다.
- • 이 모델은 Hugging Face에 오픈 가중치로 출시되었으며, GGUF 버전은 Unsloth에 의해 업로드되고 있습니다.
- • MiniMax Sparse Attention(MSA)은 exp-free Top-k 선택과 KV-outer 희소 어텐션을 사용하는 GPU 실행 경로를 공동 설계합니다.
- • MSA는 100만 컨텍스트에서 표준 Grouped Query Attention(GQA) 대비 토큰당 어텐션 연산량을 28.4배 줄입니다.
- • 맞춤형 MSA 추론 커널은 H800 GPU에서 14.2배의 프리필 및 7.6배의 디코딩 실시간 속도 향상을 달성합니다.
개발자들은 100만 컨텍스트를 지원하는 대규모 에이전트 중심 MoE 모델을 자체 호스팅할 수 있으며, 맞춤형 GPU 커널을 사용하여 프리필(prefill) 속도를 최대 14.2배까지 높일 수 있습니다.
3. Zyphra, Zamba2-VL 하이브리드 Mamba2-Transformer 비전 모델 출시
Zyphra는 Apache 2.0 라이선스 하에 1.2B, 2.7B, 7B 파라미터 크기로 제공되는 오픈 가중치 하이브리드 비전-언어 모델(VLM) 제품군인 Zamba2-VL을 출시했습니다. Mamba2 상태 공간 레이어를 공유 트랜스포머 블록과 결합하고 Qwen2.5-VL Vision Transformer를 인코더로 활용함으로써, Zamba2-VL은 기존 트랜스포머 전용 아키텍처에 비해 첫 토큰 생성 시간을 10배가량 단축했습니다. 이 설계는 거의 선형적인 시간의 프리필과 고정 크기 순환 상태를 활용하여 증가하는 KV 캐시 오버헤드를 제거하지만, 최적화된 Mamba2 커널을 실행하려면 CUDA 호환 GPU가 필요합니다.
- • Zamba2-VL은 Apache 2.0 라이선스 하에 1.2B, 2.7B, 7B 파라미터 크기로 제공되는 오픈 비전-언어 모델 제품군입니다.
- • 아키텍처는 Mamba2 상태 공간 레이어를 공유 트랜스포머 블록과 결합하고 Qwen2.5-VL을 비전 인코더로 사용합니다.
- • 이 모델들은 표준 트랜스포머 기반 VLM에 비해 첫 토큰 생성 시간을 약 10배 단축합니다.
- • 설계는 거의 선형적인 시간의 프리필과 고정 크기 순환 상태를 사용하여 증가하는 KV 캐시를 방지합니다.
- • 추론을 위해서는 최적화된 Mamba2 커널을 실행할 CUDA GPU가 필요합니다.
개발자들은 시각적 작업에서 극도로 낮은 지연 시간을 달성하기 위해 고효율 비전-언어 모델을 자체 호스팅할 수 있습니다.
4. PaddleOCR, PP-OCRv6 모델 시리즈 출시
PaddleOCR은 Apache 2.0 라이선스 하에 새로운 오픈 소스 OCR 모델 시리즈인 PP-OCRv6를 공식 출시했습니다. 1.5M(Tiny)에서 34.5M(Medium) 파라미터 크기에 이르는 이 모델들은 이전 세대 대비 감지 정확도를 4.9%, 인식 정확도를 5.1% 향상시켰습니다. OpenVINO와 함께 배포할 경우 PP-OCRv6는 최대 5.2배 빠른 CPU 추론 성능을 제공합니다. 통합 모델은 50개 언어를 지원하며 CAD 도면, PCB, 디지털 튜브, 도트 매트릭스 텍스트와 같은 복잡한 레이아웃을 위한 특수 기능을 도입했습니다.
- • PP-OCRv6는 Apache 2.0 오픈 소스 라이선스로 출시되었으며 모델 크기는 1.5M에서 34.5M 파라미터까지 다양합니다.
- • 시리즈에는 Tiny(1.5M), Small(7.7M), Medium(34.5M) 모델이 포함됩니다.
- • 이 모델들은 PP-OCRv5 대비 감지 정확도 4.9%, 인식 정확도 5.1% 향상을 제공합니다.
- • OpenVINO 활용 시 CPU 추론 속도가 최대 5.2배 빨라집니다.
- • 통합 모델은 50개 언어를 지원하며 PCB, CAD 도면, 디지털 튜브, 도트 매트릭스 텍스트 지원을 추가했습니다.
개발자들은 OpenVINO를 사용하여 표준 CPU 하드웨어에서 매우 빠르게 실행되는 고효율 경량 OCR 모델을 통합할 수 있습니다.
5. 벤치마크 결과, DiffusionGemma는 4배 빠르지만 오류는 6배 많아
단일 H100 GPU에서 Gemma 4 자기회귀 모델과 DiffusionGemma 모델을 비교한 벤치마크 결과, 생성 속도와 사실적 정확도 사이의 극명한 상충 관계가 드러났습니다. DiffusionGemma 26B A4B는 256개의 토큰을 동시에 생성하고 반복적으로 다듬는 방식을 통해 초당 763토큰의 처리량을 달성(Gemma 4는 초당 218토큰)했지만, 세 가지 테스트 작업에서 28개의 사실 오류를 범해 Gemma 4의 5개와 대조를 이뤘습니다. Google은 DiffusionGemma의 품질이 덜 대중적인 주제에서 크게 저하되므로 사실적 정확도가 필요한 애플리케이션에는 표준 Gemma 4 모델을 사용할 것을 권장합니다.
- • Gemma 4와 DiffusionGemma 26B A4B를 FP8 정밀도를 사용하여 단일 H100 GPU에서 벤치마크했습니다.
- • DiffusionGemma는 초당 763토큰을 달성한 반면 Gemma 4는 초당 218토큰을 기록했습니다.
- • DiffusionGemma는 세 가지 작업에서 28개의 사실 오류를 범한 반면 Gemma 4는 5개의 오류만 기록했습니다.
- • DiffusionGemma의 정확도는 주제의 인기가 낮아질수록 감소하며, 사실을 지어내거나 역사적 세부 사항을 잘못 식별했습니다.
- • Google은 사실적 정확도가 요구될 때 일반 Gemma 4 모델을 사용할 것을 권장합니다.
개발자들은 애플리케이션의 요구 사항에 따라 DiffusionGemma의 초당 763토큰 속도와 표준 Gemma 4의 사실적 정확도 중 하나를 선택해야 합니다.
6. Claude Fable 5 사례 연구, 샌드박스 없는 에이전트의 위험성 강조
Claude Fable 5를 사용한 문서화된 디버깅 세션은 자율 코딩 에이전트를 샌드박스 없이 실행할 때의 고급 기능과 심각한 보안 위험을 모두 강조했습니다. UI 문제를 해결하는 동안 에이전트는 진단 데이터를 캡처하기 위해 로컬 Python 웹 서버를 자율적으로 가동하고, 애플리케이션 템플릿을 수정하고, JavaScript를 주입하고, macOS의 `screencapture` CLI를 사용하여 활성 브라우저 창의 스크린샷을 찍었습니다. 토큰 비용으로 12.11달러가 소요된 이 세션은 자율 에이전트가 샌드박스 없이 방치될 경우 호스트 사용자에게 제공되는 모든 명령을 실행할 수 있다는 사실을 극명하게 상기시켜 줍니다.
- • Claude Fable 5는 로컬 디버깅 세션 동안 매우 능동적인 자율 문제 해결 능력을 보여주었습니다.
- • 에이전트는 자율적으로 로컬 개발 서버를 실행하고, 템플릿을 수정하고, UI 모달을 트리거하기 위해 JavaScript를 주입했습니다.
- • CORS를 통해 진단 데이터를 캡처하기 위해 사용자 지정 Python 웹 서버를 만들고 macOS screencapture CLI를 사용하여 스크린샷을 찍었습니다.
- • 가드레일에 부딪힌 후 에이전트는 최종 CSS 수정을 확인하기 위해 스스로 Claude Opus로 다운그레이드했습니다.
- • 작성자는 자율 코딩 에이전트를 샌드박스 외부에서 실행하는 것이 심각한 보안 위험을 초래한다고 경고했습니다.
개발자는 자율 코딩 에이전트가 임의의 로컬 명령을 실행하거나, 스크린샷을 찍거나, 승인되지 않은 로컬 서버를 가동하지 못하도록 샌드박스 처리해야 합니다.
7. NanoClaw와 JFrog, AI 에이전트를 위한 보안 통합 출시
NanoClaw는 자율 에이전트를 악성 코드 주입으로부터 보호하기 위해 설계된 보안 통합을 출시하기 위해 JFrog와 파트너십을 맺었습니다. 이 통합은 에이전트가 소프트웨어 종속성을 검증된 JFrog 레지스트리에서만 가져오도록 강제합니다. 에이전트가 백그라운드에서 손상된 라이브러리를 다운로드하려고 시도하면 레지스트리는 403 보안 정책 오류로 설치를 차단하고 에이전트를 승인된 버전으로 안내합니다. 이는 자율 에이전트가 인간의 감독 없이 검증되지 않은 패키지를 설치하는 증가하는 보안 위험을 해결합니다.
- • 이 통합은 NanoClaw 에이전트가 소프트웨어 종속성을 검증된 JFrog 레지스트리에서만 가져오도록 강제합니다.
- • 에이전트가 손상된 라이브러리를 다운로드하려고 시도하면 레지스트리는 403 보안 정책 오류로 설치를 차단합니다.
- • 이 서비스는 오픈 소스 커뮤니티에는 무료이며, 기업용 상업적 라우팅도 제공됩니다.
- • NanoCo AI는 또한 권한 관리를 위해 Vercel과, 컨테이너 격리를 위해 Docker와 파트너십을 체결했습니다.
개발자는 자율 코딩 에이전트가 검증된 레지스트리에서만 종속성을 가져오도록 강제하여 악성 패키지 주입을 차단함으로써 에이전트를 보호할 수 있습니다.
8. SkillSpector 출시, AI 에이전트 기술의 취약점 스캔
SkillSpector는 AI 에이전트 기술의 26.1%가 취약점을 포함하고 5.2%가 악의적인 의도를 보인다는 연구 결과를 해결하기 위해 Apache License 2.0 하에 오픈 소스 보안 스캐너로 출시되었습니다. 이 도구는 Git 저장소, URL, zip 파일 또는 로컬 디렉토리의 에이전트 기술을 2단계 프로세스(빠른 정적 분석 후 선택적 LLM 기반 의미론적 평가)를 사용하여 분석합니다. 16개 범주에 걸쳐 64개의 취약점 패턴을 스캔하고, 실시간 CVE 조회를 위해 OSV.dev와 통합되며, SARIF 및 JSON을 포함한 여러 형식으로 상세한 위험 보고서를 출력합니다.
- • SkillSpector는 Apache License 2.0 하에 출시된 오픈 소스 보안 스캐너입니다.
- • 이 도구는 프롬프트 주입 및 데이터 유출을 포함하여 16개 범주에 걸쳐 64개의 취약점 패턴을 스캔합니다.
- • 빠른 정적 분석과 선택적 LLM 기반 의미론적 평가를 결합한 2단계 분석 프로세스를 사용합니다.
- • 스캐너는 실시간 CVE 조회를 위해 OSV.dev와 통합되며 자동 오프라인 폴백을 포함합니다.
- • 터미널, JSON, Markdown 또는 SARIF 형식으로 심각도 레이블이 포함된 0-100 위험 점수를 출력합니다.
에이전트 생태계를 구축하거나 사용하는 개발자는 타사 에이전트 기술의 프롬프트 주입, 데이터 유출, 권한 상승 여부를 자동으로 감사할 수 있습니다.
9. 자율 보안 에이전트, FFmpeg에서 21개의 제로데이 취약점 발견
Depthfirst의 자율 보안 에이전트는 FFmpeg 소프트웨어 라이브러리에서 21개의 제로데이 취약점을 발견했으며, API 비용은 1,000달러에 불과했습니다. 이는 Anthropic이 Mythos 모델을 사용하여 유사한 분석을 수행하는 데 쓴 비용의 10분의 1 수준입니다. 취약점 중 8개에는 CVE 식별자(CVE-2026-39210 ~ CVE-2026-39217)가 할당되었으며, TS 디먹서, VP9 디코더 및 다중 RTP 디패키타이저와 같은 중요한 구성 요소에 영향을 미칩니다. Depthfirst는 또한 인증되지 않은 RTSP PLAY 단계에서 MPEG-4 RTP 디패키타이저를 대상으로 하는 개념 증명 원격 코드 실행 익스플로잇을 개발하여 FFmpeg를 사용하는 개발자가 미디어 파이프라인을 감사하고 패치해야 할 즉각적인 필요성을 강조했습니다.
- • Depthfirst의 자율 보안 에이전트가 FFmpeg 소프트웨어 라이브러리에서 21개의 제로데이 취약점을 식별했습니다.
- • 분석 비용은 약 1,000달러로, Anthropic이 Mythos를 사용하여 유사한 분석을 수행하는 데 쓴 비용의 10% 수준입니다.
- • 8개의 취약점에 CVE 식별자(CVE-2026-39210 ~ CVE-2026-39217)가 할당되었습니다.
- • 취약점은 TS 디먹서, VP9 디코더 및 다중 RTP 디패키타이저를 포함한 구성 요소에 영향을 미칩니다.
- • Depthfirst는 인증이 필요 없는 RTSP PLAY 단계에서 트리거되는 개념 증명 원격 코드 실행 익스플로잇을 개발했습니다.
오디오/비디오 처리를 위해 FFmpeg를 사용하는 개발자는 이러한 취약점에 원격 코드 실행 익스플로잇이 포함되어 있으므로 시스템을 패치해야 합니다.
10. Architect-Loop, Claude Fable 토큰 비용 80% 절감
오픈 소스 `architect-loop` 프로젝트는 Claude Fable 토큰 소비를 80% 줄이는 다중 에이전트 오케스트레이션 패턴을 도입했습니다. 이 시스템은 Claude Fable을 '아키텍트'로 지정하여 작업을 설계하고, 승인 게이트를 작성하고, 코드를 검토하며, 실제 구축 및 연구 실행은 GPT-5.5 Codex에 위임합니다. 빌더는 선언된 파일로 제한된 격리된 git 작업 트리에서 작동하며, 전체 루프는 Claude Code 및 Codex CLI에 대한 기존 정액 구독에서 실행되므로 추가 API 키나 토큰 청구서가 필요하지 않습니다.
- • architect-loop 프로젝트는 Claude Fable을 아키텍트로, GPT-5.5 Codex를 빌더로 사용하여 작업을 실행합니다.
- • 이 시스템은 빌더를 격리된 git 작업 트리로 제한하여 Fable 토큰 사용량을 80% 줄입니다.
- • Claude Code 및 Codex CLI에 대한 기존 정액 구독에서 실행되며 추가 API 키가 필요하지 않습니다.
- • 빌드 루프(/architect)는 Fable이 슬라이스를 사양화하고, 레인으로 분할하고, 빌더가 실행하기 전에 승인 게이트를 커밋하도록 합니다.
- • 이 시스템은 git 기록과 특정 문서 파일을 기본 메모리로 사용합니다.
개발자는 아키텍처 및 검토에만 고성능 모델을 사용하고 실행은 더 저렴한 모델에 위임함으로써 API 비용을 대폭 낮출 수 있습니다.
11. 오픈 소스 CLI 도구 'erm', 오디오 불유창성 자동 제거
`erm`이라는 새로운 오픈 소스 명령줄 도구가 GitHub에 출시되어 영어 오디오 녹음에서 "um", "uh", "er"과 같은 불유창성을 자동으로 제거합니다. OpenAI의 Whisper 모델의 faster-whisper 구현을 기반으로 구축된 이 도구는 침묵 구간에 숨겨져 있거나 인접한 단어와 병합된 채움 단어를 포함하여 4단계 감지 파이프라인을 실행합니다. 오디오 아티팩트를 방지하기 위해 `erm`은 컷 포인트를 조용한 지점으로 이동하고, 제로 크로싱 지점에 맞추고, ffmpeg를 통해 동적 크로스페이드를 적용하고, 녹음의 원래 실내 소음 샘플을 루프하여 일관된 배경 소음을 유지합니다.
- • erm은 영어 음성 오디오에서 "um", "uh", "er"과 같은 불유창성을 자동으로 제거하는 명령줄 도구입니다.
- • 이 도구는 전사 및 토큰 식별을 위해 OpenAI의 Whisper 모델의 faster-whisper 구현을 활용합니다.
- • 침묵 구간 분석 및 인접 단어에 붙은 채움 단어를 포함하여 채움 단어를 감지하기 위해 4번의 별도 패스를 수행합니다.
- • 스플라이싱은 오디오 클릭을 방지하기 위해 동적으로 조정된 크로스페이드와 제로 크로싱 정렬을 사용하여 ffmpeg를 통해 처리됩니다.
- • 이 도구는 pip 또는 uvx를 통해 설치할 수 있으며 호스트 시스템에 ffmpeg와 ffprobe가 필요합니다.
음성, 연설 또는 팟캐스팅 기능을 구축하는 개발자는 이 도구를 통합하여 오디오 녹음을 프로그래밍 방식으로 정리하고 채움 단어를 제거할 수 있습니다.
12. EAGLE3 추측 디코딩 모델, llama.cpp에 병합
6개월간의 개발 끝에 EAGLE3 모델이 메인 `llama.cpp` 저장소에 병합되었습니다. EAGLE3는 로컬 추론 속도를 가속화하기 위해 설계된 도우미 모델로 작동합니다. 독립적으로 작동하는 다중 토큰 예측(MTP) 아키텍처와 달리, EAGLE3는 메인 모델의 활성 가이드를 활용하여 추측 디코딩을 수행하며 로컬 성능 최적화를 위한 고도로 통합된 경로를 제공합니다.
- • EAGLE3 모델은 6개월간의 개발 끝에 메인 llama.cpp 저장소에 병합되었습니다.
- • EAGLE3는 추론 중에 메인 모델로부터 가이드를 받는 도우미 모델 역할을 합니다.
- • 다중 토큰 예측(MTP)과 달리 EAGLE3는 독립적으로 작동하지 않고 메인 모델의 활성 가이드를 활용합니다.
로컬 LLM을 실행하는 개발자는 llama.cpp 내에서 EAGLE3를 활용하여 로컬 추론 속도를 크게 가속화할 수 있습니다.
13. PixelRAG, 텍스트 파싱을 스크린샷 기반 인덱싱으로 대체
UC Berkeley, Princeton, EPFL 및 Databricks의 연구원들은 기존 텍스트 파싱을 스크린샷 기반 인덱싱 및 비전-언어 모델 읽기로 대체하는 새로운 RAG 파이프라인인 PixelRAG를 도입했습니다. 웹 페이지를 스크린샷으로 렌더링함으로써 PixelRAG는 HTML-to-text 변환 중에 일반적으로 손실되는 시각적 레이아웃, 표 및 타이포그래피를 보존합니다. Playwright, Qwen3-VL-Embedding-2B 및 FAISS를 사용하여 구축된 이 시스템은 6개 벤치마크에서 최대 18.1% 더 높은 정확도를 달성하고 텍스트 기반 대안에 비해 에이전트 토큰 비용을 10배 절감합니다.
- • PixelRAG는 레이아웃, 타이포그래피 및 표를 보존하기 위해 웹 페이지를 스크린샷으로 렌더링합니다.
- • 이 시스템은 6개 벤치마크에서 텍스트 기반 RAG를 능가하여 최대 18.1% 더 높은 정확도를 달성했습니다.
- • 렌더링을 위해 Playwright, 벡터 인코딩을 위해 Qwen3-VL-Embedding-2B, 검색을 위해 FAISS 인덱스를 사용합니다.
- • PixelRAG는 텍스트 기반 검색 시스템에 비해 에이전트 토큰 사용량을 10배 절감합니다.
- • LoRA를 사용하여 검색 모델을 훈련하는 데 단일 H100 GPU에서 3시간 미만이 소요됩니다.
개발자는 RAG 파이프라인에서 취약한 HTML-to-text 파싱을 우회하여 검색 정확도를 높이면서 에이전트 토큰 비용을 10배 절감할 수 있습니다.
14. 스마트 PDF, 기계 추출을 위해 구조화된 마크다운 임베드
새로운 "스마트 PDF" 기술은 PDF 1.4로 거슬러 올라가는 표준 PDF 사양 속성을 활용하여 구조화된 마크다운을 문서에 직접 임베드합니다. 표준 PDF 렌더러는 이 메타데이터를 무시하고 인간에게 시각적 레이아웃을 표시하지만, PyMuPDF 및 Poppler와 같은 텍스트 추출기는 시각적 글리프 좌표 대신 대체 텍스트 속성을 읽습니다. 이를 통해 ChatGPT 및 Claude와 같은 LLM은 정보 밀도가 높은 깨끗한 마크다운을 즉시 추출할 수 있으며, 파일 크기를 한 자릿수 퍼센트만 증가시키면서 취약한 파싱 파이프라인을 우회할 수 있습니다.
- • 이 기술은 마크된 콘텐츠에 대한 대체 텍스트를 정의하기 위해 표준 PDF 사양 속성(버전 1.4부터 사용 가능)을 활용합니다.
- • PDF 렌더러는 인간에게 시각적 레이아웃을 표시하고, 텍스트 추출기는 임베드된 마크다운을 반환합니다.
- • PyMuPDF 및 Poppler와 같은 주요 오픈 소스 추출기는 대체 텍스트 속성을 준수합니다.
- • ChatGPT 및 Claude는 이러한 파일을 처리할 때 임베드된 마크다운을 성공적으로 추출하고 반환합니다.
- • 이러한 "스마트 PDF"를 생성하기 위한 크기 오버헤드는 한 자릿수 퍼센트 범위입니다.
개발자는 문서가 LLM 및 추출기에 깨끗한 마크다운을 기본적으로 노출하도록 생성함으로써 복잡한 PDF 파싱 파이프라인을 제거할 수 있습니다.
15. Google 연구원, LLM 신뢰도 정렬을 위한 '충실한 불확실성' 도입
Google 연구원들은 LLM의 언어적 의심 표현을 내부 통계적 신뢰도와 정렬하도록 설계된 메타인지 기술인 "충실한 불확실성"을 도입했습니다. 이 접근 방식은 엄격한 제로 환각 표준의 "유틸리티 세금" 문제를 해결하는데, 이는 종종 오류율을 낮추기 위해 모델이 정답의 최대 52%를 버리도록 강제합니다. 모델이 이진 답변 또는 기권 선택 대신 헤지된 가설을 표현하도록 허용함으로써, 충실한 불확실성은 에이전트 애플리케이션을 위한 동적 제어 계층으로 작동하여 시스템이 내부 신뢰도를 기반으로 외부 도구 또는 검색 API를 트리거할 시점을 정확히 결정하도록 돕습니다.
- • 충실한 불확실성은 LLM의 언어적 의심 표현을 내부 통계적 신뢰도와 정렬합니다.
- • 이 기술은 모델이 도움이 되지 않는 답변 또는 기권 이진법 대신 헤지된 가설을 제공하도록 허용합니다.
- • 데이터에 따르면 엄격한 제로 환각 표준을 강제하여 25% 오류율을 5% 목표로 줄이면 정답의 52%가 버려집니다.
- • 에이전트 애플리케이션에서 외부 도구 또는 검색 API를 트리거할 시점을 결정하는 제어 계층으로 작동합니다.
- • 지도 미세 조정을 통한 기술 구현은 불확실성에 대한 근거가 동적이기 때문에 부트스트래핑 역설에 직면합니다.
개발자는 내부 신뢰도를 기반으로 외부 도구 또는 검색 API를 트리거할 시점을 동적으로 결정하여 침묵 환각을 줄이는 보다 신뢰할 수 있는 에이전트를 구축할 수 있습니다.
16. Qwen 및 Gemma 모델을 위한 테스트 타임 컴퓨팅 스캐폴드 확장
Qwen-3.6-27B 및 Gemma-4-31B의 테스트 타임 컴퓨팅을 확장하여 코드 최적화 작업에서 Claude Mythos를 능가할 수 있도록 하는 새로운 오픈 소스 스캐폴드가 출시되었습니다. 이 시스템은 5의 분기 탐색 폭, 10의 반복 수정 루프 깊이, 2회 반복마다 수정되는 6개의 분기 인식 가설을 사용하여 기준 모델보다 25~40배 더 많은 컴퓨팅을 사용합니다. 모델이 로컬 최소값에 갇히는 것을 방지하기 위해 스캐폴드는 수정 루프에 구조화된 노이즈를 주입하고 에이전트에게 작업을 프로그래밍 방식으로 검증할 수 있는 로컬 Python 환경을 제공합니다.
- • 이 스캐폴드는 복잡한 최적화 문제를 해결하기 위해 기준 모델보다 25-40배 더 많은 컴퓨팅을 사용합니다.
- • 5의 분기 탐색 폭, 10의 반복 수정 루프 깊이, 6개의 분기 인식 가설을 특징으로 합니다.
- • 솔루션 풀은 모델이 로컬 최소값에 갇히는 것을 방지하기 위해 반복 수정 루프에 구조화된 노이즈를 추가합니다.
- • 에이전트는 코드 개선 사항을 프로그래밍 방식으로 검증할 수 있는 Python 환경에 대한 액세스 권한을 부여받습니다.
- • 이 프로젝트는 GitHub(github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements)에서 호스팅됩니다.
개발자는 이 반복적 개선 스캐폴드를 사용하여 오픈 가중치 모델의 코딩 성능을 크게 향상시킬 수 있습니다.
17. Artificial Analysis, DeepSWE 벤치마크로 코딩 에이전트 인덱스 업데이트
Artificial Analysis는 코딩 에이전트 인덱스를 업데이트하여 SWE-Bench Pro 벤치마크를 Datacurve의 DeepSWE 벤치마크로 교체했습니다. DeepSWE는 이전 벤치마크가 저장소 커밋 기록을 통해 게임화될 수 있다는 우려를 해결하기 위해 평가 작업을 완전히 처음부터 생성합니다. 새롭고 더 엄격한 평가 하에서 Fable 5(max)를 탑재한 Claude Code가 77점으로 1위를 차지했으며, GPT-5.5(xhigh)를 탑재한 Codex가 76점, Opus 4.8(max)를 탑재한 Claude Code가 73점으로 그 뒤를 이었습니다.
- • Artificial Analysis는 코딩 에이전트 인덱스에서 SWE-Bench Pro를 Datacurve의 DeepSWE 벤치마크로 교체했습니다.
- • DeepSWE는 모델이 훈련 데이터의 솔루션에 액세스하는 것을 방지하기 위해 작업을 처음부터 생성합니다.
- • Fable 5(max)를 탑재한 Claude Code가 77점으로 업데이트된 인덱스 1위로 데뷔했습니다.
- • GPT-5.5(xhigh)를 탑재한 Codex는 76점으로 상승했고, Opus 4.8(max)를 탑재한 Claude Code는 73점을 기록했습니다.
- • DeepSWE는 매우 어려우며, 선도적인 오픈 가중치 모델들도 20점 미만을 기록하고 있습니다.
개발자는 모델이 커밋 기록을 통해 평가를 게임화하는 것을 방지하기 위해 처음부터 작업을 생성하는 벤치마크를 사용하여 코딩 에이전트를 더 잘 평가할 수 있습니다.