Fable-5 및 Kimi-K2.7-Code, 자동 연구 벤치마크 상위권 차지

1. Fable-5 및 Kimi-K2.7-Code, 자동 연구 벤치마크 상위권 차지

ML 엔지니어링, 하네스/프롬프트 엔지니어링, 알고리즘 발견 등 세 가지 범주의 자동 연구 작업을 평가하는 새로운 벤치마크에서 Anthropic의 Fable-5가 비용 제약을 고려하더라도 종합 1위를 차지했습니다. 그러나 ML 엔지니어링에 집중하는 개발자들에게는 오픈 웨이트 모델인 Kimi-K2.7-Code가 테스트된 모든 프론티어 모델을 능가하여 로컬 또는 특수 코딩 파이프라인을 위한 강력한 후보로 떠올랐습니다.

• 7개의 프론티어 모델을 ML 엔지니어링, 하네스/프롬프트 엔지니어링, 알고리즘 발견 등 3가지 자동 연구 범주에서 벤치마크함.
• Anthropic의 Fable-5가 비용 제약 조건 하에서도 벤치마크 종합 1위를 차지함.
• 오픈 웨이트 모델인 Kimi-K2.7-Code가 특히 ML 엔지니어링 범주에서 프론티어 모델들을 능가함.

자동 연구 또는 고급 코딩 에이전트를 구축하는 개발자는 이 벤치마크를 활용하여 알고리즘 발견 및 ML 엔지니어링 작업에 가장 적합한 모델을 선택할 수 있습니다.

SOURCES

[1]

2. Nemotron Super 120B 대 Qwen 및 GPT-OSS 벤치마크 비교

Strix Halo 128GB 공유 메모리 시스템에서 실행된 로컬 벤치마크는 Nemotron Super 120B의 성능을 GPT-OSS 120B, Qwen 3.5 122B, Qwen 3.6 35B와 비교했습니다. 결과에 따르면 Nemotron Super는 프롬프트 처리에서 탁월한 성능을 보이며 32K 컨텍스트에서 GPT-OSS 120B를, 16K 컨텍스트에서 Qwen 3.5 122B를 앞섰습니다. 그러나 Nemotron Super는 400K라는 방대한 컨텍스트 윈도우를 지원함에도 불구하고 최대 깊이에서는 토큰 생성 속도가 거의 사용 불가능한 수준으로 떨어져, 일반적인 용도로는 더 작은 Qwen 3.6 35B가 매우 경쟁력 있는 대안이 됩니다.

• Ubuntu 26.04 및 Lemonade Server를 실행하는 Strix Halo 128GB 공유 메모리 시스템에서 벤치마크를 수행함.
• 비교 모델: GPT-OSS 120B, Qwen 3.5 122B, Nemotron Super 120B, Qwen 3.6 35B.
• Nemotron Super는 최대 400K 컨텍스트 깊이를 지원하며, GPT-OSS는 128K, Qwen 3.5/3.6은 256K를 지원함.
• Nemotron Super는 32K 컨텍스트에서 GPT-OSS 120B보다, 16K 컨텍스트에서 Qwen 3.5 122B보다 프롬프트 처리 속도가 빠름.
• Nemotron Super의 토큰 생성 속도는 10 TPS 이상에서 시작하여 400K 컨텍스트 깊이에서는 거의 사용 불가능한 수준으로 저하됨.

120B 미만의 로컬 모델을 선택하는 개발자는 이 벤치마크를 사용하여 깊은 컨텍스트 길이에서의 생성 지연 시간과 프롬프트 처리 속도 간의 균형을 맞출 수 있습니다.

SOURCES

[1]

3. 표준화된 에이전트 프로토콜의 부상: MCP, ACP, A2A, ANP

AI 에이전트 생태계는 2024년 말부터 2025년 초 사이에 발표된 4가지 주요 프로토콜을 중심으로 통합되고 있습니다. Anthropic의 MCP(Model Context Protocol)는 대규모 채택을 기록했으며, Linux Foundation은 2026년 4월 기준 10,000개 이상의 활성 공개 서버와 1억 6,400만 건의 월간 Python SDK 다운로드를 보고했습니다. Google의 A2A(Agent2Agent)나 IBM의 ACP(Agent Communication Protocol)와 같은 애플리케이션 계층 프로토콜이 조정 및 메시징 문제를 해결하고 있지만, 기본 전송 계층은 여전히 HTTP에 의존하고 NAT 뒤에 있는 에이전트를 위해 릴레이 인프라가 필요하여 병목 현상으로 남아 있습니다.

• 2024년 말부터 2025년 초 사이에 MCP, ACP, A2A, ANP 등 4가지 중요한 에이전트 프로토콜이 발표됨.
• Anthropic의 MCP는 2026년 4월까지 10,000개 이상의 활성 공개 서버와 1억 6,400만 건의 월간 Python SDK 다운로드를 기록함.
• Google의 A2A 작업 조정 인터페이스는 2025년 6월 Linux Foundation에 기증됨.
• IBM Research의 ACP와 독립적인 ANP는 메시징 및 발견 문제를 다룸.
• 현재 프로토콜은 HTTP에 의존하고 있어 에이전트 네트워크의 전송 계층이 애플리케이션 계층보다 18~24개월 뒤처져 있음.

멀티 에이전트 시스템을 구축하는 개발자는 신흥 오픈 표준을 활용하여 상호 운용성, 도구 호출 호환성 및 구조화된 조정을 보장할 수 있습니다.

SOURCES

[1]

4. 100k 토큰을 초과하는 LLM 성능 저하 관리

광고되는 거대한 컨텍스트 윈도우에도 불구하고, RULER 및 Chroma 보고서와 같은 실증적 연구에 따르면 컨텍스트가 약 100,000 토큰을 초과하면 LLM 성능이 크게 저하됩니다. 이 '덤 존(dumb zone)'은 코딩 에이전트가 다중 파일 디버깅 세션을 수행할 때 쉽게 도달합니다. 이를 해결하기 위해 개발자들은 원시 컨텍스트 크기에 의존하는 대신, obra/superpowers나 mattpocock/skills와 같은 도구를 사용하여 사양(spec)이나 PRD와 같은 작고 명명된 아티팩트를 중심으로 에이전트 작업을 구조화하는 '브레드크럼' 워크플로우를 채택하고 있습니다.

• LLM 컨텍스트 윈도우는 약 100,000 토큰에서 '스마트 존'과 '덤 존'의 경계가 나타남.
• RULER 및 Chroma 보고서와 같은 연구들은 실제 유효 컨텍스트가 광고된 것보다 작음을 확인해 줌.
• 코딩 에이전트는 파일 읽기 및 디버깅 작업 중에 100,000 토큰 제한에 빠르게 도달함.
• Claude Code와 같은 도구는 기록을 요약하기 위해 자동 압축을 사용하지만, 종종 모델 성능이 이미 저하된 후에 수행됨.
• 개발자들은 obra/superpowers와 같은 도구를 사용하여 작고 명명된 아티팩트를 중심으로 워크플로우를 구조화하는 '브레드크럼 접근 방식'을 채택하고 있음.

코딩 에이전트와 RAG 파이프라인을 구축하는 개발자는 심각한 모델 성능 저하를 피하기 위해 중요한 컨텍스트를 100k 토큰 미만으로 유지하는 워크플로우를 설계해야 합니다.

SOURCES

[1]

5. 로컬 실시간 음성 대 음성 챗봇 구축

한 개발자가 SSE(Server-Sent Events) 스트리밍과 자연스러운 대화 인터럽트 기능을 지원하는 로컬 실시간 음성 대 음성 챗봇을 성공적으로 구축했습니다. 이 시스템은 Qwen3.5-397B(Unsloth의 UD-Q3_K_XL 양자화 사용), 음성-텍스트 변환을 위한 Whisper-small, ONNX 기반의 커스텀 SNAC 디코더를 갖춘 Orpheus TTS로 구동됩니다. 단일 24GB GPU에서 실행되는 이 설정은 21.3GB의 VRAM을 사용하며, Qwen의 MoE 전문가를 처리하기 위해 150GB의 시스템 RAM이 필요하고 131k 토큰 컨텍스트 윈도우를 유지합니다.

• 로컬 챗봇은 SSE 스트리밍, 인터럽트 기능 및 대화 컨텍스트를 지원함.
• Qwen3.5-397B(UD-Q3_K_XL), Whisper-small STT, ONNX 기반 커스텀 SNAC 디코더를 갖춘 Orpheus Q4_K_XL TTS로 구동됨.
• 시스템은 24GB GPU에서 약 21.3GB의 VRAM을 사용하며, Qwen의 MoE 전문가를 위해 150GB의 시스템 RAM이 필요함.
• 모델은 bf16 KV 캐시로 실행되며 131,072 토큰의 컨텍스트 윈도우를 지원함.

개발자는 이 아키텍처를 참조하여 자연스러운 대화 흐름과 중단을 지원하는 반응성이 뛰어난 로컬 음성 에이전트를 구축할 수 있습니다.

SOURCES

[1]

6. Heretic 1.4, 로컬 모델 재현성을 위한 Grimoire 출시

Heretic 프로젝트는 버전 1.4를 출시하며 로컬 모델 재현성과 플랫폼 삭제에 대한 복원력을 보장하기 위해 Heretic Grimoire 시스템을 도입했습니다. 9KB의 가벼운 reproduce.json 파일을 활용하여 개발자들은 수 시간의 재계산 없이 약 1분 만에 로컬에서 모델을 복원할 수 있습니다. 이번 업데이트는 또한 저장 비용을 최소화하기 위해 LoRA 내보내기 기능을 추가하고 프로젝트 인프라를 IPFS를 통한 탈중앙화 호스팅으로 전환했습니다.

• Heretic 버전 1.4는 모델 재현성을 위한 Heretic Grimoire 시스템을 도입함.
• 이 시스템은 모델을 로컬에서 재현하는 데 필요한 메타데이터가 포함된 9KB의 reproduce.json 파일을 사용함.
• 모델 복원은 약 1분 정도 소요되며 원래의 수 시간 걸리는 재계산 과정을 생략함.
• 프로젝트는 탈중앙화 호스팅으로 확장되어 릴리스 아카이브와 서명을 IPFS를 통해 이용할 수 있음.
• Heretic 1.4는 저장 비용을 줄이기 위해 전체 모델 대신 LoRA를 내보내는 기능을 추가함.

개발자는 미세 조정된 모델의 가볍고 탈중앙화된 로컬 백업을 유지함으로써 Hugging Face 모델 삭제로부터 워크플로우를 보호할 수 있습니다.

SOURCES

[1]

7. Google Pixel 10 Pro에서 Gemma 4 12B 로컬 실행

커뮤니티 테스트를 통해 Google의 Gemma 4 12B 모델을 Google Pixel 10 Pro 기기에서 완전히 실행하는 가능성을 입증했습니다. Termux 환경 내에서 llama.cpp를 활용하여 모델의 양자화 버전과 추측 디코딩을 위한 초안 모델을 함께 실행했습니다. 10와트의 매우 효율적인 전력 범위 내에서 작동하는 이 시스템은 10,000 토큰의 프롬프트 깊이에서 초당 6.5 토큰의 프롬프트 처리 속도와 초당 1.3 토큰의 생성 속도를 달성했습니다.

• 사용자가 Termux 환경을 사용하여 Google Pixel 10 Pro에서 llama.cpp(v9639)를 테스트함.
• gemma-4-12b-it-UD-Q3_K_XL.gguf 모델과 초안 모델(mtp-gemma-4-12b-it.gguf)을 실행함.
• 32,000 컨텍스트 윈도우와 q8_0 캐시 유형을 사용함.
• 10,000 토큰의 프롬프트 깊이에서 초당 6.5 토큰의 프롬프트 속도와 초당 1.3 토큰의 생성 속도를 달성함.
• 전체 설정은 10와트 미만의 전력 소비로 작동함.

온디바이스 모바일 AI 애플리케이션을 구축하는 개발자는 플래그십 모바일 하드웨어에서 12B급 모델을 실행하기 위한 전력 및 토큰 처리량 벤치마크를 참조할 수 있습니다.

SOURCES

[1]

8. DeepSeek-V4-Flash MoE를 위한 듀얼 DGX Spark 벤치마크

GitHub의 새로운 오픈 소스 가이드와 벤치마크 제품군은 듀얼 DGX Spark 구성에서 DeepSeek-V4-Flash MoE 모델을 실행하는 방법을 설명합니다. 180달러짜리 케이블로 두 유닛을 연결하여 ConnectX-7을 통해 200G/s를 달성함으로써, vLLM FP8을 사용하여 디코드 시 초당 41 토큰, 프리필 시 초당 1785 토큰을 달성합니다. 벤치마크는 또한 단일 스트림 설정과 성능을 비교하여 RTX Pro 6000이 디코드 시 초당 46.9 토큰, Mac Studio M2 Ultra가 디코드 시 초당 29.7 토큰을 기록함을 보여줍니다.

• GitHub의 새로운 가이드와 벤치마크 제품군은 2개의 DGX Spark 유닛에서 DeepSeek-V4-Flash MoE를 실행하는 방법을 상세히 설명함.
• ConnectX-7을 통해 200G/s를 달성하려면 180달러짜리 케이블이 필요함.
• vLLM FP8을 사용하여 듀얼 유닛 구성은 디코드 시 초당 41 토큰, 프리필 시 초당 1785 토큰의 속도를 달성함.
• 듀얼 유닛 설정은 각각 256k 컨텍스트의 32개 동시 요청으로 총 초당 350 토큰을 달성함.
• 단일 스트림 벤치마크에서 RTX Pro 6000은 디코드 시 초당 46.9 토큰, Mac Studio M2 Ultra는 디코드 시 초당 29.7 토큰을 기록함.

DeepSeek-V4-Flash를 자체 호스팅하려는 개발자는 구체적인 멀티 GPU 및 단일 스트림 하드웨어 벤치마크를 참조하여 로컬 배포 인프라를 계획할 수 있습니다.

SOURCES

[1]

9. SSD 스트리밍을 사용하여 Mac에서 DeepSeek-V4-Flash 실행

Antirez의 ds4 엔진은 개발자가 로컬 하드웨어에서 물리적 RAM보다 큰 모델을 실행할 수 있도록 하는 --ssd-streaming 플래그를 도입했습니다. 96GB RAM을 탑재한 M3 Max에서 테스트한 결과, 이 엔진은 초당 11~13 토큰의 속도로 DeepSeek-V4-Flash를 성공적으로 실행합니다. 첫 토큰까지의 콜드 부팅 시간은 3~5초이며 36,000 토큰을 프리필하는 데 2.5분이 걸리지만, 이 기술은 표준 개발자 워크스테이션에서 거대한 모델을 로컬로 테스트할 수 있는 길을 열어줍니다.

• Antirez의 ds4 엔진은 --ssd-streaming 플래그를 사용하여 사용 가능한 RAM보다 큰 머신러닝 모델을 실행할 수 있게 함.
• 96GB RAM을 탑재한 M3 Max 시스템에서 초당 11~13 토큰의 성능을 유지함.
• 콜드 부팅 후 첫 토큰까지의 시간은 약 3~5초임.
• 36,000 토큰을 프리필하는 데 약 2분 30초가 소요됨.

개발자는 성능 저하를 감수하더라도 로컬 Apple Silicon 하드웨어에서 시스템의 물리적 RAM보다 큰 모델을 실행할 수 있습니다.

SOURCES

[1]

1. Fable-5 및 Kimi-K2.7-Code, 자동 연구 벤치마크 상위권 차지

2. Nemotron Super 120B 대 Qwen 및 GPT-OSS 벤치마크 비교

3. 표준화된 에이전트 프로토콜의 부상: MCP, ACP, A2A, ANP

4. 100k 토큰을 초과하는 LLM 성능 저하 관리

5. 로컬 실시간 음성 대 음성 챗봇 구축

6. Heretic 1.4, 로컬 모델 재현성을 위한 Grimoire 출시

7. Google Pixel 10 Pro에서 Gemma 4 12B 로컬 실행

8. DeepSeek-V4-Flash MoE를 위한 듀얼 DGX Spark 벤치마크

9. SSD 스트리밍을 사용하여 Mac에서 DeepSeek-V4-Flash 실행

Inference Brew를 인박스로