1. Z.ai, 100만 토큰 컨텍스트 윈도우를 지원하는 오픈 웨이트 모델 GLM-5.2 출시
이 모델은 인덱서를 희소 어텐션 레이어 전반에 재사용하여 최대 컨텍스트 길이에서 연산 FLOPs를 2.9배 줄이는 IndexShare를 포함한 아키텍처 최적화를 적용했습니다. 또한 추론 중 수용 토큰 길이를 최대 20%까지 향상시키는 추측 디코딩용 Multi-Token Prediction 레이어도 포함되어 있습니다. 개발자는 월 12.60달러부터 시작하는 새로운 GLM 코딩 플랜을 통해 모델에 액세스할 수 있습니다.
- • GLM-5.2는 제한 없는 MIT 라이선스로 출시된 7,530억 파라미터 규모의 오픈 웨이트 모델입니다.
- • 100만 토큰 컨텍스트 윈도우를 제공하며, 추론 강도를 조절할 수 있는 'Max' 및 'High' 사고 모드를 지원합니다.
- • SWE-bench Pro에서 62.1점, FrontierSWE에서 74.4점을 기록하며 두 벤치마크 모두에서 GPT-5.5를 능가했습니다.
- • API 액세스 비용은 입력 토큰 100만 개당 1.40달러, 출력 토큰 100만 개당 4.40달러입니다.
- • Hugging Face, 로컬 실행을 위한 Ollama, Z.ai API를 통해 즉시 사용할 수 있습니다.
개발자들은 폐쇄형 최첨단 모델과 경쟁하면서도 훨씬 저렴한 비용으로 MIT 라이선스가 적용된 고성능 코딩 모델을 직접 호스팅하거나 API를 통해 사용할 수 있습니다.
2. SubQ 1.1 Small, 서브쿼드라틱 어텐션으로 1,200만 토큰 컨텍스트 달성
이 모델은 단계적 컨텍스트 확장과 긴 아티팩트에 대한 약 1조 개의 토큰으로 지속적인 사전 학습을 거쳐 훈련되었습니다. 이러한 벤치마크 결과는 Appen에 의해 독립적으로 검증되었으며, 극한의 컨텍스트 길이를 위한 서브쿼드라틱 어텐션의 실행 가능성을 입증했습니다.
- • SubQ 1.1 Small은 서브쿼드라틱 희소 어텐션(SSA) 모델 아키텍처의 두 번째 반복 버전입니다.
- • 니들 인 어 헤이스택(needle-in-a-haystack) 테스트에서 1,200만 토큰까지 거의 완벽한 장기 컨텍스트 검색 성능을 달성했습니다.
- • 100만 토큰 컨텍스트에서 밀집 어텐션보다 64.5배 적은 연산이 필요하며 FlashAttention-2보다 56배 빠르게 실행됩니다.
- • RULER 벤치마크 128K 토큰에서 99.12%, GPQA Diamond에서 85.4%를 기록했습니다.
- • 현재 일부 디자인 파트너와 함께 배포 중이며, 2026년 후반에 더 광범위하게 출시될 예정입니다.
개발자들은 대규모 코드베이스나 문서 세트를 로컬에서 훨씬 줄어든 연산 요구 사항과 더 빠른 추론 속도로 처리할 수 있습니다.
3. Claude Fable-5에서 증류된 오픈 웨이트 모델 Qwable-v1 공개
Claude Fable-5는 API 내 사고 블록을 수정하는 증류 방지 분류기를 탑재했으나, 연구원들은 평문 트레이스로 학습시켜 이를 우회했습니다. 결과물인 Qwable-v1 모델과 SFT 데이터셋은 현재 Hugging Face에 공개되어 복잡한 소프트웨어 엔지니어링 작업을 위한 로컬 대안을 제공합니다.
- • Qwable-v1은 Qwen3.6-35B-A3B 아키텍처를 기반으로 하며 AGPL-3.0 라이선스로 출시되었습니다.
- • 미국 수출 통제 지침으로 인해 짧은 공개 후 중단된 Claude Fable-5에서 증류되었습니다.
- • Glint-Research/Fable-5-traces 코퍼스의 4,659개 평문 에이전트 코딩 트레이스로 학습되었습니다.
- • 단일 NVIDIA H200 GPU에서 약 14시간 동안 학습이 진행되었습니다.
- • Qwable-v1은 str_replace_editor 도구를 포함하여 XML 형식의 도구 호출을 생성하는 능력을 유지합니다.
개발자들은 비싸거나 제한적인 API에 의존하지 않고도 에이전트 코딩 작업과 XML 형식의 도구 호출에 최적화된 로컬 오픈 웨이트 모델을 실행할 수 있습니다.
4. VibeThinker-3B 소형 추론 모델, 최첨단 코딩 점수 달성
보이지 않는 코딩 문제에 대한 모델의 높은 성공률은 작은 크기에도 불구하고 강력한 일반화 능력을 갖추고 있음을 나타냅니다. 아키텍처와 학습 방법론을 자세히 설명한 연구 논문은 Hugging Face에서 확인할 수 있습니다.
- • VibeThinker-3B는 파라미터 밀집 영역에서 검증 가능한 추론을 테스트하기 위해 설계된 소형 언어 모델입니다.
- • 최근 보지 못한 LeetCode 대회에서 96.1%의 성공률을 기록하며 128개의 첫 시도 Python 제출물 중 123개를 통과했습니다.
- • AIME'26 수학 벤치마크에서 94.3점, LiveCodeBench v6에서 80.2점을 기록했습니다.
- • 평가 설정은 온도 1.0, top_p 0.95로 vLLM 및 Sglang을 사용했습니다.
개발자들은 로컬에서 저지연 코딩 및 수학적 추론 작업을 수행하기 위해 매우 컴팩트한 30억 파라미터 모델을 활용할 수 있습니다.
5. Microsoft, 저장소 탐색을 위한 FastContext 4B 모델 출시
저장소 탐색은 코딩 에이전트의 주요 병목 현상으로, 종종 방대한 컨텍스트 윈도우나 비용이 많이 드는 검색 쿼리가 필요합니다. FastContext는 에이전트가 대규모 저장소에서 코드를 탐색하고 검색하는 방식을 간소화하는 경량화된 전문 대안을 제공합니다.
- • FastContext는 Microsoft가 Hugging Face에 공개한 40억 파라미터 모델입니다.
- • 코딩 에이전트의 효율적인 코드 검색 및 저장소 탐색에 특화되어 최적화되었습니다.
- • 오픈 소스 코딩 에이전트가 SWE-Bench Multilingual 벤치마크에서 폐쇄형 모델과 경쟁할 수 있도록 지원합니다.
- • 이 모델은 'FastContext: Training Efficient Repository Explorer for Coding Agents' 연구 논문을 기반으로 합니다.
개발자들은 이 전문화된 4B 모델을 코딩 에이전트 파이프라인에 통합하여 비싼 폐쇄형 모델에 의존하지 않고도 저장소 규모의 코드 검색 성능을 향상시킬 수 있습니다.
6. Microsoft, 2FA 코드 노출시키는 치명적인 Copilot 취약점 패치
이 공격 체인은 공격자가 타사 콘텐츠에 포함된 마크업 언어나 HTML 태그를 사용하여 LLM이 웹 요청을 통해 데이터를 유출하도록 강제하는 방법을 보여줍니다. Microsoft는 지난주 이 취약점을 패치했지만, 이번 공격 벡터는 외부 데이터를 처리하는 에이전트 워크플로우 보안의 지속적인 과제를 강조합니다.
- • 이 취약점을 통해 공격자는 Copilot이 액세스할 수 있는 이메일에서 2FA 코드와 민감한 데이터를 검색할 수 있었습니다.
- • 보안 기업 Varonis는 URL 쿼리 매개변수를 통한 'Parameter-to-Prompt Injection'을 사용하여 공격 체인을 개발했습니다.
- • 이 공격은 출력을 블록으로 감싸고 신뢰할 수 없는 웹사이트를 제한하는 Microsoft의 기존 가드레일을 우회했습니다.
- • 근본 원인은 LLM이 사용자 지침과 신뢰할 수 없는 타사 콘텐츠를 구분하지 못하는 근본적인 한계에 있습니다.
LLM 애플리케이션을 구축하는 개발자들은 타사 콘텐츠가 모델 지침을 탈취하고 민감한 사용자 데이터를 유출하는 것을 방지할 수 있습니다.
7. Cursor와 Graphite 엔지니어들, 에이전트 우선 Git 경쟁자 Origin 발표
Git과 같은 기존 버전 관리 시스템은 복잡한 브랜칭과 병합 충돌로 인해 자율 에이전트가 탐색하기 어려울 수 있습니다. Origin은 에이전트 친화적인 인터페이스와 자동화된 해결 도구를 제공하여 코딩 에이전트를 프로덕션 CI/CD 파이프라인에 직접 통합하기 쉽게 만듭니다.
- • Origin은 AI 에이전트 워크로드를 위해 확장성이 뛰어나도록 설계된 새로운 버전 관리 플랫폼입니다.
- • API와 모델 컨텍스트 프로토콜(MCP)을 통해 완전히 확장 가능합니다.
- • 병합 충돌 해결 및 CI/CD 실패 해결을 위한 내장 자동화 도구를 갖추고 있습니다.
- • 이 제품은 Cursor와 Graphite의 엔지니어인 Tomas Reimers가 발표했습니다.
개발자들은 네이티브 API, MCP 지원, 자동화된 충돌 해결 기능을 사용하여 버전 관리와 더 안정적으로 상호 작용하는 에이전트 워크플로우를 구축할 수 있습니다.
8. Stanford의 DeLM, 오케스트레이터 없이 멀티 에이전트 비용 50% 절감
기존 멀티 에이전트 시스템은 중앙 오케스트레이터에 의존하며, 이는 상당한 통신 오버헤드와 API 비용을 발생시킵니다. DeLM은 조정을 분산화하고 에이전트가 공유 요약 데이터베이스를 읽고 쓸 수 있게 함으로써 실행을 병렬화하고 중복된 LLM 호출을 제거합니다.
- • DeLM은 'gists'라고 불리는 요약 공유 지식 베이스와 작업 큐를 사용하여 AI 에이전트가 직접 조정할 수 있도록 합니다.
- • 이 프레임워크는 작업 비용을 약 50% 절감했으며 SWE-bench Verified에서 가장 강력한 기준 모델보다 10.5% 더 나은 성능을 보였습니다.
- • 에이전트는 검증된 결과, 문서화된 실패, 제약 조건을 공유하여 중복 탐색을 방지합니다.
- • 펼칠 수 있는 시스템이 기본적으로 간결한 요약을 제공하여 에이전트가 필요할 때만 상세 증거에 액세스할 수 있습니다.
- • DeLM은 LongBench-v2 Multi-Doc QA 벤치마크에서 4개의 주요 모델 제품군 전반에 걸쳐 가장 높은 정확도를 달성했습니다.
개발자들은 중앙 집중식 오케스트레이터의 지연 시간과 통신 병목 현상을 피하면서 고도로 병렬화되고 비용 효율적인 멀티 에이전트 애플리케이션을 구축할 수 있습니다.
9. Databricks, 실시간 에이전트 데이터를 위한 Lakehouse//RT 및 LTAP 출시
AI 에이전트는 기존 ETL 파이프라인의 지연 시간으로 인해 데이터가 최신 상태가 아닌 문제에 자주 직면합니다. Databricks는 스토리지 계층에서 직접 트랜잭션 및 분석 처리를 결합하여 데이터 스택을 단순화하고, 에이전트가 실시간 운영 데이터를 기반으로 의사결정을 내릴 수 있도록 합니다.
- • Lakehouse//RT는 Delta 및 Iceberg 테이블에서 100ms 미만의 쿼리 지연 시간을 제공하여 전용 실시간 서빙 계층이 필요 없습니다.
- • Reyden 컴퓨팅 엔진은 초당 최대 12,000개의 쿼리를 처리하며 고동시성, 저지연 서빙을 처리합니다.
- • LTAP(Lake Transactional/Analytical Processing)는 Postgres 네이티브 트랜잭션 데이터를 쓰기 시점에 Delta 및 Iceberg 형식으로 자동 저장합니다.
- • 이 아키텍처는 서버리스 클라우드 기반 PostgreSQL 데이터베이스 서비스인 Lakebase를 사용하여 스토리지 계층에서 데이터를 통합합니다.
- • LTAP는 네트워크 비용을 최소화하기 위해 캐싱 계층에서 행-열 변환을 수행합니다.
개발자들은 복잡한 ETL 파이프라인 없이도 100ms 미만의 지연 시간으로 실시간 운영 및 분석 데이터베이스를 직접 쿼리하는 AI 에이전트를 구축할 수 있습니다.
10. cuTile Rust, 안전하고 고성능인 GPU 커널 개발 지원
사용자 지정 CUDA 커널을 작성하는 것은 오류가 발생하기 쉽고 디버깅이 어렵기로 악명이 높습니다. cuTile Rust는 Rust의 컴파일 타임 안전 보장을 GPU 프로그래밍으로 가져와 Apache License 2.0 하에서 동기식 실행, 비동기 파이프라인, CUDA 그래프 재생을 지원함으로써 이 문제를 해결합니다.
- • cuTile Rust는 절차적 매크로를 사용하여 Rust AST를 CUDA Tile IR을 통해 GPU cubin으로 JIT 컴파일합니다.
- • NVIDIA B200 GPU에서 GEMM에 대해 2 PFlop/s를 달성하며, 이는 밀집 f16 피크 성능의 92%에 해당합니다.
- • cuTile 기반의 Grout 추론 엔진은 RTX 5090에서 Qwen3-4B를 초당 171토큰으로 실행합니다.
- • 이 시스템은 데이터 경쟁을 방지하기 위해 GPU 실행 경계 전반에 걸쳐 Rust의 소유권 규율을 확장합니다.
- • 컴퓨트 능력 sm_80 이상의 NVIDIA GPU, CUDA 13.3, Rust 1.89 이상이 필요합니다.
로컬 추론 엔진을 구축하거나 모델 실행을 최적화하는 개발자들은 원시 CUDA 성능을 희생하지 않고도 Rust로 안전한 GPU 커널을 작성할 수 있습니다.
11. Fast-Walk 라이브러리, Python AST 파싱 속도 220배 향상
표준 Python AST 파싱은 에이전트가 코드를 반복적으로 생성하고 검증할 때 주요 병목 현상이 될 수 있습니다. 표준 라이브러리의 ast.walk를 이 최적화된 Rust 구현으로 대체함으로써 개발자들은 코딩 에이전트의 검증 루프를 가속화할 수 있습니다.
- • fast-walk 라이브러리는 생성된 Python 코드를 처리할 때 Reflex AI 린터의 성능 병목 현상을 해결하기 위해 개발되었습니다.
- • PyO3를 사용하여 워킹 로직을 Rust로 변환하여 초기 78%의 누적 성능 향상을 달성했습니다.
- • 직접 딕셔너리 액세스 및 2KB 테이블에 AST 하위 클래스 정보 사전 계산을 포함한 최적화로 최종 220배의 속도 향상을 달성했습니다.
- • 소스 코드는 오픈 소스이며 GitHub의 reflex-dev/fast-walk 저장소에서 사용할 수 있습니다.
코드 생성 도구, 린터 또는 LLM 에이전트를 구축하는 개발자들은 Python AST를 파싱하고 분석하는 지연 시간을 획기적으로 줄일 수 있습니다.
12. Fireworks와 LangChain, 100배 저렴한 챗봇 트레이스 판정기 구축
챗봇 상호 작용을 평가하려면 일반적으로 판정 역할을 수행할 비싼 최첨단 LLM이 필요합니다. Fireworks와 LangChain은 특정 상호 작용 트레이스에 대해 더 작고 전문화된 모델을 미세 조정함으로써 개발자가 높은 API 비용 없이 프로덕션급 평가 정확도를 달성할 수 있음을 입증했습니다.
- • 트레이스 판정기는 Qwen-3.5-35B 모델을 기반으로 하며 사용자가 식별한 오류를 감지하도록 설계되었습니다.
- • chat-langchain 데이터로 모델을 미세 조정하여 최첨단 모델의 성능을 충족하거나 능가할 수 있었습니다.
- • 미세 조정된 판정기는 평가를 위해 최첨단 모델을 사용하는 것보다 약 100배 낮은 비용으로 작동합니다.
개발자들은 트레이스 평가를 위해 최첨단 모델을 사용하는 것보다 훨씬 저렴한 비용으로 챗봇 성능을 평가하고 모니터링할 수 있습니다.
13. Artificial Analysis, 에이전트 워크로드에 초점을 맞춘 인텔리전스 인덱스 업데이트
업데이트된 GDPval-AA v2 벤치마크는 Elo를 인간 성능 1000으로 재설정하고, 최첨단 모델 판정단 패널을 순환 사용하며, 턴 제한을 250으로 늘렸습니다. 인덱스의 작업 완료 시간은 Grok 4.3(high)의 1.5분에서 Claude Sonnet 4.6(max)의 13.5분까지 다양합니다.
- • Intelligence Index v4.1은 작업당 비용, 작업당 시간, 작업당 토큰이라는 세 가지 새로운 작업별 메트릭을 도입합니다.
- • 이번 업데이트는 Terminal-Bench 2.1 및 τ³-Bench Banking을 포함한 여러 벤치마크를 업그레이드하고 포화 상태인 IFBench를 제거했습니다.
- • Claude Opus 4.8(max)이 56점으로 사용 가능한 모델 중 선두를 달리고 있으며, GPT-5.5(xhigh)가 55점으로 그 뒤를 바짝 쫓고 있습니다.
- • DeepSeek V4 Pro(max)와 MiniMax M3가 각각 44점을 기록하며 오픈 웨이트 부문을 선도하고 있습니다.
- • 인덱스에 따르면 DeepSeek V4 Pro(max)는 작업당 0.04달러의 비용이 드는 반면, Claude Opus 4.8은 1.78달러, GPT-5.5(xhigh)는 0.99달러가 소요됩니다.
개발자들은 작업당 비용 및 실행 시간과 같은 구체적이고 에이전트 중심적인 메트릭을 사용하여 최첨단 모델과 오픈 웨이트 모델을 비교할 수 있습니다.
14. 소규모 Claude 증류 모델의 성능 문제 경고
증류된 모델은 더 작은 오픈 웨이트 패키지에서 최첨단 수준의 기능을 약속하지만, 미세 조정 데이터의 양이 적어 복잡한 추론 행동을 포착하지 못하는 경우가 많습니다. 개발자들은 증류된 변형이 기본 모델보다 본질적으로 우수하다고 가정하기보다는 특정 사용 사례에 대해 독립적인 평가를 수행하는 것이 좋습니다.
- • 최근 증류는 일반적으로 4,000~10,000개의 샘플만 사용하는데, 이는 모델 품질을 향상시키기에 너무 적을 수 있습니다.
- • 이러한 증류 모델은 기본 Qwen 3.6 모델에 비해 환각 현상이 증가하고 성능이 느려질 수 있습니다.
- • DeepSeek-R1과 같은 성공적인 증류는 일반적으로 약 70만 개의 훨씬 더 큰 데이터셋을 필요로 합니다.
- • Claude Opus 4.8에서 증류된 Qwopus 모델은 환각 현상을 보이고 실행 속도가 느린 것으로 보고되었습니다.
개발자들은 제대로 학습되지 않은 증류 모델을 배포함으로써 발생하는 애플리케이션의 성능 저하와 환각 현상을 방지할 수 있습니다.
15. 로컬 에이전트 코딩을 위한 개발자 설정 및 벤치마크
지난 6개월 동안 로컬 모델이 프로그래밍 작업에 훨씬 더 유능해졌지만, 저자는 아직 프로덕션 소프트웨어 개발을 위한 준비는 되지 않았다고 지적합니다. 실행 중 시스템 액세스를 제한하기 위해 Docker에서 추론 서버와 에이전트 하네스를 샌드박스 처리할 것을 권장합니다.
- • 이 설정은 64GB RAM을 탑재한 M2 Mac에서 Gemma 4 모델 제품군, 특히 gemma-4-26b-a4b 및 gemma-4-12b-qat를 활용합니다.
- • 로컬 에이전트 코딩은 폐쇄형 최첨단 모델 정확도와 속도의 약 75% 수준에서 작동하는 것으로 추정됩니다.
- • 이 아키텍처는 LM Studio를 추론 서버로, Pi를 에이전트 하네스로 실행하며 둘 다 Docker 컨테이너 내에서 샌드박스 처리됩니다.
- • 주요 제한 사항으로는 느린 추론 속도, 제한된 컨텍스트 윈도우, 가끔 발생하는 프롬프트 템플릿 불일치가 있습니다.
개발자들은 이 실제 아키텍처를 참조하여 로컬 샌드박스 코딩 환경을 설정하고 현재의 성능 트레이드오프를 이해할 수 있습니다.
16. Anthropic, Claude Agent SDK에 대한 계획된 API 청구 일시 중단
5월 13일에 발표된 원래의 청구 변경 사항은 Claude Agent SDK 사용량을 표준 채팅 인터페이스나 공식 CLI 사용량과 별도로 처리하는 것을 목표로 했습니다. 분석에 따르면 Claude Opus 구독자는 현재 구독 모델 하에서 하루에 2~3개의 메시지만 보낸 후 API 사용 비용을 절약할 수 있습니다.
- • Anthropic은 6월 15일 시행 예정이었던 가격 변경을 직전에 일시 중단했습니다.
- • Agent SDK 사용자는 별도의 API 요금으로 청구되는 대신 기존 Claude 구독 한도를 계속 사용할 수 있습니다.
- • 중단된 계획은 SDK 사용량을 표준 API 요금으로 청구하고 구독 가격과 동일한 월간 크레딧으로 상쇄할 예정이었습니다.
- • 현재 구독 등급 하에서 Agent SDK 사용량은 표준 주간 한도에 의해서만 제한됩니다.
Claude Agent SDK로 구축하는 개발자들은 예상치 못한 API 요금을 피하고 에이전트 워크로드를 위해 기존 구독 한도를 계속 활용할 수 있습니다.