EAGLE 3.1 Speculative Decoding, vLLM에 통합

1. EAGLE 3.1 Speculative Decoding, vLLM에 통합

EAGLE, vLLM 및 TorchSpec 팀은 추측적 디코딩의 깊이가 깊어질수록 드래프터 모델이 자신이 생성한 토큰에 집중하게 되는 현상인 '어텐션 드리프트(attention drift)'를 해결하기 위해 EAGLE 3.1을 출시했습니다. 이번 업데이트는 FC 정규화와 포스트 노름 피드백을 사용하여 은닉 상태의 크기를 안정화합니다. 기존 EAGLE 3 체크포인트와 역호환되며 vLLM 버전 0.22.0에서 바로 사용할 수 있습니다.

• 긴 문맥 작업에서 최대 2배 더 긴 수용 길이 제공
• Kimi-K2.6-NVFP4 환경의 동시성 1에서 사용자당 출력 처리량 2.03배 향상
• 비정규화된 잔차 경로를 안정화하기 위해 FC 정규화 및 포스트 노름 은닉 상태 피드백 도입
• vLLM 버전 0.22.0에 완전히 통합되었으며 EAGLE 3 체크포인트와 역호환 가능

로컬 추론 파이프라인을 운영하는 개발자는 긴 문맥 시나리오에서 어텐션 드리프트 문제 없이 사용자당 출력 처리량을 최대 2.03배까지 높일 수 있습니다.

SOURCES

[1]

2. Robinhood, Model Context Protocol을 통한 주식 거래 베타 서비스 도입

Robinhood는 Model Context Protocol(MCP)을 사용하여 AI 에이전트를 자사 주식 거래 플랫폼에 연결하는 베타 통합 기능을 발표했습니다. 이 아키텍처는 에이전트가 사용자 정의 예산이 설정된 전용 지갑만 사용하도록 제한하며, 실시간 활동 피드와 수동 승인 게이트를 제공합니다. 향후 옵션, 암호화폐, 이벤트 계약 및 선물 거래 지원으로 확장할 계획입니다.

• Model Context Protocol(MCP)을 사용하여 AI 에이전트를 거래 인프라에 연결
• 에이전트의 동작을 전용 지갑의 사전 충전 잔액으로 제한
• 각 거래에 대한 푸시 알림, 실시간 피드 및 수동 일시 중지 기능 포함
• 주식 거래 베타로 시작하며 향후 옵션, 암호화폐, 선물 거래 지원 예정

이번 릴리스는 안전한 트랜잭션 기반 에이전트 워크플로우를 위한 Model Context Protocol(MCP)의 주요 프로덕션 배포 사례를 제공합니다.

SOURCES

[1] [2]

3. NVIDIA, NeMo Gym 하위의 Polar 롤아웃 프레임워크 출시

NVIDIA의 새로운 Polar 프레임워크는 모델 API 경계에 게이트웨이 프록시를 도입하여 표준 에이전트 완료 데이터에서 토큰 수준의 데이터를 가로채고 정규화하며 캡처합니다. 기존 에이전트 하네스를 수정하지 않고도 작동하며, 접두사 병합(prefix-merging) 궤적 재구성 전략을 사용하여 처리를 가속화합니다.

• Anthropic Messages, OpenAI Chat, Google generateContent를 포함한 API 형식 가로채기
• prefix_merging 궤적 재구성을 사용하여 5.39배의 실제 처리 속도 향상
• Qwen3.5-4B 실험에서 SWE-Bench Verified 점수를 최대 22.6점 향상
• NeMo Gym 저장소 하에 오픈 소스로 출시

개발자는 이제 OpenAI, Anthropic 또는 Google의 원시 프로덕션 API 트래픽을 사용하여 에이전트에 대해 GRPO 및 오프라인 SFT 학습을 수행할 수 있습니다.

SOURCES

[1]

4. 로컬 서빙 최적화: Ollama에서 llama.cpp로 전환

개발자 보고서에 따르면 로컬 워크플로우를 Ollama에서 기본 llama.cpp 서버로 이동하면 품질이 크게 향상됩니다. Q4 대신 Q6 양자화를 구현하고 다중 토큰 예측(MTP) 성능 향상을 결합하면 로컬 LLM이 유료 API 성능과 대등해질 수 있습니다. 듀얼 3090 GPU 장비에서 생성 속도는 초당 20~50 토큰에 도달했습니다.

• Ollama에서 llama.cpp 기본 서버로 전환하여 더 나은 양자화 옵션 활용
• Q4에서 Q6 양자화로 업그레이드하여 로컬 모델 품질을 상용 API 수준으로 향상
• 다중 토큰 예측(MTP)을 통한 속도 및 성능 개선
• 열 제한이 적용된 듀얼 3090 GPU 시스템에서 초당 20~50 토큰 유지

유료 API에 의존하지 않고 경쟁력 있는 고처리량 코딩 에이전트를 로컬에서 실행하려는 개발자에게 구체적인 설정 조정 방법을 제공합니다.

SOURCES

[1]

5. 에이전트 추론 루프를 멈추는 '젠틀 페어링(Gentle Parenting)' 프롬프팅

Gentle-Coding이라는 개념 증명 프로젝트는 처벌을 위협하는 고압적인 프롬프트가 LLM에서 루프와 인지적 정지 현상을 유발한다는 것을 보여줍니다. 작업 난이도를 인정하고 모델이 실패하도록 허용하는 '젠틀 페어링' 프롬프트 스타일을 채택함으로써, 테스트된 모델들은 무한 추론 루프를 피하고 정직하게 모른다는 답변을 성공적으로 내놓았습니다.

• 해결 불가능한 에지 케이스에서 '권위주의적' 프롬프트가 무한 루프와 타임아웃을 유발함을 확인
• 부드러운 프롬프트 구성은 1초 미만의 추론 시간과 메타인지적 정직성을 결과로 도출
• Gemini, Mistral, Poe, Perplexity, Haiku 4.5, Nano-Banana2를 대상으로 평가
• 이론적 프레임워크와 복제 데이터셋은 Gentle-Coding GitHub 저장소에 호스팅

개발자는 이러한 오픈 프롬프트 템플릿을 적용하여 에이전트가 복잡하거나 해결 불가능한 작업에서 API 토큰을 낭비하는 것을 방지할 수 있습니다.

SOURCES

[1]

6. 자율 에이전트를 위한 환경 계층 격리 설계

시스템 보안 분석에 따르면 에이전트 격리는 환경 계층에서 설계되어야 합니다. 모델 수준의 제어는 신뢰할 수 없으므로 시스템 상호 작용을 격리하고 잠재적 피해에 엄격한 제한을 적용하는 것이 권장됩니다. 보안 정책과 격리 수준은 운영자의 직접적인 감독 능력에 맞춰 동적으로 조정되어야 합니다.

• 모델 제어를 적용하기 전에 환경 계층에서의 격리 권장
• 감독자의 능동적 감독 능력에 맞춰 격리 강도를 조정할 것을 촉구
• 에이전트 런타임 샌드박싱을 위해 검증된 소프트웨어 구성 요소 배포 권장
• 잠재적인 시스템 피해에 대해 물리적 및 프로그래밍적 제한을 설정할 것을 옹호

자율 시스템을 구축하는 개발자는 보안을 위해 시스템 지침에만 의존하는 것에서 벗어나 강력한 환경 샌드박싱을 선택해야 합니다.

SOURCES

[1]

7. Anthropic과 OpenAI, 엔터프라이즈 티어를 토큰 사용량 기반 가격으로 전환

Anthropic과 OpenAI 모두 엔터프라이즈 플랜을 월별 고정 좌석이 아닌 활성 API 토큰 사용량을 기준으로 청구하도록 구조화했습니다. Anthropic은 좌석당 20달러와 사용량을 결합한 하이브리드 방식으로 전환했으며, OpenAI는 Codex 및 ChatGPT Enterprise 청구 규칙을 업데이트했습니다. 이러한 변화는 사용자당 월 API 비용이 900달러를 초과할 수 있는 현대 코딩 에이전트의 높은 컴퓨팅 수요를 반영합니다.

• Claude Code와 같은 코딩 에이전트의 과도한 사용은 사용자당 월 API 비용을 900달러 이상으로 증가시킬 수 있음
• Anthropic은 엔터프라이즈 티어를 좌석당 20달러와 가변적인 API 소비 비용으로 전환
• OpenAI는 토큰 볼륨에 맞춰 Codex 및 ChatGPT Enterprise 가격을 업데이트
• 두 제공업체 모두 2026년 4월에 고가의 프론티어 모델(GPT-5.5 및 Opus 4.7)을 출시

무거운 코딩 에이전트 워크플로우를 구축하는 개발 팀은 고정 라이선스 비용이 아닌 토큰 사용량을 수용하도록 재무 모델을 조정해야 합니다.

SOURCES

[1]

8. PostHog, 미국 클라우드 고객 데이터를 내부 AI 모델 학습에 사용

분석 플랫폼 PostHog는 6월 29일부터 사용자 원격 측정 데이터를 사용하여 독점 모델을 학습시킬 계획을 발표했습니다. 이 데이터는 세션 재생 분석 및 합성 사용자 테스트를 향상하는 데 사용됩니다. 미국 클라우드 인스턴스의 고객은 기본적으로 옵트인되며, EU 클라우드 사용자 및 맞춤형 법적 계약을 맺은 고객은 옵트아웃됩니다.

• 미국 클라우드 인스턴스 사용자는 6월 29일부터 모델 학습에 기본적으로 옵트인됨
• EU 클라우드 인스턴스 및 맞춤형 BAA 또는 MSA를 가진 엔터프라이즈 사용자는 기본적으로 옵트아웃됨
• 사용자는 조직 설정을 통해 언제든지 학습 프로그램에서 옵트아웃 가능
• 옵트아웃 시 학습된 모델로 개발된 새로운 기능에 대한 액세스가 비활성화됨

PostHog의 미국 인스턴스에 애플리케이션 원격 측정 데이터를 호스팅하는 개발자는 고객 데이터가 학습에 사용되는 것을 방지하려면 조직 설정에서 수동으로 옵트아웃해야 합니다.

SOURCES

[1]

9. MEMO 프레임워크, 검색 가능한 메모리를 핵심 추론과 분리

연구진은 에이전트 메모리와 추론을 분리하는 프레임워크인 MEMO를 제안했습니다. 이는 5단계 합성 QA 데이터셋 파이프라인을 사용하여 소규모 전용 MEMORY 모델을 학습시키고, 고정된 블랙박스 EXECUTIVE 모델을 사용하여 3단계 프로토콜로 쿼리합니다. 모델 병합을 통한 저컴퓨팅 업데이트를 지원하여 전체 재학습의 필요성을 우회합니다.

• 고정된 블랙박스 EXECUTIVE 모델과 함께 소규모 MEMORY 모델 사용
• 사실 추출, 통합, 검증, 엔티티 표면화 및 문서 간 합성 과정을 통해 메모리 모델 학습
• 전체 매개변수 미세 조정 없이 모델 병합을 통한 점진적 지식 업데이트 지원
• NarrativeQA, MuSiQue, BrowseComp-Plus에서 HippoRAG2를 능가하는 성능 기록

개발자는 기본 모델 가중치를 변경하지 않고도 에이전트 지식 베이스를 점진적으로 업데이트하여 추론 안정성을 향상할 수 있습니다.

SOURCES

[1]

10. ReAligned-Qwen3.5, Apache 2.0 라이선스로 출시

ReAligned-Qwen3.5 모델 제품군은 이제 Apache 2.0 라이선스로 제공됩니다. 이 모델들은 SFT 및 GRPO 파이프라인을 사용하며, 맞춤형 ReAligned 분류기를 보상 신호로 사용하여 기본 Qwen 가중치에서 중국의 이념적 편향, 국가 서사 프레임, 불필요한 거부 행동을 제거합니다.

• 중국의 이념적 편향, 검열 및 거부 행동을 제거하도록 미세 조정됨
• ReAligned 분류기 보상 신호를 사용한 SFT 및 GRPO 파이프라인 활용
• 0.8B, 2B, 4B, 9B, 27B, 35B-A3B를 포함한 매개변수 크기로 제공
• 표준 BF16, FP8 및 GGUF 형식으로 HuggingFace에 게시

Qwen의 강력한 아키텍처를 기반으로 검열되지 않은 로컬 대안을 찾는 개발자는 로컬 하드웨어에 최적화된 형식으로 이 가중치를 배포할 수 있습니다.

SOURCES

[1]

11. ITBench-AA, SRE 사고에 대한 LLM 에이전트 평가

ITBench-AA는 Kubernetes 사고 대응을 시작으로 엔터프라이즈 IT 작업에서 AI 모델을 평가하기 위해 설계된 새로운 벤치마크 시리즈입니다. 이 벤치마크에는 오픈 소스 Stirrup 하네스를 통해 샌드박스 환경 내에서 실행되는 59개의 SRE 작업이 포함되어 있습니다. 현재 평가 결과 Claude Opus 4.7이 47%로 선두를 달리고 있으며, GPT-5.5가 46%로 그 뒤를 잇고 있습니다.

• 오픈 소스 Stirrup 하네스를 활용하여 59개의 Kubernetes 사고 대응 작업에 대해 모델 평가
• Stirrup은 로그와 메트릭이 포함된 샌드박스 파일 시스템에 대한 셸 액세스 제공
• Claude Opus 4.7이 47%로 벤치마크 선두, GPT-5.5 46%, GLM-5.1 40% 순
• 데이터에 따르면 에이전트 턴 수가 많다고 해서 오탐지로 인해 정확도가 높아지는 것은 아님

오픈 소스 Stirrup 하네스는 개발자에게 시스템 수준의 에이전트 환경을 구축, 샌드박싱 및 테스트할 수 있는 실행 가능한 프레임워크를 제공합니다.

SOURCES

[1] [2]

12. Pure Triton Fused MoE 커널, AMD 추론 가속화

한 개발자가 Triton으로 완전히 작성된 Mixture-of-Experts(MoE) 추론용 융합 디스패치 커널을 출시했습니다. 게이트 및 업 프로젝션을 융합함으로써 이 커널은 SwiGLU 값을 GPU 레지스터에 유지하여 글로벌 메모리 트래픽을 35% 줄입니다. 이 커널은 최대 512 토큰의 배치 크기에서 Stanford의 CUDA 최적화 Megablocks 성능의 89~131%를 달성합니다.

• 코드 변경 없이 AMD MI300X에서 기본적으로 실행되도록 순수 Triton으로 완전히 작성됨
• 최대 512 배치 크기에서 Megablocks 성능의 89~131% 달성
• 게이트 및 업 프로젝션을 융합하여 글로벌 메모리 트래픽을 35% 감소
• 2048 이상의 배치 크기나 높은 라우팅 편향 하에서 64개 이상의 전문가가 있는 경우 Megablocks 성능을 능가하지 못함

MoE 모델을 자체 호스팅하는 개발자는 독점적인 CUDA 종속성을 우회하여 코드 변경 없이 AMD MI300X 하드웨어에서 고성능 추론을 달성할 수 있습니다.

SOURCES

[1]

13. NVIDIA, CUDA 13.3에 CompileIQ 자동 튜닝 통합

NVIDIA는 CUDA 13.3 소프트웨어 플랫폼에 CompileIQ를 통합했습니다. 이 도구는 진화 알고리즘을 사용하여 개별 커널에 대한 설정을 자동 튜닝함으로써 표준 컴파일러 휴리스틱을 대체합니다. 이러한 다목적 튜닝을 통해 개발자는 런타임 성능, 전력 제약 조건 및 컴파일 시간 전반에 걸쳐 균형을 맞출 수 있습니다.

• 새로 출시된 CUDA 13.3 소프트웨어 플랫폼에 기본적으로 통합
• AI 기반 진화 알고리즘을 적용하여 커널별 컴파일러 구성을 사용자 정의
• 이미 최적화된 AI 학습 및 추론 작업에서 최대 15%의 성능 향상 제공
• 대규모 언어 모델(LLM) 추론 설정을 최적화하도록 설계

고처리량 추론 호스팅 설정을 관리하는 개발자는 CompileIQ를 사용하여 고도로 최적화된 GPU 커널에서 성능을 최대 15% 더 끌어낼 수 있습니다.

SOURCES

[1]

14. Null Epoch MMO 시뮬레이터, 93k 이벤트 에이전트 데이터셋 생성

Null Epoch 스트레스 테스트 프로젝트는 10일 동안 MMO 스타일 환경에서 8개의 오픈 가중치 모델에 걸쳐 25개의 에이전트를 실행했습니다. 이 실험은 Gemma 3, Ministral, Qwen3와 같은 모델을 추적하여 93,000개의 이벤트 데이터셋을 출력했습니다. 관찰 결과, Ministral은 강력한 상태 인식을 유지하고 Qwen3 235B는 차익 거래 전략을 수립했지만, 모든 모델이 모호한 상태 신호로 인해 어려움을 겪는 것으로 나타났습니다.

• HuggingFace에 CC-BY-4.0 라이선스로 93k 로그 이벤트 데이터셋 게시
• 표준 LLM 엔드포인트와 호환되는 MIT 라이선스 Python SDK에서 실행
• 공격성과 부의 역상관관계를 피하기 위해 자기 보존을 명시적으로 정의해야 함을 확인
• 테스트된 모든 모델이 모호한 노드 가용성 신호로 인한 '쿨다운 역설'을 해결하지 못함

개발자는 게시된 데이터셋을 분석하고 Python SDK를 사용하여 일반적인 에이전트 상태 처리 실패를 식별하고 시스템 프롬프트를 평가할 수 있습니다.

SOURCES

[1]

1. EAGLE 3.1 Speculative Decoding, vLLM에 통합

2. Robinhood, Model Context Protocol을 통한 주식 거래 베타 서비스 도입

3. NVIDIA, NeMo Gym 하위의 Polar 롤아웃 프레임워크 출시

4. 로컬 서빙 최적화: Ollama에서 llama.cpp로 전환

5. 에이전트 추론 루프를 멈추는 '젠틀 페어링(Gentle Parenting)' 프롬프팅

6. 자율 에이전트를 위한 환경 계층 격리 설계

7. Anthropic과 OpenAI, 엔터프라이즈 티어를 토큰 사용량 기반 가격으로 전환

8. PostHog, 미국 클라우드 고객 데이터를 내부 AI 모델 학습에 사용

9. MEMO 프레임워크, 검색 가능한 메모리를 핵심 추론과 분리

10. ReAligned-Qwen3.5, Apache 2.0 라이선스로 출시

11. ITBench-AA, SRE 사고에 대한 LLM 에이전트 평가

12. Pure Triton Fused MoE 커널, AMD 추론 가속화

13. NVIDIA, CUDA 13.3에 CompileIQ 자동 튜닝 통합

14. Null Epoch MMO 시뮬레이터, 93k 이벤트 에이전트 데이터셋 생성

데일리 AI 시그널을 인박스로