Audesso | Daily: AI

Model Context Protocol 릴리스 후보, 상태 비저장(Stateless) HTTP 코어 도입

00:00 / --:--

← 메인으로

Model Context Protocol 릴리스 후보, 상태 비저장(Stateless) HTTP 코어 도입

1. Model Context Protocol 릴리스 후보, 상태 비저장(Stateless) HTTP 코어 도입

이번 릴리스 후보는 초기 출시 이후 Model Context Protocol(MCP)의 가장 큰 개정판입니다. 핵심 프로토콜을 상태 비저장 방식으로 재설계하여 클라우드 및 HTTP 기반 서버리스 환경 전반의 배포를 간소화하고, 에이전트 상호작용의 확장성을 높였습니다. 개발자는 새로운 인증 사양을 검토하고 안정적인 릴리스 이전에 발생할 수 있는 주요 변경 사항(Breaking Changes)에 대비해야 합니다.

  • HTTP 인프라에 최적화된 상태 비저장 코어 제공
  • 확장 기능에 대한 공식 지원 추가 및 OAuth/OpenID Connect 기반 인증 구현
  • 주요 변경 사항 도입 및 새로운 공식 지원 중단 정책 수립
  • 최종 사양 버전은 7월 28일 릴리스 예정

Model Context Protocol이 OAuth/OpenID 인증을 포함한 상태 비저장 HTTP 코어로 전환되고 주요 변경 사항이 도입됨에 따라 기존 MCP 서버의 즉각적인 업데이트가 필요합니다.

SOURCES

2. 인증 제공업체, MCP 서버를 위한 관리형 OAuth 보안 출시

작업별 AI 에이전트가 엔터프라이즈 애플리케이션에 통합됨에 따라 도구 호출(Tool call) 보안이 우선순위가 되었습니다. 이를 해결하기 위해 업계는 보호된 HTTP 기반 MCP 배포를 위해 PKCE를 사용하는 OAuth 2.1을 표준화하고 있습니다. WorkOS의 엔터프라이즈급 SSO 통합부터 Arcade의 ID 기반 권한 런타임에 이르기까지 주요 ID 및 통합 제공업체들이 네이티브 도구를 출시하여, 개발자가 에이전트 군집에 대해 보안 및 정책 준수 인증을 구현할 수 있도록 지원합니다.

  • Model Context Protocol(MCP)은 2025년 말 기준 Python 및 TypeScript 다운로드 합계 9,700만 건 달성
  • MCP HTTP 기반 배포는 PKCE를 사용하는 OAuth 2.1, HTTPS 및 보호된 리소스 메타데이터(RFC 9728) 필요
  • WorkOS는 SSO, SCIM 및 세밀한 권한 제어(FGA)와 통합된 MCP 호환 OAuth 제공
  • Okta의 Auth0는 2026년 5월 6일 'Auth for MCP' 정식 출시
  • Stytch, Arcade, Cloudflare의 Agents SDK 등 기타 플랫폼에서도 에지 네이티브 및 정책 강제 MCP 지원 제공

에이전트 도구 호출 및 MCP 서버를 보호하려면 주요 ID 제공업체 전반에서 기본적으로 지원되는 표준화된 OAuth 2.1 인증을 구현해야 합니다.

SOURCES

3. WorkOS, 에이전트 등록을 위한 오픈 auth.md 프로토콜 출시

새로운 auth.md 프로토콜은 자율 에이전트와 서비스가 서로를 발견하고 신뢰하는 방식을 간소화합니다. 도메인에 간단한 마크다운 파일을 호스팅함으로써 서비스는 지원되는 등록 흐름, 범위 및 자격 증명 관리 규칙을 게시할 수 있습니다. 이를 통해 에이전트는 프로그래밍 방식으로 등록하고 기존 OAuth 표준을 사용하여 동기식으로 자격 증명을 받을 수 있습니다.

  • 서비스 도메인에 호스팅된 마크다운 파일을 사용하여 에이전트 등록 표준화
  • 기존 OAuth 표준을 기반으로 구축되었으며 인프라에 구애받지 않음
  • 사람의 개입 없는 동기식 자격 증명 발급을 위해 ID-JAG를 활용하는 'Agent verified' 흐름 제공
  • 등록을 사용자와 연결하기 위해 일회용 비밀번호(OTP)를 활용하는 'User claimed' 흐름 지원

개발자가 독점적인 인증 인프라에 의존하지 않고도 들어오는 AI 에이전트에 대한 표준 등록 엔드포인트를 노출할 수 있습니다.

SOURCES

4. Together AI, 2비트 KV 캐시 양자화를 위한 OSCAR 출시

긴 문맥 모델을 서빙할 때는 KV 캐시에 필요한 막대한 메모리 점유율이 병목 현상이 되는 경우가 많습니다. OSCAR(Offline Spectral Covariance-Aware Rotation)는 어텐션 인식 회전 행렬을 사용하여 양자화 노이즈를 민감한 방향에서 멀어지게 함으로써 이를 우회합니다. 최근 토큰과 싱크 토큰을 위한 작은 BF16 버퍼와 INT2 기록 압축을 결합함으로써, 개발자는 정확도 저하나 하드웨어 부담 없이 문맥 제한을 확장할 수 있습니다.

  • 100K 문맥 길이에서 KV 캐시 메모리 최대 8배 감소 및 디코드 처리량 최대 3배 증가
  • 혼합 정밀도 레이아웃 사용: 처음 64개 싱크 토큰과 마지막 256개 토큰은 BF16, 기록 토큰은 2비트 INT2로 압축
  • Qwen3-32B 및 GLM-4.7-FP8과 같은 모델에서 BF16에 가까운 정확도 유지
  • SGLang과 완전히 통합되어 페이징된 어텐션 및 접두사 캐싱 지원
  • 사전 계산된 회전 행렬 및 클립 임계값은 RotationZoo 저장소에서 이용 가능

로컬 또는 전용 엔드포인트에서 긴 문맥 LLM을 실행할 때 발생하는 막대한 메모리 점유율을 추론 정확도 손실을 최소화하면서 7~8배 줄일 수 있습니다.

SOURCES

5. NuExtract3: 구조화된 문서 추출을 위한 오픈 웨이트 4B VLM

NuMarkdown 모델의 후속작인 NuExtract3는 비정형 시각적 문서를 깔끔한 구조화된 마크다운 또는 데이터 형식으로 변환하는 데 특화되어 있습니다. 낮은 메모리 요구 사항 덕분에 로컬이나 서버리스 환경에서 전용 문서 처리 파이프라인을 직접 호스팅하려는 비용 효율적인 개발자들에게 매우 매력적입니다.

  • Apache-2.0 라이선스로 출시되었으며 Qwen3.5-4B 기반
  • PDF, 스크린샷, 양식, 표, 송장에서 구조화된 추출을 위해 설계
  • 실행에 최소 4GB VRAM 필요
  • Safetensors, GGUF 및 MLX 가중치와 호환
  • vLLM, SGLang 및 llama.cpp와 테스트 완료 및 호환

고정밀 문서 파싱 및 OCR 작업을 위해 상용 API를 대체할 수 있는 매우 효율적이고 자체 호스팅 가능한 대안을 제공합니다.

SOURCES

6. Clerk, 에이전트 내 헤드리스 인증을 위한 오픈 소스 CLI 출시

인증 관리를 스크립트 가능한 명령줄 인터페이스로 전환함으로써 Clerk는 테넌트 액세스를 관리하기 위해 브라우저 대시보드에 로그인할 필요를 없앴습니다. 이 CLI는 오픈 소스이며 에이전트를 염두에 두고 설계되었기 때문에, 개발자가 자동화된 프로세스에 ID 경계에 대한 안전하고 세밀한 제어 권한을 부여할 수 있는 깔끔한 경로를 제공합니다.

  • 스캐폴딩을 위한 'clerk init', 코드 설정을 위한 'clerk config', 헤드리스 작업을 위한 'clerk api' 포함
  • 사용자, 조직 및 세션을 프로그래밍 방식으로 가져오기 가능
  • 오픈 소스이며 에이전트 하네스 통합에 최적화

자동화된 에이전트가 수동 대시보드 개입 없이 프로그래밍 방식으로 ID 관리 작업을 실행할 수 있습니다.

SOURCES

7. Reasonix: 터미널 기반 DeepSeek 코딩 에이전트

Reasonix는 코딩 루프를 터미널 내에서 유지하는 것을 선호하는 개발자를 대상으로 합니다. DeepSeek의 네이티브 접두사 캐싱 동작을 중심으로 에이전트 상호작용을 최적화함으로써, 이 도구는 문맥이 많은 다중 턴 프로그래밍 작업과 관련된 반복적인 프롬프트 처리 비용을 크게 줄여줍니다.

  • 터미널 환경을 위해 특별히 설계된 DeepSeek 네이티브 코딩 에이전트로 엔지니어링
  • 장기 실행 개발자 세션을 유지하기 위해 접두사 캐시 안정성을 중심으로 구축
  • 확장된 코드 편집 중 토큰 비용을 최소화하도록 최적화

안정적인 캐싱을 활용하여 낮은 토큰 비용으로 길고 대화형인 터미널 코딩 세션을 실행할 수 있습니다.

SOURCES

8. llama.cpp PR, 에이전트 코딩을 위한 프롬프트 재처리 최적화

대화형 코딩 도구는 과거 메시지를 다시 작성하거나 프롬프트 기록을 수정하는 경우가 많으며, 이는 기존 llama.cpp가 수만 개의 토큰을 재처리하도록 강제하여 자원을 낭비하게 합니다. 이번 최적화는 에이전트 세션 중 대기 시간을 획기적으로 단축합니다. 로컬 워크플로우를 실행하는 개발자는 모델이 생성한 '사고(thinking)' 태그를 유지하는 것이 문맥 캐시 정렬을 유지하는 데 도움이 된다는 점에 유의해야 합니다.

  • 'opencode'와 같은 에이전트 도구가 문맥을 다시 작성하여 최대 70k 토큰의 재처리를 강제하는 문제 해결
  • llama.cpp가 프롬프트 문맥 중 변경된 섹션만 재처리하도록 보장
  • 사고/추론 태그를 제거하는 모델도 전체 프롬프트 재처리를 트리거할 수 있음에 유의
  • (Qwen 3.6과 같이) '사고 유지' 기능을 활성화하여 추론 문맥 손실을 방지할 것을 권장

대화 기록을 자주 다시 작성하거나 추론 태그를 제거하는 로컬 코딩 보조 도구의 대화형 지연 시간을 개선합니다.

SOURCES

9. llama.cpp CUDA 업데이트, Fast Walsh-Hadamard 변환 구현

KV 캐시를 양자화하는 것은 긴 문맥 모델을 소비자용 GPU에 맞추는 대중적인 방법이지만, 계산 오버헤드를 초래할 수 있습니다. 이번 풀 리퀘스트는 CUDA 장치에서 해당 병목 현상을 직접 해결합니다. Fast Walsh-Hadamard 변환의 통합은 키-값 양자화 작업이 더 빠르게 실행되도록 하여 로컬 텍스트 생성을 더 빠르게 만듭니다.

  • CUDA 기반 KV 캐시 양자화를 위한 Fast Walsh-Hadamard 변환(FWHT) 구현
  • 프롬프트 처리에 1~2% 성능 향상, 토큰 생성에 7~9% 향상 제공
  • NVIDIA RTX 5090에서 8비트 양자화 키 및 값(-ctk q8_0 -ctv q8_0)을 사용하여 gemma4 26B로 테스트 완료

NVIDIA GPU에서 양자화된 로컬 추론을 실행하는 개발자는 최대 9%의 처리량 향상을 즉시 확인할 수 있습니다.

SOURCES

10. OpenAI, 멀티 에이전트 시스템을 위한 매크로 평가 워크플로우 출시

복잡한 에이전트 설정을 수동으로 디버깅하는 것은 다단계 추론의 비결정적 특성 때문에 매우 어렵습니다. OpenAI의 새로운 매크로 평가 접근 방식은 많은 실행 횟수에 걸쳐 실행 지표를 집계하여 이 문제를 해결합니다. 이제 개발자는 개별 엣지 케이스 버그를 쫓는 대신 전체 에이전트 군집 전반에서 반복되는 실패 경로, 아키텍처 병목 현상 및 시스템 문제를 식별할 수 있습니다.

  • 전체 추적 모집단 전반의 매크로 패턴 분석에 집중
  • 고립된 개별 에이전트 실패 평가에서 탈피
  • 멀티 에이전트 배포의 예측 가능성을 개선하기 위해 OpenAI가 도입

에이전트 평가를 개별 실패에 대한 취약한 수동 확인에서 실행 추적의 모집단 수준 집계 분석으로 전환합니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.