1. Anthropic, 기업 도입 부문에서 OpenAI 추월
2026년 5월 Ramp AI Index 데이터에 따르면 기업 AI 지출에 큰 변화가 나타났으며, 참여 기업의 34.4%가 Anthropic 서비스를 이용하는 반면 OpenAI는 32.3%를 기록했습니다. OpenAI가 여전히 방대한 소비자 기반을 유지하고 있지만, Anthropic의 기업 도입률은 에이전트형 코딩 도구의 인기에 힘입어 지난 1년간 4배 증가했습니다. 이러한 변화는 범용 소비자 모델보다 전문화된 에이전트 워크플로우를 선호하는 기업의 경향을 보여줍니다.
- • Anthropic의 기업 도입률은 4월 34.4%에 도달하여 OpenAI의 32.3%를 넘어섰습니다.
- • Anthropic의 기업 도입률은 지난 1년간 4배 증가했습니다.
- • Claude Code는 전체 공개 GitHub 커밋의 4%를 작성하는 것으로 추정됩니다.
이 이정표는 기업 AI 시장의 전환점을 시사하며, Anthropic의 에이전트형 코딩 도구 집중 전략이 기존 OpenAI가 주도하던 기업 예산을 성공적으로 확보하고 있음을 보여줍니다.
2. Anthropic, 에이전트 SDK 크레딧 도입
Anthropic은 2026년 4월에 시행했던 타사 자율 에이전트의 Claude 구독 사용 금지 조치를 철회했습니다. 이제 구독자는 플랜에 따라 20달러에서 200달러 사이의 고정된 월간 에이전트 SDK 크레딧(이월 불가)을 받게 됩니다. 이 크레딧은 API 요금으로 청구되며 일반 채팅 사용량과는 별도로 관리됩니다. 이는 에이전트가 프롬프트 캐싱 메커니즘을 우회하면서 발생했던 기존의 컴퓨팅 비효율성 문제를 해결하기 위한 것입니다. 이 정책은 2026년 6월 15일까지 완전히 시행될 예정입니다.
- • 에이전트 SDK 크레딧은 고정된 월간 할당량으로 이월되지 않습니다.
- • 프로그래밍 방식의 사용은 대화형 채팅 제한과 별도로 API 요금으로 청구됩니다.
- • 이번 정책 변경은 프롬프트 캐싱과 관련된 기술적 비효율성을 해결합니다.
이번 변경 사항은 개발자가 타사 에이전트를 Claude와 통합할 수 있는 명확한 경로를 제공하는 동시에, Anthropic이 컴퓨팅 비용과 인프라 안정성을 관리할 수 있도록 합니다.
3. Fastino Labs, GLiGuard 조정 모델 출시
GLiGuard는 조정을 생성 작업이 아닌 텍스트 분류 작업으로 처리하는 인코더 기반의 안전 조정 모델입니다. 분류에 집중함으로써 더 큰 디코더 전용 모델보다 훨씬 높은 처리량과 낮은 지연 시간을 달성합니다. 안전 분류, 탈옥 탐지, 유해 범주 탐지, 거부 탐지라는 네 가지 안전 차원을 단일 순방향 패스로 평가하여 프로덕션급 AI 가드레일에 적합합니다.
- • 텍스트 분류에 최적화된 3억 파라미터 모델.
- • 더 큰 디코더 전용 모델보다 16.2배 높은 처리량 달성.
- • 단일 순방향 패스로 4가지 안전 차원 평가.
AI 애플리케이션을 구축하는 개발자에게 GLiGuard는 실시간 안전 조정을 위한 더 크고 효율적인 대안을 제공하여 지연 시간과 운영 비용을 모두 절감합니다.
4. Ardent, AI 에이전트를 위한 Postgres 샌드박스 출시
Ardent를 사용하면 테라바이트 규모의 데이터셋에서도 6초 이내에 데이터베이스 샌드박스를 가동할 수 있습니다. 이 플랫폼은 복제 스트림과 Copy-on-Write 기술을 사용하여 프로덕션 데이터베이스를 미러링하는 격리된 환경을 생성합니다. 세분화된 액세스 제어, 자격 증명 보호, 자동 PII(개인식별정보) 마스킹 기능을 포함하여 AI 에이전트가 프로덕션과 유사한 환경에서 데이터베이스 상호작용을 안전하게 테스트할 수 있도록 지원합니다.
- • 6초 이내에 샌드박스 가동.
- • 모든 호스팅된 PostgreSQL 데이터베이스와 호환.
- • 내장된 PII 마스킹 및 액세스 제어 포함.
실제 데이터베이스 스키마를 대상으로 AI 에이전트를 테스트하는 것은 종종 느리고 위험합니다. Ardent의 접근 방식은 데이터베이스 액세스가 필요한 에이전트 워크플로우를 더 빠르고 안전하게 반복할 수 있게 합니다.
5. Modal, 서버리스 GPU 확장 최적화
서버리스 컴퓨팅은 워크로드가 매우 가변적인 AI 추론에 점점 더 중요해지고 있습니다. Modal은 인프라를 최적화하여 새로운 복제본을 신속하게 가동함으로써 추론 용량을 확장하는 데 필요한 시간을 수 킬로초에서 수십 초로 단축했습니다. 이러한 개선을 통해 개발자는 유휴 GPU 용량을 유지하지 않고도 예측할 수 없는 트래픽 급증을 보다 효과적으로 처리할 수 있습니다.
- • 확장 시간을 킬로초에서 수십 초로 단축.
- • 가변적인 추론 워크로드에 최적화.
- • GPU 용량의 과도한 프로비저닝 필요성 감소.
신속한 확장은 비용 효율적인 AI 추론에 필수적입니다. Modal의 인프라 개선을 통해 개발자는 컴퓨팅 낭비를 최소화하면서 더 반응성이 뛰어난 애플리케이션을 구축할 수 있습니다.
6. Cactus Needle: 2600만 파라미터 오픈 모델
Cactus Needle은 Gemini 3.1에서 증류된 Simple Attention Network(SAN)입니다. 2600만 개의 파라미터만으로 Mac 또는 PC 하드웨어에서 로컬로 실행되도록 설계되었으며, 프리필(prefill) 시 초당 6,000 토큰, 디코드(decode) 시 초당 1,200 토큰의 속도를 달성합니다. 모델 가중치는 완전히 공개되어 있으며, 휴대폰이나 웨어러블과 같은 엣지 디바이스를 위한 AI 기능을 재정의하는 것을 목표로 합니다.
- • Gemini 3.1에서 증류된 2600만 파라미터 모델.
- • 소비자 하드웨어에서 로컬 미세 조정 가능.
- • 프리필 및 디코드 시 높은 토큰 처리량 달성.
이 모델은 클라우드 기반 API 호출 없이도 로컬에서 특정 작업을 수행할 수 있는 고효율 소규모 모델의 잠재력을 보여줍니다.
7. Notion, AI 에이전트를 위한 개발자 플랫폼 출시
Notion은 새로운 개발자 플랫폼을 통해 생산성 소프트웨어를 에이전트 영역으로 확장하고 있습니다. 이번 업데이트를 통해 팀은 외부 데이터 소스, 사용자 지정 코드, AI 에이전트를 Notion 워크스페이스에 직접 연결할 수 있습니다. 이러한 움직임은 Notion이 에이전트 워크플로우의 중심 허브가 되어 사용자가 애플리케이션을 떠나지 않고도 작업을 자동화하고 데이터와 상호작용할 수 있도록 하겠다는 의지를 보여줍니다.
- • 외부 데이터 및 사용자 지정 코드 통합 지원.
- • AI 에이전트를 Notion 워크스페이스에 직접 내장 가능.
- • 에이전트 기반 생산성 소프트웨어로의 전략적 확장.
워크스페이스를 에이전트 허브로 전환함으로써 Notion은 기업용 AI의 주요 인터페이스로 자리매김하고 있으며, 개발자가 업무가 발생하는 곳에서 직접 실행되는 맞춤형 에이전트 도구를 구축할 수 있도록 지원합니다.
8. 영국 AI 안전 연구소, 사이버 역량의 급격한 성장 보고
영국 AI 안전 연구소(AISI)는 AI 모델이 복잡한 사이버 작업을 완료하는 능력이 빠르게 발전하고 있다고 보고했습니다. Claude Mythos Preview 및 GPT-5.5와 같은 모델을 테스트한 결과, 역량이 두 배로 증가하는 데 걸리는 시간이 약 4.5개월로 나타났으며 이는 이전 추정치보다 가속화된 수치입니다. 이러한 모델은 이제 복잡한 사이버 레인지를 해결할 수 있으며, 성능은 본질적인 능력보다는 토큰 사용량에 의해 제한되는 것으로 보입니다.
- • 사이버 역량 배가 시간은 약 4.5개월로 추정.
- • 새로운 모델들이 복잡한 사이버 레인지를 성공적으로 해결.
- • 성능은 본질적인 능력보다 토큰 사용량에 의해 제한되는 것으로 보임.
AI 사이버 역량의 급격한 발전으로 인해 민감한 인프라와 상호작용하는 에이전트 시스템을 구축하는 개발자에게는 새로운 보안 프레임워크와 모니터링 전략이 필요합니다.