Audesso | Daily: AI

Alibaba, Anthropic API 호환성을 갖춘 Qwen3.7-Max 출시

00:00 / --:--

← 메인으로

Alibaba, Anthropic API 호환성을 갖춘 Qwen3.7-Max 출시

1. Alibaba, Anthropic API 호환성을 갖춘 Qwen3.7-Max 출시

Alibaba Cloud는 Alibaba Cloud Summit에서 독자적인 추론 모델인 Qwen3.7-Max를 발표했습니다. 코딩 및 과학적 추론 성능에 집중한 이 모델은 Artificial Analysis Intelligence Index에서 56.6점을 기록했습니다. 텍스트 입력 및 확장된 사고 추론 단계 지원 외에도 Anthropic API 프로토콜을 지원하여 개발자가 Claude Code와 같은 도구의 대체 백엔드로 즉시 배포할 수 있습니다.

  • 100만 토큰 컨텍스트 윈도우와 64K 최대 출력 제한을 제공합니다.
  • Anthropic API 프로토콜을 직접 지원하여 Claude Code에서 사용할 수 있습니다.
  • 가격은 입력 토큰 100만 개당 2.50달러, 출력 토큰 100만 개당 7.50달러로 책정되었습니다.
  • 내부 테스트에서 1,158회의 도구 호출을 포함하여 35시간 동안 연속적인 자율 실행을 시연했습니다.
  • 현재 독점 모델이며 중국 기반 엔드포인트를 통해서만 액세스할 수 있습니다.

개발자는 중국 기반의 Qwen3.7-Max 엔드포인트로 교체하는 것만으로도 기존 Claude Code 워크플로우에 매우 뛰어난 에이전트 모델을 통합할 수 있습니다.

2. CopilotKit, 에이전트 개발을 위한 AIMock 및 AG-UI 도구 출시

시애틀 기반의 스타트업 CopilotKit은 에이전트 워크플로우의 프로덕션화를 목표로 하는 3가지 벤더 중립적 도구를 도입했습니다. 개발자는 AIMock을 사용하여 토큰 비용 발생이나 실제 API 키 관리 없이 스키마 드리프트 감지, 카오스 테스트, 기록 및 재생 동작을 처리할 수 있습니다. 또한 Pathfinder MCP 서버를 통해 하이브리드 벡터 및 키워드 검색을 사용하여 로컬 문서, 코드베이스, Notion 페이지를 쿼리할 수 있습니다.

  • AIMock은 단일 JSON 구성을 사용하여 11개의 LLM 제공업체, MCP, 벡터 데이터베이스 및 검색 엔드포인트를 시뮬레이션합니다.
  • AG-UI 프로토콜을 통해 소프트웨어 에이전트가 UI를 스트리밍하고, 애플리케이션 상태를 동기화하며, 인간의 승인을 요청할 수 있습니다.
  • Pathfinder는 에어갭 지식 검색을 위한 플러그형 임베딩을 갖춘 자체 호스팅 MCP 서버입니다.
  • AG-UI는 Google, Microsoft와 같은 주요 제공업체와 PydanticAI, LangChain과 같은 프레임워크에서 지원됩니다.

이번 신규 릴리스는 11개의 LLM 제공업체 전반에서 전체 에이전트 호출을 모의 테스트할 수 있는 간소화된 무종속성 방식을 제공하여 테스트 환경을 가속화합니다.

SOURCES

3. Runtime, 오픈소스 샌드박스 에이전트 환경 출시

Runtime(YC P26)은 Claude Code, Cursor, Devin과 같은 에이전트 도구 배포 시 발생하는 보안 위험과 구성 복잡성을 해결합니다. 샌드박스 오케스트레이션을 추상화하여 팀이 에이전트 빌드의 안전한 미리보기 URL을 공유할 수 있게 합니다. 시스템의 네트워크 송신 제어 및 역할 기반 액세스 제어는 에이전트 실행 중 우발적인 데이터 유출을 방지합니다.

  • 밀리초 단위로 전체 실행 환경(멀티 서비스 Docker Compose, Kafka, Redis, 데이터베이스)의 스냅샷을 생성합니다.
  • Daytona, E2B, EC2 및 자체 호스팅 Kubernetes 샌드박스 전반에서 오케스트레이션을 수행합니다.
  • 비밀 주입, 명령 허용/거부 목록 및 송신 제어를 위한 관리형 프록시를 포함합니다.
  • 플랫폼의 핵심은 오픈 소스이며, 컴퓨팅 전용 가격이 책정된 호스팅 계층을 사용할 수 있습니다.

개발자는 로컬 시스템이나 프로덕션 클러스터를 노출하지 않고도 매우 복잡한 환경에서 신뢰할 수 없는 에이전트 코드를 실행할 수 있습니다.

SOURCES

4. Daytona, 초고속 샌드박스를 갖춘 에이전트 네이티브 컴퓨팅으로 전환

Daytona는 인간 개발 환경에서 에이전트 중심 컴퓨팅으로 전환하며 현대 컨테이너 오케스트레이터의 성능 한계를 겨냥하고 있습니다. Ivan Burazin CEO는 Kubernetes와 같은 표준 솔루션이 에이전트 워크로드에 부적합하다고 주장하며, 베어메탈 및 상태 저장 스냅샷 기술을 기반으로 한 맞춤형 아키텍처를 구축했습니다. 이 서비스는 안전한 코드 실행을 위한 유틸리티 API 역할을 하도록 포지셔닝되었습니다.

  • 에이전트 코드 실행을 위해 60ms의 초고속 샌드박스 시작 환경을 제공합니다.
  • 75초 만에 50,000개의 시작으로 확장할 수 있으며 일일 850,000회의 실행을 처리합니다.
  • Kubernetes를 피하고 베어메탈 오케스트레이션과 상태 저장 스냅샷을 선택했습니다.
  • 현재 플랫폼 사용량의 약 50%가 강화 학습 워크로드에 의해 발생합니다.

코드를 실행하는 LLM 에이전트를 구축하는 개발자는 대용량 실행 및 평가를 처리하도록 특별히 설계된 60ms 시작 환경을 활용할 수 있습니다.

SOURCES

5. Docusign, Claude 및 Gemini 통합을 위한 MCP 서버 도입

Docusign은 에이전트 계약 워크플로우를 위해 설계된 개발자 도구 제품군을 출시했습니다. 이번 릴리스를 통해 일반적인 AI 에이전트가 통합된 거버넌스 및 보안 컨텍스트 하에서 Docusign API와 직접 상호작용할 수 있습니다. 앱 개발자는 이러한 도구를 활용하여 LLM이 과거 계약을 자율적으로 쿼리하고, 메타데이터를 관리하며, 문서를 초안 작성하거나 라우팅하도록 할 수 있습니다.

  • Docusign 기능을 위한 전용 MCP(Model Context Protocol) 서버를 포함합니다.
  • Agreement Manager API 및 Agent Studio 환경을 제공합니다.
  • 대량 문서 수집 및 계약 이력 기반의 에이전트 거버넌스를 지원합니다.
  • Claude 및 Gemini 모델이 자연어를 통해 직접 계약 작업을 트리거할 수 있도록 합니다.

이제 개발자는 표준 프레임워크를 사용하여 Docusign 계약을 관리, 수집 및 쿼리하는 자연어 에이전트를 구축할 수 있습니다.

SOURCES

6. Rmux, 터미널에 Playwright 스타일의 SDK 자동화 도입

RMUX는 로컬 및 원격 명령줄 환경을 위한 프로그래밍 가능한 계층 역할을 합니다. tmux 키 바인딩 및 명령과 일치함으로써 드롭인 대체제로 기능하는 동시에 외부 오케스트레이션을 위한 비동기 API를 노출합니다. 이 프로젝트를 통해 개발자는 터미널 상호작용을 스크립트화하고, 출력을 확인하며, 병렬 세션을 프로그래밍 방식으로 관리할 수 있습니다.

  • Rust로 작성되었으며 약 90개의 명령을 지원하는 tmux 호환 CLI를 특징으로 합니다.
  • 안정적인 창 ID와 로케이터 스타일의 대기 기능을 제공하는 비동기 Rust SDK를 포함합니다.
  • WSL 없이 ConPTY를 통해 Linux, macOS 및 Windows에서 기본적으로 실행됩니다.

터미널 실행 에이전트를 구축하는 개발자는 안정적인 창 ID와 구조화된 상태 스냅샷을 사용하여 콘솔 애플리케이션을 프로그래밍 방식으로 캡처하고 구동할 수 있습니다.

SOURCES

7. llama.cpp, 다중 토큰 예측 서버의 VRAM 누수 수정

다중 토큰 예측(MTP) 아키텍처 사용 시 llama.cpp 서버에 영향을 미치는 심각한 메모리 누수 문제가 패치되었습니다. 이전에는 서버가 절전 주기에 진입할 때 추측 디코더와 초안 구성을 해제하지 못해 VRAM을 지속적으로 소비했습니다. 이번 업데이트는 전체 VRAM 회수를 보장하기 위해 깔끔한 리소스 파괴 순서를 강제합니다.

  • 풀 리퀘스트 #23461은 추측 디코더, 초안 컨텍스트 및 초안 모델을 명시적으로 재설정합니다.
  • server_context_impl의 destroy() 함수 내 리소스가 누수되던 버그를 수정했습니다.
  • llama-server의 반복적인 절전 및 재개 주기로 인해 발생하는 메모리 부족 충돌을 해결합니다.

로컬 Qwen 3.6 또는 기타 MTP 모델을 실행하는 개발자는 최신 업데이트를 적용하여 실패한 정리 주기로 인한 메모리 부족 오류를 방지할 수 있습니다.

SOURCES

8. ik_llama.cpp, 12GB GPU에서 로컬 MTP 추론 속도 향상

로컬 하드웨어 벤치마크를 통해 표준 llama.cpp 대비 ik_llama.cpp 사용 시 다중 토큰 예측(MTP) 추론 속도가 크게 향상되었음이 입증되었습니다. RTX 4070 Super GPU와 시스템 모니터 작업을 위한 iGPU를 페어링함으로써 개발자는 12GB의 VRAM을 최대한 활용하여 35B 파라미터 양자화 모델을 로컬에 호스팅할 수 있습니다. 이 구성은 실시간 코딩 보조 도구에 적합한 매우 반응적인 출력을 달성합니다.

  • ik_llama.cpp를 사용하여 RTX 4070 Super 12GB에서 초당 110.24토큰을 달성했습니다.
  • 동일한 하드웨어 설정에서 표준 llama.cpp는 초당 89.76토큰을 달성했습니다.
  • 4.19bpw로 양자화된 Qwen3.6-35B-A3B-IQ4_XS 모델을 사용했습니다.
  • 타이트한 VRAM 할당을 관리하기 위해 --fit-margin 조정을 사용해야 합니다.

로컬 모델 환경을 실행하는 개발자는 표준 llama.cpp 구현 대비 23%의 속도 향상을 달성할 수 있습니다.

SOURCES

9. Delta-Mem, AI 에이전트에 경량 작업 메모리 추가

Delta-mem은 컨텍스트 윈도우 확장 제한을 해결하기 위해 자율 에이전트를 위한 대체 메모리 구조를 도입합니다. 행동 이력을 위해 RAG(검색 증강 생성)에 의존하는 대신, 이 방법은 동적 상호작용 로그를 빠른 연관 행렬로 압축합니다. 이 접근 방식은 핵심 모델을 고정된 상태로 유지하여 장기 작업에 걸쳐 빠르고 가벼운 상태 업데이트를 가능하게 합니다.

  • MLP 메모리 기준의 76.40%와 비교하여 백본 모델 파라미터의 0.12%만 추가합니다.
  • 고정된 LLM 가중치를 수정하지 않고 상태를 업데이트하기 위해 OSAM(Online State of Associative Memory)을 구현합니다.
  • Qwen3-4B-Instruct 백본을 사용하여 벤치마크에서 51.66%를 달성하여 Context2LoRA 기준을 능가했습니다.
  • 코드는 GitHub에서 제공되며 학습된 가중치는 Hugging Face에 호스팅되어 있습니다.

개발자는 32,000토큰 컨텍스트 길이에서도 고정된 GPU 메모리 점유율을 유지하는 경량 행동 메모리 어댑터를 에이전트에 장착할 수 있습니다.

SOURCES

10. ByteDance, Lance 3B 통합 멀티모달 모델 출시

ByteDance는 처음부터 학습된 3B 활성 파라미터 듀얼 스트림 전문가 혼합(MoE) 모델인 Lance를 출시했습니다. Lance는 MaPE(Modality-Aware Rotary Positional Encoding)를 사용하여 생성 및 이해 경로를 깔끔하게 분리합니다. 로컬에서 실행하려면 고메모리 개발자 GPU가 필요하지만, 개별 모델을 교체할 필요 없이 통합된 멀티모달 처리를 제공합니다.

  • 이미지와 비디오 모두를 이해, 생성 및 편집하기 위한 통합 아키텍처입니다.
  • Apache 2.0 라이선스로 출시되었으며 가중치는 Hugging Face에서 사용할 수 있습니다.
  • 최소 40GB의 VRAM과 CUDA 12.4 이상을 갖춘 GPU가 필요합니다.
  • GenEval에서 0.90점, VBench에서 85.11점을 기록하여 현재 통합 모델 중 가장 높은 점수를 받았습니다.

멀티모달 비디오 및 이미지 애플리케이션을 구축하기 위한 오픈 가중치, Apache 2.0 대안을 제공합니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.