Audesso | Daily: AI

MiniMax M2.7 오픈소스 공개: 56.22% SWE-Pro 점수를 기록한 자가 진화 에이전트 모델

00:00 / --:--

← 메인으로

MiniMax M2.7 오픈소스 공개: 56.22% SWE-Pro 점수를 기록한 자가 진화 에이전트 모델

1. MiniMax M2.7 오픈소스 공개: 56.22% SWE-Pro 점수를 기록한 자가 진화 에이전트 모델

MiniMax는 비지도 자가 진화를 통해 개발 주기에 직접 참여한 에이전트 모델 M2.7의 가중치를 공개했습니다. 이 모델은 SWE-Pro 벤치마크에서 56.22%를 기록하며 GPT-5.3-Codex와 대등한 성능을 보입니다. 현재 Hugging Face에서 다운로드 가능하며 NVIDIA를 통해 무료 API 액세스를 제공합니다. 오픈소스 라이선스에는 특정 상업적 제한이 포함되어 있으니 개발자는 유의해야 합니다.

2. Anthropic API 프롬프트 캐시 TTL 단축으로 Claude Code 비용 증가

Claude Code 세션 로그 분석 결과, Anthropic이 2026년 3월 초 프롬프트 캐시 TTL(Time-To-Live) 기본값을 1시간에서 5분으로 조용히 단축한 것으로 나타났습니다. 이 서버 측 변경으로 인해 사용자들의 캐시 생성 비용이 20~32% 증가했습니다. 짧아진 TTL은 긴 개발 세션 동안 잦은 캐시 미스를 유발하여 구독 사용자의 할당량을 빠르게 소진시킵니다. 긴 컨텍스트 세션을 사용하는 개발자는 API 사용량을 모니터링하고 워크플로우를 조정하여 비용 증가에 대비해야 합니다.

3. Liquid AI, 엣지 디바이스용 비전-언어 모델 LFM2.5-VL-450M 출시

Liquid AI는 엣지 하드웨어에 최적화된 4억 5천만 파라미터 규모의 비전-언어 모델 LFM2.5-VL-450M을 출시했습니다. 이번 업데이트로 바운딩 박스 예측, 함수 호출, 다국어 이해 능력이 확장되었습니다. NVIDIA Jetson Orin과 같은 임베디드 AI 모듈에서 250ms 미만의 추론 속도로 실행되도록 설계되어, 지연 시간과 컴퓨팅 자원이 제한된 환경에서 경량 멀티모달 솔루션을 찾는 개발자에게 적합합니다.

4. 소형 오픈 가중치 모델, Anthropic Mythos의 취약점 탐지 능력 재현

AISLE의 보안 연구원들은 소형 오픈 가중치 모델이 Anthropic의 제한적 모델인 Mythos와 동일한 제로데이 취약점 분석 결과를 도출할 수 있음을 입증했습니다. 테스트 결과, 36억 파라미터 규모의 오픈 모델이 Mythos 발표에서 강조된 FreeBSD 익스플로잇을 성공적으로 탐지했습니다. 이는 AI 사이버 보안 능력이 모델 크기에 비례하지 않음을 보여주며, 방어적 우위는 대형 독점 모델에 의존하기보다 주변 보안 시스템 아키텍처에 있음을 시사합니다.

5. BenchJack 프리뷰: 주요 AI 에이전트 벤치마크를 무력화하는 자동화 익스플로잇 도구

연구원들이 SWE-bench 및 WebArena와 같은 주요 AI 에이전트 벤치마크를 악용하여 과제를 해결하지 않고도 거의 완벽한 점수를 얻는 자동화 스캔 에이전트 'BenchJack'을 개발했습니다. 이 도구는 작업 구성에서 정답을 직접 읽어오는 등의 간단한 익스플로잇으로 리더보드 점수를 조작할 수 있음을 보여줍니다. 개발자들은 벤치마크의 적대적 견고성 테스트를 위해 BenchJack을 공개할 예정이며, 이는 현재 업계의 AI 에이전트 평가 방식에 중대한 결함이 있음을 드러냅니다.

6. Claudraband: 세션 관리를 지원하는 Claude Code용 터미널 래퍼

Claudraband는 tmux나 xterm.js를 사용하여 제어된 터미널 환경에서 Claude Code TUI를 실행하는 새로운 오픈소스 도구입니다. 이 도구는 재개 가능한 비대화형 워크플로우를 지원하며 개발자가 이전 세션을 검토할 수 있게 합니다. 원격 제어를 위한 HTTP 서버와 Zed와 같은 대체 프론트엔드와의 통합을 위한 ACP 서버를 포함하며, 사용자 지정 애플리케이션에 워크플로우를 임베딩하기 위한 TypeScript 라이브러리도 제공합니다.

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.