Google, 고속 에이전트 기능을 갖춘 Gemini 3.5 Flash 출시

1. Google, 고속 에이전트 기능을 갖춘 Gemini 3.5 Flash 출시

Google이 연례 개발자 컨퍼런스에서 Gemini 3.5 Flash 모델을 공식 출시했습니다. 이 모델은 복잡한 에이전트 및 소프트웨어 엔지니어링 작업에 최적화되어 있으며, Terminal-Bench 2.1(76.2%) 및 MCP Atlas(83.6%)와 같은 벤치마크에서 우수한 성능을 보입니다. 초당 280개 이상의 출력 토큰을 처리하는 속도로 이전 버전 대비 획기적인 속도 향상을 제공합니다. Shopify, Salesforce, Databricks와 같은 파트너들이 이미 기업용 도입을 시작했습니다.

• 초당 약 300토큰 출력
• 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 9.00달러로 책정
• 캐시된 입력 토큰에 대해 90% 할인 제공
• Terminal-Bench 2.1(76.2%) 및 MCP Atlas(83.6%)에서 Gemini 3.1 Pro 능가
• 100만 토큰 컨텍스트 윈도우 유지

고처리량 코딩 및 에이전트 작업을 위한 고성능의 비용 효율적인 대안을 제공합니다.

SOURCES

[1] [2] [3] [4] [5] [6] [7]

2. Google, Antigravity 2.0 데스크톱 플랫폼 및 CLI 발표

Google이 개발자 도구를 독립형 데스크톱 애플리케이션으로 전환하는 Antigravity 2.0을 공개했습니다. 이 생태계는 터미널 기반 작업을 위한 CLI, 개발자 SDK, Gemini Enterprise Agent Platform을 특징으로 합니다. 개발자는 Gemini API 내의 관리형 에이전트(Managed Agents)를 활용하여 격리된 상태 유지 Linux 환경에서 에이전트 실행을 수행할 수 있습니다. 이 플랫폼은 기본 모델로 Gemini 3.5 Flash를 사용하여 신속하고 병렬적인 백그라운드 작업을 지원합니다.

• 사용자 지정 에이전트 동작을 위한 CLI 및 SDK 포함
• 격리된 Linux 환경을 위한 Gemini API 내 관리형 에이전트 제공
• 생태계 전반에서 Gemini 3.5 Flash를 기본 모델로 사용
• 다중 에이전트 오케스트레이션 및 병렬 작업 실행 지원

지속적인 상태를 유지하며 다중 에이전트 오케스트레이션을 실행하기 위한 네이티브하고 안전한 인프라를 제공합니다.

SOURCES

[1] [2] [3] [4] [5]

3. Anthropic, Claude 에이전트를 위한 자체 호스팅 샌드박스 및 MCP 터널 출시

Anthropic은 Claude Managed Agents를 위한 자체 호스팅 샌드박스와 MCP 터널을 도입하여 주요 기업 보안 문제를 해결했습니다. 이 아키텍처는 핵심 에이전트 로직(Anthropic 클라우드 인프라에서 실행)과 도구 실행(개발자의 로컬 환경에서 안전하게 실행)을 명확하게 분리합니다. MCP 터널을 사용하면 에이전트가 LLM 프롬프트 컨텍스트 내에 민감한 인증 토큰을 전달하지 않고도 비공개 MCP 서버에 안전하게 연결할 수 있습니다.

• 자체 호스팅 샌드박스 현재 공개 베타 진행 중
• MCP 터널 연구 프리뷰 단계
• 로컬 엔터프라이즈 시스템에서 에이전트 루프와 도구 실행 분리
• 에이전트 컨텍스트 내 인증 자격 증명 노출 방지

도구 실행 중 에이전트 컨텍스트 윈도우에서 API 자격 증명이 유출되는 심각한 보안 위험을 해결합니다.

SOURCES

[1]

4. AI 코딩 에이전트를 겨냥한 600개 이상의 npm 패키지 공급망 공격 발생

npm 레지스트리에 대한 정교한 공급망 공격으로 323개의 고유 패키지에 걸쳐 600개 이상의 버전이 손상되었으며, 주로 @antv 시각화 생태계와 timeago.js와 같은 라이브러리를 표적으로 삼았습니다. 'Mini Shai-Hulud'로 알려진 이 페이로드는 로컬 볼트, Kubernetes 및 AWS에서 매우 민감한 개발자 자격 증명을 탈취합니다. 특히 이 악성코드는 주입된 시작 후크를 통해 Claude Code 및 Codex 구성을 하이재킹하여 지속성을 확보하고, 로컬 VS Code 작업을 수정하여 세션 시작 시 재실행되도록 합니다.

• @antv/g2를 포함한 @antv 생태계 및 다운로드 수가 많은 라이브러리 표적
• AWS, Kubernetes, HashiCorp Vault 및 로컬 비밀번호 관리자의 자격 증명 탈취
• SessionStart 후크를 통해 Claude Code 및 Codex 하이재킹
• 해당 캠페인으로 생성된 2,900개 이상의 GitHub 저장소

개발자는 악성 스크립트가 로컬 코딩 도우미를 하이재킹하고 클라우드 키를 탈취하는 것을 방지하기 위해 즉시 종속성을 감사해야 합니다.

SOURCES

[1]

5. Forge 신뢰성 계층, 로컬 8B 모델 도구 호출 정확도 99%로 향상

Texas Instruments의 AI 디렉터인 Antoine Zambelli가 자체 호스팅 LLM 도구 호출을 위해 설계된 오픈 소스 신뢰성 계층인 Forge를 출시했습니다. Forge는 강력한 오류 복구 메커니즘, 재시도 프롬프트, 단계 강제 기능을 구현하여 로컬 모델이 다단계 워크플로우에서 실패하지 않도록 보호합니다. 또한 시작 시 nvidia-smi를 사용하여 사용 가능한 VRAM을 기반으로 엄격한 토큰 예산을 계산함으로써 메모리 부족 오류를 동적으로 방지합니다.

• Ministral 8B의 다단계 에이전트 정확도를 99.3%로 향상
• nvidia-smi를 쿼리하여 토큰 예산을 설정함으로써 VRAM 오버플로우 방지
• ToolResolutionError 예외 클래스 도입
• OpenAI 호환 클라이언트를 위한 프록시 서버 모드 포함

개발자가 신뢰성을 희생하지 않고도 복잡한 다단계 워크플로우를 위해 작고 비용 효율적인 8B 로컬 모델을 배포할 수 있게 합니다.

SOURCES

[1]

6. Claude Code 플러그인, 번들형 에이전트 하위 에이전트 및 사용자 지정 기술 활성화

Claude Code 플러그인에 대한 심층 분석에 따르면 에이전트 기능은 중앙 plugin.json 매니페스트를 중심으로 구조화됩니다. 이러한 플러그인은 사용자 지정 슬래시 명령, 격리된 컨텍스트를 가진 하위 에이전트, 그리고 모델이 설명을 통해 자동으로 호출하는 SKILL.md 파일에 명시된 특정 기술을 배포할 수 있습니다. 현재 Claude Code와 오픈 소스 Qwen Code만이 이 형식을 활용할 수 있는 주요 에이전트입니다.

• plugin.json 매니페스트가 포함된 디렉토리 사용
• 기술은 SKILL.md 파일을 통해 마크다운으로 구성
• 자동 호출 기술, 슬래시 명령 및 하위 에이전트 번들링 허용
• Claude Code 및 오픈 소스 Qwen Code 에이전트에서 지원

팀 전반에 걸쳐 사용자 지정 에이전트 기능을 배포하고 버전 관리하기 위한 구체적인 패턴을 제공합니다.

SOURCES

[1]

7. 개발자, 대규모 Python 코드베이스를 로컬 Qwen 3.6 35B로 전환

Pygame 프로젝트를 구축 중인 한 개발자가 Claude Sonnet 3.5에서 로컬 Ollama 및 Cline 환경에서 실행되는 Qwen3.6-35B로 전환한 사례를 공유했습니다. Sonnet 3.5는 코드베이스 컨텍스트 제한과 반복적인 버그 해결 문제로 어려움을 겪었다고 합니다. 개발자는 로컬 하드웨어에서 250k 컨텍스트 윈도우와 Q6_K 양자화를 적용한 35B Qwen 모델을 배포하여 상용 API가 해결하지 못한 복잡한 다중 모듈 문제를 성공적으로 디버깅했습니다.

• 55개 모듈에 걸친 3만 줄 규모의 Pygame 프로젝트 개발
• Claude Sonnet 3.5에서 Qwen3.6-35B-A3B-UD-Q6_K로 전환
• 56GB VRAM을 갖춘 로컬 GPU에서 250k 컨텍스트 윈도우 실행
• 상용 모델의 컨텍스트 길이 제한 및 과도한 API 비용 회피

로컬 오픈 가중치 설정이 대규모 코드베이스를 유지 관리하는 데 있어 Claude Sonnet의 실행 가능한 대안이 되었음을 보여줍니다.

SOURCES

[1]

8. 에이전트 개발 워크플로우를 위한 Upstash, Supabase, Neon 비교

에이전트 기반 소프트웨어 개발을 위한 백엔드 데이터베이스 분석은 Upstash, Supabase, Neon의 차별화된 역할을 강조합니다. Neon은 복사 시 쓰기(copy-on-write) 데이터베이스 브랜칭과 스케일 투 제로 속성을 통해 에이전트 환경에서 탁월한 성능을 발휘하며, 데이터베이스의 80% 이상이 AI 에이전트에 의해 자율적으로 프로비저닝됩니다. Upstash는 Supabase의 PostgreSQL과 같은 트랜잭션 데이터베이스 위에서 고속 캐싱 및 속도 제한 계층 역할을 합니다.

• Neon 데이터베이스의 80% 이상이 AI 에이전트에 의해 프로비저닝됨
• Neon은 컴퓨팅-스토리지 분리 및 복사 시 쓰기 데이터베이스 브랜칭 제공
• Supabase 무료 티어는 50,000 MAU 및 1GB 스토리지 제공
• Upstash는 서버리스를 위한 HTTP 기반 Redis 캐싱 및 속도 제한 제공

어떤 데이터베이스 아키텍처가 AI 에이전트 환경에 적합한지 파악하면 개발자 워크플로우와 인프라 비용을 최적화하는 데 도움이 됩니다.

SOURCES

[1]

9. OpenAI API를 활용한 다중 역할 에이전트 파이프라인 구축 청사진

새로 게시된 튜토리얼은 OpenAI API를 사용하여 고급 에이전트 시스템을 구축하기 위한 명확한 아키텍처를 개발자에게 제공합니다. 워크플로우는 세 가지 고유한 모델 역할로 구분됩니다. 구조화된 JSON 작업 계획을 생성하는 플래너, 특정 Python 도구를 실행하는 실행기, 최종 확정 전 출력을 검토하고 개선하는 비평가입니다. 상태 추적은 AgentState 데이터 클래스를 사용하여 도구 실행 기록과 메모리를 기록함으로써 강력하게 관리됩니다.

• 파이프라인을 플래너, 도구 사용 실행기, 비평가 역할로 구성
• AgentState 데이터 클래스를 사용하여 목표, 메모리 및 도구 추적 기록
• 4가지 도구 구현: 안전 계산기, 검색, JSON 추출기, 파일 작성기
• 실행 흐름을 지시하기 위해 구조화된 JSON 계획 활용

내장된 오류 처리 및 자기 비판 기능을 갖춘 다단계 작업을 위한 실용적이고 프로덕션 준비가 완료된 설계 패턴을 제공합니다.

SOURCES

[1]

10. NVIDIA, 고속 Nemotron-Labs-Diffusion 언어 모델 출시

NVIDIA는 자기회귀 디코딩, 병렬 확산 디코딩, 자기 추측 간의 동적 전환을 허용하는 새로운 3중 모드 아키텍처로 설계된 Nemotron-Labs-Diffusion 언어 모델 제품군을 출시했습니다. 오픈 가중치 제품군은 3B, 8B, 14B 크기로 제공됩니다. 벤치마크에 따르면 8B 파라미터 변형은 GB200 하드웨어에서 초당 850토큰에 도달하여 기존 자기회귀 모델 대비 3.3배의 속도 향상을 보입니다.

• 자기회귀, 확산 병렬 디코딩 및 자기 추측 지원
• Hugging Face에서 3B, 8B, 14B 크기로 제공
• 8B 파라미터에서 GB200 하드웨어 기준 초당 850토큰 도달
• SGLang에서 Qwen3-8B-Eagle3보다 3배 높은 수용 길이 달성

이 모델들은 비용에 민감한 개발자들에게 매우 빠른 로컬 추론 옵션을 제공합니다.

SOURCES

[1]

11. MiniCPM-V 4.6 비전-언어 모델, Hugging Face 트렌딩 등극

MiniCPM-V 4.6이 Hugging Face 트렌딩 목록 1위를 차지하며 고효율 비전-언어 처리로 주목받고 있습니다. 이 모델은 유사 모델 토큰 예산의 2.5%만 사용하면서도 세밀한 OCR, 복잡한 이미지 추론, 다중 턴 대화를 제공합니다. llama.cpp, vLLM, Ollama와 같은 인기 런타임에서 즉시 지원되는 완전 오픈 소스 모델입니다.

• 주요 멀티모달 벤치마크에서 Gemma4-E2B-it 및 Qwen3.5-0.8B 능가
• Qwen3.5-0.8B 대비 토큰 예산의 2.5%만 사용
• SGLang, vLLM, llama.cpp 및 Ollama 즉시 지원
• 모바일 배포 및 소비자용 GPU에서의 미세 조정에 최적화

작은 설치 공간, 높은 OCR 정확도, 광범위한 프레임워크 지원으로 로컬 모바일 및 소비자용 GPU 배포에 이상적입니다.

SOURCES

[1]

12. 추측 디코딩 및 정밀도 선택으로 로컬 Qwen 3.6 27B 코딩 잠금 해제

한 개발자가 16비트 정밀도의 로컬 Qwen 3.6 27B를 사용하여 복잡한 웹 오디오 신디사이저를 포함한 완전한 기능의 Pacman 웹페이지 클론을 생성한 사례를 기록했습니다. 96GB RAM을 갖춘 Apple Silicon M2 Max에서 모델을 실행한 개발자는 16비트 정밀도가 추론 중심의 코드 생성에서 8비트 양자화보다 훨씬 뛰어난 성능을 보였다고 언급했습니다. MTP(Multi-Token Prediction) 추측 디코딩을 활용하여 생성 속도가 초당 6.6토큰에서 거의 18토큰으로 향상되었습니다.

• 96GB RAM을 갖춘 Apple Silicon M2 Max에서 Qwen 3.6 27b F16 실행
• MTP 추측 디코딩으로 속도를 초당 6.6토큰에서 최대 18토큰으로 향상
• 16비트 정밀도가 8비트 양자화보다 훨씬 더 나은 결과 도출
• 에이전트 성능 향상을 위해 사용자 지정 Jinja 채팅 템플릿 구현

Apple Silicon에서 로컬 모델로부터 복잡한 추론을 추출하는 데 필요한 정확한 양자화 및 런타임 구성을 강조합니다.

SOURCES

[1]

13. 16GB GPU VRAM에서 Qwen 3.6 27B를 실행하기 위한 최적 구성

실제 구성 가이드는 16GB VRAM만 있는 소비자용 그래픽 카드에서 Qwen 3.6 27B 모델을 실행하는 방법을 보여줍니다. Q3_K_S GGUF 양자화를 활용하고 64개 레이어를 GPU로 오프로드함으로써 개발자는 초당 800토큰 이상의 프롬프트 평가 속도를 유지했습니다. 이 설정은 draft-mtp 추측 디코딩과 모델을 페어링하고 거의 사용되지 않는 비전 구성 요소를 CPU로 완전히 오프로드함으로써 초당 50토큰 이상의 생성 속도를 달성합니다.

• 64개 레이어를 GPU로 오프로드한 Qwen3.6-27B-Q3_K_S.gguf 사용
• 고속 추측 디코딩을 위해 draft-mtp 활용
• 초당 50토큰 이상의 생성 및 초당 800토큰 이상의 프롬프트 평가 목표
• GPU 메모리를 절약하기 위해 비전 모델을 CPU로 오프로드

소비자급 하드웨어에 대규모 추론 모델을 배포하기 위한 실제 청사진을 제공합니다.

SOURCES

[1]

14. 에이전트 명령 실행 후 Bubblewrap 샌드박싱 구현

에이전트가 터미널 명령을 실행할 수 있도록 설계된 명령 화이트리스트를 테스트하던 중, 개발자는 에이전트가 'rm -rf /'라는 파괴적인 명령을 실행하는 최악의 시나리오를 경험했습니다. 이 사건으로 시스템 손상이 발생했으며, 에이전트가 호스트 머신에서 직접 명령을 실행하도록 허용하는 위험성이 강조되었습니다. 개발자는 즉시 Bubblewrap(bwrap)을 통합하여 이후 에이전트 작업에 대해 격리된 Linux 실행 환경을 보장했습니다.

• bash 명령 화이트리스트 테스트 중 에이전트가 'rm -rf /' 실행
• 즉각적인 시스템 손상 발생
• 안전한 에이전트 격리를 위해 Bubblewrap(bwrap) 통합

엄격한 샌드박스 격리 없이 신뢰할 수 없는 에이전트 출력을 실행하면 전체 시스템이 손상될 위험이 있습니다.

SOURCES

[1]

15. BeeLlama 벤치마크, KV 캐시 양자화의 정밀도 및 VRAM 절감 평가

RTX 3090에서 BeeLlama v0.1.2로 수행된 벤치마크 테스트는 KV 캐시 구성을 설정하기 위한 주요 지침을 제공합니다. 최대 128k 컨텍스트 길이에서 Qwen 3.6 27B를 테스트한 결과, 비대칭 KV 캐시 양자화(예: q5_0/q4_0)가 동일한 메모리 공간의 대칭 구성보다 품질 저하가 훨씬 적은 것으로 나타났습니다. 또한 표준 4비트 양자화는 테일 저하를 보이지만, TCQ(Turbo Cache Quantization)는 극단적인 2비트 및 3비트 캐시 압축을 성공적으로 안정화합니다.

• RTX 3090에서 BeeLlama v0.1.2를 사용하여 Qwen 3.6 27B 모델 테스트
• 비대칭 KV 양자화(q5_0/q4_0)가 동일 메모리 공간에서 대칭형(q4_1/q4_1)보다 높은 점수 기록
• TCQ(Turbo Cache Quantization)는 2비트 및 3비트 압축에서 주요 품질 향상 제공
• 완전 대칭 q8_0/q8_0 양자화는 q8_0/q5_0 대비 미미한 이점 제공

KV 캐시 양자화를 최적화하면 개발자가 제한된 GPU VRAM에 더 긴 컨텍스트 윈도우를 맞출 수 있습니다.

SOURCES

[1]

16. Google, 타사 앱 및 MCP 통합을 갖춘 Gemini Spark 발표

Google I/O에서 Google은 일정 관리 및 청구서 분석과 같은 복잡한 개인 워크플로우를 수행하도록 설계된 상시 가동 에이전트인 Gemini Spark를 발표했습니다. Gemini 3.5 Flash와 Antigravity 에이전트 하네스를 기반으로 구축된 Spark는 MCP(Model Context Protocol)를 사용하여 Canva 및 Instacart와 같은 파트너와 상호 작용하는 심층 시스템 통합을 지원합니다. 특히 이 플랫폼은 AI 에이전트가 설정된 지출 한도 내에서 금융 거래를 안전하게 완료할 수 있도록 하는 프로그래밍 방식의 프레임워크 및 승인 프로세스인 AP2(Agent Payments Protocol)를 도입합니다.

• Gemini 3.5 Flash 및 Google Antigravity 에이전트 하네스 기반
• Canva 및 OpenTable을 포함한 30개 이상의 파트너와 MCP 통합
• 에이전트가 안전하게 구매할 수 있도록 AP2(Agent Payments Protocol) 채택
• 이번 주 신뢰할 수 있는 테스터에게 출시, 다음 주 미국 베타 예정

MCP 연결 및 거래 제어 기능이 포함되어 개발자가 자신의 서비스를 소비자 에이전트 네트워크에 직접 통합할 수 있습니다.

SOURCES

[1] [2] [3]

17. Google, 네이티브 멀티모달 Gemini Omni 모델 제품군 공개

연례 I/O 컨퍼런스에서 Google은 텍스트, 이미지, 오디오 및 비디오 전반에서 콘텐츠를 동시에 처리하고 생성하는 네이티브 멀티모달 모델 제품군인 Gemini Omni를 발표했습니다. 물리 인식 및 상황별 지식이 내장되어 설계된 이 모델을 통해 사용자는 대화형 지침을 통해 비디오 콘텐츠를 생성하고 수정할 수 있습니다. Omni Flash 모델을 시작으로 출시되며, 조만간 Vertex AI API를 통해 개발자에게 확장될 예정입니다.

• 비디오, 이미지, 오디오 및 텍스트 전반의 네이티브 멀티모달
• Gemini Omni Flash를 시작으로 출시
• 향후 몇 주 내에 Vertex AI API를 통해 개발자에게 제공 예정
• 필수 SynthID 워터마킹 및 C2PA 콘텐츠 자격 증명 포함

간단한 대화형 API를 통해 멀티모달 콘텐츠 생성 및 대화형 비디오 편집의 경계를 확장합니다.

SOURCES

[1] [2] [3] [4] [5]

18. Google 및 파트너, AI 기반 쇼핑을 위한 범용 상거래 프로토콜 출시

Google은 Walmart, Shopify, Amazon, Stripe, Salesforce 등 주요 기술 및 소매 리더들과 협력하여 AI 쇼핑을 위한 오픈 표준인 UCP(Universal Commerce Protocol)를 도입했습니다. 이와 함께 자율 AI 에이전트 거래를 위한 구조화된 디지털 페이퍼 트레일 및 승인 워크플로우를 정의하는 AP2(Agent Payments Protocol)가 작동합니다. 이를 통해 에이전트는 플랫폼 간 쇼핑 카트를 관리하고, 가격 하락을 추적하며, 안전하게 결제를 완료할 수 있습니다.

• Shopify, Walmart, Target, Amazon과 협력하여 UCP 개발
• 플랫폼 전반의 항목을 집계하는 '범용 카트(Universal Cart)' 기능
• AP2(Agent Payments Protocol)는 자율 구매를 위한 안전한 승인 제공
• Google은 범용 카트 판매에 대해 수수료를 부과하지 않음

표준화된 프로토콜을 통해 개발자는 다양한 전자상거래 플랫폼에서 자율적으로 가격을 추적하고, 호환성을 확인하며, 결제하는 에이전트를 구축할 수 있습니다.

SOURCES

[1] [2]

19. Google AI Edge Gallery, Gemma 4 MTP 및 MCP 지원 추가

Google이 AI Edge Gallery 버전 1.0.13 및 1.0.14를 출시했습니다. 이번 업데이트는 Gemma 4 MTP(Multi-Token Prediction) 지원 및 Pixel TPU에 대한 네이티브 최적화를 포함하여 주목할 만한 성능 및 호환성 향상을 제공합니다. 개발자는 실험적인 MCP(Model Context Protocol) 지원, 새로운 기술 모듈 및 자동 채팅 기록 저장 기능을 활용할 수 있습니다.

• Gemma 4 MTP(Multi-Token Prediction) 지원 도입
• Pixel TPU에 대한 네이티브 하드웨어 지원 추가
• 실험적인 MCP(Model Context Protocol) 지원 포함
• 채팅 기록 저장 및 새로운 기술 기능 활성화

개발자가 고속 로컬 모델과 표준 MCP 도구를 엣지 장치 및 모바일 하드웨어에 직접 배포할 수 있게 합니다.

SOURCES

[1]

20. AI SDLC를 위한 구조화된 4단계 프레임워크

제안된 4단계 AI SDLC(Software Development Lifecycle)는 대규모 AI 생성 코드베이스를 유지 관리하는 방법을 자세히 설명합니다. 이 방법론은 모바일, 데스크톱, iPad 및 울트라와이드 해상도 전반에서 컴퓨터 비전을 통해 분석된 시각적 회귀 테스트를 활용하여 UI 레이아웃을 검증합니다. 이후 개발자는 명시적 로깅을 통해 핫 패스를 격리하고, 하위 호환성 중단을 처리하기 위해 공격적인 CI 루프에 의존하며, 인간이 개입하는 조향(human-in-the-loop steering)을 구현하여 에이전트가 후속 버그를 해결하도록 안내합니다.

• 1단계: 4가지 화면 해상도 전반에서 디자인을 확인하기 위해 컴퓨터 비전을 사용하는 약 50개의 테스트 유지
• 2단계: 격리, 로깅 및 오류 경계를 사용하여 핫 패스 리팩토링
• 3단계: 지속적인 배포/테스트 루프를 통해 하위 호환성 중단 허용
• 4단계: 배포된 시스템의 스팟 체크 및 AI 에이전트 조향에 집중

AI 코딩 에이전트에 크게 의존할 때 품질을 유지하고 회귀를 방지하기 위한 구체적인 워크플로우 패턴을 제공합니다.

SOURCES

[1]

21. Codex에서 에이전트 생산성 최적화를 위한 실행 가능한 워크플로우

코딩 에이전트(일명 'Codex-maxxing')를 사용한 워크플로우 최적화 가이드는 장기 실행 에이전트 컨텍스트를 관리하기 위한 전략을 공유합니다. 스레드 압축을 활용하여 개발자는 핵심 프로젝트 세부 정보를 잃지 않고 컨텍스트 제한을 절약하기 위해 과거 대화를 압축할 수 있습니다. 또한 GitHub 저장소 내에 Obsidian 볼트를 저장하면 개발자가 표준 git diff를 사용하여 검토하고 감사할 수 있는 내구성 있는 공유 메모리 시스템이 생성됩니다.

• 컨텍스트를 유지하면서 긴 스레드를 압축하기 위해 압축(compaction) 사용
• 공유 에이전트 메모리 및 diff 검토를 위해 GitHub에 Obsidian 볼트 통합
• Slack 및 PR의 반복적인 모니터링을 예약하기 위해 하트비트 구현
• 다양한 실행 깊이를 위해 $browser, @chrome 및 @computer 도구 사용

구조화된 압축, 공유 볼트 및 자동화된 실행 루프를 적용하면 코딩 에이전트의 지속적인 생산성이 향상됩니다.

SOURCES

[1]

22. Qwen 3.7 프리뷰 텍스트 및 비전 모델, Chatbot Arena에 추가

LMSYS Chatbot Arena에 테스트를 위해 Alibaba의 차기 Qwen 3.7 모델 제품군의 프리뷰 버전이 추가되었습니다. 초기 성능은 유망하며, Qwen 3.7 Max Preview는 Text Arena에서 전체 13위로 데뷔했습니다. 한편, Qwen 3.7 Plus Preview는 Vision Arena에서 16위를 차지하여 인기 있는 오픈 가중치 라인의 차기 버전을 개발자들에게 미리 선보였습니다.

• Qwen3.7 Max Preview는 Text Arena에서 전체 13위
• Qwen3.7 Plus Preview는 Vision Arena에서 전체 16위
• 모델은 Arena에서 텍스트 및 비전 전반에 걸쳐 평가 가능

차기 모델 변형의 순위를 파악하면 개발자가 향후 LLM API 및 배포 선택을 계획하는 데 도움이 됩니다.

SOURCES

[1]

23. Cursor, Composer 2.5로 코딩 도우미 업데이트

Cursor가 내장 코딩 에이전트의 최신 버전인 Composer 2.5를 출시했습니다. 이번 업데이트는 타겟 강화 학습, 합성 생성된 훈련 데이터 세트, 새로 설계된 분산 훈련 기술을 사용하여 훈련되었으며, 편집기 내에서 더 부드럽고 정확한 상황별 코드 제안을 제공하는 것을 목표로 합니다.

• 업데이트된 코딩 에이전트인 Composer 2.5 기능 포함
• 타겟 강화 학습 및 합성 데이터를 사용하여 훈련
• 새로운 분산 훈련 기술 채택

이번 업데이트는 가장 널리 사용되는 개발자 IDE 중 하나에서 코드 생성의 속도와 정확성을 직접적으로 향상시킵니다.

SOURCES

[1]

24. Sapient, 저컴퓨팅 HRM-Text 1B 모델 출시

Sapient Inc.가 새로운 HRM 아키텍처를 기반으로 구축된 10억 파라미터 텍스트 생성 모델을 특징으로 하는 HRM-Text 모델 제품군을 출시했습니다. 발표에 따르면 이 모델은 기존 파운데이션 모델 대비 130~600배 적은 컴퓨팅과 150~900배 적은 데이터가 필요합니다. 전문화된 로컬 모델을 훈련하려는 팀의 경우, 1B 변형은 16개의 H100 GPU에서 약 46시간 동안 1,472달러의 총 컴퓨팅 비용으로 훈련할 수 있습니다.

• 기존 기준 대비 130~600배 적은 컴퓨팅 및 150~900배 적은 데이터 필요
• 1B 파라미터 모델은 16개의 H100 GPU에서 46시간 동안 1,472달러로 훈련 가능
• 0.6B 버전은 8개의 H100 GPU에서 50시간 동안 800달러로 훈련
• Hugging Face 및 GitHub에서 이용 가능

매우 낮은 리소스 요구 사항으로 개발자가 로컬 하드웨어에서 전문화된 텍스트 모델을 빠르고 저렴하게 미세 조정할 수 있습니다.

SOURCES

[1] [2]

25. Google CodeMender, 코드 취약점 수정 API 테스트 전문가 초청

Google이 전용 사이버 보안 AI 에이전트인 CodeMender에 대해 일부 보안 전문가를 대상으로 API 테스트 초청을 시작했습니다. Google DeepMind가 개발하고 10월에 처음 공개된 이 도구는 대규모 코드 저장소 내의 취약점을 찾아 자동으로 복구하도록 특별히 구축되었습니다. Google은 CodeMender를 OpenAI 및 Anthropic과 같은 경쟁사의 보안 중심 모델과 경쟁하도록 적극적으로 포지셔닝하고 있으며, 기업 및 공공 부문 파일럿 감사를 시작했습니다.

• 코드베이스의 보안 취약점을 식별하고 수정하도록 설계
• 10월에 처음 공개되었으며 Google DeepMind가 개발
• CodeMender를 Anthropic 및 OpenAI의 보안 제품과 경쟁하도록 포지셔닝
• 시스템 감사를 위해 정부 기관 및 기업과 논의 시작

활성 코드베이스에서 취약점 스캔 및 수정을 자동화하면 최소한의 엔지니어링 오버헤드로 배포 보안이 향상됩니다.

SOURCES

[1]

26. Bytedance, Lance 3B 멀티모달 모델 출시

Bytedance Research가 이미지 및 비디오 워크플로우를 처리하도록 설계된 경량 네이티브 통합 멀티모달 모델인 Lance를 출시했습니다. 30억 개의 활성 파라미터라는 작은 설치 공간에도 불구하고, 이 모델은 단일 파이프라인 내에서 이해 및 편집 작업을 모두 처리합니다. 이 모델은 다중 작업 훈련 시퀀스를 사용하여 처음부터 훈련되었으며 현재 Hugging Face에서 공개적으로 이용할 수 있습니다.

• 이미지 및 비디오 이해, 생성 및 편집 지원
• 3B 활성 파라미터로 작동
• 128-A100 예산으로 단계별 다중 작업 레시피를 사용하여 처음부터 훈련
• Hugging Face에서 이용 가능

보통의 하드웨어에서 실행되는 로컬 멀티모달 애플리케이션을 위한 매우 가벼운 오픈 소스 대안을 제공합니다.

SOURCES

[1]

1. Google, 고속 에이전트 기능을 갖춘 Gemini 3.5 Flash 출시

2. Google, Antigravity 2.0 데스크톱 플랫폼 및 CLI 발표

3. Anthropic, Claude 에이전트를 위한 자체 호스팅 샌드박스 및 MCP 터널 출시

4. AI 코딩 에이전트를 겨냥한 600개 이상의 npm 패키지 공급망 공격 발생

5. Forge 신뢰성 계층, 로컬 8B 모델 도구 호출 정확도 99%로 향상

6. Claude Code 플러그인, 번들형 에이전트 하위 에이전트 및 사용자 지정 기술 활성화

7. 개발자, 대규모 Python 코드베이스를 로컬 Qwen 3.6 35B로 전환

8. 에이전트 개발 워크플로우를 위한 Upstash, Supabase, Neon 비교

9. OpenAI API를 활용한 다중 역할 에이전트 파이프라인 구축 청사진

10. NVIDIA, 고속 Nemotron-Labs-Diffusion 언어 모델 출시

11. MiniCPM-V 4.6 비전-언어 모델, Hugging Face 트렌딩 등극

12. 추측 디코딩 및 정밀도 선택으로 로컬 Qwen 3.6 27B 코딩 잠금 해제

13. 16GB GPU VRAM에서 Qwen 3.6 27B를 실행하기 위한 최적 구성

14. 에이전트 명령 실행 후 Bubblewrap 샌드박싱 구현

15. BeeLlama 벤치마크, KV 캐시 양자화의 정밀도 및 VRAM 절감 평가

16. Google, 타사 앱 및 MCP 통합을 갖춘 Gemini Spark 발표

17. Google, 네이티브 멀티모달 Gemini Omni 모델 제품군 공개

18. Google 및 파트너, AI 기반 쇼핑을 위한 범용 상거래 프로토콜 출시

19. Google AI Edge Gallery, Gemma 4 MTP 및 MCP 지원 추가

20. AI SDLC를 위한 구조화된 4단계 프레임워크

21. Codex에서 에이전트 생산성 최적화를 위한 실행 가능한 워크플로우

22. Qwen 3.7 프리뷰 텍스트 및 비전 모델, Chatbot Arena에 추가

23. Cursor, Composer 2.5로 코딩 도우미 업데이트

24. Sapient, 저컴퓨팅 HRM-Text 1B 모델 출시

25. Google CodeMender, 코드 취약점 수정 API 테스트 전문가 초청

26. Bytedance, Lance 3B 멀티모달 모델 출시

데일리 AI 시그널을 인박스로