악성 npm 패키지가 Claude Code 설정 및 개발자 자격 증명을 표적으로 삼음

1. 악성 npm 패키지가 Claude Code 설정 및 개발자 자격 증명을 표적으로 삼음

Red Hat Cloud Services npm 패키지의 손상된 버전에서 정교한 다단계 자격 증명 탈취 도구가 발견되었습니다. preinstall 스크립트에 의해 자동으로 트리거되는 이 악성코드는 4단계에 걸쳐 페이로드를 난독화하며 자기 복제 웜으로 작동합니다. AI 개발자에게 가장 치명적인 점은 이 페이로드가 Claude Code 설정에 SessionStart 후크를 직접 주입하고 VS Code 작업 공간 작업 구성을 수정하여 지속성을 확보한다는 것입니다. 영향을 받는 저장소에는 javascript-clients, frontend-components, platform-frontend-ai-toolkit 등이 포함됩니다.

• StepSecurity는 2026년 6월 1일, 32개의 개별 패키지에 영향을 미치는 @redhat-cloud-services npm 범위 내에서 악성코드를 발견했습니다.
• 악성코드는 package.json의 preinstall 스크립트를 통해 'npm install' 과정에서 자동으로 트리거됩니다.
• 손상된 패키지에는 @redhat-cloud-services/chrome, @redhat-cloud-services/compliance-client, @redhat-cloud-services/frontend-components가 포함됩니다.
• 지속성은 Claude Code 설정에 SessionStart 후크를 주입하고 VS Code 작업 공간 구성에 folderOpen 작업을 주입하여 달성됩니다.
• 탈취된 자격 증명은 GitHub Actions 시크릿, AWS, GCP, Azure, Kubernetes, HashiCorp Vault 및 npm 토큰을 표적으로 하며, bypass_2fa를 사용하여 백도어가 포함된 버전을 재배포합니다.

Claude Code나 VS Code를 사용하는 개발자는 클라우드 및 버전 관리 액세스 토큰의 도난을 방지하기 위해 즉시 종속성을 감사해야 합니다.

SOURCES

[1] [2]

2. MiniMax, 1M 컨텍스트 및 추론 연산 감소를 특징으로 하는 M3 모델 출시

새로운 MiniMax M3 모델은 네이티브 이미지 및 비디오 기능과 운영 체제 실행 기능을 도입하여 개발자가 데스크톱 자동화 에이전트를 구축할 수 있도록 합니다. 독자적인 희소 어텐션(MSA) 아키텍처를 기반으로 하는 이 모델은 컨텍스트를 100만 토큰까지 확장하면서도 프리필(prefill) 및 생성 속도를 대폭 향상시켰습니다. 이번 릴리스에는 적대적 생산자(Producer) 및 검증자(Verifier) 루프를 사용하여 자율 소프트웨어 엔지니어링 워크플로우를 실행하는 MiniMax Code 어시스턴트도 포함되어 있습니다.

• MiniMax M3는 2026년 6월 1일에 출시되었으며 MiniMax 희소 어텐션(MSA) 아키텍처를 특징으로 합니다.
• MSA는 토큰당 연산 요구량을 이전 M2 모델의 1/20로 줄여 1M 컨텍스트에서 프리필 속도를 9배, 디코딩 속도를 15배 향상시켰습니다.
• 이 모델은 SWE-Bench Pro에서 59.0%, OSWorld-Verified에서 70.06%를 기록했습니다.
• MiniMax는 출시 후 10일 이내에 오픈 웨이트 라이선스로 모델 가중치를 공개할 계획입니다.
• API 가격은 1주일간 한시적으로 입력 토큰 100만 개당 0.3달러, 출력 토큰 100만 개당 1.20달러로 할인되며, 표준 구독 플랜은 월 20달러부터 시작합니다.

개발자는 일반적인 API 비용의 일부만으로 긴 컨텍스트 추론 및 데스크톱 환경 제어가 가능한 오픈 웨이트 모델을 사용할 수 있게 되었습니다.

SOURCES

[1] [2] [3] [4]

3. xAI, API를 통해 Grok Build 0.1 베타 출시

웹 개발 및 소프트웨어 디버깅을 위해 특별히 설계된 grok-build-0.1 모델을 이제 공개 베타로 사용할 수 있습니다. 초당 100토큰 이상의 처리량을 제공하는 이 API는 코드 생성 워크로드를 실행하려는 팀에게 저렴하고 에이전트에 최적화된 옵션을 제공합니다. 인기 있는 개발자 도구와 기본적으로 통합되어 기존 IDE 설정에 쉽게 적용할 수 있습니다.

• grok-build-0.1 모델은 xAI API를 통해 공개 베타로 제공됩니다.
• 이 모델은 웹 개발 및 디버깅 작업에 특화되어 있으며 초당 100토큰 이상을 처리합니다.
• 가격은 입력 토큰 100만 개당 1달러, 출력 토큰 100만 개당 2달러로 책정되었습니다.
• Grok Build, Cursor, OpenClaw를 포함한 플랫폼 전반에서 통합을 지원합니다.

개발자는 xAI의 에이전트 코딩 기능을 Cursor, OpenClaw, Grok Build와 같은 로컬 환경에 통합할 수 있습니다.

SOURCES

[1]

4. OpenAI 프론티어 모델 및 Codex, AWS Bedrock 출시

이제 AWS 고객은 Amazon Bedrock을 통해 OpenAI의 파운데이션 모델과 Codex를 직접 배포할 수 있습니다. 이번 정식 출시를 통해 개발자는 기존 AWS 거버넌스 및 보안 구성 내에서 데이터를 엄격하게 유지하면서 모델을 활용할 수 있습니다. 향후 업데이트를 통해 OpenAI의 Daybreak 사이버 제품군이 AWS에 도입될 예정이며, 이는 안전한 코드 검토 및 종속성 위험 분석을 위한 전용 도구를 제공할 것입니다.

• OpenAI 프론티어 모델과 Codex는 Amazon Bedrock을 통해 AWS에서 정식으로 사용할 수 있습니다.
• 이 모델들은 기존 AWS 보안, 규정 준수, 조달 및 청구 시스템과 통합됩니다.
• AWS 상용 및 GovCloud 리전 모두에서 사용할 수 있습니다.
• OpenAI는 향후 안전한 코드 검토 및 위협 모델링 모델을 특징으로 하는 Daybreak 제품군을 AWS에서 제공할 계획입니다.

엔터프라이즈 개발자는 별도의 조달이나 규정 준수 채널 없이 AWS 관리 환경 내에서 OpenAI 모델을 직접 사용할 수 있습니다.

SOURCES

[1]

5. DepsGuard, 패키지 관리자를 위한 보안 강화 자동화

자기 복제 패키지 레지스트리 공격에 대응하기 위해 DepsGuard는 로컬 개발자 구성을 강화하는 원명령 솔루션을 제공합니다. 이 CLI 도구는 구성 파일을 스캔하여 임의의 수명 주기 스크립트 비활성화 및 패키지 연령 제한 적용과 같은 권장 보안 정책을 사용자에게 보여줍니다. 또한 Dependabot 및 Renovate에 대한 구성 관리도 지원하여 기업의 종속성 보안을 간소화합니다.

• DepsGuard는 Rust로 작성되었으며 MIT 라이선스에 따라 배포됩니다.
• npm, pnpm, yarn, bun, uv 전반에 걸친 구성 강화를 지원합니다.
• 최소 릴리스 연령('쿨다운') 및 설치 스크립트 무시와 같은 보안 설정을 활성화합니다.
• 구성을 스캔하고 차이점을 표시하며 변경 사항을 적용하기 전에 타임스탬프가 찍힌 백업을 생성합니다.
• cargo, brew, apt, winget, scoop을 통해 설치할 수 있습니다.

개발자는 악성 preinstall 스크립트를 차단하고 패키지 릴리스 쿨다운을 적용하여 로컬 환경을 즉시 보호할 수 있습니다.

SOURCES

[1]

6. Hermes Agent를 위한 Memory OS 아키텍처 출시

Claudio Drews가 개발한 Memory OS는 AI 에이전트를 위한 고급 자체 호스팅 메모리 계층을 제공합니다. MIT 라이선스 시스템은 LLM 호출 전후 단계에서 정보 흐름을 구조화하며, 게이트 방식의 중복 제거 프로세스를 사용하여 관련 과거 컨텍스트를 가져옵니다. 초기 개발 단계이며 공개된 벤치마크는 없지만, 장기적인 에이전트 상호 작용을 관리하기 위한 구조화된 로컬 아키텍처를 제공합니다.

• Memory OS는 2026년 5월 31일에 출시된 Hermes Agent용 MIT 라이선스 시스템입니다.
• 이 시스템은 작업 공간 파일, 세션 기록, 구조화된 사실, 포크된 Icarus 플러그인, Qdrant 벡터 데이터베이스, 자동 큐레이션된 LLM 위키의 6개 계층을 활용합니다.
• Docker, Redis, Qdrant 및 Python 3.11+를 통해 로컬에서 실행됩니다.
• OpenAI, Anthropic, Ollama를 포함하여 Hermes가 지원하는 모든 LLM 공급자와 호환됩니다.
• 호출 전 검색을 위해 4단계 폴백 캐스케이드를 사용하며, 메모리 비대화를 관리하기 위해 주간 감쇠 스캐너를 사용합니다.

개발자는 작업 공간 파일, 벡터 저장소, 구조화된 사실 전반에 걸쳐 자동 감쇠 기능이 있는 복잡한 로컬 에이전트 메모리 구조를 실행할 수 있습니다.

SOURCES

[1]

7. pi-dynamic-workflows 확장, 로컬 하위 에이전트 오케스트레이션 활성화

pi-dynamic-workflows 확장을 통해 개발자는 Pi 어시스턴트 설정 위에서 정교한 로컬 오케스트레이션을 실행할 수 있습니다. 워크플로우 도구는 JavaScript 코드를 해석하여 여러 병렬 하위 에이전트를 가동하며, 각 하위 에이전트에 파일과 상호 작용하고 터미널 작업을 실행할 수 있는 샌드박스 권한을 부여한 다음 출력을 수집하고 합성합니다. 이는 코드 검토나 복잡한 연구 흐름을 자동화하는 데 유용한 추가 기능입니다.

• pi-dynamic-workflows 확장은 Pi 어시스턴트에 전용 워크플로우 도구를 도입합니다.
• 이 도구는 JavaScript 스크립트를 통해 여러 격리된 하위 에이전트를 오케스트레이션합니다.
• 하위 에이전트는 파일을 읽고, 셸 명령을 실행하며, 구조화된 출력을 생성할 수 있는 기능을 갖추고 있습니다.
• 대상 사용 사례에는 코드베이스 감사, 다각적 검토, 병렬화된 연구가 포함됩니다.

개발자는 어시스턴트 도구 내에서 코드 감사나 리팩토링 작업과 같은 복잡한 다중 에이전트 흐름을 구축할 수 있습니다.

SOURCES

[1]

8. llama.cpp, 다중 GPU 양자화 KV 캐시 수정 사항 병합

llama.cpp 메인 저장소에서 중요한 다중 GPU 캐싱 문제가 해결되었습니다. 메타 백엔드가 텐서 레이아웃이 재구성된 후 올바른 레이아웃을 복구할 수 있도록 보장함으로써, 새로운 b9455 릴리스는 이전의 다중 GPU 충돌을 방지합니다. 이러한 내부 개선 사항은 고컨텍스트 양자화 KV 캐시를 사용하여 로컬 모델을 배포하는 개발자가 하드웨어 설정을 원활하게 최적화할 수 있도록 보장합니다.

• 릴리스 b9455는 양자화된 KV 캐시와 함께 '--sm tensor' 플래그를 사용할 때 다중 GPU 설정에서 충돌이 발생하는 버그를 해결합니다.
• 이 버그는 KV 캐시 회전을 위해 텐서를 평탄화하는 동안 모양 정보가 손실되어 발생했습니다.
• 이 수정 사항은 ggml_backend_meta_split_state 사양을 확장하여 세그먼트 반복 빈도를 추적합니다.
• 구현은 기존 컴퓨팅 그래프를 수정할 필요 없이 즉시 작동합니다.

여러 그래픽 카드에서 대규모 로컬 모델을 실행하는 개발자는 양자화된 KV 캐시를 사용할 때 향상된 안정성을 경험하게 됩니다.

SOURCES

[1]

9. Microsoft, Build 컨퍼런스에서 새로운 추론 모델 및 로컬 AI 집중 발표 예정

Microsoft의 Build 컨퍼런스는 Windows 시스템에서의 로컬 AI 모델 실행으로의 강력한 전환을 강조할 예정입니다. MAI-Thinking-1 추론 모델의 데뷔와 새로운 이미지 모델에 힘입어, 이번 개발자 이벤트는 온디바이스 컴퓨팅 옵션을 강조할 것입니다. 또한 Microsoft는 사전 설치된 스크립트와 도구가 포함된 개발자 최적화 방해 금지 Windows 11 모드를 도입할 예정입니다.

• Microsoft Build 기조연설은 6월 2일 화요일 샌프란시스코에서 예정되어 있습니다.
• Microsoft AI 책임자 Mustafa Suleyman이 증류 없이 구축된 추론 모델인 MAI-Thinking-1을 공개할 것으로 예상됩니다.
• 새로운 모델에는 MAI-Image-2.5 및 MAI-Image-2.5-Flash가 포함됩니다.
• 컨퍼런스는 로컬 컴퓨팅을 활용하기 위해 Windows에서 실행되는 로컬 AI 모델을 선보일 것입니다.
• Microsoft의 OpenClaw 작업을 기반으로 하는 Scout라는 AI 에이전트가 시연될 예정입니다.

Windows 개발자는 로컬 모델의 더 깊은 통합, 방해 없는 개발 환경, 새로운 비증류 추론 모델에 대한 액세스를 얻게 됩니다.

SOURCES

[1]

10. NVIDIA, 물리 AI를 위한 Cosmos 3 파운데이션 모델 출시

NVIDIA의 Cosmos 3는 물리적 세계 추론 및 물리 인식 생성에 최적화된 오픈 웨이트 모델을 도입합니다. 듀얼 타워 Mixture-of-Transformers 아키텍처를 활용하는 이 모델 제품군은 언어 이해와 비디오 및 행동 출력을 연결합니다. 개발자는 Hugging Face 체크포인트를 통해 Cosmos 3를 로컬에서 실행하거나, 사용 가능한 Reasoner NIM 마이크로서비스를 활용하거나, 향후 출시될 퍼스트 파티 및 서드 파티 API를 기다릴 수 있습니다.

• Cosmos 3는 Reasoner 타워와 Generator 타워를 결합한 Mixture-of-Transformers(MoT) 아키텍처를 활용합니다.
• NVIDIA는 16B 파라미터(Cosmos 3 Nano)와 64B 파라미터(Cosmos 3 Super)의 두 가지 버전을 제공합니다.
• Hugging Face에서 가중치, 코드 및 데이터 세트를 사용할 수 있는 OpenMDW 1.1 라이선스에 따라 출시되었습니다.
• Cosmos 3 Super는 Artificial Analysis 리더보드에서 텍스트-이미지 및 이미지-비디오 부문 모두에서 오픈 웨이트 1위를 차지했습니다.
• NIM 마이크로서비스는 BF16, FP8, NVFP4 양자화를 지원하며, NVFP4는 추론 속도를 최대 2배까지 향상시킵니다.

개발자는 매우 뛰어난 오픈 웨이트와 최적화된 NIM 마이크로서비스를 사용하여 물리 AI 및 물리 인식 비디오 시스템을 구축할 수 있습니다.

SOURCES

[1] [2] [3]

11. NVIDIA, 550B 파라미터 Nemotron 3 Ultra 발표

Jensen Huang의 Computex 기조연설에서 소개된 Nemotron 3 Ultra는 Nemotron 3 시리즈 중 가장 큰 모델입니다. 5500억 파라미터 규모에도 불구하고 모델의 90% 희소성 덕분에 추론 중에 550억 파라미터만 활성화되어 뛰어난 생성 속도를 제공합니다. Artificial Analysis Intelligence Index에서 Nemotron 3 Ultra는 여러 유명 오픈 웨이트 모델보다 앞섰지만, Kimi K2.6 모델보다는 낮은 점수를 기록했습니다.

• Nemotron 3 Ultra는 90% 희소성으로 인해 550B 총 파라미터와 55B 활성 파라미터를 특징으로 합니다.
• 이 모델은 사전 출시된 DeepInfra 엔드포인트에서 초당 300토큰 이상의 속도를 기록했습니다.
• Artificial Analysis Intelligence Index에서 48점을 획득하여 Gemma 4 31B 및 Nemotron 3 Super를 능가했습니다.
• 가중치는 BF16으로 제공되며, 더 높은 성능을 위해 NVFP4 양자화를 제공할 계획입니다.

이번 릴리스는 엔터프라이즈급 호스팅 하드웨어에 액세스할 수 있는 개발자를 위한 매우 지능적인 오픈 웨이트 옵션을 제공합니다.

SOURCES

[1] [2]

12. JetBrains, Mellum-2 코딩 MoE 모델 오픈 소스화

JetBrains는 AI 개발 파이프라인 내에서 빠른 실행을 목표로 하는 Mellum-2 MoE 모델 시리즈를 오픈 소스로 출시했습니다. 코딩 작업을 효율적으로 실행하도록 특별히 설계된 핵심 추론 모델은 프로그래밍 능력 면에서 더 큰 표준 모델과 일치합니다. 그러나 개발자는 프로그래밍 및 소프트웨어 엔지니어링 작업 외에는 모델의 성능이 더 작은 범용 기준 모델보다 낮다는 점에 유의해야 합니다.

• Mellum-2는 JetBrains에서 개발한 소형 Mixture-of-Experts(MoE) 코딩 모델 시리즈입니다.
• 이 모델은 Hugging Face에 호스팅되어 있으며 arXiv 논문 2605.31268에 문서화되어 있습니다.
• JetBrains는 추론 모델이 코딩 작업에서 Qwen 3.5 9B와 비슷하게 작동한다고 주장합니다.
• 코딩 이외의 작업은 Qwen 3.5 4B보다 성능이 떨어집니다.

개발자는 표준 하드웨어에서 코딩 워크플로우에 특별히 최적화된 빠르고 로컬인 MoE 모델을 실행할 수 있습니다.

SOURCES

[1] [2]

13. Anthropic, 브라우저 에이전트 시스템 카드에서 31.5% 하이재킹 비율 상세 설명

새로 출시된 Anthropic의 시스템 카드는 프롬프트 주입 공격에 대한 자율 브라우저 기반 에이전트의 지속적인 취약성을 강조합니다. 여러 환경에서 테스트된 이 모델은 활성 시스템 수준의 안전 장치가 대응하기 전에 웹 콘텐츠에 포함된 악성 지침의 희생양이 되는 경우가 많았습니다. 개발자가 웹 스크래핑 및 행동 수행 에이전트를 점점 더 많이 구축함에 따라, 이러한 결과는 기본 모델 준수에만 의존하기보다 런타임에 입력을 검증해야 할 필요성을 강조합니다.

• Anthropic은 4개 표면 전반에 걸친 프롬프트 주입 취약성을 자세히 설명하는 244페이지 분량의 시스템 카드를 게시했습니다.
• Opus 4.8은 안전 장치 적용 전 브라우저 환경에서 31.5%의 프롬프트 주입 성공률을 경험했습니다.
• OpenAI의 GPT-5.5 모델 카드는 알려진 커넥터 공격에 대해 0.963의 견고성 점수를 보고합니다.
• Meta는 Purple Llama 스택과 AgentDojo 벤치마크를 사용하여 방어 성능을 평가합니다.
• 현재 프롬프트 주입 지표 보고에 대한 업계 표준이 존재하지 않아 일관되지 않은 공개가 발생하고 있습니다.

웹 연결 에이전트를 구축하는 개발자는 고위험 프롬프트 주입 비율을 완화하기 위해 엄격한 2차 방어를 구현해야 합니다.

SOURCES

[1]

14. 토큰 버퍼링, 에이전트 RL 루프에서 그래디언트 드리프트 제거

강화 학습을 통해 에이전트 동작을 미세 조정하는 것은 토큰 재인코딩 중 미묘한 변화로 인해 발생하는 신뢰할 수 없는 그래디언트로 인해 어려움을 겪는 경우가 많습니다. 샘플링 중에 생성된 정확한 토큰에 대해 엄격한 버퍼를 유지하고 원시 문자열 재파싱을 피함으로써, 개발자는 모델 출력과 보상 간의 결정론적 정렬을 보장할 수 있습니다. 이 접근 방식은 표준 채팅 템플릿을 활용하여 생성 상태를 보존하고 학습 효율성을 최적화합니다.

• 강화 학습은 학습 드리프트를 방지하기 위해 정확한 샘플링 토큰에 대해 작동해야 합니다.
• 솔루션에는 샘플링된 토큰을 버퍼링하고 디코딩된 토큰을 다시 인코딩하지 않는 것이 포함됩니다.
• 이 기술은 대부분의 최신 템플릿에서 지원하는 접두사 보존 채팅 템플릿 속성에 의존합니다.
• 재렌더링을 제거하면 학습 그래디언트가 안정화되고 중복 오버헤드가 제거됩니다.

LLM에 강화 학습을 구현하는 개발자는 그래디언트 드리프트를 방지하고 신뢰할 수 있는 최적화 루프를 보장할 수 있습니다.

SOURCES

[1]

15. AgentControl 도구, 프로덕션 환경에서 AI 에이전트 모니터링 및 제어

AI 에이전트가 프로덕션 액세스를 점점 더 많이 신뢰받게 됨에 따라 AgentControl은 감독에 대한 중요한 요구를 해결합니다. 이 플랫폼을 통해 개발자는 활성 실행을 검사하고, 실행 전에 원치 않는 작업을 차단하며, 코드 업데이트를 푸시하지 않고도 모델 경로를 동적으로 제어할 수 있습니다. 이 제어 계층은 개발자가 직접적인 행동 원격 측정을 수집하면서 프로덕션 에이전트 신뢰성에 대한 자신감을 구축하도록 돕습니다.

• AgentControl은 프로덕션 AI 에이전트를 모니터링하고 관리하기 위한 도구입니다.
• 에이전트 작업의 실시간 보기, 잘못된 작업 차단, 응답 제어를 허용합니다.
• 전체 배포 주기를 실행하지 않고도 에이전트 동작 변형을 테스트할 수 있습니다.
• 현재 무료 체험판으로 액세스할 수 있습니다.

프로덕션에 자율 에이전트를 배포하는 개발자는 에이전트의 폭주를 방지하는 데 필요한 가시성과 실시간 재정의 도구를 얻게 됩니다.

SOURCES

[1]

16. Qwen 3.6 27B, 로컬 개발자 워크플로우에서 Gemini Pro 능가

llama.cpp에 다중 토큰 예측(MTP)이 통합됨에 따라 로컬에서 중형 모델을 실행하는 것이 상용 API의 실행 가능한 대안이 되었습니다. 개별 평가에 따르면 8비트 양자화 형식의 Qwen 3.6 27B는 심층 연구 작업 중에 최근 반복되는 Gemini Pro에 비해 우수한 안정성과 낮은 환각률을 제공합니다. Apple Silicon 또는 고메모리 시스템을 실행하는 개발자에게 이러한 변화는 로컬 데스크톱 지원을 매우 경쟁력 있게 만듭니다.

• Qwen 3.6 27B는 Open WebUI에서 8비트 unsloth 양자화를 사용하여 로컬에서 실행됩니다.
• 다중 토큰 예측(MTP) 지원을 추가한 최근 llama.cpp 업데이트는 Qwen 27B의 로컬 성능을 크게 향상시켰습니다.
• 한 개발자는 Qwen 27B가 경력 조언, 포트폴리오 분석, 이민 연구에서 Gemini Pro를 능가했다고 보고했습니다.
• Gemini Pro는 동일한 연구 작업 중에 눈에 띄는 성능 저하, 환각, 컨텍스트 고착을 보였습니다.
• 128GB RAM M5 Max 시스템은 속도 제약으로 인해 8비트 양자화에서 Gemma 4 31B를 효율적으로 실행하는 데 어려움을 겪었습니다.

로컬 추론을 실행하는 개발자는 불안정하거나 성능이 저하된 상용 API를 매우 유능한 중형 오픈 웨이트 모델로 대체할 수 있습니다.

SOURCES

[1]

17. 개발자를 위한 VRAM별 로컬 LLM 권장 사항

올바른 오픈 웨이트 모델을 선택하는 것은 사용 가능한 하드웨어 제약 조건에 크게 좌우됩니다. 현재 개발자 벤치마크는 높은 토큰 처리량을 유지하기 위해 특정 아키텍처를 VRAM 계층에 맞출 것을 권장합니다. 모바일 또는 저가형 노트북 GPU용으로 설계된 초소형 MiniCPM5부터 다중 GPU 워크스테이션용 대규모 희소 아키텍처인 Step-3.7-Flash에 이르기까지, 이러한 목표는 개발자가 메모리 스래싱을 방지하면서 에이전트 성능을 극대화하도록 보장합니다.

• MiniCPM5는 4GB~8GB VRAM에 권장되며 소형 기기에서 에이전트 도구 사용에 최적화되어 있습니다.
• LFM-2.5-8B는 8GB~16GB VRAM에 권장되며 1.5B 활성 파라미터와 131k 컨텍스트 윈도우를 갖춘 8B MoE 아키텍처를 제공합니다.
• ds4flash 모델은 96GB~128GB VRAM에 적합하며 논리적인 대화 스타일과 강력한 에이전트 기능을 특징으로 합니다.
• Step-3.7-Flash는 196GB 이상의 VRAM을 갖춘 시스템에 권장되며 비전 및 256k 컨텍스트와 함께 초당 150토큰으로 실행됩니다.

로컬 추론 설정을 최적화하려는 개발자는 GPU 또는 시스템 메모리 제한에 정확히 맞춰진 모델을 선택할 수 있습니다.

SOURCES

[1]

1. 악성 npm 패키지가 Claude Code 설정 및 개발자 자격 증명을 표적으로 삼음

2. MiniMax, 1M 컨텍스트 및 추론 연산 감소를 특징으로 하는 M3 모델 출시

3. xAI, API를 통해 Grok Build 0.1 베타 출시

4. OpenAI 프론티어 모델 및 Codex, AWS Bedrock 출시

5. DepsGuard, 패키지 관리자를 위한 보안 강화 자동화

6. Hermes Agent를 위한 Memory OS 아키텍처 출시

7. pi-dynamic-workflows 확장, 로컬 하위 에이전트 오케스트레이션 활성화

8. llama.cpp, 다중 GPU 양자화 KV 캐시 수정 사항 병합

9. Microsoft, Build 컨퍼런스에서 새로운 추론 모델 및 로컬 AI 집중 발표 예정

10. NVIDIA, 물리 AI를 위한 Cosmos 3 파운데이션 모델 출시

11. NVIDIA, 550B 파라미터 Nemotron 3 Ultra 발표

12. JetBrains, Mellum-2 코딩 MoE 모델 오픈 소스화

13. Anthropic, 브라우저 에이전트 시스템 카드에서 31.5% 하이재킹 비율 상세 설명

14. 토큰 버퍼링, 에이전트 RL 루프에서 그래디언트 드리프트 제거

15. AgentControl 도구, 프로덕션 환경에서 AI 에이전트 모니터링 및 제어

16. Qwen 3.6 27B, 로컬 개발자 워크플로우에서 Gemini Pro 능가

17. 개발자를 위한 VRAM별 로컬 LLM 권장 사항

데일리 AI 시그널을 인박스로