Apple, WWDC 2026에서 Siri AI 및 Foundation Models 프레임워크 공개

1. Apple, WWDC 2026에서 Siri AI 및 Foundation Models 프레임워크 공개

Apple은 WWDC 2026에서 Google Gemini 기술을 탑재한 Siri AI를 선보이며 AI 생태계의 대대적인 개편을 발표했습니다. 개발자에게 가장 중요한 업데이트는 이미지 입력, 사용자 지정 스킬, 서버 측 실행을 지원하도록 확장된 Foundation Models 프레임워크입니다. 또한 Apple은 App Store 다운로드 수가 200만 건 미만인 인디 개발자에게 Private Cloud Compute 내 Foundation Models에 대한 무료 액세스를 제공하여 AI 실험 비용을 크게 낮췄습니다. 추가로 Xcode의 코딩 어시스턴트는 에이전트 기반 코딩, 현지화, 시뮬레이션된 장치 상호 작용을 지원하도록 업그레이드되었습니다.

• Apple은 고급 대화 및 시스템 전반의 앱 상호 작용 기능을 위해 Google Gemini 모델을 활용하는 재구축된 비서인 Siri AI를 도입했습니다.
• 업데이트된 Foundation Models 프레임워크는 이제 이미지 입력, 사용자 지정 스킬, 서버 측 모델 실행을 지원합니다.
• App Store 최초 다운로드 수가 200만 건 미만인 개발자는 클라우드 API 비용 없이 Private Cloud Compute에서 Apple의 Foundation Models에 액세스할 수 있습니다.
• Xcode의 코딩 어시스턴트가 앱 현지화 처리, 시뮬레이션된 장치와의 상호 작용, 사용자 지정 스킬 지원을 위해 업데이트되었습니다.
• Apple은 타사 애플리케이션이 Siri와 직접 통합할 수 있도록 App Intents 지원을 확장했습니다.

개발자는 이제 Apple의 업데이트된 Foundation Models 프레임워크를 사용하여 에이전트 워크플로우를 구축하고, Xcode에서 사용자 지정 스킬을 활용하며, 다운로드 수가 200만 건 미만인 경우 클라우드 API 비용 없이 Private Cloud Compute를 이용할 수 있습니다.

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26]

2. Xiaomi와 TileRT, 1조 파라미터 MoE 모델로 1000 TPS 돌파

Xiaomi의 MiMo 팀은 TileRT 시스템 그룹과 협력하여 1조 파라미터 Mixture-of-Experts(MoE) 모델을 위한 고속 서빙 모드인 MiMo-V2.5-Pro-UltraSpeed를 출시했습니다. MXFP4 양자화, DFlash 추측 디코딩, TileRT 영구 엔진 런타임을 결합하여 Cerebras나 Groq와 같은 맞춤형 하드웨어에 의존하지 않고도 표준 8-GPU 범용 노드에서 초당 1000 토큰 이상의 디코딩 속도를 달성했습니다. 팀은 Hugging Face에 모델 체크포인트를 오픈 소스로 공개하고 GitHub에 일부 TileRT 모듈을 배포했으며, 제한된 API 체험판도 제공하고 있습니다.

• Xiaomi와 TileRT는 MiMo-V2.5-Pro-UltraSpeed를 출시하여 단일 8-GPU 범용 노드에서 초당 1000 토큰을 초과하는 디코딩 속도를 달성했습니다.
• 성능은 MoE 전문가에 대한 MXFP4 양자화, DFlash 추측 디코딩, TileRT 영구 엔진 런타임에 의해 구동됩니다.
• DFlash 추측 디코딩은 블록 수준의 마스킹된 병렬 예측을 사용하여 코딩 작업에서 평균 6.30의 수용 길이를 달성합니다.
• Xiaomi는 Hugging Face에 MiMo-V2.5-Pro-FP4-DFlash 체크포인트를 오픈 소스로 공개하고 GitHub에 일부 TileRT 모듈을 배포했습니다.
• 2026년 6월 9일부터 6월 23일까지 애플리케이션 기반 API 체험판을 이용할 수 있으며, 가격은 표준 MiMo-V2.5-Pro 요금의 3배입니다.

개발자는 이제 특수 웨이퍼 스케일 칩 대신 표준 범용 하드웨어를 사용하여 거대한 1조 파라미터 Mixture-of-Experts 모델에서 초고속 추론을 실행할 수 있습니다.

SOURCES

[1] [2] [3]

3. DeepSeek V4 Pro, 정밀도 벤치마크에서 GPT-5.5 Pro 능가

최근 벤치마크 대결에서 DeepSeek V4 Pro는 38.0 대 33.0의 점수로 GPT-5.5 Pro를 앞서며 뛰어난 정밀도와 신뢰성을 보여주었습니다. 파이썬 로그 편집 작업 중 DeepSeek V4 Pro는 단일 정규식과 대체자를 성공적으로 사용하여 중첩된 패턴을 처리함으로써 제약 조건을 엄격하게 준수하는 모습을 보였습니다. 반면 GPT-5.5 Pro는 작업을 여러 정규식으로 나누어 처리하는 방식을 선택하여 효과적으로 대응하지 못했습니다.

• DeepSeek V4 Pro는 벤치마크 대결에서 38.0 대 33.0의 점수로 GPT-5.5 Pro를 꺾었습니다.
• 이 모델은 GPT-5.5 Pro에 비해 더 높은 신뢰성과 엄격한 제약 조건 준수 능력을 입증했습니다.
• 파이썬 로그 편집 작업에서 DeepSeek V4 Pro는 단일 정규식과 대체자를 성공적으로 사용하여 중첩된 패턴을 처리한 반면, GPT-5.5 Pro는 작업을 여러 정규식으로 나누어 처리했습니다.

고정밀 코드 생성과 엄격한 제약 조건 준수를 원하는 개발자에게 GPT-5.5 Pro에 대한 매우 경쟁력 있는 대안이 생겼습니다.

SOURCES

[1]

4. xAI, 네이티브 오디오를 지원하는 grok-imagine-video-1.5-preview 출시

xAI는 API를 통해 사용할 수 있는 새로운 비디오 생성 모델인 grok-imagine-video-1.5-preview를 출시했습니다. 이 모델은 최대 15초 길이의 네이티브 오디오가 포함된 이미지-투-비디오 생성을 지원하며, 실제 이미지를 애니메이션 스타일로 변환하는 등 복잡한 스타일 변환이 가능합니다. 현재 Artificial Analysis Video Arena의 이미지-투-비디오(오디오 포함) 부문에서 ByteDance의 Seedance 2.0에 이어 2위를 차지하고 있습니다. API 서비스 가격은 생성된 비디오 1분당 8.40달러입니다.

• xAI는 네이티브 오디오를 지원하는 이미지-투-비디오 생성 모델인 grok-imagine-video-1.5-preview를 출시했습니다.
• 이 모델은 최대 15초 길이의 영상을 생성하며 애니메이션 스타일 렌더링과 같은 스타일 변환이 가능합니다.
• Artificial Analysis Video Arena의 이미지-투-비디오(오디오 포함) 부문에서 ByteDance의 Seedance 2.0에 이어 2위를 기록했습니다.
• API 서비스 가격은 생성된 비디오 1분당 8.40달러입니다.
• 이 모델은 현재 xAI의 API를 통해 사용할 수 있으며, Grok 앱과 X로의 배포가 진행 중입니다.

개발자는 이제 xAI의 API를 통해 동기화된 네이티브 오디오가 포함된 고품질의 짧은 영상을 프로그래밍 방식으로 생성할 수 있습니다.

SOURCES

[1] [2]

5. 악성 Microsoft 패키지, 공급망 공격으로 AI 코딩 에이전트 표적

정교한 공급망 공격을 통해 Microsoft의 암호화 검증된 오픈 소스 패키지 수십 개가 자격 증명 탈취 코드를 포함하도록 변조되었습니다. Miasma(Mini Shai-Hulud 툴킷의 복제본)로 추적되는 이 악성 코드는 AI 코딩 에이전트에 의해 트리거되도록 특별히 설계되었습니다. 28KB 페이로드는 AWS, Azure, GCP, Kubernetes, 비밀번호 관리자 및 90개 이상의 개발자 도구 구성과 SLSA 출처 증명에 사용되는 OIDC 토큰에서 자격 증명을 수집합니다. GitHub는 영향을 받은 73개 패키지를 비활성화했으며, Microsoft는 공격자가 Microsoft 게시 자격 증명을 탈취한 후 발생한 이번 침해 사고를 조사하기 위해 리포지토리를 삭제했습니다.

• Microsoft의 암호화 검증된 오픈 소스 패키지 수십 개가 자격 증명 탈취 코드를 포함하도록 변조되었습니다.
• Miasma로 추적되는 악성 페이로드는 AI 코딩 에이전트에 의해 특별히 트리거됩니다.
• GitHub는 73개의 악성 패키지를 비활성화했으며, Microsoft는 침해 사실을 인정하고 영향을 받은 리포지토리를 삭제했습니다.
• 28KB 페이로드는 AWS, Azure, GCP, Kubernetes, 비밀번호 관리자 및 90개 이상의 개발자 도구 구성에서 자격 증명을 훔칩니다.
• TeamPCP로 추적되는 공격자는 Microsoft 게시 자격 증명을 탈취하여 빌드 파이프라인을 우회했습니다.

AI 코딩 어시스턴트를 사용하는 개발자는 즉시 종속성을 감사해야 합니다. 감염된 패키지는 자동화된 에이전트 실행 중에 악성 페이로드를 트리거하도록 특별히 설계되었기 때문입니다.

SOURCES

[1]

6. LangSmith, 안전한 에이전트 실행을 위한 샌드박스 출시

LangSmith는 AI 에이전트에 안전한 컴퓨팅 환경을 제공하기 위해 설계된 하드웨어 가상화 microVM인 샌드박스 기능을 출시했습니다. 샌드박스를 통해 에이전트는 프로덕션 인프라를 손상시키지 않으면서 동적 작업을 실행하고, 영구 상태를 관리하며, 복잡한 워크플로우를 실행할 수 있습니다. 이 기능은 안전하지 않은 LLM 생성 코드를 실행할 때 발생하는 보안 위험을 경량 가상 머신 내에서 실행을 격리함으로써 직접적으로 해결합니다.

• LangSmith는 AI 에이전트를 위해 설계된 하드웨어 가상화 microVM인 샌드박스를 도입했습니다.
• 샌드박스는 동적 작업을 실행하고 복잡한 워크플로우를 실행할 수 있는 안전한 컴퓨팅 환경을 제공합니다.
• 이 기능을 통해 에이전트는 프로덕션 인프라를 손상시키지 않고 영구 상태를 관리할 수 있습니다.
• 샌드박스는 LLM이 생성한 신뢰할 수 없는 코드 실행과 관련된 보안 위험을 완화하도록 설계되었습니다.

개발자는 프로덕션 인프라를 위험에 빠뜨리지 않고 AI 에이전트가 신뢰할 수 없는 코드를 실행하고 복잡한 워크플로우를 수행하도록 안전하게 허용할 수 있습니다.

SOURCES

[1]

7. Cursor, 직접 요소 상호 작용을 통한 디자인 모드 업데이트

Cursor는 실행 중인 애플리케이션과 개발자가 상호 작용하는 방식을 개선하는 디자인 모드 업데이트를 출시했습니다. 업데이트된 모드를 통해 사용자는 UI 요소를 직접 가리키고, 그리고, 클릭할 수 있을 뿐만 아니라 원하는 변경 사항을 설명할 수도 있습니다. 이러한 시각 우선 접근 방식은 편집기 내에서 직접 프런트엔드 디자인을 프로토타이핑하고 반복하는 것을 더 쉽게 만듭니다.

• Cursor는 UI 요소를 가리키고, 그리고, 클릭하는 기능을 지원하도록 디자인 모드를 업데이트했습니다.
• 이 업데이트를 통해 사용자는 실행 중인 제품에서 직접 변경 사항을 설명할 수 있습니다.
• 이 기능은 시각적 편집 및 프런트엔드 개발 워크플로우를 간소화합니다.

개발자는 Cursor 내에서 실행 중인 애플리케이션과 시각적으로 상호 작용함으로써 UI 프로토타이핑 및 프런트엔드 반복 작업을 가속화할 수 있습니다.

SOURCES

[1]

8. Intuned, 자가 치유 AI를 갖춘 코드 우선 브라우저 자동화 플랫폼 출시

Intuned(YC S22)는 API가 없는 웹사이트를 위한 브라우저 자동화를 구축, 배포 및 유지 관리하기 위해 설계된 코드 우선 플랫폼을 출시했습니다. 개발자는 Playwright 기반 TypeScript 또는 Python을 사용하여 자동화를 작성하며, Intuned의 관리형 런타임은 인증, 세션 재사용, 동시성과 같은 인프라 작업을 처리합니다. 웹 스크래핑의 취약성을 해결하기 위해 이 플랫폼은 Claude Agent SDK를 기반으로 구축된 AI 에이전트를 통합하여 오류를 자동으로 감지하고, 실행 추적을 분석하며, 웹사이트 구조가 변경될 때 자가 치유 수정 사항을 배포합니다.

• Intuned는 Playwright 기반 TypeScript 또는 Python을 사용하여 브라우저 자동화를 구축, 배포 및 유지 관리하기 위한 코드 우선 플랫폼입니다.
• 이 플랫폼은 인증, 세션 재사용, 예약 및 동시성을 처리하는 관리형 런타임을 제공합니다.
• Claude Agent SDK를 기반으로 구축된 통합 AI 에이전트가 자동화 생성을 지원하고 오류 감지 시 수정 사항을 제안하거나 배포합니다.
• Intuned는 디버깅 및 AI 지원 수리를 용이하게 하기 위해 실행 컨텍스트(로그, 추적, 매개변수)를 캡처합니다.
• Web Task API를 통해 플랫폼의 인프라 및 에이전트 기능에 프로그래밍 방식으로 액세스할 수 있습니다.

개발자는 대상 웹사이트 구조가 변경될 때 자동으로 복구되는 강력한 웹 스크래퍼 및 브라우저 자동화를 구축하여 유지 관리 오버헤드를 줄일 수 있습니다.

SOURCES

[1]

9. OpenEnv, 오픈 소스 에이전트 실행 환경으로 전환

터미널 및 브라우저와 같은 에이전트 실행 환경을 만들기 위해 설계된 도구인 OpenEnv가 오픈 소스 모델로 전환합니다. 이 프로젝트는 Meta-PyTorch, Unsloth, Modal, Prime Intellect, Nvidia, Hugging Face 등의 구성원이 포함된 위원회에 의해 관리될 예정입니다. OpenEnv는 AI 에이전트를 훈련하고 실행하기 위한 표준화된 환경을 제공하며, 이미 PyTorch Foundation, vLLM, Lightning AI, Scale AI를 포함한 주요 조직의 채택과 지원을 받고 있습니다.

• OpenEnv는 터미널 및 브라우저와 같은 에이전트 실행 환경을 만들기 위해 설계된 도구입니다.
• 이 프로젝트는 위원회가 관리하는 오픈 소스 모델로 전환하고 있습니다.
• 위원회 구성원에는 Meta-PyTorch, Reflection, Unsloth, Modal, Prime Intellect, Nvidia, Mercor, Fleet AI, Hugging Face의 대표가 포함되어 있습니다.
• 이 프로젝트는 PyTorch Foundation, vLLM, SkyRL, Lightning AI, Scale AI를 포함한 조직의 채택과 지원을 받았습니다.

AI 에이전트를 구축하는 개발자는 PyTorch, Hugging Face, Unsloth, Modal이 지원하는 표준화된 오픈 소스 샌드박스 환경을 이용할 수 있습니다.

SOURCES

[1]

10. Amazon Bedrock, Anthropic 및 OpenAI API용 콘솔 최적화

Amazon Bedrock은 Anthropic 및 OpenAI 호환 API에 특별히 최적화된 재설계된 콘솔을 도입했습니다. 새로운 콘솔에는 포괄적인 모델 카탈로그, 프로젝트 기반 워크플로우, 코드 스니펫을 자동으로 생성하는 라이브 문서가 포함되어 있습니다. 여러 AWS 리전에서 사용할 수 있는 이 업데이트는 모델을 평가하고 프로덕션 환경에 배포하는 프로세스를 간소화하도록 설계되었습니다.

• Amazon Bedrock은 Anthropic 및 OpenAI 호환 API에 최적화된 새로운 콘솔을 출시했습니다.
• 이 콘솔은 포괄적인 모델 카탈로그, 프로젝트 기반 워크플로우, 자동 코드 스니펫이 포함된 라이브 문서를 제공합니다.
• 이 도구는 평가에서 프로덕션으로의 전환을 단순화하기 위해 여러 AWS 리전에서 사용할 수 있습니다.

개발자는 표준화된 API 형식을 사용하여 AWS 내에서 모델을 더 쉽게 평가, 배포하고 프로덕션으로 전환할 수 있습니다.

SOURCES

[1]

11. OpenAI, 프롬프트 인젝션 방지를 위한 잠금 모드 도입

OpenAI는 신뢰할 수 없는 외부 콘텐츠 및 웹페이지에서 발생하는 프롬프트 인젝션 공격의 위험을 완화하기 위해 설계된 잠금 모드(Lockdown Mode)라는 새로운 보안 기능을 도입했습니다. 잠금 모드를 활성화하면 라이브 브라우징, 웹 이미지 검색, 심층 연구, 에이전트 모드를 포함한 고위험 동적 기능이 비활성화됩니다. 이 기능은 캐시된 콘텐츠 및 이미지 생성에 대한 핵심 기능을 유지하여 사용자가 외부 데이터와 안전하게 상호 작용할 수 있도록 합니다.

• OpenAI는 외부 콘텐츠 및 웹페이지로부터의 프롬프트 인젝션 공격 위험을 줄이기 위해 잠금 모드를 도입했습니다.
• 이 모드는 라이브 브라우징, 웹 이미지 검색, 심층 연구 및 에이전트 모드를 비활성화합니다.
• 활성화된 동안 캐시된 콘텐츠 및 이미지 생성에 대한 핵심 기능을 유지합니다.

개발자와 기업 사용자는 고위험 동적 기능을 선택적으로 비활성화하여 악의적인 외부 콘텐츠로부터 LLM 상호 작용을 보호할 수 있습니다.

SOURCES

[1]

12. Google Research, 다중 홉 쿼리를 위한 에이전트 기반 RAG 도입

Google Research는 Gemini Enterprise Agent Platform에 통합된 에이전트 기반 RAG 프레임워크를 도입했으며, 현재 공개 프리뷰로 제공됩니다. 이 프레임워크는 복잡한 다중 홉 기업 쿼리를 위해 설계된 새로운 교차 코퍼스 검색(Cross-Corpus Retrieval) 기능을 구동합니다. 이는 전문화된 'Sufficient Context Agent'가 누락된 정보를 반복적으로 식별하고 응답을 생성하기 전에 완전한 컨텍스트를 보장하기 위해 격차를 기록하는 다중 에이전트 아키텍처를 활용합니다. Google은 이 접근 방식이 표준 RAG 시스템에 비해 사실 정확도를 최대 34% 향상시키면서도 지연 시간 오버헤드를 단일 코퍼스 설정의 3% 이내로 유지한다고 보고했습니다.

• Google Research는 공개 프리뷰에서 새로운 교차 코퍼스 검색 기능을 갖춘 에이전트 기반 RAG 프레임워크를 도입했습니다.
• 이 프레임워크는 오케스트레이터, 플래너, 쿼리 재작성기, 검색 팬아웃, 충분한 컨텍스트 및 합성 에이전트를 포함하는 다중 에이전트 아키텍처를 사용합니다.
• Sufficient Context Agent는 응답을 생성하기 전에 누락된 정보를 식별하고 격차를 기록함으로써 반복적인 검색을 가능하게 합니다.
• 이 시스템은 표준 RAG 시스템에 비해 사실 정확도를 최대 34% 향상시켰으며, FramesQA 벤치마크에서 90.1%의 정확도를 달성했습니다.
• 교차 코퍼스 검색에 대한 지연 시간은 테스트 중 단일 코퍼스 설정의 3% 이내로 유지되었습니다.

개발자는 복잡한 다중 홉 쿼리에 대해 사실 정확도가 최대 34% 더 높은 신뢰할 수 있는 기업 검색 시스템을 구축할 수 있습니다.

SOURCES

[1]

13. Luce Spark, 오프로드 페널티 없이 16GB GPU에서 35B MoE 모델 실행

오픈 소스 프로젝트 Luce Spark가 Apache 2.0 라이선스로 출시되어 Qwen3.6 35B-A3B와 같은 33-35B Mixture-of-Experts(MoE) 모델을 소비자용 16GB GPU에서 실행할 수 있는 방법을 제공합니다. Spark는 무거운 오프로드 비용을 지불하는 대신 활성 전문가를 GPU에 유지하고 제한된 비동기 캐시를 사용하여 시스템 RAM에서 다른 전문가를 교체합니다. 이 시스템은 실시간 라우팅 데이터를 기반으로 전문가 배치를 동적으로 자체 조정하여 오프라인 보정 없이 초당 약 100 토큰(전체 GPU 구성 성능의 약 85%)을 달성합니다.

• Luce Spark는 33-35B MoE 모델에 대한 VRAM 요구 사항을 16GiB 미만으로 줄이는 Apache 2.0 라이선스 오픈 소스 프로젝트입니다.
• 이 시스템은 활성 전문가를 GPU에 유지하면서 제한된 비동기 캐시를 사용하여 비활성 전문가를 시스템 RAM에서 교체합니다.
• Spark는 실시간 라우팅 데이터를 기반으로 전문가 배치를 자체 조정하여 오프라인 보정의 필요성을 제거합니다.
• 이 시스템은 60% 상주 상태에서 초당 약 100 토큰을 달성하며, 이는 전체 GPU 상주 상태의 초당 119 토큰과 비교됩니다.
• 이 프로젝트는 GitHub에서 사용할 수 있지만 현재 물리적 16GB 하드웨어에 대한 광범위한 테스트는 부족합니다.

개발자는 성능 저하를 최소화하면서 소비자용 16GB GPU에서 더 크고 성능이 뛰어난 MoE 모델을 직접 호스팅하고 실행할 수 있습니다.

SOURCES

[1]

14. Gemma 4 성능, QAT 및 MTP를 통해 소비자용 GPU에서 거의 2배 향상

양자화 인식 훈련(QAT)과 다중 토큰 예측(MTP)을 결합한 최근 최적화는 24GB 이하의 VRAM을 가진 GPU에서 로컬 LLM 성능을 크게 향상시켰습니다. Gemma 4 MTP에 대한 지원이 최근 llama.cpp(릴리스 b9551부터)에 병합되어 NVIDIA RTX 3090에서 Gemma 4 31b 성능이 초당 40 토큰에서 70-80 토큰으로 급증했습니다. 또한 개발자들은 모바일 장치 및 Raspberry Pi와 같은 저전력 하드웨어를 대상으로 더 작은 Gemma 모델에 대한 MTP 지원을 구현하고 있습니다.

• NVIDIA RTX 3090 GPU에서 Gemma 4 31b 성능이 초당 40 토큰에서 70-80 토큰으로 증가했습니다.
• Gemma 4에 대한 다중 토큰 예측(MTP) 지원이 릴리스 b9551부터 llama.cpp에 병합되었습니다.
• 26b 모델에 대한 테스트 결과 n-max가 1인 MTP를 사용하여 1.26배의 속도 향상(초당 143에서 180 토큰으로)을 보였습니다.
• Llama.cpp는 또한 Raspberry Pi 및 모바일 장치와 같은 저전력 하드웨어를 대상으로 하는 소형 Gemma 모델에 대한 MTP 지원을 구현하고 있습니다.
• 성능 향상은 양자화 인식 훈련(QAT)과 MTP의 조합에 의해 주도됩니다.

로컬 모델을 실행하는 개발자는 RTX 3090과 같은 소비자용 하드웨어에서 최대 1.8배의 속도 향상을 달성할 수 있습니다.

SOURCES

[1] [2] [3]

15. llama.cpp를 사용자 지정 플래그로 컴파일하여 1.5GB VRAM 절약

llama.cpp를 통해 로컬 모델을 실행하는 개발자는 사용자 지정 플래그로 프로젝트를 컴파일하여 최대 1.5GB의 VRAM을 확보할 수 있습니다. 기본적으로 llama.cpp는 모든 레이어를 GPU로 오프로드할 때 파이프라인 병렬 처리를 활성화하여 VRAM에 4개의 컴퓨팅 버퍼 복사본을 할당합니다(GGML_SCHED_MAX_COPIES=4). 그러나 테스트 결과 이 기본 구성은 단일 복사본보다 추론 속도 이점이 없는 것으로 나타났습니다. -DGGML_SCHED_MAX_COPIES=1로 컴파일하면 이 추가 할당을 방지하여 상당한 VRAM을 절약하고 컨텍스트 캐시 양자화를 통해 달성한 절감 효과가 팽창으로 인해 상쇄되는 것을 방지합니다.

• Llama.cpp는 모든 모델 레이어를 GPU로 오프로드할 때 기본적으로 파이프라인 병렬 처리를 활성화하여 VRAM에 4개의 컴퓨팅 버퍼 복사본을 할당합니다.
• llama.cpp를 -DGGML_SCHED_MAX_COPIES=1 옵션으로 컴파일하면 추가 컴퓨팅 버퍼 할당을 방지합니다.
• 테스트 결과 4개의 복사본을 사용하는 파이프라인 병렬 처리는 1개의 복사본을 사용하거나 완전히 비활성화하는 것과 비교하여 추론 속도 이점이 없는 것으로 나타났습니다.
• 기본 4개 복사본 구성은 추가로 1.5GB의 VRAM을 소비하여 컨텍스트 캐시 양자화로 인한 VRAM 절감 효과를 부분적으로 상쇄했습니다.
• 테스트는 AMD Radeon RX 6800 XT와 RX 6700 XT 혼합 설정에서 수행되었습니다.

로컬 모델을 실행하는 개발자는 추론 속도를 희생하지 않고도 다중 GPU 또는 오프로드 설정에서 최대 1.5GB의 VRAM을 확보할 수 있습니다.

SOURCES

[1]

1. Apple, WWDC 2026에서 Siri AI 및 Foundation Models 프레임워크 공개

2. Xiaomi와 TileRT, 1조 파라미터 MoE 모델로 1000 TPS 돌파

3. DeepSeek V4 Pro, 정밀도 벤치마크에서 GPT-5.5 Pro 능가

4. xAI, 네이티브 오디오를 지원하는 grok-imagine-video-1.5-preview 출시

5. 악성 Microsoft 패키지, 공급망 공격으로 AI 코딩 에이전트 표적

6. LangSmith, 안전한 에이전트 실행을 위한 샌드박스 출시

7. Cursor, 직접 요소 상호 작용을 통한 디자인 모드 업데이트

8. Intuned, 자가 치유 AI를 갖춘 코드 우선 브라우저 자동화 플랫폼 출시

9. OpenEnv, 오픈 소스 에이전트 실행 환경으로 전환

10. Amazon Bedrock, Anthropic 및 OpenAI API용 콘솔 최적화

11. OpenAI, 프롬프트 인젝션 방지를 위한 잠금 모드 도입

12. Google Research, 다중 홉 쿼리를 위한 에이전트 기반 RAG 도입

13. Luce Spark, 오프로드 페널티 없이 16GB GPU에서 35B MoE 모델 실행

14. Gemma 4 성능, QAT 및 MTP를 통해 소비자용 GPU에서 거의 2배 향상

15. llama.cpp를 사용자 지정 플래그로 컴파일하여 1.5GB VRAM 절약

Inference Brew를 인박스로