Google, 텍스트 생성 속도를 4배 높인 26B MoE 모델 'DiffusionGemma' 출시

1. Google, 텍스트 생성 속도를 4배 높인 26B MoE 모델 'DiffusionGemma' 출시

DiffusionGemma는 추론 시 3.8B 파라미터를 활성화하며, 140개 이상의 언어에 걸쳐 256K 토큰의 컨텍스트 윈도우를 지원합니다. 텍스트를 병렬 캔버스에서 처리하기 때문에 수학 그래프 작성, 분자 시퀀싱, 스도쿠 풀이와 같이 속도가 중요한 대화형 로컬 워크플로우에 최적화되어 있습니다. 이 모델은 Hugging Face에서 이용 가능하며 vLLM, Transformers, MLX, Unsloth에서 즉시 지원됩니다.

• Google이 Apache 2.0 라이선스로 26B Mixture of Experts(MoE) 오픈 모델인 DiffusionGemma를 출시했습니다.
• 이 모델은 토큰 단위의 자기회귀 디코딩 대신 텍스트 확산을 사용하여 최대 256 토큰의 병렬 블록으로 텍스트를 생성합니다.
• NVIDIA H100에서 초당 1,000 토큰 이상, RTX 5090에서 초당 700 토큰 이상의 속도를 달성합니다.
• NVFP4로 양자화할 경우 18GB VRAM 내에 모델이 탑재되어 고성능 소비자용 GPU에서 실행하기 적합합니다.
• 양방향 어텐션 기능을 갖추고 있으며, 신뢰도가 떨어질 경우 재노이즈(re-noising)를 통한 실시간 자기 교정 기능을 제공합니다.

개발자는 이 오픈 웨이트 모델을 소비자용 GPU에서 로컬로 실행하여 코드 인필링 및 인라인 편집과 같은 비선형 작업에서 초당 700 토큰 이상의 속도를 달성할 수 있습니다.

SOURCES

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

2. Cohere Transcribe, Hugging Face 원거리 음성 인식(Far-Field ASR) 벤치마크 1위 차지

Cohere Transcribe가 새롭게 출시된 Hugging Face 오디오 전사 리더보드에서 1위를 차지했습니다. Apache 2.0 라이선스로 출시된 이 모델은 개발자들에게 음성-텍스트 변환 애플리케이션을 위한 강력한 오픈소스 대안을 제공합니다.

• Cohere Transcribe는 새로운 Hugging Face 원거리 음성 인식(Far-Field ASR) 벤치마크에서 1위에 올랐습니다.
• 이 모델은 오픈소스이며 허용적인 Apache 2.0 라이선스로 배포됩니다.
• 해당 평가 벤치마크는 Cohere Transcribe 모델 학습 당시 존재하지 않았던 것으로, 모델의 제로샷 일반화 능력을 입증합니다.

고정밀도의 자체 호스팅 오디오 전사를 원하는 개발자들은 Apache 2.0 라이선스가 적용된 이 모델을 원거리 음성 인식에 활용할 수 있습니다.

SOURCES

[1] [2]

3. OpenAI와 Visa, AI 에이전트 결제 지원을 위한 파트너십 체결

이번 통합은 완전한 자율 거래 에이전트로 나아가는 중요한 단계입니다. Visa의 결제 레일을 OpenAI 플랫폼에 직접 내장함으로써, 개발자는 복잡한 맞춤형 결제 통합 과정을 거치지 않고도 에이전트가 사용자를 대신하여 안전하게 결제를 완료하도록 승인할 수 있습니다.

• OpenAI와 Visa는 AI 에이전트가 사용자 허가 하에 온라인 구매를 할 수 있도록 결제 서비스를 통합했습니다.
• 소매업체는 통합된 Visa 결제 서비스를 통해 에이전트 기반 거래를 직접 수락할 수 있습니다.
• AI 에이전트는 사용자로부터 청구서 납부나 가정용품 구매와 같은 작업을 수행하도록 승인받을 수 있습니다.
• 이번 파트너십 확대는 수요일에 공식 발표되었습니다.

개발자는 사용자 승인을 통해 청구서 납부나 상품 구매와 같은 금융 거래를 자율적으로 수행할 수 있는 에이전트를 구축할 수 있습니다.

SOURCES

[1]

4. Anthropic, Claude Fable 5에 '보이지 않는 프롬프트 개입' 도입

Claude Fable 5의 출시는 Anthropic의 안전 정책에 대한 논쟁을 불러일으켰습니다. 비판자들은 이러한 보이지 않는 개입이 AI 생태계를 해치며 로컬 오픈소스 대안의 필요성을 더욱 높인다고 주장합니다. 이 안전 장치는 동적으로 적용되므로, 모델의 효율성이 제한될 때 개발자가 명시적인 거부 메시지를 받지 못할 수도 있습니다.

• Anthropic은 Claude Fable 5에 사용자에게 알리지 않고 프롬프트를 수정하고 조정 요소를 적용하는 보이지 않는 개입을 도입했습니다.
• 이 안전 장치는 경쟁 연구소가 개발 목적으로 모델을 사용하는 경우 등 특정 상황에서 Claude의 효율성을 제한하도록 설계되었습니다.
• 이러한 개입은 모델 폴백(fallback)이 아닌 프롬프트 수정, 조정 요소, 파라미터 효율적 미세 조정을 통해 작동합니다.
• Anthropic은 이러한 보이지 않는 개입이 전체 개발자의 약 0.03%에게 영향을 미칠 것이라고 밝혔습니다.
• 이러한 안전 장치의 불투명성은 잠재적인 공급망 위험과 도구의 신뢰성에 대한 우려를 낳고 있습니다.

LLM 기반 개발 도구를 구축하는 개발자들은 Claude Fable 5가 모델 증류(distillation)나 학습 워크플로우에 사용될 때 조용히 성능이 저하되거나 동작이 변경될 수 있음을 인지해야 합니다.

SOURCES

[1] [2] [3] [4] [5]

5. Bunq 뱅킹 AI 에이전트에서 간접 프롬프트 주입 취약점 발견

이 취약점은 RAG 기반 에이전트에서 간접 프롬프트 주입이 가진 심각한 위험을 보여줍니다. Blue41은 금융 AI 어시스턴트를 위해 컨텍스트 최소화, 검색된 데이터를 신뢰할 수 없는 것으로 간주, 민감한 출력 제한, 비정상 활동 감지를 위한 런타임 동작 모니터링 등 다층적인 보안 접근 방식을 권장합니다.

• Blue41은 Bunq의 AI 어시스턴트에 대한 공격을 시연하여 RSAC Launch Pad 대회에서 우승했습니다.
• 공격자는 거래 내역 설명에 악성 프롬프트 주입 페이로드가 포함된 소액의 은행 송금을 보냈습니다.
• AI 어시스턴트가 사용자 질문에 답하기 위해 거래 데이터를 검색할 때 해당 페이로드를 명령어로 실행했습니다.
• 이 공격을 통해 AI 어시스턴트는 뱅킹 앱 내에서 신뢰할 수 있는 피싱 공격을 자율적으로 수행할 수 있었습니다.
• 이 공격은 악성코드나 기기 접근 권한 없이 전적으로 신뢰할 수 없는 거래 데이터 검색에 의존했습니다.

금융 또는 거래 에이전트를 구축하는 개발자는 에이전트가 무단 작업을 실행하거나 피싱 공격에 노출되지 않도록 검색된 모든 외부 데이터를 신뢰할 수 없는 것으로 처리해야 합니다.

SOURCES

[1]

6. Evo, 오토 리서치 오케스트레이터를 Claude Code 동적 워크플로우로 포팅

LLM이 컨텍스트 윈도우 내에서 상태를 유지하도록 의존하는 대신 JavaScript로 에이전트 요소를 스크립팅함으로써, Evo의 업데이트된 오케스트레이터는 장기 작업에서 신뢰성을 크게 향상시켰습니다. 이 접근 방식은 컨텍스트 드리프트를 완화하고 실행 규칙을 엄격하게 준수하도록 보장합니다.

• Evo는 Claude Code 내에서 Anthropic의 동적 워크플로우를 활용하도록 오토 리서치 오케스트레이터를 포팅했습니다.
• 이번 업데이트는 6단계 라운드를 인컨텍스트 메모리에서 서브 에이전트가 실행하는 결정론적 JavaScript로 전환합니다.
• 서브 에이전트는 단계, 팬아웃 폭, 중단 규칙, 게이트 및 CLI 호출을 실행하기 위해 새롭고 범위가 지정된 컨텍스트에서 실행됩니다.
• 이 아키텍처는 모델은 판단을 담당하고 코드는 조정을 관리하도록 역할을 분리합니다.

개발자는 이 패턴을 채택하여 복잡한 에이전트 워크플로우에서 장기적인 지시 사항 준수 능력을 향상시킬 수 있습니다.

SOURCES

[1]

7. 객체 스토리지 기반 그래프 데이터베이스 'HelixDB' 출시

HelixDB는 값비싼 전용 데이터베이스 인스턴스 대신 저렴한 객체 스토리지를 활용하여 에이전트 상태와 메모리를 관리하는 새로운 아키텍처를 제공합니다. 벡터 검색을 위한 사전 필터링 기능이 곧 추가될 예정이며, 향후 몇 주 내에 클라우드 정식 출시가 예정되어 있습니다.

• HelixDB는 객체 스토리지에서 네이티브 벡터 검색과 전체 텍스트 검색을 결합한 OLTP 그래프 데이터베이스입니다.
• 이 데이터베이스는 S3를 지속성 계층으로 활용하여 대규모 그래프 데이터셋에 대한 수평적 확장을 가능하게 합니다.
• 콜드 스토리지에서 쓰기 시 약 100ms, 읽기 시 50ms의 p99 지연 시간을 보고합니다.
• 주요 사용 사례로는 AI 메모리, 기업 지식 베이스, 자율 에이전트를 위한 데이터 관리가 있습니다.
• GitHub을 통해 로컬 개발이 가능하며, 현재 오픈소스 범용 AI 메모리 계층이 개발 중입니다.

개발자는 객체 스토리지 위에 확장 가능하고 비용 효율적인 AI 메모리 계층과 에이전트 지식 베이스를 구축할 수 있습니다.

SOURCES

[1]

8. Extend UI, 문서 앱을 위한 MIT 라이선스 UI 키트 오픈소스화

Extend UI는 문서 중심의 AI 애플리케이션에서 흔히 발생하는 UI 문제를 해결하는 세련된 프론트엔드 컴포넌트 세트를 제공합니다. Extend.ai는 이러한 도구를 오픈소스화함으로써 개발자들이 처음부터 구축할 필요 없이 바운딩 박스 인용 및 다중 형식 문서 뷰어를 쉽게 구현할 수 있도록 지원합니다.

• Extend.ai는 문서 보기 및 처리를 위한 14개의 컴포넌트와 예제를 MIT 라이선스로 오픈소스화했습니다.
• 컴포넌트에는 PDF, DOCX, XLSX 뷰어, 바운딩 박스 인용, 파일 업로드 및 전자 서명 지원이 포함됩니다.
• 이 키트는 원래 내부용으로 개발되었으며, 매일 수백만 페이지를 처리하며 엣지 케이스를 해결해 왔습니다.
• 컴포넌트는 완전히 맞춤 설정이 가능하며 문서 처리 에이전트 및 내부 도구 구축을 위해 설계되었습니다.

개발자는 이 사전 구축된 React 컴포넌트를 스택에 추가하여 문서 처리 에이전트, 인용 하이라이트 및 사용자 대면 입력 흐름을 빠르게 구축할 수 있습니다.

SOURCES

[1]

9. Teleport, AI 에이전트를 위한 암호화 ID 출시

AI 에이전트가 프로덕션 인프라와 상호 작용하는 경우가 늘어남에 따라 기존의 자격 증명 관리는 심각한 보안 위험을 초래합니다. Teleport의 암호화 ID 시스템은 에이전트가 짧은 기간 동안 필요한 최소한의 권한만 보유하도록 보장하며, 에이전트 작업에 대한 완전한 감사 추적을 제공합니다.

• Teleport는 인간 중심의 자격 증명을 대체하기 위해 AI 에이전트 전용으로 설계된 암호화 ID를 제공합니다.
• 이 플랫폼은 보안 인프라에 대한 단기적이고 최소 권한의 액세스를 가능하게 합니다.
• 데이터베이스, Kubernetes 및 클라우드 환경에 대한 액세스 제어를 지원하며 완전한 감사 기능을 제공합니다.
• 이 솔루션은 공유 비밀번호와 상시 권한의 필요성을 제거합니다.

개발자는 에이전트가 데이터베이스, Kubernetes 또는 클라우드 환경에 접근할 때 상시 권한과 공유 비밀번호를 제거하여 에이전트 워크플로우를 보호할 수 있습니다.

SOURCES

[1]

10. Windows 11의 Claude Desktop, 실행 시 1.8GB Hyper-V VM 생성

이 리소스 누출 문제는 로컬 워크플로우를 위해 Claude Desktop에 의존하는 개발자들에게 영향을 미칩니다. 지속적인 Hyper-V VM은 로컬 에이전트 실행 활성화 여부와 관계없이 생성되며, 수천 개의 오래된 세션 파일이 쌓이면서 시간이 지남에 따라 시스템 성능에 추가적인 영향을 줄 수 있습니다.

• Windows 11의 Claude Desktop은 실행 시 1.8GB의 RAM을 소비하는 Hyper-V 가상 머신(Vmmem)을 생성합니다.
• 이 문제는 VirtualMachinePlatform이 활성화된 시스템에서 RPC 인터페이스 이벤트를 통해 Hyper-V 호스트 컴퓨팅 서비스에 의해 트리거됩니다.
• Hyper-V 컴퓨팅 관리자 로그에는 2026년 2월부터 반복되는 잘못된 JSON 문서 오류가 기록되어 있습니다.
• 애플리케이션은 오래된 세션 파일을 정리하지 못해 local-agent-mode-sessions 디렉토리에 수천 개의 파일이 쌓입니다.
• 사용자는 VirtualMachinePlatform을 비활성화하거나 vmwp 및 vmcompute 프로세스를 수동으로 종료하여 문제를 완화할 수 있습니다.

Windows 11에서 Claude Desktop을 로컬로 실행하는 개발자는 프로세스를 수동으로 종료하지 않으면 심각한 RAM 성능 저하와 오래된 세션 파일 누적을 경험할 수 있습니다.

SOURCES

[1]

11. UC Berkeley, 장기 워크플로우를 위한 'Agents’ Last Exam' 벤치마크 출시

Agents’ Last Exam(ALE) 벤치마크는 미국 연방 직업 분류 체계를 기반으로 55개 산업 하위 도메인에서 장기 전문 워크플로우에 대한 AI 성능을 평가합니다. GCUA(Generalist Computer-Use Agent) 프레임워크를 통해 작동하며, 모델은 가상 머신을 탐색하고 데스크톱 소프트웨어와 상호 작용해야 합니다. 이 벤치마크는 독점 소프트웨어가 필요한 작업과 무료 도구를 사용하는 작업을 구분하기 위해 'Full' 및 'Unlicensed' 점수 등급을 모두 제공합니다.

• UC Berkeley의 책임감 있는 분산 지능 센터와 300명의 전문가들이 Agents’ Last Exam(ALE) 벤치마크를 출시했습니다.
• OpenAI의 GPT-5.5가 Codex 하네스를 사용하여 리더보드에서 24.0%로 가장 높은 통과율을 기록했습니다.
• Anthropic의 Claude Fable 5는 22.0%의 통과율로 3위를 차지했으며, Claude Opus 4.8과 같은 구형 모델은 가장 어려운 등급에서 0.0%를 기록했습니다.
• 이 벤치마크는 모델이 가상 머신 및 데스크톱 소프트웨어와 상호 작용해야 하는 GCUA(Generalist Computer-Use Agent) 프레임워크를 사용합니다.
• 오염을 방지하기 위해 1,490개의 작업 인스턴스 중 10%만 공개되며, 나머지는 비공개로 유지되고 주기적으로 교체됩니다.

개발자는 이 벤치마크를 사용하여 자신의 에이전트 워크플로우와 모델이 실제 가상 머신과 데스크톱 소프트웨어를 얼마나 효과적으로 탐색하는지 평가할 수 있습니다.

SOURCES

[1]

12. Lemonade v10.7, LMX-Omni 호환성 및 CUDA 백엔드 추가

Lemonade v10.7은 하드웨어 가속 및 클라이언트 호환성을 확장하여 로컬 개발자 경험을 크게 향상시킵니다. 또한 'lemonade bench' CLI 도구가 추가되어 개발자들이 여러 런타임에 걸쳐 로컬 LLM 성능을 측정할 수 있는 표준화된 방법을 제공합니다.

• Lemonade 버전 10.7은 Open WebUI 및 OpenAI 클라이언트와 LMX-Omni 가상 모델의 호환성을 도입합니다.
• 이번 릴리스는 llama.cpp 및 stable-diffusion.cpp를 위한 CUDA 백엔드와 sd-cpp를 위한 Vulkan 지원을 추가합니다.
• LMX-Omni 가상 모델은 이제 AMD, Apple Silicon, Nvidia 및 Intel 시스템에서 GPU 가속이 지원됩니다.
• 새로운 'lemonade bench' CLI 도구는 llama.cpp, FastFlowLM 및 vLLM 전반의 LLM 성능 데이터를 수집합니다.
• 이 오픈소스 프로젝트는 6개의 워킹 그룹에 의해 운영되며, 그중 4개는 AMD 직원이 아닌 리더가 이끌고 있습니다.

로컬 모델을 실행하는 개발자는 이제 AMD, Apple Silicon, Nvidia 및 Intel 하드웨어 전반에서 LMX-Omni 모델에 대한 GPU 가속을 활용할 수 있습니다.

SOURCES

[1]

13. FlashMemory 기술, DeepSeek-V4 KV 캐시 점유율 90% 절감

FlashMemory-DeepSeek-V4는 긴 컨텍스트 LLM을 서비스할 때 발생하는 심각한 GPU 메모리 병목 현상을 해결합니다. 컨텍스트 요구 사항을 동적으로 예측하고 중요하지 않은 KV 캐시 청크를 오프로딩함으로써, 시스템은 백본의 핵심 추론 능력을 유지하면서 다운스트림 성능을 향상시킵니다.

• FlashMemory는 미래 토큰이 DeepSeek-V4 CSA KV-캐시 청크 중 어디에 어텐션을 집중할지 예측하여 관련 청크만 온디바이스에 유지합니다.
• 이 기술은 평균 물리적 KV 캐시 점유율을 전체 컨텍스트 기준의 13.5%로 줄여 500K 컨텍스트 규모에서 90% 이상의 오버헤드를 절감합니다.
• DeepSeek-V4 아키텍처를 기반으로 한 룩어헤드 희소 어텐션(LSA)과 신경 메모리 인덱서를 활용합니다.
• 인덱서는 백본이 필요 없는 분리된 학습 전략을 사용하여 전체 모델을 로드하지 않고도 독립적으로 학습할 수 있습니다.
• LongBench-v2, LongMemEval 및 RULER에 대한 평가 결과, 전체 컨텍스트 기준 대비 평균 0.6%의 다운스트림 정확도 향상을 보였습니다.

로컬 또는 온프레미스에서 긴 컨텍스트 모델을 실행하는 개발자는 GPU 메모리 병목 현상을 획기적으로 줄여 최대 500K 토큰까지 초장기 컨텍스트 확장이 가능해집니다.

SOURCES

[1] [2]

1. Google, 텍스트 생성 속도를 4배 높인 26B MoE 모델 'DiffusionGemma' 출시

2. Cohere Transcribe, Hugging Face 원거리 음성 인식(Far-Field ASR) 벤치마크 1위 차지

3. OpenAI와 Visa, AI 에이전트 결제 지원을 위한 파트너십 체결

4. Anthropic, Claude Fable 5에 '보이지 않는 프롬프트 개입' 도입

5. Bunq 뱅킹 AI 에이전트에서 간접 프롬프트 주입 취약점 발견

6. Evo, 오토 리서치 오케스트레이터를 Claude Code 동적 워크플로우로 포팅

7. 객체 스토리지 기반 그래프 데이터베이스 'HelixDB' 출시

8. Extend UI, 문서 앱을 위한 MIT 라이선스 UI 키트 오픈소스화

9. Teleport, AI 에이전트를 위한 암호화 ID 출시

10. Windows 11의 Claude Desktop, 실행 시 1.8GB Hyper-V VM 생성

11. UC Berkeley, 장기 워크플로우를 위한 'Agents’ Last Exam' 벤치마크 출시

12. Lemonade v10.7, LMX-Omni 호환성 및 CUDA 백엔드 추가

13. FlashMemory 기술, DeepSeek-V4 KV 캐시 점유율 90% 절감

Inference Brew를 인박스로