1. Microsoft, MAI-Transcribe-1.5를 필두로 7종의 자체 MAI 모델 출시
Microsoft는 Build 2026에서 MAI 제품군의 새로운 모델 7종을 발표했습니다. 이번 발표에는 MAI-Image 2.5(플래시 변형 포함), 15개 언어를 지원하는 MAI-Voice-2, 그리고 최고 수준의 소프트웨어 엔지니어링 벤치마크 성능을 기록한 주력 추론 모델 MAI-Thinking-1이 포함되었습니다. 전사(Transcription) 분야에서는 MAI-Transcribe-1.5가 Artificial Analysis 리더보드 상위 10위권 내에서 가장 빠른 음성-텍스트 변환 성능을 보여주었으며, 도메인별 어휘를 위한 키워드 바이어싱 기능을 갖췄습니다.
- • MAI-Transcribe-1.5는 276배 실시간 속도로 작동하며 AA-WER 리더보드에서 2.4%의 단어 오류율(WER)을 달성했습니다.
- • Transcribe-1.5는 Microsoft Foundry를 통해 오디오 1,000분당 6달러에 제공되며 43개 언어를 지원합니다.
- • MAI-Thinking-1은 35B 파라미터 규모의 추론 모델로, 처음부터 새로 학습되었으며 128K 컨텍스트 윈도우를 제공합니다.
- • MAI-Code-1-Flash는 GitHub Copilot 및 VS Code에 직접 통합된 추론 효율적인 코딩 모델입니다.
개발자들에게 고속 음성 전사 기능과 새로운 추론 중심의 대안을 제공하며, Microsoft가 자체 모델 중심으로 전환하고 있음을 보여줍니다.
2. Alibaba, 1M 토큰 컨텍스트와 심층 추론을 갖춘 Qwen3.7-Plus 출시
Qwen3.7-Plus는 텍스트, 비디오, 이미지 입력을 해석하도록 설계된 멀티모달 에이전트 모델입니다. GUI와 CLI 상호작용을 통합된 에이전트 루프로 결합하여 Terminal Bench 2.0-Terminus 벤치마크에서 70.3점, ScreenSpot Pro에서 79.0점을 기록했습니다. 텍스트 전용 모델인 Qwen3.7-Max는 Artificial Analysis Intelligence Index에서 56.6점을 기록했습니다. 이 모델은 로컬 가중치 배포를 지원하지 않습니다.
- • 내부 사고 과정(chain-of-thought)을 위한 256K 토큰을 포함하여 총 100만 토큰의 컨텍스트 윈도우를 지원합니다.
- • 입력 토큰 100만 개당 0.40달러이며, 캐시된 읽기 토큰은 100만 개당 0.04달러입니다.
- • 다회차 채팅 전반에 걸쳐 내부 추론 루프를 유지하기 위한 'preserve_thinking' API 파라미터를 포함합니다.
- • 폐쇄형 상업 라이선스 하에 Alibaba Cloud의 국제 엔드포인트를 통해서만 접근할 수 있습니다.
강력한 다회차 대화를 위한 전용 사고(thinking) 파라미터를 갖춘, 매우 저렴하고 긴 컨텍스트를 지원하는 멀티모달 모델을 제공합니다.
3. AWS Bedrock, Responses API 지원을 통해 OpenAI 모델 호스팅
OpenAI 쿡북의 새로운 지침은 OpenAI의 모델 기능과 AWS의 클라우드 네이티브 인프라를 연결합니다. 개발자는 Responses API를 활용하여 AWS Bedrock 호스팅 환경 내에서 구조화된 데이터 출력 및 함수 호출과 같은 표준 패턴을 유지할 수 있습니다.
- • Bedrock에서 호스팅되는 OpenAI 모델을 사용하여 프로덕션 워크플로우를 구축하는 방법을 보여줍니다.
- • Responses API를 활용하여 구조화된 출력, 도구 호출 및 파일 입력을 지원합니다.
- • 상태 관리 및 프롬프트 캐싱을 위한 운영 가이드를 제공합니다.
AWS 개발자들이 Bedrock의 구조화된 출력 및 도구 호출 기능을 쉽게 활용하면서 OpenAI 모델을 실행할 수 있게 합니다.
4. TinyFish, 오픈소스 멀티 에이전트 데이터셋 빌더 'BigSet' 출시
TinyFish의 BigSet 프레임워크는 개발자가 자연어로 대상 데이터를 설명하도록 하여 데이터 추출을 간소화합니다. 이 시스템은 2~5분 내에 하위 에이전트를 가동하고 세부 정보를 수집하여 완전히 속성이 지정된 데이터 테이블을 생성합니다. 자체 호스팅 Docker 컨테이너를 실행하려면 TinyFish, OpenRouter, Clerk의 API 키가 필요합니다.
- • AGPL-3.0 라이선스이며 Docker를 통해 자체 호스팅됩니다.
- • 데이터 구조를 정의하는 스키마 추론 모델과 병렬 하위 에이전트를 조정하는 오케스트레이터 에이전트를 사용합니다.
- • 데이터셋 ID를 접근 불가능한 JavaScript 클로저에 격리하여 프롬프트 인젝션을 방지합니다.
- • 30분에서 주 단위까지 예약된 데이터 새로고침을 지원하며 출처를 명시하여 결과를 내보냅니다.
개발자에게 웹 데이터를 자동으로 수집하고 구조화하여 깔끔한 CSV 또는 XLSX 파일로 변환하는 자체 호스팅 보안 도구를 제공합니다.
5. Microsoft, 커널 수준 AI 에이전트 샌드박싱을 위한 실행 컨테이너 출시
Microsoft Execution Containers(MXC)는 개발자와 관리자에게 AI 에이전트를 안전하게 실행할 수 있는 구조화된 프레임워크를 제공합니다. OpenAI, Nvidia, Manus, Nous Research, OpenClaw 프로젝트와 같은 파트너들이 MXC를 개발자 프레임워크에 적극적으로 통합하고 있습니다. 또한 Microsoft는 7월에 프리뷰 예정인 Agent 365를 발표하여 MXC 운영을 Defender 및 Purview와 같은 엔터프라이즈 보안 제품군과 연동할 계획입니다.
- • 런타임 시 Windows OS 커널 수준에서 AI 에이전트에 대한 정책 기반 실행 경계를 강제합니다.
- • 경량 프로세스 격리부터 마이크로 가상 머신까지 확장 가능한 격리 스펙트럼을 지원합니다.
- • 각 에이전트를 로컬 또는 Microsoft Entra 기반 ID에 바인딩하여 감사 가능한 작업 추적을 제공합니다.
- • 에이전트 실행을 데스크톱, 클립보드, 입력 UI로부터 격리하여 UI 스푸핑 및 세션 간 유출을 방지합니다.
잠재적으로 신뢰할 수 없는 에이전트 코드를 고도로 사용자 정의 가능한 OS 수준 샌드박스에 가두어 안전하게 실행할 수 있게 합니다.
6. Perplexity, 맞춤형 검색 파이프라인을 위한 Search as Code(SaC) SDK 도입
Search as Code(SaC)는 검색 아키텍처를 정적 API 호출에서 모델 주도형 프로세스로 전환합니다. 오케스트레이션 AI 모델에 검색 파라미터에 대한 직접적인 제어 권한을 부여함으로써, SaC는 작업별 파이프라인 구성을 가능하게 하여 매우 강력하고 문맥적으로 정확한 에이전트 검색을 지원합니다.
- • AI 모델이 프로그래밍 방식으로 검색 파이프라인을 구성할 수 있도록 하는 SDK를 제공합니다.
- • 모놀리식 검색 API보다 성능과 비용 효율성을 개선하도록 설계되었습니다.
- • 복잡한 검색 벤치마크, 특히 WANDR에서 경쟁사들을 능가했습니다.
개발자가 경직된 검색 API를 LLM에 의해 동적으로 구성되는 유연한 파이프라인으로 대체할 수 있게 합니다.
7. Mistral, AI 검색 파이프라인을 위한 오픈소스 검색 툴킷 출시
Mistral Search Toolkit은 프로덕션 AI 파이프라인 구축 시 발생하는 엔지니어링 오버헤드를 단순화하는 것을 목표로 합니다. 수집 및 검색 인터페이스를 표준화함으로써 개발자는 검색 기반 아키텍처의 구성 요소를 더 쉽게 교체, 최적화 및 평가할 수 있습니다.
- • 오픈소스 프레임워크로 퍼블릭 프리뷰 출시되었습니다.
- • 데이터 수집, 검색, 평가라는 세 가지 핵심 단계를 통합하도록 설계되었습니다.
- • 검색 작업을 관리하기 위한 공유 인터페이스를 제공합니다.
개발자에게 RAG 파이프라인 내에서 데이터 수집, 검색 및 평가를 간소화할 수 있는 구조화된 오픈소스 라이브러리를 제공합니다.
8. Microsoft, 에이전트 컨텍스트와 데이터를 통합하는 IQ 및 Rayfin SDK 출시
Build 2026에서 발표된 Microsoft IQ와 Rayfin은 복잡한 엔터프라이즈 에이전트를 구축하는 개발자의 주요 장애물인 파편화된 데이터 저장소와 사용자 컨텍스트 드리프트 문제를 해결합니다. Rayfin SDK를 통해 OneLake를 백엔드로 표준화함으로써, 조직은 모든 에이전트 생성 애플리케이션이 중앙 집중식으로 관리되는 조직 지식 계층으로 피드백되도록 보장할 수 있습니다. Fabric IQ 내의 온톨로지는 곧 정식 출시될 예정입니다.
- • Rayfin은 에이전트 애플리케이션을 Microsoft Fabric에 직접 배포하는 오픈소스 SDK 및 CLI입니다.
- • Microsoft IQ는 Work IQ, Foundry IQ, Fabric IQ, Web IQ라는 네 가지 컨텍스트 소스를 통합합니다.
- • 앱 데이터를 Microsoft OneLake로 직접 라우팅하여 사일로화된 저장을 방지합니다.
- • 하이브리드 검색 의도가 2026년 1월 10.3%에서 3월 33.3%로 증가한 시장 변화에 대응합니다.
개발자가 에이전트가 구축한 앱을 관리되는 Microsoft Fabric 백엔드에 직접 배포하면서 컨텍스트를 중앙 집중화할 수 있게 합니다.
9. Microsoft, 사양 기반 AI 평가를 위한 ASSERT 오픈소스 공개
ASSERT는 엄격하고 애플리케이션별 AI 평가에 대한 증가하는 수요를 해결합니다. 이 프레임워크는 시나리오 테스트 케이스를 자동으로 생성하고, 대상 시스템 응답을 평가하며, 사용자가 정의한 제약 조건에 따라 회귀 점수를 할당합니다. 개발자는 사용자 지정 시스템 컨텍스트와 도구를 제공하여 특정 통합 요구 사항에 맞게 테스트 환경을 조정할 수 있습니다.
- • Adaptive Spec-driven Scoring for Evaluation and Regression Testing(ASSERT)의 약자입니다.
- • 자연어 목표, 정책 및 동작 지침을 이식 가능하고 점수가 매겨진 테스트 제품군으로 변환합니다.
- • 디버깅을 단순화하기 위해 상세한 실행 추적, 중간 작업 및 도구 호출을 저장합니다.
- • 배포 전 빌드 및 배포 후 지속적인 모니터링을 포함한 전체 개발 수명 주기 전반에 걸쳐 적용 가능합니다.
개발자가 간단한 영어 설명을 사용하여 에이전트 동작에 대한 반복 가능한 회귀 테스트를 빠르게 생성하고 실행할 수 있게 합니다.
10. LiteRT를 통한 Gemma 4 실행으로 텍스트 생성 속도 2.4배 향상
테스트 결과, Gemma 4 E4B 모델을 Google의 LiteRT 엔진으로 배포하면 표준 llama.cpp 구현에 비해 텍스트 생성 작업에서 극적인 속도 향상을 보이는 것으로 나타났습니다. 벤치마크는 비전 인코더 병목 현상은 거의 변하지 않기 때문에 속도 향상이 주로 텍스트 디코더 측에서 발생함을 강조합니다. 개발자는 작성자가 제공한 오픈소스 Python 래퍼를 사용하여 로컬에서 호환되는 API 엔드포인트를 가동할 수 있습니다.
- • 다중 토큰 예측(MTP)을 사용하는 LiteRT-LM 4B는 RTX 4060ti에서 157.2 tok/s를 달성했으며, 이는 llama.cpp Q4 GGUF의 66.3 tok/s와 비교됩니다.
- • 이미지 캡셔닝은 비전 인코더가 주요 병목 현상으로 작용하여 1.1배의 완만한 속도 향상을 보였습니다.
- • 통합을 단순화하기 위해 OpenAI 호환 Python 래퍼가 GitHub에 제공됩니다.
- • 현재 제한 사항으로는 결정론적 출력(온도 무시), 단일 세션 실행, 배치 처리 불가, Linux 전용 지원 등이 있습니다.
Gemma 4 4B 모델을 Linux 환경에 통합하는 개발자들에게 명확한 로컬 성능 최적화 경로를 제공합니다.
11. 반복적인 로컬 작업 자동화를 위한 소형 LLM 벤치마크 순위
벤치마크 연구는 특정 시스템 유틸리티 작업을 위해 소형 LLM을 평가했으며, 컨텍스트를 1k에서 32k 토큰으로 확장할 때 모델의 생성 속도가 일반적으로 20%~35% 감소한다는 점에 주목했습니다. 또한 연구자는 타사 파인튜닝 모델이 종종 깨진 채팅 템플릿이나 환각된 함수 이름과 같은 문제를 일으킨다는 점을 관찰했으며, 이는 자동화 워크플로우를 위해 잘 설계된 기본 모델에 의존하는 것의 가치를 재확인시켜 줍니다.
- • 도구 호출, 지침 준수 및 계획 분해를 목표로 하는 사용자 지정 6-프로브 세트를 사용하여 6GB RTX 4050에서 20개 모델을 테스트했습니다.
- • LFM2.5-1.2B-Instruct는 빠르고 낮은 VRAM 옵션으로 확인되었으며, Granite-4.1-3B는 품질 기준 모델로 사용되었습니다.
- • Gemma-4-agentic-e2b는 256k 토큰 지원으로 긴 컨텍스트 작업에 권장됩니다.
- • Liquidai의 LFM2.5-8B-A1B는 속도와 컨텍스트 활용도 면에서 밀집형 8B 모델을 능가하는 최고의 오케스트레이터로 선정되었습니다.
개발자가 로컬 에이전트 하위 작업 및 백그라운드 실행을 위해 가장 효율적이고 강력한 소형 모델을 선택하도록 돕습니다.
12. 에이전트를 위한 Claude의 로컬 대안으로서 Qwen3.6-27B 평가
평가 결과, Qwen3.6-27B가 실행 가능한 로컬 추론 계층 역할을 할 수 있지만, 클라우드 기반 API 모델과 일치하려면 엄격한 소프트웨어 완화 조치가 필요함이 확인되었습니다. 감지되지 않은 하위 에이전트 오류로 인해 47회 실행 중 3회 발생한 연쇄적인 에이전트 실패를 방지하기 위해, 개발자는 구조화된 출력 강제, 계획 승인 게이트, 명시적인 실패 처리 로직을 구현해야 합니다.
- • OpenYabby를 사용하여 47개의 코딩 워크플로우 전반에서 RTX 3090(24GB VRAM)에서 Q6_K 양자화로 Qwen3.6-27B를 테스트했습니다.
- • 계획 생성에 대해 95%의 스키마 유효성을 달성했지만, JSON 도구 호출에서 12%의 높은 형식 오류율을 보였습니다.
- • 보조 Qwen 자동 검토 인스턴스를 통해 Claude 대비 약 60%의 버그를 포착했습니다.
- • 14k 토큰 이후 긴 컨텍스트 드리프트를 경험했으며, 12k 토큰의 실질적인 한계를 보였습니다.
클라우드 LLM API를 자체 호스팅 추론 모델로 대체하려는 개발자에게 구체적인 지표와 아키텍처 권장 사항을 제공합니다.
13. 인덱싱 시점 이미지 설명을 통한 쿼리 시점 RAG 오버헤드 감소
Kapa의 연구 결과에 따르면, 쿼리 시점에 멀티모달 처리를 수행하는 것은 경제적으로 비효율적이며 페이로드 제한 오류가 발생하기 쉽습니다. 이미지 설명을 인라인으로 임베딩하는 대신 별도의 텍스트 청크로 저장하는 것이 훨씬 비용 효율적인 것으로 입증되었습니다. 현재 프리뷰로 출시 중인 이 시스템은 수백만 개의 이미지가 포함된 기술 문서를 처리하도록 설계되었습니다.
- • 인덱싱 시점에 비전 모델을 사용하여 이미지를 설명하고, 쿼리 시점에 이미지를 처리하는 대신 출력을 텍스트 청크로 저장합니다.
- • 수집 시점에 제로샷 분류기를 사용하여 로고나 배너와 같은 비필수 이미지를 필터링합니다.
- • 생성 중에 비전 모델에 주변 텍스트 컨텍스트를 제공하여 캡션 품질을 향상시킵니다.
- • 3개의 고객 문서 지원 프로젝트 전반에서 94%~99%의 정확한 이미지 배치를 달성했습니다.
쿼리 페이로드 제한에 걸리지 않고 수백만 개의 문서 이미지에 대해 멀티모달 RAG를 구현하기 위한 매우 비용 효율적인 패턴을 제공합니다.
14. 깔끔한 Markdown RAG 처리를 위한 웹 검색 API 비교
올바른 검색 API를 선택하는 것은 검색 증강 생성(RAG)에서 과도한 토큰 소비와 파싱 노이즈를 피하는 데 중요합니다. Tavily가 에이전트에 널리 사용되지만, 개발자들은 토큰 오버헤드와 관련하여 엇갈린 성공 사례를 보고하고 있습니다. 자체 호스팅 및 예산 친화적인 설정을 위해 SearXNG가 여전히 옵션으로 남아 있지만, 임베딩 전에 원시 HTML을 정리하기 위한 사용자 지정 후처리가 필요합니다.
- • Brave Search는 사전 형식화되고 관련성 순위가 지정된 Markdown 청크를 제공하는 LLM Context API를 제공합니다.
- • Parallel AI의 Extract API는 JS가 많은 페이지를 밀도 높은 Markdown 토큰으로 압축합니다.
- • Exa는 직접적인 LLM 수집을 위해 명시적으로 구축된 기본 Markdown 추출 기능을 제공합니다.
- • Firecrawl과 Jina Reader는 원시 URL을 깔끔한 Markdown으로 변환하도록 지정된 도구입니다.
개발자가 무거운 스크래핑 미들웨어를 제거하고 RAG 파이프라인의 토큰 오버헤드를 줄이는 검색 엔드포인트를 선택하도록 돕습니다.
15. NVIDIA Apex 융합 커널을 통한 트랜스포머 학습 속도 향상
이 튜토리얼은 학습 파이프라인을 현대화하기 위한 명확한 경로를 제공합니다. Apex의 더 이상 사용되지 않는 혼합 정밀도 구성 요소에 의존하는 대신, 개발자는 PyTorch의 기본 AMP를 사용하면서 Apex의 고도로 최적화된 융합 CUDA 커널을 활용하도록 안내받습니다. 런타임 중에 커널 가용성을 확인하는 것은 더 느린 표준 구현으로의 자동 실행 폴백을 방지하기 위해 중요하다고 강조됩니다.
- • Apex를 주로 FusedAdam, FusedLayerNorm, FusedRMSNorm과 같은 고성능 융합 커널에 사용합니다.
- • 더 이상 사용되지 않는 apex.amp 라이브러리 대신 기본 PyTorch torch.amp(autocast 및 GradScaler)와 페어링할 것을 권장합니다.
- • 커널 가용성을 보장하기 위해 CUDA 및 C++ 확장과 함께 소스에서 Apex를 빌드해야 합니다.
- • FusedAdam을 PyTorch AdamW와 벤치마킹하여 처리량 향상을 입증합니다.
사용자 지정 모델 파인튜닝 실행을 최적화하여 더 높은 학습 처리량을 달성하려는 개발자에게 도움이 됩니다.
16. AMD MI300X 하드웨어에서 DeepSeek-V4-Flash 최적화
AMD MI300X는 동급 Nvidia 하드웨어보다 저렴한 온디맨드 대여 가격으로 이용할 수 있지만, vLLM으로 DeepSeek-V4-Flash와 같은 최첨단 모델을 배포하려면 역사적으로 사용자 지정 소프트웨어 우회 방법이 필요했습니다. 맞춤형 ROCm 헬퍼를 개발하고 FP8 지수 편향 차이를 해결함으로써, 엔지니어들은 칩의 코어 수준 라이브러리 커버리지 제한을 성공적으로 우회하여 고처리량 로컬 추론을 제공했습니다.
- • AMD MI300X는 NVIDIA H100(80GB)의 두 배 용량인 192GB의 HBM3 메모리를 특징으로 합니다.
- • 최신 AMD 칩의 OCP 표준 FP8과 'fnuz' FP8 방언 비호환성을 우회하는 최적화를 수행했습니다.
- • CDNA3 코어용 AMD의 AITER 튜닝 커널 라이브러리의 불균일한 커버리지를 극복하기 위해 사용자 지정 ROCm 헬퍼를 활용했습니다.
- • GPU당 초당 2699개의 출력 토큰을 달성하여 8.6%의 성능 향상을 나타냈습니다.
더 저렴한 AMD 하드웨어에서 대규모 오픈 모델을 실행하여 호스팅 비용을 절감하려는 개발자에게 실질적인 경로를 제공합니다.
17. Microsoft, 로컬 AI를 위한 128GB 통합 메모리 탑재 Surface RTX Spark Dev Box 공개
Build 2026에서 공개된 Surface RTX Spark Dev Box는 집중적인 AI 워크로드를 클라우드 API 청구에서 고정 비용 로컬 하드웨어로 전환하려는 Microsoft의 노력을 나타냅니다. 이 소형 기기는 Qualcomm의 취소된 Snapdragon Dev Kit의 정신적 계승자 역할을 하며 로컬 우선 AI 개발에 최적화되어 있습니다. 올해 말 Microsoft Store를 통해 미국에서 출시될 예정이지만, 공식 가격은 아직 발표되지 않았습니다.
- • Nvidia Blackwell 아키텍처 RTX Spark 칩과 128GB의 통합 메모리를 특징으로 합니다.
- • 100와트 열 설계 전력(TDP)으로 1페타플롭의 AI 연산 성능을 제공합니다.
- • Windows 11 Pro, WSL 2, VS Code, Git, Python 및 Node.js가 사전 구성되어 제공됩니다.
- • 수동 방열판 역할을 하는 3D 프린팅 금속 섀시로 설계되었습니다.
개발자가 토큰당 클라우드 비용을 우회하여 최대 1,200억 개의 파라미터를 가진 모델을 로컬에서 실행할 수 있게 합니다.