xAI, grok-voice-think-fast-1.0 모델 출시

1. xAI, grok-voice-think-fast-1.0 모델 출시

xAI가 복잡한 다단계 기업용 워크플로우를 위해 설계된 새로운 플래그십 음성 모델 grok-voice-think-fast-1.0을 출시했습니다. 이 모델은 25개 이상의 언어와 대규모 도구 호출(tool calling)을 지원합니다. τ-voice Bench에서 67.3%의 점수를 기록하며 Gemini 3.1 Flash Live 및 GPT Realtime 1.5와 같은 경쟁 모델을 능가했습니다. 현재 Starlink의 전화 운영 시스템에 대규모로 배포되어 활용되고 있습니다.

2. Google DeepMind, 이미지 생성 모델 Vision Banana 공개

Google DeepMind가 Nano Banana Pro 이미지 생성기를 기반으로 구축된 범용 비전 모델 Vision Banana를 공개했습니다. 연구진은 경량 인스트럭션 튜닝(instruction-tuning)을 적용해 2D 및 3D 비전 작업을 이미지 생성 출력으로 재구성했습니다. 이 방식을 통해 모델은 특정 작업용 모듈 없이도 시맨틱 세그멘테이션(semantic segmentation) 및 미터법 깊이 추정(metric depth estimation)과 같은 복잡한 시각적 분석을 수행할 수 있습니다. 이번 발표는 이미지 생성 사전 학습이 시각적 이해를 위한 기초적인 역할을 할 수 있음을 보여줍니다.

3. GitNexus, MCP 기반 지식 그래프 엔진 출시

Abhigyan Patwari가 AI 코딩 에이전트를 위한 오픈 소스 MCP 기반 지식 그래프 엔진인 GitNexus를 출시했습니다. 이 도구는 저장소를 함수 호출, 임포트, 클래스 상속 및 실행 흐름을 매핑하는 구조화된 지식 그래프로 인덱싱합니다. Claude Code 및 Cursor와 같은 에이전트는 Model Context Protocol(MCP) 서버를 통해 이러한 의존성 구조를 직접 쿼리할 수 있습니다. 이러한 구조적 인식을 통해 에이전트가 하위 의존성을 이해하지 못한 채 코드를 수정하는 일반적인 오류를 방지합니다.

4. Alash3al, AI 에이전트용 영구 메모리 계층 Stash 출시

Alash3al이 PostgreSQL 기반의 AI 에이전트용 오픈 소스 영구 인지 계층인 Stash를 출시했습니다. 이 시스템은 원시 관찰 데이터를 사실로 합성하고 이를 지식 그래프로 연결하며, 학습된 정보를 계층적 네임스페이스로 구성합니다. 임베딩과 추론 모두에 단일 OpenAI 호환 백엔드를 사용하며, Ollama 및 vLLM과 같은 도구를 통해 클라우드 제공업체나 로컬 모델을 지원합니다. Stash는 Apache 2.0 라이선스로 제공되며 모든 MCP 호환 에이전트와 연동됩니다.

5. OpenAI, GPT-5.5 생물학적 위험 버그 바운티 프로그램 시작

OpenAI가 GPT-5.5의 생물학적 위험(biorisks)에 대한 범용 탈옥(jailbreak)을 테스트하기 위해 Bio Bug Bounty 프로그램을 시작했습니다. 이 모델은 현재 심사를 거쳐 승인된 신청자에 한해 Codex Desktop을 통해서만 접근 가능합니다. 연구자들은 모더레이션 시스템을 트리거하지 않고 클린 채팅 상태에서 5가지 생물학적 안전 질문에 성공적으로 답변하는 단일 프롬프트를 찾아야 합니다. 이 프로그램은 최초의 성공적인 범용 탈옥에 대해 25,000달러의 보상금을 제공하며 2026년 7월 27일까지 진행됩니다.

6. 개발자, Markdown 및 Git 기반 AI 위키 Wuphf 출시

한 개발자가 Markdown과 Git을 소스로 사용하는 AI 에이전트용 로컬 우선(local-first) 위키 계층인 Wuphf를 출시했습니다. 이 시스템은 로컬에서 실행되며 SQLite 기반의 BM25 검색 인덱스를 특징으로 하여, 무거운 벡터나 그래프 데이터베이스를 사용하지 않습니다. 개별 에이전트를 위한 개인용 노트북과 공유 팀 위키를 제공하며, 초안의 위키 승격 및 자동 아카이빙을 위한 상태 머신으로 구동됩니다. 개발자는 npm을 통해 이 도구를 설치하여 에이전트 세션 전반에 걸쳐 누적되는 컨텍스트를 유지할 수 있습니다.

7. PageIndex, 벡터리스(Vectorless) RAG 프레임워크 출시

PageIndex가 기존의 벡터 임베딩 대신 계층적 문서 트리를 사용하는 오픈 소스 검색 증강 생성(RAG) 프레임워크를 출시했습니다. 이 시스템은 LLM이 목차를 사용하는 것과 유사하게 문서 구조를 논리적으로 탐색할 수 있게 합니다. 이러한 추론 기반 검색 방식은 논리적 구성을 보존하고 재무 보고서나 법률 문서와 같이 길고 복잡한 문서에서 추적 가능한 결과를 제공하는 것을 목표로 합니다. 이 프레임워크는 FinanceBench와 같은 벤치마크에서 높은 정확도를 입증했습니다.

8. OpenAI, 프런티어 모델 평가에서 SWE-bench Verified 제외

OpenAI가 프런티어 모델의 자율 소프트웨어 엔지니어링 역량을 측정하는 데 SWE-bench Verified가 더 이상 적합하지 않다고 발표했습니다. 내부 감사 결과, 자주 실패하는 문제의 약 60%가 기능적으로 올바른 제출물을 거부하는 결함 있는 테스트 케이스를 포함하고 있는 것으로 나타났습니다. 또한, 문제에 사용된 오픈 소스 저장소가 모델 학습 데이터에 포함되는 경우가 많아 데이터 오염 문제도 겪고 있습니다. OpenAI는 향후 평가를 위해 SWE-bench Pro 사용을 권장합니다.

9. OpenAI, Hugging Face에 임상 데이터셋 공개

OpenAI가 임상 애플리케이션에서 ChatGPT의 성능을 개선하기 위해 Hugging Face 허브에 새로운 데이터셋을 공개했습니다. 이번 출시는 미국의 검증된 의료 전문가들이 문서화, 증거 검토 및 의학 연구를 수행할 수 있도록 지원하기 위한 이니셔티브의 일환입니다. 여기에는 의사 주도 테스트를 통해 평가된 벤치마크와 모델이 포함되어 있습니다. 이를 통해 개발자는 임상 워크플로우를 위한 고품질 AI 도구를 구축하고 평가할 수 있는 새로운 리소스를 확보하게 되었습니다.