1. Harness-1 20B 검색 서브에이전트 및 상태 유지 검색 하네스 출시
Harness-1은 검색 에이전트를 위한 상태 유지 인지 오프로딩 아키텍처를 도입했습니다. 정책의 의미론적 검색 결정과 하네스의 장부 관리 작업을 분리함으로써, 에이전트는 문서 풀과 증거 그래프를 효율적으로 관리할 수 있습니다. 이 모델은 GPT-5.4 궤적에 대한 지도 미세 조정(SFT) 후 SEC 쿼리에 대한 온폴리시(on-policy) CISPO 강화학습을 거쳐 훈련되었으며, 오픈 웨이트 검색 분야에서 최첨단 성능을 보여줍니다.
- • Harness-1은 UIUC, UC Berkeley, Chroma 연구진이 gpt-oss-20b 모델을 기반으로 구축한 20B 검색 서브에이전트입니다.
- • 이 에이전트는 의미론적 검색 결정(정책 담당)과 일상적인 장부 관리(상태 유지 하네스 담당)를 분리합니다.
- • 상태 유지 하네스는 최대 30개의 문서 후보 풀, 정규 표현식 추출을 사용하는 증거 그래프, 전문(full-text) 저장소를 유지합니다.
- • 정책은 fan_out_search, search_corpus, grep_corpus, read_document 등 8가지 특정 도구를 활용합니다.
- • Harness-1은 8개 벤치마크에서 평균 0.730의 큐레이션 리콜(curated recall)을 달성하여 Tongyi DeepResearch 30B보다 11.4포인트 높은 성능을 기록했습니다.
- • 모델 가중치와 하네스 코드는 Hugging Face와 GitHub에서 공개적으로 이용 가능합니다.
복잡한 문서 검색 및 추출에 최적화된 오픈 웨이트 에이전트 모델을 개발자에게 제공하며, 기존 오픈 소스 대안보다 뛰어난 성능을 발휘합니다.
2. Silurus, 에이전트용 MCP 서버를 갖춘 브라우저 기반 OOXML 뷰어 출시
@silurus/ooxml 라이브러리는 WebAssembly로 컴파일된 Rust 기반 파서와 Canvas 2D API를 사용하여 Office Open XML 문서를 픽셀 단위로 정확하게 렌더링하는 엔진을 제공합니다. Claude AI가 직접 구축했기 때문에 현대적인 AI 통합을 염두에 두고 설계되었으며, 개발자가 파싱된 문서 구조를 LLM 에이전트에 직접 쉽게 전달할 수 있는 전용 MCP 서버를 함께 제공합니다.
- • @silurus/ooxml 라이브러리는 DOCX, XLSX, PPTX 파일을 브라우저의 HTML Canvas 요소로 직접 렌더링합니다.
- • Rust 파서와 TypeScript 렌더러를 포함한 전체 코드베이스는 Anthropic의 Claude AI 어시스턴트가 구현했습니다.
- • 이 프로젝트에는 AI 에이전트가 Office 문서를 파싱하고 읽을 수 있도록 하는 Rust 기반 MCP(Model Context Protocol) 서버가 포함되어 있습니다.
- • 보안 기능으로 압축 해제된 ZIP 항목에 대해 기본 512 MiB 제한을 두어 zip-bomb 공격을 방지하며, roxmltree를 통해 XXE 안전성을 확보했습니다.
- • 이 라이브러리는 MIT 라이선스 하에 완전히 오픈 소스로 제공되며 기본적으로 네트워크 요청을 수행하지 않습니다.
개발자가 안전한 클라이언트 측 Office 문서 렌더링 기능을 구축하고, 사전 구축된 MCP 서버를 통해 AI 에이전트에 문서 내용을 쉽게 노출할 수 있게 합니다.
3. 오픈 소스 '자동화된 의심(Automated Doubt)' 파이프라인, 서브에이전트로 LLM 코드 감사
LLM 생성 코드의 신뢰성 문제를 해결하기 위해, 이 '자동화된 의심' 개발 프로세스는 구조화된 다단계 감사 파이프라인을 도입합니다. 서브에이전트를 사용하여 코드를 작성하는 대신, 개발에는 단일 Claude Code 터미널 인스턴스를 사용하고, 배포 전 설계, 구현 및 API 계약을 공격적으로 감사하기 위해 전문 검증 에이전트를 배치합니다.
- • '자동화된 의심' 프로세스는 3단계에 걸쳐 코드, 사양 및 문서를 감사하기 위해 전문 서브에이전트를 사용합니다.
- • 1단계(설계)에서는 구현 전 설계자(Pre-Implementation Architect), 문서 검증자(Documentation Validator), 가정 발굴자(Assumption Excavator)와 같은 에이전트를 사용합니다.
- • 2단계(개발)에서는 코드 검증자(Code Validator), 타입 안전성 검증자(Type Safety Validator), 보안 분석가(Security Analyst)를 고용하여 코드 품질을 감사합니다.
- • 3단계(배포)에서는 API 계약 검증자(API Contract Validator)와 릴리스 준비 검증자(Release Readiness Validator)를 활용하여 릴리스 준비 상태를 확인합니다.
- • 저자는 가정 발굴자(Assumption Excavator)를 범용적으로 적용 가능한 에이전트로 추천하며, 파이프라인을 GitHub에 공개했습니다.
개발자가 AI 생성 코드의 신뢰성 문제를 완화하기 위해 채택할 수 있는 구체적인 다중 에이전트 감사 패턴을 제공합니다.
4. Nightwatch, 오픈 소스 로컬 우선 AI SRE 에이전트 출시
Nightwatch는 라이브 시스템을 조사하고 온콜 엔지니어를 위한 근본 원인 가설을 형성하도록 설계된 안전한 읽기 전용 AI SRE 에이전트입니다. 자격 증명을 로컬에 유지하고 원격 LLM 호출을 수행하기 전에 비밀 정보나 IP 주소와 같은 민감한 데이터를 마스킹함으로써, 이 도구는 프로덕션 보안을 유지하면서 도구 호출 모델을 활용해 사고 대응을 자동화합니다.
- • Nightwatch는 경고 폭주를 사고로 그룹화하고 노이즈가 많은 체크를 식별하는 로컬 우선 읽기 전용 모니터링 계층입니다.
- • 아키텍처는 로컬 환경에 상주하며 중앙 브레인으로 아웃바운드 연결을 수행하는 'baby owl' 에이전트를 사용합니다.
- • 이 시스템은 프로덕션 환경에 대한 인바운드 액세스 없이 작동합니다.
- • 원격 LLM 호출 시 Nightwatch는 민감한 데이터(비밀 정보, IP, 호스트 이름, 경로)를 가역적 플레이스홀더로 마스킹합니다.
- • 클러스터링 및 추천 기능은 LLM을 사용하지 않고 완전히 오프라인에서 작동합니다.
인바운드 액세스나 원시 자격 증명 노출 없이 프로덕션 시스템을 문제 해결할 수 있는 에이전트 기반의 개인정보 보호 SRE 도구를 제공합니다.
5. GEPA 프레임워크, 다중 구성 요소 프롬프트 최적화 자동화
GEPA 프레임워크는 프롬프트 최적화를 진화적 루프로 처리하여 지루한 프롬프트 엔지니어링 과정을 자동화합니다. 작업 모델과 반성 모델을 결합하여 GEPA는 훈련 세트에 대한 성능을 평가하고, 추론 및 형식 오류에 대한 구조화된 피드백을 생성하며, 검증 세트로 일반화되도록 프롬프트 구성 요소를 개선합니다.
- • GEPA는 지침 필드와 출력 형식 규칙을 동시에 진화시키는 반성적 프롬프트 진화 프레임워크입니다.
- • 최적화 과정은 약한 시드 프롬프트, 결정론적 벤치마크 데이터셋, 구조화된 평가자, 반성 모델을 활용합니다.
- • 이 프레임워크는 작업 모델로 gpt-4o-mini를, 반성 모델로 gpt-4.1을 사용합니다.
- • 평가자는 정확성과 형식 규칙 준수 여부를 기준으로 출력을 점수화합니다.
- • GEPA는 반성 모델에 구조화된 피드백을 제공하여 추론, 형식 또는 둘 다와 관련된 오류를 식별합니다.
개발자에게 수동 시행착오에 의존하는 대신 결정론적 데이터셋에서 복잡한 프롬프트를 진화시키고 검증할 수 있는 체계적이고 프로그래밍 가능한 방법을 제공합니다.
6. Docker화된 Nemotron 3.5 ASR, CPU에서 4.5배 실시간 속도 달성
Parakeet에서 Nemotron 3.5 ASR로 전환하면 전체 오디오 파일을 버퍼링하는 지연 시간 없이 네이티브 스트리밍 음성 인식이 가능합니다. 새로 공유된 Docker 컨테이너와 API 예제를 통해 개발자는 onnxruntime-genai 백엔드를 사용하여 표준 CPU 하드웨어에 이 다국어 모델을 쉽게 배포할 수 있습니다.
- • Nemotron 3.5 ASR은 API 호출을 위한 예제 파일과 함께 Docker 컨테이너로 패키징되었습니다.
- • 이 모델은 단일 모델 내에서 40개 이상의 로케일을 지원하여 Parakeet보다 향상된 다국어 지원을 제공합니다.
- • 전체 오디오 파일을 버퍼링할 필요가 없는 네이티브 스트리밍 아키텍처를 활용합니다.
- • onnxruntime-genai 백엔드를 사용하여 CPU에서 테스트한 결과 약 4.5배의 실시간 속도를 달성했습니다.
40개 이상의 로케일을 지원하며 고가의 GPU 없이도 표준 CPU 하드웨어에서 빠르게 실행되는 효율적인 자체 호스팅 음성-텍스트 변환 파이프라인을 제공합니다.
7. NVIDIA, garak을 활용한 방어적 LLM 레드팀 워크플로우 상세 안내
NVIDIA의 garak 프레임워크 튜토리얼은 LLM 보안에 대한 구조화된 접근 방식을 설명합니다. 개발자는 garak 플러그인 생태계를 검사하여 사용 가능한 프로브, 탐지기 및 생성기를 발견하고, REST 구성 템플릿을 통해 모델 엔드포인트에 대해 스캔을 실행하며, 결과로 나온 안전 점수를 분석하여 프롬프트 인젝션 및 기타 취약점으로부터 애플리케이션을 강화할 수 있습니다.
- • NVIDIA garak은 방어적 LLM 레드팀을 위해 설계된 프레임워크입니다.
- • 워크플로우는 플러그인 발견, 드라이 런, 실제 모델 스캔, 다중 프로브 평가, 사용자 정의 프로브/탐지기 생성을 다룹니다.
- • garak 보고서는 pandas와 NumPy를 사용하여 분석함으로써 안전 점수와 공격 성공률을 계산할 수 있습니다.
- • 이 프레임워크는 취약점 보고서를 구조화된 AVID 형식으로 내보내는 기능을 지원합니다.
- • garak을 외부 모델 엔드포인트에 연결하기 위한 REST 구성 템플릿이 제공됩니다.
개발자가 배포 전 LLM 통합의 취약점을 체계적으로 스캔하고, 안전 점수를 계산하며, 구조화된 보고서를 내보낼 수 있도록 돕습니다.