1. OpenAI, GPT-Realtime-2 출시
OpenAI는 고성능 대화형 애플리케이션을 위해 설계된 주력 네이티브 음성-대-음성 모델인 GPT-Realtime-2를 선보였습니다. 이 모델은 조정 가능한 추론 노력 수준과 기존 32K에서 확장된 128K 토큰 컨텍스트 윈도우를 특징으로 합니다. 텍스트, 오디오, 이미지 입력을 지원하며, 최소 추론 모드에서 1.12초의 첫 오디오 응답 시간(Time to First Audio)을 달성하는 등 지연 시간 면에서 상당한 개선을 이루었습니다.
- • 128K 컨텍스트 윈도우
- • 조정 가능한 추론 노력 수준
- • 최소 모드에서 1.12초 지연 시간
- • 텍스트, 오디오, 이미지 입력 지원
음성 우선 애플리케이션을 구축하는 개발자들은 가격 인상 없이 더 낮은 지연 시간과 더 높은 추론 능력을 활용할 수 있습니다.
2. Mozilla, Anthropic의 Mythos를 사용하여 Firefox 보안 패치
Mozilla 엔지니어들은 Firefox의 취약점 탐지를 자동화하기 위해 Anthropic의 Mythos AI 모델을 맞춤형 에이전트 하네스에 통합했습니다. 모델에 빌드 파이프라인 및 테스트 환경에 대한 직접적인 액세스 권한을 부여함으로써, 팀은 2개월 동안 최소한의 오탐(false positive)으로 271개의 보안 결함을 식별했습니다. 이 접근 방식을 통해 AI는 보안 목표가 달성될 때까지 반복적으로 파일을 읽고, 코드를 작성하며, 테스트 케이스를 평가할 수 있습니다.
- • 271개의 취약점 식별
- • 맞춤형 에이전트 하네스 사용
- • 빌드 파이프라인에 대한 직접 액세스
- • 이전 시도 대비 환각(hallucination) 감소
이는 복잡한 소프트웨어 보안 워크플로우에서 LLM을 사용하는 실용적이고 신뢰도가 높은 패턴을 보여줍니다.
3. ProgramBench 벤치마크, 에이전트 기반 소프트웨어 엔지니어링 평가
ProgramBench는 AI 에이전트가 소스 코드 없이 오직 문서와 실험에만 의존하여 소프트웨어 실행 파일을 재현하도록 요구합니다. 이 벤치마크에는 간단한 CLI 도구부터 SQLite 및 PHP 인터프리터와 같은 복잡한 소프트웨어에 이르는 200개의 작업이 포함되어 있습니다. 9개의 주요 언어 모델을 평가한 결과, 어떤 모델도 작업을 완전히 해결하지 못했으며, 가장 성능이 좋은 모델도 전체 작업의 3%에서만 95%의 테스트를 통과했습니다.
- • CLI 도구부터 컴파일러까지 200개의 작업
- • 평가를 위한 에이전트 주도 퍼징(fuzzing) 사용
- • 소스 코드 액세스 불가
- • 9개 모델 평가 결과 작업을 완전히 해결한 모델 없음
이는 자율 에이전트의 진정한 소프트웨어 엔지니어링 능력을 측정하기 위한 엄격한 표준을 제공합니다.
4. Zyphra, ZAYA1-8B 추론 모델 출시
Zyphra의 새로운 ZAYA1-8B 모델은 총 84억 개의 파라미터와 7억 6천만 개의 활성 파라미터를 특징으로 하는 Mixture-of-Experts 언어 모델입니다. AMD Instinct MI300X GPU에서 학습된 이 모델은 새로운 'Markovian RSA' 추론 방식을 사용하여 추론을 청크 단위로 처리함으로써 컨텍스트 윈도우를 제한된 상태로 유지합니다. Apache 2.0 라이선스로 제공되며 수학 및 코딩 작업에 특별히 최적화되어 있습니다.
- • 총 84억 파라미터, 7억 6천만 활성 파라미터
- • Apache 2.0 라이선스
- • AMD 하드웨어에서 학습
- • Markovian RSA 추론 방식
이는 소비자용 또는 특수 하드웨어에서 추론 능력이 필요한 개발자들에게 고효율의 오픈 소스 대안을 제공합니다.
5. Sakana AI, 멀티 에이전트 오케스트레이션을 위한 RL Conductor 출시
Sakana AI는 GPT-5 및 Claude Sonnet과 같은 작업자 LLM을 오케스트레이션하도록 학습된 70억 파라미터 모델인 RL Conductor를 선보였습니다. 입력을 동적으로 분석하고 작업을 분배함으로써 Conductor는 유연하고 자율적인 워크플로우를 가능하게 합니다. 이 시스템은 현재 Fugu API를 통해 베타 버전으로 제공되며, 저지연 및 고성능 요구 사항에 맞는 변형을 제공하고 코딩 및 추론 벤치마크에서 기존 멀티 에이전트 프레임워크를 능가하는 성능을 보였습니다.
- • RL로 학습된 7B 모델
- • 여러 프론티어 모델 오케스트레이션
- • OpenAI 호환 API
- • 기존 멀티 에이전트 프레임워크 대비 우수한 성능
이는 경직된 하드코딩 로직에 의존하지 않고 복잡한 에이전트 파이프라인을 관리할 수 있는 확장 가능한 방법을 제공합니다.
6. Instructure Canvas LMS, 대규모 데이터 유출 사고 발생
Canvas 학습 관리 시스템을 운영하는 Instructure는 사용자 이름, 이메일 주소, 개인 메시지 탈취와 관련된 심각한 데이터 유출 사고를 조사 중입니다. ShinyHunters 갈취 그룹은 8,800개 교육 기관에 걸쳐 2억 8천만 개의 레코드를 수집했다고 주장했습니다. 회사는 사건을 해결하는 동안 일부 Canvas 포털을 유지보수 모드로 전환했습니다.
- • 2억 8천만 개의 레코드 유출
- • 8,800개 기관 영향
- • ShinyHunters 그룹이 책임 주장
- • 유지보수 모드 시작
이는 API 기반 데이터 액세스와 관련된 심각한 보안 위험과 교육 인프라 보안의 중요성을 강조합니다.
7. Unsloth와 NVIDIA, LLM 학습 최적화
Unsloth는 NVIDIA와 협력하여 LLM 학습을 약 25% 가속화하는 성능 최적화를 구현했습니다. 주요 업데이트에는 동기화 오버헤드를 줄이는 Packed-sequence 캐싱과 복사 지연 시간을 숨기는 활성화 체크포인팅을 위한 더블 버퍼링이 포함됩니다. 이러한 최적화는 이제 RTX 노트북, 데이터 센터 GPU 및 DGX Spark 머신에서 사용할 수 있으며, Qwen3-14B와 같은 모델에 대해 상당한 속도 향상을 제공합니다.
- • 25% 더 빠른 학습
- • Packed-sequence 캐싱
- • 더블 버퍼링
- • RTX 및 데이터 센터 GPU와 호환
이러한 최적화는 표준 하드웨어에서 대규모 모델을 파인튜닝하는 데 대한 진입 장벽을 낮춥니다.
8. Anthropic, Claude Managed Agents에 자가 개선 기능 추가
Anthropic은 Claude Managed Agents 플랫폼을 확장하여 세 가지 새로운 기능을 추가했습니다. 과거 세션을 분석하여 패턴을 식별하는 'Dreaming', 성공 기준에 따라 스스로 수정할 수 있는 'Outcomes', 에이전트가 전문 하위 에이전트에게 작업을 위임할 수 있는 멀티 에이전트 오케스트레이션입니다. 이러한 기능은 복잡한 엔터프라이즈 환경에서 에이전트의 신뢰성과 효율성을 향상시키기 위해 설계되었습니다.
- • 패턴 분석을 위한 Dreaming
- • 자가 수정을 위한 Outcomes
- • 멀티 에이전트 오케스트레이션
- • 엔터프라이즈 중심
이러한 기능은 개발자가 더 자율적이고 스스로 수정하는 에이전트 워크플로우를 구축할 수 있는 구조화된 경로를 제공합니다.