Audesso | Daily: AI

Hugging Face에 사이버 보안 특화 오픈 웨이트 모델 'OpenMythos' 공개

00:00 / --:--

← 메인으로

Hugging Face에 사이버 보안 특화 오픈 웨이트 모델 'OpenMythos' 공개

1. Hugging Face에 사이버 보안 특화 오픈 웨이트 모델 'OpenMythos' 공개

Build Small 해커톤을 위해 개발된 OpenMythos는 범용 모델이 CVE 세부 정보를 환각하거나 취약점 패턴을 놓치는 경향을 해결하기 위해 설계된 새로운 오픈 웨이트 LLM입니다. 이 모델은 ArXiv cs.CR 논문과 구조화된 CVE 데이터에서 추출한 1,840개의 고품질 레코드로 구성된 큐레이션 데이터셋으로 학습되었습니다. 학습 파이프라인은 지도 미세 조정(SFT) 후, 취약한 코드와 수정된 코드가 포함된 GitHub 브랜치를 사용하여 코드 출력을 검증하는 검증기 기반 강화 학습(RLVR) 단계를 거쳤습니다. 모델과 데이터셋은 현재 Hugging Face에서 이용 가능합니다.

  • OpenMythos는 Build Small 해커톤을 위해 개발된 오픈 소스 LLM으로, 사이버 보안 작업에 특화되어 학습되었습니다.
  • 학습 데이터는 1만 건의 ArXiv cs.CR 논문과 구조화된 CVE 데이터셋에서 필터링된 1,840개의 고품질 레코드를 포함합니다.
  • 학습 파이프라인은 지도 미세 조정(SFT) 단계와 검증기 기반 강화 학습(RLVR) 단계를 사용했습니다.
  • RLVR 단계에서는 취약한 브랜치와 수정된 브랜치가 쌍으로 구성된 GitHub 저장소를 사용하여 모델 출력을 검증했습니다.
  • 모델, 데모 및 데이터셋은 Hugging Face에서 다운로드할 수 있습니다.

보안 중심의 AI 기능을 구축하는 개발자들은 범용 LLM에 의존하지 않고도 OpenMythos를 직접 호스팅하여 매우 정확한 CVE 세부 정보와 취약점 분석 결과를 얻을 수 있습니다.

SOURCES

2. OpenRouter, 다중 모델 합성 및 숙고를 위한 'Fusion' 출시

OpenRouter는 전문가 모델 패널의 결과를 단일 응답으로 합성하는 다중 모델 숙고 도구인 Fusion을 출시했습니다. 이 시스템은 프롬프트를 참여 모델들에 병렬로 전달한 뒤, 판정 모델을 사용하여 합의점, 모순점 및 고유한 통찰력을 분석합니다. DRACO 심층 연구 벤치마크 평가에서 Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro로 구성된 저비용 패널은 Fable 5 비용의 절반으로 GPT-5.5 및 Opus 4.8과 같은 최상위 모델을 능가했습니다. 이 도구는 OpenAI 호환 API 슬러그를 통해 사용할 수 있습니다.

  • OpenRouter Fusion을 통해 개발자는 참여 모델 패널과 판정 모델을 구성하여 출력을 합성할 수 있습니다.
  • Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro로 구성된 저비용 패널은 DRACO 벤치마크에서 Fable 5보다 50% 저렴한 비용으로 GPT-5.5 및 Opus 4.8을 능가했습니다.
  • 이 도구는 프롬프트를 병렬로 전달하고 판정 모델이 합의와 모순을 분석하여 최종 답변을 생성하는 방식으로 작동합니다.
  • Fusion은 채팅룸, 특정 모델 슬러그, 서버 도구 또는 플러그인을 통해 액세스할 수 있으며 OpenAI와 완벽하게 호환됩니다.
  • Fusion 요청은 일반적으로 표준 모델 호출보다 2~3배 느리며, 가격은 모든 기본 모델 완료 비용의 합계입니다.

개발자들은 Fusion을 사용하여 단일 OpenAI 호환 API 호출로 여러 모델의 강점을 결합함으로써 복잡한 연구나 중요한 작업에서 더 높은 정확도를 달성할 수 있습니다.

SOURCES

3. Sakana AI, 연구 에이전트 'Marlin' 출시 및 'TreeQuest' 알고리즘 오픈 소스화

도쿄에 본사를 둔 Sakana AI는 최대 8시간 동안 연속적인 추론 루프를 실행하도록 설계된 자율 연구 에이전트인 첫 상용 제품 'Sakana Marlin'을 출시했습니다. 상용 출시와 함께 Sakana AI는 Marlin의 핵심 엔진인 적응형 분기 몬테카를로 트리 탐색(AB-MCTS)을 Apache 2.0 라이선스 하에 'TreeQuest'라는 라이브러리로 오픈 소스화했습니다. TreeQuest를 통해 개발자는 자체 에이전트에 추론 시간 컴퓨팅 스케일링을 구현하여 시스템이 탐색 경로를 넓히거나 기존 가설을 심화하는 방식을 동적으로 선택할 수 있게 합니다.

  • Sakana AI는 장기 추론 작업을 위해 설계된 자율 B2B 연구 에이전트인 'Sakana Marlin'을 출시했습니다.
  • Marlin을 구동하는 핵심 알고리즘인 적응형 분기 몬테카를로 트리 탐색(AB-MCTS)이 Apache 2.0 라이선스 하에 TreeQuest로 오픈 소스화되었습니다.
  • AB-MCTS를 통해 에이전트는 후보 답변을 넓히거나 기존 답변을 심화하는 방식을 선택하여 추론 시간 컴퓨팅을 확장할 수 있습니다.
  • Marlin은 최대 8시간 동안 연속적인 추론 루프를 실행하여 포괄적인 보고서와 슬라이드 덱을 생성합니다.
  • Marlin은 크레딧당 98엔(실행당 100크레딧)의 종량제 옵션을 포함한 단계별 가격으로 상용화되었습니다.

개발자들은 오픈 소스 TreeQuest 라이브러리를 사용하여 자체 자율 에이전트 아키텍처에 고급 몬테카를로 트리 탐색 계획을 구현할 수 있습니다.

SOURCES

4. Strands Agents, 클라우드 독립적 에이전트 프레임워크 오픈 소스화

Strands Agents는 GitHub에서 6,500개의 별을 획득한 클라우드 독립적 에이전트 프레임워크를 오픈 소스화했습니다. 이 프레임워크는 개발자에게 컨텍스트 관리, 실행 제한, 관측 가능성 등 AI 에이전트 실행을 위한 필수 인프라를 제공합니다. 또한 에이전트가 스스로 성능을 수정하도록 돕는 구체적인 피드백을 제공하는 자가 수정 가드레일을 갖추고 있으며, 개발자가 애플리케이션 코드를 수정하지 않고도 LLM 백엔드를 교체할 수 있도록 지원합니다.

  • Strands Agents는 개발자가 모든 클라우드 제공업체에서 AI 모델을 실행할 수 있도록 지원하는 무료 오픈 소스 프레임워크입니다.
  • 이 프레임워크는 GitHub에서 6,500개의 별을 획득했습니다.
  • 내장된 컨텍스트 관리, 실행 제한, 관측 가능성 및 자가 수정 가드레일 기능을 제공합니다.
  • 이 플랫폼은 벤더 종속성을 방지하도록 설계되어 개발자가 애플리케이션 코드를 변경하지 않고도 백엔드를 교체할 수 있습니다.

개발자들은 내장된 관측 가능성과 자가 수정 피드백 루프를 활용하여 벤더 종속성 없이 클라우드 독립적인 AI 에이전트를 구축하고 배포할 수 있습니다.

SOURCES

5. 멀티 에이전트 프레임워크 'Orchestra-o1', 오픈 소스 기준치 능가

복잡한 옴니모달 작업을 처리하기 위해 'Orchestra-o1'이라는 새로운 멀티 에이전트 오케스트레이션 프레임워크가 도입되었습니다. 이 프레임워크는 대규모 작업을 전문 에이전트가 관리하는 병렬 하위 작업으로 분해하여 작동합니다. OmniGAIA 벤치마크 평가에서 Orchestra-o1은 72.8%의 정확도를 달성하여 기존 오픈 소스 접근 방식보다 10% 포인트 이상 높은 성능을 기록했습니다.

  • Orchestra-o1은 복잡한 옴니모달 작업을 병렬 하위 작업으로 분해하도록 설계된 멀티 에이전트 오케스트레이션 프레임워크입니다.
  • 이 프레임워크는 OmniGAIA 벤치마크에서 72.8%의 정확도를 달성했습니다.
  • Orchestra-o1은 기존 오픈 소스 접근 방식보다 10% 포인트 이상 뛰어난 성능을 보였습니다.

복잡한 멀티모달 에이전트 시스템을 구축하는 개발자들은 Orchestra-o1 프레임워크를 채택하여 병렬 하위 작업을 조정하고 작업 정확도를 크게 향상시킬 수 있습니다.

SOURCES

6. Swift 패키지, Apple의 Foundation Models 프레임워크에 Claude 통합

새로운 오픈 소스 Swift 패키지인 'Claude for Foundation Models'는 Anthropic의 모델을 Apple의 기본 서버 측 LanguageModel 프레임워크로 가져옵니다. LanguageModel 프로토콜을 준수하는 이 패키지를 통해 개발자는 Apple의 LanguageModelSession API를 사용하여 Claude와 상호 작용할 수 있습니다. 프롬프트와 응답은 Apple을 완전히 우회하여 Claude API로 직접 전송되며, 사용량은 개발자의 Anthropic 계정으로 직접 청구됩니다. 이 베타 패키지는 스트리밍, 가이드 생성, 도구 호출 및 서버 측 도구를 지원합니다.

  • 'Claude for Foundation Models' Swift 패키지는 Claude를 Apple의 Foundation Models 프레임워크에 통합합니다.
  • 이 패키지는 LanguageModel 프로토콜을 준수하여 OS 27 베타에 도입된 LanguageModelSession API를 사용할 수 있게 합니다.
  • 요청은 Claude API로 직접 전송되므로 Apple이 프롬프트나 응답을 처리하거나 볼 수 없습니다.
  • 스트리밍, 가이드 생성, 도구 호출 및 웹 검색, 코드 실행과 같은 서버 측 도구를 지원합니다.
  • 이 패키지는 Apache 2.0 라이선스이며 현재 베타 버전으로, 사용량은 사용자의 Anthropic 계정으로 직접 청구됩니다.

Apple 생태계 개발자들은 기본 Swift API를 사용하여 Claude를 앱에 통합할 수 있으며, 프롬프트를 Apple로부터 비공개로 유지하고 Anthropic 계정으로 직접 결제할 수 있습니다.

SOURCES

7. React Native ExecuTorch, GPU 가속을 통한 오프라인 Gemma 4 지원 추가

react-native-executorch 프레임워크에 Google의 Gemma 4 지원이 추가되어 개발자가 React Native 애플리케이션 내에서 모델을 완전히 오프라인으로 실행할 수 있게 되었습니다. 이 통합은 Android 기기의 Vulkan 델리게이트와 Apple Silicon의 MLX 델리게이트를 활용하는 하드웨어 가속 기능을 제공합니다. 개발자가 로컬 온디바이스 추론을 빠르게 구현할 수 있도록 프로젝트의 GitHub 저장소에서 데모 애플리케이션을 제공합니다.

  • Gemma 4가 완전히 오프라인 실행을 위해 react-native-executorch 프레임워크에 통합되었습니다.
  • GPU 가속은 Android의 Vulkan 델리게이트와 Apple Silicon의 MLX 델리게이트를 통해 지원됩니다.
  • 통합을 보여주는 데모 애플리케이션은 software-mansion/react-native-executorch GitHub 저장소에서 확인할 수 있습니다.

모바일 개발자들은 Gemma 4를 React Native 앱 내에 직접 배포하여 Android 및 iOS에서 완전히 오프라인으로 하드웨어 가속 로컬 추론을 수행할 수 있습니다.

SOURCES

8. Flash-KMeans, GPU에서 FAISS보다 200배 이상 빠른 속도 구현

UC Berkeley와 UT Austin의 연구진은 GPU에서 FAISS와 비교하여 표준 Lloyd's k-means 클러스터링을 200배 이상 가속화하는 오픈 소스 라이브러리 'Flash-KMeans'를 공개했습니다. 근사치 방법과 달리 Flash-KMeans는 표준 k-means와 수학적으로 동일합니다. 이 라이브러리는 FlashAssign을 사용하여 거리 계산을 융합하고 Sort-Inverse Update 방식을 통해 원자적 경합을 줄임으로써 GPU 데이터 흐름을 재구성하여 속도를 높였습니다. Apache 2.0 라이선스로 제공되며 scikit-learn 및 FAISS와 호환되는 API를 갖추고 있어 벡터 검색 인덱싱 및 KV 캐시 압축 파이프라인에 쉽게 통합할 수 있습니다.

  • Flash-KMeans는 Apache 2.0 라이선스로 출시된 표준 Lloyd's k-means 클러스터링을 위한 오픈 소스 IO 인식 라이브러리입니다.
  • 이 라이브러리는 표준 k-means와 수학적으로 동일하며, 근사치를 사용하는 대신 GPU 데이터 흐름을 재구성하여 속도를 높였습니다.
  • NVIDIA H200에서 최고의 기준치 대비 최대 17.9배, NVIDIA cuML 대비 33배, FAISS 대비 200배 이상의 엔드 투 엔드 속도 향상을 보고합니다.
  • Flash-KMeans는 아웃 오브 코어(out-of-core) 처리를 지원하여 최대 10억 개의 포인트 클러스터링이 가능합니다.
  • 이 라이브러리는 scikit-learn 및 FAISS와 호환되는 API를 갖추고 있어 즉시 대체가 가능합니다.

벡터 검색 인덱스, 희소 어텐션 라우팅 또는 KV 캐시 압축 파이프라인을 구축하는 개발자들은 Flash-KMeans를 도입하여 수학적 정확도를 잃지 않으면서 클러스터링 속도를 획기적으로 높일 수 있습니다.

SOURCES

9. NewCore, AI 에이전트 ID 관리 솔루션으로 6,600만 달러 투자 유치

사이버 보안 스타트업 NewCore가 자율 AI 에이전트의 보안 및 거버넌스 문제를 해결하기 위해 6,600만 달러의 투자를 유치하며 스텔스 모드에서 벗어났습니다. NewCore 플랫폼은 에이전트를 기존 서비스 계정으로 취급하는 대신 전용 권한과 수명 주기 제어를 갖춘 일급 ID로 관리합니다. 이 플랫폼은 자격 증명을 보호하기 위한 분할 키 아키텍처를 특징으로 하며, Claude Code, Cursor, Codex와 같은 인기 있는 개발자 도구와 호환되는 'Agentic Skill' 통합 패키지를 제공합니다.

  • NewCore는 엔터프라이즈 AI 에이전트를 위한 ID 관리 및 거버넌스를 제공하기 위해 6,600만 달러의 투자를 유치하며 스텔스 모드에서 벗어났습니다.
  • 이 플랫폼은 AI 에이전트를 기존 서비스 계정이 아닌 전용 권한과 수명 주기 제어를 갖춘 일급 ID로 취급합니다.
  • ID 자격 증명을 보호하고 단일 실패 지점을 방지하기 위해 분할 키 아키텍처를 사용합니다.
  • NewCore는 Claude Code, Codex, Cursor를 포함한 코딩 어시스턴트를 위한 'Agentic Skill' 통합 패키지를 제공합니다.
  • 현재 설계 파트너들과 협력 중이며 여름부터 고객에게 요금을 부과할 계획입니다.

자율 에이전트를 배포하는 개발자들은 NewCore의 분할 키 아키텍처를 사용하여 통합을 보호함으로써 자격 증명 유출을 방지하고 에이전트 권한을 관리할 수 있습니다.

SOURCES

10. Lucebox-Hub, Qwen 3.6 27B KV 캐시 최적화로 로컬 생성 속도 2배 향상

Luce-Org/lucebox-hub 저장소에 문서화된 새로운 최적화 기술은 Qwen3.6-27B Q4_K_M 모델의 로컬 추론 성능을 크게 향상시킵니다. 72MiB의 고도로 압축된 상주 KV 캐시를 활용함으로써, 이 최적화는 단일 RTX 3090에서 VRAM 요구 사항을 21GB에서 17.5GB로 줄이는 동시에 생성 속도를 초당 38.6토큰으로 두 배 높였습니다. 캐시 크기가 대폭 줄었음에도 불구하고, 이 모델은 HumanEval, GSM, MATH 전반에서 전체 컨텍스트 정확도와 동일한 벤치마크 점수를 유지합니다.

  • 이 최적화는 단일 RTX 3090 GPU에서 초당 38.6토큰으로 기본 256K 컨텍스트를 달성합니다.
  • Qwen3.6-27B Q4_K_M 모델의 VRAM 사용량은 전체 컨텍스트 정확도를 유지하면서 21GB에서 17.5GB로 감소했습니다.
  • 이 기술은 72MiB의 상주 KV 캐시를 활용하며 6% 상주율에서 88~100%의 니들 리콜(needle recall)을 유지합니다.
  • Harness 정확도는 HumanEval, GSM, MATH 및 에이전트 제품군 전반에서 전체 캐시와 비교하여 변경되지 않았습니다.
  • 이 최적화는 Luce-Org/lucebox-hub 저장소에 문서화되어 제공됩니다.

로컬 모델을 실행하는 개발자들은 이제 단일 RTX 3090에서 전체 정확도를 유지하고 3.5GB의 VRAM을 절약하면서 기본 256K 컨텍스트로 Qwen3.6-27B를 실행할 수 있습니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.