1. AI 공급망 취약점
50일 동안 OpenAI, Anthropic, Meta에 영향을 미친 일련의 공급망 사고는 AI 기업들이 릴리스 파이프라인을 관리하는 방식의 구조적 취약점을 노출했습니다. 이러한 공격은 GitHub Actions, OIDC 토큰, 난독화되지 않은 소스 맵의 취약점을 악용했으며, 현재의 레드팀 활동이 모델 안전성에만 지나치게 집중하고 기본 인프라를 소홀히 하고 있음을 보여줍니다.
- • Mini Shai-Hulud 웜이 GitHub Actions 캐시 오염을 통해 42개의 @tanstack/* 패키지를 손상시켰습니다.
- • OpenAI는 직원 기기 침해 사고 이후 macOS 보안 인증서를 취소했습니다.
- • Anthropic은 Claude Code v2.1.88의 난독화되지 않은 소스 맵을 통해 513,000줄의 코드를 유출했습니다.
이번 주에 OIDC 토큰 노출 및 캐시 오염 위험을 확인하기 위해 CI/CD 파이프라인과 GitHub Actions를 감사할 예정입니다.
2. Anthropic, Stainless 인수
Anthropic은 2022년부터 Anthropic, OpenAI, Google, Cloudflare의 공식 SDK를 지원해 온 개발 도구 스타트업 Stainless를 인수했습니다. 이번 인수는 Claude의 데이터 및 도구 연결 능력을 향상하기 위한 것이지만, Anthropic은 모든 호스팅된 Stainless 제품을 단계적으로 종료할 계획입니다.
- • Stainless는 TypeScript, Python, Go, Java, Kotlin을 위한 SDK, CLI, MCP 서버 생성을 자동화하는 데 특화되어 있습니다.
- • Anthropic은 모든 호스팅된 Stainless 제품을 단계적으로 종료할 계획입니다.
- • Stainless는 이전에 OpenAI, Google, Cloudflare의 SDK를 지원했습니다.
Anthropic이 호스팅된 Stainless 제품을 종료함에 따라 SDK 생성 및 MCP 도구의 변경 사항을 모니터링할 예정입니다.
3. Modal, 추론 콜드 스타트 시간 단축
Modal은 AI 추론의 콜드 스타트 시간을 킬로초(kiloseconds) 단위에서 수십 초 단위로 대폭 줄이는 시스템을 도입했습니다. 이 시스템은 CPU 및 CUDA 컨텍스트 모두에 대해 레이지 로딩(lazy loading), 콘텐츠 주소 지정 캐싱(content-addressed caching), 체크포인트/복원 메커니즘을 결합하여 활용합니다.
- • Modal의 시스템은 레이지 로딩을 위한 ImageFS, gVisor를 통한 CPU 측 체크포인트/복원, 그리고 CUDA 측 체크포인트/복원을 사용합니다.
- • 콜드 스타트 시간이 킬로초 단위에서 수십 초 단위로 단축되었습니다.
- • Reducto는 새로운 인프라를 사용하여 콜드 스타트 시간이 6배(70초에서 12초로) 단축되었다고 보고했습니다.
지연 시간에 민감한 추론 워크로드를 Modal로 마이그레이션하여 40배 더 빨라진 새로운 콜드 스타트 성능을 활용할 예정입니다.
4. 에이전트 디버깅을 위한 LangSmith Engine
LangSmith Engine은 AI 에이전트의 운영 환경 오류를 감지, 진단 및 수정하는 과정을 자동화하는 LangSmith 플랫폼의 새로운 기능입니다. 이 엔진은 운영 트레이스에서 이상 징후를 모니터링하고, 오류가 감지되면 사람이 승인할 수 있도록 자동으로 풀 리퀘스트를 작성합니다.
- • LangSmith Engine은 운영 트레이스에서 오류, 평가자 실패, 이상 징후를 모니터링합니다.
- • 오류 감지 시 사람이 승인할 수 있도록 자동으로 풀 리퀘스트를 작성합니다.
- • 기존 LangChain 트레이싱 및 평가 인프라를 기반으로 구축되었습니다.
운영 환경 오류의 감지 및 근본 원인 분석을 자동화하기 위해 LangSmith Engine을 에이전트 워크플로우에 통합할 예정입니다.
5. Qwen 3.6 27B 로컬 추론 최적화
24GB RTX 3090에서의 성능 테스트 결과, ik_llama.cpp가 업스트림 llama.cpp보다 Qwen 3.6 27B 모델에 대해 더 뛰어난 성능을 제공하는 것으로 나타났습니다. 이 구성은 VRAM 효율성과 고품질 출력을 균형 있게 유지하기 위해 IQ4_KS 양자화를 활용합니다.
- • ik_llama.cpp는 워크로드 테스트에서 업스트림 llama.cpp 및 beellama.cpp보다 우수한 성능을 보였습니다.
- • IQ4_KS 양자화는 품질과 VRAM 효율성 사이의 균형을 맞춥니다.
- • RTX 3090에서 1261 tok/s 프리필(prefill) 및 72.9 tok/s 디코드(decode) 성능을 달성했습니다.
24GB GPU에서 컨텍스트 윈도우와 토큰 처리량을 극대화하기 위해 ik_llama.cpp와 IQ4_KS 양자화를 사용하여 로컬 추론 스택을 재구성할 예정입니다.
6. SmallCode 에이전트 프레임워크
SmallCode는 소형 로컬 모델에서 실행되도록 설계된 MIT 라이선스 코딩 에이전트 프레임워크입니다. 이 프레임워크에는 자동 컴파일 및 린팅을 위한 개선 루프가 포함되어 있으며, 로컬 모델이 작업을 완료하지 못할 경우 Claude나 OpenAI와 같은 클라우드 기반 모델로 자동 전환(auto-escalation)하는 기능을 지원합니다.
- • 4B 파라미터 Gemma 모델을 사용하여 벤치마크에서 87/100점을 달성했습니다.
- • 자동 컴파일 및 린팅을 위한 개선 루프를 제공합니다.
- • 복잡한 작업을 위해 Claude 또는 OpenAI로 자동 전환하는 기능을 지원합니다.
클라우드 모델로의 자동 전환 및 심볼 그래프 인덱싱 기능을 활용하기 위해 로컬 코딩 작업에 SmallCode를 테스트할 예정입니다.