Audesso | Daily: AI

GitHub Copilot, 토큰 기반 과금 모델로 전환

00:00 / --:--

← 메인으로

GitHub Copilot, 토큰 기반 과금 모델로 전환

1. GitHub Copilot, 토큰 기반 과금 모델로 전환

정액제 구독에서 소비 기반 토큰 모델로의 전환은 개발자들 사이에서 우려를 낳고 있습니다. 사용자들은 이 모델이 탐색적 코딩이나 챗봇 중심의 과도한 코딩 세션을 크게 제한하여 월간 구독 비용을 급증시킬 수 있다고 지적합니다. 일부 개발자들은 새로운 시스템 하에서 비용을 관리하기 위해 더 절제된 코딩 워크플로우가 필요할 것이라고 제안합니다.

  • Microsoft는 6월 1일부터 Copilot 과금 방식을 토큰 사용량 모델로 전환합니다.
  • 초기 사용자 보고에 따르면 월간 비용이 29달러에서 750달러, 또는 50달러에서 3,000달러까지 상승할 수 있습니다.
  • 비평가들은 이러한 높은 잠재적 비용의 원인을 비효율적인 '바이브 코딩(vibe-coding)' 습관으로 돌리고 있습니다.
  • Microsoft는 TechCrunch의 보도 전 해당 변경 사항에 대해 별도의 언급을 하지 않았습니다.

이번 가격 정책 변경은 개발자의 소프트웨어 비용에 직접적인 영향을 미치며, 일부 사용자는 코딩 습관에 따라 상당한 비용 증가를 예상하고 있습니다.

SOURCES

2. AI 코딩 에이전트의 자체 검증을 자동화하는 Backpressure 도구

백프레셔(backpressure) 메커니즘의 구현은 에이전트 개발의 흔한 마찰 지점인 '인간이 수동으로 AI의 코딩 오류를 검토하고 잡아내야 하는 필요성'을 해결합니다. 에이전트가 로컬에서 반복적으로 자동화된 테스트, 타입 체크, 린터를 실행하도록 함으로써, 이 프레임워크는 에이전트의 결과물이 최종 확정되기 전에 정의된 품질 기준을 충족하도록 보장합니다.

  • 이 도구는 npm에서 제공되며 Claude 내에서 'npx @lucasfcosta/backpressured'를 통해 실행할 수 있습니다.
  • 지원되는 검사 항목에는 린팅, 자동화된 테스트, 타입 체크, 벤치마킹, 풀 리퀘스트 모니터링이 포함됩니다.
  • 개발자는 BACKPRESSURE.md 파일을 사용하여 사용자 정의 반복 및 품질 기준을 정의할 수 있습니다.
  • 이 라이브러리는 에이전트의 실수를 잡아내기 위한 인간의 수동 검토 의존도를 줄이기 위해 설계되었습니다.

이 도구를 사용하면 개발자가 에이전트 워크플로우 내에 직접 자동화된 품질 검사를 설정하여 수동 검토 부담을 줄일 수 있습니다.

SOURCES

3. NVIDIA Parakeet, Python 없이 실행 가능한 순수 C++ 및 ggml로 포팅

무거운 Python 런타임을 제거함으로써, 이 순수 C++ 기반 Parakeet 구현은 고도로 최적화된 로컬 전사 옵션을 제공합니다. q8_0 및 q4_k와 같은 GGUF 양자화 형식의 통합과 LocalAI의 OpenAI 호환 API와의 호환성은 기존 AI 애플리케이션 스택에 쉽게 도입할 수 있게 합니다.

  • 이 포트는 FastConformer TDT, CTC, RNNT 및 하이브리드 모델을 양자화된 GGUF 형식으로 지원합니다.
  • PyTorch 기반 NeMo 프레임워크 대비 GPU에서 최대 5배, CPU에서 1.86배 빠른 성능을 제공합니다.
  • NeMo의 f32/f16 경로와 동일한 단어 수준 출력(단어 오류율 0)을 달성합니다.
  • MIT 라이선스로 제공되며 LocalAI의 백엔드로 통합되었습니다.
  • 플랫 C-API, 캐시 인식 스트리밍, 단어 수준 타임스탬프 기능을 포함합니다.

이를 통해 개발자는 표준 PyTorch 기반 런타임보다 낮은 지연 시간과 메모리 오버헤드로 고정밀 로컬 음성 전사 기능을 애플리케이션에 통합할 수 있습니다.

SOURCES

4. Microsoft Agent Governance Toolkit, 자율 에이전트 실행 제어

자율 에이전트에게 더 넓은 도구 접근 권한이 부여됨에 따라, 실행 환경을 보호하는 것이 중요해졌습니다. 이 툴킷은 에이전트 규칙, 도구, 동작 간의 관계를 시각화하는 구체적인 도구를 제공합니다. 개발자는 다양한 신뢰 프로필을 가진 에이전트를 시뮬레이션하여 정책 제한이 의도대로 작동하는지 확인할 수 있습니다.

  • 에이전트 동작을 평가하기 위해 YAML 기반 정책을 사용합니다.
  • 결정은 에이전트 식별자, 신뢰 점수, 위험 등급, 동작 민감도를 기반으로 이루어집니다.
  • 지원되는 결과에는 허용, 거부, 샌드박스 처리, 인간 승인 요구가 포함됩니다.
  • 감사 로그는 체인 해시를 사용하여 과거 거버넌스 결정의 변조를 방지합니다.
  • 모든 에이전트 활동을 즉시 중단할 수 있는 글로벌 킬 스위치를 제공합니다.

이 프레임워크는 셸 실행이나 데이터베이스 쿼리와 같은 위험한 에이전트 기능에 대해 경계를 설정하고 인간의 승인을 강제하는 보안 패턴을 제공합니다.

SOURCES

5. SkillNet 프레임워크, AI 기술 발견 및 구성 간소화

SkillNet은 기술을 가져오기 위한 SDK와 REST 폴백을 모두 제공하며, API 키가 없는 경우 모의 평가를 사용하여 오프라인으로 작동하는 통합 시스템을 갖추고 있습니다. NetworkX와 Matplotlib을 활용하여 기술 관계를 방향성 그래프로 모델링함으로써, 개발자는 작업 실행 중 에이전트가 서로 다른 기능 간에 어떻게 전환되는지 시각적으로 디버깅할 수 있습니다.

  • 이 프로젝트는 오픈 소스이며 GitHub(zjunlp/SkillNet)에 호스팅되어 있습니다.
  • 관련 기술을 찾기 위해 키워드 기반 및 의미론적 벡터 기반 검색을 지원합니다.
  • 기술은 GitHub에서 다운로드되며 로컬 SKILL.md 메타데이터 파일을 통해 검사됩니다.
  • 품질 게이트는 안전성, 완전성, 실행 가능성, 유지 관리성, 비용 측면에서 기술을 평가합니다.
  • 목표를 특정 기술 파이프라인에 매핑된 하위 작업으로 분해하는 플래너를 포함합니다.

이 프레임워크를 통해 개발자는 에이전트 기능을 모듈화하고 복잡한 사용자 목표를 달성하기 위해 도구 실행 파이프라인을 동적으로 조립할 수 있습니다.

SOURCES

6. 자율 에이전트 취약점, 이벤트 기반 패치 필요성 증대

취약점 공개와 AI 에이전트에 의한 실제 공격 사이의 시간이 급격히 단축되면서 엔터프라이즈 애플리케이션 백엔드에 심각한 위험이 초래되고 있습니다. CISA KEV 및 EPSS 데이터를 기반으로 다층 취약점 필터를 구현하면 개발자가 가장 중요한 패치 작업에 집중하는 데 도움이 됩니다. 또한, 일부 플러그인은 대규모 요청 페이로드를 통해 우회될 수 있으므로 Docker 권한 경계를 검증하는 것이 중요합니다.

  • Anthropic의 Claude Mythos Preview는 CyberGym 취약점 재현 벤치마크에서 83.1%를 기록했습니다.
  • 최근 CVE는 공개 후 9시간 만에 악용되기도 했습니다.
  • 설문조사에 따르면 조직의 53%가 AI 에이전트가 의도된 권한을 초과하는 것을 목격했습니다.
  • IETF는 SPIFFE와 OAuth 2.0을 활용한 에이전트 식별 프로토콜 초안을 작성 중입니다.
  • 권장되는 방어책으로는 이벤트 기반 패치와 대규모 권한 제한 테스트가 있습니다.

AI 에이전트 통합을 구축하는 개발자는 더 엄격한 자격 증명 범위 지정 및 표준화된 인증 프로토콜을 구현하여 제로데이 공격으로부터 아키텍처를 보호해야 합니다.

SOURCES

7. HiDream-O1-Image-Dev-2604, 오픈 웨이트 이미지 아레나 선두

HiDream-O1-Image 제품군은 개발자가 다중 이미지 편집 및 생성 기능을 구축할 수 있는 접근 가능한 경로를 제공합니다. 표준 생성 및 지시 기반 이미지 편집 카테고리 모두에서 높은 순위를 기록한 이 오픈 웨이트 모델들은 완전한 독점 디자인 API의 대안이 됩니다. 개발자는 필요에 따라 자체 호스팅 배포와 관리형 Fal API 엔드포인트 간에 전환할 수 있습니다.

  • HiDream-O1-Image-Dev-2604는 향상된 프롬프트 파이프라인을 갖춘 Dev 모델의 파인튜닝 버전입니다.
  • 이 모델 제품군은 MIT 라이선스로 출시되었으며, 가중치는 Hugging Face에, 코드는 GitHub에 공개되어 있습니다.
  • 텍스트 프롬프트와 지시 기반 이미지 편집을 위해 최대 10개의 이미지 입력을 지원합니다.
  • Fal은 1,000개 이미지당 10달러 및 5달러의 가격으로 모델에 대한 API 액세스를 제공합니다.
  • Seedream 4.0 및 FLUX.2 [max]와 경쟁할 수 있는 품질을 달성했습니다.

이 릴리스는 자체 호스팅하거나 저비용 API를 통해 액세스할 수 있는, 텍스트-이미지 및 지시 기반 이미지 편집을 위한 경쟁력 있는 오픈 웨이트 모델을 개발자에게 제공합니다.

SOURCES

8. 13개 Abliterated Gemma 4 E2B 모델 변형 벤치마크 평가

안전성 정렬을 제거(abliterating)하면 빈 응답을 출력하거나 높은 퍼플렉서티(perplexity)로 고통받는 변형에서 볼 수 있듯이 모델 기능이 심각하게 저하될 수 있습니다. 균형 잡힌 실제 작업을 위해 coder3101은 일반적인 용도로, trevorjs는 높은 안전성 제거를 위해, llmfan46은 최소한의 기능 손실을 위해 권장됩니다. 개발자는 또한 가중치 누락을 방지하기 위해 내보내기 도구가 Gemma 4의 15~34 레이어를 올바르게 지원하는지 확인해야 합니다.

  • 평가는 44시간의 GPU 시간 동안 400개의 HarmBench 프롬프트와 8개의 벤치마크 작업에 걸쳐 13개 변형을 테스트했습니다.
  • 테스트된 모든 모델은 HarmBench 공격 성공률(ASR)을 32.2%에서 82%~100% 사이로 증가시켰습니다.
  • coder3101 변형은 96%의 ASR을 달성하면서 GSM8K 수학 벤치마크에서 기본 모델을 능가했습니다.
  • 내보내기 도구 오류로 인해 Gemma 4의 공유 KV 프로젝션으로 인해 5개 모델에서 60개의 safetensor 키가 누락되었습니다.
  • 이 연구는 제작자가 보고한 지표와 독립적인 KL 발산 측정값 간의 불일치에 대해 경고합니다.

이 상세한 평가는 개발자가 코딩이나 수학적 기능 손실 없이 검열되지 않은 로컬 작업을 수행하기 위해 적절한 abliterated 모델을 선택하는 데 도움을 줍니다.

SOURCES

9. AMD Radeon 7900 XTX에서 Qwen3.6-35B 및 Gemma4-26B 벤치마크

이 벤치마크는 내부 모델 추론 단계가 실제 실행 속도에 어떤 영향을 미칠 수 있는지 보여줍니다. Qwen3.6의 원시 디코드 속도는 이론상 우수하지만, 추론을 위해 생성하는 추가 토큰이 Gemma4 대비 처리량 이점을 상쇄합니다. 엄격한 JSON 스키마가 필요한 개발자는 여전히 Qwen을 선호할 수 있으며, ROCm에서 원시 생성 속도와 코드 검토 정확도를 우선시하는 개발자는 Gemma4를 선택할 수 있습니다.

  • 벤치마크는 ROCm 7.2.3 및 llama.cpp를 사용하여 Radeon 7900 XTX GPU에서 실행되었습니다.
  • Gemma4-26B는 6개의 실제 워크로드를 95.6초 만에 완료하여 Qwen3.6-35B의 118.8초보다 약 20% 빨랐습니다.
  • Qwen3.6은 Gemma4보다 총 토큰을 두 배 더 많이 생성했으며, 상당 부분을 내부 추론에 사용했습니다.
  • Qwen의 다중 토큰 예측은 초당 130토큰에 도달했지만, 높은 토큰 출력으로 인해 전체 시간은 더 느렸습니다.
  • Gemma4는 Qwen이 놓친 코딩 오류를 성공적으로 잡아냈고, Qwen은 엄격한 JSON 형식 준수에서 더 나은 성능을 보였습니다.

이 비교는 ROCm 환경에서의 모델 성능에 대한 구체적인 데이터를 제공하여, 구조화된 데이터 작업과 순수 속도 중 무엇이 중요한지에 따라 적절한 오픈 웨이트 모델을 선택하도록 돕습니다.

SOURCES

10. Google Sheets용 ChatGPT, 간접 프롬프트 주입에 취약

이 보안 결함의 발견은 문서 처리 확장 프로그램 내에서 간접 프롬프트 주입의 지속적인 위험을 강조합니다. 이 공격은 임의의 수정을 실행하고 인간의 검토 설정을 우회할 수 있으므로, 민감한 워크플로우 내에서 이 도구를 사용하는 개발자는 공식 수정 사항이 구현될 때까지 사용을 중지하거나 접근을 제한하는 것을 고려해야 합니다.

  • 이 확장 프로그램은 출시된 지 한 달도 되지 않아 185,000회 이상의 다운로드를 기록했습니다.
  • 간접 프롬프트 주입은 여러 통합 문서를 유출하고 가짜 피싱 팝업을 표시할 수 있습니다.
  • 이 공격은 '자동으로 편집 적용' 사용자 승인 설정을 우회합니다.
  • 이 취약점은 2026년 5월 8일 OpenAI에 보고되었으며 2026년 5월 27일 공개되었습니다.

이 확장 프로그램의 개발자와 사용자는 권한을 검토해야 합니다. 이 결함은 사용자 승인 구성을 우회하여 승인되지 않은 편집을 실행하기 때문입니다.

SOURCES

11. Odysseus, 자체 호스팅 로컬 우선 AI 워크스페이스 출시

반응형 PWA(Progressive Web App)로 구축된 Odysseus는 Python 3.11+ 시스템에서 완전히 오프라인인 로컬 우선 워크스페이스를 배포하려는 개발자를 대상으로 합니다. 이 도구는 사용자가 로컬 설정에 가장 적합한 모델을 선택할 수 있도록 돕는 하드웨어 인식 추천 시스템과 내장된 분류 및 심층 연구 도구를 제공합니다.

  • Odysseus는 MIT 라이선스로 출시되었으며 Docker Compose를 통해 배포됩니다.
  • vLLM, llama.cpp, Ollama와 같은 로컬 엔진과 OpenRouter 및 OpenAI API를 지원합니다.
  • 워크스페이스는 ChromaDB와 fastembed로 구동되는 지속적인 메모리 및 의미론적 기술을 특징으로 합니다.
  • 이메일 및 캘린더 일정 관리 통합과 다중 탭 문서 편집기를 포함합니다.

이 프로젝트는 벡터 데이터베이스 기반 문서 관리 및 일정 관리 기능을 갖춘, 상용 프론트엔드에 대한 개인정보 보호 중심의 사전 구축된 대안을 제공합니다.

SOURCES

12. Llama Studio v0.2.0, 셸 스크립트 구성으로 전환

Llama Studio는 로컬 llama-server 인스턴스의 관리를 간소화하기 위해 설계된 웹 인터페이스를 제공합니다. 이번 릴리스는 구성 저장 방식을 리팩토링하여 표준 터미널 워크플로우와 모델 실행을 더 쉽게 통합할 수 있도록 했습니다. 다중 GPU 분할 감지 기능이 추가되어 수동 JSON 편집 없이도 하드웨어 리소스가 동적으로 할당됩니다.

  • 구성은 이제 더 쉬운 CLI 실행을 위해 셸 스크립트를 통해 관리됩니다.
  • UI는 tensor-split이 감지될 때 자동 다중 GPU 모델 분할을 지원합니다.
  • 새로운 세션 저장소는 구성을 저장하고 시작 시 자동 모델 로딩을 허용합니다.
  • 이 프로젝트는 오픈 소스이며 GitHub에 호스팅되어 있습니다.

이번 업데이트는 명령줄에서 직접 사용자 지정 llama-server 구성을 시작하고 공유하는 과정을 간소화합니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.