llama.cpp 서버, 네이티브 에이전트 도구 실행 기능 추가

1. llama.cpp 서버, 네이티브 에이전트 도구 실행 기능 추가

llama.cpp 서버가 이제 직접적인 도구 실행을 지원하여 모델 서버 자체가 에이전트 런타임으로 변모했습니다. 개발자는 외부 MCP(Model Context Protocol) 서버나 오케스트레이터 래퍼를 설정할 필요 없이 edit_file 및 exec_shell_command와 같은 네이티브 기능을 호출할 수 있습니다. 다만, 현재 구현에는 샌드박싱, 명령 제한 또는 디렉터리 격리 기능이 없으므로, 프로덕션 환경이나 신뢰할 수 없는 입력값과 함께 이 기능을 사용하는 것은 심각한 보안 위험을 초래할 수 있습니다.

• read_file, file_glob_search, grep_search, exec_shell_command, write_file, edit_file, apply_diff, get_datetime 지원
• 서버가 실행된 디렉터리를 기준으로 명령 및 파일 작업 수행
• 보안 제어, 명령 화이트리스트, 디렉터리 제한 경계 미구현
• llama-server의 새로운 실험적 --tools 플래그를 통해 활성화

개발자가 로컬 모델을 LLM 서버에서 직접 독립형 에이전트로 배포할 수 있게 해주지만, 보안 샌드박싱이 전혀 없으므로 극도의 주의가 필요합니다.

SOURCES

[1]

2. Tencent, 4계층 로컬 아키텍처를 갖춘 TencentDB Agent Memory 오픈소스 공개

Tencent는 AI 에이전트에게 지속적인 장기 기억을 제공하는 동시에 컨텍스트 윈도우를 최적화하도록 설계된 구조화된 프레임워크인 TencentDB Agent Memory를 오픈소스로 공개했습니다. 기억을 4계층 의미론적 피라미드로 구성하고 방대한 로그 파일을 오프로딩함으로써, 이 시스템은 에이전트 루프의 토큰 오버헤드를 획기적으로 줄입니다. OpenClaw를 사용한 벤치마크에서 이 시스템은 WideSearch 통과율을 33%에서 50%로 높였으며 전체 토큰 사용량을 61% 이상 절감했습니다.

• 대화(L0), 원자(L1), 시나리오(L2), 페르소나(L3) 계층으로 구성된 4계층 의미론적 피라미드 활용
• 기본 데이터베이스 백엔드로 SQLite 및 sqlite-vec 확장 기능을 사용하여 로컬에서 실행
• 방대한 도구 실행 로그를 외부 파일로 오프로딩하고 캔버스 내 Mermaid 구문을 통해 상태 전환 추적
• RRF(Reciprocal Rank Fusion)를 통해 BM25 키워드 검색과 벡터 임베딩 결합
• OpenClaw용 npm 패키지 및 Hermes Agent용 Docker 이미지로 제공

개발자는 이 시스템을 에이전트 스택에 도입하여 외부 메모리 API 없이도 토큰 사용량을 최대 61%까지 줄이고 작업 검색 정확도를 향상시킬 수 있습니다.

SOURCES

[1]

3. Perplexity, 개발자 MCP 및 IDE 확장 프로그램 스캔을 위한 Bumblebee 오픈소스 공개

Perplexity는 개발자 머신의 공급망 위험을 식별하기 위해 맞춤화된 경량 스캐너인 Bumblebee를 오픈소스로 공개했습니다. 이 도구는 Cursor나 Windsurf와 같은 AI 에디터의 구성 파일과 로컬 환경을 노출할 수 있는 MCP(Model Context Protocol) 설정을 구체적으로 파싱합니다. 패키지 관리자 명령을 완전히 배제함으로써 Bumblebee는 디스크 내 메타데이터에서만 패키지 데이터를 추출하여 스캔 중에 의존성에 숨겨진 악성 코드가 실행되는 것을 방지합니다.

• Go(v0.1.1)로 작성되었으며 비표준 라이브러리 의존성 없음, Go 1.25 이상 필요
• VS Code, Cursor, Windsurf, VSCodium 및 주요 웹 브라우저의 로컬 구성 스캔
• AI 에이전트가 사용하는 MCP JSON 구성 파일을 파싱하여 보안 노출 탐지
• 완전히 읽기 전용으로 작동하며 패키지 관리자 실행을 피하여 악성 라이프사이클 후크 차단
• 구조화된 결과를 NDJSON(newline-delimited JSON) 형식으로 출력

개발자와 보안 팀은 악성 postinstall 스크립트를 트리거하지 않고도 로컬 패키지, VS Code/Cursor 확장 프로그램 및 MCP 설정을 안전하게 인벤토리화할 수 있습니다.

SOURCES

[1]

4. SuperClaude 프레임워크, Anthropic API를 위한 워크플로우 구조화

SuperClaude 프레임워크는 Anthropic API를 사용하는 개발자를 위해 구조화된 시스템 프롬프트 관리 계층을 제공합니다. 개발자는 복잡한 지침을 하드코딩하는 대신 Markdown 동작 파일을 사용하여 시스템 프롬프트 내에서 모드, 도구 및 역할을 동적으로 번들링하고 교체할 수 있습니다. Python 클라이언트는 이러한 자산의 검색을 자동화하고 세션 직렬화를 관리하여 강력한 다단계 개발 보조 도구를 더 쉽게 구축할 수 있도록 합니다.

• 보안 분석, 브레인스토밍, 코딩과 같은 작업을 위한 특정 시스템 프롬프트를 정의하고 로드하는 Markdown 동작 파일 사용
• 저장소 복제, 자산 검색 및 세션 기록을 처리하는 Python 기반 SuperClaude 클래스를 통해 관리
• 세션 상태를 저장하고 로드하여 개별 개발 단계 전반에 걸쳐 지속적인 컨텍스트 유지
• commands, agents 또는 modes 디렉터리에 사용자 지정 Markdown 파일을 배치하여 확장 가능

CLI 도구나 에이전트 기반 코딩 워크플로우를 구축하는 개발자는 Claude의 동작을 체계적으로 제어하고 실행 루프 전반에 걸쳐 다단계 세션 기록을 유지할 수 있습니다.

SOURCES

[1]

5. MLX 구현, Apple Silicon에서 Command A+ 로컬 실행 지원

mlx-lm 라이브러리에 대한 새로운 풀 리퀘스트를 통해 Apple Silicon에서 Cohere의 Command A+ 모델에 대한 로컬 지원이 도입되었습니다. Command A+는 고용량 추론과 낮은 활성 파라미터 실행 간의 균형을 맞춘 2180억 파라미터의 Mixture-of-Experts(MoE) 모델입니다. 고사양 메모리를 갖춘 Apple 하드웨어를 사용하는 개발자에게 이 구현은 상용 수준의 에이전트 기능과 Apache 2.0 라이선스를 로컬 개발 워크플로우로 가져옵니다.

• Command A+는 총 2180억 개의 파라미터를 특징으로 하며, 토큰당 250억 개의 활성 파라미터 사용
• 128개의 전문가, top-8 라우팅 및 3:1 슬라이딩 윈도우 어텐션을 갖춘 MoE 아키텍처 사용
• Apache 2.0 라이선스로 실행되어 상업적으로 친화적인 오픈 웨이트 대안 제공
• 고사양 시스템에서 생성 시 초당 22.9 토큰, 프롬프트 처리 시 초당 57.6 토큰 달성

고사양 메모리 Mac 하드웨어를 사용하는 개발자가 강력한 Apache 2.0 라이선스 MoE 모델을 안정적인 생성 속도로 로컬에서 실행할 수 있게 합니다.

SOURCES

[1]

1. llama.cpp 서버, 네이티브 에이전트 도구 실행 기능 추가

2. Tencent, 4계층 로컬 아키텍처를 갖춘 TencentDB Agent Memory 오픈소스 공개

3. Perplexity, 개발자 MCP 및 IDE 확장 프로그램 스캔을 위한 Bumblebee 오픈소스 공개

4. SuperClaude 프레임워크, Anthropic API를 위한 워크플로우 구조화

5. MLX 구현, Apple Silicon에서 Command A+ 로컬 실행 지원

데일리 AI 시그널을 인박스로