Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

1. Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

Langfuse는 추적, 프롬프트 관리 및 자동화된 평가를 처리하도록 설계된 오픈 소스 LLM 엔지니어링 플랫폼입니다. 이 포괄적인 파이프라인은 사용자 지정 항목 수준 및 집계 평가자를 사용한 데이터셋 기반 실험을 지원하여 개발자가 확신을 가지고 애플리케이션을 반복 개선할 수 있도록 돕습니다. LangChain 콜백 핸들러나 기본 데코레이터 기반 추적을 사용하여 개발자는 프로덕션 환경에서 세션 메타데이터와 점수 지표를 원활하게 추적할 수 있습니다.

• 데코레이터 기반 추적 및 RAG 파이프라인을 위한 수동 계측을 모두 지원합니다.
• 프롬프트와 수치형, 범주형, 불리언 평가 점수를 중앙에서 관리할 수 있습니다.
• LangChain과 쉽게 통합할 수 있는 전용 콜백 핸들러가 포함되어 있습니다.
• 사용자 ID, 세션 ID, 태그와 같은 메타데이터를 LLM 추적 전반에 걸쳐 전파할 수 있습니다.
• 실제 OpenAI API 키와 결정론적 모의 LLM 모두와 호환됩니다.

개발자가 강력한 텔레메트리를 쉽게 구현하고, 데이터셋 기반 실험을 실행하며, 라이브 API나 모의 LLM을 사용하여 프롬프트를 중앙에서 관리할 수 있게 합니다.

SOURCES

[1]

2. Microsoft, 터미널 네이티브 웹 에이전트 프레임워크 'Webwright' 출시

Microsoft Research는 웹 에이전트를 위한 매우 효율적인 터미널 네이티브 프레임워크인 Webwright를 오픈 소스로 공개했습니다. Webwright로 구축된 에이전트는 단계별 UI 작업을 예측하는 대신 터미널 환경에서 Playwright 코드와 bash 명령을 작성하고 실행합니다. 이 프레임워크는 긴 시퀀스를 처리하기 위한 동적 기록 압축 기능을 갖추고 있으며, 종료 전 작업 완료를 보장하기 위해 필수적인 검증 주기를 강제합니다.

• GPT-5.4를 사용하여 Online-Mind2Web에서 86.7%, Odysseys에서 60.1%의 성능을 달성했습니다.
• Runner, Model Endpoint, 터미널 환경이라는 1,000줄 미만의 세 가지 핵심 구성 요소로 이루어져 있습니다.
• 컨텍스트 길이 제한을 완화하기 위해 20단계마다 프롬프트 기록을 압축합니다.
• 자기 성찰 및 검증 프로세스를 요구하여 조기 종료를 방지합니다.
• 사전 구축된 스크립트를 사용할 경우 Qwen3.5-9B와 같은 소형 모델도 66.2%의 정확도를 달성할 수 있습니다.
• 스크립트는 재사용이 가능하며 Claude Code, Codex, OpenClaw와 같은 도구와 호환됩니다.

기본적인 단계 예측을 전체 Playwright 코드 실행 및 자동화된 기록 압축으로 대체하여 웹 에이전트의 신뢰성을 높이고 컨텍스트 제한 문제를 방지합니다.

SOURCES

[1]

3. StepFun, StepAudio 2.5 실시간 엔드투엔드 음성 모델 출시

상하이에 본사를 둔 StepFun은 원시 오디오를 직접 처리하여 별도의 STT 및 TTS 단계를 거치지 않는 음성 모델인 StepAudio 2.5 Realtime을 출시했습니다. 10,000개 이상의 시드 페르소나에 대한 알고리즘 증강을 통해 훈련된 이 모델은 강력한 페르소나 일관성을 보여주며, 음향적 뉘앙스를 분석하여 사용자의 기분과 의도를 파악할 수 있습니다. 개발자는 표준 WebSocket 스트림을 사용하여 이 저지연 음성 기능을 자신의 앱에 쉽게 연결할 수 있습니다.

• wss://api.stepfun.com/v1/realtime 및 모델 식별자 step-2.5-realtime을 통해 WebSocket으로 액세스할 수 있습니다.
• 직접적인 오디오 입력을 직접적인 오디오 출력으로 처리하는 통합 시스템으로 작동합니다.
• 영어와 중국어를 모두 지원합니다.
• 대화 전반에 걸쳐 페르소나 일관성을 유지하기 위해 역할극 특화 RLHF를 사용하여 훈련되었습니다.
• 어조, 속도, 웃음소리를 해석하는 언어 외적 인식 능력을 갖추고 있습니다.
• 2026년 4월 벤치마크에서 80.41점의 주관적 인간 평가 점수를 달성했습니다.

음성 기반 AI 애플리케이션을 위해 고급 언어 외적 인식 기능을 갖춘 저지연 네이티브 오디오-투-오디오 스트리밍 인터페이스를 구현할 수 있습니다.

SOURCES

[1]

4. hipEngine, AMD RDNA3에서 빠른 ROCm 네이티브 추론 제공

hipEngine은 AMD의 RDNA3 하드웨어를 위해 특별히 설계된 새로운 오픈 소스 ROCm 네이티브 로컬 추론 엔진입니다. 무거운 PyTorch 의존성을 배제하고 hipGraph 및 AOTriton과 같은 네이티브 라이브러리를 활용함으로써 hipEngine은 고효율 실행을 달성합니다. 네이티브 INT8 KVCache 최적화는 초장기 컨텍스트 기능을 잠금 해제하여 로컬 개발 파이프라인에서 llama.cpp의 실행 가능한 대안이 됩니다.

• AMD 라이브러리인 hipBLASLt, hipGraph, AOTriton을 사용하여 Python 및 HIP/C++로 네이티브하게 구축되었습니다.
• Q4_K_M 및 Q4_K_S 변형을 포함한 ParoQuant 및 GGUF 모델 형식을 지원합니다.
• 거의 손실 없는 INT8 KVCache를 포함하여 Qwen 3.6이 24GB 미만의 메모리에서 256K 컨텍스트로 실행되도록 합니다.
• gfx1100 하드웨어 벤치마크에서 llama.cpp와 경쟁력 있는 성능을 보여줍니다.
• KERNELS.md, ROOFLINE.md, LESSONS-LEARNED.md 문서가 포함되어 있습니다.
• 커널 최적화는 AI 보조 개발 도구를 사용하여 생성되었습니다.

Strix Halo나 7900 XTX와 같은 AMD 소비자용 하드웨어를 사용하는 개발자가 무거운 PyTorch 의존성 없이 대규모 컨텍스트 모델을 로컬에서 실행할 수 있게 합니다.

SOURCES

[1]

5. Uncensored Genesis Qwen 3.6 35B 로컬 양자화 형식 출시

새로 출시된 Qwen 3.6 35B의 검열되지 않은 변형은 로컬 배포를 위한 높은 컨텍스트 안정성을 제공합니다. 테스트 결과, 최적의 설정에서 이 모델은 200k 토큰의 방대한 세션 전반에 걸쳐 안정적인 동작을 유지하는 것으로 나타났습니다. 성능 저하를 방지하기 위해 개발자는 특정 Alibaba Cloud 시스템 프롬프트로 모델을 초기화하고 권장 샘플러 매개변수를 준수해야 합니다.

• GGUF, FP8 Safetensors 및 FP8 MTP-Safetensors 형식으로 제공됩니다.
• Strix Halo 하드웨어에서 Q8_K_P MTP 양자화를 사용하여 200k 컨텍스트까지 루프나 결함 없이 성공적으로 테스트되었습니다.
• 벤치마크 실행 시 120k 토큰 이후에도 작업 전환 안정성을 유지합니다.
• APEX, APEX Compact 양자화, MTP 및 MLX 변환을 지원합니다.
• 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.'로 시작하는 특정 시스템 프롬프트가 최적으로 작동하는 데 필요합니다.
• 권장 설정은 온도 0.7, Top K 20, Presence Penalty 1.5, Repeat Penalty 1.0입니다.

올바르게 구성되었을 때 반복 루프 없이 장기 컨텍스트 작업을 수행할 수 있는 매우 안정적인 검열되지 않은 모델을 개발자에게 제공합니다.

SOURCES

[1]

6. IBM, 강력한 문서 파싱을 위한 granite-docling-2stage-258m 출시

IBM은 오픈 OCR 및 문서 파싱 라인업을 granite-docling-2stage-258m으로 업데이트했습니다. 이 모델은 프롬프트 내에서 페이지 구조를 동적으로 사전 계산하여 레이아웃 감지 기능을 향상시켰으며, 이를 통해 비정형 PDF 레이아웃과 복잡한 문서 기하학적 구조를 파싱할 때 더 뛰어난 복원력을 제공합니다.

• 기존 Granite Docling 파싱 아키텍처에 대한 진화적 업데이트입니다.
• 주어진 페이지에서 레이아웃 객체를 사전 계산하는 동적 프롬프트를 도입했습니다.
• 분포 외 문서 레이아웃을 강력하게 처리하도록 특별히 설계되었습니다.

분포 외(out-of-distribution) 레이아웃을 다룰 때 OCR 및 문서 구조 이해 능력을 향상시킵니다.

SOURCES

[1]

1. Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

2. Microsoft, 터미널 네이티브 웹 에이전트 프레임워크 'Webwright' 출시

3. StepFun, StepAudio 2.5 실시간 엔드투엔드 음성 모델 출시

4. hipEngine, AMD RDNA3에서 빠른 ROCm 네이티브 추론 제공

5. Uncensored Genesis Qwen 3.6 35B 로컬 양자화 형식 출시

6. IBM, 강력한 문서 파싱을 위한 granite-docling-2stage-258m 출시

데일리 AI 시그널을 인박스로