Audesso | Daily: AI

Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

00:00 / --:--

← 메인으로

Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

1. Langfuse를 사용하여 완벽한 LLM 관측성 파이프라인 구축

Langfuse는 추적, 프롬프트 관리 및 자동화된 평가를 처리하도록 설계된 오픈 소스 LLM 엔지니어링 플랫폼입니다. 이 포괄적인 파이프라인은 사용자 지정 항목 수준 및 집계 평가자를 사용한 데이터셋 기반 실험을 지원하여 개발자가 확신을 가지고 애플리케이션을 반복 개선할 수 있도록 돕습니다. LangChain 콜백 핸들러나 기본 데코레이터 기반 추적을 사용하여 개발자는 프로덕션 환경에서 세션 메타데이터와 점수 지표를 원활하게 추적할 수 있습니다.

  • 데코레이터 기반 추적 및 RAG 파이프라인을 위한 수동 계측을 모두 지원합니다.
  • 프롬프트와 수치형, 범주형, 불리언 평가 점수를 중앙에서 관리할 수 있습니다.
  • LangChain과 쉽게 통합할 수 있는 전용 콜백 핸들러가 포함되어 있습니다.
  • 사용자 ID, 세션 ID, 태그와 같은 메타데이터를 LLM 추적 전반에 걸쳐 전파할 수 있습니다.
  • 실제 OpenAI API 키와 결정론적 모의 LLM 모두와 호환됩니다.

개발자가 강력한 텔레메트리를 쉽게 구현하고, 데이터셋 기반 실험을 실행하며, 라이브 API나 모의 LLM을 사용하여 프롬프트를 중앙에서 관리할 수 있게 합니다.

SOURCES

2. Microsoft, 터미널 네이티브 웹 에이전트 프레임워크 'Webwright' 출시

Microsoft Research는 웹 에이전트를 위한 매우 효율적인 터미널 네이티브 프레임워크인 Webwright를 오픈 소스로 공개했습니다. Webwright로 구축된 에이전트는 단계별 UI 작업을 예측하는 대신 터미널 환경에서 Playwright 코드와 bash 명령을 작성하고 실행합니다. 이 프레임워크는 긴 시퀀스를 처리하기 위한 동적 기록 압축 기능을 갖추고 있으며, 종료 전 작업 완료를 보장하기 위해 필수적인 검증 주기를 강제합니다.

  • GPT-5.4를 사용하여 Online-Mind2Web에서 86.7%, Odysseys에서 60.1%의 성능을 달성했습니다.
  • Runner, Model Endpoint, 터미널 환경이라는 1,000줄 미만의 세 가지 핵심 구성 요소로 이루어져 있습니다.
  • 컨텍스트 길이 제한을 완화하기 위해 20단계마다 프롬프트 기록을 압축합니다.
  • 자기 성찰 및 검증 프로세스를 요구하여 조기 종료를 방지합니다.
  • 사전 구축된 스크립트를 사용할 경우 Qwen3.5-9B와 같은 소형 모델도 66.2%의 정확도를 달성할 수 있습니다.
  • 스크립트는 재사용이 가능하며 Claude Code, Codex, OpenClaw와 같은 도구와 호환됩니다.

기본적인 단계 예측을 전체 Playwright 코드 실행 및 자동화된 기록 압축으로 대체하여 웹 에이전트의 신뢰성을 높이고 컨텍스트 제한 문제를 방지합니다.

SOURCES

3. StepFun, StepAudio 2.5 실시간 엔드투엔드 음성 모델 출시

상하이에 본사를 둔 StepFun은 원시 오디오를 직접 처리하여 별도의 STT 및 TTS 단계를 거치지 않는 음성 모델인 StepAudio 2.5 Realtime을 출시했습니다. 10,000개 이상의 시드 페르소나에 대한 알고리즘 증강을 통해 훈련된 이 모델은 강력한 페르소나 일관성을 보여주며, 음향적 뉘앙스를 분석하여 사용자의 기분과 의도를 파악할 수 있습니다. 개발자는 표준 WebSocket 스트림을 사용하여 이 저지연 음성 기능을 자신의 앱에 쉽게 연결할 수 있습니다.

  • wss://api.stepfun.com/v1/realtime 및 모델 식별자 step-2.5-realtime을 통해 WebSocket으로 액세스할 수 있습니다.
  • 직접적인 오디오 입력을 직접적인 오디오 출력으로 처리하는 통합 시스템으로 작동합니다.
  • 영어와 중국어를 모두 지원합니다.
  • 대화 전반에 걸쳐 페르소나 일관성을 유지하기 위해 역할극 특화 RLHF를 사용하여 훈련되었습니다.
  • 어조, 속도, 웃음소리를 해석하는 언어 외적 인식 능력을 갖추고 있습니다.
  • 2026년 4월 벤치마크에서 80.41점의 주관적 인간 평가 점수를 달성했습니다.

음성 기반 AI 애플리케이션을 위해 고급 언어 외적 인식 기능을 갖춘 저지연 네이티브 오디오-투-오디오 스트리밍 인터페이스를 구현할 수 있습니다.

SOURCES

4. hipEngine, AMD RDNA3에서 빠른 ROCm 네이티브 추론 제공

hipEngine은 AMD의 RDNA3 하드웨어를 위해 특별히 설계된 새로운 오픈 소스 ROCm 네이티브 로컬 추론 엔진입니다. 무거운 PyTorch 의존성을 배제하고 hipGraph 및 AOTriton과 같은 네이티브 라이브러리를 활용함으로써 hipEngine은 고효율 실행을 달성합니다. 네이티브 INT8 KVCache 최적화는 초장기 컨텍스트 기능을 잠금 해제하여 로컬 개발 파이프라인에서 llama.cpp의 실행 가능한 대안이 됩니다.

  • AMD 라이브러리인 hipBLASLt, hipGraph, AOTriton을 사용하여 Python 및 HIP/C++로 네이티브하게 구축되었습니다.
  • Q4_K_M 및 Q4_K_S 변형을 포함한 ParoQuant 및 GGUF 모델 형식을 지원합니다.
  • 거의 손실 없는 INT8 KVCache를 포함하여 Qwen 3.6이 24GB 미만의 메모리에서 256K 컨텍스트로 실행되도록 합니다.
  • gfx1100 하드웨어 벤치마크에서 llama.cpp와 경쟁력 있는 성능을 보여줍니다.
  • KERNELS.md, ROOFLINE.md, LESSONS-LEARNED.md 문서가 포함되어 있습니다.
  • 커널 최적화는 AI 보조 개발 도구를 사용하여 생성되었습니다.

Strix Halo나 7900 XTX와 같은 AMD 소비자용 하드웨어를 사용하는 개발자가 무거운 PyTorch 의존성 없이 대규모 컨텍스트 모델을 로컬에서 실행할 수 있게 합니다.

SOURCES

5. Uncensored Genesis Qwen 3.6 35B 로컬 양자화 형식 출시

새로 출시된 Qwen 3.6 35B의 검열되지 않은 변형은 로컬 배포를 위한 높은 컨텍스트 안정성을 제공합니다. 테스트 결과, 최적의 설정에서 이 모델은 200k 토큰의 방대한 세션 전반에 걸쳐 안정적인 동작을 유지하는 것으로 나타났습니다. 성능 저하를 방지하기 위해 개발자는 특정 Alibaba Cloud 시스템 프롬프트로 모델을 초기화하고 권장 샘플러 매개변수를 준수해야 합니다.

  • GGUF, FP8 Safetensors 및 FP8 MTP-Safetensors 형식으로 제공됩니다.
  • Strix Halo 하드웨어에서 Q8_K_P MTP 양자화를 사용하여 200k 컨텍스트까지 루프나 결함 없이 성공적으로 테스트되었습니다.
  • 벤치마크 실행 시 120k 토큰 이후에도 작업 전환 안정성을 유지합니다.
  • APEX, APEX Compact 양자화, MTP 및 MLX 변환을 지원합니다.
  • 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.'로 시작하는 특정 시스템 프롬프트가 최적으로 작동하는 데 필요합니다.
  • 권장 설정은 온도 0.7, Top K 20, Presence Penalty 1.5, Repeat Penalty 1.0입니다.

올바르게 구성되었을 때 반복 루프 없이 장기 컨텍스트 작업을 수행할 수 있는 매우 안정적인 검열되지 않은 모델을 개발자에게 제공합니다.

SOURCES

6. IBM, 강력한 문서 파싱을 위한 granite-docling-2stage-258m 출시

IBM은 오픈 OCR 및 문서 파싱 라인업을 granite-docling-2stage-258m으로 업데이트했습니다. 이 모델은 프롬프트 내에서 페이지 구조를 동적으로 사전 계산하여 레이아웃 감지 기능을 향상시켰으며, 이를 통해 비정형 PDF 레이아웃과 복잡한 문서 기하학적 구조를 파싱할 때 더 뛰어난 복원력을 제공합니다.

  • 기존 Granite Docling 파싱 아키텍처에 대한 진화적 업데이트입니다.
  • 주어진 페이지에서 레이아웃 객체를 사전 계산하는 동적 프롬프트를 도입했습니다.
  • 분포 외 문서 레이아웃을 강력하게 처리하도록 특별히 설계되었습니다.

분포 외(out-of-distribution) 레이아웃을 다룰 때 OCR 및 문서 구조 이해 능력을 향상시킵니다.

SOURCES

데일리 AI 시그널을 인박스로

하루 5분. 무료, 언제든 해지할 수 있습니다.