# LLM 관측성 (LLM Observability) ## 정의 LLM 관측성은 LLM 애플리케이션·에이전트의 내부 동작을 실행 단계별로 추적·측정·평가하여 품질과 신뢰성을 확보하는 일련의 실천이다. 전통적 소프트웨어 관측성(로깅·메트릭·트레이싱)을 LLM의 비결정적 특성에 맞게 확장한 개념이다. ## 핵심 구성 요소 - **트레이싱(Tracing)**: 에이전트의 모든 실행 단계(LLM 호출, 도구 호출, 중간 결과)를 시각화 - **평가(Evaluation)**: 출력 품질을 정량적으로 측정하고 이터레이션에 걸쳐 추적 - **프롬프트 버저닝**: 프롬프트 변경 이력 관리 및 A/B 비교 - **피드백 수집**: 인간 평가자 또는 자동화 메커니즘으로 출력 품질 피드백 반영 - **Datasets & Experiments**: 평가를 위한 데이터셋 구성 및 실험 관리 ## 왜 중요한가 LLM은 동일 입력에도 비결정적 출력을 낼 수 있고, 에이전트는 다단계 실행으로 오류 전파 지점이 많다. 관측성 없이는 프로덕션 장애의 원인을 파악하기 어렵다. ## 최적화 문제 ### 품질-비용-지연시간의 균형 최적화 **식:** $\max_{\pi}\; \mathbb{E}\!\left[Q(\pi)\right]-\lambda C(\pi)-\mu L(\pi)$ **기호:** | 기호 | 의미 | |------|------| | $\pi$ | 운영 정책 또는 시스템 구성 | | $Q(\pi)$ | 품질 지표(정확도, 만족도 등) | | $C(\pi)$ | 비용(cost) | | $L(\pi)$ | 지연시간(latency) | | $\lambda$ | 비용 패널티 가중치 | | $\mu$ | 지연시간 패널티 가중치 | | $\mathbb{E}[\cdot]$ | 기대값 | **직관:** 관측 가능성은 단순 모니터링이 아니라, 품질을 유지하며 비용과 지연시간을 함께 줄이는 운영 최적화 문제다. **적용 예시:** 프롬프트 버전, 모델 라우팅, 캐시 정책을 $\pi$로 두고 A/B 테스트 결과를 비교할 수 있다. 품질은 높지만 지나치게 느리거나 비싼 설정을 배제하는 기준식으로 활용된다. ## 대표 도구 - **LangSmith** ([[_shared/entities/langchain|LangChain]]): 프레임워크 무관 범용 플랫폼 - 클라우드·셀프호스팅·하이브리드 배포 옵션 ## 등장 소스 - [[ai/sources/langsmith-docs|LangSmith 공식 문서]] ## 열린 질문 - LLM 출력의 품질을 자동으로 평가하는 신뢰할 만한 메트릭은 무엇인가? - 관측성 데이터 자체가 민감 정보를 포함할 때 프라이버시를 어떻게 보호하는가?