# LLM 관측성 (LLM Observability)
## 정의
LLM 관측성은 LLM 애플리케이션·에이전트의 내부 동작을 실행 단계별로 추적·측정·평가하여 품질과 신뢰성을 확보하는 일련의 실천이다. 전통적 소프트웨어 관측성(로깅·메트릭·트레이싱)을 LLM의 비결정적 특성에 맞게 확장한 개념이다.
## 핵심 구성 요소
- **트레이싱(Tracing)**: 에이전트의 모든 실행 단계(LLM 호출, 도구 호출, 중간 결과)를 시각화
- **평가(Evaluation)**: 출력 품질을 정량적으로 측정하고 이터레이션에 걸쳐 추적
- **프롬프트 버저닝**: 프롬프트 변경 이력 관리 및 A/B 비교
- **피드백 수집**: 인간 평가자 또는 자동화 메커니즘으로 출력 품질 피드백 반영
- **Datasets & Experiments**: 평가를 위한 데이터셋 구성 및 실험 관리
## 왜 중요한가
LLM은 동일 입력에도 비결정적 출력을 낼 수 있고, 에이전트는 다단계 실행으로 오류 전파 지점이 많다. 관측성 없이는 프로덕션 장애의 원인을 파악하기 어렵다.
## 최적화 문제
### 품질-비용-지연시간의 균형 최적화
**식:**
$\max_{\pi}\; \mathbb{E}\!\left[Q(\pi)\right]-\lambda C(\pi)-\mu L(\pi)$
**기호:**
| 기호 | 의미 |
|------|------|
| $\pi$ | 운영 정책 또는 시스템 구성 |
| $Q(\pi)$ | 품질 지표(정확도, 만족도 등) |
| $C(\pi)$ | 비용(cost) |
| $L(\pi)$ | 지연시간(latency) |
| $\lambda$ | 비용 패널티 가중치 |
| $\mu$ | 지연시간 패널티 가중치 |
| $\mathbb{E}[\cdot]$ | 기대값 |
**직관:**
관측 가능성은 단순 모니터링이 아니라, 품질을 유지하며 비용과 지연시간을 함께 줄이는 운영 최적화 문제다.
**적용 예시:**
프롬프트 버전, 모델 라우팅, 캐시 정책을 $\pi$로 두고 A/B 테스트 결과를 비교할 수 있다.
품질은 높지만 지나치게 느리거나 비싼 설정을 배제하는 기준식으로 활용된다.
## 대표 도구
- **LangSmith** ([[_shared/entities/langchain|LangChain]]): 프레임워크 무관 범용 플랫폼
- 클라우드·셀프호스팅·하이브리드 배포 옵션
## 등장 소스
- [[ai/sources/langsmith-docs|LangSmith 공식 문서]]
## 열린 질문
- LLM 출력의 품질을 자동으로 평가하는 신뢰할 만한 메트릭은 무엇인가?
- 관측성 데이터 자체가 민감 정보를 포함할 때 프라이버시를 어떻게 보호하는가?