# A Systematic Review of Key RAG Systems: Progress, Gaps, and Future Directions
## 핵심 주장
1. RAG는 LLM의 환각·지식 고착 문제를 비모수적 외부 메모리로 해결하는 모듈형 아키텍처다.
2. 수학적 정식화: P(y|x) = Σ P_ret(z|x)·P_gen(y|x,z) — 검색 문서 전체를 주변화(marginalize)해 생성.
3. 300M 파라미터 RAG 모델이 11B 파라미터 closed-book 모델을 초과 — 스케일 대비 효율 우위.
4. RETRO: 7.5B 모델이 검색으로 175B GPT-3 성능에 필적.
5. 미해결 과제: 검색 품질의 쿼리 민감성, 다단계 파이프라인 지연, 엔터프라이즈 프라이버시.
## 주요 내용
### 아키텍처 4단계
1. **청킹(Chunking)**: 문서를 검색 가능한 단위로 분할
2. **임베딩(Embedding)**: 청크를 고밀도 벡터로 변환
3. **리랭킹(Reranking)**: 검색 정밀도 정제
4. **생성(Generation)**: 검색 컨텍스트로 조건화된 seq2seq 모델 출력
### 퓨전 전략
- **확률적 주변화**: 리트리버 신뢰도로 문서 가중치 부여
- **얼리 퓨전**: 모든 패시지 연결
- **가중 집계**: 소스 간 동적 어텐션 학습
### 연도별 마일스톤
| 연도 | 사건 |
|------|------|
| 2020 | RAG 공식화; REALM 검색 인식 사전학습 |
| 2021 | FiD(Fusion-in-Decoder): 수십 개 패시지로 확장 |
| 2022 | RETRO: 7.5B → 175B GPT-3 성능 |
| 2023–24 | 프론티어 LLM 통합; 에이전틱 RAG 등장 |
### Dense vs Sparse
- DPR(Dense Passage Retrieval): BM25 대비 top-20 재현율 9~19%p 향상
### 지속적 과제
- 쿼리 표현 방식에 민감한 검색 품질
- 다단계 파이프라인(검색+리랭킹+생성)의 지연
- 기업 기밀 데이터 적용 시 프라이버시/보안
- 검색 증거가 있어도 무시할 경우 환각 지속
## 기존 지식과의 연결
- [[ai/llm/concepts/rag/rag|RAG (Retrieval-Augmented Generation)]] 페이지의 기술적 깊이를 크게 보강
- [[ai/llm/concepts/scaling-law|스케일링 법칙 (Scaling Law)]]와 대비: RAG는 파라미터 스케일 없이 효율적 성능 달성 가능성 제시
- [[ai/sources/wikipedia-rag|Wikipedia — Retrieval-Augmented Generation]]의 개요를 수학적·실증적으로 심화
## 인용할 만한 구절
> "Models with only 300M parameters surpass 11B-parameter closed-book baselines."
> "RAG systems enable factually grounded generation with verifiable sources."