# A Systematic Review of Key RAG Systems: Progress, Gaps, and Future Directions ## 핵심 주장 1. RAG는 LLM의 환각·지식 고착 문제를 비모수적 외부 메모리로 해결하는 모듈형 아키텍처다. 2. 수학적 정식화: P(y|x) = Σ P_ret(z|x)·P_gen(y|x,z) — 검색 문서 전체를 주변화(marginalize)해 생성. 3. 300M 파라미터 RAG 모델이 11B 파라미터 closed-book 모델을 초과 — 스케일 대비 효율 우위. 4. RETRO: 7.5B 모델이 검색으로 175B GPT-3 성능에 필적. 5. 미해결 과제: 검색 품질의 쿼리 민감성, 다단계 파이프라인 지연, 엔터프라이즈 프라이버시. ## 주요 내용 ### 아키텍처 4단계 1. **청킹(Chunking)**: 문서를 검색 가능한 단위로 분할 2. **임베딩(Embedding)**: 청크를 고밀도 벡터로 변환 3. **리랭킹(Reranking)**: 검색 정밀도 정제 4. **생성(Generation)**: 검색 컨텍스트로 조건화된 seq2seq 모델 출력 ### 퓨전 전략 - **확률적 주변화**: 리트리버 신뢰도로 문서 가중치 부여 - **얼리 퓨전**: 모든 패시지 연결 - **가중 집계**: 소스 간 동적 어텐션 학습 ### 연도별 마일스톤 | 연도 | 사건 | |------|------| | 2020 | RAG 공식화; REALM 검색 인식 사전학습 | | 2021 | FiD(Fusion-in-Decoder): 수십 개 패시지로 확장 | | 2022 | RETRO: 7.5B → 175B GPT-3 성능 | | 2023–24 | 프론티어 LLM 통합; 에이전틱 RAG 등장 | ### Dense vs Sparse - DPR(Dense Passage Retrieval): BM25 대비 top-20 재현율 9~19%p 향상 ### 지속적 과제 - 쿼리 표현 방식에 민감한 검색 품질 - 다단계 파이프라인(검색+리랭킹+생성)의 지연 - 기업 기밀 데이터 적용 시 프라이버시/보안 - 검색 증거가 있어도 무시할 경우 환각 지속 ## 기존 지식과의 연결 - [[ai/llm/concepts/rag/rag|RAG (Retrieval-Augmented Generation)]] 페이지의 기술적 깊이를 크게 보강 - [[ai/llm/concepts/scaling-law|스케일링 법칙 (Scaling Law)]]와 대비: RAG는 파라미터 스케일 없이 효율적 성능 달성 가능성 제시 - [[ai/sources/wikipedia-rag|Wikipedia — Retrieval-Augmented Generation]]의 개요를 수학적·실증적으로 심화 ## 인용할 만한 구절 > "Models with only 300M parameters surpass 11B-parameter closed-book baselines." > "RAG systems enable factually grounded generation with verifiable sources."