# Attention Is All You Need
## 핵심 주장
1. RNN·CNN 없이 어텐션 메커니즘만으로 시퀀스 변환 모델(Transformer)을 구성할 수 있다.
2. 트랜스포머는 기존 모델 대비 병렬화가 뛰어나고 학습 시간이 대폭 단축된다.
3. WMT 2014 EN→DE 28.4 BLEU로 당시 SOTA를 2점 이상 초과했다.
4. 8 GPU × 3.5일 학습으로 EN→FR 단일 모델 SOTA(41.8 BLEU)를 달성했다.
5. 이 아키텍처는 이후 BERT, GPT 계열 등 현대 LLM 전체의 직접적 토대가 된다.
## 주요 내용
### 아키텍처
- **Encoder-Decoder 구조**: 인코더가 입력 시퀀스를 표현으로 변환, 디코더가 출력 생성
- **Self-Attention**: 시퀀스 내 모든 위치 간 관계를 동시에 계산
- **Multi-Head Attention**: 여러 어텐션 헤드를 병렬로 운용하여 다양한 표현 공간에서 정보 포착
- **Positional Encoding**: 순서 정보를 위치 인코딩으로 대체 (RNN의 순차 처리 불필요)
### 실험 결과
| 태스크 | BLEU | 조건 |
|--------|------|------|
| EN→DE | 28.4 | SOTA +2.0 |
| EN→FR | 41.8 | 단일 모델 SOTA, 8 GPU 3.5일 |
## 기존 지식과의 연결
- [[ai/algorithms/transformer/concepts/transformer|Transformer]] 개념의 원본 소스
- [[ai/llm/concepts/llm|LLM (Large Language Model)]] — 이 논문의 아키텍처가 모든 현대 LLM의 기반
- Wikipedia LLM 문서([[ai/sources/wikipedia-large-language-model|Wikipedia — Large Language Model]])에서 2017년 핵심 마일스톤으로 인용
## 인용할 만한 구절
> "We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely."