# Attention Is All You Need ## 핵심 주장 1. RNN·CNN 없이 어텐션 메커니즘만으로 시퀀스 변환 모델(Transformer)을 구성할 수 있다. 2. 트랜스포머는 기존 모델 대비 병렬화가 뛰어나고 학습 시간이 대폭 단축된다. 3. WMT 2014 EN→DE 28.4 BLEU로 당시 SOTA를 2점 이상 초과했다. 4. 8 GPU × 3.5일 학습으로 EN→FR 단일 모델 SOTA(41.8 BLEU)를 달성했다. 5. 이 아키텍처는 이후 BERT, GPT 계열 등 현대 LLM 전체의 직접적 토대가 된다. ## 주요 내용 ### 아키텍처 - **Encoder-Decoder 구조**: 인코더가 입력 시퀀스를 표현으로 변환, 디코더가 출력 생성 - **Self-Attention**: 시퀀스 내 모든 위치 간 관계를 동시에 계산 - **Multi-Head Attention**: 여러 어텐션 헤드를 병렬로 운용하여 다양한 표현 공간에서 정보 포착 - **Positional Encoding**: 순서 정보를 위치 인코딩으로 대체 (RNN의 순차 처리 불필요) ### 실험 결과 | 태스크 | BLEU | 조건 | |--------|------|------| | EN→DE | 28.4 | SOTA +2.0 | | EN→FR | 41.8 | 단일 모델 SOTA, 8 GPU 3.5일 | ## 기존 지식과의 연결 - [[ai/algorithms/transformer/concepts/transformer|Transformer]] 개념의 원본 소스 - [[ai/llm/concepts/llm|LLM (Large Language Model)]] — 이 논문의 아키텍처가 모든 현대 LLM의 기반 - Wikipedia LLM 문서([[ai/sources/wikipedia-large-language-model|Wikipedia — Large Language Model]])에서 2017년 핵심 마일스톤으로 인용 ## 인용할 만한 구절 > "We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely."