문서(2106.09685v2.pdf)의 핵심 내용을 4문장으로 요약해 드립니다.
- **LoRA(Low-Rank Adaptation)**는 거대 언어 모델(LLM)의 모든 파라미터를 업데이트하는 대신, 사전 학습된 가중치를 동결하고 각 층에 학습 가능한 저차원 분해 행렬을 주입하여 미세 조정하는 효율적인 기법입니다.
- 이 방식은 GPT-3 175B 모델 기준으로 학습 파라미터 수를 10,000배, GPU 메모리 요구량을 3배까지 획기적으로 줄여 하드웨어 진입 장벽과 저장 비용을 낮춥니다.
- LoRA는 학습된 행렬을 기존 가중치와 병합할 수 있는 구조적 특성 덕분에, 기존 어댑터 방식과 달리 추론 시 추가적인 지연 시간(Latency)이 전혀 발생하지 않습니다.
- RoBERTa, DeBERTa, GPT-2, GPT-3 등 다양한 모델 실험 결과, 훨씬 적은 파라미터만으로도 전체 미세 조정(Full Fine-tuning)과 동등하거나 그 이상의 뛰어난 성능을 입증했습니다.