The Brains Behind LLMs: An Introductory Guide to Transformers and Attention Mechanisms
www.linkedin.com
LLM은 매우 복잡하며 메시지가 표시되면 백그라운드에서 여러 프로세스가 진행됩니다.
그 중 가장 중요한 가치를 지닌 것은 트랜스포머 모델입니다. 트랜스포머 모델은 지구가 둥글고, 빛은 파동이자 입자이며, 아인슈타인의 E=mc2 방정식을 아는 것과 다름없는 발견이었습니다.
트랜스포머 모델 이전
순환신경망(RNN(Recurrent Neural Networks))이 언어 생성에 주로 사용되었습니다. 그러나 RNN에는 두 가지 주요 제한 사항이 있었습니다.
긴 시퀀스 처리: RNN은 시퀀스에서 오래 전에 발생한 사건을 학습하는 데 어려움을 겪습니다. 즉, 긴 범위의 텍스트 의존성을 가지고 있습니다. 이 제한은 RNN이 긴 시퀀스에서 문맥을 이해해야 하는 작업에는 그리 적합하지 않다는 것을 의미합니다.
병렬화 문제: RNN의 순차적 처리는 모델을 병렬로 훈련할 수 있는 능력을 제한하여, 특히 더 큰 모델과 데이터셋의 경우 훈련 시간이 느려졌습니다.
트랜스포머 모델의 등장
자연어 처리를 영원히 바꿔놓은 트랜스포머 이론이 등장했습니다.
트랜스포머 모델의 강점은 단어와 인접한 단어의 연결을 주로 평가하는 순환신경망(RNN)과 달리 문장에 있는 모든 단어의 의미와 맥락을 이해하는 능력에 있습니다
단계 1: 토큰화(Tokenization): 모델에 제공된 입력 텍스트는 더 작은 조각 또는 토큰으로 나뉩니다. 각 토큰은 모델이 이해할 수 있는 숫자 표현으로 변환됩니다.
단계 2: 임베딩(Embedding): 기계 학습 모델은 큰 통계 계산기입니다. 그들은 숫자로 작동하며 단어가 아닙니다. 임베딩은 각 토큰이 고차원 공간의 벡터로 변환되는 과정입니다. 이 임베딩은 각 단어의 의미와 문맥을 포착합니다. 유사한 의미를 가지거나 유사한 문맥에서 자주 나타나는 단어는 이 고차원 공간에서 서로 가까운 벡터로 표현됩니다.
단계 3: 위치 인코딩(Positional Encoding): 트랜스포머가 RNN처럼 텍스트를 순차적으로 처리하지 않기 때문에, 단어의 순서를 이해할 방법이 필요합니다. 위치 인코딩은 각 단어의 임베딩에 추가되어 모델에 문장에서 각 단어의 위치에 대한 정보를 제공합니다.
단계 4: 셀프 어텐션(Self-Attention): 이것은 트랜스포머의 핵심 기능입니다. 모델은 각 단어에 대한 주의(attention) 점수를 계산하여, 특정 단어를 이해하려고 할 때 문장의 다른 단어에 얼마나 많은 주의를 기울여야 하는지 결정합니다. 이것은 모델이 텍스트 내의 관계와 문맥을 포착하는 데 도움이 됩니다.
단계 5: 다중 방향 어텐션(Multi-Headed Attention): 트랜스포머의 다중 방향 어텐션은 모델이 동시에 여러 관점에서 문장을 해석할 수 있게 합니다.
단계 6: 출력(Output): 트랜스포머의 최종 레이어는 처리된 데이터를 텍스트 분류 또는 새로운 텍스트 생성과 같은 작업에 적합한 출력 형식으로 변환합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 1월 27일 오전 1:37