1. 언어 모델링 절차
1) 앞서 pipeline 함수를 실행시키다 보면
=> 이렇게 tokenizer, vocab과 같은 단어들이 설치 되는 것을 확인할 수 있다.
2) tokenizer는 기본적으로 아래와 같은 형태이다.
쪼개고 (보통 형태소 기반) => 숫자로 변형 (vocab_자연어와 컴퓨터언어 사전이라고 생각하면 됨) |
2. Tokenize(토큰화)
- 문장을 분석하기 위한, 최소 단위의 데이터로 사람이 결정해 주어야 하는 부분이다.
- 어떤 단위로 할 것인가?
문자 단위(문자 토큰화) | ['나', '는', ' ', '학', '교', '에', ' ', '갔', '다', '.'] |
단어 단위(단어 토큰화) | ['나는', '학교에', '갔다.'] |
형태소 단위(형태소 토큰화) | ['나', '는', '학교', '에', '가', '았다'] |
3. Embedding(임베딩)
- 사람이 쓰는 자연어(단어나 문장)를 machine이 이해할 수 있는 숫자의 나열(벡터)로 변환
- 단어 임베딩 : 단어를 고차원 벡터로 매핑하는 기술
- 문자, 문장 내에서 단어의 의미와 문맥을 담아 냄
4. 언어모델링 절차 그림
'딥러닝' 카테고리의 다른 글
[딥러닝] 언어 모델 활용 (2) RAG _ 20241106 (10) | 2024.11.06 |
---|---|
[딥러닝] 언어 모델 활용 (1) LangChain _ 20241106 (1) | 2024.11.06 |
[딥러닝] 언어모델 이해 (2) Transformer _ 20241105 (17) | 2024.11.05 |
[딥러닝] 언어모델 이해 (1) ChatGPT API로 연결하기 _ 20241105 (8) | 2024.11.05 |
[딥러닝] CNN _ 20241104 (0) | 2024.11.04 |