본문 바로가기
딥러닝

[딥러닝] 언어모델 이해 (3) Tokenizing & Embedding _ 20241105

by 황오독 2024. 11. 5.

1. 언어 모델링 절차

1) 앞서 pipeline 함수를 실행시키다 보면

=> 이렇게 tokenizer, vocab과 같은 단어들이 설치 되는 것을 확인할 수 있다.

 2) tokenizer는 기본적으로 아래와 같은 형태이다.

쪼개고 (보통 형태소 기반) => 숫자로 변형 (vocab_자연어와 컴퓨터언어 사전이라고 생각하면 됨)

 

2. Tokenize(토큰화)

- 문장을 분석하기 위한, 최소 단위의 데이터로 사람이 결정해 주어야 하는 부분이다.

- 어떤 단위로 할 것인가?

문자 단위(문자 토큰화) ['나', '는', ' ', '학', '교', '에', ' ', '갔', '다', '.']
단어 단위(단어 토큰화) ['나는', '학교에', '갔다.']
형태소 단위(형태소 토큰화) ['나', '는', '학교', '에', '가', '았다']

 

 

3. Embedding(임베딩)

- 사람이 쓰는 자연어(단어나 문장)를 machine이 이해할 수 있는 숫자의 나열(벡터)로 변환

- 단어 임베딩 : 단어를 고차원 벡터로 매핑하는 기술

- 문자, 문장 내에서 단어의 의미와 문맥을 담아 냄

 

4. 언어모델링 절차 그림