[딥러닝] Object Detection _ 20241107
** 들어가기 전Computer Vision Task와 Datasets는 아래와 같다.▶ 컴퓨터 비전에서 자주 쓰이는 데이터 셋 (이미지와 정답(레이블)을 모아둔 자료) MINISTCIFAR-10CIFAR-100ImageNetCOCO주요목적손글씨 숫자 인식기본적인 이미지 분류복잡한 이미지 분류다양한 물체 분류 및 인식객체 탐지 및 세그멘테이션카테고리수10(0~9)101001,000+80이미지수70,000(train:60,000test:10,000)60,000(train:50,000test:10,000)60,000(train:50,000test:10,000)약 1,400만 장약 33만 장이미지크기28x28, 흑백32x32, 컬러32x32, 컬러다양한 크기, 컬러다양한 크기, 컬러데이터구성단순 이미지(손글씨..
2024. 11. 7.
[딥러닝] 언어모델 이해 (3) Tokenizing & Embedding _ 20241105
1. 언어 모델링 절차1) 앞서 pipeline 함수를 실행시키다 보면=> 이렇게 tokenizer, vocab과 같은 단어들이 설치 되는 것을 확인할 수 있다. 2) tokenizer는 기본적으로 아래와 같은 형태이다.쪼개고 (보통 형태소 기반) => 숫자로 변형 (vocab_자연어와 컴퓨터언어 사전이라고 생각하면 됨) 2. Tokenize(토큰화)- 문장을 분석하기 위한, 최소 단위의 데이터로 사람이 결정해 주어야 하는 부분이다.- 어떤 단위로 할 것인가?문자 단위(문자 토큰화)['나', '는', ' ', '학', '교', '에', ' ', '갔', '다', '.']단어 단위(단어 토큰화)['나는', '학교에', '갔다.']형태소 단위(형태소 토큰화)['나', '는', '학교', '에', '가', '..
2024. 11. 5.