본문 바로가기

KT 에이블스쿨 (6기)104

[딥러닝] Object Detection _ 20241107 ** 들어가기 전Computer Vision Task와 Datasets는 아래와 같다.▶ 컴퓨터 비전에서 자주 쓰이는 데이터 셋 (이미지와 정답(레이블)을 모아둔 자료) MINISTCIFAR-10CIFAR-100ImageNetCOCO주요목적손글씨 숫자 인식기본적인 이미지 분류복잡한 이미지 분류다양한 물체 분류 및 인식객체 탐지 및 세그멘테이션카테고리수10(0~9)101001,000+80이미지수70,000(train:60,000test:10,000)60,000(train:50,000test:10,000)60,000(train:50,000test:10,000)약 1,400만 장약 33만 장이미지크기28x28, 흑백32x32, 컬러32x32, 컬러다양한 크기, 컬러다양한 크기, 컬러데이터구성단순 이미지(손글씨.. 2024. 11. 7.
[딥러닝] 언어 모델 활용 (2) RAG _ 20241106 1. RAG : Retrieval Augmented Generation- 생성모델 + 검색 시스템 => 검색 기반 생성 모델-나의 데이터를 가지고 직접 학습시킨다.Modeling사전 학습된 LLM나의 데이터를 가지고 추가 학습시킨다.Fine-tuning나의 데이터를 가지고 답변 시킨다.RAG- LLM with RAG① 사용자 질문을 받음② 지식DB에서 답변에 필요한 문서 검색③ 필요한 문서를 포함한 프롬프트 생성④ LLM이 답변 생성하기 1) Vector DB : 대규모 텍스트 데이터 및 임베딩 벡터를 저장, 검색용① 사용자 질문을 받음② 지식DB에서 답변에 필요한 문서 검색임베딩 : 벡터로 변환(질문 벡터)토크나이저 + 임베딩 전처리를 통해[질문 벡터]와 DB 내 저장된 [문서 벡터]와 유사도 계산가장.. 2024. 11. 6.
[딥러닝] 언어 모델 활용 (1) LangChain _ 20241106 ** 들어가기 전더보기LangChain은 대규모언어모델(LLMs)을 사용하여 여러 가지 일을 자동으로 할 수 있게 도와주는 도구언어모델(ex.ChatGPT)을 통해 연결해서 한 번에 할 수 있도록 체인을 만듬. 무엇을 할 수 있나?- 여러 단계를 거쳐서 문서 요약하기 작업 (문서 분석 모델, 주요 내용 추출 모델, 요약 모델로 순차적 처리)- 번역 후 질문에 답하기 (번역 모델, 번역된 텍스트에 대해 질문/답 하는 모델)- 검색 후 관련 정보 찾아주기 (검색 모델, 내용 분석 모델, 답변 모델)- FAQ 자동 응답, 상품 추천 등1. 개발환경 준비 1) 라이브러리 설치① 구글 드라이브에 새 폴더 생성: langchain② Colab에서 구글 드라이브 연결③ requirements.txt 파일 경로 확인 .. 2024. 11. 6.
[딥러닝] 언어모델 이해 (3) Tokenizing & Embedding _ 20241105 1. 언어 모델링 절차1) 앞서 pipeline 함수를 실행시키다 보면=> 이렇게 tokenizer, vocab과 같은 단어들이 설치 되는 것을 확인할 수 있다. 2) tokenizer는 기본적으로 아래와 같은 형태이다.쪼개고 (보통 형태소 기반) => 숫자로 변형 (vocab_자연어와 컴퓨터언어 사전이라고 생각하면 됨) 2. Tokenize(토큰화)- 문장을 분석하기 위한, 최소 단위의 데이터로 사람이 결정해 주어야 하는 부분이다.- 어떤 단위로 할 것인가?문자 단위(문자 토큰화)['나', '는', ' ', '학', '교', '에', ' ', '갔', '다', '.']단어 단위(단어 토큰화)['나는', '학교에', '갔다.']형태소 단위(형태소 토큰화)['나', '는', '학교', '에', '가', '.. 2024. 11. 5.