목록AI & ML/개념잡기 (6)
Ssul's Blog
Langchain.... 좋기는 한데, 많이 복잡한 감이 없지 하나 있다. 그래서, 우선 PromptTemplate부터 차근차근 정리해보고자 한다. 1. PromptTemplate- 기본단위- PromptTemplate.from_template(~~~)변수를 지정하여 넣을수 있음- .format을 하면 string값이 나옴prompt_template = PromptTemplate.from_template( "Tell me a {adjective} joke about {content}.")prompt_template.format(adjective="funny", content="chickens")결과값: 'Tell me a funny joke about chickens.'prompt_template ..
1. 모델 사이즈 개념 요즘 AI모델이 나오면, 파라미터가 몇억개, 몇백억개, 몇조개라고 모델의 사이즈를 항상 언급된다. 여기서 그러면 파라미터는 무엇일까? 아래 그림을 기준으로 하면, 까만 점은 노드라고 보면 된다. 그리고 선이 파라미터라고 보면된다. 그렇다면 위 신경망의 사이즈는? 9개(3+3+3)+6개(2+2+2) =15개 파라미터가 15개인 신경망인 것이다. 그럼 gpt3은 175B라고 하니, 1750억개의 선이 있는 신경망으로 이해하면 되겠다. 2. AI모델과 필요한 그래픽카드 우선 컴퓨터 용량관련 산수! 1byte=8bit, 1KB=1024byte=1024*1byte 1MB=1024KB=1024*1024*1byte 1GB=1024MB=1024*1024*1024*1byte = 1,073,741,..
0. GAN 아이디어 - 이미지 생성자모델과 이미지 판별자 모델 두개를 만들어서, 서로 경쟁하듯 학습 - 생성자(Generator): 임의의 노이즈를 입력 받아 그럴듯한 이미지를 생성하는 기능 학습 - 판별자(Discriminator): 입력된 이미지가 실제 이미지인지, 생성자가 생성한 이미지인지 구분하는 기능 학습 - 생성자는 더 실제같은 이미지를 만드는 신경망을 학습하고, - 판별자는 입력된 이미지가 진짜 이미지인지, 생성된 이미지인지 판별하는 신경망을 학습한다. - 이렇게 둘이서 경쟁하듯 학습하면(생성기는 판별기를 속이려하고, 판별기는 생성기를 구분하려 함) 생성자는 정말 실사 같은 이미지를 만들어내게 될수 있다 - 물론 현실에서 판별자가 일찍 학습이 되어, 생성자가 그럴듯한 이미지 자체를 못만들어..
0. 신경망이 학습을 한다는 것 - 구두, 후드, 청바지, 면바지, 원피스, 운동화 등 총 10가지로 분류할수 있는 이미지가 10,000장 있다고 가정 - classification학습: CNN신경망 + 최종 노드가 10인 DNN + softmax로 학습 -> 이미지 입력되면 10가지중 1개로 알려줌 - (2차원으로)임베딩 학습: CNN신경망 + 최종노드가 2인 DNN 학습 -> 2차원 공간에 비슷한것끼리 뭉치는 개념 1. AE(오토인코더) 아이디어 - 그림을 생성하는 모델을 어떻게 만들수 있을까? - 이미지를 신경망에 입력하고, output역시 입력된 이미지가 나오는 신경망을 학습 가능하지 않은가? - 이미지를 입력받아 CNN을 통과하고, 최종적으로 2차원으로 줄이는 DNN을 붙여서 왼쪽 신경망(인코더..
0. 들어가며... GPT와 ChatGPT는 다른 아이. - GPT는 우리가 상상할수 없을 정도의 많은 텍스트 데이터를 가지고 학습한 Pretrained-Model. 이 모델은 다음단어를 귀신같이 잘 예측함. I am a ____를 입력하면, boy:45%, girl:44%, .......처럼 모든 단어들의 등장확률을 예측. 그중 높은 %를 가지는 단어를 출력하는 모델 - ChatGPT는 GPT라는 Pretrained모델을 RLHF, PPO 등을 통 파인튜닝해서 만든 챗봇형 모델 - 이번 글에서는 GPT 모델을 만드는 개념을 알아볼 예정 = 다음 단어를 예측하는 모델 1. 데이터 정리 모델이 학습을 하기위해서는 라벨링된 데이터가 많이 필요한데, 텍스트 데이터를 하나하나 다 라벨링하면 비용과 시간이 엄청..
0. 이미지생성 모델: GAN & Diffusion 딥러닝 공부를 하며, 생성형 모델을 배우게 된다. GAN은 자주 들어서 그런지 익숙하다. 생성자와 판별자 두개가 경쟁하며, 이미지를 생성하는 모델. 하지만, 요즘 대세(?)는 디퓨전 모델들인것 같다. 그럼 디퓨전모델들은 도대체 어떤 아이디어로 구성되는 것일까? 1. 디퓨전 모델의 기본개념 - 원래 이미지에 노이즈를 가해주면 어떻게 될까? - 원본 이미지에서, 랜덤한 노이즈를 가해주면 위 이미지처럼, 망가지게 됨 - 첫번째 이미지가 X0이면, 두번째 이미지는 X1 = 원본유지비율1*X0 + 잡음비율1*ε1(잡음), X2 = 원본유지비율2*X1 + 잡음비율2*ε2(잡음).... - diffusion의 핵심은 ε(잡음)을 예측하는 모델 θ를 학습 - 학습한 ..