AI서비스를 위한 GPU이해하기

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Ssul's Blog

AI & ML/학습하기

Ssul 2025. 6. 17. 23:24

- core: core내부에 여러개 들어 있는 ALU(계산 전용도구)

- control(제어유닛): 계산을 언제할지 스케쥴, 배분 관리

- L1 cache: core연산에 사용하기 위한 가까운 메모리

- L2 cache: 약간 크지만 덜 가까운 메모리

- L3 cache: 약간 더 크지만 조금 더 먼 메모리

- DRAM: 외장 메모리, GPU DRAM은 비싼거 사용(코어가 많아서 빨라야함)

실제 서버/데스크탑에서는 CPU-GPU간 데이터 전송이 필수 > 두 장치간의 전송속도도 중요하게 생각해야 함

- GPU는 코어는 많고, 제어유닛/캐시유닛은 작음

- 일반적인 연산흐름: CPU에서 데이터 전송 > GPU DRAM > GPU 코어 연산 > GPU DRAM > CPU

HBM용량이 DRAM이라고 보면 되고,

대역폭이 DRAM - Core간 데이터 전송 속도.

fp16 = float16 > 표현가능 최대최소값: E5, 유효자릿수: M10

bf16 = brain float16 > 표현가능 최대최소값: E8, 유효자릿수: M7

#3. 데이터 형식 정리

허깅페이스(huggingface) 토크나이저 사용해서 모델 추론하는 3가지 방법 (2)	2025.06.12
Gemma3 finetuning(파인튜닝)하기 (0)	2025.03.25
Chat_template 구조 파인튜닝하기(feat. EXAONE-3.5-7B) (0)	2025.03.07
DeepSeek-R1 정리(공부하기) + Open r1 (0)	2025.02.04
패캠(패스트캠퍼스) "LLM 모델 파인튜닝을 위한 GPU 최적화" 후기 (2)	2024.12.02

'AI & ML/학습하기' Related Articles