[PyTorch] PyTorch 활용

멀티 GPU

다중 GPU에 학습 분산을 하는 두 가지 방법
- 모델 나누기
- 데이터 나누기
모델 나누는 것은 예전부터 쓰였음(AlexNet)
모델의 병목, 파이프라인의 어려움 등으로 인해 모델 병렬화는 고난도 과제
\(\rightarrow\) Q. 컴퓨터 아키텍처, 운영체제 등을 잘 알아야 하는 이유가 되는 부분?

파이토치_PyTorch 기준으로 두 가지 방식
- DataParallel
- DistributedDataParallel
DataParallel - 데이터 분배 후 단순 평균
- GPU 사용 불균형 문제 발생
- Batch 크기 감소(1 GPU 병목 시)
- GIL
DistributedDataParallel - 각 CPU마다 프로세스 생성 후 개별 GPU에 할당
\(\rightarrow\) 기본적으로 데이터 병렬로 하나, 개별적으로 연산 평균 취함

모델_Model
데이터_Data
하이퍼파라미터 튜닝_{Hypterparameter tuning} 등이 존재하는데, 이 중에 데이터가 가장 중요! 하이퍼파라미터 튜닝으로 얻게 될 이점은 그렇게 크지 않음.