NCCL을 이용한 Efficient한 Tensorflow MultiGPU Training 코드 작성하기

tensorflow

(Curtis Kim) #21

돌려보진 않았습니다만, 하나의 gpu에 2개의 네트워크 타워가 올라갔을 것 같습니다만… 3개 이상 안올라가는 것은 하드웨어 제약 상 안되거나 했을 수도 있구요. ㅎ 의미는 없습니다.


#22

아하 그렇군요!!! 하나의 gpu 위에 2개의 network tower가 올라갈수 있는거엿군요 오늘도 배워갑니다! 감사합니당 좋은 주말 되세요. ㅎㅎ


(고대관) #23

올려주신 글 토대로 현재 제가 사용하는 4way gpu 시스템에 적용하여 구현해보았는데 이전 weight share보다 기적과 같이 2.5배 성능이 향상되었습니다.

특히 하드웨어적으로 PCI속도가 제안적이라서 gpu의 수가 많고 모델이 클수록 weight복사에서 시간이 많이 소모가 되어 weight share 방식으로는 gpu 4개를 넣어도 효율이 gpu 2개만도 안되고 엔비디아가 gpu팔려고 이러나 싶었는데 이제 멀티gpu혜택을 누리네요 글 감사합니다.