딥시크-R1 모델 풀버전을 CPU로 돌릴 때 속도.ytb
페이지 정보
본문
딥시크-R1 671b 파라메터 풀버전의 용량은 대략 650GB일 것입니다.
이것을 돌리려면 모델 전체를 RAM에 로딩해야 합니다.
CPU든, GPU든, 모델 전체를 RAM에 올리지 못하면 실행을 시킬 수 없지요.
이것을 CPU로 돌리면 속도가 얼마나 나오는지 알고 싶었는데요.
외국의 테크 유투버가 이것을 실제로 해본 후에 영상으로 정리를 해주었습니다.
시스템 환경은 대략 다음과 같습니다.
SYSTEM : Dell R930 Server
CPU : Xeon E7-8890V4 (24코어 48스레드) x 4
RAM : DDR4 16GB x 96 = 1,536GB
네, R930 Server는 절대로 가정용/사무용 환경에서 쓸 수 있는 시스템이 아니며, 근접해서 작업을 할 경우 산업용 귀덮개가 필요합니다.
(그렇지 않으면 귀가 먹습니다;;; 영원히요;;;)
이러한 시스템에서 딥시크-R1 671b를 메모리에 로드하고 CPU로 작동시키면 대략 다음과 같은 토큰 생성 속도가 나옵니다.
- 간단한 짧은 인사(hello) : 1.3token / 초
- Flappy Bird code 생성하기 : 0.61token / 초 -> 대략 한 시간 소요
- 윤리적인 딜레마를 판정하기 : 0.35token / 초 -> 대략 한 시간 이상 소요
이것을 볼 때...
1) 1TB 이상의 무지막지한 용량의 RAM이 장착된 서버급 시스템이 있다면 딥시크-R1 685b 모델을 실행할 수는 있다.
2) 그러나 동작 속도가 무지막지하게 느리다. chain of thought를 출력하는 시간까지 감안한다면 한 번의 질문에 답변을 받을 때까지 한 시간에서 두 시간 가까이 걸릴 수 있다.
결국... 풀버전을 CPU로 돌리는 것은 가능은 하지만, 실용성은 거의 빵점이라는 것을 알 수 있습니다.
예상 가능한 결과이지만, 실제로 실험한 것을 보니... LLM은 절대로 CPU로 돌리지 말아야 되겠다... 라는 확신이 듭니다;;;
AppleAde님의 댓글의 댓글
AppleAde님의 댓글의 댓글
달짝지근님의 댓글의 댓글
어캐어캐 꼼수로 하시는 분들이 없으실까 해서 말입니다
GDDR이나 HBM에 비빌건 안되지만 어캐 돌아만 가게 만든다면 꽤나 가능성이 열릴텐데 ㅋ
AppleAde님의 댓글의 댓글
(재고가 남아날지 모르겠지만...) 기회가 되면 digits를 어찌저찌 구매하려고 준비중입니다.
칼쓰뎅님의 댓글의 댓글
gpu 처리 속도보다는 memory bandwidth에 많이 종속됩니다.
vram들이 워낙 빠르기때문에 (4090의 경우 1TB/sec. 일반 ddr5 사용하는 데탑은 80MB/sec)
차이가 많이 납니다.
조알님의 댓글
풀 파워로 돌릴 때 시끄럽긴 한데 청각에 이상 생길만큼은 아니에요..
게다가 랙서버도 아니고 타워서버면 소음은 좀더 조용합니다. 타워서버는 팬 직경이 큰걸 쓰거든요..
개인용 컴퓨터에 비하면 무지막지한 사양이긴 하지만,
웍스테이션나 HPC, 그리고 서버 쪽에선 Quad processor 에 램 1TB 정도는 흔한 사양입니다..
당장 제 책상 위에도 저만큼 사양은 아니지만 Dual processor (192 Core) / RAM 512GB 웍스테이션이 돌고있고
이녀석은 애초에 웍스테이션이라 팬소리도 굉장히 조용합니다.
날씨는어때님의 댓글
보통 LLM 의 경우 VRAM 에 로딩 되는거 아닌가요?