딥시크-R1 모델 풀버전을 CPU로 돌릴 때 속도.ytb

알림
|
X

페이지 정보

작성자 AppleAde
작성일 2025.01.28 23:41
3,236 조회
11 추천

본문


딥시크-R1 671b 파라메터 풀버전의 용량은 대략 650GB일 것입니다. 

이것을 돌리려면 모델 전체를 RAM에 로딩해야 합니다.

CPU든, GPU든, 모델 전체를 RAM에 올리지 못하면 실행을 시킬 수 없지요. 


이것을 CPU로 돌리면 속도가 얼마나 나오는지 알고 싶었는데요. 

외국의 테크 유투버가 이것을 실제로 해본 후에 영상으로 정리를 해주었습니다. 


시스템 환경은 대략 다음과 같습니다. 

SYSTEM : Dell R930 Server 

CPU : Xeon E7-8890V4 (24코어 48스레드) x 4 

RAM : DDR4 16GB x 96 = 1,536GB 


네, R930 Server는 절대로 가정용/사무용 환경에서 쓸 수 있는 시스템이 아니며, 근접해서 작업을 할 경우 산업용 귀덮개가 필요합니다. 

(그렇지 않으면 귀가 먹습니다;;; 영원히요;;;) 


이러한 시스템에서 딥시크-R1 671b를 메모리에 로드하고 CPU로 작동시키면 대략 다음과 같은 토큰 생성 속도가 나옵니다. 


- 간단한 짧은 인사(hello) : 1.3token / 초 

- Flappy Bird code 생성하기 : 0.61token / 초 -> 대략 한 시간 소요 

- 윤리적인 딜레마를 판정하기 : 0.35token / 초 -> 대략 한 시간 이상 소요 



이것을 볼 때... 

1) 1TB 이상의 무지막지한 용량의 RAM이 장착된 서버급 시스템이 있다면 딥시크-R1 685b 모델을 실행할 수는 있다.

2) 그러나 동작 속도가 무지막지하게 느리다. chain of thought를 출력하는 시간까지 감안한다면 한 번의 질문에 답변을 받을 때까지 한 시간에서 두 시간 가까이 걸릴 수 있다. 


결국... 풀버전을 CPU로 돌리는 것은 가능은 하지만, 실용성은 거의 빵점이라는 것을 알 수 있습니다. 

예상 가능한 결과이지만, 실제로 실험한 것을 보니... LLM은 절대로 CPU로 돌리지 말아야 되겠다... 라는 확신이 듭니다;;; 

11추천인 목록보기
댓글 11 / 1 페이지

날씨는어때님의 댓글

작성자 no_profile 날씨는어때
작성일 01.28 23:45
RAM과 VRAM 을 구분해서 알려주시면 좋겠습니다.
보통 LLM 의 경우 VRAM 에 로딩 되는거 아닌가요?

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.28 23:47
@날씨는어때님에게 답글 CPU에서 작동하는 것이니 VRAM이 아닌 RAM에 올라가는 것이지요. 위의 사례는 LLM을 어거지로 RAM에 올려서 작동시킨 것이고요.

달짝지근님의 댓글

작성자 달짝지근
작성일 01.28 23:46
GPU에서 시스템 메모리 접근해서 할수는 없는가요?

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.28 23:48
@달짝지근님에게 답글 맥미니나 맥스튜디오 같이 CPU, GPU 가 메모리 공유를 하는 경우에는 함께 쓸 수 있지만요, 윈도우가 돌아가는 컴터에서는 전혀 할 수가 없지요. ㅠ_ㅠ)

달짝지근님의 댓글의 댓글

대댓글 작성자 달짝지근
작성일 01.28 23:52
@AppleAde님에게 답글 네 맥은 유니파이드메모리라서 구조적으로 애초 가능하긴 한데...
어캐어캐 꼼수로 하시는 분들이 없으실까 해서 말입니다
GDDR이나 HBM에 비빌건 안되지만 어캐 돌아만 가게 만든다면 꽤나 가능성이 열릴텐데 ㅋ

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.28 23:55
@달짝지근님에게 답글 nvidia digits 에서는 nvlink로 RAM공유를 해서, 작은 시스템에서 128GB 메모리를 공유하더군요.
(재고가 남아날지 모르겠지만...) 기회가 되면 digits를 어찌저찌 구매하려고 준비중입니다.

칼쓰뎅님의 댓글의 댓글

대댓글 작성자 칼쓰뎅
작성일 01.28 23:50
@달짝지근님에게 답글 llm을 단순히 응답받기 위한용도로 쓰는걸 '추론' 이라고 하는데요.
gpu 처리 속도보다는 memory bandwidth에 많이 종속됩니다.
vram들이 워낙 빠르기때문에 (4090의 경우 1TB/sec. 일반 ddr5 사용하는 데탑은 80MB/sec)
차이가 많이 납니다.

배불뚝이아저씨님의 댓글의 댓글

대댓글 작성자 배불뚝이아저씨
작성일 01.28 23:54
@칼쓰뎅님에게 답글 데답 DDR5가 80MB/S 밖에 안되요???

칼쓰뎅님의 댓글의 댓글

대댓글 작성자 칼쓰뎅
작성일 어제 00:20
@배불뚝이아저씨님에게 답글 아앗...GB입니다 ㅋㅋ

sinoon님의 댓글

작성자 sinoon
작성일 어제 00:10
X86 CPU가 아니라 Ampere 같은애로 돌리믄 다를 수 있지 않을까요?

조알님의 댓글

작성자 조알
작성일 어제 01:40
비슷한 급 Dell PowerEdge 2U 랙서버를 옆에두고 사용한적이 있는데 귀 먹을 정도는 아닙니다.
풀 파워로 돌릴 때 시끄럽긴 한데 청각에 이상 생길만큼은 아니에요..
게다가 랙서버도 아니고 타워서버면 소음은 좀더 조용합니다. 타워서버는 팬 직경이 큰걸 쓰거든요..

개인용 컴퓨터에 비하면 무지막지한 사양이긴 하지만,
웍스테이션나 HPC, 그리고 서버 쪽에선 Quad processor 에 램 1TB 정도는 흔한 사양입니다..
당장 제 책상 위에도 저만큼 사양은 아니지만 Dual processor (192 Core) / RAM 512GB 웍스테이션이 돌고있고
이녀석은 애초에 웍스테이션이라 팬소리도 굉장히 조용합니다.
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색