딥시크-R1 모델 풀버전을 CPU로 돌릴 때 속도.ytb

알림

AppleAde

2025.01.28 23:41

3,236

딥시크-R1 671b 파라메터 풀버전의 용량은 대략 650GB일 것입니다.

이것을 돌리려면 모델 전체를 RAM에 로딩해야 합니다.

CPU든, GPU든, 모델 전체를 RAM에 올리지 못하면 실행을 시킬 수 없지요.

이것을 CPU로 돌리면 속도가 얼마나 나오는지 알고 싶었는데요.

외국의 테크 유투버가 이것을 실제로 해본 후에 영상으로 정리를 해주었습니다.

시스템 환경은 대략 다음과 같습니다.

SYSTEM : Dell R930 Server

CPU : Xeon E7-8890V4 (24코어 48스레드) x 4

RAM : DDR4 16GB x 96 = 1,536GB

네, R930 Server는 절대로 가정용/사무용 환경에서 쓸 수 있는 시스템이 아니며, 근접해서 작업을 할 경우 산업용 귀덮개가 필요합니다.

(그렇지 않으면 귀가 먹습니다;;; 영원히요;;;)

이러한 시스템에서 딥시크-R1 671b를 메모리에 로드하고 CPU로 작동시키면 대략 다음과 같은 토큰 생성 속도가 나옵니다.

- 간단한 짧은 인사(hello) : 1.3token / 초

- Flappy Bird code 생성하기 : 0.61token / 초 -> 대략 한 시간 소요

- 윤리적인 딜레마를 판정하기 : 0.35token / 초 -> 대략 한 시간 이상 소요

이것을 볼 때...

1) 1TB 이상의 무지막지한 용량의 RAM이 장착된 서버급 시스템이 있다면 딥시크-R1 685b 모델을 실행할 수는 있다.

2) 그러나 동작 속도가 무지막지하게 느리다. chain of thought를 출력하는 시간까지 감안한다면 한 번의 질문에 답변을 받을 때까지 한 시간에서 두 시간 가까이 걸릴 수 있다.

결국... 풀버전을 CPU로 돌리는 것은 가능은 하지만, 실용성은 거의 빵점이라는 것을 알 수 있습니다.

예상 가능한 결과이지만, 실제로 실험한 것을 보니... LLM은 절대로 CPU로 돌리지 말아야 되겠다... 라는 확신이 듭니다;;;

링크

https://youtu.be/yFKOOK6qqT8

13 회 연결

11명

댓글 11 / 1 페이지

날씨는어때

01.28 23:45

RAM과 VRAM 을 구분해서 알려주시면 좋겠습니다.
보통 LLM 의 경우 VRAM 에 로딩 되는거 아닌가요?

AppleAde

01.28 23:47

@날씨는어때님에게 답글 CPU에서 작동하는 것이니 VRAM이 아닌 RAM에 올라가는 것이지요. 위의 사례는 LLM을 어거지로 RAM에 올려서 작동시킨 것이고요.

달짝지근

01.28 23:46

GPU에서 시스템 메모리 접근해서 할수는 없는가요?

AppleAde

01.28 23:48

@달짝지근님에게 답글 맥미니나 맥스튜디오 같이 CPU, GPU 가 메모리 공유를 하는 경우에는 함께 쓸 수 있지만요, 윈도우가 돌아가는 컴터에서는 전혀 할 수가 없지요. ㅠ_ㅠ)

달짝지근

01.28 23:52

@AppleAde님에게 답글 네 맥은 유니파이드메모리라서 구조적으로 애초 가능하긴 한데...
어캐어캐 꼼수로 하시는 분들이 없으실까 해서 말입니다
GDDR이나 HBM에 비빌건 안되지만 어캐 돌아만 가게 만든다면 꽤나 가능성이 열릴텐데 ㅋ

AppleAde

01.28 23:55

@달짝지근님에게 답글 nvidia digits 에서는 nvlink로 RAM공유를 해서, 작은 시스템에서 128GB 메모리를 공유하더군요.
(재고가 남아날지 모르겠지만...) 기회가 되면 digits를 어찌저찌 구매하려고 준비중입니다.

칼쓰뎅

01.28 23:50

@달짝지근님에게 답글 llm을 단순히 응답받기 위한용도로 쓰는걸 '추론' 이라고 하는데요.
gpu 처리 속도보다는 memory bandwidth에 많이 종속됩니다.
vram들이 워낙 빠르기때문에 (4090의 경우 1TB/sec. 일반 ddr5 사용하는 데탑은 80MB/sec)
차이가 많이 납니다.

배불뚝이아저씨

01.28 23:54

@칼쓰뎅님에게 답글 데답 DDR5가 80MB/S 밖에 안되요???

칼쓰뎅

어제 00:20

@배불뚝이아저씨님에게 답글 아앗...GB입니다 ㅋㅋ

sinoon

어제 00:10

X86 CPU가 아니라 Ampere 같은애로 돌리믄 다를 수 있지 않을까요?

조알

어제 01:40

비슷한 급 Dell PowerEdge 2U 랙서버를 옆에두고 사용한적이 있는데 귀 먹을 정도는 아닙니다.
풀 파워로 돌릴 때 시끄럽긴 한데 청각에 이상 생길만큼은 아니에요..
게다가 랙서버도 아니고 타워서버면 소음은 좀더 조용합니다. 타워서버는 팬 직경이 큰걸 쓰거든요..

개인용 컴퓨터에 비하면 무지막지한 사양이긴 하지만,
웍스테이션나 HPC, 그리고 서버 쪽에선 Quad processor 에 램 1TB 정도는 흔한 사양입니다..
당장 제 책상 위에도 저만큼 사양은 아니지만 Dual processor (192 Core) / RAM 512GB 웍스테이션이 돌고있고
이녀석은 애초에 웍스테이션이라 팬소리도 굉장히 조용합니다.

1페이지 현재

로그인한 회원만 댓글 등록이 가능합니다.

직접홍보

자유게시판

딥시크-R1 모델 풀버전을 CPU로 돌릴 때 속도.ytb

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

직접홍보

자유게시판

페이지 정보

본문

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

소셜계정으로 로그인

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경