deepseek r1 풀사이즈 로컬로 돌려보신분계실까요?
페이지 정보
작성자
플루

작성일
2025.02.02 17:44
본문
로컬로 돌려보려는데 3090 + 128g 메모리 로 얼마정도의 속도가 나오는지 가늠이 안되서요.
reddit 쪽 말로는 1-2 token/sec 정도 이야기하는데,
이게 실사용에는 좀 느릴것 같기도하고
4090 사기에는 비용이 지출이 너무큽니다.
차라리 좀 기다려서 nvidia digit 을 구매할까 싶기도 하고요.
갈팡질팡 하네요.
선구자분있으시면 경험담을 듣고 싶습니다.
0명
추천인 목록보기
댓글 3
/ 1 페이지
로얄가드님의 댓글
작성자
로얄가드

작성일
02.03 16:22
일반적으로 8B 라고 하면 해당 숫자의 3배의 기가 메모리가 필요합니다.
즉 8B는 24기가 램의 그레픽 카드가 필요하죠 뭐 양자화니 뭐니 해서 사이즈 줄이는 기술은 늘어났지만 말이죠
딥시크 R1의 최상급은
70B나 (210 기가)
671B인데 (2000기가) 라서
PC에서 돌리는 대상이 아닙니다.
즉 8B는 24기가 램의 그레픽 카드가 필요하죠 뭐 양자화니 뭐니 해서 사이즈 줄이는 기술은 늘어났지만 말이죠
딥시크 R1의 최상급은
70B나 (210 기가)
671B인데 (2000기가) 라서
PC에서 돌리는 대상이 아닙니다.
칼쓰뎅님의 댓글
작성자
칼쓰뎅

작성일
02.04 01:06
딥싴 홈피에서 돌리는 속도가 20tps 정도 될겁니다. 저거 이하면...굉장히 답답해집니다 ㅎㅎ
amd에픽에다가 512GB램 달아서 r1돌리면 3-4tps 정도 나온다고 합니다.
현재 일반 사용자가 local llm 사용시에 가장 만만한게 3090 듀얼구성입니다.
3090 중고가가 80만원대니까요.
4090은 게임하는거 아니면 별 의미없고요. (전 그래서 4090+3090사용중...)
그냥 이것저것 돌려보는 재미로 사용중이긴합니다만 (qwen 2.5 coder 32b 나 r1 distill 32b 정도)
좀 제대로 된 사용은 역시, google ai studio나 에이닷 등으로 상용 ai 서비스 사용하는게 좋습니다 ㅋ
amd에픽에다가 512GB램 달아서 r1돌리면 3-4tps 정도 나온다고 합니다.
현재 일반 사용자가 local llm 사용시에 가장 만만한게 3090 듀얼구성입니다.
3090 중고가가 80만원대니까요.
4090은 게임하는거 아니면 별 의미없고요. (전 그래서 4090+3090사용중...)
그냥 이것저것 돌려보는 재미로 사용중이긴합니다만 (qwen 2.5 coder 32b 나 r1 distill 32b 정도)
좀 제대로 된 사용은 역시, google ai studio나 에이닷 등으로 상용 ai 서비스 사용하는게 좋습니다 ㅋ
32 랜덤 럭키포인트 당첨을 축하드립니다.
코미님의 댓글
맥 스튜디오 2개로 돌린 사례가 있습니다.
8bit를 3bit로 양자화된 모델입니다만..