딥시크 R1의 14b 규모의 모델도 답변을 매우 잘하네요.

알림
|
X

페이지 정보

작성자 AppleAde
작성일 2025.01.27 23:32
2,245 조회
20 추천

본문

Ollama 를 이용해서 로컬 환경 + CPU 연산으로 딥시크 R1을 실행해보았습니다. 

물론, 웹에서 쓸 수 있는 685b 파라메터를 가진 풀버전 모델을 사용한 것은 아니고요. 

그보다 더 작은 모델을 구동해보았습니다.  

(참고로, 685b 파라메터 모델은 682GB의 메모리가 필요합니다;;; 이걸 GPU로 돌리려면... 아윽;;;) 


양자화 처리가 된 1.5b, 7b 모델은 한국어로는 전혀 똑똑한 반응을 보여주지 못했고요. 

(영어가 아니면 질문 자체를 이해하지 못하는 수준;;;)


8b 모델은 한국어를 다소 알아듣지만, 한국어 출력을 제대로 해주지는 못했습니다. 


본격적으로 쓸만한 모델은 14b 모델이고요. 생각보다 똑똑한 반응을 보여줍니다. 


먼저 집에 있는 컴퓨터에서 Ollama를 이용해서 딥시크 r1의 14b 모델을 로딩합니다. 


모델이 로딩되었습니다. nvidia 그래픽카드가 없는 컴이어서 cpu모드로 작동됩니다. 대화가 길어지면 출력 속도가 기하급수적으로 저하됩니다만, 한 세션에 서너번의 대화 정도라면 인내심을 가지고 사용할 수준은 됩니다. 


아, CPU는 Intel i5-12400f이며 6코어 12스레드로 작동됩니다. 


처음에는 영어로 hello 라고 물으니, 스스로 chain of thought(cot)를 건너뛰고 인사말을 출력하는 것을 볼 수 있습니다. 모델 스스로 cot가 필요한 상황과 그렇지 못하는 상황을 구분할 줄 아는 것 같습니다. (신기!) 


다음으로는 한국어로 "도움이 필요하다" 라는 말을 입력했고, cot가 동작하면서 user의 대화 의도를 스스로 분석하는 절차가 실행되는 것을 알 수 있습니다. 



이정도면 예전에 ChatGPT-3.5 버전이 처음 나왔을 때보다 비슷하거나 조금 더 자연스러운 출력이라고 생각됩니다. 


그래서 이제 어떤 것을 물을까 고민을 해봤는데요. 역시나, 수리적인 problem set에 대한 점수가 높다고 하니... 수리적인 개념을 하나 물어보았습니다. 


그레이엄 수가 무엇이고, 이것이 무한대와 어떻게 다른지 질문해보았습니다. 

이 질문에 14b 모델은 cot를 이용하여 질문에 어떻게 답해야 하는지, 그리고 어떤 점을 강조해야 되는지를 매우 구조적이고 논리정연하게 나열하였습니다. 



딥시크 14b 모델은 질문을 제대로 파악하고,

질문에 맞는 답변을 도출하기 위해 출력 내용의 순서를 정렬하고,

cot로 구성한 것을 최종적인 답변으로 출력해주었습니다. O..O) 


여기서 생각해볼 수 있는 것은...

1) 딥시크는 영어를 기준으로 cot를 수행합니다. -> 추론의 기본 구조는 영어에 기반하고 있습니다. 

2) 1.5b, 7b, 8b 모델은 영어 입력이 아니면 바보같이 반응하는데, 14b 모델부터 (별도의 튜닝 작업 없이도) 매우 자연스러운 한국어 출력을 해줍니다. 아마도, 다국어 환경에서는 14b 모델부터 의미있는 성능이 나올 것 같습니다. 

3) 한 번의 세션에서 대화의 횟수를 서너 차례로 억제한다면, CPU모드에서도 실사용할 수 있는 출력을 해줍니다. 


뭐랄까... chatgpt 이후에 llm의 발전이 매우 압죽적으로 이루어지고 있는데요. 

성능이 낮은 IoT 기기... 에어콘, 스타일러, 로봇청소기가 local 환경에서 앵무새마냥 재잘대며 집주인에게 "이제 왔어?" 라고 인사하고 농담을 던지는 것이 얼마 안남은 것 같습니다. O..O) 

20추천인 목록보기
댓글 14 / 1 페이지

시커먼사각님의 댓글

작성자 시커먼사각
작성일 01.27 23:35
14b모델은 스토리지나 메모리를 얼마나 요구하나요..?

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.27 23:37
@시커먼사각님에게 답글 모델 파일 자체는 9GB 용량이고, CPU쪽 메모리에서도 9GB 정도의 용량을 차지하는 것 같아요.

시커먼사각님의 댓글의 댓글

대댓글 작성자 시커먼사각
작성일 01.27 23:37
@AppleAde님에게 답글 감사합니다. 조만간 iot로 들어올 수 있겠군요.

Formularix님의 댓글

작성자 Formularix
작성일 01.27 23:38
와우 gpu가 아니라 cpu로 돌리셨다구요? 그러면 그래픽카드 없는 컴에서도 더ㅣ는걸까요?

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.27 23:41
@Formularix님에게 답글 네, 메모리가 왕창 끼어져있다면 더 큰 모델도 쓸 수 있을거예요. 하지만 cpu연산의 한계로 32코어나 64코어가 달린 x86/x64 cpu에서는 gpu만큼의 연산 가속이 안나올거예요.

달짝지근님의 댓글

작성자 달짝지근
작성일 01.27 23:41
조만간 가정용 LLM머신이 보급될 날이 멀지 않았군요
왠만한건 로컬로 돌아갈테고 고성능이 필요하면 구독중인 AI서비스로 연결되겠죠?

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.27 23:41
@달짝지근님에게 답글 지금도 일부 그렇게 돌아가는 서비스가 있지요. 삼성 갤럭시 AI같은 것은 로컬 + 가끔씩 온라인모드로 돌아가지요.

달짝지근님의 댓글의 댓글

대댓글 작성자 달짝지근
작성일 01.27 23:43
@AppleAde님에게 답글 네 IOT하고 통합되어서 사용될 날을 기대하고 있습니다
사실 가정용PC가 이미 가능은 할텐데.. ^^ 윈도우가 이거 좀 어캐 IOT 통합서비스 해주지 말이죠

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.27 23:46
@달짝지근님에게 답글 저도 기대되네요;; 집에 들어와서 로봇청소기한테 인사받는 날이 기대됩니다. ㅎㅎ)

A350님의 댓글

작성자 A350
작성일 01.28 00:31
맥북에 32b 받아서 돌려봤는데 매우 정직한 대답을 출력하는군요? ㅋㅋㅋ 영어로는 바로 물어보면 검열이 들어가는데 다른거 물어보다 물어보면 정확하게 답합니다.
램 48짜리인데 막힘없이 빠르게 잘 내놓습니다.

AppleAde님의 댓글의 댓글

대댓글 작성자 AppleAde
작성일 01.28 00:37
@A350님에게 답글 으허어어어엉... 😭😭😭😭😭😭😭😭😭😭😭😭
선생님의 맥북을 며칠만 빌려주실 수 있을까요? 😭😭😭
출력 속도가 넘나 느려요. oTL...

A350님의 댓글의 댓글

대댓글 작성자 A350
작성일 01.28 00:42
@AppleAde님에게 답글 그래도 확실히 엔비디아 글카보다는 느려요. 데스크탑이 4080이라 14b짜리밖에 안올라가긴 하는데 속도차이가 압도적입니다.

칼쓰뎅님의 댓글

작성자 칼쓰뎅
작성일 01.28 02:14
r1이 학습(증류)시킨 qwen 2.5모델입니다.
ollama가 좀... 이상하게 모델을 배포했더군요. 마치 r1인것처럼 말이죠.
(꽤 많은 유투버들도 무분별하게 사용하고있고요... 파운데이션모델 자체가 다른데용...)

달콤한딸기쨈님의 댓글

작성일 01.28 08:37
어… 이해했습니다(?!)
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색