로컬에서 LLM 이리저리 돌려본 후기입니다.
알림
|
페이지 정보
작성일
2024.11.12 00:28
본문
집에 gpu는 4090입니다.
24gb가 커보이지만 어지간한건 안올라갑니다 ㅡㅡ;;;
이리저리 돌려보니 그나마 쓸만한건 llama3.1 8b 모델이었습니다.
grog사이트 통해서 파라미터별로 동일 질문 던져봤는데요...
확실히 70b가 낫더라구요. 8b는 디테일한부분이 좀 떨어졌습니다.
애플이 하도 ai에 좋다길래 스펙 좀 둘러봤는데요. 273GB/s 라네요.
PC쪽은 ddr5가 듀얼채널하면 100GB/s 정도 나올꺼 같습니다.
다만 애플의 경우, npu,gpu등으로 저 큰 메모리를 사용할수 있습니다.
일반pc의 경우엔 cpu로만 돌려야되므로 좀 느립니다.
(최근 cpu에 npu들이 내장되어서...사용할수 있을지도 모르겠습니다만.)
가정집에서 굉장히 좋게 ai를 굴려보겠다하면...
애플 ram 64GB 기기에다가 llama3.1 70b 모델을 돌리면 될성 싶네요.
물론. 유료로 ai서비스 사용하는게 백배싸고 똑똑합니다? ㅎㅎㅎㅎㅎ
그래서 chatgpt 지금 유료로 한달 사용중입니다;
- 게시물이 없습니다.
댓글 15
/ 1 페이지
칼쓰뎅님의 댓글의 댓글
@B739님에게 답글
그게...좀 애매하더라구요. 8b 이상부터는 막 엄청 올려서요 ;;;
40b,70b이렇게 올라가버리니 양자화해도 로딩이 불가능하더라구요.
40b,70b이렇게 올라가버리니 양자화해도 로딩이 불가능하더라구요.
kamziki님의 댓글의 댓글
@B739님에게 답글
4bit quantization하면 모델 파라메타 크기 나누기 2 하면 됩니다. 7 b면 3.5 giga실제론 약간 더 큽니다. 24 gb면 35b까지는 무난히 돌리는데 70b는 조금 느리지요. 일부 레이어는 cpu에서 돌리는 방식을 쓰기 때문에..
잉여다님의 댓글
LMstdio가 가장편하고 극한으로 메모리뽑아내려면 oobabooga 쓰는편입니다. 3090 2장으로 70b 4비트 양자화까지는 돌려봤네요 ㅎㅎ
Qwen 2.5도 요즘 쓸만한편입니다.
실제사용은 chatgpt/claude로 유료로 하고.. 로컬은 장난감/연구용이네요 ㅎㅎ
Qwen 2.5도 요즘 쓸만한편입니다.
실제사용은 chatgpt/claude로 유료로 하고.. 로컬은 장난감/연구용이네요 ㅎㅎ
칼쓰뎅님의 댓글의 댓글
@잉여다님에게 답글
qwen2.5도 써봤는데요.. 희안하게 조금 더 깊이 들어가면 갑자기 중국어들이 나오더라구요? ㅡㅡ;;
잉여다님의 댓글의 댓글
@칼쓰뎅님에게 답글
그건 어쩔수 없는것 같습니다 ㅠㅠ 잘 만든 한국어 모델 있었으면..ㅠㅠ
칼쓰뎅님의 댓글의 댓글
@그녀는애교쟁이님에게 답글
가성비가 구독하는게 좋다는 얘기입니다 ㅎㅎ
'성능'이 너무 차이나서요.
'성능'이 너무 차이나서요.
kamziki님의 댓글
구독료는 다시 인상되고 있는 추세고 agent 개념으로 지속적으로 돌린다면 로컬 LLM도 고려할만 합니다. 특히 데이터 보안이 필요한 연구소 같은 곳에선...
칼쓰뎅님의 댓글의 댓글
@kamziki님에게 답글
네 나쁘진않은데.. 제대로 하고싶다면 애플64gb 모델을 사용하는게 좋을꺼 같다는 생각입니다.
물론 뭐 gpu 24gb 2개 사도 되긴하겠지만요. 가격이....음;
물론 뭐 gpu 24gb 2개 사도 되긴하겠지만요. 가격이....음;
B739님의 댓글