llama3 70b, 멀티 gpu, RGA, gui 인터페이스

알림

Fusion 203.♡.125.113

2024.05.22 17:56

질문

649

쓰기 분류

가입하고 처음 글 쓰네요.

local LLM을 구성하려고 합니다.

요구 사항은 아래와 같습니다.

1. llama3 70b 모델

2. 다중 gpu 사용

2.1 GPU 변경

3. 사용자 로컬 데이터(문서들) 학습 후 대화 (RGA)

4. GUI 인터페이스

5. 사용환경: 윈도우, 제한적 online

1, 3, 4, 5은 성공했는데, 2번이 문제네요.

A. Gpt4all: 1, 3, 4, 5 지원 2번은 지원하지 않음.

B. Ollama: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.

C. LM stuido: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.

2.1번 문제

제가 가지고 있는 GPU가

GPU0: vram 48GB

GPU1: vram 80GB

GPU2: vram 80GB

gpt4all는: gpu0 (GPU 1 or GPU 2번으로 변경 방법을 모르겠음)

ollama, LM stuido: gpu2을 사용합니다.

결론은 1~5번까지 다 지원하면서, GPU0~1까지 다 사용가능한 방법을 모르겠네요.

리눅스에서는 2번이 된다는 글이 있긴하네요.

혹시 관련 경험이 있는분 계신가요?

댓글 7 / 1 페이지

나우시카 (220.♡.31.18)

05.23 12:55

저도 궁금해서 찾아보니, https://github.com/ollama/ollama/issues/1813 이 글에서
Ollama 의 "CUDA_VISIBLE_DEVICES" 와 "CUDA_DEVICE_ORDER" 를 사용할 수 있는 것 같습니다.

Fusion (203.♡.125.113)

05.24 09:49

@나우시카님에게 답글 감사합니다. 찾아 볼게요.

진실된라면 (211.♡.221.205)

05.23 17:26

일단 200기가의 GPU 메모리가 부럽읍니다.

그런데 제가 알기로는 메모리 크기를 일정부분 나눠서 올라가게 하는 방법은 거의 없을거라
실제론 48 * 3 으로 올라 갈겁니다.
https://github.com/meta-llama/llama-recipes/blob/main/docs/multi_gpu.md

Fusion (203.♡.125.113)

05.24 09:51

@진실된라면님에게 답글 사용도 못하는 200기가 메모리라... 아깝습니다.
CUDA_VISIBLE_DEVICES=1,2로 설정하고 vram 80gb 2개라도 병렬로 같이 사용하고 싶은데.. 쉽지 않네요.
댓글 감사합니다. 결국은 wls2 리눅스로 가야 하는지 고민이네요.

RaPo (27.♡.253.142)

05.29 10:25

3번은 RGA가 아니라 RAG일거고, ollama에서도 임베딩을 지원합니다. 이 부분 확인하시면 됩니다.
그리고, ollama는 멀티 태스크가 되지 않습니다.
큐 방식으로 동작하기 때문에 속도가 빠르지 않다면 대기 해야 합니다.
따라서, 70b를 순수하게 올려서 사용하는 것보다는 양자화를 통해서 인스턴스를 여러 개 만드는 게 사용상 더 좋습니다.
윈도우보다는 우분투를 설치해서 사용하는 걸 추천합니다
웹 UI는 이걸 추천합니다.
https://github.com/open-webui/open-webui

api 문서를 잘 살펴보시면 num_gpu 옵션이 2번에 해당하는 내용일 겁니다.
https://github.com/ollama/ollama/blob/main/docs/api.md

결론 1~5 다 ollama에서 된다 입니다.

Fusion (122.♡.106.24)

06.06 14:32

@RaPo님에게 답글 감사합니다. 사용하는 다른 사용프로그램이 윈도우만 지원해서 주 os를 우분투로 넘어가는게 쉽지 않지만, 멀티 부팅이라도 도전해봐야겠네요. 최근에 gpt4all 버전업이 되면서 다중 gpu를 인식해서 그중 사용하고자하는 gpu 를 선택 가능하도록 버전업이 됐습니다.

다만 vram 80GB 모델(H100)으로 선택하면 프로그램이 다운되지만요 ㅠ

RaPo (121.♡.33.163)

06.06 22:27

윈도우에서는 wsl을 사용해보세요.
70b모델이면 80gb하나로 돌릴수 없습니다.
10.8b 솔라 모델은 양자화 하지 않고 올리면, 20기가 넘게 메모리를 먹습니다.

1페이지 현재

로그인한 회원만 댓글 등록이 가능합니다.

쓰기 분류

직접홍보

AI당

llama3 70b, 멀티 gpu, RGA, gui 인터페이스

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

직접홍보

AI당

페이지 정보

본문

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

소셜계정으로 로그인

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경