llama3 70b, 멀티 gpu, RGA, gui 인터페이스

알림
|
X

페이지 정보

작성자 Fusion 203.♡.125.113
작성일 2024.05.22 17:56
분류 질문
647 조회
0 추천
쓰기

본문

가입하고 처음 글 쓰네요.

local LLM을 구성하려고 합니다.

요구 사항은 아래와 같습니다.

1. llama3 70b 모델

2. 다중 gpu 사용

2.1 GPU 변경

3. 사용자 로컬 데이터(문서들) 학습 후 대화 (RGA)

4. GUI 인터페이스

5. 사용환경: 윈도우, 제한적 online 


1, 3, 4, 5은 성공했는데, 2번이 문제네요.

A. Gpt4all:  1, 3, 4, 5 지원 2번은 지원하지 않음.

B. Ollama: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.

C. LM stuido: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.


2.1번 문제

제가 가지고 있는 GPU가

GPU0: vram 48GB

GPU1: vram 80GB

GPU2: vram 80GB


gpt4all는: gpu0 (GPU 1 or GPU 2번으로 변경 방법을 모르겠음)

ollama, LM stuido: gpu2을 사용합니다.


결론은 1~5번까지 다 지원하면서, GPU0~1까지 다 사용가능한 방법을 모르겠네요.

리눅스에서는 2번이 된다는 글이 있긴하네요.

혹시 관련 경험이 있는분 계신가요?






댓글 7 / 1 페이지

나우시카님의 댓글

작성자 나우시카 (220.♡.31.18)
작성일 05.23 12:55
저도 궁금해서 찾아보니, https://github.com/ollama/ollama/issues/1813 이 글에서
Ollama 의 "CUDA_VISIBLE_DEVICES" 와 "CUDA_DEVICE_ORDER" 를 사용할 수 있는 것 같습니다.

Fusion님의 댓글의 댓글

대댓글 작성자 Fusion (203.♡.125.113)
작성일 05.24 09:49
@나우시카님에게 답글 감사합니다. 찾아 볼게요.

진실된라면님의 댓글

작성자 no_profile 진실된라면 (211.♡.221.205)
작성일 05.23 17:26
일단 200기가의 GPU 메모리가 부럽읍니다.


그런데 제가 알기로는 메모리 크기를 일정부분 나눠서 올라가게 하는 방법은 거의 없을거라
실제론 48 * 3 으로 올라 갈겁니다.
https://github.com/meta-llama/llama-recipes/blob/main/docs/multi_gpu.md

Fusion님의 댓글의 댓글

대댓글 작성자 Fusion (203.♡.125.113)
작성일 05.24 09:51
@진실된라면님에게 답글 사용도 못하는 200기가 메모리라... 아깝습니다.
CUDA_VISIBLE_DEVICES=1,2로 설정하고 vram 80gb 2개라도 병렬로 같이 사용하고 싶은데.. 쉽지 않네요.
댓글 감사합니다. 결국은 wls2 리눅스로 가야 하는지 고민이네요.

RaPo님의 댓글

작성자 no_profile RaPo (27.♡.253.142)
작성일 05.29 10:25
3번은 RGA가 아니라 RAG일거고,  ollama에서도 임베딩을 지원합니다. 이 부분 확인하시면 됩니다.
그리고, ollama는 멀티 태스크가 되지 않습니다.
큐 방식으로 동작하기 때문에 속도가 빠르지 않다면 대기 해야 합니다.
따라서, 70b를 순수하게 올려서 사용하는 것보다는 양자화를 통해서 인스턴스를 여러 개 만드는 게 사용상 더 좋습니다.
윈도우보다는 우분투를 설치해서 사용하는 걸 추천합니다
웹 UI는 이걸 추천합니다.
https://github.com/open-webui/open-webui

api 문서를 잘 살펴보시면 num_gpu 옵션이 2번에 해당하는 내용일 겁니다.
https://github.com/ollama/ollama/blob/main/docs/api.md

결론 1~5 다 ollama에서 된다 입니다.

Fusion님의 댓글의 댓글

대댓글 작성자 Fusion (122.♡.106.24)
작성일 06.06 14:32
@RaPo님에게 답글 감사합니다. 사용하는 다른 사용프로그램이 윈도우만 지원해서 주 os를 우분투로 넘어가는게 쉽지 않지만, 멀티 부팅이라도 도전해봐야겠네요. 최근에 gpt4all 버전업이 되면서 다중 gpu를 인식해서 그중 사용하고자하는 gpu 를 선택 가능하도록 버전업이 됐습니다.

다만 vram 80GB 모델(H100)으로 선택하면 프로그램이 다운되지만요 ㅠ

RaPo님의 댓글

작성자 no_profile RaPo (121.♡.33.163)
작성일 06.06 22:27
윈도우에서는 wsl을 사용해보세요.
70b모델이면 80gb하나로 돌릴수 없습니다.
10.8b 솔라 모델은 양자화 하지 않고 올리면, 20기가 넘게 메모리를 먹습니다.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색