llama3 70b, 멀티 gpu, RGA, gui 인터페이스
알림
|
페이지 정보
작성일
2024.05.22 17:56
본문
가입하고 처음 글 쓰네요.
local LLM을 구성하려고 합니다.
요구 사항은 아래와 같습니다.
1. llama3 70b 모델
2. 다중 gpu 사용
2.1 GPU 변경
3. 사용자 로컬 데이터(문서들) 학습 후 대화 (RGA)
4. GUI 인터페이스
5. 사용환경: 윈도우, 제한적 online
1, 3, 4, 5은 성공했는데, 2번이 문제네요.
A. Gpt4all: 1, 3, 4, 5 지원 2번은 지원하지 않음.
B. Ollama: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.
C. LM stuido: 1, 4, 5 지원, 2번 지원하지 않음, 3번은 방법을 모르겠음.
2.1번 문제
제가 가지고 있는 GPU가
GPU0: vram 48GB
GPU1: vram 80GB
GPU2: vram 80GB
gpt4all는: gpu0 (GPU 1 or GPU 2번으로 변경 방법을 모르겠음)
ollama, LM stuido: gpu2을 사용합니다.
결론은 1~5번까지 다 지원하면서, GPU0~1까지 다 사용가능한 방법을 모르겠네요.
리눅스에서는 2번이 된다는 글이 있긴하네요.
혹시 관련 경험이 있는분 계신가요?
댓글 7
/ 1 페이지
진실된라면님의 댓글
일단 200기가의 GPU 메모리가 부럽읍니다.
그런데 제가 알기로는 메모리 크기를 일정부분 나눠서 올라가게 하는 방법은 거의 없을거라
실제론 48 * 3 으로 올라 갈겁니다.
https://github.com/meta-llama/llama-recipes/blob/main/docs/multi_gpu.md
그런데 제가 알기로는 메모리 크기를 일정부분 나눠서 올라가게 하는 방법은 거의 없을거라
실제론 48 * 3 으로 올라 갈겁니다.
https://github.com/meta-llama/llama-recipes/blob/main/docs/multi_gpu.md
Fusion님의 댓글의 댓글
@진실된라면님에게 답글
사용도 못하는 200기가 메모리라... 아깝습니다.
CUDA_VISIBLE_DEVICES=1,2로 설정하고 vram 80gb 2개라도 병렬로 같이 사용하고 싶은데.. 쉽지 않네요.
댓글 감사합니다. 결국은 wls2 리눅스로 가야 하는지 고민이네요.
CUDA_VISIBLE_DEVICES=1,2로 설정하고 vram 80gb 2개라도 병렬로 같이 사용하고 싶은데.. 쉽지 않네요.
댓글 감사합니다. 결국은 wls2 리눅스로 가야 하는지 고민이네요.
RaPo님의 댓글
3번은 RGA가 아니라 RAG일거고, ollama에서도 임베딩을 지원합니다. 이 부분 확인하시면 됩니다.
그리고, ollama는 멀티 태스크가 되지 않습니다.
큐 방식으로 동작하기 때문에 속도가 빠르지 않다면 대기 해야 합니다.
따라서, 70b를 순수하게 올려서 사용하는 것보다는 양자화를 통해서 인스턴스를 여러 개 만드는 게 사용상 더 좋습니다.
윈도우보다는 우분투를 설치해서 사용하는 걸 추천합니다
웹 UI는 이걸 추천합니다.
https://github.com/open-webui/open-webui
api 문서를 잘 살펴보시면 num_gpu 옵션이 2번에 해당하는 내용일 겁니다.
https://github.com/ollama/ollama/blob/main/docs/api.md
결론 1~5 다 ollama에서 된다 입니다.
그리고, ollama는 멀티 태스크가 되지 않습니다.
큐 방식으로 동작하기 때문에 속도가 빠르지 않다면 대기 해야 합니다.
따라서, 70b를 순수하게 올려서 사용하는 것보다는 양자화를 통해서 인스턴스를 여러 개 만드는 게 사용상 더 좋습니다.
윈도우보다는 우분투를 설치해서 사용하는 걸 추천합니다
웹 UI는 이걸 추천합니다.
https://github.com/open-webui/open-webui
api 문서를 잘 살펴보시면 num_gpu 옵션이 2번에 해당하는 내용일 겁니다.
https://github.com/ollama/ollama/blob/main/docs/api.md
결론 1~5 다 ollama에서 된다 입니다.
Fusion님의 댓글의 댓글
@RaPo님에게 답글
감사합니다. 사용하는 다른 사용프로그램이 윈도우만 지원해서 주 os를 우분투로 넘어가는게 쉽지 않지만, 멀티 부팅이라도 도전해봐야겠네요. 최근에 gpt4all 버전업이 되면서 다중 gpu를 인식해서 그중 사용하고자하는 gpu 를 선택 가능하도록 버전업이 됐습니다.
다만 vram 80GB 모델(H100)으로 선택하면 프로그램이 다운되지만요 ㅠ
다만 vram 80GB 모델(H100)으로 선택하면 프로그램이 다운되지만요 ㅠ
RaPo님의 댓글
윈도우에서는 wsl을 사용해보세요.
70b모델이면 80gb하나로 돌릴수 없습니다.
10.8b 솔라 모델은 양자화 하지 않고 올리면, 20기가 넘게 메모리를 먹습니다.
70b모델이면 80gb하나로 돌릴수 없습니다.
10.8b 솔라 모델은 양자화 하지 않고 올리면, 20기가 넘게 메모리를 먹습니다.
나우시카님의 댓글
Ollama 의 "CUDA_VISIBLE_DEVICES" 와 "CUDA_DEVICE_ORDER" 를 사용할 수 있는 것 같습니다.