앙겔군 (211.♡.12.65)
2026년 5월 26일 PM 06:00

제가 관리하는 사내 로컬 LLM서빙 웍스입니다.
RTX PRO 6000 * 2개...
Qwen3.6-35b-A3b (MTP적용) - 200~300TPS
Gemma4-26b-A4b - 40TPS
정도 나옵니다.
vLLM이랑 SGlang으로 이런저런 셋팅하는데 Pro 6000 설정하기 꽤나 까다로웠습니다.
그래도 어찌어찌 MTP적용하니 300TPS가 넘게 나올정도로 속도하난 빠릅니다 ㅎㅎ
기존에는 A6000이랑 A6000ada가지고 TP=2나 4로 대용량 모델 올려본다고 뽀짝뽀작하다
단일 96Gb쓰니 뭔가 여유로워서 다른곳으로도 눈을 돌려보고 있습니다.
OpenWebUI에 이런저런 MCP들 올려서 셋업해서 사용하고있고,
Hermes Agent + 슬랙 봇으로 4개 돌아가고있고..
뉴스 크롤링해서 슬랙채널에 업데이트도하고...
또 뭘해보면 좋을까요? ㅎㅎ
추천받습니다?
댓글 (11)
-
BBLUEWTR
05.26 · 211.♡.153.64
-
앙앙겔군
→ BLUEWTR 작성자
05.26 · 211.♡.12.65
그냥... 비싼대 많이 안비싼? (PRO 6000 GPU 한개당 1600만원인데 억소리나오는 H200이나 B200에 비하면 저려미 버전) GPU를 로컬LLM서빙용 말고 뭘 더 써볼까 고민하는 글입니다 ㅎㅎ
-
빈빈이파파
→ 앙겔군
05.26 · 119.♡.211.37
요즘은 블랙웰 가격 더 올랐습니다. 가지고 싶기는 하군요.
-
케케인
05.26 · 211.♡.207.168
사내 데이터 학습이나 모델 튜닝해도 될 것 같은데.. 결국 LLM은 대단한거구나라는 결말이라 ㅋㅋ
-
앙앙겔군
→ 케인 작성자
05.26 · 211.♡.12.65
데이터 학습은 다른 GPU서버에서 돌아가고 있습니다 ㅎㅎ
모델튜닝 조만간 도전해보려구요. -
YYBman
05.26 · 175.♡.230.102
300tps는 상상도 안가는 속도네요.
-
앙앙겔군
→ YBman 작성자
05.26 · 211.♡.12.65
A6000이나 ada쓸때는 100tps만 나와도 우와했는데.. 300tps보고 놀랬습니다.
SOTA모델들보다 빠르더라구요. -
집집사C
05.27 · 175.♡.236.121
와우 이정도면 왠만한 사물 시뮬레이션 구현이 가능할거 같습니다.
군침이... 마구 돌아갑니다.
-
티티타늄
05.27 · 118.♡.17.58
토스증권에서 곧 api를 연다던데, 자동매매 프로그램 만들어보시면 어떨까요?
-
도도깨비방뫙
05.27 · 114.♡.1.156
그림, 영상도 한 번 뽑아보세요 ㄷㄷㄷ
댓글을 작성하려면 이 필요합니다.
한글로써주시면 감사하겠습니다
@,.@