LLM 스트리밍 응답에 대한 질문이 있습니다!

알림
|
X

페이지 정보

작성자 나우시카 220.♡.31.18
작성일 2024.05.14 08:56
분류 질문
430 조회
0 추천
쓰기

본문

동일한 로컬 LLM 서버가 있을 경우,


A : LLM에서 응답을 스트림으로 받을때, 시작까지 3초가 걸린 후, 응답이 지속적으로 옵니다. (이후 응답 끝나는게 오래 걸려요)

B : 스트림으로 받지 않고, 한꺼번에 받을때, 3분이 걸렸습니다. (너무~ 오래걸려요)


A 의 경우 (스트림으로 응답을 받으면) 응답을 하고 있는 중에도, 계속 응답을 만들고 있는 중인건가요? 

그냥 제가 단순하게 생각했을땐 스트림처리 안하고 받으면 오래 걸리긴 하지만 저렇게 까지 차이 나는게 이상해서요. 

응답은 이미 컨텐츠가 만들어졌는데, 어떻게 응답중에 계속 응답을 생성하죠? 


% 제가 이 쪽에 무지해서 이제 막 구현만 어떻게 해보려고 하는 중이라서 잘 모릅니다;; 너그러히 양해를.. 

댓글 7 / 1 페이지

진실된라면님의 댓글

작성자 no_profile 진실된라면 (211.♡.221.205)
작성일 05.14 13:11
응답을 하고 있는 중에도, 계속 응답을 만들고 있는 중입니다.
모델입장에서는 beam search 찾아보시면 원리를 이해하시는데 도움이 될것 같습니다...
웹 기술적으로는 http 2.0 프로토콜 규격을 활용한것으로 보입니다.

나우시카님의 댓글의 댓글

대댓글 작성자 나우시카 (220.♡.31.18)
작성일 05.14 17:52
@진실된라면님에게 답글 Beam Search 보았습니다. 그때마다 다음 후보랑 다음확률 계속 이어서 계산해 나가는 거 같고, 결과 나오면 바로 스트림으로 주나 보군요.
가지마다 다른 결과가 나올 수 있는데, 미리 앞의 결과를 보낸다는게 좀 이해가 안갔습니다.

RaPo님의 댓글

작성자 no_profile RaPo (27.♡.253.142)
작성일 05.14 14:35
모델이 대답을 많이 만들어내는 모델인가 봅니다.
그리고, 하드웨어 스펙 차이도 무시를 못합니다.
시간이 오래 걸린다는 건 그만큼 속도가 느리다는 거죠.

나우시카님의 댓글의 댓글

대댓글 작성자 나우시카 (220.♡.31.18)
작성일 05.14 17:54
@RaPo님에게 답글 하드웨어는 정말 고민이고, 로컬 무료 LLM 이라고 좋아할 건 아닌거 같습니다.
실제 서비스 할려면 배보다 배꼽이 더 클 거 같고, 차라리 chatGPT 모델이 낳은거 같기도 하고요.
클라우드 서비스에 쿠버네이트 올려서 오토스케일링 처리하고, 스펙과 전기소모땜에 더 어려운거 같아요.

로얄가드님의 댓글

작성자 no_profile 로얄가드 (220.♡.71.208)
작성일 05.14 17:42
초당 토큰 처리 능력이 딸리는가 봅니다
실제 결과는 3분에 걸쳐서 나오는게 맞고
스트리밍은 중간중간 끊어서 보내주는거죠

나우시카님의 댓글의 댓글

대댓글 작성자 나우시카 (220.♡.31.18)
작성일 05.14 17:54
@로얄가드님에게 답글 결과적으론 3초에 모두 끝나는걸 원합니다. ㅎ;

CRLF님의 댓글의 댓글

대댓글 작성자 CRLF (112.♡.30.18)
작성일 05.17 16:14
@나우시카님에게 답글 현재 사용중이신 스펙으로는 3분 걸리는 작업입니다.
LLM 장치의 스펙을 더 올리거나, 성능이 향상되는 추가 조취를 취해보셔야 합니다.

위에서 다들 말씀해주셨지만, 예를들어 AI가 10마디 답하려고 하는 중에 먼저 완성된 2마디를 먼저 던진 거라고 생각해도 좋을 것 같네요.

A, B서버가 사양와 LLM이 동일하다면, 둘 다 최종 답변이 끝나는 시간은 유사해야합니다.
혹시, A가 이상하게 훨씬 더 늦는 상황이라면, 현재 LLM  쪽에서 스트리밍 응답을 할때 SSE를 사용하는데, 이부분의 구현에 문제가 없는지 확인해볼 여지 정도는 있는 것 같습니다.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색