LLaMa 3 의 1M 토큰 컨텍스트 모델

알림

가사라 112.♡.211.243

2024.06.22 10:46

정보

540

쓰기

gradient 라는 곳에서 LLaMa 3 의 토큰 컨텍스트를 1M 로 늘린 모델을 개발했다고 합니다.

그에 대한 인터뷰 영상이고요.

댓글들을 보니 이미 테스트해본 사람들도 있던데, 대체로 평은 조금 기대에 못미친다 정도입니다.

하지만, 오픈소스 LLM 을 가져다 컨텍스트 크기를 1M 로 늘렸다면, 앞으로 기업등에서 로컬 LLM 을 쓰는데 있어 큰 문제점중 하나가 해결되는 것이라고 봐야겠죠.

프로젝트에 쓰는 전체 소스코드와 리소스들을 통째로 던져 넣을 수도 있고요.

사내 모든 문서 혹은 관련 주제의 논문들을 비롯해서 멀티모달 데이터들을 모두 넣어서 검색하고 추론하는 업무나 연구도 훨씬 수월해질 겁니다.

RAG 도 부분 부분 잘라서 가져와서 추론하기 때문에 전반적인 추론능력이 떨어질 수 밖에 없고, 결국은 컨텍스트 크기가 늘어나는 방향으로 가야 합니다.

아직 public 하게 풀어준 단계는 아닌 거 같고, 일정 비용을 내야 하는 것 같지만 클라우드로 정보가 유출되지 않고 로컬 LLM 으로도 모든 일을 할 수 있게 해주는 업체가 등장했다는 것이 고무적이네요.

다음은 영상 내용을 Gemini 1.5 Pro 로 요약한 것입니다.

인터뷰 요약: 그래디언트의 레오 펠리스와 함께하는 백만 토큰 컨텍스트 윈도우

레오 펠리스 소개:

컨텍스트 윈도우란?:

대규모 컨텍스트 윈도우의 중요성:

대규모 컨텍스트 윈도우 활용 사례:

Llama 3 백만 토큰 컨텍스트 윈도우:

대규모 컨텍스트 윈도우 모델 학습:

성능 평가 및 벤치마크:

Needle in a Haystack: 방대한 정보에서 특정 정보를 찾는 능력 평가 (Llama 3 백만 토큰 모델은 거의 완벽하게 통과)
Ruler (Nvidia): 13가지 작업을 통해 긴 컨텍스트 모델의 성능 평가 (Llama 3 백만 토큰 모델은 Gemini, GPT-4 등에 이어 4위)

향후 전망: