LLaMa 3 의 1M 토큰 컨텍스트 모델
페이지 정보
본문
gradient 라는 곳에서 LLaMa 3 의 토큰 컨텍스트를 1M 로 늘린 모델을 개발했다고 합니다.
그에 대한 인터뷰 영상이고요.
댓글들을 보니 이미 테스트해본 사람들도 있던데, 대체로 평은 조금 기대에 못미친다 정도입니다.
하지만, 오픈소스 LLM 을 가져다 컨텍스트 크기를 1M 로 늘렸다면, 앞으로 기업등에서 로컬 LLM 을 쓰는데 있어 큰 문제점중 하나가 해결되는 것이라고 봐야겠죠.
프로젝트에 쓰는 전체 소스코드와 리소스들을 통째로 던져 넣을 수도 있고요.
사내 모든 문서 혹은 관련 주제의 논문들을 비롯해서 멀티모달 데이터들을 모두 넣어서 검색하고 추론하는 업무나 연구도 훨씬 수월해질 겁니다.
RAG 도 부분 부분 잘라서 가져와서 추론하기 때문에 전반적인 추론능력이 떨어질 수 밖에 없고, 결국은 컨텍스트 크기가 늘어나는 방향으로 가야 합니다.
아직 public 하게 풀어준 단계는 아닌 거 같고, 일정 비용을 내야 하는 것 같지만 클라우드로 정보가 유출되지 않고 로컬 LLM 으로도 모든 일을 할 수 있게 해주는 업체가 등장했다는 것이 고무적이네요.
다음은 영상 내용을 Gemini 1.5 Pro 로 요약한 것입니다.
인터뷰 요약: 그래디언트의 레오 펠리스와 함께하는 백만 토큰 컨텍스트 윈도우
레오 펠리스 소개:
그래디언트의 수석 과학자
CloudTruck, OpenDoor, Optimizely, Pixar 등에서 AI 연구 이끌었음
스탠포드 대학교 통계학 박사
경제학 및 수학 학사 학위 소지
컨텍스트 윈도우란?:
과거 대화나 입력된 정보를 기억하는 대규모 언어 모델의 작업 메모리
모델이 입력된 정보를 바탕으로 다음 토큰을 예측하는 방식
컨텍스트 윈도우가 클수록 모델은 더 많은 정보를 기억하고 활용 가능
대규모 컨텍스트 윈도우의 중요성:
더 많은 정보를 모델에 입력하여 더 복잡한 작업 수행 가능
정보 분할 및 요약 작업 불필요
효율성 및 성능 향상
대규모 컨텍스트 윈도우 활용 사례:
코딩: 전체 코드베이스를 한 번에 입력하여 더 효율적인 코드 작성 및 통합
문서 분석: 방대한 문서 전체를 분석하여 정확하고 상세한 정보 추출
멀티미디어 분석: 긴 동영상, 음성 데이터 분석 및 요약
Llama 3 백만 토큰 컨텍스트 윈도우:
그래디언트에서 개발한 Llama 3 기반 백만 토큰 컨텍스트 윈도우 모델
기존 모델 대비 훨씬 큰 컨텍스트 윈도우 제공
컴퓨팅 효율성을 위해 짧은 컨텍스트에서는 기존 Llama 3 모델 성능 유지
대규모 컨텍스트 윈도우 모델 학습:
기존 모델 학습과 유사하지만, 더 긴 컨텍스트에 대한 포지셔널 인코딩 필요
많은 컴퓨팅 자원 필요
성능 평가 및 벤치마크:
Needle in a Haystack: 방대한 정보에서 특정 정보를 찾는 능력 평가 (Llama 3 백만 토큰 모델은 거의 완벽하게 통과)
Ruler (Nvidia): 13가지 작업을 통해 긴 컨텍스트 모델의 성능 평가 (Llama 3 백만 토큰 모델은 Gemini, GPT-4 등에 이어 4위)
향후 전망:
메모리 효율적인 모델 제공: 인간 뇌처럼 필요한 정보만 선택적으로 활용하는 방식 연구
더 많은 벤치마크 개발: 더욱 복잡하고 현실적인 작업을 평가할 수 있는 벤치마크 필요
오픈 소스 커뮤니티와의 협력: 더 나은 긴 컨텍스트 모델 개발을 위한 협력 중요
더 자세한 정보:
Gradient 웹사이트: gradient.ai
Gradient Twitter
Gradient LinkedIn
Gradient Discord 채널
뽀드로님의 댓글