메타, 4,050억 파라미터로 강력한 AI 모델 Llama 3.1 공개
페이지 정보
본문
[공식] Introducing Llama 3.1: Our most capable models to date
https://ai.meta.com/blog/meta-llama-3-1/
아래 VentureBeat 기사
Meta unleashes its most powerful AI model, Llama 3.1, with 405B parameters
https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/
[내용 일부 Claude 3.5 Sonnet 번역]
메타가 공식적으로 오픈 소스 대규모 언어 모델(LLM) 중 가장 큰 규모인 4,050억 개 파라미터 '라마-3.1'을 공개했습니다.
파라미터는 LLM의 행동 양식을 결정하는 요소로, 학습 데이터를 바탕으로 만들어집니다. 일반적으로 파라미터가 많을수록 더 강력한 모델을 뜻하고, 이상적으로는 더 복잡한 지시를 처리하고 작은 모델보다 더 정확할 수 있습니다.
라마 3.1은 2024년 4월에 발표된 라마 3 개선 버전입니다. 그러나 지금까지는 80억과 700억 버전만 사용할 수 있었습니다.
이제 4,050억 파라미터가 소형 모델을 '훈련'하고 합성 데이터를 생성할 수 있습니다. 라마 3.1은 모델 압축과 합성 데이터 생성을 허용하는 특별한 오픈 소스 라이선스로 운영될 예정입니다.
"이 모델은 성능 면에서 오픈 소스 모델 중 가장 앞선 기술을 제공하며, 업계를 주도하는 폐쇄적인 여러 비공개 소스 모델들과 아주 대등한 수준을 보여줄 것입니다." 라고 메타 AI 프로그램 관리 부사장 Ragavan Srinivasan이 벤처비트와 인터뷰에서 밝혔습니다.
Llama 3.1은 출시와 동시에 여러 언어를 지원하며 영어, 포르투갈어, 스페인어, 이탈리아어, 독일어, 프랑스어, 힌디어, 태국어 입력을 받아들일 수 있습니다. Llama 3 소형 모델들도 오늘부터 다국어 기능을 갖추기 시작합니다.
Llama 3.1 컨텍스트 윈도우는 128,000 토큰으로 확대되었습니다. 사용자가 약 400페이지 분량 소설에 해당하는 텍스트를 모델에 입력할 수 있음을 뜻합니다. … [이후 내용 생략] …
팡파파팡님의 댓글
비즈니스 단계라 생각한 70B가 제법 준수하다 들었는데
405B라니 놀랍긴 하네요
조알님의 댓글
제가 사용하는 수퍼컴퓨터 시스템이 H100 이 노드당 4개씩 꽂혀있고, 총 132개 노드가 GPGPU 파티션에 있는 노드인데..
그래봐야 다 해서도 H100 528개 밖에 안되긴 하네요.. 이정도 규모로 이런 모델 트레이닝이 가능할지 모르겠습니다..
쉬고싶당님의 댓글의 댓글
소개 자료 중간에
Model Architecture
As our largest model yet, training Llama 3.1 405B on over 15 trillion tokens was a major challenge. To enable training runs at this scale and achieve the results we have in a reasonable amount of time, we significantly optimized our full training stack and pushed our model training to over 16 thousand H100 GPUs, making the 405B the first Llama model trained at this scale.
라는 내용이 있네요. 16,000 개의 H100 이면 GPU 비용만 해도 엄청날 것 같습니다.
조알님의 댓글의 댓글
좀 찾아보니 학습에는 NVIDIA 수퍼컴퓨터 시스템을 쓴거 같네요.
제가 사용하는 수퍼컴퓨터도 Top500 리스트에서 100위권 안에 드는 큰 수퍼컴퓨터인데,
CPU (Xeon Platinum Sapphire Rapids 8470Q, 총 22만 코어) 인프라 위주라서 그런지
GPGPU 는 비교적 많이 약한거 같아요..
니케니케님의 댓글