메타, 4,050억 파라미터로 강력한 AI 모델 Llama 3.1 공개

알림
|
X

페이지 정보

작성자 아름다운별 118.♡.84.90
작성일 2024.07.24 07:50
분류 IT
2,860 조회
5 추천
쓰기

본문

[공식] Introducing Llama 3.1: Our most capable models to date

https://ai.meta.com/blog/meta-llama-3-1/


아래 VentureBeat 기사

Meta unleashes its most powerful AI model, Llama 3.1, with 405B parameters

https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/


메타 라마 3.1 이미지입니다.


[내용 일부 Claude 3.5 Sonnet 번역]


메타가 공식적으로 오픈 소스 대규모 언어 모델(LLM) 중 가장 큰 규모인 4,050억 개 파라미터 '라마-3.1'을 공개했습니다.


파라미터는 LLM의 행동 양식을 결정하는 요소로, 학습 데이터를 바탕으로 만들어집니다. 일반적으로 파라미터가 많을수록 더 강력한 모델을 뜻하고, 이상적으로는 더 복잡한 지시를 처리하고 작은 모델보다 더 정확할 수 있습니다.


라마 3.1은 2024년 4월에 발표된 라마 3 개선 버전입니다. 그러나 지금까지는 80억과 700억 버전만 사용할 수 있었습니다.


이제 4,050억 파라미터가 소형 모델을 '훈련'하고 합성 데이터를 생성할 수 있습니다. 라마 3.1은 모델 압축과 합성 데이터 생성을 허용하는 특별한 오픈 소스 라이선스로 운영될 예정입니다.


"이 모델은 성능 면에서 오픈 소스 모델 중 가장 앞선 기술을 제공하며, 업계를 주도하는 폐쇄적인 여러 비공개 소스 모델들과 아주 대등한 수준을 보여줄 것입니다." 라고 메타 AI 프로그램 관리 부사장 Ragavan Srinivasan이 벤처비트와 인터뷰에서 밝혔습니다.


Llama 3.1은 출시와 동시에 여러 언어를 지원하며 영어, 포르투갈어, 스페인어, 이탈리아어, 독일어, 프랑스어, 힌디어, 태국어 입력을 받아들일 수 있습니다. Llama 3 소형 모델들도 오늘부터 다국어 기능을 갖추기 시작합니다.


Llama 3.1 컨텍스트 윈도우는 128,000 토큰으로 확대되었습니다. 사용자가 약 400페이지 분량 소설에 해당하는 텍스트를 모델에 입력할 수 있음을 뜻합니다. … [이후 내용 생략] …

댓글 8 / 1 페이지

니케니케님의 댓글

작성자 니케니케 (222.♡.5.59)
작성일 07.24 08:11
이걸 돌리려면... 어떤 GPU 카드가 있어야 하죠?

로얄가드님의 댓글

작성자 no_profile 로얄가드 (220.♡.71.208)
작성일 07.24 09:39
메모리는 한 1테라 있으면 되겠네요

엉클머리님의 댓글

작성자 엉클머리 (220.♡.180.115)
작성일 07.24 11:00
70B 써보는데 상당합니다.

팡파파팡님의 댓글

작성자 팡파파팡 (118.♡.66.73)
작성일 07.24 11:22
개인 장난감 수준은 8B 정도로 16기가 메모리에서도 돌아가긴 합니다

비즈니스 단계라 생각한 70B가 제법 준수하다 들었는데

405B라니 놀랍긴 하네요

엉클머리님의 댓글

작성자 엉클머리 (220.♡.180.115)
작성일 07.24 14:39
70B가 제미나이 1.5보다 MMLU 점수가 높게 나온 자료가 있습니다.

조알님의 댓글

작성자 조알 (73.♡.240.17)
작성일 07.24 15:00
이런모델은 뭘로 트레이닝을 할 수 있으려나요?
제가 사용하는 수퍼컴퓨터 시스템이 H100 이 노드당 4개씩 꽂혀있고, 총 132개 노드가 GPGPU 파티션에 있는 노드인데..
그래봐야 다 해서도 H100 528개 밖에 안되긴 하네요.. 이정도 규모로 이런 모델 트레이닝이 가능할지 모르겠습니다..

쉬고싶당님의 댓글의 댓글

대댓글 작성자 no_profile 쉬고싶당 (112.♡.248.62)
작성일 07.24 15:41
@조알님에게 답글 https://ai.meta.com/blog/meta-llama-3-1/

소개 자료 중간에

Model Architecture

As our largest model yet, training Llama 3.1 405B on over 15 trillion tokens was a major challenge. To enable training runs at this scale and achieve the results we have in a reasonable amount of time, we significantly optimized our full training stack and pushed our model training to over 16 thousand H100 GPUs, making the 405B the first Llama model trained at this scale.

라는 내용이 있네요. 16,000 개의 H100 이면 GPU 비용만 해도 엄청날 것 같습니다.

조알님의 댓글의 댓글

대댓글 작성자 조알 (73.♡.240.17)
작성일 07.24 15:47
@쉬고싶당님에게 답글 와 H100 이 16000개라면.. 완전히 규모가 차원이 다르네요 ㄷㄷㄷ
좀 찾아보니 학습에는 NVIDIA 수퍼컴퓨터 시스템을 쓴거 같네요.

제가 사용하는 수퍼컴퓨터도 Top500 리스트에서 100위권 안에 드는 큰 수퍼컴퓨터인데,
CPU (Xeon Platinum Sapphire Rapids 8470Q, 총 22만 코어) 인프라 위주라서 그런지
GPGPU 는 비교적 많이 약한거 같아요..
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색