AMD, 첫 번째 소형 언어 모델 AMD-135M 공개

알림
|
X

페이지 정보

작성자 쿠키맨 112.♡.119.111
작성일 2024.09.29 17:41
분류 IT
1,886 조회
4 추천
쓰기 분류

본문

원글 : https://community.amd.com/t5/ai/amd-unveils-its-first-small-language-model-amd-135m/ba-p/711368


AMD가 첫 번째 소형 언어 모델(Small Language Model, SLM)을 출시했습니다. 이름은 AMD-135M으로, 빠른 추론 속도를 자랑하는 "추측 디코딩(Speculative Decoding)" 기술을 탑재했습니다. 이는 대형 언어 모델(Large Language Model, LLM)의 한계를 보완하며, 특정 용도에 최적화된 성능을 제공합니다.

이 모델은 AMD Instinct™ MI250 가속기를 사용하여 6700억 개의 토큰으로 훈련되었습니다.

AMD-135M의 주요 특징

  • 두 가지 모델
    • 일반 데이터를 학습한 AMD-Llama-135M과 추가로 코드 데이터를 학습한 AMD-Llama-135M-code.
    • AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨
    • AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨
  • 훈련과정
    • MI250 가속기를 사용해 6700억 개의 데이터를 학습했으며, 코드 모델은 200억 개의 추가 데이터를 학습하여 최적화되었습니다.
  • "추측 디코딩" 기술을 통해 기존보다 훨씬 빠르게 결과를 생성할 수 있으며, 메모리 효율도 크게 개선되었습니다.
  • 이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공

Speculative Decoding 으로 추론 성능 최적화

  • 대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함
  • 이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임
  • 추측 디코딩의 도입으로 이 문제를 해결함
  • 작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함
  • 이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴

성능 테스트 (추론 성능 가속)

AMD-Llama-135M-code 모델을 사용한 결과, 데이터센터용 MI250 가속기와 AI PC용 Ryzen AI 프로세서에서 추론 속도가 비약적으로 증가했습니다. 이 성능 개선 덕분에, 소형 모델(SLM)과 대형 모델(LLM) 모두 효율적인 AI 워크플로우를 제공합니다.

  • AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트 
  • MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함
  • 특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함

다음 단계

AMD는 이 모델을 오픈소스로 공개하여 AI 커뮤니티의 발전에 기여하고 있습니다. 개발자들은 이를 활용해 다양한 AI 모델을 개발할 수 있으며, 관련 코드와 데이터셋은 GitHub에서 확인할 수 있습니다.

AMD의 첫 SLM 모델인 AMD-135M은 AI 기술의 발전을 이끌고 있으며, 더 넓은 범위에서 활용될 것입니다.

댓글 8 / 1 페이지

가꾸님의 댓글

작성자 가꾸 (175.♡.173.127)
작성일 09.29 17:47
자신들의 모델을 파인튜닝하여, AMD의 NPU에서 실행할 AI를 개발하도록 만든 모델인 것 같네요.

쿠키맨님의 댓글의 댓글

대댓글 작성자 쿠키맨 (112.♡.119.111)
작성일 09.29 17:56
@가꾸님에게 답글 맞습니다! AMD-135M 모델은 AMD의 하드웨어, 특히 NPU와 같은 AI 가속기에서 최적화된 성능을 발휘하도록 설계된 소형 언어 모델입니다. 특히 코드 데이터로 추가로 파인튜닝되었기 때문에 AMD의 MI250 가속기와 Ryzen AI 프로세서에서 좋은 결과를 주지 않을까 싶습니다.

또한, AMD 하드웨어에서만 제한적으로 사용되는 것이 아니라, 오픈소스로 공개되어 다양한 하드웨어와 환경에서도 쉽게 파인튜닝하고 실행할 수 있다는 점도 큰 장점으로 보여집니다.

이를 통해 AMD는 자사 플랫폼으로 더 많은 개발자들을 끌어들이고, 이들이 활발하게 활동할 수 있도록 지원하는 역할을 하고 있다는 생각이 듭니다.

오키도키님의 댓글의 댓글

대댓글 작성자 오키도키 (182.♡.225.172)
작성일 09.29 18:52
@쿠키맨님에게 답글 ㄷㄷㄷ ai 아니시죠..
맞습니다! 하시는게
ai가 대답하는건줄 알았어요 ㄷㄷ

쿠키맨님의 댓글의 댓글

대댓글 작성자 쿠키맨 (211.♡.136.246)
작성일 09.29 18:59
@오키도키님에게 답글 ㅋㅋㅋㅋㅋㅋ

아름다운별님의 댓글의 댓글

대댓글 작성자 아름다운별 (175.♡.27.52)
작성일 09.29 19:04
@쿠키맨님에게 답글 "이들이 활발하게 활동할 수 있도록 지원"

= CUDA와 몇 년 이상 차이나는 ROCm 부터 발전해야 하지 않을까요.

AI 선생님?

쿠키맨님의 댓글의 댓글

대댓글 작성자 쿠키맨 (211.♡.136.246)
작성일 09.29 19:05
@아름다운별님에게 답글 맞습니다. ㅎㅎ

일론머스쿵님의 댓글의 댓글

대댓글 작성자 일론머스쿵 (182.♡.114.18)
작성일 09.30 04:12
@아름다운별님에게 답글 이 바닥도 조만간 가격이 싸면 장땡인 시대가 될 거라 그걸 준비하는거죠

와싸다님의 댓글

작성자 no_profile 와싸다 (110.♡.98.240)
작성일 09.30 08:57
이름에 llama 들어간게 라마랑 무슨관계려나요
쓰기 분류
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색