AMD, 첫 번째 소형 언어 모델 AMD-135M 공개

쿠키맨 (112.♡.119.111)

2024년 9월 29일 PM 05:41 · 수정됨(09. 30. 08:57)

조회 2,091 공감 0

원글 : https://community.amd.com/t5/ai/amd-unveils-its-first-small-language-model-amd-135m/ba-p/711368

AMD가 첫 번째 소형 언어 모델(Small Language Model, SLM)을 출시했습니다. 이름은 AMD-135M으로, 빠른 추론 속도를 자랑하는 "추측 디코딩(Speculative Decoding)" 기술을 탑재했습니다. 이는 대형 언어 모델(Large Language Model, LLM)의 한계를 보완하며, 특정 용도에 최적화된 성능을 제공합니다.

이 모델은 AMD Instinct™ MI250 가속기를 사용하여 6700억 개의 토큰으로 훈련되었습니다.

AMD-135M의 주요 특징

두 가지 모델
- 일반 데이터를 학습한 AMD-Llama-135M과 추가로 코드 데이터를 학습한 AMD-Llama-135M-code.
- AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨
- AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨
훈련과정
- MI250 가속기를 사용해 6700억 개의 데이터를 학습했으며, 코드 모델은 200억 개의 추가 데이터를 학습하여 최적화되었습니다.
"추측 디코딩" 기술을 통해 기존보다 훨씬 빠르게 결과를 생성할 수 있으며, 메모리 효율도 크게 개선되었습니다.
이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공

Speculative Decoding 으로 추론 성능 최적화

대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함
이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임
추측 디코딩의 도입으로 이 문제를 해결함
작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함
이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴

성능 테스트 (추론 성능 가속)

AMD-Llama-135M-code 모델을 사용한 결과, 데이터센터용 MI250 가속기와 AI PC용 Ryzen AI 프로세서에서 추론 속도가 비약적으로 증가했습니다. 이 성능 개선 덕분에, 소형 모델(SLM)과 대형 모델(LLM) 모두 효율적인 AI 워크플로우를 제공합니다.

AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트
MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함
특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함

다음 단계

AMD는 이 모델을 오픈소스로 공개하여 AI 커뮤니티의 발전에 기여하고 있습니다. 개발자들은 이를 활용해 다양한 AI 모델을 개발할 수 있으며, 관련 코드와 데이터셋은 GitHub에서 확인할 수 있습니다.

AMD의 첫 SLM 모델인 AMD-135M은 AI 기술의 발전을 이끌고 있으며, 더 넓은 범위에서 활용될 것입니다.

https://community.amd.com/t5/ai/amd-unveils-its-first-small-language-model-amd-135m/ba-p/711368

https://scv-life.tistory.com/342

가

가꾸

24.09.29 · 175.♡.173.127

자신들의 모델을 파인튜닝하여, AMD의 NPU에서 실행할 AI를 개발하도록 만든 모델인 것 같네요.
쿠

쿠키맨 → 가꾸 작성자

24.09.29 · 112.♡.119.111

맞습니다! AMD-135M 모델은 AMD의 하드웨어, 특히 NPU와 같은 AI 가속기에서 최적화된 성능을 발휘하도록 설계된 소형 언어 모델입니다. 특히 코드 데이터로 추가로 파인튜닝되었기 때문에 AMD의 MI250 가속기와 Ryzen AI 프로세서에서 좋은 결과를 주지 않을까 싶습니다.

또한, AMD 하드웨어에서만 제한적으로 사용되는 것이 아니라, 오픈소스로 공개되어 다양한 하드웨어와 환경에서도 쉽게 파인튜닝하고 실행할 수 있다는 점도 큰 장점으로 보여집니다.

이를 통해 AMD는 자사 플랫폼으로 더 많은 개발자들을 끌어들이고, 이들이 활발하게 활동할 수 있도록 지원하는 역할을 하고 있다는 생각이 듭니다.
오

오키도키 → 쿠키맨

24.09.29 · 182.♡.225.172

ㄷㄷㄷ ai 아니시죠..
맞습니다! 하시는게
ai가 대답하는건줄 알았어요 ㄷㄷ
쿠

쿠키맨 → 오키도키 작성자

24.09.29 · 211.♡.136.246

ㅋㅋㅋㅋㅋㅋ
아

아름다운별 → 쿠키맨

24.09.29 · 175.♡.27.52

"이들이 활발하게 활동할 수 있도록 지원"

= CUDA와 몇 년 이상 차이나는 ROCm 부터 발전해야 하지 않을까요.

AI 선생님?
쿠

쿠키맨 → 아름다운별 작성자

24.09.29 · 211.♡.136.246

맞습니다. ㅎㅎ
일

일론머스쿵 → 아름다운별

24.09.30 · 182.♡.114.18

이 바닥도 조만간 가격이 싸면 장땡인 시대가 될 거라 그걸 준비하는거죠
와

와싸다

24.09.30 · 110.♡.98.240

이름에 llama 들어간게 라마랑 무슨관계려나요