애플 AI, 새로운 대규모 언어 모델 (LLM) 공개
페이지 정보
본문
애플 AI는 2.5조 개의 텍스트 토큰으로 훈련된 70억 파라미터의 오픈소스 언어 모델을 출시했습니다. Common Crawl 등의 오픈 데이터셋을 활용하여 데이터 필터링, 중복 제거, 데이터 선택 등 다양한 방법을 실험하며 데이터 품질을 높이기 위해 DCLM 프레임워크를 도입했습니다. 이 프레임워크는 표준화된 데이터셋 큐레이션을 통해 연구자들이 일관된 실험을 수행하고, 고품질 데이터셋을 만들어 효율적으로 언어 모델을 훈련하고 평가할 수 있게 합니다.
기존의 데이터셋 큐레이션 방법은 주로 휴리스틱 기반 필터링, 중복 제거, 웹 크롤링을 포함하지만, 표준화된 벤치마크의 부족으로 일관된 성능 평가를 유지하기 어렵습니다. 이러한 문제를 해결하기 위해 애플과 연구팀은 DCLM을 도입하여 Hugging Face 플랫폼에 공개했습니다. 이를 통해 연구자들은 구조화된 워크플로를 통해 데이터 큐레이션 전략을 실험하고, 가장 효과적인 방법을 식별하여 모델 성능을 향상시킬 수 있습니다. DCLM은 특히 훈련 세트를 구성하는 데 모델 기반 필터링의 중요성을 강조하며, 다른 오픈소스 데이터셋보다 뛰어난 성능을 보여줍니다.
DCLM 프레임워크는 확장성이 뛰어나며, 다양한 규모의 실험에서 고품질 훈련 세트를 만드는 데 중요한 역할을 합니다. 연구팀은 다양한 텍스트 추출 방법과 모델 기반 품질 필터링 전략을 조사하여 데이터셋의 품질을 크게 개선했습니다. DCLM을 통해 연구자들은 통제된 실험을 수행하고, 계산 자원을 줄이면서도 성능을 크게 향상시킬 수 있는 표준화된 접근 방식을 제공합니다.
원문 출처: https://www.marktechpost.com/2024/07/21/apple-ai-released-a-7b-open-source-language-model-trained-on-2-5t-tokens-on-open-datasets/
공개된 AI 모델: https://huggingface.co/apple/DCLM-7B
돔황챠님의 댓글