새로운 소식

🔥 제목 시위는 [말머리] 또는 임시게시판(불타는앙)을 이용바랍니다.

ETRI, 강소형 국산 생성 언어모델 공개

알림
|
X

페이지 정보

작성자 아름다운별 175.♡.15.105
작성일 2024.11.29 18:28
분류 IT
4,007 조회
17 추천
쓰기

본문

* 공식 보도자료 내용 일부

https://www.etri.re.kr/kor/bbs/view.etri?b_board_id=ETRI06&b_idx=19418


- 3B급 추가학습 쉬운 한국어 소형 언어모델 ‘이글’ 공개

- 연산능력 해외모델을 15% 앞서, 중소·중견기업 특화가능


한국전자통신연구원(ETRI)은 한국어 기반 30억개 파라미터(3B)급 신경망 기반 소형 생성 언어모델(SLM), ‘이글(Eagle)’을 개발해 허깅페이스 허브(HuggingFace Hub)에 공개했다고 밝혔다.


※ 옮긴이 주 - 허깅페이스 링크

https://huggingface.co/etri-lirs/eagle-3b-preview


생성형 언어모델은 방대한 텍스트 데이터로부터 인간의 언어능력을 학습하여, 목적에 맞게 사용자의 질문이나 지시에 따라 자연스러운 대화나 다양한 텍스트 콘텐츠를 만들어내는 시스템이다.


생성형 언어모델에 선도적인 글로벌 빅테크 기업들은 과거 1백억~1천억 개 파라미터 규모 이상의 중대형 모델의 공개에 집중했었으나, 최근 10억~40억 개 파라미터 규모의 소형 개방형 모델을 공개하고 있다.

그러나 이러한 모델은 한국어 어휘를 음절이나 바이트 단위로 처리하기 때문에, 동일한 문장을 표현하는 데 더 많은 연산이 필요하다.

더불어, 학습된 데이터 중 한국어 데이터가 전체의 5%에도 못 미치는 비중을 차지해, 한국어 이해 및 생성 능력이 영어 등의 주요 언어에 비해 상대적으로 낮다는 한계를 드러내고 있다.


ETRI 연구진이 개발한 언어모델은 한국어 데이터 비중이 훨씬 높다. 이를 통해 연산 횟수를 줄이면서도 효율적인 학습과 추론이 가능해졌다.

특히, 한국어로 주어진 숫자 연산을 수행하는 미세조정 실험에서, ETRI가 지난 4월 공개한 13억 파라미터 모델은 글로벌기업 모델의 절반 수준(50%)의 규모임에도 불구하고 특정 작업들에서 약 15% 더 높은 성능을 기록했다.


또한, 국내 기업들이 공개한 기존 한국어 중심 모델은 질의응답 과업에 적합하게 조정된 기정렬 모델이라는 한계가 있다.

반면, ETRI의 공개 모델은 미세조정이 적용되지 않은 기초 모델로 제공된다. 기초 모델은 기정렬된 모델에 비해 새로운 목적의 과업에 추가 학습을 적용할 경우, 응용모델의 기대 성능이 더 높다.

학습시간도 약 20% 내외로 단축되어 더 우수한 성능을 발휘하는 장점이 있다.

연구진은 본 모델이 생성형 AI 응용 개발 과정에서 연산 비용 부담을 느끼는 중소·중견 기업에 적합하다고 설명했다.

[이후 내용 생략]

댓글 10 / 1 페이지

SOForce님의 댓글

작성자 SOForce (61.♡.118.45)
작성일 11.29 19:28
그냥 클로드 빌려 쓰는게 낫지 않나요? 나중에 이재명 대통되고 GPU만 10조원어치 구입해서 훈련 시키지않는한 택도 없을 듯 한디... 빗나간 댓글이지만 과학단체나 etri같은 기술단체는 내부의 창조과학 신봉하는 교수들부터 먼저 쳐내시길...

퍼렁곰님의 댓글의 댓글

대댓글 작성자 no_profile 퍼렁곰 (121.♡.133.184)
작성일 11.30 10:49
@SOForce님에게 답글 클로드는 어쨌든 api콜 형태로 써야하는데 반드시 네트워크없이 오프라인 상태로 써야하는 경우가 있으니까요. 라마 화이팅을 외치고 요런 소규모 모델도 계속 나와줘야죠

가사라님의 댓글

작성자 가사라 (112.♡.211.243)
작성일 11.29 19:47
기사원문을 보니 오픈소스로 푼 거 맞네요.
얘랑 LLaMa 랑 Gemma 8B 이랑 비교해서 환경에 적합한 것을 골라 쓰면 되겠죠.

aeronova님의 댓글

작성자 aeronova (104.♡.68.24)
작성일 11.29 21:21
상용 목적에 사용해도 무료인지 궁금하네요

B739님의 댓글의 댓글

대댓글 작성자 B739 (222.♡.231.180)
작성일 11.29 22:18
@aeronova님에게 답글 Huggingface 를 보니..

> 본 모델은 연구와 교육 목적으로만 사용 될 수 있으며, 현재 별도의 승인 없이, Huggingface 계정으로 로그인 후 승인 요청을 수행하시면 자동으로 모델을 받으실 수 있게 됩니다.

아쉽게도 Often source 입니다. 성능이 얼마나 좋을련지는 모르겠습니다.

HTTR님의 댓글

작성자 HTTR (222.♡.176.229)
작성일 11.30 00:41
한국어 문장을 많이 훈련시킨 모델은 당연히 한국어를 더 잘 하겠죠

칼쓰뎅님의 댓글

작성자 칼쓰뎅 (119.♡.210.192)
작성일 11.30 01:21
3b면 좀 작은 모델이긴하네요...

이대수님의 댓글

작성자 이대수 (1.♡.153.101)
작성일 11.30 22:46
상용은 etri와 라이센스 계약진행하면 될 것 같네요.

킁킁님의 댓글

작성자 no_profile 킁킁 (24.♡.20.88)
작성일 12.01 08:03
GPU가 별로 없을 ETRI에서 할 수 있는 작은 모델을 선택했을 것이고, 그걸 강점으로 선전해야 하니... 강소모델.. 휴~

솔리드블랙님의 댓글

작성자 솔리드블랙 (222.♡.170.155)
작성일 12.01 18:41
그래도 ETRI 이름 달고 나왔으면 성능은 믿을만 하겠죠?
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색