"2년 내 LLM 학습 데이터 고갈...데이터 문제로 AI 발전 중단될 것"
페이지 정보
본문
급속도로 성장하는 인공지능(AI) 모델이 데이터 부족 문제로 위협받고 있다는 지적이 나왔다. 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것이라는 설명이다.
월스트리트저널(WSJ)은 1일(현지시간) 오픈AI의 'GPT-4'나 구글의 '제미나이'와 같은 기술이 잠재적인 데이터 부족에 직면해 있다고 보도했다.
이에 따르면 대형언어모델(LLM)의 규모가 커지면서 업계에서는 전례 없는 데이터 수요가 발생하고 있다. AI 기업은 향후 2년 이내에 고품질 텍스트 데이터에 대한 수요가 공급을 초과, 잠재적으로 AI 발전을 방해할 수 있다는 의견을 내놓고 있다.
...
중략
...
샘 알트먼 오픈AI CEO도 얼마전 비슷한 뜻을 밝힌 바 있다. 그는 "내 생각에 우리는 거대한 모델이 존재하는 시대의 마지막에 와 있다고 생각한다"라며 "따라서 우리는 다른 방법으로 모델을 더 좋게 만들 것"이라고 말했다.
이 때문에 향후에는 GPT-4와 같은 대형 범용 모델보다는 도메인별 지식을 집중 학습한 전문 모델이 주를 이룰 것으로 예상하고 있다.
—
심심할때마다 aitimes를 자주 보곤 하는데요.
AI당 활성화를 위해서, aitimes를 보며 흥미로운 기사를 가져오고, 의견도 덧대어보려고합니다.
—
현재 LLM(제 생각에 파운데이션 모델들도 들어갈 듯 합니다.)이 엄청난 퍼포먼스로 두각을 나타내고 있지만, 미래를 내다봤을 때 한계를 시사한다는 기사입니다.
1. 트랜스포머 모델은 뛰어나지만, 더욱 더 커지는 모델 파라미터와 요구되는 데이터 토큰의 기하급수적 증가
2. 현재 수집하여 쓰는 데이터 토큰 품질의 한계
2년을 내다보고 있다는데 2년안에 과연 한계가 다다를지는 모르겠습니다.
maplus님의 댓글
TAMPA님의 댓글
그나저나 이렇게 되면 nvidia 가 학습용은 오랫동안 군림할거라고 봤는데...
매출증대가 계속 이루어질지는 의문이겠네요...
라맨땅님의 댓글