학습 데이터 고갈 코앞…AI가 만든 데이터를 AI가 학습한다면?
페이지 정보
본문
대형언어모델(LLM)이 생성형 인공지능(AI) 시대를 앞당기면서 학습 데이터에 대한 중요성도 더욱 커지고 있다. 몇 년 뒤 AI가 학습할 데이터 재고가 모두 소진될 것이라는 관측이 나오면서 AI 개발이 둔화될 가능성이 높다는 우려도 나온다. AI가 만들어 낸 합성데이터(Synthetic Data)가 대안이 될 수 있을까.
미국 비영리 AI리서치기관인 에포크AI(Epoch AI)가 내놓은 연구 결과에 따르면 사람이 만든 고품질 언어 데이터의 재고는 2026년 이전에 고갈될 것으로 예측된다. 각 기업들의 모델 크기와 학습량이 많아지며 데이터 소진 속도는 더욱 빨라질 전망이다.
이에 AI가 만든 합성데이터로 눈길을 돌리는 기업들도 있다. 일부 기업들은 합성데이터를 적극 활용해 편향성 문제를 해결하고자 노력 중이다. AI가 새로 학습할 데이터가 고갈됐을 때 AI가 만든 가상의 데이터인 합성데이터가 새로운 대안이 될 수 있을지에 대한 의문이 늘고 있다.
최근 이와 관련된 연구 결과가 발표돼 화제다. 영국 옥스포드대 컴퓨터과학과 연구팀이 국제학술지 네이처에 게재한 논문에 따르면 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 제대로 된 답변을 하지 못하게 되고, 결국 '모델 붕괴'에 이르는 것으로 나타났다.
(중략)…
AI 모델에 개 사진을 주고, 학습과 생성을 입력했더니 다양한 품종의 개 이미지는 서서히 사라졌다. 골든 리트리버 등 일반적인 이미지만 남았으며 마지막에는 신체 부위가 뒤섞이는 사진이 출력되기도 했다. 인간이 만든 고품질 데이터가 고갈된 이후 AI가 생성한 데이터를 학습할 경우 엄청난 오류가 발생할 수 있다는 것을 시사한다.
(후략)...
출처 : AI포스트(AIPOST)(http://www.aipostkorea.com)
흥미로운 기사라 퍼와봅니다.
MarginJOA님의 댓글의 댓글
독립운동가님의 댓글의 댓글
대충 내용이 제3세계 국가들 인구들은 AI 학습을 위해 데이터를 입력하는 허드렛 일(?)을 하게 될 것이라고요...
찌릿님의 댓글
인공지능을 위한 창작은 마치 가깝게는 휘발유 발전기로 전기차 모터 돌리는 거랑 멀리는 매트릭스에서 인간한테 생체전기 뽑아내는게 떠오릅니다.
안녕클리앙님의 댓글
홀리댐퍼님의 댓글
아마 나중에는 이상한 상태가 되지 않을까 싶어요.
ai끼리 대화하니 자기들끼리만 아는 문자로 대화했다는 이야기 어디서 본 것 같은데요.
짜짜로니님의 댓글
잠도 안자고 계속 돌아다니면서 학습하지 않을까요?
그러다 특이점이 와서... 인류는....
트라팔가야님의 댓글
칼쓰뎅님의 댓글의 댓글
엔알이일년만님의 댓글
상호 보완하는 방법이 나올법은 하네요.
편향되지 않도록 사용되는 데이터의 수를 조절하겠죠.
Blizz님의 댓글
건파님의 댓글
흐르는강물처럼흘러서님의 댓글
그것도 얼마지나지 않으면 고갈이 되면 어떻게 진행이 될지 궁금합니다.
mtrz님의 댓글
LLM의 학습량은 4살 짜리의 학습량에도 미치지 않기 때문에 한계가 있다는 주장을 하더군요.
인간은 시각 등의 감각을 통해서 다양한 경험을 하고 있으니 단지 문서만을 이미지만을 학습하고 있는 ai는 한계가 있는 것이 당연하겠죠.
게다가 이젠 학습할 자료도 거의 없는 문제까지 있으니.
곧 로봇에 연결해서 인간의 주변를 맴돌거나 독자적으로 자연을 모험하는 등의 학습이 이뤄지겠군요.
마음조정님의 댓글