학습 데이터 고갈 코앞…AI가 만든 데이터를 AI가 학습한다면?

알림
|
X

페이지 정보

작성자 no_profile 버미파더 86.♡.70.19
작성일 2024.08.06 23:02
분류 IT
3,444 조회
10 추천
쓰기

본문

대형언어모델(LLM)이 생성형 인공지능(AI) 시대를 앞당기면서 학습 데이터에 대한 중요성도 더욱 커지고 있다. 몇 년 뒤 AI가 학습할 데이터 재고가 모두 소진될 것이라는 관측이 나오면서 AI 개발이 둔화될 가능성이 높다는 우려도 나온다. AI가 만들어 낸 합성데이터(Synthetic Data)가 대안이 될 수 있을까.


미국 비영리 AI리서치기관인 에포크AI(Epoch AI)가 내놓은 연구 결과에 따르면 사람이 만든 고품질 언어 데이터의 재고는 2026년 이전에 고갈될 것으로 예측된다. 각 기업들의 모델 크기와 학습량이 많아지며 데이터 소진 속도는 더욱 빨라질 전망이다.

이에 AI가 만든 합성데이터로 눈길을 돌리는 기업들도 있다. 일부 기업들은 합성데이터를 적극 활용해 편향성 문제를 해결하고자 노력 중이다. AI가 새로 학습할 데이터가 고갈됐을 때 AI가 만든 가상의 데이터인 합성데이터가 새로운 대안이 될 수 있을지에 대한 의문이 늘고 있다.

최근 이와 관련된 연구 결과가 발표돼 화제다. 영국 옥스포드대 컴퓨터과학과 연구팀이 국제학술지 네이처에 게재한 논문에 따르면 사람이 아닌 AI가 생성한 데이터로 학습한 AI는 제대로 된 답변을 하지 못하게 되고, 결국 '모델 붕괴'에 이르는 것으로 나타났다.

(중략)…

AI 모델에 개 사진을 주고, 학습과 생성을 입력했더니 다양한 품종의 개 이미지는 서서히 사라졌다. 골든 리트리버 등 일반적인 이미지만 남았으며 마지막에는 신체 부위가 뒤섞이는 사진이 출력되기도 했다. 인간이 만든 고품질 데이터가 고갈된 이후 AI가 생성한 데이터를 학습할 경우 엄청난 오류가 발생할 수 있다는 것을 시사한다. 

(후략)...


출처 : AI포스트(AIPOST)(http://www.aipostkorea.com)



흥미로운 기사라 퍼와봅니다.

댓글 22 / 1 페이지

마음조정님의 댓글

작성자 마음조정 (182.♡.222.63)
작성일 08.06 23:16
AI가 이제 사람 잡아가겠네요.  학습데이터 만드는 노예로... 소설이나 영화 하나 나오지 않을까요?

MarginJOA님의 댓글의 댓글

대댓글 작성자 no_profile MarginJOA (123.♡.217.182)
작성일 08.07 07:32
@마음조정님에게 답글 그러케 학습량이 늘어나고 덩달아 늘어난 전력 소모량을 감당하지 못해 새로운 전력원을 찾아나서게 된 Ai의 눈에 들어온 인간들.... ㄷㄷㄷ

알카노이드님의 댓글의 댓글

대댓글 작성자 알카노이드 (58.♡.60.213)
작성일 08.07 09:29
@MarginJOA님에게 답글 빨간약, 파란약.. 어? 이거?ㅋ

독립운동가님의 댓글의 댓글

대댓글 작성자 독립운동가 (121.♡.173.163)
작성일 08.09 00:53
@마음조정님에게 답글 그런데.. 기사제목은 생각나지 않는데 1~2년전에 본 기사가 인상적이였습니다.
대충 내용이 제3세계 국가들 인구들은 AI 학습을 위해 데이터를 입력하는 허드렛 일(?)을 하게 될 것이라고요...

찌릿님의 댓글

작성자 no_profile 찌릿 (1.♡.83.12)
작성일 08.06 23:28
요즘 링크드인에 해외 인공지능 회사에서 한국어 작가 구인 메세지가 자주 오더라구요. 학습데이터가 부족하니 구인하는게 아닌가 싶습니다.

인공지능을 위한 창작은 마치 가깝게는 휘발유 발전기로 전기차 모터 돌리는 거랑 멀리는 매트릭스에서 인간한테 생체전기 뽑아내는게 떠오릅니다.

오호라님의 댓글

작성자 오호라 (175.♡.154.96)
작성일 08.06 23:35
음 다모앙 게시판 글들도 퍼다가 학습했겠져?

안녕클리앙님의 댓글

작성자 안녕클리앙 (118.♡.249.192)
작성일 08.06 23:52
지금까지 자료만이라도 잘 학습하지 뭘 얼마나 더 잘하겠다고... 라는 생각을 비전공자가 해 봅니다

홀리댐퍼님의 댓글

작성자 홀리댐퍼 (112.♡.166.48)
작성일 08.07 00:04
ai가 만든 데이터로 학습하면 고인물 되겠네요.
아마 나중에는 이상한 상태가 되지 않을까 싶어요.
ai끼리 대화하니 자기들끼리만 아는 문자로 대화했다는 이야기 어디서 본 것 같은데요.

짜짜로니님의 댓글

작성자 짜짜로니 (121.♡.109.27)
작성일 08.07 00:05
ai달린 로봇이 나오면 해결되겠네요.
잠도 안자고 계속 돌아다니면서 학습하지 않을까요?
그러다 특이점이 와서... 인류는....

트라팔가야님의 댓글

작성자 트라팔가야 (58.♡.217.6)
작성일 08.07 00:49
“AI가 개 사진을 학습해서 골든 리트리버만 남기고 다른 품종을 사라지게 했다니, 마치 AI가 ‘완벽한 개’의 기준을 스스로 정한 셈이군요. 다음엔 ‘다양성’을 주제로 퀴즈라도 내줘야 할까요?”

comy님의 댓글

작성자 comy (122.♡.135.158)
작성일 08.07 00:53
AI가 학습하고 싶은 편항된 데이터만 스스로 생성하고 학습하는 경우도 생기겠네요

칼쓰뎅님의 댓글의 댓글

대댓글 작성자 칼쓰뎅 (119.♡.210.192)
작성일 08.07 01:36
@comy님에게 답글 정제되지않은 결과물을 대충 내놓는... 뭐 그런 ai를 별도로 만들어야될지도 모르겠네요 ㅎㅎ

엔알이일년만님의 댓글

작성자 엔알이일년만 (211.♡.184.239)
작성일 08.07 07:05
서로 다른 ai 모델이 만들어낸 데이터로
상호 보완하는 방법이 나올법은 하네요.

편향되지 않도록 사용되는 데이터의 수를 조절하겠죠.

달콤한딸기쨈님의 댓글

작성자 달콤한딸기쨈 (115.♡.195.188)
작성일 08.07 08:06
사람도 ai도 글로 인생을 배우면 안되는데 말이죠.

Blizz님의 댓글

작성자 Blizz (17.♡.236.225)
작성일 08.07 09:02
바둑은 자기들끼리 두면서 발전하는 걸로 보아 이 문제도 AI의 결과물이 좋아지면 해결 될 거 같아요.

건파님의 댓글

작성자 건파 (218.♡.32.238)
작성일 08.07 09:30
동영상 학습은 아직 안하고있나보네요~? 유튜브나 영화나 방송 프로그램들 생산되는 양이 어마어마할텐데요...

달빛누리님의 댓글

작성자 달빛누리 (14.♡.162.204)
작성일 08.07 11:24
자가폭주로 현실데이터까지 왜곡될 가능성

흐르는강물처럼흘러서님의 댓글

작성자 no_profile 흐르는강물처럼흘러서 (106.♡.245.70)
작성일 08.07 14:20
문서화된 자료는 올해말이면 학습이 끝나고 이후에는 영상과 소리 학습으로 진행한다고 들은 것 같습니다.
그것도 얼마지나지 않으면 고갈이 되면 어떻게 진행이 될지 궁금합니다.

mtrz님의 댓글

작성자 mtrz (172.♡.95.46)
작성일 08.07 16:53
근래의 얀 르쿤의 인터뷰를 보니
LLM의 학습량은 4살 짜리의 학습량에도 미치지 않기 때문에 한계가 있다는 주장을 하더군요.
인간은 시각 등의 감각을 통해서 다양한 경험을 하고 있으니 단지 문서만을 이미지만을 학습하고 있는 ai는 한계가 있는 것이 당연하겠죠.
게다가 이젠 학습할 자료도 거의 없는 문제까지 있으니. 
곧 로봇에 연결해서 인간의 주변를 맴돌거나 독자적으로 자연을 모험하는 등의 학습이 이뤄지겠군요.

rymerace님의 댓글

작성자 no_profile rymerace (211.♡.199.87)
작성일 08.07 18:27
AI데이터로 AI를 학습시키면 근친상간으로 인한 유전자풀 문제처럼 되는거겠죠. 혈우병과 정신병, 각종 유전병 등 근친상간 왕실에서 문제가 생겼듯이요.

셀빅아이님의 댓글의 댓글

대댓글 작성자 셀빅아이 (183.♡.95.75)
작성일 08.08 08:25
@rymerace님에게 답글 +1

keaton님의 댓글

작성자 keaton (211.♡.178.93)
작성일 08.07 21:42
AI가 동종 포식으로 인한 돌연변이성 넷바이러스에 감염되고....
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색