[연구] AI생성 컨텐츠를 AI모델 훈련에 많이 사용하면 모델이 붕괴돼
알림
|
페이지 정보
작성일
2024.07.26 17:35
본문
네이처 신규논문 소개
안정적 확산 기술은 설명적인 텍스트로부터 이미지 생성을 혁신적으로 변화시켰습니다. GPT-2, GPT-3(.5), GPT-4는 다양한 언어 작업에서 높은 성능을 보여주었습니다. ChatGPT는 이러한 언어 모델을 대중에게 소개했으며, 이제 큰 언어 모델(LLMs)과 같은 생성 인공지능(AI)이 온라인 텍스트와 이미지 생태계를 크게 변화시킬 것이라는 점은 명확합니다. 우리는 LLMs가 온라인 텍스트의 많은 부분을 차지하게 되면 GPT-{n}에 어떤 일이 일어날지를 고려했습니다.
모델 생성 콘텐츠를 무차별적으로 훈련에 사용하는 것이 결과 모델에 되돌릴 수 없는 결함을 일으킨다는 것을 발견했습니다. 이 결함은 원래 콘텐츠 분포의 꼬리가 사라지게 하며, 우리는 이를 ‘모델 붕괴’라고 부릅니다. 이는 LLMs뿐만 아니라 변분 오토인코더(VAEs)와 가우시안 혼합 모델(GMMs)에서도 발생할 수 있음을 보여줍니다. 우리는 이 현상의 이론적 직관을 구축하고, 모든 학습된 생성 모델에서 이 현상이 보편적임을 설명합니다. 웹에서 수집한 대규모 데이터로부터 훈련의 이점을 유지하려면 이 문제를 심각하게 받아들여야 한다는 것을 입증합니다. 실제로, 인터넷에서 수집된 데이터에 LLM 생성 콘텐츠가 포함될 경우, 시스템과의 진정한 인간 상호작용에 대한 데이터의 가치는 점점 더 중요해질 것입니다.
<<ChatGPT로 요약, 번역했습니다>>
댓글 11
/ 1 페이지
soribaram님의 댓글
자비스가 데이터를 뽑아내는 가축으로 인간들을 사육하는 디스토피아 미래가 기다리나요?
글쓰기, 그리기 등등 매일 작업량을 채워야 하는가요?
어~ 현재 회사 일하는 것보다 나을지도.
글쓰기, 그리기 등등 매일 작업량을 채워야 하는가요?
어~ 현재 회사 일하는 것보다 나을지도.
bigegg님의 댓글의 댓글
@오이도테크니카님에게 답글
반대로..0.1%의 확률로 못만들 확률이 100만번 지속되면 거의 0에 수렴하게 될텐데요..
말단채과장님의 댓글의 댓글
@bigegg님에게 답글
계산이 잘못됐어요. 그건 100만번을 전부 못만들 확률입니다.
bigegg님의 댓글의 댓글
@말단채과장님에게 답글
99.999 성공률로 10만번 계속하면 한번은 실패할 확률이 36%라는것도 똑같다는거겠죠? ^^
공돌이푸님의 댓글의 댓글
@bigegg님에게 답글
반댑니다. 최소 한 번 이상 실패할 확률은 무려 63%인 것이죠. 모두 성공할 확률이 37%니까요.
(1 - p)^n ~ 1 - np 인 맥클로린 근사를 생각해보면 어려운 일이 아닙니다. p가 아무리 작아도 n이 유의미하게 커지면 np가 꽤 커지게 되는 셈이죠.
(1 - p)^n ~ 1 - np 인 맥클로린 근사를 생각해보면 어려운 일이 아닙니다. p가 아무리 작아도 n이 유의미하게 커지면 np가 꽤 커지게 되는 셈이죠.
mtrz님의 댓글
일반인의 관점입니다만 어쩌면 당연한 귀결인 것 같기도 합니다.
AI가 만들어낸 어떤 결과물은 인간의 필요에 의해서 특정 방향으로 수렴할 가능성이 높을 테니까요.
인간이 원하는 방향이 아니면 인간에게 선택받지 못할 것이고 어떤 경우에는 검열 대상이 되겠죠.
결과적으로 다양성을 얻지 못하게 될 것이고 무가치한 일관된 결과만을 반복적으로 뱉어내는 함수가 되겠죠.
AI가 만들어낸 어떤 결과물은 인간의 필요에 의해서 특정 방향으로 수렴할 가능성이 높을 테니까요.
인간이 원하는 방향이 아니면 인간에게 선택받지 못할 것이고 어떤 경우에는 검열 대상이 되겠죠.
결과적으로 다양성을 얻지 못하게 될 것이고 무가치한 일관된 결과만을 반복적으로 뱉어내는 함수가 되겠죠.
셀빅아이님의 댓글
전문가들 예측대로 2030년 이전에 학습할 데이터가 없겠는데요.