이번주 네이처 주제

알림

포이에마 116.♡.254.35

2024.07.25 01:00

458

글쓰기

AI 생성 데이터로 훈련된 AI 모델이 횡설수설하다

대규모 언어 모델과 같은 생성형 인공 지능(AI) 도구의 폭발적인 증가는 이를 학습시키는 데 사용되는 방대한 양의 인간 생성 데이터에 힘입은 바가 큽니다. 이러한 도구가 계속 확산되고 그 결과물이 온라인에서 점점 더 많이 제공됨에 따라 학습 데이터의 출처가 컴퓨터가 생성한 콘텐츠로 전환될 수 있습니다. 이번 호에서는 일리아 슈마일로프와 동료들이 이러한 변화가 가져올 수 있는 결과를 조사합니다. 결과는 희망적이지 않습니다. 연구진은 AI가 생성한 데이터를 모델에 입력하면 다음 세대의 모델이 붕괴될 정도로 성능이 저하된다는 사실을 발견했습니다. 한 테스트에서는 중세 건축에 대한 텍스트가 시작점으로 사용되었지만 9세대가 되었을 때 모델 출력은 잭래빗 목록이었습니다. 연구팀은 AI가 생성한 데이터를 사용하여 모델을 학습시키는 것이 불가능하지는 않지만, 데이터를 필터링하는 데 세심한 주의를 기울여야 하며, 인간이 생성한 데이터가 여전히 우위에 있을 것이라고 제안합니다.

Volume 631 Issue 8022, 25 July 2024 (nature.com)