AI 경쟁을 위해 필사적인 데이터 수집 방법
알림
|
페이지 정보
작성일
2024.04.09 10:45
본문
뉴욕타임스에 따르면 오픈AI, 구글, 메타 등 빅테크는 데이터를 확보하기 위해 기업 정책을 무시하고, 법을 위반하는 등 다양한 (불의의) 방법을 동원하고 있습니다.
오픈AI는 2021년 음성 인식 도구를 만들어 100만 시간 이상의 유튜브 동영상 데이터를 수집해 텍스트화했습니다. 영상 생성 AI ‘소라(Sora)’의 학습 데이터애도 유튜브, 인스타그램, 페이스북 등의 동영상을 포함한 것으로 의심됩니다. 구글은 저작권 침해할 수 있음에도 유튜브 영상을 활용했습니다. 더 많은 데이터를 공개적으로 활용하기 위해 지난해 개인정보보호 약관을 변경했습니다. 메타는 AI 모델을 개발하기 위해 자사 소셜미디어는 물론 인터넷에 있는 거의 모든 영어책, 에세이, 시, 뉴스 기사를 사용했습니다(주장이 나왔습니다).
AI 시스템을 더 강력하게 만들기 위해서는 이를 뒷받침할 데이터 양과 질이 핵심입니다. AI 성공은 데이터에 달려 있다고 할 수 있습니다. 데이터가 많을수록 AI 모델은 더 정확하고 인간과 비슷해집니다.
(다른 한편으로는) 빅테크는 AI를 사용해 스스로 더 많은 새로운 데이터를 생성하는 ‘합성 데이터(synthetic data)’라 일컬어지는 방법을 모색하고 있습니다. 하지만 자신의 결과물을 통해 학습한 AI 모델은 자신의 단점, 실수, 한계 등을 더 강화할 수 있습니다. AI 모델은 오류를 범할 수 있으므로 합성 데이터는 위험할 수 있습니다.
전문 및 관련 뉴스 : https://naver.me/FsqId1qV
댓글 0