AI 빅테크는 왜 레딧에 집착하는가?

알림

엘레지 121.♡.114.209

2024.05.24 09:57

정보

774

쓰기

최근 미국 최대 온라인 커뮤니티 레딧은 오픈AI와 AI 학습을 위한 데이터 라이선싱 계약을 체결했습니다. 지난 2월에는 구글과 연간 6천만 달러 규모의 계약을 했습니다. 레딧이 지금까지 체결한 계약 규모는 총 2억3000만달러(약 3,000억 원)에 이릅니다.

AI 빅테크는 왜 레딧에 집착할까요? LLM(대형언어모델) 기반 생성 AI는 방대한 데이터 학습을 통해 지금까지 성장했습니다. 사용할 수 있는 거의 모든 데이터를 학습했다고 해도 무방합니다. 심지어 저작권이 있는 콘텐츠를 불법적으로 수집해 학습했다는 의혹도 제기되는 상황입니다. 앞으로 이 생성 AI가 고도화되려먼 어떻게 해야 할까요? 데이터가 AI 경쟁력을 좌우하게 될 것입니다. 그럼 의미에서 레딧은 실시간으로 엄청난 양의 데이터를 생산하는 마르지 않은 샘과 같습니다.

다른 이유가 더 있습니다. 지금까지 학습된 데이터(특히 언어 데이터)는 딱딱하고 정형화돼 있습니다. 예를 들어 출판되는 콘텐츠의 경우 전문 편집자에 의해 사실 확인과 검토를 거쳐 발행됩니다. 출판 형태로 노출되지 않는 대부분 평범한 사람들 일상적이고 사적인 글은 그렇지 않습니다. AI가 더 인간적이고 자연스럽게 진화하려면 이런 학습 데이터가 절실합니다.

포스팅 전문 및 관련 뉴스 : https://naver.me/5teWau30