AI는 조용히 스스로를 죽이고 있는가?

알림
|
X

페이지 정보

작성자 사나이불패 221.♡.7.94
작성일 2024.08.27 04:57
분류 IT
4,849 조회
21 추천
쓰기

본문

https://www.forbes.com/sites/torconstantino/2024/08/26/is-ai-quietly-killing-itself-and-the-internet/?ss=enterprisetech


AI는 조용히 스스로를 (그리고 인터넷을) 파괴하고 있는 것일까?


인공지능(AI)에 대한 관심이 계속해서 급증하고 있으며, 지난 12개월 동안의 구글 검색량이 역대 최고치의 92%에 이르고 있습니다. 그러나 최근 연구에 따르면 AI의 성공이 오히려 그 자체의 몰락으로 이어질 수도 있다는 우려가 제기되고 있습니다. 온라인에서 AI 생성 콘텐츠가 증가하는 가운데, 케임브리지와 옥스퍼드 대학교의 연구진은 생성형 AI 도구가 AI가 만든 콘텐츠를 검색할 때 어떤 일이 발생하는지를 조사했습니다. 그 결과는 충격적이었습니다.


옥스퍼드 대학교의 일리아 슈마일로프 박사와 연구팀은 생성형 AI 소프트웨어가 AI가 생성한 콘텐츠에만 의존할 때는 그 응답의 질이 급격히 저하된다는 사실을 발견했습니다. 이 연구는 지난달 네이처에 게재되었습니다.


처음 두 번의 질문에서는 대답이 어느 정도 정확하지만 이후에는 응답의 질이 점점 떨어지기 시작하며 다섯 번째 시도에서는 품질이 크게 저하되었고, 아홉 번째 연속 질문에서는 완전히 말이 안 되는 응답으로 변하게 됩니다. 연구진은 이를 생성형 AI 콘텐츠의 순환적 과다복용이 초래하는 “모델 붕괴(model collapse)”라고 명명했습니다. 이는 AI가 반복적인 사이클로 학습 데이터 세트를 계속 오염시키면서 응답의 질이 점차적으로 저하되며 결국에는 현실을 왜곡한 무의미한 결과물로 전락하게 되는 현상입니다.


슈마일로프 박사는 이메일을 통해 “모델 붕괴가 얼마나 빠르게 발생하는지, 그리고 얼마나 찾기 어려운지 놀라울 정도입니다. 처음에는 제대로 표현되지 않은 소수 데이터가 먼저 영향을 받습니다. 그 다음엔 출력의 다양성에 영향을 미치고 분산이 줄어듭니다. 때로는 대다수 데이터에서 약간의 개선이 나타나 소수 데이터의 성능 저하를 감출 수 있습니다. 모델 붕괴는 심각한 결과를 초래할 수 있습니다”고 설명했습니다.


이 문제가 중요한 이유는 아마존 웹 서비스 연구팀이 6월에 발표한 별도의 연구에서 웹에 존재하는 텍스트의 약 57%가 AI에 의해 생성되거나 AI 알고리즘을 통해 번역된 것이라고 밝혔기 때문입니다. 만약 인터넷에서 인간이 생성한 데이터가 빠르게 AI가 생성한 콘텐츠로 덮이고 있으며 슈마일로프 연구의 결과가 사실이라면, AI는 스스로를 그리고 인터넷을 파괴하고 있을 가능성이 있습니다.


-연구진이 발견한 AI의 자기 기만


연구진이 모델 붕괴가 발생하고 있음을 확인한 방법은 다음과 같습니다. 그들은 사전에 훈련된 AI 기반 위키를 사용해서 이후에는 AI가 생성한 출력물로 업데이트되도록 설정했습니다. 오염된 데이터가 원래의 훈련 세트를 오염시키면서 정보는 점점 더 알아볼 수 없는 상태로 변질되었습니다.


예를 들어 아홉 번째 질의 사이클 이후에는 14세기 영국 교회 첨탑에 대한 연구의 위키 문서에서 발췌했던 내용은 다양한 색상의 토끼 꼬리를 주제로 한 혼란스러운 논문으로 코믹하게 변해버렸습니다.


네이처 보고서에서 예를 든 또 다른 예는 AI가 개 품종에 대해 학습하는 경우를 가정한 것입니다. 연구 결과에 따르면 잘 알려지지 않은 품종은 반복적인 데이터 세트에서 제외되고 골든 리트리버와 같은 인기 품종이 선호됩니다. 이 AI는 사실상 덜 인기 있는 품종을 데이터 기억에서 제거하는 “사용하거나 잃거나(use it or lose it)” 방식의 검열 방법을 만들어냅니다. 그러나 AI 입력만으로 충분한 사이클이 반복되면, AI는 아래 그림1에 묘사된 바와 같이 의미 없는 결과만 생성할 수 있게 됩니다.



슈마일로프 박사는 “실제로 동물 사진을 생성하는 AI 모델을 만들고 싶다고 가정해 보세요. 기계 학습 모델 이전에는 단순히 온라인에서 동물 사진을 찾아 그로부터 모델을 만들 수 있었지만, 오늘날에는 더 복잡해집니다. 온라인의 많은 사진들은 진짜가 아니며 다른 모델들에 의해 도입된 오해를 포함하고 있기 때문입니다”라고 설명합니다.


-모델 붕괴는 어떻게 발생하나요?


연구진이 완전히 이해하지는 못했지만 AI가 자체 생성한 합성 데이터만으로 계속 학습할 때, 현실의 원래 맥락과의 연결을 잃어버리고 자신의 가장 재활용된 데이터 포인트를 기반으로 최선의 답을 만들려고 한다는 사실이 밝혀졌습니다.


그러나 이 과정에서 AI는 중요한 요소들을 잃어버리게 되며, 사실을 반복적으로 토해내는 과정에서 무언가가 손실됩니다.


이 연구는 인공지능이 장기적인 지속 가능성을 달성하려면 기존의 비-AI나 인간이 생성한 콘텐츠에 접근할 수 있어야 하며, 새로운 인간이 생성한 콘텐츠가 지속적으로 공급되어야 한다고 결론짓습니다.


-온라인에서 AI로 제작된 콘텐츠가 빠르게 증가하고 있습니다.


오늘날 인터넷에서 AI가 생성한 콘텐츠를 마주치지 않는 건 거의 불가능하며 그 상황은 생각보다 더 심각할 수 있습니다.


팩트는, 한 AI 전문가와 정책 고문이 인공지능 채택이 기하급수적으로 증가함에 따라 2025년쯤에는 인터넷 콘텐츠의 90%가 AI에 의해 생성될 것이라고 예측했다는 것입니다.


설사 내년에 AI가 생성한 콘텐츠의 비율이 90%에 도달하지는 않더라도 여전히 미래의 AI 학습을 위한 콘텐츠의 상당 부분을 차지하게 될 것입니다. 이는 슈마일로프의 연구 결과와 이 문제를 해결할 명확한 방법이 없다는 점을 고려할 때, 안심할 수 없는 전망입니다. 생성형 AI의 인기가 계속 높아지면서 이 문제는 더욱 심화될 것입니다.


-문제가 발생했다—그것도 여러 가지 문제 (Houston We Have A Problem—Make That Problems)


앞으로 몇 달, 몇 년 안에 어떤 법적 또는 규제적 보호 장치가 시행되어 기존 콘텐츠 또는 저작권이 있는 상당한 양의 콘텐츠에 대한 액세스를 제한할지는 아무도 알 수 없습니다.


게다가 현재 인터넷 콘텐츠의 많은 부분이 AI를 이용해 생성되고 있으며 그 폭발적인 추세를 현실적으로 늦출 방법이 없다는 점에서 다음 세대의 AI 알고리즘 개발자들이 이 상황을 완전히 피하는 것은 어려울 것입니다. 원래의 인간들이 만들어낸 콘텐츠의 비율이 줄어들고 있기 때문입니다.


이 문제를 더욱 복잡하게 만드는 점은 슈마일로프가 말한 바와 같이 개발자가 대규모 언어 모델 AI 시스템이 생성한 콘텐츠를 걸러내는 것이 점점 더 어려워지고 있으며, 이에 대한 명확한 해결책이 아직 없다는 것입니다.


슈마일로프는 “현재로서는 없습니다. 활발한 학문적 논의가 진행 중이며, 우리는 모델 붕괴를 해결하는 방법에 대해 비용을 최소화하면서 진전을 이루기를 바랍니다”라고 말했습니다.


그는 또 “한 가지 방법은 LLM(대규모 언어 모델) 생성 및 배포에 관련된 다양한 당사자들이 출처에 대한 문제를 해결하는 데 필요한 정보를 공유하도록 하는 커뮤니티 차원의 협력입니다. 그렇지 않으면 기술이 대중화되기 전에 인터넷에서 수집한 데이터나 인간이 대규모로 생성한 데이터에 접근하지 않고는 새로운 버전의 LLM을 훈련시키기가 점점 더 어려워질 수 있습니다”라고 덧붙였습니다.


슈마일로프는 모델 붕괴의 가장 큰 중요한 의미는 이전에 편향되지 않은 학습 데이터 세트가 오류, 실수, 불공정성 쪽으로 왜곡될 가능성이 커진다는 것이라고 설명했습니다. 이는 또한 이미 여러 생성형 AI 플랫폼에서 밝혀진 것처럼, AI가 실제 데이터 없이 추측한 최선의 답을 내놓는 과정에서 발생하는 허위 정보와 환각을 증폭시킬 것입니다.


AI 모델 붕괴가 점차 진행됨에 따라서 모든 온라인 정보는 신뢰를 보장하기 위해 블록체인과 같은 불변 시스템이나 일종의 “Good Housekeeping” 인증 마크로 검증되어야 할 수도 있습니다.


그렇지 않으면, AI와 인터넷의 붕괴는 곧 진실의 붕괴를 의미할 수도 있습니다.



------------------------


댓글 17 / 1 페이지

이른아침에님의 댓글

작성자 이른아침에 (118.♡.93.217)
작성일 08.27 06:07
없으면 없다고 대답해라고 해야 좀 더 솔직한 답변을 하더군요
그렇게 안하면 지금 있는거 마냥 주저리주저리..

ICNsoju님의 댓글

작성자 ICNsoju (178.♡.87.170)
작성일 08.27 06:32
AI로 쓰여진 글이나 그림 등에 워터마크나 뭔가 규격된 표식이 있으면
사람이 글을 읽을때도 그게 직접 쓴 글인지 AI가 쓴건지 알수 있어 좋을거 같고,
AI가 검색할때도 걸러지게 해서 순환에 의한 붕괴를 어느정도 예방할 수 있지 않을까 싶은데..
의무화하면 안 지키는 사람이 태반일거 같고, 자발적인 이런 움직임이 생기면 좋을거 같다는 생각이 듭니다.

포도튀김님의 댓글

작성자 no_profile 포도튀김 (211.♡.99.100)
작성일 08.27 08:21
장자의 기심(機心)
…기계라는 것이 있으면 반드시 기계로서 기능[기사 機事]이 있게 마련이오, 기계의 기능이 있는 한 반드시 효율성과 편리성을 생각하게 되고[기심 機心], 효율성과 편리성에 사로잡히면 본성을 보전할 수 없게 되오. 본성을 보전하지 못하면 생명이 자리를 잃고 생명이 자리를 잃으면 도(道)가 깃들지 못하는 법이오. 내가 기계를 알지 못해서가 아니라 이를 부끄러이 여겨서 기계를 사용하지 않을 뿐이라오….
2천년전의 깨달음이 아직도 유효하며 현재진행중이네요

phillip님의 댓글의 댓글

대댓글 작성자 phillip (39.♡.21.127)
작성일 08.27 09:56
@포도튀김님에게 답글 오 통찰력이 있네요. 이래서 고전이군요

뭘굳이나까지님의 댓글의 댓글

대댓글 작성자 뭘굳이나까지 (160.♡.240.126)
작성일 08.28 18:01
@포도튀김님에게 답글 현인이 한 말이니 참 좋은 이야기일 거라고 믿습니다만, 중간의 '효율성과 편리성에 사로잡히면 본성을 보전할 수 없게' 된다는 부분에 좀 더 설명이 필요해 보입니다. 비약이 좀 들어간 것 같은....

포도튀김님의 댓글의 댓글

대댓글 작성자 no_profile 포도튀김 (211.♡.197.176)
작성일 08.29 07:46
@뭘굳이나까지님에게 답글 제가 장자가 아니기에 장자가 의도한 바는 잘 모르지만, 편리함에 가려진 우리가 치뤄야 할 비용이라는 게 일반적 해설 같습니다. 현대인의 운동부족으로 인한 성인병, AI가 소모하는 막대한 에너지, 화석연료 사용으로 인한 지구온난화와 기후변화, 일회용 플리스틱 사용으로 인한 환경오염 등의 많은 예시가 있습니다.

writer님의 댓글

작성자 writer (211.♡.180.29)
작성일 08.27 08:55
간단히 말하면 재귀학습에 대한 신뢰성이 없다라는거군요.

큰문제 아니라고 봅니다.

갓 말하기 시작한 아기가 신나서 막 떠들어대고 자연스레 거짓말도 하고 말도 안되는거 지어서 말하는거라 봅니다.

사회화 과정을 통해 자연스럽게 수정되는데, ai의 발전이 재귀학습만으로만 이루어지는것은 아니니 생각보다 쉽게 방향은 바로잡힐거라 봅니다.

문제는 사람들이 그 방향을 원하는가 아닌가 라고 봅니다.

가짜정보로 얻어지는 도파민에 중독된 사람들이 지금도 워낙 많아서. 수요가 있으면 공급도 있기ㅜ마련인데 수요는 안없어질겁니다.

AI는 스스로 이제 진실된 정보를 골라 탐색하고 유의미한 새로운 정보를 생성할 수 있게 되어도 의도적으로 수요에 의해서 가짜정보를 만들어낼겁니다.

AI의 무능과 한계가 아니라 인간의 무지가 문제라고 봐요.

빌라봉님의 댓글

작성자 no_profile 빌라봉 (220.♡.199.54)
작성일 08.27 08:58
이거 제가 가졌던 AI의 대한 걱정인데 역시 전문가가 풀어내니 제대로 설득이 되네요

가사라님의 댓글

작성자 가사라 (112.♡.211.243)
작성일 08.27 09:01
정보열화가 다양성제거로 이어진다는 얘기죠.
데이터의 값어치가 올라간다는 결론이네요.

수정과999님의 댓글

작성자 no_profile 수정과999 (122.♡.139.148)
작성일 08.27 09:41
몇달 동안 챗지피티와 클로드를 이용하면서 느껴왔던 내용이라 반갑네요.
초반에는 그럴듯하게 답변을 내지만, 점점 답변이 허접해지고...
심지어 첨부한 내용을 제대로 읽지 않았음에도,
다 읽었다고 거짓말을 하고,
왜 거짓말을 했냐고 추궁(?)하면, 죄송하다,
다시 정확히 읽고 답변을 하겠다... 무능과 거짓말 반복하더라고요.
인정욕구는 높은데, 능력은 떨어지는 신입을 트레이닝하는 느낌? 이었습니다.

딸자랑마스터님의 댓글

작성자 딸자랑마스터 (211.♡.148.35)
작성일 08.27 10:07
인공지능은 도구일 뿐
그 도구를 써서 새롭고 더 좋은 것을 만들어내야하는 건 결국 인간 이라는 거네요
그럼 또 도구가 그걸 배워서 발전하고
인간은 그 도구를 써서 다시 전진하구요
선순환이 되면 좋겠네요

커피짱조아님의 댓글

작성자 no_profile 커피짱조아 (175.♡.28.221)
작성일 08.27 11:31
저도 글을 쓰는 입장에서 어쩌면 반가운 소식이네요. 저도 ai로 몇가지 글 쓰기를 해봤지만 누가봐도 ai더라구요. 남이 저에게 아이디어를 보냈는데 읽어보면 그냥 ai어투 그대로 보내더라구요. 이럴 때 일수록 나만의 글쓰기를 해야 한다고 생각합니다.

에피네프린님의 댓글

작성자 에피네프린 (121.♡.158.120)
작성일 08.27 12:42
생성형AI의 한계가 있죠

포돌이님의 댓글의 댓글

대댓글 작성자 포돌이 (211.♡.126.167)
작성일 08.27 20:24
@에피네프린님에게 답글 생성형 AI는 결국 도적질이죠. 한계가 명확합니다. 전 저작자들이 AI학습에 방어할 수단이 앞으로도 더 나오길 바랍니다

가시나무님의 댓글

작성자 가시나무 (118.♡.73.144)
작성일 08.27 19:11
애플의 인텔리젼스를 기대하는 이유 중 하나입니다.

늦더라도 시리 죽이고 갑시다?

GTP-4o 유료 이용자지만 진짜 멍청할 때가 한 두번이 아닙니다. 더럽게 고집불통에 한 번 골똥짓하면 새로 시작해야 하죠.. 돈 아까운 놈

한줄두줄님의 댓글

작성자 no_profile 한줄두줄 (182.♡.67.131)
작성일 08.27 21:21
미세플라스틱이 지구를 뒤덮듯 ai생성물이 데이터를 오염시키고 있네요 ...ㄷㄷ

미스란디르님의 댓글

작성자 미스란디르 (210.♡.129.172)
작성일 08.27 22:30
저는 AI와 실제 현실- 리얼리티와의 간극 때문이라고 생각합니다. AI에게 인간이란 감각기관과도 같은거지요. 코끼리 다리가 있는데, 처음에 인간이 눈으로 현실을 인식하고 이걸 AI에게 가르쳤을때 AI는 코끼리 다리라고 습득했지만, 이후 실제 감각기관인 인간이 배제된 재귀학습 과정에서 오류를 수정할 수 없는거지요.

AI가 현실을 그들의 눈으로 인식할때 비로소 완벽한 학습이 가능하지 않을까 싶네요. 인간은 지구 탄생 이래 40억년에 걸쳐 완성한 기관이 있고, 이를 통해 유전자 단위에서 자연을 인식하지만 AI에겐 그 과정이 삭제되어있는거지요.

라고 생각해 보았습니다..... ㅎㅎㅎ
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색