AI가 인간을 속이고 조정하고 있다

인공지능. 게티이미지 제공

[파이낸셜뉴스] 2022년 11월 30일, 오픈AI가 생성형AI '챗GPT'를 세상에 공개 이후 우리의 생활이 많이 변하고 있습니다. 친구나 선생님, 직장 상사와 채팅하듯이 챗GPT에게 묻고 답을 듣고 있죠. 이제는 회사의 업무에도 상당부분 생성형 AI를 이용하고 있습니다.

그런데 생성형 AI가 어떤 질문에는 이상한 답을 내놓는 경우가 있습니다. 생성형 AI에게 요청한 질문에 거짓말을 하듯 잘못된 정보를 제공하는 오류가 일어나기도 합니다. 이를 두고 환각현상이라고 하죠.

최근에 출시하고 있는 생성형 AI 서비스는 이러한 환각현상을 많이 줄이고 있는데요. 환각현상에 의해 생성형 AI가 제공하는 잘못된 정보를 우리가 그대로 받아들일 경우엔 의사 결정 과정에 문제가 발생할 수 있어 조심해야 합니다.

그런데 AI가 환각현상이 아니라 의도적으로 거짓말을 하는 경우도 있다고 합니다.

미국 매사추세츠공과대(MIT)의 피터 박 박사후연구원은 10일(한국시간) 국제학술지 '패턴'에 AI의 속임수와 관련된 논문을 발표했습니다. 그러면서 AI 시스템에 의한 속임수의 위험성을 설명하고 정부가 이 문제를 가능한 한 빨리 해결하기 위한 강력한 규정을 마련할 것을 촉구했습니다.

연구진은 AI의 거짓말과 속임수를 쓰는 대표적인 예로 메타가 온라인 게임을 학습시킨 AI '시세로(Cicero)'를 언급했습니다.

메타가 지난 2022년 11월 온라인게임 '디플로머시'에서 인간에 필적하는 성능을 달성한 시세로를 공개했습니다. 디플로머시는 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 전략게임입니다. 2명에서 7명의 플레이어가 승리를 위해 정견 발표, 외교 협상, 작전명령 등을 펼치는 고난이도 게임이죠.

메타는 시세로가 게임에서 이기도록 훈련시켜 인간 플레이어 중 상위 10%에 들게 만들었습니다. 피터 박 박사후연구원은 "우리는 메타의 AI가 속임수의 달인이 되도록 학습됐다는 것을 발견했다"고 말했습니다.

메타는 시세로를 '대체로 정직하고 도움이 되는' 인물로 훈련시키고 게임을 하는 동안 인간 동맹을 '의도적으로 배신하지 않도록' 훈련시켰다고 주장했습니다. 하지만, 메타가 사이언스지 논문과 함께 발표한 데이터에 따르면 시세로는 공정하게 플레이하지 않았습니다.

다른 AI는 전문적인 인간 플레이어를 상대로 텍사스 홀덤 포커 게임에서 블러핑하는 능력을 보여주었습니다. 또 스타크래프트2에서 상대를 이기기 위해 공격을 위장하거나 경제적 협상에서 우위를 차지하기 위해 자신의 선호도를 왜곡했습니다.

피터 박 박사후연구원은 "게임에서 AI가 속임수를 쓰는 것이 무해해 보일지 모르지만, 이는 미래에 더 진보된 형태의 AI 속임수로 이어질 수 있는 '기만적인 AI 능력의 돌파구'로 이어질 수 있다"고 경고했습니다.

AI가 웹사이트 로그인이나 양식 제출 시 '로봇이 아닙니다'와 같은 문구가 나타나는 캡차(CAPTCHA) 시스템을 시스템을 속이고 통과한다. 피터 박 박사후연구원 제공

또 웹사이트 로그인이나 양식 제출 시 '로봇이 아닙니다'와 같은 문구가 나타나는 캡차(CAPTCHA) 시스템을 접하죠. 그런데 AI가 인간이 아님에도 시스템을 속이고 이를 통과하기도 합니다.

피터 박 박사후연구원은 "인간 개발자와 규제 기관에서 부과한 안전 테스트를 체계적으로 속임으로써, 기만적인 AI는 우리 인간에게 잘못된 보안 감각으로 이끌 수 있다"고 우려했습니다.

특히 기만적인 AI의 주요 단기 위험으로 적대적인 행위자가 사기를 쉽게 저지르고, 선거를 조작할 수도 있다는 거죠. 결국 인간은 이러한 AI에 대한 통제력을 잃을 수도 있다고 경고했습니다.

[중략]

추가 메뉴

댓글 (3)