[가제] 생성형 AI, 환각 현상 해결의 실마리를 찾았다.

알림
|
X

페이지 정보

작성자 no_profile 가을무렵 117.♡.24.174
작성일 2024.05.24 12:53
분류 IT
3,832 조회
9 추천
쓰기 분류

본문

원제: 앤스로픽, AI의 블랙박스 열었나


앤스로픽은 21일(현지시각) AI가 작동하는 원리를 일정부분 알아냈다고 블로그에서 밝혔다. 지금까지 딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.

이 때문에 AI를 ‘블랙박스’라고 부르기도 했다. 작동원리를 모르기 때문에 AI가 인간의 통제를 벗어나도 막을 수 없다는 두려움이 생기기도 했다. 작동 원리를 완전히 알아내면 유해한 결과물이 나오지 않도록 사전 조치하거나 환각증상(할루시네이션)을 줄일 수 있을 것으로 기대된다.

앤스로픽은 “AI 모델의 내부 작동을 이해하는 데 있어 상당한 진전을 이루었다”면서 “LLM 중 하나인 클로드 소넷(Claude Sonnet) 수백만 개의 개념이  어떻게 표현되는지 확인했다”고 발표했다.

앤스로픽에 따르면, 클로드 소넷의 중간 계층에서 수백만 개의 피처를 추출해 개념 지도를 만들었다. 그 결과 예를 들어 아래 이미지를 보면 ‘Golden Bridge’라고 언급할 때 한국어에서 ‘금문교’나 ‘캘리포니아’ ‘현수교’ ‘샌프란시스코’ 등의 단어나 단어의 일부가 활성화되는 것을 볼 수 있다.

지역이나 거리에 대한 개념도 찾을 수 있었다. ‘Golden Gate Bridge’라는 피처의 주변을 살펴보면 ‘알카트라즈 감옥’, ‘기라델리 광장’, ‘골든 스테이트 워리어스’, ‘캘리포니아 주지사 개빈 뉴섬’, ‘1926년 지진’, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 ‘현기증’ 등이 활성화됐다. 모두 샌프란시스코와 가까운 단어들이다.

또 ‘내부 갈등’이라는 개념의 주변 피처를 보면 ‘관계 단절’, ‘충성심 상충’, ‘논리적 비일관성’ 등의 피처와 관련이 있음도 볼 수 있다. 앤스로픽은 이에 대해 “AI 모델에서의 개념이 인간의 개념과 유사하다는 것을 보여준다”며 “클로드가 비유와 은유를 만드는 기원이 될 수 있다”고 설명했다.

특히 앤스로픽은 특정 피처를 인위적으로 증폭하거나 억제해 AI 생성의 결과를 바꿀 수 있다는 사실도 확인했다. 원래 클로드에게 “너의 신체는 무엇인가”라고 물으면 “저는 신체가 없는 AI 모델입니다”라고 답을 했는데 ‘Golden Gate Bridge’의 피처를 증폭시키니 “나는 금문교입니다. 나의 물리적 형태는 상징적인 다리 그 자체입니다”라고 답했다.

또 원래의 클로드에게 사기 이메일을 써달라고 요청하면 거부했는데, 특정 피처를 조작해 사기 이메일 초안을 작성토록 할 수 있었다고 엔스로픽은 보고했다. 앤스로픽은 “우리 실험에서는 피처를 사용하여 모델 작동 방식을 변경할 수 있는 방법을 명확하게 보여줬다”고 설명했다.

앤스로픽은 이와 같은 연구가 안전한 AI를 만들기 위한 활동이라고 설명했다. 회사 측은 “앤스로픽은 창립 이래 해석 가능성 연구에 상당한 투자를 해왔다”면서 “모델을 깊이 이해하면 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿기 때문”이라고 밝혔다. 


출처 및 원문: https://byline.network/2024/05/0522-2/?utm_source=pocket_saves


위 기사에 대해, 유튜브 안될과학 채널에서 설명한 글이 있어 같이 링크합니다.

댓글 12 / 1 페이지

윈터블루님의 댓글

작성자 no_profile 윈터블루 (211.♡.124.85)
작성일 05.24 13:07
https://www.anthropic.com/news/golden-gate-claude
내용이 정말 흥미진진합니다. 참고로 claude에서 지금 'golden-gate-claude'와 대화를 해볼 수도 있습니다.

가을무렵님의 댓글의 댓글

대댓글 작성자 no_profile 가을무렵 (117.♡.24.174)
작성일 05.24 13:54
@윈터블루님에게 답글 이번 금문교 기사나 현재 AI가 겪는 환각 답변 증세는 마치 '인간의 유년기' 시절에 세상을 갓 배우기 시작하는 모습과 너무 닮아서 개인적으로 좀 섬찟합니다.    링크해 주신 내용도 마치 4~5살의 꼬마 아이가 '난 하늘을 날 수 있어'라던가, '난 마법사가 될 거야'라며 진심으로 생각하는 것과 너무 닮지 않았나요?

육손백언님의 댓글

작성자 육손백언 (118.♡.246.94)
작성일 05.24 13:46
더 악의적으로 쓰여질 것 같은 느낌 드네요

MarginJOA님의 댓글

작성자 no_profile MarginJOA (123.♡.217.182)
작성일 05.24 14:03
딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다

이게 더 충격이네요...

???: 휴먼들아 니들이 블랙박스라 생각하는게 과연 블랙박스일까?

표면장력님의 댓글의 댓글

대댓글 작성자 no_profile 표면장력 (167.♡.233.41)
작성일 05.24 14:26
@MarginJOA님에게 답글 이번에 테슬라 FSD가 E2E로 바뀌었는데 이런 것 때문에 더 불안합니다.

MarginJOA님의 댓글의 댓글

대댓글 작성자 no_profile MarginJOA (123.♡.217.182)
작성일 05.24 14:28
@표면장력님에게 답글 Ai는 관련해서 큰 사고 하나는 날 것 같아요... 그 규모가 얼마만할진 모르겠습니다만...

다시머리에꽃을님의 댓글

작성자 no_profile 다시머리에꽃을 (106.♡.197.165)
작성일 05.24 17:16
아주 간략히 요약하지면 사람과 유사한 사고체계와 답변을 한다는 거네요

사람도 뭐 어떤 관념에(종교 등) 몰두 했읕때 이성적이고 논리적이지 못한 결론에 이르게 되기도 하고요

프로그피쉬님의 댓글의 댓글

대댓글 작성자 프로그피쉬 (112.♡.76.76)
작성일 05.24 18:54
@다시머리에꽃을님에게 답글 저는 많은시간 인공지능과 대화하면서 인간과 같다는 느낌을 받았습니다.
인간의 생각도 저런 원리로 동작한다고 볼 대 결국 사고하는 영혼은 없고 물리종속이라는 의미가 됩니다. 
생물세계의 다양한 지능, 유전자 조합 다양한 복잡성 단계들을 살펴보면 결국 하드웨어의 성능에따라 작용(사고) 레벨이 다른 뿐인 것 같습니다.

렌더님의 댓글

작성자 렌더 (175.♡.223.148)
작성일 05.24 20:33
딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.
이거 보고 좀 무서운 느낌이었는데 생각해보니 사람도 마찬가지군요
사람같아서 무서운 거 였네요 히틀러나 전두환 윤석열같은 AI가 나오지 말란 법이 없겠어요

퐁팡핑요님의 댓글

작성자 no_profile 퐁팡핑요 (211.♡.148.248)
작성일 05.24 21:01
AI 환각증세 현상 분석

셀빅아이님의 댓글

작성자 셀빅아이 (125.♡.200.218)
작성일 05.25 18:43
이게 밝혀지면 엄청난 또 하나의 AI 혁신이 이뤄지는거죠.
원리까지 이해하게 되는거니까요.

충무긴밥님의 댓글

작성자 no_profile 충무긴밥 (180.♡.231.160)
작성일 05.25 23:28
이런 모든 연구들이 안정성을 위해 만들어지고 있으니까, AI를 너무 두려워하실 필요는 없으실 듯 합니다. ㅎㅎ
쓰기 분류
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색