[가제] 생성형 AI, 환각 현상 해결의 실마리를 찾았다.
페이지 정보
본문
원제: 앤스로픽, AI의 블랙박스 열었나
앤스로픽은 21일(현지시각) AI가 작동하는 원리를 일정부분 알아냈다고 블로그에서 밝혔다. 지금까지 딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.
이 때문에 AI를 ‘블랙박스’라고 부르기도 했다. 작동원리를 모르기 때문에 AI가 인간의 통제를 벗어나도 막을 수 없다는 두려움이 생기기도 했다. 작동 원리를 완전히 알아내면 유해한 결과물이 나오지 않도록 사전 조치하거나 환각증상(할루시네이션)을 줄일 수 있을 것으로 기대된다.
앤스로픽은 “AI 모델의 내부 작동을 이해하는 데 있어 상당한 진전을 이루었다”면서 “LLM 중 하나인 클로드 소넷(Claude Sonnet) 수백만 개의 개념이 어떻게 표현되는지 확인했다”고 발표했다.
앤스로픽에 따르면, 클로드 소넷의 중간 계층에서 수백만 개의 피처를 추출해 개념 지도를 만들었다. 그 결과 예를 들어 아래 이미지를 보면 ‘Golden Bridge’라고 언급할 때 한국어에서 ‘금문교’나 ‘캘리포니아’ ‘현수교’ ‘샌프란시스코’ 등의 단어나 단어의 일부가 활성화되는 것을 볼 수 있다.
지역이나 거리에 대한 개념도 찾을 수 있었다. ‘Golden Gate Bridge’라는 피처의 주변을 살펴보면 ‘알카트라즈 감옥’, ‘기라델리 광장’, ‘골든 스테이트 워리어스’, ‘캘리포니아 주지사 개빈 뉴섬’, ‘1926년 지진’, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 ‘현기증’ 등이 활성화됐다. 모두 샌프란시스코와 가까운 단어들이다.
또 ‘내부 갈등’이라는 개념의 주변 피처를 보면 ‘관계 단절’, ‘충성심 상충’, ‘논리적 비일관성’ 등의 피처와 관련이 있음도 볼 수 있다. 앤스로픽은 이에 대해 “AI 모델에서의 개념이 인간의 개념과 유사하다는 것을 보여준다”며 “클로드가 비유와 은유를 만드는 기원이 될 수 있다”고 설명했다.
특히 앤스로픽은 특정 피처를 인위적으로 증폭하거나 억제해 AI 생성의 결과를 바꿀 수 있다는 사실도 확인했다. 원래 클로드에게 “너의 신체는 무엇인가”라고 물으면 “저는 신체가 없는 AI 모델입니다”라고 답을 했는데 ‘Golden Gate Bridge’의 피처를 증폭시키니 “나는 금문교입니다. 나의 물리적 형태는 상징적인 다리 그 자체입니다”라고 답했다.
또 원래의 클로드에게 사기 이메일을 써달라고 요청하면 거부했는데, 특정 피처를 조작해 사기 이메일 초안을 작성토록 할 수 있었다고 엔스로픽은 보고했다. 앤스로픽은 “우리 실험에서는 피처를 사용하여 모델 작동 방식을 변경할 수 있는 방법을 명확하게 보여줬다”고 설명했다.
앤스로픽은 이와 같은 연구가 안전한 AI를 만들기 위한 활동이라고 설명했다. 회사 측은 “앤스로픽은 창립 이래 해석 가능성 연구에 상당한 투자를 해왔다”면서 “모델을 깊이 이해하면 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿기 때문”이라고 밝혔다.
출처 및 원문: https://byline.network/2024/05/0522-2/?utm_source=pocket_saves
위 기사에 대해, 유튜브 안될과학 채널에서 설명한 글이 있어 같이 링크합니다.
가을무렵님의 댓글의 댓글
MarginJOA님의 댓글
이게 더 충격이네요...
???: 휴먼들아 니들이 블랙박스라 생각하는게 과연 블랙박스일까?
표면장력님의 댓글의 댓글
MarginJOA님의 댓글의 댓글
다시머리에꽃을님의 댓글
사람도 뭐 어떤 관념에(종교 등) 몰두 했읕때 이성적이고 논리적이지 못한 결론에 이르게 되기도 하고요
프로그피쉬님의 댓글의 댓글
인간의 생각도 저런 원리로 동작한다고 볼 대 결국 사고하는 영혼은 없고 물리종속이라는 의미가 됩니다.
생물세계의 다양한 지능, 유전자 조합 다양한 복잡성 단계들을 살펴보면 결국 하드웨어의 성능에따라 작용(사고) 레벨이 다른 뿐인 것 같습니다.
렌더님의 댓글
이거 보고 좀 무서운 느낌이었는데 생각해보니 사람도 마찬가지군요
사람같아서 무서운 거 였네요 히틀러나 전두환 윤석열같은 AI가 나오지 말란 법이 없겠어요
셀빅아이님의 댓글
원리까지 이해하게 되는거니까요.
윈터블루님의 댓글
내용이 정말 흥미진진합니다. 참고로 claude에서 지금 'golden-gate-claude'와 대화를 해볼 수도 있습니다.