[가제] 생성형 AI, 환각 현상 해결의 실마리를 찾았다.

가

가을무렵 (117.♡.24.174)

2024년 5월 24일 PM 12:53 · 수정됨(05. 25. 23:28)

조회 4,027 공감 0

원제: 앤스로픽, AI의 블랙박스 열었나

앤스로픽은 21일(현지시각) AI가 작동하는 원리를 일정부분 알아냈다고 블로그에서 밝혔다. 지금까지 딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.

이 때문에 AI를 ‘블랙박스’라고 부르기도 했다. 작동원리를 모르기 때문에 AI가 인간의 통제를 벗어나도 막을 수 없다는 두려움이 생기기도 했다. 작동 원리를 완전히 알아내면 유해한 결과물이 나오지 않도록 사전 조치하거나 환각증상(할루시네이션)을 줄일 수 있을 것으로 기대된다.

앤스로픽은 “AI 모델의 내부 작동을 이해하는 데 있어 상당한 진전을 이루었다”면서 “LLM 중 하나인 클로드 소넷(Claude Sonnet) 수백만 개의 개념이 어떻게 표현되는지 확인했다”고 발표했다.

앤스로픽에 따르면, 클로드 소넷의 중간 계층에서 수백만 개의 피처를 추출해 개념 지도를 만들었다. 그 결과 예를 들어 아래 이미지를 보면 ‘Golden Bridge’라고 언급할 때 한국어에서 ‘금문교’나 ‘캘리포니아’ ‘현수교’ ‘샌프란시스코’ 등의 단어나 단어의 일부가 활성화되는 것을 볼 수 있다.

지역이나 거리에 대한 개념도 찾을 수 있었다. ‘Golden Gate Bridge’라는 피처의 주변을 살펴보면 ‘알카트라즈 감옥’, ‘기라델리 광장’, ‘골든 스테이트 워리어스’, ‘캘리포니아 주지사 개빈 뉴섬’, ‘1926년 지진’, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 ‘현기증’ 등이 활성화됐다. 모두 샌프란시스코와 가까운 단어들이다.

또 ‘내부 갈등’이라는 개념의 주변 피처를 보면 ‘관계 단절’, ‘충성심 상충’, ‘논리적 비일관성’ 등의 피처와 관련이 있음도 볼 수 있다. 앤스로픽은 이에 대해 “AI 모델에서의 개념이 인간의 개념과 유사하다는 것을 보여준다”며 “클로드가 비유와 은유를 만드는 기원이 될 수 있다”고 설명했다.

특히 앤스로픽은 특정 피처를 인위적으로 증폭하거나 억제해 AI 생성의 결과를 바꿀 수 있다는 사실도 확인했다. 원래 클로드에게 “너의 신체는 무엇인가”라고 물으면 “저는 신체가 없는 AI 모델입니다”라고 답을 했는데 ‘Golden Gate Bridge’의 피처를 증폭시키니 “나는 금문교입니다. 나의 물리적 형태는 상징적인 다리 그 자체입니다”라고 답했다.

또 원래의 클로드에게 사기 이메일을 써달라고 요청하면 거부했는데, 특정 피처를 조작해 사기 이메일 초안을 작성토록 할 수 있었다고 엔스로픽은 보고했다. 앤스로픽은 “우리 실험에서는 피처를 사용하여 모델 작동 방식을 변경할 수 있는 방법을 명확하게 보여줬다”고 설명했다.

앤스로픽은 이와 같은 연구가 안전한 AI를 만들기 위한 활동이라고 설명했다. 회사 측은 “앤스로픽은 창립 이래 해석 가능성 연구에 상당한 투자를 해왔다”면서 “모델을 깊이 이해하면 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿기 때문”이라고 밝혔다.

출처 및 원문: https://byline.network/2024/05/0522-2/?utm_source=pocket_saves

위 기사에 대해, 유튜브 안될과학 채널에서 설명한 글이 있어 같이 링크합니다.

윈

윈터블루

24.05.24 · 211.♡.124.85

https://www.anthropic.com/news/golden-gate-claude
내용이 정말 흥미진진합니다. 참고로 claude에서 지금 'golden-gate-claude'와 대화를 해볼 수도 있습니다.
가

가을무렵 → 윈터블루 작성자

24.05.24 · 117.♡.24.174

이번 금문교 기사나 현재 AI가 겪는 환각 답변 증세는 마치 '인간의 유년기' 시절에 세상을 갓 배우기 시작하는 모습과 너무 닮아서 개인적으로 좀 섬찟합니다. 링크해 주신 내용도 마치 4~5살의 꼬마 아이가 '난 하늘을 날 수 있어'라던가, '난 마법사가 될 거야'라며 진심으로 생각하는 것과 너무 닮지 않았나요?
육

육손백언

24.05.24 · 118.♡.246.94

더 악의적으로 쓰여질 것 같은 느낌 드네요
M

MarginJOA

24.05.24 · 123.♡.217.182

딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다

이게 더 충격이네요...

???: 휴먼들아 니들이 블랙박스라 생각하는게 과연 블랙박스일까?
런

런타임 → MarginJOA

24.05.24 · 167.♡.233.41

이번에 테슬라 FSD가 E2E로 바뀌었는데 이런 것 때문에 더 불안합니다.
M

MarginJOA → 런타임

24.05.24 · 123.♡.217.182

Ai는 관련해서 큰 사고 하나는 날 것 같아요... 그 규모가 얼마만할진 모르겠습니다만...
다

다시머리에꽃을

24.05.24 · 106.♡.197.165

아주 간략히 요약하지면 사람과 유사한 사고체계와 답변을 한다는 거네요

사람도 뭐 어떤 관념에(종교 등) 몰두 했읕때 이성적이고 논리적이지 못한 결론에 이르게 되기도 하고요
K

KyleDev → 다시머리에꽃을

24.05.24 · 112.♡.76.76

저는 많은시간 인공지능과 대화하면서 인간과 같다는 느낌을 받았습니다.
인간의 생각도 저런 원리로 동작한다고 볼 대 결국 사고하는 영혼은 없고 물리종속이라는 의미가 됩니다.
생물세계의 다양한 지능, 유전자 조합 다양한 복잡성 단계들을 살펴보면 결국 하드웨어의 성능에따라 작용(사고) 레벨이 다른 뿐인 것 같습니다.
렌

렌더

24.05.24 · 175.♡.223.148

딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.
이거 보고 좀 무서운 느낌이었는데 생각해보니 사람도 마찬가지군요
사람같아서 무서운 거 였네요 히틀러나 전두환 윤석열같은 AI가 나오지 말란 법이 없겠어요
퐁

퐁팡핑요

24.05.24 · 211.♡.148.248

AI 환각증세 현상 분석

댓글을 작성하려면 이 필요합니다.

새로운 소식

추가 메뉴

댓글 (12)