착시 이미지를 LLM 에게 던져줘 봤습니다.
알림
|
페이지 정보
작성일
2024.07.02 20:54
본문
(이미지는 위에서부터 착시이미지, ChatGPT 4o, Claude 3.5 Sonnet, Gemini 1.5 Pro 순서입니다.)
LLM 들에게 던져준 이미지는 착시로 유명한 이미지인데 두 여자아이의 피부색은 동일하지만, 인간의 눈에는 매우 극적으로 달라보이는 착시이미지입니다.
결과를 보면 LLM 들도 인간들과 똑같은 착시를 겪는 것으로 보이네요.
저는 LLM 의 multi-modality 가 이미지나 동영상등을 단위패턴으로 token 화하고 이를 임베딩시켜서 패턴을 찾는 것으로 이해하고 있는데요.
결과로 비추어보면 LLM 들은 이미지를 픽셀단위로 직접 분석하는게 아니라 인간과 유사한 인지체계로 multi-modality 를 구축한 것으로 봐도 되는거 아닌가 싶네요.
이게 LLM 의 한계로 작용할지 아니면 보다 자연스러운 인지로 이어지게 될지는 잘 모르겠습니다.
이런 착시가 AI 에게 통한다면, 어떤 일들이 벌어질까요?
암튼 재미있네요.
댓글 11
/ 1 페이지
plaintext님의 댓글
신기하네요 ㅎㅎ
색에 대해 어떤 분석방법을 쓰기에 색상 코드가 아닌 인간의 눈과 같은 결론을 내는지가 궁금해집니다
저건 멀티모달리티 개념으로도 잘 이해가 안가네요 ^^
색에 대해 어떤 분석방법을 쓰기에 색상 코드가 아닌 인간의 눈과 같은 결론을 내는지가 궁금해집니다
저건 멀티모달리티 개념으로도 잘 이해가 안가네요 ^^
가사라님의 댓글의 댓글
뚱굴넓적님의 댓글
두부분을 따로 캡쳐해서 비율 비슷하게 겹쳐서 비교한 것입니다. 완전히 다른 색 맞아요. 저도 이 착시 이전에 봤는데 그때 본 건 이렇지 않았어요. 손바닥으로만 가리고 봐도 같은 거 확인 가능했지요. 아마 이미지가 돌아다니다가 캡쳐하는 와중에서 변형된 것 같네요. 선택유무에 따라서 하이라이트 되고 안되고 하잖아요.
지피티한테 원본 파일 찾아서 다시 물어봐야할거같네요. ㅋ
지피티한테 원본 파일 찾아서 다시 물어봐야할거같네요. ㅋ
가사라님의 댓글의 댓글
nah123님의 댓글
정말 놀라운 결과입니다. 인간이 빛으로 사물을 인지하는 메커니즘과 AI가 이미지를 인식하는 메커니즘이 크게 다르지 않을 수 있다는 거네요. 비선형적인 패턴을 인식하는 데 있어 기계가 사람을 닮았다기보다 사람이 기계적인 패턴 인식을 한다고 보이기도 합니다. AI의 사물 인식은 인간이 사물을 인식하는 과정을 모방한 것이 아니죠. 비선형 패턴 인식을 통해 학습한 것입니다. 인간이 사물 인식 중 발생한 오류(착시)가 기계에도 똑같은 오류로 발생한다면, 인간과 AI가 같은 알고리즘을 사용한다고 봐도 되지 않을까요? 우리의 몸도 이렇게 수학적이라면 정말 인간의 존재도 코딩 속에 있는 것일까요??
kungmo님의 댓글
되게 신기하네요. 당연히 기계적으로 색을 숫자의 조합으로 인식할 줄 알았는데 사람처럼 착시까지 가지고 있다니요.
meinside님의 댓글
엔도스켈톤들의 착시를 유발하여 살 길을 모색해 나가는 인류의 모습을 상상해볼 수 있겠군요.