[AI 그림 헛소리] 왜 AI는 손가락을 잘 그리지 못할까
페이지 정보

본문
굥이 구속 취소되고 나라가 혼란한 중에 있습니다. 하지만 모든 일은 제자리로 돌아갈 것입니다. 탄핵은 인용될 것이고, 굥은 그가 저지른 다른 범죄로 다시 구속될 것입니다. 모든 것은 시간문제이고 다만 그걸 지나가는게 고통스러울 뿐입니다. 모두 노력하시는 대로 그 성과를 우리가 얻을 것입니다.
이런 상황에서 숨 좀 돌리시라고 헛소리나 좀 해볼까 합니다. AI 그림을 종종 돌려보면서 들었던 생각을 뇌피셜로 정리해볼 글입니다. AI에 관심이 1이라도 있으시다면 약간 재밌을 것이라고 기대합니다.
2년전 스테이블디퓨전이 AI 그림의 혁명이라 불리며 대중화되었습니다. 그 이후 AI 그림 모델도 실사, 애니메이션 등의 모델로 구체화되고 발전의 길을 걷고 있습니다. 최근에는 Wan 2.1이라는 소비자용 그래픽 카드에도 너끈히 돌아가는 비디오 생성형 모델이 나와서 시장의 주목을 받고 있습니다. 아직 텍스트 2 비디오는 아주 만족할 만할 결과를 내진 못하지만 이미지 2 비디오는 꽤나 만족스런 결과물을 만들어낸다고 합니다. 저같은 저렴이 비디오 카드를 보유한 사람은 엄두도 못내지만, 전세계 많은 유저들이 올리는 생성물을 보고 있으면 놀랄 수 밖에 없습니다.
아무튼 AI 그림/비디오는 LLM만큼이나 빠른 속도로 발전하고 있습니다. 그런데 한 가지 여전히 재밌는 점은, AI는 손가락을 잘 그리지 못합니다. 2년 전에도 그랬고 많이 좋아진 현재도 그렇습니다. 현재의 수준을 구체적으로 표현하자면, 완벽히 그리진 못합니다. 모델의 사이즈도 커지고 학습데이터도 커지고 데이터 정제도 열심히 하고 있기 때문에 발전하고 있지만, 아직도 AI 그림을 보면 여섯 손가락, 일곱 손가락이 나옵니다. 이게 발로 가면 더욱 심각해집니다. 발가락을 그리라고 하면 여지없이 여섯 발가락, 일곱 발가락이 나오곤 합니다. 그럼 도대체 AI는 어지간한 건 다 잘 그리면서 왜 손가락과 발가락은 잘 그리지 못할까요. 2년이 지났음에도 완벽해지지 않았을까요.
제가 생각하는 정답은, 인간이 그렇게 데이터를 마련해두지 않았기 때문입니다. 인간의 손가락은 몇 개일까요. 한 손에 5개씩, 10개입니다. 이건 너무 자명한 사실이죠. 이런 자명한 사실은 굳이 표기해두지 않습니다. 이건 AI가 어려움을 겪는 왼손과 오른손도 마찬가지입니다. 사람은 그림을 보면 아주 당연하게 왼손과 오른손을 직관적으로 구별할 수 있고 손가락을 5개로 그립니다. 인간에게는 너무 당연한 일입니다.
그런데 이 당연한 일이 AI에겐 학습데이터가 됩니다. AI에게 좋은 그림 데이터를 먹이겠다고 그림도 깔끔하게 만들고 누끼도 따고 정갈한 데이터를 마련하는 사람들이 많습니다. 하지만 그런 사람들도 손가락이 몇 개인지 이 손이 왼손인지 오른손인지는 표기하지 않습니다. 태그로든 자연어로든 말이죠. 그럼 AI는 이 데이터를 보고 그림체를 학습하고 거기에 달려있는 자연어 설명이나 태그를 학습합니다. 즉, AI가 학습하는 데이터에는 손가락 갯수나 손의 위치에 따른 구별이 입력되어 있진 않습니다.
(이러한 한계점은 어느 정도의 지도학습을 통해 해결할 수 있을 거 같습니다만, 이런 방식으로 그림 AI를 만드는 건 못 들어본 거 같습니다.)
AI 그림을 찍어내면서 또는 학습하는 데이터를 찾고 마련하는 과정을 지켜보면서, 개인적으로 LoRA를 한두개 만들어보면서 내린 결론이 위와 같습니다. 그런데 여기서 한가지 재밌는 그림 AI 모델이 있습니다. 바로 위에서 말한 '손가락 갯수'의 태그 정보를 가지고 있는 AI 모델이 몇몇 있습니다. 분명히 저는 위에서, '우리는 사람이기에 너무 당연한 사실을 설명이나 태그로 남기지 않는다'라고 했는데, 이 모델은 제가 세운 전제를 깨버립니다. 왜 그 모델은 그 당연한 사실을 학습정보에 포함시켰을까요.
바로 그들이 학습시키는 그림과 그림으로 뽑아내는 대상이 '퍼리'이기 때문입니다. '퍼리' 즉 인간의 모습을 어느 정도 갖춘 동물을 그리는데 있어서 손가락 갯수나 발가락 갯수는 매우 중요합니다. 인간과 손가락(?)의 갯수가 다르고 종족에 따라서 손가락이 3개일 수도 4개일 수도 있습니다. 그러다보니 그들은 자신의 학습데이터에 손가락 갯수를 표기했고, 이 모델로 인간을 그려도 이 손가락 정보를 활용할 수 있습니다. 손가락이 많거나 적으면 수정할 수 있다는 겁니다. 굉장한 장점을 가진 모델이죠. (단점은, 퍼리 관련 정보가 너무 많다는 것 정도일까요)
이런 모델의 학습데이터와 뽑아낸 결과물을 보면, 다음과 같은 결론을 낼 수 있습니다. 아무리 좋은 데이터를 만든다 하더라도 메타데이터(자연어 설명 혹은 태그 정보)를 어떻게 입력하느냐에 따라서 모델이 가진 능력이 달라질 수 있고, 데이터를 정제하고 가공하는 과정에서 어떤 부작용이 나올지 예측해보는 것 역시 매우 중요하다는 겁니다. AI가 손가락을 잘못그린다고 비난을 받았지만(?) 사실 그건 학습데이터를 보다 꼼꼼하게 체크하지 못한 일반인(?)들의 불찰이었습니다. 퍼리덕후들은 그런 걸 극복했다는 것에서 배울 필요가 있는 겁니다.
이런 사소한 것으로부터 우리는 AI를 학습하고 활용하는데 있어서 데이터가 얼마나 중요한지, 왜 데이터의 사용과 저작권에 대해서 민감한 대립이 벌어질 수 있는지로 이야기를 확장할 수 있습니다. 당장 AI그림 모델을 만드는 사람들이 사용하는 그림에 대해선 저작권을 지불하지 않았고, 그래서 보통 AI그림 모델은 오픈소스로 풀립니다. 그리고 오픈소스로 풀리지 않으면 이 바닥 유저들에게 욕을 먹습니다. AI의 영역이 더 확대되어 가기 전에 이런 문제는 사회적 합의로 해결되어야만 합니다. 당장 메타의 AI 라마는 책 해적사이트인 Libgen의 데이터를 활용한 것으로 드러났음에도, 이 문제에 대해 덮어두고만 있습니다.
글이 딴 길로 좀 새긴 했습니다만, 이만치 손가락 문제가 중요합니다(?).
수필님의 댓글의 댓글
하늘걷기님의 댓글

그래서 얼굴이나 몸보다 학습할 자료도 현저히 적을 겁니다.
수필님의 댓글의 댓글
수필님의 댓글의 댓글
지나가는사람입니다만님의 댓글

가랑비님의 댓글

잘못된 데이터를 몰래 학습시켜야 겠군요.ㅎ.
잘못된 생각, 잘못된 논리, 데이터해석으로 말하면
2찍님들의 글이 완벽한 샘플일텐데요.
그들의 말도 안되는 논리가 인류를 AI로부터 구하는
실마리가 될지도 모르겠다...
라는 뻘 생각을, 나름한 오후에 월급루팡하면서
적어봅니다.
달붕이님의 댓글


손가락... 때문에 현타 오~지게 와서 접었다가 Flux 라는 게 '손가락 타율 대폭 개선' 되었다는 소문 듣고... 다시 뽑아보는 중 입니다.
아직 완벽하진 않지만 SD1.5에 비하면 40% 정도 ?! 개선 된 느낌 이네요.
bono7님의 댓글

sdxl로 넘어가니 손가락은 거의 잘 나오고 발가락만 좀 아쉬울뿐이더군요.
결론은 퍼리퍼리퍼리야군요?
Typhoon7님의 댓글