AI 추론의 약점을 드러낸 Apple 연구 결과
페이지 정보

본문
AI 추론의 약점을 드러낸 Apple 연구 결과
출처:
https://machinelearning.apple.com/research/illusion-of-thinking
논문:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
과학자들은 평소와는 다른 접근 방식을 취했습니다. 표준 수학 테스트에 의존하는 대신 통제된 퍼즐 환경을 개발했습니다. 이를 통해 AI 시스템이 작동하는 방식과 그 한계를 정확히 관찰할 수 있었습니다.
결과는 냉정했습니다. 테스트한 모든 모델이 특정 수준의 복잡성에서 고장이 났습니다. 동일한 문제의 간단한 변형에서는 여전히 잘 작동하지만 성공률은 0%로 떨어집니다.
연구진은 클로드 3.7 소네트, 딥시크-R1, OpenAI o3-mini와 같은 잘 알려진 AI 모델을 분석했습니다. 이 모델들은 모두 동일한 패턴을 보였는데, 작업이 복잡해질수록 성능이 저하되어 결국에는 완전히 실패했습니다.
세 가지 성능 수준 발견
Apple 팀이 확인한 세 가지 성능 영역은 특히 흥미롭습니다. 간단한 문제의 경우, '추론' 기능이 없는 기존 언어 모델은 업그레이드된 언어 모델보다 성능이 훨씬 우수하고 컴퓨팅 파워도 덜 필요했습니다.
추론 모델은 중간 정도의 복잡성에서 강점을 보였습니다. 여기서 추가적인 '사고'의 이점이 분명하게 드러났습니다. 그러나 두 가지 유형의 모델 모두 정말 어려운 작업에서는 똑같이 실패했습니다.
더욱 놀라운 또 다른 현상은 AI 시스템이 처음에는 더 복잡한 문제에 더 많은 '사고 시간'을 소비하기 시작했다는 점입니다. 하지만 붕괴 직전에는 이러한 추세가 역전되어, 작업이 더 어려워졌음에도 불구하고 모델들의 사고 시간이 줄어들었습니다.
이러한 행동은 현재의 추론 접근 방식에 근본적인 한계가 있음을 시사합니다. 이 모델들은 충분한 연산 능력을 갖추고 있었기 때문에 기술적 한계로 인한 문제가 아니었습니다.
AI 두뇌 내부 들여다보기
내부 사고 과정을 분석해보니 더욱 놀라운 사실이 발견되었습니다. 간단한 작업의 경우 AI 시스템은 종종 올바른 솔루션을 빠르게 찾았지만 여전히 대안을 계속 찾았습니다. 이런 종류의 '과도한 생각'은 불필요하게 리소스를 낭비했습니다.
적당히 어려운 문제에서는 반대로 잘못된 접근 방식으로 오랜 시간 시행착오를 겪은 후에야 올바른 해답이 나왔습니다. 특정 복잡도 한계를 넘어서면 모델은 더 이상 올바른 솔루션을 전혀 찾지 못했습니다.
연구진이 AI 시스템에 기성 알고리즘을 제시했을 때도 성능은 거의 개선되지 않았습니다. 이는 다음과 같은 사실을 보여줍니다. 이 문제는 단순히 전략을 찾는 것을 넘어 사고의 근본적인 논리적 단계에 영향을 미칩니다.
이것이 AI 개발에 어떤 의미가 있을까요?
Apple의 연구는 현재 AI 시스템의 실제 사용에 대한 중요한 질문을 제기합니다. 이러한 모델은 일부 벤치마크에서 인상적인 결과를 얻었지만, 그 기능은 예상보다 제한적인 것으로 보입니다.
특히 문제가 되는 것은 기존의 많은 테스트가 데이터 오염으로 인해 위조될 수 있다는 점입니다. AI 시스템은 학습 과정에서 이미 유사한 과제를 본 적이 있기 때문에 이를 해결할 수 있습니다.
따라서 연구자들은 새로운 평가 방법을 선호하며 과장된 기대에 대해 경고합니다. AI 추론 연구에서 실질적인 돌파구가 마련되기 전까지는 현재 시스템의 한계가 분명하게 드러날 것입니다.
저자는 이렇게 말합니다:
이전에는 많은 사람들이 지능형 기계가 곧 모든 직업을 대체할 것이라고 우려했지만, 이번 연구 결과는 훨씬 더 미묘한 그림을 그려줍니다. 이번 연구 결과는 특히 복잡한 사고가 필요한 업무를 하는 모든 사람들에게 안심할 수 있는 결과입니다. 다단계 전략을 개발하는 경영 컨설턴트, 복잡한 법적 소송을 변론해야 하는 변호사, 불분명한 증상의 경우 조사 진단 작업을 수행하는 의사 모두 당분간은 안도의 한숨을 쉴 수 있을 것입니다. Apple 연구원들은 인간이 강점을 발휘하는 복잡한 사고 작업에서 AI 시스템이 정확히 실패한다는 것을 보여주었습니다.
창의적인 직업과 대인 관계 활동 역시 여전히 인간의 영역입니다. 인공지능은 텍스트를 생성하거나 이미지를 생성할 수는 있지만, 진정한 혁신을 만들어내는 미묘하고 맥락에 맞는 사고에는 실패합니다. 감성 지능과 자발적 적응에 의존하는 치료사, 교사 또는 영업사원도 직업을 유지할 가능성이 높습니다.
그러나 반복적이고 표준화된 업무는 상황이 다릅니다. 이 연구가 모든 것을 명확하게 설명해주지는 않습니다. 주로 데이터를 입력하거나 간단한 일상적인 의사 결정을 내리는 사무원은 계속해서 변화를 예상해야 합니다.
-- DeepL 번역
도시님의 댓글의 댓글
가사라님의 댓글

(저는 "LLM 이 충분히 똑똑하지 않다고 내세웠던 문제에 대해 LLM 을 잘 쓰면 충분히 해결할 수 있으니 억지로 까지 마라" 라고 해석했습니다.)
-----
- Apple 논문의 특정 주장(LLM이 자연어 추론 방식으로 복잡한 퍼즐을 풀 때 한계에 부딪힌다는 것) 자체는 인정합니다. 즉, 논문이 보여준 그래프와 결과(특정 복잡성 이상에서 모델이 실패하고 '과잉 사고'를 하거나 토큰 사용이 줄어드는 현상)는 사실로 받아들입니다.
- 그러나 Apple 논문이 'LLM은 충분히 똑똑하지 않다'는 결론을 내리기 위해 '제한된 평가 기준'을 사용했다는 점을 비판합니다. 특히 LLM의 중요한 능력 중 하나인 '코드 생성 능력'을 평가에서 완전히 배제한 것이 가장 큰 문제라고 지적합니다.
- 유튜버는 LLM이 스스로 코드를 작성하여 퍼즐을 해결하는 시연을 통해, "LLM을 잘 활용(특히 코드 생성 능력)하면, Apple 논문이 지적한 '충분히 똑똑하지 않다'는 한계를 상당 부분 우회하여 해결할 수 있다" 는 것을 보여주었습니다.
유튜버는 Apple이 LLM의 지능을 평가하는 데 있어 전체적인 그림을 보지 않고, 자신들의 주장을 뒷받침할 수 있는 특정 측면(자연어 추론을 통한 퍼즐 해결)에만 초점을 맞추어 LLM의 능력을 과소평가했다고 암시하는 것입니다. 즉, LLM의 '사고의 환상'을 주장하는 것은 논문이 제시한 실험 조건 내에서는 타당할 수 있으나, LLM의 다양한 문제 해결 능력을 고려할 때 그 결론이 너무 일반화되었다고 지적하는 것입니다.
존슨앤존슨님의 댓글

LLM 내부에 있는 수학적 지식을 통해서 추출하는 것이라서,
디스틸 모델에 가깝다고 보는입장이라,
아예 없는 퍼즐을 제공해서 풀게하는 것이 유의미 한듯하네요 ㄷㄷ
그렇지만 세상에서 "아예 없는 문제"는 그리 많지 않죠. ㄷㄷㄷ
침소봉대한 느낌
핫산V4님의 댓글

얼마전 친구가 업무용으로 쓰라고 던저준 파이썬 프로그램이 하나 있습니다
그런데 저는 파이썬=리볼버 말곤 모르는 사람이고
코딩의 ㅋ도 모르는데
Gpt도움 열심히 받으니
어느정도 수정이 되더군요??
정말 신기한 경험이였습니다
제가 뭔가를 만들어야지 생각하면
예전엔 용접 배워 그라인더 쓰는법 배워
공구 쓰는법부터 알아야 되는데
Ai는 원하는 것만 생각하고 주문하면
어디선가 파키스탄 형님들이 와서
뚝딱 만들어주고 가는 느낌입니다
그런데 가끔 결과물이........상태 안좋긴 하지만요
MarginJOA님의 댓글

이번에 6년만에 나온 메리 미커의 Ai 트렌드 보고서의 일부를 보면 대부분 알고 있는 내용이지만
OpenAI를 포함해서 쏟아붓는 돈에 비해 턱없이 모자란 수입으로 허덕허덕 하는 얘들이 대부분이죠
그리고 몇 년동안 뭐하고 있냐? 했던 구글이 갑자기 확 앞서나가기 시작한 것도 불과 1~2달 전 일이고요
열심히 길만 닦다가 정작 그 길 밖으로 나자빠지는 얘들이 태반이 넘을거고
뒤에서 정비하고 주유하면서 기다리던 얘들이 포장된 도로 위를 달려나가리라 생각합니다
그 달려나가는 얘가 애플일까? 하면 가능성이 높다고 보고요
뭐 저도 작년 말부터 누구보다 빠르게 강하게 애플을 줘 패고 있긴 합니다만 ㅋㅋ
Allison님의 댓글의 댓글
설익은 기술이었던...
아몰레드화면
폴더블디스플레이
안써서 기술력 구리다는 얘기와 비슷한 느낌..ㅎㅎㅎㅎㅎ
widesea님의 댓글

굳이ai 에서 실패한 애플이 ai 까는 소식을? 이라는 선입견이 생겨버리네요. ^^;;
아리아리션님의 댓글

젬민아 이거 예외처리 해줘 라고 했더니
스크립트 100줄짜리를 만들어놨고 엄청 잘 동작하더라구요 ㅋㅋㅋ
AI를 Assistant 로 쓰면 활용도가 넘사벽인데 말이죠.
ninja7님의 댓글

AI는 아직 기초적인 서비스(대중적 생산성으로는 수익이 나지 않는)라서 애플은 간을 더 오랜 기간 볼 거 같은 생각이 듭니다.
테슬라가 세상 모든 전기차를 잠식 할 것 처럼 자본의 집중을 보여줬지만, 여전히 시장 대세는 내연기관인거 처럼요.
그리고 상당기간 지속될 예정이니...
ACIDBURN님의 댓글

chatgpt, gemini등이 배제된 이유가 궁금해서, 논문에 사용된 동일한 프롬프트를 가지고 chatgpt, gemini에서 테스트해봤습니다.
chatgpt와 gemni 모두 전체 풀이를 제공하지 않습니다. N=10일 경우에도 1000라인이 넘어가고, N=1000정도로 확대하면 우주의 원자갯수 쯤 되는 라인이 필요하므로, chatgpt와 Gemini는 프롬프트에서 주어진 대로 무식하게 재귀풀이를 반복하는 풀이를 만들지 않고, 이것을 풀수 있는 코드를 제공하는 것으로 답변을 대신합니다. 어떻게해도 프롬프트대로 무식하게 풀이를 진행하게 하는 것이 안되더라고요.
그런데, 사실 이게 정답은 아니지만, 합리적 답변입니다. 그래서 chatgpt와 gemini를 배제한 것 아닐까 싶습니다.
rymerace님의 댓글