수능 수학문제 몇 개를 LLM 들에게 던져줘봤습니다.

알림
|
X

페이지 정보

작성자 가사라 112.♡.211.243
작성일 2024.11.14 23:55
1,005 조회
0 추천
글쓰기

본문

Google AI Studio (Gemini 1.5 Pro 002), Perplexity 수학모드 (GPT 4o), Claude 3.5 Sonnet 으로 해봤고요.

(YouTube 에 보니 수학선생님들이 풀이영상을 올려주셨길래 그거와 대조해봤습니다.)


Claude 는 초반부터 오답이 나와서 그냥 제외시켰습니다.


1번부터 7번까지는 둘 다 답과 설명도 정확했고요.

8번은 둘 다 서로 다른 오답을 냈는데 선택지안에 답이 없다는 답변을 하네요.

log 로 표현된 식에서 두 실수를 구해야 하는 문제였고요.

Google AI Studio 는 선택지에 답이 없어서 선택을 못한다고 하고, Perplexity 는 자기가 낸 오답에서 가장 가까운 선택지를 골라주는데 이런 행동은 재미있더군요.


그리고, 9, 10번은 잘 풀었는데 11번은 Google AI Studio 는 틀리고 Perplexity 는 맞췄습니다.

미분문제였는데 Google AI Studio 는 정작 다 풀고서 맨 마지막에 간단한 뺄셈을 틀렸더군요.


그 뒤로 12번은 둘 다 잘 풀다가 13번과 14번은 둘 다 똑같은 오답을 냈습니다.

둘 다 기하문제인데, 아마 기하문제에 접근하는 로직이 똑같아서 그런거 같네요.


대강 여기까지 해봤고 추가로 20번 문제와 30번 문제도 풀어보게 했는데 뭐 완전 엉뚱한 길로 빠지네요.


GPT 유료가입이 끝나서 o1 으로는 못풀어봤는데 아마 o1-preview 혹은 o1 정식이 나와서 그때 다시 풀어보게 하면 훨씬 결과가 낫지 않을까 싶고요.

Google Deepmind 도 무슨 수학대회가서 우승을 했다던가 하는 수학전용 모델도 가지고 있던데 그런게 일반소비자용 LLM 을 통해 서비스될지는 의문이지만 경쟁이 붙으면 서비스 해주겠죠.


수학을 AI 에게 전적으로 맡기는건 아직 요원한거 같은데, 그래도 얼마전과 비교하면 천지차이 같습니다.


요즘 AI전문가들마다 예측하는 AGI 출현시기가 점점 앞당겨지던데 기대를 해야할지 두려워해야할지 암튼 그렇습니다.

  • 게시물이 없습니다.
댓글 4 / 1 페이지

ASTERISK님의 댓글

작성자 ASTERISK (221.♡.211.119)
작성일 어제 23:59
조만간 각 LLM별로 수능 성적 나올것 같습니다.
유튜버가 하든 기업이 하든...

가사라님의 댓글의 댓글

대댓글 작성자 가사라 (112.♡.211.243)
작성일 00:09
@ASTERISK님에게 답글 수능지수 아이디어는 재미있네요.
제가 시간만 되면 그런 지수지표 사이트 하나 만들어보고도 싶습니다.

lioncats님의 댓글

작성자 no_profile lioncats (59.♡.43.199)
작성일 00:55
아직 agi가 나오려면 한참 멀었고 챗지피티도 부족한게 많은데 모든게 가능한 만능신이자 강인공지능인양 숭배하는게 참 무섭습니다

lioncats님의 댓글의 댓글

대댓글 작성자 no_profile lioncats (59.♡.43.199)
작성일 01:03
@lioncats님에게 답글 물론 챗 gpt를 비롯한 현 ai나 ai활용기술이 그대단한것도 맞고 엄청난 노력을 들인것은 맞는데 막 경배하고 모든게 다 가능한 만능에 곧 강인공지능이 된다 떠받드는건 아닌 것 같아요
글쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색