챗GPT가 달라졌다 … 수능국어 8등급서 올해는 1등급

알림

아름다운별 175.♡.19.233

2024.11.20 16:02

5,437

쓰기

* GitHub 링크

https://github.com/Marker-Inc-Korea/Korean-SAT-LLM-Leaderboard

* 아래부터 매일경제 기사 내용 일부

https://v.daum.net/v/20241119174804612

https://www.mk.co.kr/news/it/11172587

오픈AI 최신모델 'o1프리뷰'

국어영역 1문제 틀린 97점

여러개 지문 비교문항도 척척

더많은 시간 생각하도록 훈련

6개문항 푸는데 1분10초 걸려

"언어능력 곧 인간 능가할것"

인공지능(AI) 추론 능력이 날로 개선되면서 대학수학능력시험에서 국어 영역 1등급을 받는 수준까지 올라섰다. 19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 '수능 국어 LLM 리더보드'에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025학년도 수능 국어 영역에서 원점수 97점으로 1등급권에 안착했다. 올해 수능 국어 영역에서 단 한 문제만 틀리고 모두 맞힌 셈이다. 선택 과목은 '화법과 작문'으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

복잡한 추론이 필요한 수능 국어에서 기존 AI는 3~9등급 사이 점수를 받으며 고전해 왔는데, 최근 AI의 추론 능력이 비약적으로 발전하면서 o1-프리뷰 모델이 고득점 획득에 성공한 것이다. 챗GPT 기존 모델인 GPT-4o (2024년 5월 출시)모델은 2023~2024학년도 수능에서 모두 중위권 학생 수준인 4등급을 기록했다.

이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다. 마커AI 소속 개발자는 블로그를 통해 "2025학년도 수능에서 기록한 97점이라는 점수는 LLM의 한국어 능력이 인간을 뛰어넘을 시기가 머지않았음을 보여준다"고 평했다.

[이후 내용 생략]