AI당

(탄핵 재표결 오늘)   🔥 제목 시위는 [말머리] 또는 임시게시판(불타는앙)을 이용바랍니다.

오늘자 LMSYS 리더보드 살펴보기

알림
|
X

페이지 정보

작성자 가사라 112.♡.211.243
작성일 2024.08.29 16:33
분류 잡담
417 조회
1 추천
쓰기

본문

요즘 LLM 들은 순위가 어떻게 되나 살펴봤습니다.

lmarena.ai 에서 NEW: Overview 탭을 보면 순위 개요를 보여주는데 비교의 목적으로 보기에는 참 좋습니다.


1위는 여전히 ChatGPT 4o latest 가 하고 있네요.

2위는 Gemini 1.5 Pro exp-0827 인데, 이전 버전인 exp-0801 와 비교해보니 많은 개선이 있었나봅니다.

Coding, Math 와 Longer Query 가 좋아졌군요.

같은 2위권인 Grok 2 도 골고루 좋은 성능을 보입니다.


그 다음 6위권 순위로는 Gemini 1.5 Flash exp-0827 이 눈에 띄는데, 무료 플랜으로 API 를 써도 꽤 괜찮은 선택지가 될 거 같습니다. (물론, 무료플랜을 쓰면 입력내용이 모두 학습데이터로 이용되겠지만요.)

Claude 3.5 Sonnet 20240620 은 전체 7개 항목중에 1개 항목이 쳐져서 그만 6위권으로 내려왔네요.

슬슬 다음 버전 내놓아야 할 때가 된 거 같고요.


그 다음에 나오는 Gemini 버전들은 아마 Gemini 웹사이트에서 쓰이는 버전이 아닐까 싶은데 상당히 하위권에 위치해있네요.

지금 돈내고 Gemini 웹사이트에서 서비스를 쓰는건 비추천이겠습니다.

쓰시려면 최소한 현재 exp 버전 급이 정식서비스되기를 기다리는게 좋겠네요.


Llama 3.5 405b 는 상당히 기대를 받던 모델인데 7위권에 머무네요.

자본을 빛의 속도로 태우고 있는 상용버전들과 오픈소스버전의 차이가 점점 벌어지는게 아닌가 싶습니다.

LLM 보다는 그 다음 모델형태에 관심이 있어보이는 Llama 자리를 Grok 이 대체할지도 모르고요.


Mistral 은 이제 관심권에서 많이 멀어진 듯 보입니다.



조만간 나온다는 GPT 5 가 나오면 또 새로운 경쟁의 장이 펼쳐지겠네요.


댓글 1 / 1 페이지

컨텍스트님의 댓글

작성자 컨텍스트 (125.♡.41.31)
작성일 08.29 22:15
정보 감사합니다.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색