"왕의 몰락" - 클로드 3, 챗봇 아레나에서 GPT-4를 처음 앞서다

아름다운별 (117.♡.24.205)

2024년 3월 29일 PM 02:57 · 수정됨(23:47)

조회 1,437 공감 0

* Ars Technica 기사 - “The king is dead”—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time
https://arstechnica.com/information-technology/2024/03/the-king-is-dead-claude-3-surpasses-gpt-4-on-chatbot-arena-for-the-first-time/

(기사 일부 Claude 3 Opus 번역)

화요일, Anthropic의 Claude 3 Opus 대형 언어 모델(LLM)이 AI 연구자들이 AI 언어 모델의 상대적 능력을 평가하기 위해 사용하는 인기 크라우드소싱 리더보드 Chatbot Arena에서 처음으로 OpenAI의 GPT-4(ChatGPT 기반)를 능가했습니다.

소프트웨어 개발자 Nick Dobos는 GPT-4 Turbo와 Claude 3 Opus를 비교한 게시물에서 "왕은 죽었다"라고 트윗했으며, 소셜 미디어에서 화제가 되고 있습니다. "GPT-4에게 명복을 빕니다."

GPT-4가 2023년 5월 10일경(리더보드는 그해 5월 3일 출시) Chatbot Arena에 포함된 이후, 지금까지 GPT-4 변형들이 꾸준히 순위 상위권을 차지해 왔기 때문에, Arena에서 패배는 AI 언어 모델의 비교적 짧은 역사에서 주목할 만한 순간입니다. Anthropic의 작은 모델 중 하나인 Haiku 또한 리더보드에서 성능으로 관심을 끌고 있습니다.

"이번에 처음으로, 고급 작업에 특화된 Opus와 비용 대비 효율적인 Haiku 같은 최고 수준 모델들이 OpenAI가 아닌 업체에서 나왔습니다." 독립 AI 연구원 Simon Willison이 Ars Technica와 인터뷰에서 이같이 언급했습니다. "이것은 고무적인 일입니다. 모두가 이 분야에서 다양한 최고의 업체들로부터 혜택을 받습니다. 하지만 GPT-4는 지금 시점에서 1년 이상 된 모델이고, 다른 누군가가 따라잡는 데 1년이 걸렸습니다."

Chatbot Arena는 UC 버클리, UC 샌디에이고, 카네기 멜론 대학교의 학생들과 교수진 간 협력으로 운영되는 오픈 모델 연구에 전념하는 연구 기관인 대규모 모델 시스템 기구(LMSYS ORG)에서 운영합니다.

https://chat.lmsys.org/

[기사 본문 후략]

* 관련 X 글(트윗) 인용
https://twitter.com/NickADobos/status/1772764680639148285

첨부파일

lmsysorg.jpg 48.2 KB

꿜

꿜리

24.03.29 · 172.♡.222.152

끌로드3 오퍼스가 챗지피티4 보다 번역도 좀 더 부드럽다는 이야기가 있더군요.
마

마리오네티

24.03.29 · 162.♡.114.95

오.....
유

유자볶음밥

24.03.29 · 141.♡.86.153

판세가 금방금방 바뀌네요
훈

훈녀지용 → 유자볶음밥

24.03.29 · 172.♡.223.180

마치 클리앙 하루아침에 망하는것처럼 진행되는가보네요
달

달다

24.03.29 · 172.♡.210.85

아주 치열하군요...
S

striatum

24.03.29 · 172.♡.222.216

재밌네요, 이 친구도 좀 써봐야겠어요.
육

육손백언

24.03.29 · 162.♡.186.206

클로드 3 좋아요
가

가사라

24.03.29 · 172.♡.119.87

저는 Google AI Studio 를 통해 Gemini 1.5 Pro 를 쓰는 중인데 제일 만족스럽습니다.
Claude 3 Opus 와 ChatGPT 4 와 번갈아가며 쓰고 있는데, 차이가 크진 않아도 텍스트 생성과 이미지, 동영상 분석은 종종 더 좋은 결과를 주네요.
토큰수도 1백만개여서 웬만한 책 몇 권은 그냥 올려서 쓰기도 합니다.

이게 공식적으로 배포되는 순간이 되면 아마 ChatGPT 4.5 가 나오겠고, 이렇게 계속 경쟁해나가겠죠.