허깅페이스, 새 LLM 챗봇 리더보드 발표: 알리바바 모델 우세

* Tom's Hardware 기사

Chinese AI models storm Hugging Face's LLM chatbot benchmark leaderboard — Alibaba runs the board as major US competitors have worsened

https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-llms-storm-hugging-faces-chatbot-benchmark-leaderboard-alibaba-runs-the-board-as-major-us-competitors-have-worsened

[기사 내용 일부 Claude 3.5 Sonnet 번역 후 다듬음]

허깅 페이스가 최고의 언어 모델을 선별하기 위한 두 번째 LLM 순위표(리더보드) [1] 를 공개했습니다. 이번 신규 순위표는 여러 과제에 걸쳐 오픈 대형 언어 모델(LLM)의 능력을 평가하는 더욱 엄격하고 표준화된 기준을 목표로 합니다. 알리바바의 Qwen 모델들이 첫 발표 순위에서 상위 10위권 내 3자리를 차지하며 우세를 보이고 있습니다.

[1] https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

허깅 페이스의 두 번째 리더보드는 언어 모델을 네 가지 분야에서 평가합니다: 지식 시험, 아주 긴 맥락에서 추론, 복잡한 수학 능력, 그리고 지시 수행 능력입니다.

능력을 측정하기 위해 6가지 벤치마크가 있고, 여기에는 1,000단어 분량 살인 미스터리 해결하기, 박사 수준 질문을 일반인도 이해할 수 있게 설명하기, 그리고 가장 어려운 과제로 고등학교 수준 수학 방정식 풀기 등이 포함됐습니다. 상세 정보는 허깅 페이스 블로그 [2] 에서 찾아볼 수 있습니다.

[2] https://huggingface.co/spaces/open-llm-leaderboard/blog

새 리더보드에서 선두를 달리는 것은 알리바바의 LLM인 Qwen으로, 다양한 버전 모델이 1위, 3위, 10위를 차지했습니다.

메타의 LLM인 Llama3-70B도 순위에 올랐으며, 몇몇 소규모 오픈 소스 프로젝트들도 예상 밖 좋은 성과가 있었습니다.

ChatGPT는 이 목록에 등록되지 않습니다. 허깅 페이스 리더보드는 결과 재현성 확보를 위해 비공개 모델은 시험하지 않는 정책이 있습니다. … [이후 내용 생략] …

[아래는 허깅페이스 CEO, Clem Delangue가 X(옛 트위터)에 올린 글]

https://x.com/ClementDelangue/status/1805989925080219927

추가 메뉴

댓글 (0)