알리바바 Qwen, 오픈소스 시각 추론 AI 모델 QVQ 공개

알림
|
X

페이지 정보

작성자 아름다운별 175.♡.35.230
작성일 2024.12.26 08:10
분류 IT
1,228 조회
0 추천
쓰기

본문

[관련 링크 모음]

* 데모 페이지 - https://huggingface.co/spaces/Qwen/QVQ-72B-preview

* 모델 다운로드 - https://huggingface.co/Qwen/QVQ-72B-Preview

* 소개 페이지 - https://qwenlm.github.io/blog/qvq-72b-preview/


* The Decoder 기사

Qwen's open-source QVQ rivals OpenAI and Google's best models in visual reasoning

https://the-decoder.com/qwens-open-source-qvq-rivals-openai-and-googles-best-models-in-visual-reasoning/

# 내용 일부 GPT-4o 번역 후 수정


알리바바의 AI 연구팀 Qwen에서 이미지를 해석하고 결론을 도출할 수 있는 오픈소스 모델 QVQ-72B-Preview를 발표했습니다. 실험 단계에 머물러 있지만, 초기 테스트에서는 시각적 추론 작업에서 우수한 성능을 보였습니다.


QVQ-72B-Preview는 Qwen이 개발한 기존 비전-언어 모델 Qwen2-VL-72B를 바탕으로 만들어졌으며, 여기에 사고와 추론 기능이 더해졌습니다. Qwen은 이 모델이 해당 분야에서 최초의 오픈소스 모델이라고 주장합니다. 최근 공개된 QwQ 추론 모델과 비슷해 보이지만, 두 모델 간의 관계에 대해 구체적으로 설명하지는 않았습니다. [중략]


테스트 결과, QVQ는 이전 모델 Qwen2-VL-72B-Instruct를 전반적으로 능가했으며, OpenAI o1이나 Claude 3.5 Sonnet과 같은 비공개 모델과 비슷한 정확도를 기록했다고 합니다. [나머지 내용 생략]


QVQ-72B-Preview 모델 벤치마크 결과 이미지입니다.




* 알리바바 Qwen 공식 X(트위터) 계정이 올린 글

https://x.com/alibaba_qwen/status/1871602879972405626

댓글 0
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색