DeepSeek R1 이 OpenAI o1 에 필적하는 성능을 내네요.

알림
|
X

페이지 정보

작성자 가사라 112.♡.211.243
작성일 2025.01.21 11:37
분류 정보
231 조회
0 추천

본문

방금 o1 으로 잘 안풀려서 꽤 오랫동안 시간을 끌었던 추론문제를 하나 시켜봤는데 꽤 근사하게 잘 풀어내네요.

70초 정도 걸려서 1차 답변주고 제가 잘못된거 하나 지적했더니 또 70초 정도 다시 생각해서 정답을 내주네요.

o1 보다 더 빨리 풀었는데 문제 하나만으로는 판단하기 그렇지만 다음 영상의 유튜버도 벤치마크 성능상 o1 에 필적한다고 평가하는군요.


https://www.youtube.com/watch?v=_KRKqLaVYQU

중국에서 o1 의 추론방법을 알아냈다는 소식이 얼마전에 있었는데 그새 그것도 오픈소스로 만들어서 풀어버릴 줄은 몰랐습니다.

API 사용료도 엄청나게 저렴하고요.

이전 V3 모델만 해도 간간히 중국어를 내뱉어서 쓰기가 좀 그랬는데 추론성능만 보면 R1 은 앞으로 애정하게 될 듯 합니다.


다음 주 정도에 OpenAI 에서 o1 이상의 성능을 낸다고 알려진 o3-mini 를 내놓는다고는 하던데 API 가격이 관건이 될 거 같습니다.

역시 중국은 디플레이션을 수출하는 나라답네요.


DeekSeek R1 은 다음 URL 에 가서 DeepThink 버튼을 활성화하면 됩니다.


https://chat.deepseek.com/


다음은 DeepSeek 의 X 에 게시된 벤치마크 자료하고 유튜브 영상을 Gemini 2.0 Flash exp 로 요약한 내용입니다.


---


DeepSeek R1 모델 상세 요약

소개

  • DeepSeek R1 모델은 OpenAI의 o1 모델과 대등한 성능을 가진 오픈 소스 추론 모델입니다.

  • 모델 가중치를 포함한 모든 것이 MIT 라이선스로 완전 오픈 소스이며, 호스팅 버전 사용 시 o1 모델보다 훨씬 저렴합니다.

  • 오픈 소스 모델이 폐쇄형 모델보다 3~6개월 뒤쳐져 있었으나, DeepSeek R1은 o1 모델 출시 3개월 만에 오픈 소스 버전으로 출시되었습니다.

  • 오픈 소스 모델 개발의 가능성을 보여주는 사례로, 향후 유사한 오픈 소스 추론 모델이 많이 등장할 것으로 예상됩니다.

벤치마크 성능 비교

  • **DeepSeek R1 (진한 파란색)**은 여러 벤치마크에서 OpenAI o1(진한 회색)과 유사하거나 더 나은 성능을 보입니다.

    • AIM 2024 벤치마크에서는 OpenAI o1을 능가합니다.

    • Codeforces에서는 거의 동등한 수준입니다.

    • GPQA Diamond에서는 OpenAI o1보다 약간 떨어지지만 근접한 성능을 보여줍니다.

    • Math 500에서는 OpenAI o1을 능가하며, MMLU와 SWE 벤치마크에서는 약간 뒤쳐지지만 매우 근접한 수준입니다.

  • **DeepSeek R1 32B (연한 파란색)**은 OpenAI o1 mini (연한 회색)와 비교됩니다.

  • **DeepSeek V3 (가장 연한 파란색)**는 추론 능력이 없는 모델입니다.

  • Claude의 최첨단 모델 및 GPT-4o와의 비교:

    • Claude 모델과의 비교에서는 SWE Verified 코딩 벤치마크를 제외하고 대부분의 항목에서 DeepSeek R1이 우위를 점합니다.

    • GPT-4o와의 비교에서는 모든 항목에서 DeepSeek R1이 우수한 성능을 보입니다.

주요 특징 및 라이선스

  • 완전 오픈 소스: 모델 가중치, 기술 논문, 모든 코드가 공개되어 있습니다.

  • MIT 라이선스: 자유로운 배포, 수정, 상업적 이용이 가능합니다.

  • 상업적 사용 가능: DeepSeek R1을 이용하여 자유롭게 제품 개발 및 서비스 제공이 가능합니다.

  • 저렴한 가격: API 사용 가격이 OpenAI o1 모델 대비 훨씬 저렴합니다.

모델의 성능 및 특징

  • 체인 오브 소트 (Chain of Thought) 추론: 모델의 사고 과정을 볼 수 있어, 모델이 어떻게 답을 도출하는지 확인할 수 있습니다.

  • 인간적인 사고 방식: 모델이 추론 과정에서 "Okay", "hmm", "let's think"와 같은 인간과 유사한 표현을 사용합니다.

  • 자기 수정 능력: 답변 과정에서 스스로 오류를 수정하는 모습을 보입니다.

  • 복잡한 문제 해결 능력: 마블 퀴즈와 같이 복잡한 문제에 대해 체계적으로 분석하고 해결합니다.

  • 미묘한 언어 이해: "apple"로 끝나는 문장 생성과 같은 언어적 미묘함을 요구하는 작업에서 뛰어난 성능을 보입니다.

모델의 학습 방식

  • 강화 학습: 인간의 피드백 없이 강화 학습을 통해 스스로 학습합니다.

  • 알파고 기법: 순수 강화 학습을 통해 다양한 시도를 통해 학습을 진행합니다.

  • 그룹 상대 정책 최적화 (Group Relative Policy Optimization): 비평 모델 없이 후보 결과를 기반으로 최적의 답변을 찾습니다.

  • 사고 시간 할당: 문제에 따라 스스로 사고 시간을 할당하는 능력이 있습니다.

주요 인용 문장

  • "이제 다른 오픈 소스 회사들이 그것이 가능하다는 것을 알게 되었고, 어떻게 그것을 달성하는지에 대한 로드맵을 공개했기 때문에, 이러한 오픈 소스 추론 모델의 홍수를 보게 될 것입니다."

  • "DeepSeek R1은 문제에 더 많은 사고 시간을 할당하기 위해 초기 접근 방식을 재평가하는 법을 배웁니다."

  • "이러한 행동은 모델의 성장하는 추론 능력을 입증할 뿐만 아니라 강화 학습이 어떻게 예상치 못하고 정교한 결과로 이어질 수 있는지를 보여주는 매력적인 예시입니다."

  • "문제를 푸는 방법을 명시적으로 가르치는 대신 적절한 인센티브를 제공하면 고급 문제 해결 전략을 자율적으로 개발합니다."

결론

  • DeepSeek R1은 오픈 소스 AI 모델의 가능성을 보여주는 중요한 모델입니다.

  • 강력한 성능, 저렴한 비용, 개방적인 접근 방식으로 AI 기술의 접근성을 높이는 데 기여할 것으로 예상됩니다.

  • 모델을 직접 다운로드하고 사용해 볼 것을 권장합니다.

  • 향후 DeepSeek R1 기술 논문에 대한 자세한 분석 비디오를 제공할 예정입니다.

0추천인 목록보기
태그
댓글 0
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색