새로운 소식

🔥 제목 시위는 [말머리] 또는 임시게시판(불타는앙)을 이용바랍니다.

카카오, 텍스트·이미지 동시에 이해하는 '카나나V' 성능 공개

알림
|
X

페이지 정보

작성자 아름다운별 175.♡.15.178
작성일 2024.12.05 17:33
분류 IT
2,923 조회
4 추천
쓰기

본문

* 공식 테크 블로그 내용

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기

https://tech.kakao.com/posts/667


* 뉴스1 기사 내용 일부

https://v.daum.net/v/20241205164142772


카카오(035720)가 한국어, 한국 문화, 장소 등에 특화된 자체 멀티모달 언어모델(MLLM) '카나나-v'(Kanana-v)의 성능과 특징을 공식 테크블로그를 통해 5일 공개했다. …

카나나 모델은 언어모델(LLM) 3종과 MLLM 3종, 비주얼 생성모델 2종, 음성모델 2종으로 크기나 종류, 특성에 따른 하위 모델들과 함께 구성된다.


테크블로그에서 공개한 '카나나-v'는 MLLM이다. 카카오는 언어모델을 기반으로 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리할 수 있는 멀티모달 언어모델을 개발해왔다.

'카나나-v'는 사용자가 제공하는 이미지에서 정보를 이해하고 적절한 답변을 제공한다. 한국어의 고유 특성과 문화적 맥락을 잘 이해해 다양한 한국어 능력을 수행할 수 있도록 설계했다.


오픈AI의 GPT 4o 등 글로벌 모델과 △한국어 OCR △한국어 문서·도표 이해 △한국어 문제 풀이 △한국 문화 지식 이해를 기준으로 성능 비교를 진행한 결과 '카나나-v'가 전반적으로 뛰어난 성능을 기록했다.

특히 한국어 인식 능력을 판단하는 OCR 항목에서 압도적인 성능을 보이는 것으로 나타났다. OCR은 이미지를 스캔하거나 사진으로 찍은 문서에서 텍스트를 추출하는 기술이다. [이후 내용 생략]


Kanana-v와 다른 모델의 한국어 성능 비교 이미지입니다.
수학 추론 예시 이미지입니다.
댓글 3 / 1 페이지

가꾸님의 댓글

작성자 가꾸 (168.♡.128.42)
작성일 12.05 18:47
어디서 받아 쓸 수 있나 했는데, 모델이 공개된게 아니군요

아름다운별님의 댓글의 댓글

대댓글 작성자 아름다운별 (175.♡.19.62)
작성일 12.05 19:18
@가꾸님에게 답글

‪초식동물‬님의 댓글

작성자 ‪초식동물‬ (211.♡.194.14)
작성일 12.06 11:05
기술 자랑은 좋은데
카카오는 서비스던 오픈 소스던 간에 쓸수 있는 방법도 알려줬으면 좋겠네요.
쓰기
홈으로 전체메뉴 마이메뉴 새글/새댓글
전체 검색