카카오, 텍스트·이미지 동시에 이해하는 '카나나V' 성능 공개

알림

아름다운별 175.♡.15.178

2024.12.05 17:33

2,923

쓰기

* 공식 테크 블로그 내용

이미지도 찰떡같이 이해하는 카카오의 멀티모달 언어모델 Kanana-v 알아보기

https://tech.kakao.com/posts/667

* 뉴스1 기사 내용 일부

https://v.daum.net/v/20241205164142772

카카오(035720)가 한국어, 한국 문화, 장소 등에 특화된 자체 멀티모달 언어모델(MLLM) '카나나-v'(Kanana-v)의 성능과 특징을 공식 테크블로그를 통해 5일 공개했다. …

카나나 모델은 언어모델(LLM) 3종과 MLLM 3종, 비주얼 생성모델 2종, 음성모델 2종으로 크기나 종류, 특성에 따른 하위 모델들과 함께 구성된다.

테크블로그에서 공개한 '카나나-v'는 MLLM이다. 카카오는 언어모델을 기반으로 텍스트, 이미지, 오디오 등 다양한 모달리티를 통합적으로 처리할 수 있는 멀티모달 언어모델을 개발해왔다.

'카나나-v'는 사용자가 제공하는 이미지에서 정보를 이해하고 적절한 답변을 제공한다. 한국어의 고유 특성과 문화적 맥락을 잘 이해해 다양한 한국어 능력을 수행할 수 있도록 설계했다.

오픈AI의 GPT 4o 등 글로벌 모델과 △한국어 OCR △한국어 문서·도표 이해 △한국어 문제 풀이 △한국 문화 지식 이해를 기준으로 성능 비교를 진행한 결과 '카나나-v'가 전반적으로 뛰어난 성능을 기록했다.

특히 한국어 인식 능력을 판단하는 OCR 항목에서 압도적인 성능을 보이는 것으로 나타났다. OCR은 이미지를 스캔하거나 사진으로 찍은 문서에서 텍스트를 추출하는 기술이다. [이후 내용 생략]

댓글 3 / 1 페이지

가꾸 (168.♡.128.42)

12.05 18:47

어디서 받아 쓸 수 있나 했는데, 모델이 공개된게 아니군요

아름다운별 (175.♡.19.62)

12.05 19:18

@가꾸님에게 답글

‪초식동물‬ (211.♡.194.14)

12.06 11:05

기술 자랑은 좋은데
카카오는 서비스던 오픈 소스던 간에 쓸수 있는 방법도 알려줬으면 좋겠네요.

1페이지 현재

로그인한 회원만 댓글 등록이 가능합니다.

쓰기

설문조사

직접홍보

새로운 소식

카카오, 텍스트·이미지 동시에 이해하는 '카나나V' 성능 공개

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

직접홍보

새로운 소식

페이지 정보

본문

전체 검색

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

소셜계정으로 로그인

홈으로 전체메뉴 마이메뉴 새글/새댓글 테마 변경 Light Dark Auto

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경

홈으로 전체메뉴 마이메뉴 새글/새댓글
테마 변경