조선왕조실록 OCR에 문제가 있나 보군요.
페이지 정보
작성자
니파

작성일
2025.03.24 00:11
본문
역사 유튜버라 해야 될까요...
여튼 영상의 저 사람이 찾은 오타만 서너 영상은 더 있는데...
한자 인식 OCR에 문제가 있나 봅니다.
아마, 오래전에 해서 그렇지 않을까...
최근 AI로 다시 돌리고 이런건 힘든가... 그런 생각을 해봅니다.
3명
추천인 목록보기
댓글 4
/ 1 페이지
molla님의 댓글
작성자
molla

작성일
03.24 00:58
과거 OCR의 정확도는 문제가 있긴 했죠. (당시에도 정확도가 9x% 정도로 수치만 보면 높아 보이는데 막상 써 보면, 한 페이지의 글자가 보통 100자가 넘으니 사실상 매 페이지별로 오타가 몇개씩 보이는 수준이란 것이었죠.)
그런데 이미 이미지로 만들어둔 것이 있다면, 새로운 OCR로 다시 돌려보는 건 어렵지 않을 것 같네요.
이미지로 만드는 것 까지가 어렵지, 이미 만들어둔 이미지가 있다면 OCR을 돌리는건 상대적으로 쉽죠.
(문제는 최신 기술로 만든 과거 한자용 OCR 이 있느냐 겠네요. 아무래도 수요가 작다 보니...)
그런데 이미 이미지로 만들어둔 것이 있다면, 새로운 OCR로 다시 돌려보는 건 어렵지 않을 것 같네요.
이미지로 만드는 것 까지가 어렵지, 이미 만들어둔 이미지가 있다면 OCR을 돌리는건 상대적으로 쉽죠.
(문제는 최신 기술로 만든 과거 한자용 OCR 이 있느냐 겠네요. 아무래도 수요가 작다 보니...)
PCBR님의 댓글
작성자
PCBR

작성일
03.24 01:30
고문서 OCR은 지금은 쓰지 않아서 코드와 폰트가 없는 한자들이 많다는겁니다. 없는 글짜마다 폰트 만들고 코드 할당도 해야 하고... 만만치 않은 작업입니다.
luq.님의 댓글
워낙 양이 많으니까 다시 하느니 차라리 이렇게 하는 게 더 낫다고 생각할지도 모르겠네요.
다시 하려면 이제는 돈도 많이 들거 같기도 하고요.