한국어는 빼앗긴 것인가 방치한 것인가?
보따람

Lv.1 보따람 (222.♡.38.205)

2026년 6월 28일 PM 12:56

조회 1,022 공감 0

오전에 삼성의 TTS 기능 제한 문제에 대해 글을 쓴 바 있습니다. 이 문제를 생각하다 보면, 오래전부터 느껴온 아쉬움이 다시 떠오릅니다. 바로 한국어 TTS 품질의 한계입니다.

과거에는 어느 정도 이해할 수 있었습니다. AI 기술이 지금처럼 발전하기 전에는 음성 데이터를 수집하는 일도 어렵고, 개발 비용도 컸으며, 저작권 문제 역시 만만치 않았을 것입니다. MS TTS를 비롯해 여러 음성 합성 엔진을 사용해 보았지만, 당시 한국어 TTS는 대체로 기계음에 가까웠습니다.

하지만 지금은 상황이 달라졌습니다. 이제는 개인 PC에서도 상당한 수준의 TTS 모델을 구동할 수 있고, 데이터셋 역시 과거보다 훨씬 쉽게 구축할 수 있습니다. 실제로 개인이나 소규모 개발자가 만든 한국어 TTS가 기존 구글 TTS보다 자연스럽게 들리는 경우도 있습니다. 그럼에도 불구하고, 한국어 TTS의 기본 환경은 여전히 충분히 개선되지 못하고 있습니다.

특히 영어와 비교하면 차이가 더욱 뚜렷합니다. 영어 TTS는 매우 부드럽고 자연스러우며, 기본 엔진만으로도 충분히 사용할 만한 수준입니다. 반면 한국어는 삼성에서는 저작권 문제를 이유로 기능을 제한하고, 구글은 한국어 품질 개선에 적극적이지 않아 보입니다. 국가 역시 한국어 TTS의 공공적 기반을 마련하는 데 충분한 관심을 기울이지 않는 듯합니다.

미국도 저작권에 민감한 나라입니다. 그럼에도 구글이나 여러 플랫폼에서 제공하는 영어 TTS는 한국어처럼 제한적이거나 품질이 떨어지지 않습니다. 과거에는 기술과 자본의 한계가 이유가 될 수 있었지만, 지금은 더 이상 그렇지 않습니다. 대한민국의 상징이라 할 수 있는 한국어 음성 기술이 민간 자본과 플랫폼 정책에 지나치게 좌우되는 현실은 매우 아쉽습니다.

저는 국가가 기본적인 한국어 TTS 엔진과 앱을 공공재 성격으로 개발·공개해야 한다고 생각합니다. 품질이 반드시 최고 수준일 필요는 없습니다. 우선은 정확한 발음과 안정적인 사용성을 갖춘 기본 한국어 TTS 엔진을 제공하는 것이 중요합니다. 예를 들어 ‘영희’, ‘철수’와 같은 남녀·연령대별 기본 음성 4종 정도를 제공하고, 누구나 자유롭게 사용할 수 있도록 하면 됩니다.

이와 함께 텍스트를 입력하면 용량 제한 없이 음성으로 변환하고, 필요하면 녹음 파일로 저장할 수 있는 앱도 제공되어야 합니다. 윈도우, 안드로이드 등 다양한 플랫폼에서 사용할 수 있어야 하며, 안드로이드의 기본 TTS 엔진으로도 선택할 수 있도록 지원해야 합니다.

이 문제는 과거 글꼴의 역사와도 비슷합니다. 1990년대와 2000년대 초반까지만 해도 사용할 수 있는 한글 글꼴은 명조체와 고딕체 중심으로 매우 제한적이었습니다. 그러나 이후 공개 글꼴이 늘어나면서 한글 표현의 다양성이 크게 확대되었습니다. 한국어 TTS 역시 마찬가지입니다. 기본적인 공공 TTS 엔진이 마련되면, 민간 기업들은 그 위에서 더 고급화되고 개성 있는 음성 서비스를 개발할 수 있습니다.

한국어는 특정 기업이나 플랫폼의 자산이 아니라, 우리 모두의 언어입니다. 따라서 기본적인 한국어 음성 기술 역시 누구나 접근할 수 있는 공공 인프라가 되어야 합니다. 민간 자본이 독점하거나 저작권을 이유로 사용을 제한하는 구조에서 벗어나, 한국어 음성을 국민 모두가 자유롭게 사용할 수 있는 방향으로 나아가야 합니다.

저는 이것이 단순한 편의 기능의 문제가 아니라, 한국어의 디지털 주권과 공공성에 관한 문제라고 생각합니다.

한국어 TTS는 이제 국가 차원에서 기본 인프라로 개발하고 공개해야 할 때입니다

========================================

ChatGTP로 다시 정리한 글입니다ㅈ.

댓글 (7)

  • 존슨즈베이비로션

    존슨즈베이비로션 Lv.1

    13:12 · 106.♡.196.165

    애매한데요 이게 목소리 딴것도 사실 성우쪽 라이센스도 있고, 그리고 TTS업체도 도네 목소리 생성하는거 직접 상부상조해서 얻은 케이스라

    그걸 공공재로 처리하기도 쉽지않죠 ㄷㄷ

  • 보따람

    보따람 Lv.1 → 존슨즈베이비로션 작성자

    15:15 · 222.♡.38.205

    성우 라이센스를 무시하자는 것도 아니죠. 적절한 대가를 지불하고 공공의 재료로 만들 필요가 있는 것이죠.

    전문 성우의 목소리만이 TTS의 음성이 들어가는 것은 아니죠.

    영어와 한국어를 비교할 필요가 있습니다.

    영어 TTS의 경우는 어느 정도 수준의 공공적인 성격의 TTS엔진이 있고, 그리고 특정 배우의 목소리로 상업화 하고 있습니다. 그런데 한국어는 아예 그런 시도조차 하지 않고 있습니다. 처음에는 만들기 힘들다고 생각했습니다. S대 연구소에서 연구를 하고, 일부 상업 제품이 나왔지요. 그런데, 지금은 아니죠. 유튜버 개인의 목소리로도 TTS엔진을 만들 수 있습니다.

  • 지나가는사람입니다만

    지나가는사람입니다만 Lv.1

    13:53 · 116.♡.125.39

    이미 오픈소스로 풀린 tts 모델이 한국어도 넘사벽입니다. 범죄에 사용될까 무서울정도로 잘해요. 온디바이스 문제는 폰 제조사 솦팀에서 해결중일거에요

  • 보따람

    보따람 Lv.1 → 지나가는사람입니다만 작성자

    15:16 · 222.♡.38.205

    한 개인의 목소리에 대해 범죄로 사용되는 것은 별개이고, 철수라는 목소리에 대해 저작권이 없고 품질이 좋은 Data Set을 만들었으면 하는 것입니다. 글꼴과 같이 말이죠.

  • 아찌

    아찌 Lv.1

    13:53 · 223.♡.150.132

    생각보다 돈이 많이들어가는 사업이더라구요

  • 보따람

    보따람 Lv.1 → 아찌 작성자

    15:18 · 222.♡.38.205

    현재 자주 LLM으로 개인의 목소리를 이용해서 Data 셋을 만드는 것을 볼 때 어려운 것은 아니라고 생각합니다. 특히 지금 정부가 공공형 AI를 만든다고 할 때 이런 부분도 신경을 쓴다면 충분히 가능하고요.

  • lonelyworld

    lonelyworld Lv.1

    13:58 · 180.♡.224.156

    삼성폰을 안써봐서 모르는데 TTS품질이 별론가요? 그럼 그건 그냥 삼성폰의 문제 아닐까요.

    요즘 유튜브 성우음성들 봐서는 품질이 나쁘다고 보기도 그렇고, 폰트처럼 수백명의 DB를 가진 회사들도 많이 보이는데요.

    언급하신 폰트처럼 좋은 퀄리티를 원하면 유료를 써야죠.

댓글을 작성하려면 이 필요합니다.