텍스트를 소리로 변환하는 'Stable Audio Open' 모델 발표
페이지 정보
본문
* TechCrunch 기사 - Stability AI releases a sound generator
https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator/
[기사 일부 내용 GPT-4o 번역]
AI 기반 그림 생성기 스테이블 디퓨전을 만든 스타트업 Stability AI에서 소리와 음악을 생성하는 공개 AI 모델을 선보였습니다.
'스테이블 오디오 오픈'이라는 이 모델은 텍스트 설명(예: "장비가 갖춰진 스튜디오에서 연주한 록 비트, 어쿠스틱 드럼 키트로 연주한 세션 드럼")을 입력받아 최대 47초 길이 레코딩을 생성합니다.
이 모델은 Freesound와 Free Music Archive의 로열티 프리 음악 라이브러리에서 약 486,000개 샘플로 훈련되었습니다. […]
몇 가지 한계도 있습니다. 전체 곡, 멜로디 또는 보컬을 생성할 수 없으며, 적어도 좋은 품질로는 불가능합니다. Stability AI는 이러한 기능에 최적화되지 않았다고 말하며, 이런 기능을 찾는 사용자는 회사의 프리미엄 Stable Audio 서비스 사용을 권장하고 있습니다.
상업적 용도로도 사용할 수 없으며, 서비스 약관에서 금지하고 있습니다. 음악 스타일과 문화, 영어 이외 언어로 작성한 설명에 대해서는 성능이 일정하지 않으며, Stability AI에서는 훈련 데이터 편향성 때문이라고 설명합니다.
[공식 소개 링크]
Introducing Stable Audio Open - An Open Source Model for Audio Samples and Sound Design
돈쥬앙님의 댓글
영문 영국발음으로 들으려구요
딱히 맘에드는건 못찾았지만요