비주얼 홍보

JS-TTS
글자형태의 자료를 음성파일 형태의 자료로 전환시키는 프로세스

솔루션 소개

음성합성(speech synthesis)은 사람의 목소리를 학습하여 텍스트를 학습된 음성으로 음성변환(text-to-speech, TTS)시켜주는 프로세스입니다. 자사는 남자 여자 표준어 음성 12시간 음성을 확보하고 있습니다.
확보된 음성을 기반으로 발화음성을 음절 단위로 프레임을 분절하는 전처리 과정을 거쳐 tacotron2와 multi-speaker 알고리즘을 접목한 음성합성 모델을 구축하였습니다. 또한 두가지 특징을 갖추고 있습니다. 첫 번째로 비 한글표기에 대한 원활한 변환 기능이 갖추고 있습니다.
이는 영어 단어에 대한 발음기호 변환 기능(예 : Dataedu -> 데이터에듀)와 대문자 형태의 약자 발음기호 변환(예 : GDP -> 지디피)이 구분되어 발화가 가능하며 단위 앞의 숫자(예 : 1그루 -> 한 그루)와 일상적인 숫자(1 km -> 일 킬로미터)를 구분하여 발화하는 기능을 갖춘 모델입니다.
두 번째로 자연스러운 목소리의 발화를 위해서 강화학습 기반의 Vocoder 모델을 Decoding 부분에 접목하여 보다 자연스러운 목소리의 서비스를 제공할 수 있습니다.


[ JS-TTS 음성합성 서비스 개요 ]

주요 특징

독자적인 영어 및 한국식 표기 방식의 사전을 구축하고 있습니다. 이를 바탕으로 딥러닝(deep learning) 알고리즘인 RNN 기반의 seq2seq+attention 알고리즘을 활용한 언어 모델(language model)을 학습하여 비 한글 표기인 영어를 한글 표기로 변화하는 능력을 갖추고 있으며, 발음표기 기반의 학습으로 학습되지 않은 단어 또한 발음표기에 바탕이 되어 단어를 표출하는 기능을 갖추고 있습니다.

숫자는 뒤에 등장하는 단위, 소수점 표기 방식, 콤마의 위치별 경우에 따른 숫자의 발화 표기가 다릅니다. 따라서 상황에 적합한 발화문장을 만들기 위해서 자사에서 보유한 사전(lexicon) 기반의 프로세스로 발화문장을 변환하여 서비스를 제공하고 있습니다. 또한 고객사에서 요청하는 단어의 발화표현이나 특수부호의 발화 여부를 개별적으로 선정하여 요청 사항에 맞추어 음성파일의 생성하는 맞춤설계식의 서비스 제공이 가능합니다.

deep speech2인 multi-speaker 알고리즘을 이용하여 하나의 모델에서 개별적인 선택을 통해 모델에서 발화자를 선정하는 모델을 갖추고 있습니다. 따라서 하나의 모델 로드를 통해 다양한 화자의 발화 서비스를 제공하고 있습니다. 또한 기존의 학습 시간보다 절반정도의 시간을 통해 발화 목소리를 변경하여 학습하고 제공하는 서비스를 갖추고 있습니다.


[ 발음 표기방식 변환 방식 구조도 ]

주요 특징

음성합성의 경우에도 일반적으로 음성변환 기능이 필요한 다른 서비스 어플리케이션에서 음성합성 엔진이 제공하는 API를 호출하는 방식으로 사용됩니다. 서비스 관리 기능은 이처럼 음성합성 기능을 제공하는 RESTful 기반의 서비스 인터페이스를 생성하고 관리합니다.
서비스 관리 기능을 통해, 음성합성 모델에 대한 서비스 활성화 여부와 가용할 수 있는 시스템 자원(프로세스)을 설정할 수 있으며, 개별적인 데이터베이스 관리를 통해서 음성파일 자원의 실시간 스트리밍전달과 문제의 지속적인 모니터링이 서비스가 가능합니다.


[ JS-TTS 서비스 관리 프로세스 ]

요금안내

음성합성기(TTS) 3,000,000원 /월

※장기 사용시 별도 문의