리드스피커코리아 인공지능(AI) 기술을 적용한 DNN(Deep Neural Neteork) HQ(High Quality) Micro(Auto DB) 개발 완료

▲ ReadSpeaker Korea DNN TTS(사진=리드스피커코리아)

[코리아데일리=김유경 기자]리드스피커코리아(대표이사 이종석)는 최근 인공지능(AI) 기술을 적용한 DNN(Deep Neural Neteork) HQ(High Quality) Micro(Auto DB)를 개발 완료했다고 밝혔다.

‘Auto DB’는 기존의 음성합성기에 인공지능(AI) 기술을 적용해 음질은 한층 더 높이고 음성합성기의 개발기간은 단축시킨 획기적인 제품이다.

기존의 음성합성기는 다음과 같이 2가지 정도가 있으며 기술의 한계로 인해 40시간 정도의 성우 녹음과 6개월 정도의 음성합성기 개발 기간이 필요했다.

1. 연결합성기(USS : Unit Selection Synthesis)

단어 또는 문장 단위로 녹음된 음성 데이터를 음소(Unit) 단위로 나눠 데이터베이스를 만들고, 반대로 음성을 합성할 때에는 이 데이터베이스에서 전체 음성에 적합한 음소를 찾아서 이어 붙이는 합성기이다.

2. 통계기반 파라미터 합성기(SPSS : Statistical Parametric Speech Synthesis)

음성의 특성을 신호처리 기술을 활용해 음성 데이터로부터 추출하고 모델링을 하는 방법으로, 모델링 방법으로는 HMM(Hidden Markov Model)을 주로 사용한다.

리드스피커코리아는 성우 녹음 시간과 음성합성기의 개발 기간을 단축하기 위해 인공지능(AI) 기술을 합성기에 적용하는 연구를 연구소 중심으로 계속해 왔으며, 2017년에는 일부 언어에 대해 인공지능(AI) 기술을 적용한 음성합성기를 한국 최초로 출시하기도 했다.

음성합성기의 최종 목표는 인간을 닮은 목소리를 구현하는 것이다. 따라서 4차 산업혁명 시대를 맞이해 음성합성 기술의 발전 방향도 사람을 향하고 있다. 사람처럼 자연스럽게 말하는 인공지능(AI)이 적용된 음성합성 기술은 한 걸음 더 나아가 말속의 섬세한 감정까지 표현하고 싶어 한다.

그리고 인공지능(AI) 이전의 음성합성기 목소리의 주인공이 잘 훈련된 성우의 몫이었다면 인공지능(AI) 기술이 적용된 음성합성기는 연예인이나 친구, 엄마의 목소리까지 그 영역을 넓히고 있다.

특히 최근 기업들은 자신들만의 개성 있는 브랜드 목소리를 확보하기 위한 노력을 하고 있다. 기업의 목소리를 고객에게 직접 음성으로 들려준다는 점에서 기업을 대표하는 브랜드 목소리가 고객에게 주는 감정은 매력적인 마케팅 포인트가 될 수 있다.

예를 들면 스마트 스피커나 자동차용 내비게이션 등 고객과 맞닿아 있는 음성 서비스가 점점 확대되면서 기업의 브랜드 목소리는 서비스에 대한 정체성을 부각하기 위해 필요하게 됐다.

따라서 리드스피커코리아의 인공지능(AI) 기술이 적용된 Auto DB는 적은 녹음시간(2~3시간)과 짧은 개발 기간(1개월 미만)으로 인해 빠르게 ‘사람 같은’ 음성을 만들 수 있다. 이를 활용하면 전문 성우의 목소리뿐만 아니라 연예인, 개인의 목소리, 기업의 브랜드 목소리, 고인의 목소리 등의 음성합성기도 제작이 가능하다.

리드스피커코리아는 이러한 시장 상황에 빠르게 대응하고, 고객이 원하는 음성합성기를 빠른 시간에 개발하기 위해 보이스랩(VoiceLab)이라는 시스템을 구축했다. 보이스랩(VoiceLab)에 대한 내용은 다음에 자세하게 설명할 예정이다.

이 기사를 공유합니다
저작권자 © 코리아데일리 무단전재 및 재배포 금지