테크/기술

우리 생활에 이미 녹아들어 있는 '음성합성 기술'

공부하는박대리 2022. 3. 8. 08:00

우리 생활에 이미 녹아들어 있는 '음성합성 기술'

 

요즘에는 AI 스피커가 중요 뉴스와 날씨를 알려주기도 하고, 필요한 정보를 대신 검색해서 알려주기도 합니다. 이와 같은 AI 스피커에 사용된 기술은 음성합성 기술인데요, 음성합성 기술이란 개인이 말할때의 목소리 음파를 기계가 자동으로 완성시켜 만들어주는 기술을 뜻합니다.

 

우리 생활에서 흔히 찾아볼 수 있는 지하철, 버스 정류장의 안내방송은 물론 ATM 기기와 ARS 음성이 모두 음성합성 기술로 구현해 낸 목소리인것을 보면 이미 주변에 녹아들어 있던 기술이라고 볼 수 있겠네요.

 

최근 음성합성 기술을 활용한 사례, 컨텐츠 등이 많이 늘어나고 있으며, 이에 따라 발전을 거듭하고 있는 음성합성 기술의 현재 그리고 전망에 대해 함께 알아보도록 하겠습니다.

 

 

1) 음성합성 기술의 시작

 

음성합성 기술은 약 200년전 우리 몸 기관에 조음 기관의 역할을 기계가 대체할 수 있도록 만들면서 시작되었습니다. 그렇게 발전된 음성합성 기술은 크게 4가지로 구분할 수 있는데, '조음 합성', '포먼트 합성', '연결 합성', '통계기간 파라미터 합성' 입니다.

 

가장 많이 쓰이고 알려진 기술은 '파라미터 합성' 기술이며, 문장이나 단어로 녹음된 음성 데이터를 기준에 맞춰 잘게 쪼개 음편 DB로 변환한 후에 반대로 음성을 합성할때에는 DB에서 적합한 음편을 찾아 이어 붙이는 기술입니다.

 

 

2) 딥러닝 기반 음성합성 기술의 등장

 

최근 10년동안 음성합성 기술이 많은 발전을 이루었다고 해도 과언이 아닙니다. 그 이유는 텍스트와 음성 데이터만 있으면 개인의 목소리를 구현 가능해진 것이 불과 10년안에 이루어진 결과물이기 때문입니다.

 

AI 딥러닝 학습을 통해 다양한 사람의 목소리를 스스로 만들어내고 감정 표현과 스타일 표현을 할 수 있게 되었으며, 이를 통해 몇분 혹은 몇 시간의 녹음 데이터만 있어도 그 사람의 목소리를 구현해낼 수 있게 되었습니다. 즉 현재에는 아이에게 책을 한권 읽어주더라도 기존 등록된 성우의 목소리가 아빠의 목소리로 변환되어 책을 읽어주기도 하고 날씨, 시간, 공간에 따라 감정상태를 표현하여 다양한 목소리 톤으로 상대방에게 응할 수 있는 능력도 가능합니다.

 

 

3) 응용 사례

 

적은 데이터로도 구현할 수 있는 AI 음성합성기의 등장으로 음성합성이 활용되는 산업 분야는 크게 증가했습니다. 사람과 같은 목소리로 대응할 수 있는 콜센터, 1인 미디어의 목소리 대용, 연예인 목소리를 활용한 콘텐츠 사업, 게임 등으로 빠르게 확장되고 있으며 고인의 목소리를 복원하거나 지역특화 콘텐츠에 담을 수 있는 사투리 음성합성음까지 구현할 수 있게 되었습니다.

 

또한, 한국어만 할 수 있던 음성합성기에 영어를 학습시키면 한국어 화자가 영어를 할 수 있게 되는 사례를 통해 국산 캐릭터나 한국 연예인의 목소리로 외국어를 표현할 수 있게 되었으며, 해외 시장에 적합한 콘텐츠를 간단히 만들어 낼 수 있게 되었습니다.

 

A. 타입캐스트 (네오사피엔스)

 

타입캐스트는 네오사피엔스에서 서비스하고 있는 음성합성 서비스입니다. 여자, 남자, 어린이, 노인, 외국인, 사투리 캐릭터까지 약 100여개가 다양한 목소리를 제공하고 있습니다. 로블록스와 같은 메타버스 게임 플레이 화면에 자신의 이야기를 들려주는 스타일의 영상이 크게 유행한 적이 있습니다.

출처. 타입캐스트

 

B 클로바 더빙 (네이버)

 

클로바 더빙은 네이버에서 서비스하고 있는 음성 더빙 프로그램입니다. 일반인의 경우 현재 무료로 이용할 수 있습니다. 클로바 역시 다양한 언어와 성별의 목소리를 지원하며, 영상을 올리고 영상에 직접 자막 달듯이 더빙을 추가할 수 있다는 점이 장점입니다.

 

 

4) 음성합성 기술의 전망

 

음성합성 기술은 개인의 편리함에서 그치지 않고 더 다양한 분야로 뻗어나가며 발전할 전망을 보이고 있습니다. 최근에는 뇌신경 손상으로 말을 하지 못하는 사람들의 생각을 언어와 음성으로 변환시키는 기술도 소개되고 있습니다. 언어 관련 뇌파와 발성기관의 움직임 분석 등을 통해서 음성을 만들어내는데, 현재 기술 수준이 쉬운 단어나 문장의 경우 정확도가 높다고 하니 멀지 않은 미래에는 장애를 가진 분들과의 커뮤니케이션에도 큰 도움이 될 것으로 전망됩니다.

 

하지만, 편리한 기술인 만큼 악용될 우려도 있습니다. 음성합성 기술은 목소리의 진위 구별이 어렵기 때문에 정치선전, 범죄, 보이스피싱 및 사생활 침해에도 악용될 수 있습니다. 이로인해 오디오 워터마크, 지정단말기 사용제한 등의 대책도 등장하고 있지만 뚜렷히 문제를 해결하지는 못하고 있는 실정입니다.

 

우리 삶에 많은 도움을 주는 기술의 장점만이 부각되며 긍정적으로 발전할 수 있도록 관심을 가지는 것이 중요한 시점입니다.