[STT 전처리] 2. 음성 향상(Speech Enhancement)

오디오에서 잡음을 제거하고, 필요한 소리의 품질을 높여주는 기술

ActionPower
4 min readJun 15, 2022
노이즈가 일어난 화면
Photo by Michael Dziedzic on Unsplash

통화할 때 주변 소리 때문에 상대방의 목소리가 잘 들리지 않으시나요? 그 때가 바로 불필요한 잡음은 제거하고, 필요한 음성의 품질을 높여주는 음성 향상(Speech Enhancement) 기술이 필요한 순간일 겁니다.

오디오에서 잡음을 제거하여 필요한 소리의 품질을 높여주는 음성 향상 기술 설명 이미지

이제는 인공지능이 오디오에서 잡음을 제거해 필요한 소리의 품질을 높여줄 수 있는 수준에 이르렀는데요. 필요한 소리가 음성이라면, 오디오에서 잡음을 제거해 음성이 잘 들리게 처리할 수 있습니다. 상황에 따라 음성이 아닌 배경 소리가 필요하다면, 배경 소리를 잘 들리게 처리할 수도 있을 거예요.

인공지능이 오디오에서 잡음을 제거하여 필요한 소리의 품질을 높여주는 음성 향상 기술 설명 이미지

음성 향상(Speech Enhancement)

음성 향상 또는 ANC(Active Noise Control) 기술은 오디오 신호에서 필요한 소리인 음성을 강조하고, 잡음을 제거하는 기술입니다. 예를 들어, 입력된 오디오 파일에 음성 향상 기술을 사용하고, VAD 기술로 음성 부분을 검출하면 음성 받아쓰기를 잘 수행하기 위한 고품질의 음성 신호를 얻을 수 있죠.

잡음 제거를 위해, 잡음에 대한 반대 소리를 발생시켜 잡음을 감쇄하는 방법이 사용될 수 있어요. 음성 신호의 품질 향상을 위해, 잡음 뿐만 아니라 에코(echo) 또는 리버브(Reverb) 또한 제거될 수 있습니다.

만약 배경 소리가 필요하다면, 배경 소리를 잘 들리게 하는 ambient sound enhancement와 같은 기술이 이용될 수 있습니다. 예를 들어, 회의 중 아주 작게 말한 사람이 있을 때, 인공지능이 배경 소리도 필요한 상황이라고 판단하여 이를 잡음 제거 처리하지 않고 해당 소리도 향상시킬 수 있습니다.

액션파워는

액션파워는 고객의 커뮤니케이션을 돕기 위해 인공지능 AI를 이용해 음성을 문자로 바꿔주는 ‘다글로’ 서비스를 제공하고 있어요. 다글로 서비스는 음성을 문자로 보다 잘 바꿔주기 위해 액션파워가 자체 개발한 잡음 제거 기술을 이용하고 있습니다.

액션파워의 음성 향상에 대한 연구 논문이 한국정보과학회 KCC 2022 우수논문상을 수상했습니다.

음성 향상(Speech Enhancement) 연구에서 오디오 신호를 재구성할 때 깨끗한 음성의 위상을 추정하기 어려운 문제가 있다. 기존의 딥러닝 기반 연구들은 이 문제를 해결하기 위해 위상과 크기를 모두 추정하는 방법을 사용하며, 이를 위해 complex-valued 모델을 사용한다. 그러나 이러한 모델은 중요한 특징 정보를 추출하기 위해 많은 층의 deep complex CNN이 필요하고, 따라서 상당히 많은 자원이 요구된다. 본 논문에서는 보다 효율적으로 적은 자원을 사용하면서 더 좋은 성능을 확보하기 위해 Attention Mechanism을 complex-valued 특성에 맞게 재구성하는 연구를 수행하였고, 이에 따라 새로운 음성 향상 모델 Complex Interaction U-Net을 제안한다.

액션파워에 대한 더 많은 이야기가 궁금하다면?
More about Action Power

--

--

ActionPower

Cutting-edge AI for the Benefit of the World. Unlock the potential of AI for a better tomorrow! For more details: actionpower.kr/en