[STT 전처리] 1. 음향 이벤트 감지 Sound Event Detection (SED)

특정 이벤트의 발생 여부 및 발생 시각을 감지하는 기술

6 min readJun 8, 2022

어떤 상황일까요?

구급차나 소방차 또는 경찰차가 지나가는 소리입니다.

이처럼 사람은 소리로 어떤 상황인지 파악하고, 소리의 종류를 판단할 수 있는데요. 인공지능이 소리로 상황을 파악하고, 상황에 대응할 수 있다면 얼마나 좋을까요? 예를 들어, 소리로 위기 상황을 감지하고 사람에게 알려줄 수 있겠죠. 소리로 상황을 감지하고 해당 소리에 포함된 여러 소리를 구분하여 감지할 수도 있을 거예요.

Sound Event Detection(SED)

Sound Event Detection(SED)은 이처럼 오디오 신호에서 특정 이벤트의 발생 여부 및 발생 시각을 감지하는 기술이에요. SED 모델은 오디오 파일을 입력으로 받으면, 이벤트 발생 시각에 대한 정보와 해당 이벤트가 무엇인지 이에 대한 정보(분류 결과)를 출력할 수 있어요.

Voice Activation Detection(VAD)

VAD(Voice Activation Detection) 설명하는 그림 — 출처: https://pythonawesome.com/voice-activity-detection-based-on-deep-learning-tensorflow/

VAD(음성활성탐지)는 SED의 일종으로, 특정 이벤트가 “발화”인 경우 입력된 오디오 신호에서 구간 별로 음성 활성 여부 및 활성 시각을 감지합니다. VAD 기술을 통해, 입력된 오디오 파일에서 음성 부분을 검출 할 수 있습니다.

VAD의 가치

음성 인식을 수행함에 있어서 필요하지 않은, 침묵 구간들을 계산하지 않아 컴퓨팅 자원을 절약할 수 있습니다.
‘화자 분리 시 화자 특성 추출 작업’에 방해가 되는 침묵 구간이 제거됨으로써, 화자 분리 정확도가 향상될 수 있습니다.
침묵 구간을 기준으로 적절히 음성이 구분되어, 실제로 사람이 문장을 읽는 단위와 유사하게 문장이 구분될 수 있습니다.

방법

이진 분류 (Binary classification)
학습된 뉴럴 네트워크에 기반하여 매우 짧은 음성 구간마다 (예 0.01초) 사람이 발음했는지(1), 사람이 발음하지 않았는지(0)을 구분하는 작업입니다. (예. NVIDIA MarbleNet)
확률 분포 기반 모델 (Distribution based classification)
‘발화 음성들의 분포’와 ‘노이즈 음성들의 분포’를 가지고 둘 중에 어느 쪽에 더 가까운지를 판별하는 방법이에요. (예. WebRTCvad)

각 구간들에 대해 위 알고리즘으로 발화 여부를 판단한 후, STT를 잘 수행하기 위한 단위를 조정하는 작업(smoothing)이 수행될 수 있습니다. 너무 짧거나 너무 긴 단위로 STT를 수행하게 되면 제대로 된 결과가 출력되지 않을 수 있습니다. 따라서 너무 짧지도, 너무 길지도 않은 단위를 만드는 것이 필요합니다.

음향 장면 분류 (Audio Scene Classification)

Sound Event Detection에는 소리에 따른 해당 상황(음향 장면, audio scene)을 분류하는 Audio Scene Classification 분야가 있습니다. 예를 들어, 무엇을 기준으로 하느냐에 따라 음향 장면이 아래와 같이 다양하게 분류될 수 있습니다.