[STT 전처리] 1. 음향 이벤트 감지 Sound Event Detection (SED)

특정 이벤트의 발생 여부 발생 시각을 감지하는 기술

ActionPower
6 min readJun 8, 2022

어떤 상황일까요?

구급차나 소방차 또는 경찰차가 지나가는 소리입니다.

이처럼 사람은 소리로 어떤 상황인지 파악하고, 소리의 종류를 판단할 수 있는데요. 인공지능이 소리로 상황을 파악하고, 상황에 대응할 수 있다면 얼마나 좋을까요? 예를 들어, 소리로 위기 상황을 감지하고 사람에게 알려줄 수 있겠죠. 소리로 상황을 감지하고 해당 소리에 포함된 여러 소리를 구분하여 감지할 수도 있을 거예요.

Sound Event Detection(SED)

Sound Event Detection(SED)은 이처럼 오디오 신호에서 특정 이벤트의 발생 여부 발생 시각을 감지하는 기술이에요. SED 모델은 오디오 파일을 입력으로 받으면, 이벤트 발생 시각에 대한 정보와 해당 이벤트가 무엇인지 이에 대한 정보(분류 결과)를 출력할 수 있어요.

Sound Event Detection 학습단계 추론단계 설명 그림

Voice Activation Detection(VAD)

VAD(Voice Activation Detection) 설명하는 그림
출처: https://pythonawesome.com/voice-activity-detection-based-on-deep-learning-tensorflow/

VAD(음성활성탐지)는 SED의 일종으로, 특정 이벤트가 “발화”인 경우 입력된 오디오 신호에서 구간 별로 음성 활성 여부 및 활성 시각을 감지합니다. VAD 기술을 통해, 입력된 오디오 파일에서 음성 부분을 검출 할 수 있습니다.

VAD의 가치

  1. 음성 인식을 수행함에 있어서 필요하지 않은, 침묵 구간들을 계산하지 않아 컴퓨팅 자원을 절약할 수 있습니다.
  2. ‘화자 분리 시 화자 특성 추출 작업’에 방해가 되는 침묵 구간이 제거됨으로써, 화자 분리 정확도가 향상될 수 있습니다.
  3. 침묵 구간을 기준으로 적절히 음성이 구분되어, 실제로 사람이 문장을 읽는 단위와 유사하게 문장이 구분될 수 있습니다.

방법

  1. 이진 분류 (Binary classification)
    학습된 뉴럴 네트워크에 기반하여 매우 짧은 음성 구간마다 (예 0.01초) 사람이 발음했는지(1), 사람이 발음하지 않았는지(0)을 구분하는 작업입니다. (예. NVIDIA MarbleNet)
  2. 확률 분포 기반 모델 (Distribution based classification)
    ‘발화 음성들의 분포’와 ‘노이즈 음성들의 분포’를 가지고 둘 중에 어느 쪽에 더 가까운지를 판별하는 방법이에요. (예. WebRTCvad)

각 구간들에 대해 위 알고리즘으로 발화 여부를 판단한 후, STT를 잘 수행하기 위한 단위를 조정하는 작업(smoothing)이 수행될 수 있습니다. 너무 짧거나 너무 긴 단위로 STT를 수행하게 되면 제대로 된 결과가 출력되지 않을 수 있습니다. 따라서 너무 짧지도, 너무 길지도 않은 단위를 만드는 것이 필요합니다.

음향 장면 분류 (Audio Scene Classification)

Sound Event Detection에는 소리에 따른 해당 상황(음향 장면, audio scene)을 분류하는 Audio Scene Classification 분야가 있습니다. 예를 들어, 무엇을 기준으로 하느냐에 따라 음향 장면이 아래와 같이 다양하게 분류될 수 있습니다.

음향 장면 분류에 대한 표
출처: https://www.researchgate.net/figure/Classifications-of-sound-events_fig1_277553387

예를 들어, SED 모델은 밴드 공연 소리에서 기타 소리, 드럼 소리, 피아노 소리, 음성을 각각 감지할 수 있어요.

밴드 공연 소리에서 기타, 드럼, 피아노, 음성을 각각 분리해 감지하는 이미지
출처: https://source-separation.github.io/tutorial/landing.html

액션파워에서는

액션파워에서는 CRNN (Convolutional Recurrent Neural Network) 모델을 기초로 SED를 연구하고 있습니다.

액션파워의 뛰어난 실력

액션파워에서 수행한 바 있는 “통화 녹음에서 ARS 소리를 탐지하는 프로젝트”에서, Accuracy: 98.10%, Precision: 99.59%, Recall: 96.60%의 결과가 나왔습니다.

SOTA (State-Of-The-Art, 현재 최고 수준)

SED 관련 대회인 DCASE에서는 매년 SED를 주제로 챌린지를 진행하는데, 매번 주제가 달라 완전한 비교는 어렵지만 매해 SOTA는 아래와 같습니다.

  1. Sound Event Detection and Separation in Domestic Environments(2021)
    - Event-based PSDS1 : 0.452
  2. Sound event detection and separation in domestic environments(2020)
    - Event-based F-Score : 51.1%
  3. Sound event detection in domestic environments(2019)
    - Event-based F-Score : 42.7%
  4. Large-scale weakly labeled semi-supervised sound event detection in domestic environments(2018)
    - Event-based F-Score : 32.4%
  5. Sound event detection in real life audio(2017)
    -
    Segment-based F-Score : 41.7 %

액션파워에 대한 더 많은 이야기가 궁금하다면?
More about Action Power

--

--

ActionPower

Cutting-edge AI for the Benefit of the World. Unlock the potential of AI for a better tomorrow! For more details: actionpower.kr/en