액션파워의 음성 인식 기술 이야기

ActionPower
5 min readJul 12, 2022

--

액션파워는 세계 최고의 AI 기술과 솔루션으로 꿈꿔왔던 편리한 세상을 만들고자 합니다.

daglo with STT

액션파워가 서비스하고 있는 다글로(daglo)는 세상의 모든 소리를 다 글로 바꿀 수 있습니다. “소리를 글로 받아 적기 위해” 최신 딥 러닝 기반의 End-to-End 음성 인식 STT(Speech-To-Text) 엔진을 이용하여 음성을 받아 씁니다.

음성을 받아쓴 텍스트로 저장하고 편집 기능을 통해 언제 어디서든 열어보거나 찾아볼 수 있습니다.

  • 동물의 울음소리, 컵이 깨지는 소리나 자동차 경적 등 다양한 소리가 섞여 있다면 SED(Sound Event Detection)으로 긴 음성 파일에서 각 부분들을 분류하고 추출할 수 있습니다.
  • 음성 인식에 불필요한 잡음 혹은 노이즈가 많거나 음성이 선명하지 않다면 음성 향상(Speech Enhancement)으로 각종 노이즈를 줄이고 음성을 또렷하게 만들 수 있습니다.
  • 음성과 받아쓴 텍스트가 너무 길어 찾아보기 어렵다면 요약과 추출 기능을 통해 긴 글을 요약하거나 주요한 키워드들을 추출해서 활용할 수 있습니다.
  • 회의나 대화처럼 말하는 화자가 여러 명인 음성 대화라면 음성마다 화자를 분리할 수 있습니다.
  • 법률 용어나 의학 용어 등 전문 용어도 잘 받아 적을 수 있습니다.
  • 실시간으로 발화하는 음성을 받아 적을 수 있습니다.

액션파워는 한국어 음성 인식 기준 글로벌 경쟁사 대비 8~10%, 국내 경쟁사 대비 2~5% 이상의 높은 정확도로 받아쓰기 서비스를 제공하고 있습니다. 또한, 자체적인 기술을 통해 고객사 및 분야 별로 음성 인식 엔진을 커스텀할 수 있습니다.

액션파워는 이 밖에도 자체적으로 개발한 인공지능 엔진과 알고리즘들을 기반으로 음성은 물론 이미지나 자연어 처리와 관련된 다양한 기술을 개발 및 서비스하고 있습니다.

액션파워의 음성 인식 서비스 daglo의 동작 파이프라인

Other Skills

위의 음성 인식 외에도 액션파워에서는 음성이나 텍스트를 활용한 다양한 기술과 서비스를 제공해요.

음성 관련

  • TTS : 글을 읽을 수 있어요.
    TTS(Text-To-Speech) 기술을 통해서 글을 마치 실제 사람이 발음한 것 같은 음성을 생성할 수 있어요. 음성의 성별이나 분위기, 어투, 감정 등을 고려할 수 있기 때문에 다양한 상황에 맞는 음성을 생성할 수 있어요.
  • 화자 인증 : 음성(성문) 인증 기술로 등록된 사람인지 검증할 수 있어요.
    액션파워는 국내 유명 금융사의 실제 음성 데이터를 기준으로 한 음성 인증 테스트에서도 훌륭한 성능을 보인 바 있어요.
사람의 음성을 AI 인공지능 기술을 이용해 음성을 인식하는 과정

텍스트 관련

  • 대화 요약 : 읽기 부담스러운 긴 글이나 회의를 요약할 수 있어요.
    당사의 텍스트 요약 모델은 국내 최고 수준으로 글에서 중요하거나 핵심적인 부분만 추출해서 요약할 수 있어요. 회의같이 여러 명의 화자가 있는 경우, 화자 분리(speaker diarization) 기술을 통해 화자 별로 구분된 스크립트를 생성하고 각 화자의 주장이나 말한 내용을 요약할 수 있어요.
  • 문법 교정 : 글을 교정하고 가독성을 향상시킬 수 있어요.
    자체 개발한 한국어 문법 교정 알고리즘을 통해서 맞춤법 오류같은 문법 오류를 올바르게 고칠 수 있어요. 대화를 받아쓴 글의 가독성을 향상시키기 위해 적절한 문장 부호를 추가하거나 띄어쓰기를 넣을 수 있어요.
    ‘이천이년 오월 십구일’처럼 한글로 받아쓴 날짜를 ‘2002년 5월 19일’ 숫자로 변환해 보다 읽기 쉽게 만들 수 있어요.
  • 감정 분석 : 글이나 문장에서 감정을 분석할 수 있어요.
    텍스트 감정 분석 기술을 통해 글에서 나타나는 의도, 어휘, 분위기 등을 분석해서 긍정, 중립, 부정으로 분류할 수 있어요.
  • 텍스트QA : 글에 대해 질문을 하고 답을 얻을 수 있어요.
    긴 글에서 원하는 부분을 찾기 힘들 때 질문을 하면 TextQA(question-answering) 모델이 정답을 찾아서 알려줍니다.
    자체적으로 개발한 TextQA 기술은 찾을 내용이 있는 긴 글과 찾고자 하는 내용을 입력으로 받고 긴 글에서 질문의 정답에 해당하는 부분을 찾고 해당 내용이 있는 부분을 추출해서 보여줄 수 있습니다.

영상 관련

  • Video 요약 : 비디오 내용을 요약할 수 있어요.
    긴 길이의 비디오 영상에서 중요한 장면만 추출하고 짧은 영상으로 요약할 수 있습니다.
  • Captioning : 비디오에 대한 설명을 생성할 수 있어요.
    비디오 내용을 짧은 텍스트로 요약할 수 있습니다.
  • Video QA :비디오에 대해 질문을 하고 답을 얻을 수 있어요.
    TextQA와 유사하게 입력 비디오에 대한 질문을 하면 정답을 찾고 알려줄 수 있어요.
  • Video Face Emotion Analysis : 비디오에 포함된 얼굴에서 감정을 분석할 수 있어요.
    Facial Emotion Recognition 기술을 통해 감정을 분류할 수 있고, 비디오를 STT한 후 Text Sentiment Analysis가 함께 활용될 수도 있어요. 발화 의도 파악 및 감정 분석 기술은 트렌드 파악 및 Social Listening 등에 다양하게 활용할 수 있어요.

액션파워는

이처럼 액션파워는 다양한 기술들을 이용하는 AI 솔루션 제공 회사로, 소리를 잘 받아쓰고, 받아쓴 결과를 실제 활용 가능한 문서로 손쉽게 변환해줄 수 있어요.

또한 액션파워의 daglo에서는 “음성/영상과 텍스트가 자동으로 싱크하는 내장 편집기”를 제공하여 사용자는 알맞게 내용을 편집할 수 있고, 편집한 결과물을 한글, 워드, 자막 등 다양한 포맷으로 다운로드할 수 있습니다.

액션파워에 대한 더 많은 이야기가 궁금하다면?
More about Action Power

--

--

ActionPower

Cutting-edge AI for the Benefit of the World. Unlock the potential of AI for a better tomorrow! For more details: actionpower.kr/en