[일상에 스며든 AI 기술] 비디오 요약(Video Summary)

ActionPower
5 min readSep 23, 2022

--

스마트폰으로 활성화된 비디오 콘텐츠 소비

전세계 인터넷 트래픽에서 비디오가 차지하는 비중이 점점 늘어나고 있습니다. 시스코의 조사 결과(Cisco VNI Complete Forecast Highlights)에 따르면, 2016년에는 67%인 비디오 트래픽 비중이 2022년에는 무려 80%에 이르렀다고 하는데요.

최근 우리 주변에서 비디오 콘텐츠를 소비하는 사람들을 자주 목격할 수 있죠. 그만큼 다양해진 비디오를 효율적으로 시청하고 이용하고 싶어하는 사용자의 요구도 늘어나고 있습니다.

유튜브 썸네일 생성, 개인화된 비디오 광고, 하이라이트 콘텐츠
출처 : https://www.youtube.com/watch?v=dHp5I0m9_zA

이와 같은 사용자의 니즈에 따라, 일찌감치 유튜브는 썸네일을 설정할 수 있게 기능을 추가했고, 소셜 미디어 플랫폼은 개인화된 동영상 광고를 선보였습니다. 최근에는 콘텐츠 크리에이터들은 운동 경기나 예능 프로그램의 하이라이트만 모아 새로운 콘텐츠로 제공해 큰 호응을 얻고 있습니다.

하지만 우리에게 여전히 하루에 수천 개의 비디오 콘텐츠를 탐색하고 시청하기란 쉽지 않은 일입니다. 비디오 요약은 이러한 사용자들의 요구를 만족시킬 수 있는 하나의 방법으로 새롭게 떠오르고 있습니다.

비디오 요약(Video Summary)

우리가 원하는 비디오 콘텐츠를 찾기 위해서는 선택한 하나의 영상을 재생해야 합니다. 그만큼 무수한 콘텐츠 안에서 많은 시간과 노력을 소비해야 하죠. 이 때, 사용자가 전체 비디오를 재생해보지 않고 원하는 장면이나 콘텐츠 내용을 알 수 있다면 얼마나 편리할까요?

‘비디오 요약’ 이것이 바로 우리가 그토록 찾아 헤매던 기술일지 모릅니다. 비디오 요약은 전체 영상을 보지 않고도 중요한 핵심 부분만 축약해 하나의 짧은 동영상 또는 요약본을 추출하여 사용자에게 제공하는 기술입니다.

비디오 요약의 종류: 비디오 스토리보드와 비디오 스킴
출처 : https://www.ijraset.com/fileserve.php?FID=12932

비디오 요약의 종류

비디오 요약은 크게 비디오 스토리보드(Video Storyboard)와 비디오 스킴(Video Skim) 종류로 나눠볼 수 있습니다.

  • 비디오 스토리보드(Video Storyboard)는 비디오의 각 구간에서 대표적인 단일 프레임을 추출해 비디오 요약을 구성하는 방식입니다.
  • 비디오 스킴(Video Skim)은 비디오의 각 구간에서 대표적인 프레임 집합들을 추출해 비디오 요약을 구성합니다. 비디오 스킴은 음성과 영상을 포함하며, 비디오 스토리보드에 비해 연속성이 있어 보다 다양한 정보를 제공할 수 있습니다.

비디오 요약 방식

전통적인 방식에서는 아래와 같이 사람이 직접 특정한 기준을 설계하여 비디오 요약을 시행합니다.

  • 인접 프레임간 움직임 정보의 변화량(면접, 위치, 분산 등)을 시간적으로 누적하여 계산하는 움직임에 대한 정보량
  • 인접 프레임 간의 화소값 차이의 변화 패턴
  • 비디오의 디졸브, 페이드와 같은 다양한 형태의 특수효과 등
물체의 움직임 정보 변화 예제
물체의 움직임 정보 변화 예제 (출처 : http://www.kibme.org/resources/journal/20181205112916848.pdf)

최근에는 딥러닝을 이용하여 비디오 요약을 수행하고 있습니다.

MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention ( Aman Khullar et al.)
출처 : MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention ( Aman Khullar et al.)

비디오 요약은 여러 모달리티(modality)를 같이 활용해 문제를 해결합니다. 이 때, 여러 모달리티를 결합하기 위해 서로 다른 종류의 딥러닝 네트워크를 결합하기도 합니다. 주로 사용되는 요소는 비디오(vision)과 자막(text)입니다. 그 이외에 음성(audio), 물체(object) 등등 다양한 모달리티를 함께 고려합니다.

인코더는 각 모달리티에 따라서 다양한 모델들이 활용됩니다.

출처 : Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward (Kaiyang Zhou, et al.)

이미지를 위한 CNN 모델, 텍스트 혹은 시계열적인 특성을 반영하기 위한 LSTM 모델, 이미지와 텍스트를 동시에 고려한 Transformer 모델 등 다양한 모델들이 결합되어 인코더로 활용될 수 있습니다.

이와 같이 비디오 요약 기술은 우리 일상에 반드시 필요한 기술로 점차 발전해나가고 있습니다. 비디오 영상 콘텐츠의 의미를 간편하게 요약해 사용자들에게 정확하게 전달할 수 있도록 기술이 점차 정교해지고 있죠. 여러 기술이 모여 하나의 새로운 기술이 만들어지는 것처럼, 비디오 요약 기술도 인공지능과 함께 편리함을 넘어 우리의 삶을 더욱 풍요롭게 만들어 줄 것으로 기대합니다.

액션파워에 대한 더 많은 이야기가 궁금하다면?
More about Action Power

--

--

ActionPower

Cutting-edge AI for the Benefit of the World. Unlock the potential of AI for a better tomorrow! For more details: actionpower.kr/en