뒤로가기back

가사나 자막 입력도 이제 AI가 해준다고요?

2021.04.26ㆍ by Dewey Yoon

가사나 자막 입력도 이제 AI가 해준다고요?

(2021-04-26)

 

많은 분이 그렇듯 저 또한 음악 듣는 것을 참 좋아합니다. 좋아하는 가수의 싱글이 발매된다는 소식이 들리면 두근대는 맘으로 며칠을 기다리다, 발매 당일에 음악 스트리밍 앱을 통해 신곡을 들으며 흐뭇함과 뿌듯함에 젖어 들죠. 눈으로는 화면 속 가사를 읽으며 어떤 감정이 적혔는지 살피고, 귀로는 멜로디를 귓속으로 흘려 넣으며 음악을 온전히 즐깁니다.

 

그러다 종종… 실시간 가사가 지원되지 않거나, 아예 잘못된 가사가 입력된 경우를 발견하곤 합니다. 그럴 때마다 제 음악 청취 경험은 다소 실망스러워지죠. 특히 애정하는 아티스트가 외국 가수이거나 국내에서 대중적이지 않은 편이라면, 가사 자체가 없을 확률은 더욱 높아집니다.

 

노래를 들으며 가사를 동시에 음미하는 경험, 왜 그렇게 어려운 일일까요?

다수의 음원 스트리밍 플랫폼에서는 실시간 가사 보기 서비스를 제공하기 위해 직간접적으로 ‘타임 코더‘라는 인력을 고용하고 있습니다. 사람이 직접 노래를 귀로 들으며 가사와 멜로디를 일일이 싱크(Sync) 하는 작업을 하는 것이죠. 하루에 새롭게 발매되는 음원 트랙이 수십만 곡에 이르기에, 모든 곡의 싱크 가사를 수작업으로 생성하는 것은 사실상 불가능합니다. 이런 이유로 종종 제 ‘최애곡‘에 실시간 가사가 지원되지 않는 슬픈 경우나 ‘휴먼 에러’로 이상하게 입력된 가사를 만나게 되는 것은… 어쩌면 어쩔 수 없는 필연이었던 것 같습니다.

 

벅스를 통해 첫 상용화를 시작한 가우디오랩 GTS의 모습. 이제 실시간 가사보기도 AI로 가능 !
 

이제 어려운 일이 전혀 아닙니다.

모든 곡에서 ‘실시간 가사 보기’가 가능한 시대가 왔거든요.

가우디오랩에서 벅스(Bugs)를 통해 상용화를 시작한 ‘인공지능 기반 가사 동기화 솔루션’인 GTS(Gaudio Text Sync)는 바로 이런 불편함을 풀어냈습니다. GTS는 Audio-AI 기술을 활용해 가사와 음원을 자동으로 동기화해서 효율적으로 실시간 가사 보기 기능을 제공할 수 있도록 돕는 솔루션입니다. 5초당 1곡의 빠른 속도와 정확성을 자랑합니다. 국내는 물론, 전 세계적으로도 인공지능을 활용해 가사 싱크를 맞추는 솔루션을 찾아보기 어려울 정도로 획기적인 가우디오랩만의 독자 기술이라고 하는데요. GTS에 대한 생생한 스토리, 안 들어볼 수 없겠죠?

 

가우디오랩의 CSO(Chief Sool Science Officer) 이자, AI 팀의 수장인 Ben과 GTS에 대해 몇 가지 질문을 나눠보았습니다.

 


 
Dewey👩🏻‍🦰 : 벤, 안녕하세요. 짝짝짝! GTS 상용화를 축하드립니다!🎉🎉 먼저 가우디오랩 AI팀에 대한 소개를 짧게 부탁드려요!
 
Ben💁🏻‍♂️  : 안녕하세요. 저는 가우디오랩의 CSO임과 동시에 AI팀을 리딩하고 있는 벤(전상배)입니다. 가우디오랩 AI 팀에는 작곡, 음향공학, 컴퓨터공학, 전자공학 등 다양한 배경을 가진 오디오 및 인공지능 과학자들이 6명 이상 포진해있어요. 국내 어디서도 찾아볼 수 없는 알찬 연구조직입니다. 규모 면에서도 또 연구 면에서도, 단연 국내 최고의 드림팀이라고 자부할 수 있죠. 좋은 소리 경험을 제공한다는 비전을 갖고 오디오의 미래를 이끌 AI 기술을 매일 뜨겁게 연구하고 있습니다. 그 첫 번째 제품으로 이번에 GTS를 상용화하게 됐네요!
 
Dewey👩🏻‍🦰  : 저는 그동안 모든 곡의 가사를 사람이 일일이 입력해왔다는 사실을 전혀 모르고 있었는데요, 지금까지 음악 스트리밍 플랫폼에서는 가사 입력에 투입되는 인력과 시간, 그리고 검수 과정까지… 꽤나 많은 비용이 들었을 것 같아요. 이 문제를 가우디오랩 AI 팀에서는 어떻게 풀어냈는지 궁금합니다!
 
Ben💁🏻‍♂️  : GTS는 음악과 가사 파일을 재료로하여, AI가 음악의 멜로디에 맞게 가사를 매칭해 실시간 가사의 타임 코드를 생성해 주는 기술입니다. 먼저 음악에서 음성을 분리하고, 음성으로부터 예측된 발음기호와 가사의 발음기호를 비교하여 가사에 대응되는 음악의 지점을 찾은 뒤, 그 지점의 시간을 Time stamp로 정의하는 과정이죠.
 
사실 이러한 방식의 GTS 솔루션을 AI로 구현하는 데에는 생각보다 많은 어려움이 있었는데요. 일례로, 저희가 확보한 동기 가사 데이터 베이스에는 노래와 상관없는 텍스트가 있거나, 노래가 시작하는 시점과는 다른 지점에 Time stamp가 지정되어 있는 경우가 많았습니다. 심지어는 노래 가사에 “좋은 밤 되세요~“라는 글귀나 가사 파일 작성자의 블로그 주소가 기입되어 있기도 했죠. 그러나 이런 어려움들은 오히려 GTS를 더 견고하게 하는 계기가 되었습니다. 가사의 정확도를 높이기 위해 동기화 가사에 대한 Confidence와 오류 판별에 대한 내용을 정리하여 Reporting 하는 Tool까지 제공하게 되었거든요.
 
Dewey👩🏻‍🦰  : 어려움을 제품이 더 발전하는 동력으로 삼으시다니, 대단해요! 사실 음악에서 음성을 분리하는 것도 쉽지는 않아 보이는데요, 그 기술에 대해서 조금 더 자세히 설명해 주실 수 있나요?
 
Ben💁🏻‍♂️  : 가우디오랩의 음원 분리 기술인 GSEP은 고성능 AI 음원 분리 기술이라고 설명드릴 수 있습니다. 음원 분리는 여러 음원이 섞여있는 오디오 신호에서 개별 음원을 추출하는 것을 말하는데요. 영화에서 배우의 목소리만을 추출하거나, 음악에서 특정 악기의 소리를 추출하는 것이 그 예가 됩니다. GTS처럼 노래에서 사람의 음성을 분리하는 과정도 이에 포함되겠죠.
 
Dewey👩🏻‍🦰  : 가우디오랩의 GSEP은 타 경쟁 기술 대비 굉장히 뛰어난 수준이라 들었는데요!
 
Ben💁🏻‍♂️  : 가우디오랩 GSEP의 강점이자 특징은 압도적인 분리력, 현저히 적은 연산량, 월등한 음질. 이렇게 3가지로 요약해서 말씀드릴 수 있을 것 같아요. 먼저 분리력에 대해서 말씀드리자면, 학계에서는 분리도에 대한 성능으로 SDR(Signal-to-Distortion Ratio)를 사용하는데요. GSEP은 S사, F사, D사 등 세계 대형 경쟁사들과 비교했을 때, 가장 높은 7.86 dB의 성능을 보입니다. (👩🏻‍🦰 : 초기 버전에 대한 성능은 AI 팀의 Ben과 Ste가 발표한 이 논문을 참고해주세요. 물론 현재는 훨씬 더 좋아지는 중이고요.)
 
월등한 분리력을 제공하지만 연산량은 현저히 적기 때문에 효율이 높습니다. 다양한 어플리케이션에서 사용될 수 있도록 설계 및 구현된 덕분인데요, 일반적인 GPU 서버 환경에서 노래 한 곡에 대한 목소리를 추출하는데 1.5초 정도면 충분한데, 이는 경쟁 기술 대비 2~16배 정도 빠른 수준입니다.
 
이렇게 빠른 속도에도 불구하고 단연 뛰어난 음질을 선보입니다. 끊임없이 신규 컨텐츠가 유입되는 음악, 영화 스트리밍 서비스에 최적화되었다고 자부하는 지점이에요. 분리된 결과물의 음질은, 가우디오랩 내부에서 MUSHRA (Multiple Stimulus with Hidden Reference and Anchor: ITU-R BS.1534로 정의된 국제 표준 음질 평가 기법) 방식으로 주관 평가를 수행해본 결과, 경쟁 기술들 대비 통계적으로 확연히 좋은 음질임이(statistically significantly better) 확인되었습니다.
 
Dewey👩🏻‍🦰  : 빠르고 정확한 음원 분리가 가능하면서도 음질이 뛰어나다면, 기술적인 면에서 다양한 확장 가능성도 염두에 두실 것 같은데요!
 
Ben💁🏻‍♂️  : GSEP은 Audio-AI 전문가들의 통찰을 반영해서, 다양한 제품의 구현 시나리오까지 고려하며 설계되었어요. 덕분에 고객별 서비스 시나리오에 맞는 Customization도 얼마든지 가능합니다. 음원 분리를 통해 노래에서 음성을 깨끗하게 제거한 고품질 노래방 기능(Karaoke Solution), 시끄러운 환경에서도 영상 속 대사를 더 잘 들리게 하는 음성 강화 기능(Clear Voice) 등으로도 활용 가능한 것이죠. 물론 당연히 깨끗한 음질도 놓치지 않고요.
 
Dewey👩🏻‍🦰  : 이렇게 직접 벤의 이야기를 들으니 가우디오랩 AI 팀이 한결 더 가까이 와닿는 느낌이에요. 그런데 사실 기술도 기술이지만, 고도화된 기술의 집합을 제품화해서 시장으로 꺼내어 놓는 과정 또한 참 어려운 일 같다는 생각이 들어요. 그 과정을 직접 리딩해 보시니 어떠셨나요?
 
Ben💁🏻‍♂️  : 가우디오랩은 혁신적인 오디오 기술을 기반으로 다양한 오디오 솔루션을 제공하고 있어요. 누구보다도 높은 오디오 신호처리 기술력을 확보하고 있을 뿐만 아니라, 고객 니즈에 맞는 제품을 개발하는 과정에서 쌓아온 오디오 및 제품에 대한 Domain Knowledge 또한 독보적이죠. GSEP 이나 GTS와 같은 고성능 솔루션을 확보할 수 있었던 것 또한 그냥 AI 모델만 만드는 것에 그치는 것이 아닌, 가우디오랩의 뛰어난 기술과 노하우를 AI 모델 개발에 녹아들게 했기 때문에 가능했던 것 같아요. 결국 좋은 제품은 AI 모델, 신호 처리, 그리고 Software 최적화까지 극도로 유기적일 수 있도록 융합하는 과정에서 탄생할 수 있는 거죠. 그 과정 끝에 GTS도 빛을 볼 수 있었고요.
 
국내외 유일 인공지능 기반 텍스트 싱크 솔루션, GTS
 
Dewey👩🏻‍🦰 : 좋은 제품을 만드는 법에 대한 벤의 철학을 나눠주셔서 감사해요. 그렇다면 이번에 제품 상용화에 성공한 GTS는 어떤 특징과 의미가 있는지 설명 부탁드려도 될까요?
 
Ben💁🏻‍♂️  : GTS는 빠르고 정확하게 실시간 가사의 타임 코드를 생성할 수 있어요. 일반적인 GPU 서버 환경이라면, 4분 정도 길이의 곡의 타임코드를 생성하는데 5초면 충분합니다. 이 속도라면 GPU 4개가 장착된 서버를 사용할 경우, 하루에 약 7만 곡의 동기 가사를 만들 수 있는 셈이죠. 매일 새로운 곡들이 쏟아지는 음원 스트리밍 시장에서 – 스포티파이에서는 매일 6만 곡이 업데이트된다고 하죠 – 활용하기에 매우 적합합니다. 현재 음원 스트리밍 서비스사가 보유한 곡은 각 사 별로 약 4천만에서 7천만 곡 정도의 규모지만, 실시간 가사가 제공되는 곡은 아직 수십만 곡에 그친다고 하는데요. GTS가 음원 스트리밍 서비스사가 보유한 모든 곡에 실시간 가사를 제공할 수 있는 시대를 새롭게 연 셈이죠.
 
Dewey👩🏻‍🦰  : 가히 어마어마한 속도네요. 사실상 서버 증설에 따라 모든 곡에 실시간 가사를 입힐 수 있는 스피드로 이해됩니다. 이제 ‘실시간 가사 보기’ 지원은 기본인 시대가 온 것 같네요. 그런데 이렇게 빠른 속도로 가사 싱크를 맞추게 되면, 혹시라도 싱크가 잘못 맞춰지는 문제는 없을지 걱정이 되기도 하는데요.
 
Ben💁🏻‍♂️  : GTS는 빠르기도 하지만, 동시에 높은 정확도를 자랑하기 때문에 더욱 완성도가 높습니다. 정확도를 높이는 장치 중 하나로, 싱크에 오차가 발생할 경우 등을 대비해 일종의 점검 신호인 ‘예외 판별기’가 있는데요. 예외 판별기를 통해 싱크 내용을 점검하고, 가사와 자막의 검수를 위한 별도의 세분화된 리포트도 자동으로 제공하고 있어요. 관리, 검수의 측면에서 효율이 매우 높아지죠. 또한 클라우드 방식이 아닌, 플랫폼 사의 자체 서버(on-premise)에 내장하는 방식도 지원하기 때문에 콘텐츠 보안의 면에서도 우수함을 자랑합니다. 예를 들어, 음원 공개일 전에 노출되는 사고 등을 예방할 수 있는 것이죠.
 
Dewey👩🏻‍🦰  : 아하, 텍스트와 음성의 싱크를 정확하고 빠르게 맞추는 기술이라면… 다양한 언어의 콘텐츠 자막도 GTS를 통해 더 빨리 만나볼 수 있을 것 같다는 생각이 들어요. OTT 플랫폼을 비롯해, 정말 말 그대로 숨 가쁘게 콘텐츠 시장이 범람하고 있는 요즘이니까요.
 
Ben💁🏻‍♂️  : 네 맞아요, GTS는 영어, 중국어 등 외국어도 지원하고 있습니다. 세계에서 유일하게 한국어를 지원하고 있기도 해요. 고객이 원한다면 추가 언어도 얼마든지 지원 가능한 시스템을 갖추고 있습니다. 그러다 보니 언어가 섞여 나오는… 예를 들어 한국인과 미국인이 대화를 하는 경우에도 GTS를 통해 싱크를 맞출 수 있어요. 영화, 드라마, 예능… 어떤 영상이든 간에 정확한 자막 싱크를 제공할 수 있습니다. 싱크에서 나아가 번역 지원기나 더빙까지도 확장될 수 있는 가능성까지도 고려하고 있답니다.
 
Dewey👩🏻‍🦰  : 콘텐츠 관련 분야에서 활용 가능성이 더욱 높을 것 같네요! 이번에 GTS가 국내 음악 스트리밍 플랫폼인 벅스를 통해 첫 상용화에 성공했는데요. GTS 사용에 대한 실제 고객사의 반응이나 만족도는 어떤가요?
 
Ben💁🏻‍♂️  : 전체적인 만족도가 높다는 평을 듣고 있어요. 정확도나 품질 면에서도 그렇지만, 실제로 인력이나 시간 투입 비용을 획기적으로 줄일 수 있기 때문에, 만족도가 더욱 높아지는 것 같습니다. 일례로 유명 가수의 새 앨범이 자정이나 새벽, 휴일에 발매되는 경우에는, 보안 등의 이슈로 그 시간에 맞춰 관계자가 대기하고 있어야 하는 상황이 종종 발생하기도 했는데요. GTS를 통해 그러한 수고가 한층 줄어들 수 있었죠.
 
Dewey👩🏻‍🦰  : 설명 감사합니다, 벤! GTS를 활용해 각종 콘텐츠 이용자들이 보다 질 높은 콘텐츠 경험을 할 수 있게 되어 가우딘으로서 저도 매우 뿌듯하네요 👍🏼
 

 

Ben 과의 인터뷰를 통해 가우디오랩 AI 팀과 GTS에 대해서 더 선명히 알 수 있는 시간이었습니다. 음악과 가사, 영상과 자막의 싱크를 정확하고 빠르게 맞추는 GTS가 매일같이 새로운 콘텐츠가 넘쳐나는 스트리밍 서비스 시장에서 차지할 중요한 역할에 대해서는 물론이고요.

 

‘위드 코로나’ 시대에 접어든 요즘, 전 세계 OTT들은 수천억 원, 조 단위의 투자를 하겠다는 발표를 너나없이 쏟아내며 세상을 놀라게 할 콘텐츠를 만들기 위해 경쟁하고 있습니다. 콘텐츠 생산량이 늘어나는 만큼 국내 이용자들도 다수의 미디어 플랫폼을 구독하며 이 흐름을 즐기고 있는데요. 국적과 관계없이 쏟아지는 콘텐츠를 빠르고 정확하게 소비자들에게 전달하는 것이, 스트리밍 서비스의 핵심 역량 중 하나로 부각되는 이유입니다.

 

음악, 영상 등 각종 스트리밍 플랫폼이 더 빠르고 정확하게 이용자 경험을 상승시킬 수 있는 방법 중 하나, 바로 독보적인 처리 속도와 정확도까지 갖춘 국내외 유일 상용 솔루션, GTS가 될 수 있겠네요! 🙌🏼

 
 

 

가우디오랩은…

가우디오랩은 헤드폰 입체 음향 기술의 ISO/IEC MPEG-H 국제표준 채택을 계기로 2015년 설립된 오디오 기술 스타트업으로 전 세계적으로 희귀한 6명의 음향공학박사를 포함한 오디오 전문가가 속해 있다. OTT, 스트리밍, AR/VR, 스마트폰, TV, 극장 등 소리가 있는 어디에서나 훌륭한 소리 경험을 제공할 수 있는 오디오 솔루션을 제공한다. 올해의 최고 VR 혁신 기업상 수상(VR Awards, 런던, 2017년)하였으며, 소프트뱅크벤처스, 캡스톤파트너스, 한국투자파트너스, LB인베스트먼트로부터 투자를 유치했다.