뒤로가기back

AI Text Sync 개발의 어려움, 이렇게 격!파! 했어요 👊🏼

2021.10.25 by Dewey Yoon

AI Text Sync 개발의 어려움, 이렇게 격!파! 했어요 👊🏼

(2021-10-25)

 

진화하는 ‘실시간 가사보기’

사람이 일일이 수기로 음악과 가사의 싱크(Sync)를 맞추던 ‘실시간 가사보기’는 이제 가우디오랩 GTS(Gaudio Text Sync)의 등장으로 과거의 일이 되어가고 있습니다. AI기술이 음성과 텍스트를 자동으로 동기화(Speech-Text Synchronization)하고 있으니까요! 😎 (무려 5초에 1곡씩 싱크를 맞춰버리는 스피드!)

 

GTS에 대한 소개는 지난 번 Ben과의 인터뷰(“가사나 자막 입력도 이제 AI가 해준다고요?”)를 통해 전해드리기도 했었어요 ☺️

 

사실 텍스트 싱크에 대한 수요는 영화, 드라마, 예능 등 수출/수입용 콘텐츠의 자막 뿐만아니라, 뮤직 스트리밍 서비스의 실시간 가사(동기 가사), UCC(or UGC)의 자막, 어학 교육 자료 제작 등 주류 미디어에서부터 1인 미디어 콘텐츠까지 다양한 곳에서 콸콸콸 쏟아져 나오고 있습니다. 특히나 스트리밍이 중심이 되는 현 미디어 생태계에서는 GTS가 가진 AI Text Sync 기술의 수요가 더욱 뜨겁게 증가할 수 밖에 없죠. 🔥

 

 
범람하는 콘텐츠 시장, 이제 텍스트 Sync는 GTS에 맡겨두세요!

 

AI Text Sync 개발의 어려움을 격파한 이야기

이렇게 핫한 기술이지만, 사실 해당 AI 모델을 설계하고 학습하는데 마주하는 실질적인 어려움도 적지 않았다고 합니다. GTS는 그 모든 어려움을 뚫어낸 소중한 노력의 산물인데요, 그 결과로 가우디오랩 AI그룹은 음원 분리, 음성 인식 등을 응용한 모델 설계와 다양한 알고리즘 신호처리 기술의 조합으로 AI Speech-Text Synchronization 기술을 개발, 상용화까지 성공해 시장에서 인정받고 있답니다!

 

가우디오랩의 CSO인 Ben과 GTS를 소중히 키워 세상에 내놓은 Manuel이 실제 Text Sync 모델을 개발하고 이를 상용화하는 과정에서 얻은 현장감 가득한 인사이트를 지난 9월 말 AI DATA INSIGHT를 통해 나눴다는 사실! AI 음성-동기화(AI Speech-Text Synchronization) 기술 개발 전반에 대한 특별 기고를 지금 바로 [AI DATA Insight]에서 확인하세요! ☺️

 

pre-image
아침에 Juice, 오디오 개발에 Juce!

아침에 Juice, 오디오 개발에 Juce! 🍊 오디오 어플리케이션 개발을 도와주는 Juce Framework (2021-10-08)   안녕하세요, 가우디오랩 Application 팀의 Software Engineer, Alan 입니다. 저는 올해 초부터 So Hot! Spatial Audio 맛보기 한 스푼 🥄에서 소개드렸던 Spatial Audio 컨텐츠 제작 툴을 만드는 프로젝트에 참여하고 있습니다. 제가 속한 Application 팀은 이 프로젝트를 기점으로 가우디오랩의 핵심 기술들을 실 사용자에게 서비스할 수 있는 제품 개발에 초점을 맞추어 움직이고 있습니다.   사용자에게 소프트웨어가 전달되는 과정에는 다양한 기술들이 사용되게 마련인데요. 오늘은 그 중에서도 Audio에 특화된 기능들을 빠르게 구현할 수 있도록 도와주는 Juce Framework를 소개하고, 가우디오랩에서는 이 프로그램을 어떻게 활용하고 있는지 소개해 드리려고 합니다. Juce의 세부적인 이야기는 다른 이슈들과 함께 다음 기회에 빌어 다뤄보려고 해요.    Juce? 처음 들어보신다구요?   Juce는 Trakition이라는 DAW를 개발하면서 시작되었고, 2004년에 처음으로 공개되었습니다. 지금도 Juce Github에는 초기에 코드 빌드업을 하면서 고민한 흔적들을 찾아볼 수 있습니다. 후에 2014년 영화 라라랜드에도 등장한 바 있는 Seaboard를 출시한 Roli가 Juce를 자사로 인수하여 운영했었고, 지금은 Audio Software를 중심으로 라이센싱 서비스를 제공하고 있는 Pace가 인수하여 운영을 하고 있습니다. Juce의 시작을 리드하고 오랜 기간동안 운영했던 Julien Storer는 Roli에 남아 여전히 Juce에 공헌을 하고 있죠.         <Roli사의 seaboard 모습>   Audio 관련 기능의 집합체, Juce   Juce는 C++언어 기반의 Audio 관련 기능이 특화된 프레임 워크입니다. GUI, 네트워크, 자료구조 등의 기본적인 기능부터 오디오 플러그인 포맷, 오디오 파일 입출력에 이르기까지 Audio와 관련된 기능을 총 망라해서 제공하고 있다는 점이 큰 특징이죠. 크게 Open-Source와 Commercial 라이센스로 제공되고, 모든 라이브러리가 코드 기반으로 제공되기 때문에 개인이 첫 걸음을 떼기에도 어려움이 없습니다. 최근에는 Mobile 플랫폼도 지원되어 Mac, Windows 등 데스크톱 환경을 벗어나 모바일 플랫폼에서의 간단한 Application 제작도 가능해졌습니다.     그런데 왜 Juce는 C++ 언어 기반일까요?  많은 Audio Application의 기본 언어가 C/C++의 Native 언어로 제공되는 이유는 왜 일까요?     바로 퍼포먼스 이슈 때문입니다. 영상 등 시각 정보의 경우, 디스플레이의 Frame Rate가 낮아지면 부드러운 재생에 영향을 줄지언정 고객이 내용을 인지하는 과정에서 심각한 불편함을 주지는 않습니다. 하지만, 소리의 경우 뒤이어 재생되어야 하는 소리가 멈춘다면 어떨까요? 우리의 귀와 뇌는 본능적으로 이 공백을 듣고 인지하게 됩니다. Glitch 라고도 하는데요. 청자에게 노이즈 등으로 인지되기 때문에 심각한 불편함으로 이어지죠.       <청자에게 심각한 노이즈로 인식되는 Glitch issue>   요즘처럼 Managed 언어와 모던 프레임워크들로 서비스를 빠르게 개발할 수 있게 도와주는 세상에…이게 웬 맷돌 돌아가는 소리 일까요?   다행히도 C++도 C++11을 기점으로 언어 차원에서의 도약을 하고 있고 동시에 Juce도 이러한 언어의 도약을 병렬적으로 지원하고 있어 현재 C++17 컴파일러까지 사용 가능합니다. 뿐만아니라, Web이나 Mobile 세계의 매우 발전된 Front-End 프레임워크를 같이 사용할 수 있는 프로젝트들을 진행하는 Audio Application 개발자들의 고민을 커뮤니티에서 많이 접해볼 수 있기도 합니다.      다양한 Audio 플러그인을 손 쉽게   Juce는 다양한 Audio 플러그인을 손쉽게 만들 수 있도록 도와준다는 또 다른 장점이 있습니다. 특히 요즘은 거의 모든 미디어 작업이 컴퓨터를 기반으로 이루어지고 있는데요. 녹음, 믹싱, 마스터링 등 일련의 음원 작업은 대부분 DAW(Digital Audio Workstation)라 불리는 소프트웨어에 의해 진행됩니다. 애플 사용자라면 익숙한 Garage Band, Logic 부터 전문 스튜디오에서 많이 쓰이는 Pro Tools 등이 모두 이에 해당하죠. 이와 더불어 비디오 편집 툴인 Premiere나 Final Cut Pro 등에서도 간단한 오디오 편집 및 음향 효과 등이 사용 가능합니다. 이 툴들에도 기본적으로는 Audio 관련 기능들이 내부에 구현이 되어 있죠.         <가시밭 길 같아 보이지만 이게 바로 DAW입니다>   DAW 프로그램 내부에는 다양한 음향 효과를 적용하기 위한 필터들이 존재합니다. 이 필터들을 플러그인 형태로 제공하는 회사들이 굉장히 많고 각 플러그인 들은 DAW에서 운용하기 위해 기본적인 약속들을 제공하고 있습니다. 대표적인 플러그인의 형식으로는 AAX, VST, AU가 있고, ARA 등 점유율은 높지 않지만 기타 플러그인 포맷들도 있어요.      오디오 알고리즘을 개발하고 이를 다양한 프로그램에서 사용할 수 있도록 하려면, 각각의 포맷의 약속에 맞는 코드를 만들어야 하는데요. Juce는 각 플러그인 포맷의 사양을 하나로 통합한 WrapperClass를 제공하여 하나의 코드만으로 많은 사용자에게 소리 효과를 전달해 줄 수 있도록 프로그램 내부에서 지원하고 있어요.      가우디오랩의 경우, 초기 VR 컨텐츠 제작을 위한 플러그인 툴인 Works(request link: 현재 추가 Support는 하지 않습니다)를 만들 때 이 기능을 적극 활용하기도 했습니다. Works를 제작할 당시에는 Pro Tools의 제작 경험을 중심으로 진행했기 때문에 형식은 AAX만 존재합니다만, 입출력이 비교적 기본적인 형태의 필터라면 여러 포맷으로 쉽게 만들어 낼 수 있는 장점을 가진 툴입니다. 가우디오랩의 공개 제품은 아니지만 개발중인 필터들의 일부는 소리 효과 등을 동작해보기 위해 내부적으로 VST, AAX의 플러그인으로 포팅하여 사용하고 있기도 합니다.       <Juce로 만들 수 있는 여러 플러그인. 얘네도 다 짝꿍이 있다>   최근 Application팀은 BTRS 프로젝트에서 플러그인 포맷에서 제한되는 사용자 경험을 확대하기 위해, 이를 Standalone Audio App 형태로 확장하는 작업을 했습니다. Juce가 제공해주는 여러 이점들을 활용해 App 형태를 새롭게 포팅하고 신규 기능을 가진 MVP를 약 3개월 정도의 기간 내에 만들어낼 수 있었어요. 지금은 기능 고도화를 위해 설계를 가다듬고 신규 기술 접목을 위한 리서치 기간을 가지고 있습니다.      <더 나은 소리경험을 위해 앞다퉈 한마디씩 하는 PM, 개발자, 디자이너, 사운드 엔지니어…그리고 그걸 지켜보는 나,, 그건 아마도 전쟁일거야…🎤>   사실 Juce가 일반 개발자 분들에게 익숙하지는 않을겁니다. 개발 지원 도구가 비교적 빈약한 것도 사실이에요.   때문에 가우디오랩에서는 Juce의 가장 큰 장점인 Audio 기능만 취하고, UI 영역은 Juce가 아닌 더욱 훌륭한 프레임워크로 변경하려는 계획을 가지고 있답니다. 더 많은 사람들이 더 훌륭한 소리경험을 할 수 있도록, 최신의 Front-End 기술을 접목하여 개발할 수 있는 방향으로 고민하며 실험해 보고 있답니다! (으쌰💪🏼)   <보다 풍부한 사용자 경험 개발을 위한 UI 프레임워크 리서치>   Spatial Audio Application, 같이 만들어요! 그래서… 이 계획의 일원이 되어 저와 함께 Application 팀을 발전시켜나갈 분! (두리번 두리번) Application 팀원 모두가 고개를 쭉 내밀고 동료 가우딘을 기다리고 있답니다!   Juce 프레임 워크가 더 궁금하신 분, 라이브 스트리밍 서비스에서 요즘 대세 중의 대세인 Spatial Audio 기술을 활용한 오디오 편집 어플리케이션은 어떻게 구현되는지 궁금하신 분이라면 저와 가벼운 커피챗, 얼마든지 환영이에요!   직접 설계한 소프트웨어를 통해 소리를 생성해내고, 그 청각적 효과가 설계 의도와 부합하는지 확인하며 더 좋은 소프트웨어를 만드는 과정! 그리고 팀에서 개발한 기술이 국내외 유수의 서비스에 탑재되어 수 많은 이용자에게 가닿는 기쁨과 희열! 언제나 상호 존중하며 최상의 결과물을 만들어내는 가우디오랩에서 함께 만들어요! (찡긋😉)

2021.10.08
after-image
Gaudin Interview: Jazzary with John

Gaudin Interview: Jazzary with John 😎 (2022-02-04)   가우디오랩에서는 매 해 첫 월을 January가 아닌, Jazzary라고 부른다는 소문이 있습니다. 매 연주가 새로운 시작이 되는 재즈처럼, 매 해 첫 시작을 여는 달이기 때문이죠. 재즈하면 가우디오랩의 John을 빼놓고 이야기 할 수 없을텐데요. 가우디오랩의 주니어 PM이자 공식 보컬리스트, 그리고 ‘SoWhat NOLA Band’의 보컬로 활동하고 있는 John의 이야기로 시작합니다. 인터뷰는 베이비가우딘 Winter가 직접 진행해 주셨답니다 🙂     2022년 첫번째 가우딘 인터뷰,주니어 PM이자 재즈밴드 보컬리스트인 존과 함께합니다.   Winter💙 :  안녕하세요 존! 이렇게 인터뷰로 뵈니 새롭습니다! 읽으시는 분들을 위해 간단한 자기소개 부탁드립니다.   John🎺: 네 안녕하세요! 저는 가우디오랩에서 PM으로 일하고 있는 존입니다. 인턴으로 입사한 후 1년동안 AI 팀에서 PM 역할을 맡았고, 이제 가우디오랩의 실감형 오디오 어플리케이션 (BTRS)의 PM도 겸임하게 되었어요!   Winter💙 :  첫 회사로 가우디오랩, 그 중에서도 PM직무를 선택하신 이유가 있는지 궁금합니다!   John🎺: 가우디오랩에서는 2020년 7월부터 2개월 인턴으로 일하기 시작했어요! 그리고 한 달이 조금 지난 시점에 헤니(CEO)에게 합류 의사를 밝혔죠. 음악을 사랑하는 사람으로서 가우디오는 정말 매력적인 회사였고, 사업적으로도 성장 가능성이 보였기 때문에 내릴 수 있었던 결정이었어요.   PM이라는 직무는 제가 가진 역량이 가우디오랩에 어떤 도움이 될 수 있는지를 고민하다가 내린 결론이었습니다. 제품이 만들어지는 과정을 바로 옆에서 지켜보고 싶었고, 그 제품이 사용자에게 어떤 가치를 줄 수 있는지를 고민해보고 싶었어요. 그 과정을 직접 기획하고 관리하는 역할인 PM이 저의 역량과도 맞닿아 있다고 느껴졌고요.   실제로 1년 동안 일해보니 기대한 것 보다 좋았어요! A부터 Z까지 직접 기획하고 실행하는 과정에서 색다른 프로젝트들을 빠르게 경험해 볼 수 었있고, 다양한 사람들과 팀을 이뤄서 일해 볼 수 있었다는 점이 주니어로서 가장 와닿는 장점이었던 것 같네요.        가우디오랩의 소울을 담당하는 John, 인터뷰 모습도 소울 넘쳐…    재즈밴드 보컬로서 존의 삶은 어떤 모습인가요. Winter💙 : 가우딘들이 존을 기억하는 키워드는 아마 ‘재즈 밴드 보컬’이지 않을까 싶어요. 밴드 활동과 일을 병행하는 것이 힘들지는 않으세요?   John🎺: 행복하게 살기 위해서는 좋아하는 일을 해야한다고 생각해요. 그런 의미에서 가우디오와 SoWhat NOLA Band 모두 저에게 하루하루 큰 원동력이 되어주고 있습니다. 밴드에서는 리더로서 스케줄 관리, 인원 관리, 공연 섭외, 페이 협상까지… 사실상 매니저와 같은 역할을 하고 있어요.   Winter💙 : 밴드의 PM 같은거네요?   John🎺: 그렇네요😅 공연을 다니면서 연주자들을 섭외하거나 다음 공연을 구하기 위해 재즈바 사장님들께 밴드 명함을 돌리기도 해요. 작년에 첫 정규 앨범이 나온 이후로는 섭외도 빈번히 들어오곤 합니다.   Winter💙 : 활동하시고 계시는 So What NOLA Band에는 아마추어 뿐만 아니라 프로분들도 계신 것으로 알고 있어요. 음악을 업으로 하시는 프로 연주자들과 협업하는 데서 부담을 느끼시지는 않는지 궁금해요.   John🎺: 밴드에서 아마추어와 프로 분들의 비율이 50:50 정도 되는데요, 중요한 것은 아마추어와 프로 구분이 아닌 하나의 팀으로 음악을 관객에게 얼마나 잘 전달하느냐라고 생각해요. 관객들은 누가 아마추어고 프로페셔널인지 구분하지 않아요. 무대 위에는 못하는 연주자와 잘하는 연주자가 있을 뿐이죠. 아마추어라는 그늘에 숨는 것이 아니라 무대를 존중하고 무대가 삶의 터전인 분들의 고민과 연구와 노력을 이해하고자 하는 마음가짐이 필요하다고 생각해요. 연주자로서 관객에게 최선을 다하는 것은 물론이고요. 그리고 뉴올리언스 재즈에는 다양한 연주자와 관객들을 하나로 만들 수 있는 포용의 힘이 있다고 생각하거든요.     뉴올리언스 재즈, 존의 취향 Winter💙 : 뉴올리언스 재즈는 대중에게 익숙한 장르는 아닌 것 같아요. 잘 모르는 저를 위해 간단하게 설명해주실 수 있을까요? 🙂   John🎺: 재즈 자체가 뉴올리언스에서 태어났다고 할 수 있어요. 그래서 기원지인 뉴올리언스에서 즐기는 재즈는 특유의 원초적인 매력이 있죠. 저희 밴드 장르를 ‘세컨 라인’이라고 부르는데 쉬운 리듬과 화성을 기반으로 관악기들이 주는 다이나믹을 통해 누구나 쉽게 공감할 수 있는 음악을 하고 있어요.   ‘세컨라인’은 마칭 밴드 공연에서 연주자인 ‘퍼스트 라인’의 뒤를 따르는 사람들을 지칭하는 말이에요. 퍼스트 라인의 연주보다도 뒤를 따르는 관중, 즉 세컨라인의 존재 자체가 장르가 된거죠. 기원이 그렇다보니 관객들의 참여와 집중도에 따라서 연주가 주는 에너지 자체가 달라지기에 공연할 때 관객과의 교감에 많이 신경을 쓰는 편이에요.   공연에서도 이런 비하인드를 알려드릴 방법을 고민하다가, 아예 첫 곡을 ‘Second Line’ 이라는 곡으로 하는 레퍼토리를 짜게 되었어요. 지금 들으신 곡이 세컨 라인이며, 여러분들이 주인공이 되는 장르다 라는 설명을 곁들이는 식이죠. 연주 초반에 트럼펫이 샤우팅 하는 파트가 관객들의 이목을 끄는데 도움이 되기도 해요.   아래 저희 밴드의 Second Line을 소개해드릴게요, 함께 보시죠!       밴드 보컬로서 존의 꿈 Winter💙 : 와 정말 멋지네요! 특히나 멤버 한 분 한 분이 공연을 진심으로 즐기는 모습이 보여서 더 신나는 것 같아요! 존, 그렇다면 앞으로 밴드 활동을 하면서 이루고 싶은 바가 있다면 무엇인지 여쭈어봐도 될까요?   John🎺: 그럼요! 저희는 한국의 Preservation Hall Jazz Band 가 되고 싶다는 목표를 가지고 있어요.   Preservation Hall Jazz Band는 뉴올리언스에서 1960년대부터 뉴올리언스 기반 음악을 하고 있는 밴드에요. 세대가 교체되면서 계속 그 역사를 이어오고 있죠. 이처럼 한국에서 뉴올리언스 재즈 장르를 보존하고, 더 많은 사람들에게 알리고, 재즈가 문화가 되는데 기여하는 지속가능한 공동체가 되고 싶어요.   실제로 세컨 라인은 뉴올리언스에서 공동체로서의 정체성을 가지고 시작됐어요. 결혼식이나 장례식에서도 세컨 라인을 연주했고 소외된 계층들이 세컨 라인 공동체를 통해 서로를 보살펴 온 역사가 있다고 해요.   더 나아가서는 재즈를 가르치는 교육 기관을 만들어 보고 싶다는 생각도 하고 있어요. 사람들이 재즈를 배워서 공연하고, 이들이 만들어내는 새로운 음악이 한국에서 뉴올리언스 재즈를 이어나가는 그림이죠.   밴드에서 우스갯소리로 재즈 대가인 트럼페터 윈튼 마셜리스와 함께 마칭하고 싶다는 말을 해요. 5년 정도 후에는 윈튼 마셜리스와 저희 밴드가 서울 한복판에서 마칭 공연을 할 수도 있지 않을까요?     꿈을 향하는 John의 진실한 이야기는 듣는 우리들의 마음까지 설레고 벅차게 했습니다. 재즈를 통해 뜨거운 온기를 전하고자 하는 발걸음, 가우디오랩도 계속해서 열심히 응원할 예정입니다. 그럼 다음 가우딘 인터뷰도 기대해주세요!   

2022.02.08