지난 3월 가우디오랩에 합류한 근우가 아시아경제와 인터뷰를 진행했습니다. 인터뷰를 통해 “인공지능에 귀 달러 온” 근우의 포부를 한 눈에 알아볼 수 있었는데요. 인터뷰 전문을 본 포스팅을 통해 공개합니다!
올해 AI 전문가로 가우디오랩에 합류했다. 가우디오랩에서 어떤 역할을 맡게 됐나?
현재 가우디오랩 R&D 조직의 절반은 AI가 차지하고 있습니다. 가우디오랩의 AI 조직은 연구와 개발로 나뉘는데, 저는 그 중에서도 연구조직을 이끌고 있습니다. 통상 대기업에서 연구조직은 주로 상위 조직에서 정한 방향에 맞추어 연구를 실행하게 됩니다. 하지만 가우디오랩의 연구조직은 능동적이고 주도적으로 연구방향을 수립하고 실행합니다. 덕분에 사업과 얼라인된 빠르고 유연한 연구개발이 가능합니다. 제 역할은 학계 및 산업계에 대한 이해를 바탕으로 AI 연구 방향을 수립하고 훌륭한 팀원들과 함께 이를 실행하는 것입니다.
오디오 AI 기술 전문가로 오랫동안 경력을 쌓아왔다. 스포티파이, 틱톡 등 글로벌 빅테크 기업에서 일하다 한국의 스타트업을 선택한 이유가 궁금하다.
스포티파이, 틱톡 등 제가 근무했던 글로벌 빅테크 기업들은 각 분야에서 명실상부 세계 최고의 기업일 뿐만 아니라, 기업 문화나 생산성 면에서도 세계를 선도하고 있습니다. 구조적으로 잘 짜여진 조직인 만큼, 업무 또한 굉장히 분업화가 잘 되어 있죠. 그런 빅테크 기업에서 약 4년을 보내면서 연구와 조직 문화에 대해 많이 배웠습니다.
하지만 같은 일을 비슷한 방식으로 하는 것에 더 이상 재미를 느끼지 못하게 되었습니다. 스포티파이와 틱톡에서 해온 업무를 인스타그램에 가서 또 반복하고 싶지 않았습니다. 오히려 가우디오랩이라는 스타트업이 연구자에게 제공하는 자유로운 환경과 주도적인 업무가 가능한 환경 등이 훨씬 더 매력적으로 느껴졌습니다.
사실 가우디오랩은 여러모로 저와 연이 깊은 회사입니다. 과거 한국에서 5년 가량 음향 연구를 하던 시절부터 오현오 CEO, 전상배 CSO와 인연이 있었고, 소위 ‘알파고 쇼크’ 직후에 제가 가우디오랩에서 AI 초청 세미나를 하기도 했었죠. 당시 오현오 CEO가 제게 “이제 음향도 AI가 대세가 되겠느냐”는 질문을 했었고, 저는 “시간 문제일 뿐”이라고 대답을 했던 것이 기억이 납니다.
어느덧 시간이 흘러 저와 CEO 모두 ‘그 때’ 가 바로 눈 앞에 있다는 직감을 갖고 함께 일하기로 뜻을 모았습니다.
한국에서 5년, 그리고 영국과 미국으로 건너가 8년간 일했던 분야를 다시 한국에 돌아와 집대성하겠다는 임무를 받았습니다. 어쩌면 운명일 수 있겠다는 생각으로 합류했습니다.
전문가의 입장에서 본 가우디오랩의 장점 혹은 차별화된 경쟁력은 무엇인가?
가우디오랩의 가장 큰 자산은 바로 ‘사람’입니다. 우선, 이렇게 오디오 전문가가 많이 있는 회사는 세계적으로도 찾아보기 어렵습니다. 가우디오랩에는 전 세계적으로 희귀한 음향공학박사가 총 8명이나 되는데요, 이는 국내 최상위 수준의 규모입니다.
그리고 R&D가 아닌 조직 마저도 ‘소리에 진심인 사람들’로 가득 차있습니다. 그 결과가 바로 조직의 순발력이자 힘입니다. 존경할 수 있는 동료들이 있기에, 가우디오랩은 계속해서 강해질 수 밖에 없다고 생각합니다.
또한, 2022년 현재 한국은 전 세계에 문화를 수출하는 콘텐츠 강국이 되어있는데요.콘텐츠 관련 기술을 개발하는 회사 입장에서는 놓칠 수 없는 좋은 기회입니다. 저희도 다각적인 측면에서 다양한 파트너사와 협력을 진행하며 새로운 기회를 계속 만들어내고 있습니다.
기존 오디오 AI 기술의 현황과 문제점은 뭐라고 봤나, 그리고 이를 해결하기 위한 노력은 무엇인가?
기존에 있던 회사들은 빠르게 변하는 AI 기술의 속도를 따라가는 데 어려움을 겪습니다. 이런 현상은 오디오 뿐만 아니라 어디에나 마찬가지이기 때문에 스타트업에게도 항상 기회가 열려있는 셈입니다.
학계에서 좋은 평가를 받는 결과물이라도 실제 제품에 적용하기엔 어려운 경우가 많이 있습니다. 예를 들어 가우디오랩이 개발한 기술 중에 음악과 가사를 동기화해주는 GTS(Gaudio Text Sync)라는 기술이 있습니다. 음악 스트리밍 서비스에서 사람들이 음악을 들을 때 각 순간에 해당하는 가사를 아주 정밀하게 보여주는 기술입니다. 보통 ‘실시간 가사보기’ 라고 하죠.
학계에서 나온 방법들도 어느 정도는 작동하지만, 너무 작은 데이터로서 평가하기 때문에 실제로 만들어서 써보면 사업적으로는 만족하기가 어려운 경우가 많습니다. 때문에 가우디오랩에서는 학계에서 사용하는 것보다 훨씬 크고 까다로운 데이터로 AI 솔루션을 평가하였고, 또 이 기준을 통과하는 세계 최고의 성능을 만들어냈습니다. 덕분에 해당 기술은 현재 상용화에 성공하여 다수의 스트리밍 서비스에 제공되고 있습니다.
많은 스타트업들이 AI 개발 인력 확보에 어려움을 겪고 있다. 좋은 인력을 영입하기 위해서는 어떤 노력이 필요하다고 보나?
AI 개발인력이 가장 중요시하는 가치는 본인의 성장이라고 봅니다. 회사와 본인이 함께 성장할 수 있는 기업 문화가 매우 중요하다고 생각합니다. 저 또한 팀원들이 회사의 성장 방향성에 맞는 결과물을 내는데 기여할뿐만 아니라, 그 과정의 전반을 통해 많은 것을 배울 수 있도록 팀을 이끌고자 노력중입니다. 물론 회사의 발전에 따른 성과를 직원들과 나누는 것은 당연하고요.
실제로 가우디오랩은 강한 동기부여를 통해 성장에 집중할 수 있는 기업문화를 가지고 있습니다. 실제로 가우디오랩 구성원들의 총 동기지수(Total Motivation Factor, 일의 즐거움/의미가 높을수록 높아짐)는 일반 회사들과는 비교할 수 없을 정도로 매우 높은 편입니다.
올해 주력하고 있는 핵심 분야와 목표에 대해 설명을 부탁한다.
“소리는 경험의 절반이다(Sound is half the experience)”, 조지 루카스 감독의 말입니다.
오디오 없이는 뛰어난 콘텐츠가 완성될 수 없는 것이죠. 영화, 방송, 음악 등 우리 주변 다양한 미디어의 소리를 만들고 처리하는데는 수많은 오디오 기술이 들어갑니다. 여기에 AI를 도입한다면 불가능을 가능케 할 수 있는 분야가 무궁무진해집니다.
최근 가우디오랩에서는 여러 가지 악기와 목소리를 분리해내는 음원분리 기술 GSEP을 개발하였습니다. 음악이 요리라면 여기에서 재료들을 하나하나 분리해내는 기술입니다. 현재는 저희 홈페이지를 통해 이를 무료로 제공하고 있는데요, 이를 고도화하는데 매진하고 있습니다.
또, 현재 메타버스 환경에는 오디오 기술이 전무한데요. 이 부분도 저희의 주력 분야 중 하나입니다. 영화관에서 영화를 보면 일반 디바이스에서 보는 것 보다 훨씬 몰입감이 높아지는 것처럼, 오디오는 컨텐츠의 화룡점정을 담당합니다. 이는 메타버스 환경에서도 마찬가지, 혹은 더 강한 역할을 하게 될 것이라고 생각합니다. 사람들의 ‘몰입’을 이끌어내야 하니까요.
메타버스 환경에서는 실시간으로 오디오를 생성하고 이를 실감나게 재생하는 기술이 필요할텐데요, 이미 AI는 이러한 기술 개발에 중요한 역할을 하고 있습니다. 가우디오랩에서도 최고의 기술을 제공하기 위해 끊임없이 연구 중에 있습니다.