해외 수출 콘텐츠, 음악 저작권 문제는 어떻게 풀까?

2025.01.24ㆍ by Hailey Moon

사례 1.

연예인 설리의 못다 한 이야기를 다룬 넷플릭스의 다큐영화, <진리에게>. 이 작품에서는 설리가 핸드폰에 남긴 독백 영상을 엔드 크레딧의 중요한 연출 요소로 사용하고자 했습니다. 하지만 생전에 설리가 일기처럼 남긴 영상에는 방안에 흐르던 노래 ‘La vie en rose(라비앙로즈) - Edith Piaf’가 함께 녹음됐고, 이것이 문제가 되었습니다. 노래의 저작권 문제를 해결하지 못하여 그 장면을 작품에 사용할 수 없게 된 것이죠.

 

사례 2.

한국의 한 인기 예능 프로그램이 대만에 수출되어 큰 히트를 쳤습니다. 그러나 안타까운 상황이 발생합니다. 프로그램에 사용된 음원의 저작권이 해당 국가에서는 해결되지 않아 막대한 로열티를 지급해야 했던 것입니다. 결국, 콘텐츠를 수출하여 번 수익보다 더 큰 비용을 지불해야 하는 상황이 발생했습니다.  

 

사례 3.

한 인기 VLOG(브이로그) 유튜버가 축구 경기 직관 영상을 업로드하려다 문제가 생겼습니다. 경기장에서 흘러나온 응원곡이 영상에 포함되면서 유튜브의 Content ID 시스템에 저작권 침해로 걸렸고, 결국 영상을 사용할 수 없게 되었습니다.

 

위 사례들은 세상의 다양한 오디오 문제를 해결하는 가우디오랩에 실제로 접수되었던 문의들입니다. 

 

유튜버 같은 개인 창작자부터 전문 방송국까지, 영상 콘텐츠를 제작하다 보면 예기치 못하게 영상에 있는 음악을 제거하거나 교체해야 하는 상황에 직면합니다. 물론, 앞서 소개한 사례 외에도 다양한 경우들이 있습니다.

 

그리고 지금부터, 가우디오랩이 위 사례들을 해결한 방법을 소개하고자 합니다.

 

 

(사진= '진리에게' 스틸컷)

(사진= '진리에게' 스틸컷)

 

 

 

왜 음원 교체가 필요할까?

 

대표적으로 음악 저작권 문제를 해결하기 위해서입니다.

 

방송국에서는 프로그램 제작 시 음악 저작권료를 방송 송출 한정으로 지불합니다. (좀 더 구체적으로는, 대부분 방송국이 음악 저작권 관리 협회에 일정의 사용료를 내고, 협회가 관리하는 곡들에 대해 무제한으로 사용할 수 있는 권리를 얻습니다. 단, 그 권리는 해당 방송국의 방송 송출에 한정됩니다.)  

 

그러나 콘텐츠가 넷플릭스 등 해외 OTT 플랫폼이나 FAST(광고 기반 무료 스트리밍 플랫폼) 채널로 배급되면, 각국에서 음악 사용권을 추가적으로 확보해야 합니다. 이는 막대한 비용이 발생할 수 있는 문제죠. 이미 잘 만들어둔 콘텐츠이고, 있는 그대로 가져다가 10원이라도 받고 팔면 이득인데, 자칫 배보다 배꼽이 더 커질 수 있습니다.

 

지금까지는 이런 음악 저작권 문제를 해결하는 것이 쉽지 않아서

  • (1) 수출을 포기하거나

  • (2) 해당 구간을 영상까지 통편집하거나(음악이 시종일관 깔린 예능 프로그램에선 이조차도 불가능하죠)

  • (3) 저작권 문제가 없는 다른 비슷한 음악으로 교체했습니다 (이를 영상 재제작이라고 부릅니다),

 

특히 (3) 번의 경우, 지금까지도 모든 과정이 수작업으로 이루어지고 있습니다: 성능이 열악한 오디오 편집 툴을 이용하여 영상에서 음악을 찾아 최대한 분리해 내고 → 이와 가장 유사한 음악을 한정된 음악 DB(Data Base) 안에서 하나씩 들어가며 찾아낸 뒤 → 원본 영상에 다시 자연스럽게 삽입하는 작업을 거쳐야 합니다. 사람이 한 땀 한 땀 해야 하는 노동 집약적인 작업이다 보니, 60분짜리 영상 하나를 편집하는데 2-3주가 걸린다고 합니다.

 

앞선 사례에서 언급한 유튜버들도 별반 다르지 않은 상황인데, 음악 저작권 문제가 있는 영상에 대해 (1) 업로드를 포기하거나, (2) 해당 부분을 통편집해서 도려내거나, (3) (최근에는) 음원분리 기술을 이용해서 음악만 지워서 올리는 방식으로 문제를 해결하고 있습니다.

 

음악 저작권은 유튜브를 운영하는 구글에게도 워낙 중요한 문제라, 모든 영상 업로드 과정에서 Content ID라는 시스템으로 저작권 문제가 있는 음원을 감지하고, 위 (1)-(3)의 옵션을 해결 방안으로 제안하고 있습니다.  

 

 

 

Music Replacement: AI로 저작권 문제를 혁신적으로 해결하는 솔루션

GSP-MR: AI로 저작권 문제를 혁신적으로 해결하는 솔루션

Gaudio Music Replacement는 이와 같은 문제를 해결하는 가우디오랩의 최신 AI 영상 오디오 편집 솔루션입니다. 

 

 

기존에 수작업으로 진행하던 방식과는 어떻게 다를까요?

 

 

우선, 사용자가 영상을 Music Replacement에 업로드하면 AI 음원분리 기술을 이용하여 오디오 트랙을 대사, 음악, 효과음 (Dialogue, Music, Effect의 앞글자를 따서 DME라고 부릅니다)의 개별 트랙으로 분리합니다. 가우디오랩은 사실 이 분야에서 독보적인 기술력을 자랑합니다. 가우디오랩의 AI 음원분리 기술인 GSEP이미 여러 미디어를 통해 가장 탁월한 음질을 제공하는 음원 분리 기술이라는 평가를 받고 있죠. 특히, 2024년 CES에서는 실시간으로 목소리를 분리하여 선명하게 들려주는 Just Voice라는 제품이 혁신상(CES Innovation Awards)을 수상하기도 했습니다.  

 

그다음, 통째로 분리된 음악 트랙에서 AI가 개별 음악 하나하나를 인식하여 구간을 나눕니다. 이 각각의 음악에 대해 음악 추천 AI가 DB에서 가장 유사한 곡을 찾아 교체해 주는 거죠. Music Replacement의 음악 DB에는 전 세계 어디에서도 저작권 문제없이 쓸 수 있는 다양한 장르의 음악이 수만 곡 구비되어 있습니다. 저품질의 AI 생성 음악이 아닌, 전 세계의 아티스트들이 직접 만들어 등록한 음악이기 때문에 뛰어난 품질을 보장합니다.

 

마지막으로 교체 작업이 끝난 음악 트랙과 앞서 분리해 뒀던 대사, 효과음 트랙을 다시 믹스해서 결과물을 내보내주면 모든 과정이 끝납니다.

 

 

 

이제는 더 이상 음악 저작권 문제 때문에 잘 만든 콘텐츠를 (1) 포기하거나 (2) 잘라내거나 (3) 많은 비용과 시간을 들여 수작업으로 해결할 필요가 없습니다. 이렇게 Music Replacement에 문제가 되는 영상을 넣고 잠시 기다리면…Boom! 원작의 음악적 연출 의도를 그대로 보존하면서 저작권 문제가 해결된 영상을 손쉽게 얻을 수 있으니까요. (실제로 전문가들에게 블라인드 테스트를 수행했을 때 어느 쪽이 원곡인지 구분하지 못할 지경이었답니다.)

 

서두에 소개했던 사례에 등장한 곳들은 이미 가우디오랩의 B2B 고객사가 되어 Music Replacement을 열렬히 이용하고 있습니다. 콘텐츠를 해외로 수출하기 위해서는 음악의 저작권 문제뿐만 아니라 여러 콘텐츠 현지화 작업 (Content Localization)을 거쳐야 합니다. 더빙이나 자막, 큐시트 생성, 영상 편집과 같은 추가 요청들이 고객사로부터 자연스럽게 들어오게 되죠.

 

“Gaudio 안에서 모든 것을 해결하고 싶어요~”

 

다시, 가우디오랩의 연구팀과 제품팀은 바빠지고, 그렇게 하나씩 새로운 기능이 추가되며 GSP-MR의 편리함과 성능이 업그레이드되고 있습니다. 이제 Music Replacement이라는 명칭은 제품을 전부 설명하지 못하다 보니, 저희 PO(Product Owner)가 이름 변경에 대한 고민이 크다고 하네요.😅

 

Music Replacement 내부 기능의 대부분은 AI가 수행한다고 간단히 언급했습니다. 다음 편에서는 각 과정에 대한 좀 더 상세한 기술 소개와 Gaudio Music Replacement Editor의 다양한 편리한 기능들을 소개해드리려는데요, 기대하셔도 좋을 것 같습니다. Stay Tuned~

 

pre-image
불협화음, 말러, 그리고 그 이후 - Part2

안녕하세요! 가우디오랩에서 음성 AI를 연구하고 있는 Ste(스테)입니다.   지난 포스트에서 말러의 불협화음이 그의 감정을 담아내는 언어였음을 이야기했죠.이번엔 그 언어가 음악사적으로 남긴 흔적과 의미를 살펴보려 합니다.말러의 음악, 이제 더 깊이 들어가 볼까요? 🎶   2 말러   그 숙제를 풀어낸 작곡가들 중 한 명이 말러이다. 말러는 그의 교향곡에서 불협화음의 가능성을 예술적 경지로 끌어올린 작곡가였다. 그가 말하길, ”교향곡은 세계와 같다. 모든 것을 껴안아야 한다.”라고 하였다. 그의 음악에는 인간의 복잡한 감정과 우주의 질서와 혼란, 삶과 죽음의 모든 것이 담겨 있다. 말러에게 불협화음은 단순한 음의 불일치가 아닌, 조화와 긴장 사이의 경계를 자유롭게 넘나들며 상반된 감정을 동시에 표현하는 필수적인 도구였다.   그의 교향곡에서 말러는 세상의 다양성을 하나로 융합하며, 청중이 새로운 철학적 사유에 이르게 한다. 교향곡 1번에서 봄의 생명력을 노래하면서도 자신의 고통스러운 유년 시절을 반추하는듯이 협화와 불협화, 조화와 혼란을 동시에 펼쳐내고, 교향곡 2번에서는 죽음에서 부활로 이어지는 여정을 통해 삶의 무게와 그 너머의 가능성을 표현해낸다.   교향곡 3번은 존재의 계층을 탐구하며 자연과 인간, 사랑의 메시지가 서로 아름다운 조화를 이루는 모습을 보여준다. 교향곡 5번 아다지에토에서는 겉으로는 아름답지만, 그안에 사랑의 슬픔과 불안이 스며들어 있는 모습을 통해, 음악이 사랑과 상실, 고통과 기쁨을 동시에 담아내는 도구가 될 수 있음을 보여준다.   말러의 마지막 교향곡인 10번은 그의 예술적 탐구의 정점으로, 불협화음의 절정을 담아낸 작품이다. 비록 미완성으로 남았지만, 말러는 이 작품에서 고통과 절망을 끌어안으며 불협화음으로 인간의 상처와 고통을 하나의 예술적 세계로 승화시키고자 했다.     2.1 A음으로 쓴 연애편지 : 말러 교향곡 5번 4악장   말러의 교향곡 5번 4악장은 그의 아내 알마 말러를 위해 헌정된 것으로 유명하다. 그 특유의 아름다운 선율로 느리지만 지루하지 않고, 벅차오르는 감동을 선사해 많은 사람들에게 사랑받는 작품이다. 최근에는 박찬욱 감독의 영화 ’헤어질 결심’에서 주인공이 삶과 죽음에서 방황하는 모습을 극적으로 표현하는데 인용된 바 있다.   조성은 F Major로 느리고 차분하지만 끈질기게 물고 늘어지는 비화성음의 컨트롤이 마치 슈만의 피아노 소품 ”트로이메라이”를 연상 시킨다. 조성도 같고 시작하는 음의 구성도 비슷하며, 더욱이 절정부분에서 강조되는 높은 A음의 사용이 비슷해 알게 모르게 영향을 받았음이 틀림없다. ”트로이메라이”에서는 절정부분에서 높은 A음을 유지하면서 전반부에는 A Major 화음으로 후반부에서는 G Major 9th 화음으로 수식을 한다. 후반부의 화음에서 A음이 9음이 되므로 좀 더 긴장감이 증폭되고 애잔한 감동이 밀려오는 셈이다.     Figure 4: 말러 교향곡 5번 4악장(좌)와 10번 1악장(우)에서 발췌     말러 또한 이와 같은 구조를 취한다. 같은 높은 A음을 두고 전반부에서는 F Major 화음으로 수식하고, 후반부에서는 Figure 4에서 보듯이 BbmM7 화음, B∅7화음 그리고 이어서 F Major로 수식한다. 두 개의 화음에 걸쳐 F Major로 가는 동안 비화성음은 두 개가 사용된다. 2바이올린에서 사용된 A음로 가는 G#음과 D음으로 가는 C#음이다.     2.2 내 아내에게 남자친구가 생겼어요   말러와 알마는 결혼을 하였지만 그들의 사랑은 오래가지 못하였다. 말러와 알마가 틀어지게 된 이유는 언제나 그렇듯 둘만이 아는 사실일테고 (때로는 그들도 모르기도 하지만) 몇몇 서로에 대해 이야기한 내용들을 비춰 어렴풋이 짐작해볼 따름이다. 알마도 소싯적 작곡가를 꿈꾸었으나 말러와 결혼하면서 포기했다고 한다. 말러는 알마의 음악에 대해 평하기를 ” 그녀가 작곡한 음악은 역겨운 딜레탕티즘에 절어 있으며, 그녀의 머릿속에 든 것은 복종에 대한 공상과 지배에 대한 공상 사이에서 이리저리 배회하는 나태한 사고방식 뿐이다.”라고 한 바 있다. [1]   알마가 작곡한 가곡 몇 개를 유튜브를 통해서 들을 수 있는데 상당한 실력을 가지고 있었던 것으로 판단한다. 예를 들어 ”5 Lieder” 의 첫번째 곡 ”Die Stille Stadt”에서 첫부분에 D-C-Bb-A-G이라고 하행하는 선율에 이어, 피아노 반주로 D-C-B-A-G이라고 B음을 모듈레이션 하여 받거나, 감7화음에 이어 자유롭게 다른 조성으로 전조하는 등의 화성 구사 능력을 보았을 때, 상당히 제대로 음악 교육을 받았으며, 낭만 후기에 있었던 부동 화성(floating harmony) 체계에 대한 감각적 이해가 탁월했던 것으로 보인다. 이런 재능을 말러도 몰랐을리 없다만 작곡을 계속 하기를 반대하고 악평을 쏟아낸 이유는 무엇인지 모를 일이다. 이런 상태에서 둘의 결혼 생활은 화목하지 못하였고, 요양을 떠난 있던 알마는 건축가였던 발터 그로피우스와 외도를 하게 된다. 그로피우스가 의도적으로 알마에게 보낼 편지를 말러에게 전함으로써 이러한 사실이 알려지게 되고 말러는 낙심하게 된다. 얼마나 충격에 빠졌는지 정신과 상담까지 받게 되는데 그 정신과 상담 의사가 이 시대의 오은영 박사이신 지그문트 프로이트 되시겠다. 물론 프로이트와의 상담 내용은 철저히 비밀리에 부쳐진다. 그런데 프로이트와의 상담은 그런대로 효과가 있었는지 상담 받고 오는 길에 썼다는 다음과 같은 시가 전해진다. [1]     ... 당신을 사랑해! -라는 말은 내가 칭송하는 나의 힘,내가 고통 속에서 얻어 낸 생명의 선율,오 나를 사랑해 줘! -라는 말은 내가 아는 나의 현명함,저 선율이 내게 울려 퍼지는 바탕이 되는 근음(root) ...     자신의 아내에 대해 좋은 말은 못하지만 그 애정 만큼은 누구보다 못지 않은 츤데레 남이었던 듯 싶다. 프로이트와 상담도 받았겠다, 아내에게 다시는 그로피우스와 만나지 않겠다 약속도 받았지만 둘의 관계는 좀처럼 다시 가까워지지 않았다. 그러한 가운데 말러는 자신의 마지막 교향곡이 될 10번 교향곡을 쓰고 있었고, 그 가운데 자신의 내면의 고통을 토로해낸다. Figure 4의 오른쪽 악보에서 말러 교향곡 10번에 나타나는 강한 불협화음을 보여주고 있다. 5번 4악장의 절정 부분에 사용한 높은 A음을 기음으로 하여 A∅7 코드를 만들어내고, 이에 정면으로 불협을 일으키는 G#˚7 코드를 동시에 사용한다. 이와 함께 근음(root)으로는 어디에도 속하지 않는 C#을 배치한다. 공교롭게도 G#과 C#은 알마를 향한 사랑의 절정부분을 노래하는데 사용하였던 비화성음이었다. 앞에서 사랑의 감정을 더욱 풍부하고 다채롭게 표현하는데 기여한 두 비화성음이 이제는 화성음과 같이 울리면서 이전에 없던 통곡의 목소리를 내는 불협화음의 역할을 한다. 모짜르트처럼 화성음으로 절대 해결하지 않으며, 불협의 상태를 지속하며 엄청난 맥놀이들을 뿜어낸다. 마치 좀처럼 다시 가까워질 수 없었던 말러와 알마의 관계와 같이...     3 그리고, 그 이후   19세기 말 20세기 초, 말러뿐만 아니라 불협화음을 비롯한 새로운 화성을 음악에 전면적으로 사용한 작곡가들이 있었다. 러시아의 스트라빈스키는 봄의 제전을 통해 타악기적 불협화음을 시도했으며, 헝가리의 바르톡은 현과 타악기, 첼레스타를 위한 음악에서 자신만의 민속적 멜로디와 리듬을 불협화적 화성 요소들과 융합해 독창적인 음악 세계를 펼쳐보였다. 이러한 실험들은 고전 및 낭만의 화성법을 따르던 러시아의 라흐마니노프나, 온음음계와 선법을 차용하여 멜랑콜리하고 달콤한 분위기를 자아냈던 프랑스의 드뷔시, 라벨 등과는 또 다른 색채를 띤다.   말러가 선보인 불협화음에 대한 실험은 오스트리아와 독일을 기반으로 한 후배 작곡가들에게 전해져, 현대음악에서 불협화음을 하나의 음재료로 받아들이는 데 큰 공헌을 했다. 특히 말러를 계승한 현대음악 작곡가로 평가받는 쇤베르크는 오랜 연구 끝에 12음 기법을 창안하여, 12음과 모든 음정을 고르게 사용하는 작곡 방식을 시도했다. 이러한 음악적 소재를 시리즈로 만든 작곡 기법은 나중에 불레즈, 슈톡하우젠 등을 통해 리듬, 아티큘레이션, 다이내믹 등 모든 요소를 시리즈로 구성하는 총렬주의로 발전한다.     3.1 펜데레츠키와 히로시마 희생자를 위한 애가   20세기 중반 무렵, 불협화음의 덩어리는 이제 그 자체로서 소재화되어 ‘음군’(tone cluster)이라는 형태로 자리 잡는다. 음군 안에서는 불협화음의 구성이 극에 달할 정도로 채워져 그를 이루는 개별적인 화성 요소들은 그다지 중요하지 않으며, 오히려 이 덩어리가 하나의 음으로써 어떻게 사용될지가 관건이 된다. 이러한 음군을 불운과 고통의 극한 감정을 표현하는 소재로 사용한 대표적인 작품으로는 펜데레츠키의 히로시마 희생자를 위한 애가가 있다. 이 작품은 24대의 바이올린, 10대의 비올라, 10대의 첼로, 8대의 콘트라베이스로 구성된 대규모 현악 앙상블로, 각 악기가 낼 수 있는 최대한 높은 음을 포르티시모로 연주하며 시작한다. 여기에는 고전적인 아르코와 피치카토뿐만 아니라 하모닉스와 콜 레뇨를 비롯하여 악기를 두드리는 방법 등의 다양한 현대적 주법이 총동원된다. 이렇게 무자비하게 연주되는 끔찍한 소리들은 히로시마 원자폭탄 피해의 참상을 알리는 데 적합했을 것이다. 세상이 미쳐 돌아가는데 달콤하고 아름다운 음악이 나올 리 없다.   Figure 5: 펜데레츠키의 ’히로시마 희생자를 위한 애가’(좌), 리게티의 ’Atmospheres’(우)에서 발췌     3.2 리게티와 Atmospheres   한편 같은 무렵, 헝가리의 작곡가 리게티는 시끄럽게만 들릴 수 있는 음군을 활용해 새로운 시도를 한다. ”Atmospheres”에서는 공기 중을 떠도는 분자들의 모습을, ”Lux Aeterna”에서는 전통적으로 찬란한 태양으로 표현되었던 빛을 광자 단위로 자잘하게 요동치는 모습으로 그려낸다. 음군은 더 이상 진한 감정을 전달하는 불협화음으로 들리지 않고, 오히려 도서관이나 카페에서 들리는 정보량이 없는 무덤덤한 소음과 같아진다. 이렇게 감정이 철저히 배제된 듯한 음군의 사용에서도 우리는 또 다른 종류의 아름다움을 느낄 수 있다. 물리학자 리처드 파인만은 꽃 속의 세포들을 상상하면서도 아름다움을 느낄 수 있다고 했으니까.... 요즘말로 하자면 펜데레츠키는 F, 리게티는 심각하게 T였던 것이다.   이러한 인상을 영화 감독 스탠리 큐브릭도 받은 것일까? 영화 2001: 스페이스 오디세이에서 큐브릭은 지구가 아닌 다른 행성의 장면에 리게티의 ”Atmospheres”와 ”Lux Aeterna”를 배경음악으로 사용한다. 지구 안에서는 전쟁과 평화가 반복되고, 사랑과 증오가 뒤얽히지만, 조금만 지구 밖으로 나아가면 창백한 푸른 별과 움직이지 않는 태양만이 빛나고 있을 것이다.       Figure 6: 스탠리 큐브릭의 영화 ”2001: 스페이스 오디세이” 중에서     글을 쓰는 내내 카페 뒤에서 한 여자와 남자가 싸우고 있다. 남자가 바람을 피워서 여자가 회사에 찾아가서 난리를 친모양이다. 누가 더 잘못했는지는 나는 모르겠다. 그냥 이 소리들도 그저 음군처럼 들려 웃플 따름이다. 가까이서 보면 희극, 멀리서 보면 비극이리라. 내 일이면 처참하다만, 남의 일이라면 드라마보다 재밌는 일인 것이다. 시인 백석이 사랑 하던 판소리 ”아서라 세상사”의 한 구절로 장황한 글을 서둘러 마무리해본다.   ”아서라 세상사 쓸데없다. 군불견(君不見) 동원도리(東園桃李) 편시춘(片時春) 창가 소부(娼家少婦)야 웃들 마소.”     References [1] Jens Malte Fischer. Gustav Mahler. Yale University Press, 2011. [2] Hermann LF Helmholtz. On the Sensations of Tone as a Physiological Basis for the Theory of Music. Cambridge University Press, 2009.[3] Reinier Plompand Willem JM Levelt. “Tonal consonance and critical bandwidth”. In: Journal of the Acoustical Society of America38(1965), pp. 548–560.

2024.11.21
after-image
AI로 비슷한 음악 찾는 방법: 어떤 기준으로 판단할까?

  이전 글에서는 Gaudio Music Replacement의 탄생 배경에 대해 설명했습니다.   방송사나 콘텐츠 제작사가 콘텐츠를 해외로 수출할 때는 국가별로 음악 저작권 문제를 해결해야 합니다. 하지만 이 과정은 매우 복잡하고 번거롭기 때문에, 콘텐츠에 삽입된 음악을 다른 곡으로 교체하는 방식이 하나의 대안이 되어 왔습니다. 지금까지는 사람이 직접 음악을 듣고 유사한 곡을 찾아 교체하는 방식이 주를 이뤘습니다. 그러나 작업자의 취향과 경험에 따라 결과가 달라지기 때문에, 일관성을 유지하기가 어려웠습니다.   이러한 문제를 해결하기 위해 탄생한 것이 바로 Music Replacement입니다. 이 솔루션은 AI 기술을 활용해 보다 명확하고 일관된 기준으로 원본 음악과 유사한 대체 곡을 찾아줍니다.       내가 듣고 있는 음악과 비슷한 곡 찾기   사람이 유사한 음악을 찾는 방법 우리는 음악을 들을 때 무의식적으로 여러 요소를 고려합니다. 분위기, 악기 구성, 멜로디 전개 등 다양한 기준을 통해 유사한 곡을 떠올리죠. 하지만 같은 곡도 듣는 시점이나 컨디션에 따라 다르게 느껴질 수 있고, 익숙하지 않은 장르에서는 유사한 곡을 찾기조차 어렵습니다. 무엇보다 어떤 요소에 중점을 두느냐에 따라 결과가 달라지기 때문에, 체계적인 유사도 판단이 어렵습니다.     AI는 음악을 어떻게 이해할까? 사실 AI도 사람이 음악을 찾는 방식을 매우 유사하게 흉내 냅니다. 관련해서도 여러 연구 논문이 발표되고 있는데요. 이번 포스트에서는 Music Replacement 개발을 주도한 가우딘(Gaudin), 근우의 논문 Music Tagging Transformer(MTT)를 기준으로 알아보겠습니다.   MTT의 핵심 개념은 ‘음악 임베딩(Music Embedding)’입니다. 음악 임베딩이란, 음악의 특징을 숫자로 변환한 데이터입니다. 일종의 음악 DNA라 할 수 있죠. 예를 들어, 우리가 “이 노래는 밝고 신나는 느낌이야”라고 말할 수 있는 것처럼, AI는 음악의 리듬, 분위기, 악기 구성 등을 숫자 벡터로 표현할 수 있습니다. 그리고 이 벡터 데이터를 기반으로 수많은 곡 중에서 가장 유사한 음악을 빠르고 정확하게 찾아냅니다. MTT는 이러한 임베딩을 생성하며, 자동 태깅을 통해 장르, 분위기, 악기 정보를 벡터화하는 데 활용됩니다.         AI로 원곡과 비슷한 음악으로 바꾸기   음악 임베딩과 오디오 핑거프린트 AI가 음악을 분석할 때 사용하는 대표적인 기술 두 가지는 앞서 언급한 ‘음악 임베딩’과 ‘오디오 핑거프린트(Audio Fingerprint)’입니다. 두 기술 모두 음악을 수치화하지만, 목적과 활용 방식에는 차이가 있습니다.   오디오 핑거프린트는 특정 곡을 고유하게 식별할 수 있도록 설계되어, 원본 곡과 동일한 곡(또는 변형된 버전)을 찾는 데 사용됩니다. 반면, 음악 임베딩은 곡의 스타일과 분위기를 반영하여 서로 다른 곡들 사이에서 유사한 곡을 찾는 것을 목표로 합니다. 따라서 AI가 원곡과 비슷한 분위기의 대체 음악을 찾아내기 위해서는 오디오 핑거프린트보다는 음악 임베딩 기술이 더 적합합니다.     AI 음악 검색 과정 Music Replacement의 AI는 음악 임베딩을 기반으로 유사한 곡을 찾아냅니다. 저작권이 해결된 음악 데이터베이스를 구축하고, 각 곡을 적절한 크기의 ‘세그먼트’로 나눈 후, 각 세그먼트 별로 음악 임베딩을 미리 생성하여 벡터화해둡니다. 이렇게 저장된 데이터는 새로운 음악이 입력될 때 비교할 수 있는 기준이 됩니다.   사용자가 교체가 필요한 곡을 입력하면, AI는 해당 곡의 임베딩을 계산하고, 저장된 벡터들과 비교해 가장 유사한 곡을 찾습니다. 이 과정에서 ‘유클리드 거리(Euclidean Distance)’라는 수학적 개념을 활용하여 두 곡 간의 거리(유사도)를 측정합니다. 거리가 짧을수록 두 곡이 더 유사한 음악적 특징을 가지고 있다고 판단합니다.   이때 단순히 거리만 고려하는 것이 아니라, 장르, 템포, 악기 구성 등의 요소도 함께 분석하여 반영합니다. 예를 들어, 사용자가 템포를 최우선 요소로 고려하고 싶다면, AI가 템포가 비슷한 곡을 우선적으로 추천할 수 있도록 설정할 수 있습니다. Music Replacement에서는 이러한 고급 필터링 기능을 통해 사용자 맞춤형 검색을 할 수 있습니다.     악마는 디테일에 있다 - 기술에서 서비스로   늘 그렇듯, 이론적으로는 음악 임베딩을 활용한 검색 방식이 간단해 보일 수 있지만 실제 상용화 과정에서는 다양한 과제가 존재합니다.   세그먼트(Segment) 문제 음악에서 구간을 어떻게 나누는가의 문제는 어떤 곡을 선택해야 하는가의 문제만큼이나 중요합니다. 음악을 물리적 시간 단위로만 일정하게 나눈다면, 각 구간 내에서 마디와 박자가 맞지 않고 음악적 흐름이 바뀔 수도 있습니다. 음악은 보통 인트로, 벌스, 코러스, 브릿지 등의 구조로 이루어져 있습니다. 각각의 부문은 유사한 음악적 특성을 가질 수 있겠죠. 따라서 입력된 음악의 구조를 분석하여, 이를 기준으로 세그먼트를 나누어 비슷한 음악을 찾는 것도 하나의 방법이 될 수 있습니다.   인벨로프(Envelope) 문제 영상 속 음악은 특정 장면에 맞춰 볼륨이 조절됩니다. 한 장면 내에서도, 인물이 대치하여 이야기 중일 때는 음악이 작았다가 격투가 시작되면서 점점 커지는 연출을 할 수 있습니다. 이와 같이 소리의 볼륨이나 강도 등의 변화를 나타낸 것을 ‘인벨로프(Envelope)’라고 합니다. AI가 음악을 추천할 때 이런 다이나믹까지 반영해야 자연스러운 결과를 얻을 수 있겠죠. 처음부터 인벨로프까지 잘 맞는 음악을 찾아주면 가장 좋겠지만, 매번 그러기는 쉽지 않습니다. 이런 경우 원곡의 인벨로프를 학습하고, 이를 대체된 음악에 적용하기도 합니다.   믹스 & 마스터링 문제 음악을 골랐다고 해서 끝이 아닙니다. 새로 삽입된 음악이 기존 오디오와 자연스럽게 어우러져야 진정한 ‘음악 대체(Music Replacement)’가 이루어집니다. AI는 데이터 기반으로 유사한 음악을 찾아낼 수 있지만, 대체된 음악이 원작의 분위기와 잘 어우러지는지를 판단하는 것은 결국 사운드 전문가의 감각과 경험이 필요한 영역입니다. (실제로 사람이 음원 교체 작업을 할 때 걸리는 시간 중 절반은 음악을 찾는 데 사용하고, 나머지 절반은 이를 기존 오디오와 자연스럽게 믹싱 및 마스터링 하는 데 쓴다고 합니다.)   이 문제를 해결하기 위해 가우디오랩은 자사의 사운드 스튜디오인 웨이브랩(WAVELAB)과 협력하여 AI 믹싱 및 마스터링 엔진을 개발했습니다. 웨이브랩은 한국을 대표하는 영화 사운드 스튜디오 중 하나입니다. 오랜 경험을 바탕으로 다양한 영화 및 방송 사운드를 완성해 온 이들의 노하우가 반영된 이 AI 엔진은, 단순한 볼륨 조정이 아닌, 원작자의 연출 의도까지 고려한 섬세한 믹싱을 구현할 수 있습니다.     다음 이야기: 어디서부터 어디까지가 ‘음악’일까?       위 그림은 Music Replacement를 포함하여 가우디오랩의 AI 기반 Content Localization 툴들의 전체(End-to-End) 시스템 다이어그램입니다. 이번 글에서는 하나의 음악 구간을 입력하면 동일한 길이의 대체 음악을 제공하는 Music Recommender의 원리에 대해 소개했습니다.     그런데 실제 작업 환경에서는 음원 대체 작업을 시작하기도 전에 풀어야 할 복잡한 과제들이 존재합니다. 대부분의 방송 영상은 대사, 효과음, 음악이 모두 하나의 마스터 오디오 트랙에 혼합된 형태로 제공됩니다. 이 경우, 대체 작업을 시작하려면 먼저 음악을 다른 오디오 요소들로부터 정확히 분리해 내는 작업이 선행되어야 합니다.   이때, 영화 속 휴대전화 벨소리는 음악일까요? 효과음일까요?여러 음악들이 페이드 인과 페이드 아웃으로 연결된 경우, 어디부터 어디까지를 한 곡으로 판단해야 할까요?     다음 글에서는 이러한 문제를 해결하는 핵심 기술인 DME Separator(Dialogue / Music / Effects 분리)와TC Detector(Time Code 감지기)를 중심으로, AI가 ‘음악의 경계’를 어떻게 이해하고 판단하는지 보다 깊이 있게 다뤄보겠습니다.     계속해서 지켜봐 주세요!  

2025.05.16