AI로 비슷한 음악 찾는 방법: 어떤 기준으로 판단할까?
이전 글에서는 Gaudio Music Replacement의 탄생 배경에 대해 설명했습니다.
방송사나 콘텐츠 제작사가 콘텐츠를 해외로 수출할 때는 국가별로 음악 저작권 문제를 해결해야 합니다. 하지만 이 과정은 매우 복잡하고 번거롭기 때문에, 콘텐츠에 삽입된 음악을 다른 곡으로 교체하는 방식이 하나의 대안이 되어 왔습니다. 지금까지는 사람이 직접 음악을 듣고 유사한 곡을 찾아 교체하는 방식이 주를 이뤘습니다. 그러나 작업자의 취향과 경험에 따라 결과가 달라지기 때문에, 일관성을 유지하기가 어려웠습니다.
이러한 문제를 해결하기 위해 탄생한 것이 바로 Music Replacement입니다. 이 솔루션은 AI 기술을 활용해 보다 명확하고 일관된 기준으로 원본 음악과 유사한 대체 곡을 찾아줍니다.
내가 듣고 있는 음악과 비슷한 곡 찾기
사람이 유사한 음악을 찾는 방법
우리는 음악을 들을 때 무의식적으로 여러 요소를 고려합니다. 분위기, 악기 구성, 멜로디 전개 등 다양한 기준을 통해 유사한 곡을 떠올리죠. 하지만 같은 곡도 듣는 시점이나 컨디션에 따라 다르게 느껴질 수 있고, 익숙하지 않은 장르에서는 유사한 곡을 찾기조차 어렵습니다. 무엇보다 어떤 요소에 중점을 두느냐에 따라 결과가 달라지기 때문에, 체계적인 유사도 판단이 어렵습니다.
AI는 음악을 어떻게 이해할까?
사실 AI도 사람이 음악을 찾는 방식을 매우 유사하게 흉내 냅니다.
관련해서도 여러 연구 논문이 발표되고 있는데요. 이번 포스트에서는 Music Replacement 개발을 주도한 가우딘(Gaudin), 근우의 논문 Music Tagging Transformer(MTT)를 기준으로 알아보겠습니다.
MTT의 핵심 개념은 ‘음악 임베딩(Music Embedding)’입니다. 음악 임베딩이란, 음악의 특징을 숫자로 변환한 데이터입니다. 일종의 음악 DNA라 할 수 있죠. 예를 들어, 우리가 “이 노래는 밝고 신나는 느낌이야”라고 말할 수 있는 것처럼, AI는 음악의 리듬, 분위기, 악기 구성 등을 숫자 벡터로 표현할 수 있습니다. 그리고 이 벡터 데이터를 기반으로 수많은 곡 중에서 가장 유사한 음악을 빠르고 정확하게 찾아냅니다. MTT는 이러한 임베딩을 생성하며, 자동 태깅을 통해 장르, 분위기, 악기 정보를 벡터화하는 데 활용됩니다.

AI로 원곡과 비슷한 음악으로 바꾸기
음악 임베딩과 오디오 핑거프린트
AI가 음악을 분석할 때 사용하는 대표적인 기술 두 가지는 앞서 언급한 ‘음악 임베딩’과 ‘오디오 핑거프린트(Audio Fingerprint)’입니다. 두 기술 모두 음악을 수치화하지만, 목적과 활용 방식에는 차이가 있습니다.
오디오 핑거프린트는 특정 곡을 고유하게 식별할 수 있도록 설계되어, 원본 곡과 동일한 곡(또는 변형된 버전)을 찾는 데 사용됩니다. 반면, 음악 임베딩은 곡의 스타일과 분위기를 반영하여 서로 다른 곡들 사이에서 유사한 곡을 찾는 것을 목표로 합니다. 따라서 AI가 원곡과 비슷한 분위기의 대체 음악을 찾아내기 위해서는 오디오 핑거프린트보다는 음악 임베딩 기술이 더 적합합니다.
AI 음악 검색 과정
Music Replacement의 AI는 음악 임베딩을 기반으로 유사한 곡을 찾아냅니다. 저작권이 해결된 음악 데이터베이스를 구축하고, 각 곡을 적절한 크기의 ‘세그먼트’로 나눈 후, 각 세그먼트 별로 음악 임베딩을 미리 생성하여 벡터화해둡니다. 이렇게 저장된 데이터는 새로운 음악이 입력될 때 비교할 수 있는 기준이 됩니다.
사용자가 교체가 필요한 곡을 입력하면, AI는 해당 곡의 임베딩을 계산하고, 저장된 벡터들과 비교해 가장 유사한 곡을 찾습니다. 이 과정에서 ‘유클리드 거리(Euclidean Distance)’라는 수학적 개념을 활용하여 두 곡 간의 거리(유사도)를 측정합니다. 거리가 짧을수록 두 곡이 더 유사한 음악적 특징을 가지고 있다고 판단합니다.
이때 단순히 거리만 고려하는 것이 아니라, 장르, 템포, 악기 구성 등의 요소도 함께 분석하여 반영합니다. 예를 들어, 사용자가 템포를 최우선 요소로 고려하고 싶다면, AI가 템포가 비슷한 곡을 우선적으로 추천할 수 있도록 설정할 수 있습니다. Music Replacement에서는 이러한 고급 필터링 기능을 통해 사용자 맞춤형 검색을 할 수 있습니다.
악마는 디테일에 있다 - 기술에서 서비스로
늘 그렇듯, 이론적으로는 음악 임베딩을 활용한 검색 방식이 간단해 보일 수 있지만 실제 상용화 과정에서는 다양한 과제가 존재합니다.
세그먼트(Segment) 문제
음악에서 구간을 어떻게 나누는가의 문제는 어떤 곡을 선택해야 하는가의 문제만큼이나 중요합니다. 음악을 물리적 시간 단위로만 일정하게 나눈다면, 각 구간 내에서 마디와 박자가 맞지 않고 음악적 흐름이 바뀔 수도 있습니다.
음악은 보통 인트로, 벌스, 코러스, 브릿지 등의 구조로 이루어져 있습니다. 각각의 부문은 유사한 음악적 특성을 가질 수 있겠죠. 따라서 입력된 음악의 구조를 분석하여, 이를 기준으로 세그먼트를 나누어 비슷한 음악을 찾는 것도 하나의 방법이 될 수 있습니다.
인벨로프(Envelope) 문제
영상 속 음악은 특정 장면에 맞춰 볼륨이 조절됩니다. 한 장면 내에서도, 인물이 대치하여 이야기 중일 때는 음악이 작았다가 격투가 시작되면서 점점 커지는 연출을 할 수 있습니다. 이와 같이 소리의 볼륨이나 강도 등의 변화를 나타낸 것을 ‘인벨로프(Envelope)’라고 합니다. AI가 음악을 추천할 때 이런 다이나믹까지 반영해야 자연스러운 결과를 얻을 수 있겠죠. 처음부터 인벨로프까지 잘 맞는 음악을 찾아주면 가장 좋겠지만, 매번 그러기는 쉽지 않습니다. 이런 경우 원곡의 인벨로프를 학습하고, 이를 대체된 음악에 적용하기도 합니다.
믹스 & 마스터링 문제
음악을 골랐다고 해서 끝이 아닙니다. 새로 삽입된 음악이 기존 오디오와 자연스럽게 어우러져야 진정한 ‘음악 대체(Music Replacement)’가 이루어집니다. AI는 데이터 기반으로 유사한 음악을 찾아낼 수 있지만, 대체된 음악이 원작의 분위기와 잘 어우러지는지를 판단하는 것은 결국 사운드 전문가의 감각과 경험이 필요한 영역입니다. (실제로 사람이 음원 교체 작업을 할 때 걸리는 시간 중 절반은 음악을 찾는 데 사용하고, 나머지 절반은 이를 기존 오디오와 자연스럽게 믹싱 및 마스터링 하는 데 쓴다고 합니다.)

이 문제를 해결하기 위해 가우디오랩은 자사의 사운드 스튜디오인 웨이브랩(WAVELAB)과 협력하여 AI 믹싱 및 마스터링 엔진을 개발했습니다. 웨이브랩은 한국을 대표하는 영화 사운드 스튜디오 중 하나입니다. 오랜 경험을 바탕으로 다양한 영화 및 방송 사운드를 완성해 온 이들의 노하우가 반영된 이 AI 엔진은, 단순한 볼륨 조정이 아닌, 원작자의 연출 의도까지 고려한 섬세한 믹싱을 구현할 수 있습니다.
다음 이야기: 어디서부터 어디까지가 ‘음악’일까?

위 그림은 Music Replacement를 포함하여 가우디오랩의 AI 기반 Content Localization 툴들의 전체(End-to-End) 시스템 다이어그램입니다. 이번 글에서는 하나의 음악 구간을 입력하면 동일한 길이의 대체 음악을 제공하는 Music Recommender의 원리에 대해 소개했습니다.
그런데 실제 작업 환경에서는 음원 대체 작업을 시작하기도 전에 풀어야 할 복잡한 과제들이 존재합니다.
대부분의 방송 영상은 대사, 효과음, 음악이 모두 하나의 마스터 오디오 트랙에 혼합된 형태로 제공됩니다. 이 경우, 대체 작업을 시작하려면 먼저 음악을 다른 오디오 요소들로부터 정확히 분리해 내는 작업이 선행되어야 합니다.
이때, 영화 속 휴대전화 벨소리는 음악일까요? 효과음일까요?
여러 음악들이 페이드 인과 페이드 아웃으로 연결된 경우, 어디부터 어디까지를 한 곡으로 판단해야 할까요?
다음 글에서는 이러한 문제를 해결하는 핵심 기술인 DME Separator(Dialogue / Music / Effects 분리)와
TC Detector(Time Code 감지기)를 중심으로, AI가 ‘음악의 경계’를 어떻게 이해하고 판단하는지 보다 깊이 있게 다뤄보겠습니다.
계속해서 지켜봐 주세요!


