"대사만 빼면 되는 거 아니야?" — 더빙 품질을 결정짓는 Music & Effects 분리의 진짜 이야기

실제 오디오를 다룰 때 M&E 분리가 어려운 이유

일반적으로 불리는 ‘스템 분리’와 M&E 분리의 차이는 실제 오디오를 처리하는 과정에서 더욱 명확하게 드러납니다. 콘텐츠 속 대사는 음악 및 효과음과 스펙트럼적으로, 또 시간적으로 겹치는 경우가 많습니다. 잔향(reverberation)은 음성 요소를 시간 축으로 퍼뜨려 깔끔한 위치 파악과 제거를 어렵게 만들고요. 여기에, 웃음, 울음, 숨소리처럼 엄밀히 대사는 아니지만 음성이나 보컬, 심지어 악기와 유사한 음향적 특성을 공유하는 많은 신호들도 존재합니다. 대사를 제거하면 신호에 빈 틈이 생기는데, 이를 적절히 처리하지 않으면 부자연스러운 아티팩트나 불연속성으로 드러나게 됩니다.

이런 이유들로 M&E 분리는 단순한 뺄셈 문제처럼 다뤄서는 안 됩니다. ‘제거와 지각적 재구성을 결합하는’ 프로세스로 보는 것이 더 정확한데요. 대사를 제거한 후의 결과가 자연스럽게 들려야 하기(소리가 열화된 잔여물처럼 들려서는 안 되기) 때문이죠.

가우디오랩은 이렇게 합니다: 사용성 중심의 M&E 분리

가우디오랩 연구팀은 최근 실제 더빙 파이프라인에서의 사용성에 중점을 두고 M&E 분리를 면밀히 살피고 있습니다. 중요한 설계 결정 중 하나는, 대사와 유사한 발성(웃음, 울음, 숨소리 등의 특정 보컬 성분들)을 어떻게 처리할 것인가인데요. 배경의 일부로 착오하지 않도록 설계해 대사 카테고리로서 함께 제거합니다. 이는 특히 M&E v2 구성(API)에서 강조되는 부분으로, 더빙을 위한 깨끗하고 간섭 없는 배경 음원을 제공하는 것이 주요 목표이기 때문이죠.

동시에, 남아 있는 신호의 연속성(자연스러움)을 보존하기 위해 세심한 주의를 기울입니다. 공간적 특성, 잔향, 앰비언트 텍스처가 일정 시간에 걸쳐 일관되게 유지되어 출력되도록 하는데요. 대사 제거 과정에서 발생하는 지각적 아티팩트와 스펙트럴 갭을 최소화하는 것이 중요합니다. 이 부분이 기존 업계에서 해오던 수준의 M&E 분리와 주요 차별점이기도 합니다. 그동안은 잔여물 소리나 부자연스러운 텍스처가 남아 추가 후처리가 필요한 경우가 많았거든요.

목표는 단순히 높은 분리 메트릭을 달성하는 것에 국한되지 않습니다. 추가 보정 없이 다운 스트림 믹싱에 직접 사용할 수 있는 출력을 만들어내는 것이죠. 이런 의미에서, 가우디오랩은 ‘사용성’을 주요 평가 기준으로 봅니다.

검증된 성능과 프로덕션 배포

가우디오랩은 최근 다양한 콘텐츠에 대해 사용성 위주의 접근법을 검증해왔습니다. 그 결과 대사 오디오를 억제하고, 지각적인 연속성은 유지하며, 실무 사용성은 높인 강력한 성능을 확인했습니다.

마스터 파일로부터 M&E를 분리한 스펙트로그램을 가져와봤습니다.

AI로 분리하기 어려운 샘플 데이터 중에 국제적으로 유명한 ‘탑건’과 ‘설국열차’ 중 일부를 분리해봤습니다. M&E를 분리한 후에 잔여 소리가 남거나, 혹은 너무 많이 분리해서 꿀렁함이 생기는 등의 문제를 볼 수 있습니다. (가우디오랩의 기술이 깔끔 & 명료함이 보이시나요? :) ) 직접 사용해보고 싶으시다고요? API로 오픈되어 있답니다.

이러한 기술은 현재 연구실에서 산업 환경으로 옮겨와 가우디오랩의 고객사에 제공되고 있으며, GSP 플랫폼에 적용되어 프로덕션 퀄리티의 더빙 및 현지화 워크플로우에서 사용되고 있습니다.

마무리

요약하면 이렇습니다. 대사 추출과 M&E 분리는 높은 수준에서 유사해 보일 수 있습니다. 그러나 목적과 제약 요건 등에서 근본적으로 다릅니다. M&E 분리는 타깃 신호를 제거하는 것뿐 아니라, 남아 있는 오디오의 지각적 구조를 보존하고 필요 시 재구성하여, 그 위에 다국어 더빙 등 새로운 레이어를 쌓아나갈 수 있도록 지원할 수 있도록 합니다. 아주 미세한 차이에도 집착하며 최상의 소리경험을 만드는 일, 그 일에 가우디오랩 연구팀이 함께하고 있습니다.

Gaudio Studio Pro 알아보기 · 문의하기