"대사만 빼면 되는 거 아니야?" — 더빙 품질을 결정짓는 Music & Effects 분리의 진짜 이야기

2026.04.09ㆍ by Sangmoon Lee

"대사만 빼면 되는 거 아니야?" — 더빙 품질을 결정짓는 Music & Effects 분리의 진짜 이야기

잠깐! DME 분리가 무엇이고 어떤 역할을 하는지 먼저 이해한 뒤 이 블로그를 읽으시는게 좋습니다  :)  
➡️ [왜 글로벌 OTT는 가우디오랩을 찾을까? AI DME 분리 기술의 끝판왕]

이 블로그에서는 콘텐츠에 AI 더빙을 진행하는 과정에서 M&E의 역할과 중요성, 그리고 남은 과제들에 대해 이야기해보고자 합니다.


M&E 트랙은 '대사 삭제' 과정에서 발생하는 단순한 부산물이 아닙니다

 

현지화를 위한 더빙 워크플로우에서 M&E(Music & Effects) 트랙은 흔히 ‘대사를 빼고 남은 것' 정도로 오해받곤 합니다. 그러나 실제로는 훨씬 더 핵심적인 역할을 하는데요. 오디오의 M&E 트랙은 새로운 언어가 얹혀지는 토대이기 때문에, 깨끗하고, 자연스러운 - 곧, 믹싱에 바로 사용할 수 있는 배경지로서 기능할 수 있어야 합니다. 바로 이 지점이 'M&E 분리’가 범용적인 오디오 소스 분리(스템 분리)나 대사 추출과 근본적으로 다른 지점 입니다.

  • 대사 추출(Dialogue extraction)은 충분한 명료도를 갖춘 음성 신호를 복원하는 데 초점을 둡니다. 많은 경우, 추출된 대사가 명확하고 사용 가능하기만 하면 어느 정도의 배경 음원의 누출(leakage)은 허용되죠.

  • M&E 분리(M&E separation)는 반대의 제약 조건을 부과합니다. 목표는 대사*를 완전히 제거하되, 불필요한 흔적을 남기지 않으면서, 나머지 모든 요소의 자연스러움을 보존하는 것인데요. 새로운 음성 트랙이 얹혀지면 기존 대사의 작은 잔여물 등이 최종 믹스에서 금세 눈에 띄게 됩니다.

 

아래 비디오를 통해 조금 더 살펴보겠습니다. 마스터 파일에서 대사*를 제거하는 작업을 수행할 때, 다이얼로그가 과하게 빠지거나, 덜 빠진 경우를 발견할 수 있습니다. 

 

* 여기서 언급한 ‘대사’는 조금 더 넓게 해석해볼 수 있습니다. 깨끗한 음성뿐 아니라, 강렬한 감정이 담긴 발화(예: 고함 소리, 흐느낌), 의도적으로 왜곡된 대사(예: 보코더 효과), 긴 소리 꼬리를 가진 잔향이 많은 대사, 군중 음성과 같은 다중 화자의 목소리도 포함됩니다. 이런 경우들이 실제 분리의 난이도가 높아지는 지점이기도 합니다. 

 

관련 회사들의 기술을 사용해 아래 비디오의 M&E를 차례로 분리해 봤습니다. 결과를 통해 우리는 이런 사실을 발견할 수 있었습니다. 깨끗한 목소리를 잘 구분해내는 것은 쉽습니다. 그러나 우리가 주로 소비하는 콘텐츠는 효과음과 함께 섞이거나 왜곡이 되어 있기도 합니다. 이런 목소리까지 잘 분리할 수 있어야 더빙을 위한 깔끔한 준비가 완료되었다고 말할 수 있다는 것을요. 

 

[Original]

 

 

[AudioShake]

 

 

[Moises]

 

이 케이스에서는 감정 섞인 대사나 웃음·숨소리 같은 비대사 발성 성분이 제거되지 않고 M&E 트랙에 그대로 남아 있는 것을 확인할 수 있습니다. 이런 잔여 성분들은 새로운 더빙 음성이 얹혀졌을 때 간섭을 일으키게 됩니다.

 

 

 

[GAUDIO]

 

 

실제 오디오를 다룰 때 M&E 분리가 어려운 이유

 

일반적으로 불리는 ‘스템 분리’와 M&E 분리의 차이는 실제 오디오를 처리하는 과정에서 더욱 명확하게 드러납니다. 콘텐츠 속 대사는 음악 및 효과음과 스펙트럼적으로, 또 시간적으로 겹치는 경우가 많습니다. 잔향(reverberation)은 음성 요소를 시간 축으로 퍼뜨려 깔끔한 위치 파악과 제거를 어렵게 만들고요. 여기에, 웃음, 울음, 숨소리처럼 엄밀히 대사는 아니지만 음성이나 보컬, 심지어 악기와 유사한 음향적 특성을 공유하는 많은 신호들도 존재합니다. 대사를 제거하면 신호에 빈 틈이 생기는데, 이를 적절히 처리하지 않으면 부자연스러운 아티팩트나 불연속성으로 드러나게 됩니다. 

 

이런 이유들로 M&E 분리는 단순한 뺄셈 문제처럼 다뤄서는 안 됩니다. ‘제거와 지각적 재구성을 결합하는’ 프로세스로 보는 것이 더 정확한데요. 대사를 제거한 후의 결과가 자연스럽게 들려야 하기(소리가 열화된 잔여물처럼 들려서는 안 되기) 때문이죠.



가우디오랩은 이렇게 합니다: 사용성 중심의 M&E 분리

 

가우디오랩 연구팀은 최근 실제 더빙 파이프라인에서의 사용성에 중점을 두고 M&E 분리를 면밀히 살피고 있습니다. 중요한 설계 결정 중 하나는, 대사와 유사한 발성(웃음, 울음, 숨소리 등의 특정 보컬 성분들)을 어떻게 처리할 것인가인데요. 배경의 일부로 착오하지 않도록 설계해 대사 카테고리로서 함께 제거합니다. 이는 특히 M&E v2 구성(API)에서 강조되는 부분으로, 더빙을 위한 깨끗하고 간섭 없는 배경 음원을 제공하는 것이 주요 목표이기 때문이죠.

 

동시에, 남아 있는 신호의 연속성(자연스러움)을 보존하기 위해 세심한 주의를 기울입니다. 공간적 특성, 잔향, 앰비언트 텍스처가 일정 시간에 걸쳐 일관되게 유지되어 출력되도록 하는데요. 대사 제거 과정에서 발생하는 지각적 아티팩트와 스펙트럴 갭을 최소화하는 것이 중요합니다. 이 부분이 기존 업계에서 해오던 수준의 M&E 분리와 주요 차별점이기도 합니다. 그동안은 잔여물 소리나 부자연스러운 텍스처가 남아 추가 후처리가 필요한 경우가 많았거든요.

 

목표는 단순히 높은 분리 메트릭을 달성하는 것에 국한되지 않습니다. 추가 보정 없이 다운 스트림 믹싱에 직접 사용할 수 있는 출력을 만들어내는 것이죠. 이런 의미에서, 가우디오랩은 ‘사용성’을 주요 평가 기준으로 봅니다.



검증된 성능과 프로덕션 배포

가우디오랩은 최근 다양한 콘텐츠에 대해 사용성 위주의 접근법을 검증해왔습니다. 그 결과 대사 오디오를 억제하고, 지각적인 연속성은 유지하며, 실무 사용성은 높인 강력한 성능을 확인했습니다.

 

 

마스터 파일로부터 M&E를 분리한 스펙트로그램을 가져와봤습니다.

AI로 분리하기 어려운 샘플 데이터 중에 국제적으로 유명한 ‘탑건’과 ‘설국열차’ 중 일부를 분리해봤습니다. M&E를 분리한 후에 잔여 소리가 남거나, 혹은 너무 많이 분리해서 꿀렁함이 생기는 등의 문제를 볼 수 있습니다. (가우디오랩의 기술이 깔끔 & 명료함이 보이시나요? :)  ) 직접 사용해보고 싶으시다고요? API로 오픈되어 있답니다.

 

이러한 기술은 현재 연구실에서 산업 환경으로 옮겨와 가우디오랩의 고객사에 제공되고 있으며, GSP 플랫폼에 적용되어 프로덕션 퀄리티의 더빙 및 현지화 워크플로우에서 사용되고 있습니다.



마무리

 

요약하면 이렇습니다. 대사 추출과 M&E 분리는 높은 수준에서 유사해 보일 수 있습니다. 그러나 목적과 제약 요건 등에서 근본적으로 다릅니다. M&E 분리는 타깃 신호를 제거하는 것뿐 아니라, 남아 있는 오디오의 지각적 구조를 보존하고 필요 시 재구성하여, 그 위에 다국어 더빙 등 새로운 레이어를 쌓아나갈 수 있도록 지원할 수 있도록 합니다. 아주 미세한 차이에도 집착하며 최상의 소리경험을 만드는 일, 그 일에 가우디오랩 연구팀이 함께하고 있습니다.

 

Gaudio Studio Pro 알아보기 · 문의하기

pre-image
콘텐츠에 온전히 빠져드는 경험, 가우디오랩 더빙이 필요한 이유

    기존의 AI 더빙을 뛰어넘는 가우디오랩의 풀스택 AI 더빙 기술 …보다는, 실제 더빙 작업 사례를 중심으로 Gaudio Dub을 소개합니다!   가우디오랩은 하나의 콘텐츠를 더빙하기 위해 아주 많은 기술을 사용합니다. DME 분리, 음원 교체, 콘텐츠 통합 분석, 언어 현지화, 보이스 캐스팅, 감정 매핑, 믹싱과 마스터링까지… 4년 연속 6개의 CES 어워즈를 받은 AI Tech 기업입니다.         그럼에도 이번 글에서는 기술보다 실제 더빙 작업 사례와, 이를 통해 쌓은 우리만의 노하우에 대해 이야기하려고 합니다.       해외 콘텐츠를 볼 때 자막과 더빙 중 무엇을 선호하시나요?   어떤 콘텐츠든 시청자가 몰입해야 할 요소는 있게 마련입니다. 영화라면 배우의 표정에, 스포츠나 게임 중계라면 플레이 자체에 집중할 수 있어야 하죠. 그럼에도 더빙보다 자막에 더 익숙한 분들이 많습니다. 하지만 자막을 읽는 시청자는 화면을 절반만 봅니다. 배우의 표정이 일그러지는 그 찰나에, 눈은 화면 아래 글자를 쫓고 있거든요. 더빙은 그 시선을 화면에 돌려놓습니다. 글로벌 OTT들이 자막을 넘어 더빙에 관심을 갖기 시작한 이유가 여기에 있습니다. 시청자가 콘텐츠에 온전히 빠져드는 경험의 가치를 알기 때문입니다.   AI가 이미지도 생성하고 영상도 만드는 세상입니다. 이제 더빙도 하죠. 하지만 아직까지 AI 더빙 이야기가 나오면, 반응이 비슷합니다.   "AI 더빙? 그냥 TTS 돌리는 거랑 다른가?" "빠르긴 한데, 퀄리티가 좀… 몇 번 들어봤는데 아직 멀었구나 싶더라고요."   시중에 나와 있는 대부분의 AI 더빙 서비스 퀄리티를 생각하면 이해 가는 반응입니다. 영상 넣고, 버튼 누르고, 결과물 받고. 빠르고 편리합니다. 하지만 누가 들어도 AI로 생성한 느낌이 들죠. 지식 전달용 유튜브 영상이면 그것만으로 괜찮을 수도 있습니다. 하지만 이제 더빙에 대한 수요는 숏폼 콘텐츠, 예능, 영화, 드라마까지 많은 종류의 콘텐츠로 빠르게 퍼지고 있습니다.     납품은 빠르게, 퀄리티는 높게. 그럼, AI로 드라마 전체를 더빙할 수 있을까요? 그것도 방송 가능한 퀄리티로요. 지금의 기술로는 어려울 것처럼 들리지만… 늘 그렇듯, 가우디오랩은 이번에도 답을 찾았습니다. 그리고 속도와 퀄리티가 양자택일의 문제가 아니라는 것을 증명했습니다. 어떻게 AI의 속도를 가져가면서도 방송 품질을 지킬 수 있는지, 여러 사례와 함께 소개하겠습니다.           콘텐츠 종류가 다르면 더빙도 달라야 합니다   가우디오랩은 영화(로맨스, 법정물, 학원물, 스릴러, 공포…), 드라마(로맨스부터 막장 드라마까지), 키즈 콘텐츠, 예능(요리, 먹방, 서바이벌), 다큐, 게임 중계, 스포츠 중계, 애니메이션, 회사 홍보 영상, 연애 프로… 등 다양한 콘텐츠를 더빙했습니다. 그리고 이 모든 작업을 통해 얻은 결론은 "콘텐츠 종류가 다르면 더빙도 달라야 한다"입니다. 모든 콘텐츠에 각기 다른 매력이 있듯, 각기 다른 어려움이 숨어 있었습니다. AI 더빙에 대해 이야기할 때 많은 분들이 "기술적으로 어디까지 되느냐"를 물어보시는데요, 직접 부딪혀 보면 진짜 질문은 "이 콘텐츠에서 무엇이 중요한지를 알고 있느냐"입니다. 위 작업들 중 몇 가지 사례를 통해, 우리가 콘텐츠별로 무엇에 집중하는지 이야기하겠습니다.   공포 영화 — AI가 생성한 비명… 하나도 안 무서워요!! 공포 영화를 무섭게 만드는 건 화면 속 귀신도 있지만, 각종 무시무시한 "소리"입니다. 끼익.. 문 열리는 소리, 어두운 창밖의 바람 소리, 비명 소리… (저는 그중에서도 무슨 일이 일어날 것을 직감한 순간의 "숨소리"가 가장 무섭습니다.) 그럼 AI가 생성한 비명 소리는 어떨까요? 저는 공포 영화를 전혀 못 보는데, AI 더빙으로 보니 별로 무섭지 않더라고요. 그만큼 부자연스러워서 몰입이 깨지기 때문인데요. 이럴 때 사람이 필요합니다. 직접 녹음을 하진 않지만, AI가 "무섭고 실제 같은 비명"을 생성할 수 있도록 돕는 역할을 합니다. 가우디오랩만의 감정 매핑 노하우를 통해, AI 보이스가 원본과 유사하게 소리를 낼 수 있게 합니다.   음악 서바이벌 예능 — 출연자가 100명…? 제 최애의 목소리를 어떻게 구분하죠 대형 음악 서바이벌 예능을 더빙할 때, 가장 먼저 부딪힌 문제는 인물 수였습니다. 출연자가 백 명, 거기에 MC와 심사위원까지… 이 많은 인물의 목소리를 어떻게 구분할 것인가가 핵심 과제였습니다. 단순히 음색을 다르게 하는 것만으로는 부족했습니다. 시청자는 목소리 톤만으로 100명을 구분하지 못하니까요. 인물이 많다는 건, 누군가 말할 때 늘 화면에 해당 인물이 나오는 게 아니라는 뜻이기도 하고요. 그래서 AI 보이스 캐스팅 기술로 캐릭터별 발화 특성—말하는 속도, 습관적인 추임새, 문장을 끊는 패턴—을 설정해서 100개의 개성있는 목소리를 만들었습니다. 특히 MC나 끝까지 생존하는 핵심 캐릭터는 처음부터 음성 설정에 더 주의를 기울였고요. 시리즈 전체를 관통하는 목소리니까요.   K-Drama — 원작의 의도를 프레임 단위로 재현하는 것 드라마는 요구 수준이 가장 높은 카테고리입니다. 원작의 창작 의도와 거의 완벽히 일치해야 하고, 립싱크는 프레임 단위로 맞춰야 합니다. 배우의 입이 열리고 닫히는 타이밍에 더빙 음성이 정확히 맞아야 하는데, 언어별로 발화 길이와 리듬이 근본적으로 다르기 때문에 이 싱크를 맞추는 것은 도전적 문제입니다. 원문 "거짓말 하지마"에서 입이 벌어지는 타이밍과 더빙 "Stop lying"에서 입이 벌어지는 타이밍이 맞아야 자연스러운데, 사실 매우 어려운 숙제입니다. 초상권 등 권리 문제가 해결된 일부 작품에서는 이를 위해 영어 더빙에 립모션 기술을 활용하기도 했습니다. 여기에 더해, 다국어 동시 더빙에서는 언어별 목소리 캐스팅의 중요성이 극대화됩니다. 같은 캐릭터라도 영어 버전과 일본어 버전의 목소리가 각각의 시청자에게 자연스럽게 느껴져야 하기에, 현지 언어 전문가들이 목소리 톤까지 꼼꼼히 검수합니다.   게임 중계 — 정확한 번역과 자연스러운 중계 보이스가 관건 게임 대회 중계 영상 더빙을 진행하면서 체감한 건, 더빙 자체만큼 번역의 정확도 역시 매우 중요하다는 점이었습니다. 게임 용어, 전략 설명, 실시간 상황 묘사가 정확하지 않으면 시청자가 바로 알아챕니다. 게이머 커뮤니티는 번역 오류에 매우 민감하거든요. 그래서 번역 단계에서 정확한 검수를 거친 용어집을 먼저 만듭니다. 동시에, 캐스터가 흥분해서 소리 지르는 장면과 차분하게 분석하는 장면의 목소리 톤 전환이 자연스러워야 합니다. 소리 지르는 발성만으로 음성을 만들면 차분한 구간에서 위화감이 생기고, 반대도 마찬가지입니다. 같은 사람의 목소리인데 흥분할 때와 차분할 때의 일관성(consistency)을 유지하는 것—이게 게임 중계 더빙의 핵심 과제입니다.    (Gaudio Dub의 AI 번역이 궁금하시다면, 이 포스트를 참고해주세요:))       그럼 AI가 뽑아낸 1차 더빙을 그대로 납품하는 게 아니네요?   네, 솔직히 대부분의 콘텐츠에서 답은 "아직은 아니다"입니다. 현재 AI 더빙이 풀지 못하는 영역이 있기 때문이죠. 위에서 말한 사례 외에도,   감정의 결이 다릅니다. "잘 지내."라는 대사 하나도, 눈물을 참는 장면이면 목이 멘 채 간신히 내뱉어야 하고, 분노 끝에 관계를 끊는 장면이면 차갑고 단호해야 합니다. AI는 "슬픔", "분노" 같은 큰 범주는 표현하지만, 같은 슬픔 안에서의 섬세한 변주까지는 잡지 못합니다.   리듬이 균일해집니다. 사람은 중요한 단어 앞에서 살짝 멈추고, 감정이 고조되면 속도가 빨라집니다. AI는 이런 자연스러운 불균일함을 재현하기 어려워서, 긴 독백이나 감정 변화가 많은 대사에서 "기계가 읽는 느낌"이 드는 경우가 있습니다.   비언어적 발화의 미묘함을 표현하지 못합니다. 한숨 뒤 독백, 웃음이 섞인 대사, 비명과 동시에 외치는 대사. "웃으면서 말하는 것"과 "말하다가 웃는 것"의 차이를 AI가 처음부터 제대로 표현하는 것은 아직 어렵습니다.       "아무나 못하니까 우리가 해야죠!"   그 외에도 AI 더빙의 한계를 나열하면 수없이 많아서 "그럼 AI 더빙을 쓸 수 있긴 한 거야?"라는 의문이 들죠. 하지만 우리는 바로 그 한계에 집중했습니다. 한계가 있다는 건 누구나 할 수 있는 쉬운 일은 아니라는 뜻이고, 마침 가우디오랩은 문제가 있다면 오히려 답을 찾고 싶어서 신이 나버리는… 조금 이상한.. 아니, 멋진 사람들이 모인 곳이거든요. 실제로 새로운 문제가 등장해 머리 아파 하니, 동료 중 한명이 "아무나 못하니까 우리가 해야죠. 이번 문제도 같이 잘 풀어보시죠~"라고 하더라고요.   방법은 명확하다 — AI가 못하는 걸 억지로 AI에게 시키지 않는다 그럼 가우디오랩은 어떻게 문제를 해결했을까요? AI가 잘하는 것과 사람이 잘하는 것을 정확히 나누고, 각 단계가 병렬로 움직이는 구조를 만들었습니다. 속도와 품질 둘 다 타협하지 않기 위해서, 그리고 각 산업군/콘텐츠 종류 별로 각기 다른 니즈에 맞는 현지화 콘텐츠를 제공하도록요.   예를 들어, Voice Casting 과정에서는, 콘텐츠를 분석하고, 캐릭터를 파악하고, 목소리를 생성하는 것까지는 AI가 합니다. 여러 개의 자동 생성된 목소리를 검토하며 최고의 ai 보이스를 선정하는 것은 사람이 합니다.   목소리를 캐스팅한 후 Dubbing을 시작하면— 한 번에 전체 대사를 타겟 언어로 생성하는 것까지는 AI가 합니다. 각 장면을 확인하며 미묘한 감정 전달, 립싱크, 음질 평가, 현지화 검수 등 최종 퀄리티를 보완하는 것은 사람이 합니다.       AI의 한계를 정확히 아는 것 — HITL   이처럼 우리는 AI에만 의존하지 않습니다. 전문 훈련을 받은 AI 더빙 프로듀서와 언어 전문가가 참여하는 HITL (Human-in-the-Loop) 구조를 운영합니다. 핵심은 사람이 처음부터 다 만드는 게 아니라, AI가 빠르게 만든 초안을 사람이 완성하는 구조라는 겁니다. 그리고 속도를 위해 기존 더빙 제작의 순차적 구조를 병렬 구조로 바꿨습니다. 번역이 진행되는 동안 캐릭터별 목소리를 미리 생성하고, 번역 검수와 AI 더빙을 동시에 진행합니다. 전 공정이 하나의 플랫폼, GSP (Gaudio Studio Pro) 안에서 돌아가기 때문에, 도구 간 전환이나 파일 변환 같은 중간 마찰이 없습니다.       물론 단순한 작업 속도의 문제가 아닙니다. 경쟁작보다 먼저 글로벌 시장에 진입할 수 있느냐, 작품의 화제성이 살아 있을 때 동시 런칭을 걸 수 있느냐… 콘텐츠 현지화의 골든타임을 사수하는 중요한 문제입니다.       마무리하며…    우리가 하는 일은 단순히 텍스트를 소리로 바꾸는 게 아닙니다. 원작의 감정, 분위기, 캐릭터의 관계, 장르의 밀도를 다른 언어로 옮기는 일입니다.   그리고 모든 건 AI와 인간이 함께하기에 가능합니다.   DME 분리 기술로 원본 음향을 훼손 없이 보존하고, AI Voice Cast로 캐릭터와 타겟 시청자 모두에게 맞는 목소리를 설계하고, Emotion Mapping으로 감정의 결을 옮기고, HITL 구조로 AI가 못하는 판단을 사람이 채우고, 콘텐츠 별 사전 설계로 시작 전에 방향을 잡고, 전문 사운드 스튜디오, Wavelab과의 협업으로 극장 수준의 마스터링을 완성합니다.   그리고 이 모든 공정이 Gaudio Studio Pro라는 하나의 파이프라인 위에서 돌아갑니다.     경험에 기반한 콘텐츠별 맞춤 더빙, 풀스택 가우디오랩 AI 더빙이 콘텐츠에 온전히 빠져드는 경험을 선사합니다. → 문의하기    

2026.03.30