ICML 논문 맛보기: A demand-driven perspective on Generative Audio AI 

2023.07.27ㆍ by Rio Oh

ICML 논문 맛보기: A demand-driven perspective on Generative Audio AI 

 

(Writer: Rio Oh) 

 

 

안녕하세요. 저는 가우디오랩 AI 리서치 팀에서 사운드 생성 모델인 FALL-E 연구를 하고 있는 리오(Rio)입니다🙂 저는 생성 모델에 관심이 많은데요, 최근에는 생성 모델의 접근 방식을 다른 태스크에 적용해 보기 위한 연구를 하고 있습니다.

 

저희 팀에서는 요 근래에 DCASE를 준비하는 한편, 실제 산업에 적용되기 위해선 어떤 점을 개선해야 할까 고민해왔었습니다. 그 내용을 담아 이번 ICML 워크샵에서 발표할 예정인데요, 여러분께 그 내용을 미리 소개해 드리려 합니다!

 

 

들어가며 

 

최근 DCASE Challenge에서 일궈낸 가우디오랩의 성과에 대해 블로그로 소개해 드린 것 기억하시나요? 그동안 가우디오랩에는 또 하나의 좋은 소식이 있었습니다. 바로 ICML 워크샵에 저희가 제출한 논문이 억셉된 것입니다. (룰루🥰)

 

ICML은 NeurIPS와 함께 세계 최고의 인공지능 학회로 뜨거운 주목을 받고 있습니다. 올해의 학회 기간 중 마지막 이틀 동안 주제 별로 워크샵이 진행되는데요. 최근 핫한 세부 주제를 선정해 워크샵을 진행하고, 더블 블라인드 피어 리뷰를 통과한 논문만 이 자리에 설 수 있답니다. 

 

 

사운드 생성 AI, 가우디오랩이 먼저 걸어와보니

 

사실 텍스트, 이미지 분야와 비교하면 (음성을 제외한) 오디오 생성은 아직 이 산업의 걸음마 단계를 걷고 있다고 할 수 있습니다. 우리에게 익숙한 텍스트 분야를 넘어 이미지 분야를 보자면, DALL-E 등의 Diffusion 모델 등을 활용한 상용 및 비상용 서비스들이 나와 있고, 대중들도 쉽게 사용할 수 있도록 되어 있죠. 그러나 오디오는 기술의 성숙도, 컴퓨팅 자원의 한계 등으로 아직 공개된 서비스가 없는 상황입니다. (논문의 실험 결과 공유를 위한 데모나 모델 공유는 조금씩 이루어지고 있지만, 일반인들이 사용할 수 있는 단계의 서비스는 거의 없다고 보아도 무방한 상황이죠.)

 

이런 환경 하에서, 가우디오랩은 단순한 데모를 넘어 기존 사업의 패러다임을 완전히 뒤집을 만한 AI 제품을 만들 수 있기를 꿈꾸며, 현재 당면한 상황과 한계를 정리하는 과정을 거쳤습니다. 연구단계의 오디오 AI 제품들이 세상의 빛을 볼 수 있도록 업계의 소리를 직접 듣고자 하는 귀중한 시도를 했는데요. 가우디오랩은 이를 통해 (물론 연구 자체도 매우 중요합니다만 그에 함몰되지 않고) 산업 전반의 실상과 업무 프로세스를 조명하고 앞으로의 연구방향을 더 날카롭고 정확하게 수립하고자 합니다. 

 

그리고 이를 2023의 Challenges in Deployable Generative AI라는 워크샵에서 발표합니다! 
(일시: Fri 28 Jul, 9 a.m. HST & Sat 29 Jul, 4 a.m. KST)

 

 

[사진 = 워크샵 포스터]

 

 

잠깐, 상단 Motivations 언급된 가우디오랩의 FALL-E (폴리) 뭐냐고요

 

가우디오랩의 FALL-E는 텍스트나 이미지 입력에 대응되는 소리를 생성해 내는 AI 기반 Text-to-Sound Generation 기술입니다. 실제 존재하는 소리(고양이 울음소리, 천둥소리 등) 뿐만 아니라 무한한 가상 세계의 소리(호랑이 담배 피우는 소리 등)을 만들어냅니다. 소리를 재료로 콘텐츠 영역을 무한히 확장할 수 있죠. 덕분에 생성된 소리들은 콘텐츠 및 가상환경 구현 과정에서 효과음 및 배경음으로 활용될 수 있고, 몰입감 있는 경험을 제공하는 모든 환경에 필수적인 소리 기술로 자리매김하리라 기대를 한몸에 받고 있습니다.

 

          폴리를 조금 더 알려드릴게요!

이름에서 눈치채셨나요? Foley sound의 의미를 담고 있기도 합니다. 

 

Foley는 영화 등의 소리 후반작업에서 음향효과를 재현하는 것을 의미합니다. 밥그릇 두 개를 번갈아 땅에 부딪히며 말발굽 소리를 만들어 내는 것처럼요. 1930년대에 유래된 말로, Jack Foley의 이름을 따서 지어졌죠. 

 

Foley는 콘텐츠 제작에 반드시 필요한 과정인데요. 녹음된 음원을 재사용하기도 어렵고, 경제성도 떨어져 지금까지도 수작업에 의존하고 있는 실정입니다. 

 

그래서 Generative 모델로 해결하면 좋은 문제이고, 가우디오랩은 이 기술에 집중하고 있어요.

 

 

 

 

이번 연구를 통해 확인한 어려움들은 어떤 것들이 있었냐면요.

 

가우디오랩은 이번 논문을 준비하며 실제 영화 음향 업계에 종사하시는 분들을 대상으로 설문 조사를 진행하여 논문에 포함하기도 했습니다. 살짝 결과를 공유드리자면, 저희가 발견한 가장 큰 한계점은 1) 음질이 더욱 좋아야 한다는 것과 2) 작은 디테일까지도 컨트롤할 수 있어야 한다는 것이 있었죠. [논문 전체 보러 가기]

 

 

그래서 가우디오랩은 FALL-E 만들며 문제를 어떻게 풀어냈을까요?

 

깨끗한 고품질 데이터가 적다는 점이 어려운 점 중 한 가지였습니다. 게다가 생성 모델에서는 아주 많은 데이터가 필요하기 때문에 문제였죠. 가우디오랩이 생각한 해결책은 깨끗한 데이터와 상대적으로 덜 깨끗한 데이터를 동시에 같이 사용하되 모델에게 condition을 주는 방법이었습니다. 

 

생성 모델은 생성할 샘플뿐만 아니라 모델을 생성하는 데 도움이 되는 다양한 힌트(텍스트, 카테고리, 비디오 등)를 함께 학습 데이터로 활용하는데, 이 데이터가 어떤 데이터 셋에서 가져왔는지를 라벨 형태로 추가 힌트를 주는 것이죠.

 

이렇게 되면 모델이 소리를 생성할 때, 깨끗한 소리를 생성할지, noisy 한 소리를 생성할지 정할 수 있게 되고, 실제로 저희가 DCASE Challenge에 참여했을 때, 다양한 소리를 생성하면서 음질도 좋다는 평을 받기도 했습니다. 당시 객관 평가 지표 (FAD)로 top contender를 각 트랙 별로 4팀씩 선발한 뒤 청취 평가를 진행했는데요. 보시다시피 가우디오랩은 깨끗한 음질과 수없이 다양한 소리를 생성해낼 수 있는 다양성 분야에서 높은 점수를 기록했습니다. 모든 소리를 생성할 수 있는 모델인 FALL-E로 일부 카테고리에 한정해 심사하는 대회에 나가 몸풀기 한 것치고 꽤 좋은 성과를 냈다고 할 수 있어요. 

 

 

DCASE 2023 Challenge Task 7 결과 > 여기서 더 자세히 보실 수 있어요.

 

 

FALL-E는 지금까지 공개된 모델 중 가장 음질이 좋은 모델이라 평가할 수도 있지만, 저희는 여기서 멈추지 않고 더 좋은 소리를 만드는 모델을 위해 고민하는 중이기도 합니다.

 

 

사실, FALL-E 세상에 나오기까지 이런 진통이 있었어요!

 

가우디오랩이 처음 FALL-E에 대한 아이디어를 얻고 연구를 시작한 2021년 당시에는 텍스트 기반의 AI 폴리 합성 모델에 관련된 논문은 거의 없는 수준이었습니다. 게다가 영상 기반의 효과음 연구도 매우 제한된 카테고리이거나 모델 성능이 promising 해 보이진 않았죠. (물론 지금은 관련 논문도 많이 나온 상황이지만요!)

 

연구 측면에서 방향성을 고민하기도 했으나, AI 디렉터인 근우가 팀의 에너지를 한곳으로 이끌어주며 그동안 explore 하며 쌓인 지식과 경험들을 exploit 하면서 힘을 모아 달려갈 수 있었던 것 같습니다. 당시에는 의구심이 들기도 하고 여러 고민이 들기도 했지만, 지금 돌아보니 이렇게 계속해서 방향을 정리하고 조정하는 과정이 ‘맞는 방향'을 찾는 좋은 과정이지 않았을까? 하는 생각이 듭니다.

 

“저쪽이다” 하면서 같이 우당탕탕 하면서 달려갔다가, 잠깐씩 숨 고르면서 방향을 fine-tuning 하면서 달리는 것,  당면한 상황에 맞춰 유연하게 방향을 수정해 결국은 목표한 곳에 당도하는 것, 그것이 가우디오랩 AI 리서치 팀이 일하는 방식이 아닐까 싶습니다.

 

정신 차려보니 DCASE를 주관하고, 가볍게 참가했는데도 아주 좋은 성적을 냈고, 저는 결국 하와이에 와있습니다. 사실 하와이는 논문이 통과되지 않는 경우가 생기더라도 더 많은 시야를 보기 위해 오는 것으로 결정되었었는데, ICML 논문이 억셉되며 더욱 의미 있는 출장이 되었으니 아주 신나고 알차게 보내다 한국에 들어갈 생각입니다.

 

그럼 하와이에서 올리는 글을 마칩니다! 🏝

 

 

 

 

pre-image
Eddie의 인턴회고, “좋아하는 걸 하면 잘할 거예요!”

Eddie의 인턴회고, "좋아하는 걸 하면 잘할 거예요!"     안녕하세요! 가우디오랩에서 Marketing Manager Intern으로 근무했던 Eddie입니다.   저는 대학교에서 건축공학과 소프트웨어벤처를 동시에 전공하고 있어요. 학과가 조금 특이하죠? 상상 속 건물의 모습을 현실로 구현해 내는 건축공학의 접근법과 마찬가지로, 창의적인 아이디어를 구현해 내는 스타트업 세계가 저에게 큰 매력으로 다가왔어요. 그래서인지 SDK나 플랫폼 서비스와 같은 IT 기술에 관심이 많았고, 교내 창업 프로젝트에도 참가하면서 자연스럽게 스타트업 생태계에 발을 들이게 되었습니다.   졸업이 얼마 남지 않은 시점에서, 제가 가지고 있는 스킬 셋을 필드에서 시험해 보고 싶다는 생각이 들었어요. 실질적인 경험을 통해 제가 무엇을 좋아하고 어떤 부분이 부족한지, 그리고 앞으로 어떤 분야로 나아가야 할지에 대한 답을 찾고 싶었습니다. 그러던 중에 소프트뱅크벤처스아시아(SBVA)에서 주관하는 '대학생벤처기사단 UKOV' 프로그램에 참여할 기회를 얻을 수 있었고, 서류 지원과 인터뷰를 거쳐 가우디오랩과 함께하게 되었어요. 👏🏻 (yay!!)    그리고 이제 6개월 간의 인턴생활을 마치면서, 가우디오랩에서 지냈던 시간을 회고해보려고 합니다.          저는 마케팅팀에 소속되어 가우디오랩의 혁신적인 AI 기술이 고객과 소비자에게 매력적으로 다가올 수 있도록 다양한 콘텐츠와 프로모션을 기획하고 실행하는 역할을 맡았어요. 물론 눈에 보이지도 않는 소리의 중요성을, 그것도 짧은 시간에 효과적으로 어필하는 건 쉬운 일이 아니었습니다.   하지만 모든 가우딘이 그러하듯 저 역시도 음악과 소리를 누구보다도 사랑(…♥︎)하기 때문에, 많은 사람이 가우디오랩의 훌륭한 소리를 경험하고 그 중요성을 인지할 수 있도록 마케팅팀의 모든 업무를 서포트하며 6개월을 보낸 것 같습니다. 그중에서도 제가 인볼브되었던 프로젝트와 히스토리를 몇 가지 소개해 드리려고 해요.     1. Audio / Video Content Marketing   저의 주요 업무 중 하나는 YouTube 영상 콘텐츠를 기획하고 제작하는 일이었어요. 사무실 이전 1주년을 기념하여 만든 가우딘 인터뷰 영상 모음집뿐만 아니라, 가우디오랩의 공간음향 기술과 오디오 생성 AI ‘FALL-E’가 어떻게 적용되는지 보여주는 비하인드 영상도 제작했습니다. 어쩌면 가우디오랩의 이야기와 혁신적인 기술을 많은 사람에게 소개할 수 있는 가장 효과적인 수단이었기 때문에, 나름의 사명감(?)을 가지고 작업했던 것 같아요.   Eddie의 손에서 탄생한 가우디오랩 사옥이전 1주년 기념영상   고객사에 전달하기 위한 데모 영상을 만들기도 했어요. 처음에는 기술에 대한 이해가 충분하지 않아서 조금 헤매기도 했지만, 공간음향 적용 유무를 비교하며 들어 보거나 GPT-4의 도움을 받아 Jupyter에 직접 코드를 작성하기도 하면서(도와주셨던 모든 가우딘 분들 감사합니다…!) 나중에는 반나절 만에 뚝딱 만들어 낼 수 있을 정도로 성장한 것 같습니다. 그리고 가우디오랩의 오디오 기술이 녹아든 플레이리스트를 기획해서 믹싱 작업까지 마친 영상을 매달 업로드하기도 했어요.     2. Homepage Renewal Management / QA   여러분이 지금 보고 계시는 가우디오랩의 홈페이지는 사실 올해 초 새로 오픈한 리뉴얼 버전이랍니다. 단순히 예쁘고 멋지기만 한 홈페이지를 넘어서, 사용자 경험과 SEO 최적화가 홈페이지 구축에 얼마나 중요한 요소로 작용하는지 깨닫게 된 소중한 경험이었어요.   오픈 전 메인 페이지부터 각 하위 메뉴 구성까지 QA를 거치며 발견해 낸 이슈와 버그를 Redmine 프로그램에 등록하고 이후에 개선되었는지 확인하는 전체 과정이 쉽지는 않았지만, 인턴 기간의 절반 이상을 투자하면서 누구보다 애정을 가지고 참여한 것 같아요. 자세한 히스토리는 이 블로그 포스트에서 확인하실 수 있답니다!     3. Research & Marketing Planning   시장 조사부터 프로젝트 기획 및 실행까지, 팀에서 진행하는 업무 전반을 지원하는 역할도 맡았습니다. 업무를 하며 크게 느낀 점 중 하나는 ‘마케팅과 PR, 디자인은 서로가 다르지만 서로가 꼭 필요하다’는 것이었어요. 언론이나 소셜미디어와 같은 대외적인 관계를 넘어 싹타워에서 (또는 원격으로) 근무하는 가우딘과도 끊임없이 소통하며 좋은 사내 문화를 유지하는 과정까지, 사람을 향한다는 중첩되는 영역이 있었기에 세 가지 분야의 업무를 맡았음에도 하나의 목적을 가지고 일했던 것 같아요.   특히 열심히 준비한 ‘wow factor’를 고객사에 전달하고, 그 반응이 제 기대를 넘어 돌아왔을 때의 쾌감은 잊을 수가 없더라고요. 이런 경험들이 저에게 새로운 에너지를 주었고, 더 열심히 할 수 있는 원동력이 되어주었습니다.         So... What’s after ‘LIKE’?   6개월간의 인턴 생활을 되돌아보며 가장 크게 얻은 수확을 하나만 이야기해야 한다면 저는 고민 없이 가우디오랩 구성원들, 가우딘이라고 얘기하겠습니다. ‘해볼 만하겠는데?’ 싶은 아이디어가 떠오르면 빠르게 커뮤니케이팅하고, 얼마 되지 않았는데도 상상했던 모습이 현실로 짠- 나타나는 모습을 보면서, ‘앞으로 내가 이 분들처럼 멋지게 성장할 수 있을까’라는 생각을 자주 했던 것 같아요.   처음 인턴을 시작했을 때 했던 결심과는 다르게, 아직 제가 마케터의 길을 걷게 될지, 아니면 다른 분야로 나아갈지에 대한 확실한 결정을 내리지는 못했어요. 하지만 앞으로도 절대 변하지 않을 사실이 한 가지 있다면, IT 기술의 힘을 빌려 멋진 사람들과 함께 더 멋진 세상을 만드는 데에 일조할 수 있다면 어떤 직무든 좋을 것 같습니다. 이 글을 빌려 가우디오랩의 모든 멤버들에게 진심으로 감사의 인사를 전해요!   앞으로도 가우디오랩과 저 Eddie, 많이 응원해 주세요! Way to go!        

2023.08.08
after-image
Vision Pro 등장: 다중 음원이 존재하는 환경에서의 RIR 예측

Vision Pro의 등장: 다중 음원이 존재하는 환경에서의 RIR 예측은 어떻게 하면 될까요?     들어가며   안녕하세요, 가우디오랩에서 오디오와 AI 연구 개발을 하고 있는 모니카입니다.   최근에 Apple에서 Vision pro가 소개되면서 Spatial technology가 다시 한번 뜨거운 관심을 받게 되었습니다. 오디오와 관련된 기술도 언급되었는데요, 사용자가 위치한 공간에 대한 정보를 학습해 더욱 더 실감있는 오디오 경험을 제공한다고 합니다. 마-침 가우디오랩에서도 작년에 이와 같은 맥락에서 연구를 진행했기 때문에, 설레는 마음으로 이번 글에서 소개해보려고 합니다.     둠칫 둠칫 두둠칫     Room Impulse Response, 한 가지만 기억하세요.   “어떤 소리를 특정 공간에서 나는 것처럼 만들고 싶다!”라면 Room Impulse Response (RIR)만 알면 됩니다.    RIR은 Impulse signal(아래 Figure 1에서 한 남성의 총소리)이 해당 공간 안에서 어떻게 울려 퍼지는 지를 측정한 신호입니다. 어떤 소리든 특정 공간의 RIR 과 convolution하게 되면 그 공간에서 나는 소리처럼 들리게 만들 수 있습니다. 따라서 RIR은 [그 공간에 대한 정보를 담고 있는 매우 유용한 데이터]라고 설명드릴 수 있습니다.     Figure 1 - 출처: https://www.prosoundweb.com/what-is-an-impulse-response/       그렇다면 RIR은 어떻게 구할 수 있을까요?   원하는 공간의 RIR을 구하고 싶다면 마이크를 들고 가서 직접 측정하는 것이 가장 정확한 방법입니다. 하지만 측정하는 것은 매우 번거로운 일입니다. 장비도 필요하고 시간도 많이 소모됩니다. 물리적인 제약으로 그 공간에 직접 갈 수 없을 수도 있고요. 다행히도 머신러닝 기술의 개발로 직접 가지 않아도 예측할 수 있는 방법들이 연구되고 있습니다. 예를 들면, 특정 공간에서 녹음된 소리(ex. 사람 목소리)만으로부터 그 공간의 RIR을 예측하는 연구가 그 중 하나입니다.      TWS 사용자들의 주변 소리를 녹음해서 실시간으로 RIR을 예측할 수 있을까?     증강 현실에서 사용자가 더 실감있는 경험을 하려면 가상 음원들이 사용자와 같은 공간에 있는 것처럼 들려야합니다. 그렇다면 사용자의 공간에 대한 정보를 얻어야 하는데요, 저희는 TWS를 이용해 주변 소리를 녹음해서 머신러닝으로 분석하는 방법을 연구해보기로 했습니다.   사용자가 있는 공간에서 실시간으로 예측해야하는 상황에서는 분명 한 명 이상의 사람과 사물이 소리를 내고 있을 것입니다 (= 다중 음원 / multiple sources). 하지만 과거 연구에서는 주로 한명의 사람이 발화하는 오디오 신호 (이하 단일 음원 / single source) 로부터 RIR을 예측하는 방법을 다뤄왔습니다.   단일 음원과 다중 음원인 상황에서의 RIR 예측을 같은 문제라고 생각할 수 있지만, 사실 문제 정의부터 새로 해야할 정도로 다른 주제라고 봐야합니다. 왜냐하면 RIR은 같은 공간이더라도 각 음원들이 어느 공간에서 어느 방향을 보고 있는 지에 따라 다르게 측정되기 때문입니다. 물론 같은 공간이니 공통점도 존재하지만 세부적으로는 다르답니다.       정면에 있는 RIR만 예측하자!   그렇다면 여러 음원들이 녹음된 실제 상황에서는 어떻게 RIR을 예측해야할까요?   여러 방법이 있을 수 있겠지만 가우디오랩은 미래의 우리 제품에 녹아들 수 있는 시나리오에 맞게 정의하기로 했습니다. TWS 사용자를 위해 오디오를 랜더링해야하는 경우를 상상해보니, 정면에 있는 음원에 의해 생성되는 RIR만 예측하는 것이 우선적으로 필요할 것이라는 판단을 내렸습니다. 따라서, Figure 2와 같이 여러 소리들이(아래 그림 내 진한 회색 원형) 녹음되어도 사용자의 정면 1.5미터 거리에 있는 음원에 (파란색 원형) 의한 에서의 RIR을 예측하는 것을 문제로 정의했습니다.       Figure 2  사용자를 중심으로 여러 음원들이 여러 위치에서 소리를 내고 있습니다 (회색 원형). 이렇게 여러 음원들이 존재하는 경우에도 항상 정면 1.5미터 거리에 가상 음원이(파란색 원형) 있다고 가정하고 이곳에서의 RIR을 예측하는 모델을 개발했습니다.     AI 모델 구조는 비교적 최근에 발표된 논문의 모델을 참고해서 만들었습니다. 특정 공간에서 나는 소리를 모델의 입력으로 넣으면 그 공간의 RIR 을 출력하는 것이 기본적인 모델의 작동 방식입니다. 앞서 말씀드렸듯이 대다수의 기존 연구들은 단일 음원만 포함된 데이터셋을 모델 입력으로 이용했습니다 (Figure 3 Top).   하지만 저희는 아래 Figure 3에서 보이는 것처럼, 다중 음원들이 포함된 데이터셋을 모델의 입력으로 사용하는 방법을 제안합니다. Room A에서 측정된 몇개의 RIR들과 anechoic speech signal을 각각 convolution해서 합치는 방법으로 데이터셋을 구축했습니다. 모델의 출력은 사용자 입장에서 정면에 있는 음원의 monaural RIR 하나입니다. 정답이 되는 RIR과 똑같은 RIR을 생성해내도록 손실 함수를 만들어 학습했습니다.      Figure 3 기존 연구에서는 단일 음원인 환경을 모방한 데이터로만 학습을 했지만 (top figure), 저희는 다중 음원인 환경에서의 데이터로 학습하는 방법을 제시했습니다 (bottom figure)     모든 AI 시스템 개발 과정의 꽃인 데이터셋 확보에 저희도 많은 시간을 썼습니다. RIR 데이터는 제법 많지만 한 공간에서 여러 RIR 을 측정한 데이터는 많지 않기 때문인데요. 수 만개의 방을 직접 측정해서 데이터셋을 만드는 것은 불가능에 가깝기 때문에 여러 오픈소스 코드를 활용해 Synthetic 데이터셋을 대량 생산해서 사용했습니다.      결과는?    Figure 4 기존에 연구된 방식인 단일 음원 모델 (SS model)과 저희가 제안한 다중 음원 모델 (MS model)이 음원의 갯수가 증가함에 따라 성능이 어떻게 변화하는지 나타내는 표입니다. Loss 와 Error 값이 증가한다는 뜻은 성능이 저하된다는 것을 의미합니다.        기존에 단일 음원으로만 학습한 모델 (SS model - 파란색)과  저희가 정의한 다중 음원을 이용한 학습 방법대로 (MS model - 분홍색)을 비교해보았습니다. 음원의 갯수를 1개에서부터 6개까지 늘리면서 RIR을 예측한 결과를 위 figure 4에서 보실 수 있습니다. 단일 음원 모델은 갯수가 증가하면 성능이 악화되는 것을 볼 수 있습니다. 하지만 다중 음원 모델은 갯수가 증가하더라도 일정하고 안정적인 성능으로 RIR을 예측하는 것을 확인할 수 있었습니다!   실제 환경에서는 사용자 주변의 음원의 갯수를 미리 알 수 없습니다. 따라서 저희가 제안한 방법처럼 음원의 갯수에 무관하게 모델이 현재 공간의 RIR을 예측할 수 있다면 훨씬 더 몰입감 있는 경험을 제공할 수 있을 것입니다.     이 연구가 더 궁금하시다면!   연구 결과를 바탕으로 저는 실제 가우디오랩의 오피스 공간 3곳에서 직접 녹음한 소리로부터 실시간으로 RIR을 예측하는 시스템을 개발해서 데모를 진행해보기도 했습니다. 각각 다른 특성을 가진 공간이었는데, 모델이 그 공간을 반영하는 RIR을 안정적으로 예측하는 것을 확인할 수 있었습니다! 가우딘들과 청취평가를 진행한 결과 대부분의 사람들이 “정말 이 공간에서 나는 소리 같다!”라는 반응을 보이기도 했지요.   이 연구는 2023년 8월(지금!), AES International Conference on Spatial and Immersive Audio 컨퍼런스에 억셉되어 발표될 예정이기도 합니다.   궁금하신 분들은 이 링크를 통해 확인하세요!        

2023.08.23