뒤로가기back

Eddie의 인턴회고, “좋아하는 걸 하면 잘할 거예요!”

2023.08.08 by Eddie Koh

Eddie의 인턴회고, "좋아하는 걸 하면 잘할 거예요!"

 

 

안녕하세요! 가우디오랩에서 Marketing Manager Intern으로 근무했던 Eddie입니다.

 

저는 대학교에서 건축공학과 소프트웨어벤처를 동시에 전공하고 있어요. 학과가 조금 특이하죠? 상상 속 건물의 모습을 현실로 구현해 내는 건축공학의 접근법과 마찬가지로, 창의적인 아이디어를 구현해 내는 스타트업 세계가 저에게 큰 매력으로 다가왔어요. 그래서인지 SDK나 플랫폼 서비스와 같은 IT 기술에 관심이 많았고, 교내 창업 프로젝트에도 참가하면서 자연스럽게 스타트업 생태계에 발을 들이게 되었습니다.

 

졸업이 얼마 남지 않은 시점에서, 제가 가지고 있는 스킬 셋을 필드에서 시험해 보고 싶다는 생각이 들었어요. 실질적인 경험을 통해 제가 무엇을 좋아하고 어떤 부분이 부족한지, 그리고 앞으로 어떤 분야로 나아가야 할지에 대한 답을 찾고 싶었습니다. 그러던 중에 소프트뱅크벤처스아시아(SBVA)에서 주관하는 '대학생벤처기사단 UKOV' 프로그램에 참여할 기회를 얻을 수 있었고, 서류 지원과 인터뷰를 거쳐 가우디오랩과 함께하게 되었어요. 👏🏻 (yay!!) 

 

그리고 이제 6개월 간의 인턴생활을 마치면서, 가우디오랩에서 지냈던 시간을 회고해보려고 합니다. 

 

 


 

 

저는 마케팅팀에 소속되어 가우디오랩의 혁신적인 AI 기술이 고객과 소비자에게 매력적으로 다가올 수 있도록 다양한 콘텐츠와 프로모션을 기획하고 실행하는 역할을 맡았어요. 물론 눈에 보이지도 않는 소리의 중요성을, 그것도 짧은 시간에 효과적으로 어필하는 건 쉬운 일이 아니었습니다.

 

하지만 모든 가우딘이 그러하듯 저 역시도 음악과 소리를 누구보다도 사랑(…♥︎)하기 때문에, 많은 사람이 가우디오랩의 훌륭한 소리를 경험하고 그 중요성을 인지할 수 있도록 마케팅팀의 모든 업무를 서포트하며 6개월을 보낸 것 같습니다. 그중에서도 제가 인볼브되었던 프로젝트와 히스토리를 몇 가지 소개해 드리려고 해요.

 

 

1. Audio / Video Content Marketing

 

저의 주요 업무 중 하나는 YouTube 영상 콘텐츠를 기획하고 제작하는 일이었어요. 사무실 이전 1주년을 기념하여 만든 가우딘 인터뷰 영상 모음집뿐만 아니라, 가우디오랩의 공간음향 기술과 오디오 생성 AI ‘FALL-E’가 어떻게 적용되는지 보여주는 비하인드 영상도 제작했습니다. 어쩌면 가우디오랩의 이야기와 혁신적인 기술을 많은 사람에게 소개할 수 있는 가장 효과적인 수단이었기 때문에, 나름의 사명감(?)을 가지고 작업했던 것 같아요.

 

Eddie의 손에서 탄생한 가우디오랩 사옥이전 1주년 기념영상

 

고객사에 전달하기 위한 데모 영상을 만들기도 했어요. 처음에는 기술에 대한 이해가 충분하지 않아서 조금 헤매기도 했지만, 공간음향 적용 유무를 비교하며 들어 보거나 GPT-4의 도움을 받아 Jupyter에 직접 코드를 작성하기도 하면서(도와주셨던 모든 가우딘 분들 감사합니다…!) 나중에는 반나절 만에 뚝딱 만들어 낼 수 있을 정도로 성장한 것 같습니다. 그리고 가우디오랩의 오디오 기술이 녹아든 플레이리스트를 기획해서 믹싱 작업까지 마친 영상을 매달 업로드하기도 했어요.

 

 

2. Homepage Renewal Management / QA

 

여러분이 지금 보고 계시는 가우디오랩의 홈페이지는 사실 올해 초 새로 오픈한 리뉴얼 버전이랍니다. 단순히 예쁘고 멋지기만 한 홈페이지를 넘어서, 사용자 경험과 SEO 최적화가 홈페이지 구축에 얼마나 중요한 요소로 작용하는지 깨닫게 된 소중한 경험이었어요.

 

오픈 전 메인 페이지부터 각 하위 메뉴 구성까지 QA를 거치며 발견해 낸 이슈와 버그를 Redmine 프로그램에 등록하고 이후에 개선되었는지 확인하는 전체 과정이 쉽지는 않았지만, 인턴 기간의 절반 이상을 투자하면서 누구보다 애정을 가지고 참여한 것 같아요. 자세한 히스토리는 이 블로그 포스트에서 확인하실 수 있답니다!

 

 

3. Research & Marketing Planning

 

시장 조사부터 프로젝트 기획 및 실행까지, 팀에서 진행하는 업무 전반을 지원하는 역할도 맡았습니다. 업무를 하며 크게 느낀 점 중 하나는 ‘마케팅과 PR, 디자인은 서로가 다르지만 서로가 꼭 필요하다’는 것이었어요. 언론이나 소셜미디어와 같은 대외적인 관계를 넘어 싹타워에서 (또는 원격으로) 근무하는 가우딘과도 끊임없이 소통하며 좋은 사내 문화를 유지하는 과정까지, 사람을 향한다는 중첩되는 영역이 있었기에 세 가지 분야의 업무를 맡았음에도 하나의 목적을 가지고 일했던 것 같아요.

 

특히 열심히 준비한 ‘wow factor’를 고객사에 전달하고, 그 반응이 제 기대를 넘어 돌아왔을 때의 쾌감은 잊을 수가 없더라고요. 이런 경험들이 저에게 새로운 에너지를 주었고, 더 열심히 할 수 있는 원동력이 되어주었습니다.

 

 


 

 

So... What’s after ‘LIKE’?

 

6개월간의 인턴 생활을 되돌아보며 가장 크게 얻은 수확을 하나만 이야기해야 한다면 저는 고민 없이 가우디오랩 구성원들, 가우딘이라고 얘기하겠습니다. ‘해볼 만하겠는데?’ 싶은 아이디어가 떠오르면 빠르게 커뮤니케이팅하고, 얼마 되지 않았는데도 상상했던 모습이 현실로 짠- 나타나는 모습을 보면서, ‘앞으로 내가 이 분들처럼 멋지게 성장할 수 있을까’라는 생각을 자주 했던 것 같아요.

 

처음 인턴을 시작했을 때 했던 결심과는 다르게, 아직 제가 마케터의 길을 걷게 될지, 아니면 다른 분야로 나아갈지에 대한 확실한 결정을 내리지는 못했어요. 하지만 앞으로도 절대 변하지 않을 사실이 한 가지 있다면, IT 기술의 힘을 빌려 멋진 사람들과 함께 더 멋진 세상을 만드는 데에 일조할 수 있다면 어떤 직무든 좋을 것 같습니다. 이 글을 빌려 가우디오랩의 모든 멤버들에게 진심으로 감사의 인사를 전해요!

 

앞으로도 가우디오랩과 저 Eddie, 많이 응원해 주세요! Way to go!

 

 

 

 

pre-image
Thanks Apple, Welcome Vision Pro! (ft. Spatial Computing & Spatial Audio)

Thanks Apple, Welcome Vision Pro! (ft. Spatial Computing & Spatial Audio)   (Writer: Henney Oh)   ONE MORE THING!   23년 6월 WWDC, Apple이 드디어 “One More Thing”을 외치며 Vision Pro 라는 이름으로 Spatial Computing Device를 선보였습니다! ‘VR HMD’ 라거나 ‘AR 글래스’ 라고 부르지 않고, “Spatial Computing“ 기기라고 정의한 것부터가 애플 답습니다.   2014년, 가우디오랩은 VR 시장에 첫 발걸음을 들이며 회사의 성격(그리고 목적하는 시장)을 The Spatial Audio Company for VR로 정의했습니다. 그래서 그동안 사람들에게 가장 많이 들었던 질문 중에 하나가 바로 “언제쯤 VR 시장이 올 것 같나요?”가 아니었나 싶습니다. 이 빈출 질문에 대한 제 답은 영리하게도 혹은 비겁하게도, “애플이 VR 기기를 내놓는 날이요”이었죠 😎   그리고 드디어! 그날이 오고야 말았습니다. 꼭 10년 만이네요. (애플은 Vision Pro를 2024년 봄에 출시한다고 발표했습니다)   이번 WWDC의 애플 키노트에서는 기기 소개 세션의 상당한 비중을 할애해 Vision Pro에 들어간 Spatial Audio를 설명하고 있습니다. 애플은 언제나 눈에 보이지 않고 그 차이를 사용자가 쉽게 인지하기 어려운 오디오에 참 많은 공을 들입니다. 오늘의 애플이 있게 만든 그 출발선에 바로 iPods라는 오디오 기기가 있었다는 사실!       [사진: Spatial Audio 기능이 내장된 Apple Vision Pro의 Dual Driver Audio Pods (스피커)]     Spatial Audio, NICE TO HAVE → MUST HAVE   애플의 Spatial Audio는 지난 2020년 AirPods Pro에 처음 적용되며 선을 보였습니다. 그 당시 제 주장 또한 “이 Spatial Audio는 미래에 애플이 내놓을 VR/AR 기기를 위한 사전 포석이다”였지요.   조그만 윈도우 안의 2D 화면을 보는 스마트폰(또는 TV)에서의 Spatial Audio 경험은 Nice-to-have(있으면 좋은, 멋진) 라면, VR 환경에서의 Spatial Audio는 Must-have로 바뀝니다. 가상 환경 속, 나의 뒤편에서 날 부르는 강아지의 소리가 눈앞 쪽에서 들려선 안되겠지요.   앞서 다른 포스트(링크)에서 VR Audio, Immersive Audio, 3D Audio, Spatial Audio, … 표현은 달라도 그게 그렇게 다르지 않다고 말씀드렸었습니다. 필요나 시장의 성격에 따라 부르는 이름이 다를 뿐, 3차원 음향을 만들고 재현하는 기술입니다.   애플은 2024년에 Spatial Computing Device를 선보일 것을 준비하며, 그 5년 전 3D 오디오 기술을 AirPods에 적용하며 이미 Spatial Audio라고 불렀다고 하면 억측일까요?     Mono → Stereo → Spatial, 소리 인지 과정의 변화   애초에 사람은 실제 환경에서 소리를 3차원으로 인지합니다. 즉, 지금 옆자리 동료의 키보드 타이핑 소리가 나의 왼쪽 측면에서 나는지 뒤쪽 아래에 있는지를 구분하여 듣는 것이죠. 어려서부터 고도로 훈련된 우리 청각기관과 두뇌의 Binaural Hearing 스킬 덕분에 2개의 센서(양쪽 귀) 만으로 그것이 가능하지요. 따라서 스피커와 헤드폰으로 재생되는 모든 소리도 3차원으로 재현하는 것이 이상적입니다.     그러나 우리는 스피커, 헤드폰/이어폰, 통신 기술, 저장 기술 등 기기의 제약과 기술의 한계로 2D(스테레오) 혹은 1D(모노)로 소리를 저장, 전송, 재생하는 것에 오랜시간 길들여져 왔습니다. 강연장에서 연사가 마이크로 발표를 하는 동안 그 목소리는 천장에 달린 스피커를 통해 나오는 상황에 놓여본 적 있으시죠? 눈앞에 보이는 모습과 들려오는 소리, 즉 Visual cue와 Sound의 위치가 지극히 맞지 않는 상황에서도 우린 이상하다고 생각하지 않고 적응을 합니다. 대형 스피커로 수만 명의 관객에게 소리를 내보내는 공연장의 경험도 마찬가지입니다(무대 위 가수의 위치가 아닌, 벽에 달린 스피커에서 소리가 나는 것이 공연장의 경험이죠). 적응과 학습 역량이 뛰어난 우리 인류는 그렇게 제공된 소리도 이상하다고 생각하지 않고 살아왔습니다. 심지어 그런 소리들을 오랫동안 듣다 보니, 그게 더 좋게 들리는 학습 효과까지 덤으로 얻게 되었습니다.    일례로 일종의 공간 음향 포맷 중 하나인 Atmos Mix 음악들이 기존의 Stereo Mix보다 안 좋게 들린다는 평이 많습니다. 우리가 듣는 대부분의 음악인 스튜디오 레코딩 음원으로는 Stereo가 시장 표준으로 너무 오랜 기간 사용되었고 우리는 거기에 익숙해지게 됐죠. 다만, 과거 사례를 비추어 보면, 모노에서 스테레오로 넘어갈 때에도 많은 아티스트와 사용자의 저항감이 있었다고 하니, 언젠간 우리가 Spatial Audio Mix에 더 익숙해질 날도 올 수는 있겠지요.     공간음향의 완성에 진심인 애플, 그 결과가 Vision Pro   Vision Pro를 쓰면 스타트랙의 홀로덱과 같이 원격 회의를 하는 상대방이 마치 내 방에 같이 앉아서 대화를 하는 것 같은 경험을 제공할 수 있습니다. “Being There” 혹은 “Being Here” 경험의 끝판왕이 될 것입니다. 그리고 이를 위해 Spatial Audio 는 필수(Must-have)입니다. 내 눈앞에 있는 상대방이 정말 여기에서 얘기하는 것처럼 소리가 들려야 우리 뇌에 Place Illusion이 일어나기 때문에요. 고개를 돌리면 소리의 위치가 그에 맞게 바뀌기까지 해야 하죠. *Binaural Rendering을 기본 기술로 하는 헤드폰용 Spatial Audio가 바로 그 기능을 해줍니다.   * Binaural Rendering은 무엇이고 어떻게 쓰이냐면요… Vision Pro와 같은 Spatial Computing Device(VR, AR을 통칭하여)은 1인용 Display 기기입니다. 내 눈앞에 오직 나만을 위한 영상을 소비한다는 의미에서요. 따라서, 스피커가 아닌 헤드폰으로 소리를 재생하는 것이 필연적이죠. 헤드폰을 통해 Spatial Audio를 실현하는 원천기술이 Binaural Rendering입니다. “Binaural”은 어원 그대로 “두 개의 귀를 가진”의 의미이고, 사람은 2개의 귀(소리 수음 센서) 만으로 귓 바퀴와 우리 몸을 타고 들어오는 소리의 회절, 음영 현상 등을 이용하여 전, 후, 좌, 우, 상, 하 등 사방 팔방의 소리 방향을 인식합니다. 이 원리를 시뮬레이션해서 헤드폰을 통해 재현하여 3차원 공간에 소리를 정위하는 것이 바이노럴 렌더링이지요.    소리가 마치 이 공간에서 나는 것처럼 하기 위해서는 실제 그 자리에서 나는 소리가 우리 귀에 도착하는 경로(소리는 우리 주변의 벽, 소파, 천장 등의 사물을 만나면 일부는 흡수되고 일부는 반사되는 성질을 가지고 있습니다)를 모두 알고 그에 맞는 경로 모델링을 모두 해줘야 합니다. Vision Pro에는 이 일을 수행하기 위해 Audio Ray Tracing 기술까지 적용했다고 하죠. 엄청난 Computing 과정인데, 애플 실리콘(M2 & R1)의 승리라 할까요? 어쨌거나 그만큼 애플은 공간 음향의 완성에 진심이라는 얘기입니다.        [사진: Audio Ray Tracing - WWDC 2023, Vision Pro Keynote 중에서(영상 캡쳐)]     Thanks Apple, Welcome Vision Pro!   가우디오랩은 Works(사운드 엔지니어들이 기존의 음향 저작 환경 - e.g. Pro Tools - 위에서 VR 360 영상을 위한 Spatial Audio를 손쉽게 편집하고 마스터할 수 있는 저작 툴), Craft(Unity/Unreal 등의 게임 엔진으로 제작되는 VR 콘텐츠에 Spatial Audio를 입힐 수 있는 저작 툴), Sol(이렇게 제작된 콘텐츠를 HMD나 스마트폰 등에서 Head-tracking 정보를 더해 실시간 Spatial Audio 경험을 제공하는 바이노럴 렌더링 SDK)을 이미 2016-2017년에 순차적으로 선보이며, Spatial Computing/VR/AR을 위한 완전한 Spatial Audio 소리 경험의 끝점을 찍었습니다.     [사진: VR Audio = Gaudio 키노트 중]     2018년 이후 VR 시장에 혹한기가 오면서 많은 관련 기술 회사들이 문을 닫았습니다. 그 혼돈 속에서도 가우디오랩은 해당 기술을 기존 시장/제품에서 활용할 수 있도록 피벗하여, 아래와 같은 기술들을 선보이며 꿋꿋이 때를 기다리며 기술을 더욱 연마하였습니다.   스마트폰/2D 스크린의 (라이브) 스트리밍 환경에서 일반 헤드폰 만으로 Spatial Audio를 경험할 수 있도록 만든 BTRS(Link, Works의 후신) 이어 버즈, 헤드폰에서 일반 Stereo 신호에도 Spatial Audio 경험을 선사할 수 있도록 하는 GSA(Link, Sol의 후신)           가우디오랩 실험실에는 차량 환경을 위한 Spatial Audio, 스테레오 스피커 또는 사운드바를 위한 Spatial Audio, 극장에서의 Spatial Audio 등 ‘The Original Spatial Audio Company’(공간 음향 종주 회사)'라는 위상에 맞는 다양한 Spatial Audio 제품과 혁신 기술들이 차곡차곡 쌓이고 있습니다.   참, 곧 열리는 AES 2023 International Conference on Spatial and Immersive Audio (August 23-25, 2023, University of Huddersfield, UK))에서는 가우디오랩 실험실의 최근 연구 성과인 ‘Room Impulse Response Estimation in a Multiple Source Environment’라는 논문을 발표합니다.   애플이 사용하는 Audio Ray Tracing 과 같은 별도의 장비 대신에 공간에 이미 존재하는 여러 소리(이를테면 상대방의 목소리)로 부터 해당 공간의 음향 특성을 자동으로 인식, 추출하여 Spatial Audio에 적용하여 몰입감을 더욱 올릴 수 있는 AI 기술에 대한 내용입니다.    스마트폰, TV, 극장 등 2D 스크린 환경에서의 Spatial Audio는 맛보기편. 가우디오랩의 Spatial Audio 기술들을 맘껏 펼칠 Spatial Computing 시대의 도래가 벌써부터 설레입니다.   오래 기다렸다, Thanks Apple, Welcome Vision Pro!            

2023.07.25
after-image
ICML 논문 맛보기: A demand-driven perspective on Generative Audio AI 

ICML 논문 맛보기: A demand-driven perspective on Generative Audio AI    (Writer: Rio Oh)      안녕하세요. 저는 가우디오랩 AI 리서치 팀에서 사운드 생성 모델인 FALL-E 연구를 하고 있는 리오(Rio)입니다🙂 저는 생성 모델에 관심이 많은데요, 최근에는 생성 모델의 접근 방식을 다른 태스크에 적용해 보기 위한 연구를 하고 있습니다.   저희 팀에서는 요 근래에 DCASE를 준비하는 한편, 실제 산업에 적용되기 위해선 어떤 점을 개선해야 할까 고민해왔었습니다. 그 내용을 담아 이번 ICML 워크샵에서 발표할 예정인데요, 여러분께 그 내용을 미리 소개해 드리려 합니다!     들어가며    최근 DCASE Challenge에서 일궈낸 가우디오랩의 성과에 대해 블로그로 소개해 드린 것 기억하시나요? 그동안 가우디오랩에는 또 하나의 좋은 소식이 있었습니다. 바로 ICML 워크샵에 저희가 제출한 논문이 억셉된 것입니다. (룰루🥰)   ICML은 NeurIPS와 함께 세계 최고의 인공지능 학회로 뜨거운 주목을 받고 있습니다. 올해의 학회 기간 중 마지막 이틀 동안 주제 별로 워크샵이 진행되는데요. 최근 핫한 세부 주제를 선정해 워크샵을 진행하고, 더블 블라인드 피어 리뷰를 통과한 논문만 이 자리에 설 수 있답니다.      사운드 생성 AI, 가우디오랩이 먼저 걸어와보니   사실 텍스트, 이미지 분야와 비교하면 (음성을 제외한) 오디오 생성은 아직 이 산업의 걸음마 단계를 걷고 있다고 할 수 있습니다. 우리에게 익숙한 텍스트 분야를 넘어 이미지 분야를 보자면, DALL-E 등의 Diffusion 모델 등을 활용한 상용 및 비상용 서비스들이 나와 있고, 대중들도 쉽게 사용할 수 있도록 되어 있죠. 그러나 오디오는 기술의 성숙도, 컴퓨팅 자원의 한계 등으로 아직 공개된 서비스가 없는 상황입니다. (논문의 실험 결과 공유를 위한 데모나 모델 공유는 조금씩 이루어지고 있지만, 일반인들이 사용할 수 있는 단계의 서비스는 거의 없다고 보아도 무방한 상황이죠.)   이런 환경 하에서, 가우디오랩은 단순한 데모를 넘어 기존 사업의 패러다임을 완전히 뒤집을 만한 AI 제품을 만들 수 있기를 꿈꾸며, 현재 당면한 상황과 한계를 정리하는 과정을 거쳤습니다. 연구단계의 오디오 AI 제품들이 세상의 빛을 볼 수 있도록 업계의 소리를 직접 듣고자 하는 귀중한 시도를 했는데요. 가우디오랩은 이를 통해 (물론 연구 자체도 매우 중요합니다만 그에 함몰되지 않고) 산업 전반의 실상과 업무 프로세스를 조명하고 앞으로의 연구방향을 더 날카롭고 정확하게 수립하고자 합니다.    그리고 이를 2023의 Challenges in Deployable Generative AI라는 워크샵에서 발표합니다! (일시: Fri 28 Jul, 9 a.m. HST & Sat 29 Jul, 4 a.m. KST)     [사진 = 워크샵 포스터]     잠깐, 상단 Motivations에 언급된 가우디오랩의 FALL-E (폴리)가 뭐냐고요?    가우디오랩의 FALL-E는 텍스트나 이미지 입력에 대응되는 소리를 생성해 내는 AI 기반 Text-to-Sound Generation 기술입니다. 실제 존재하는 소리(고양이 울음소리, 천둥소리 등) 뿐만 아니라 무한한 가상 세계의 소리(호랑이 담배 피우는 소리 등)을 만들어냅니다. 소리를 재료로 콘텐츠 영역을 무한히 확장할 수 있죠. 덕분에 생성된 소리들은 콘텐츠 및 가상환경 구현 과정에서 효과음 및 배경음으로 활용될 수 있고, 몰입감 있는 경험을 제공하는 모든 환경에 필수적인 소리 기술로 자리매김하리라 기대를 한몸에 받고 있습니다.             폴리를 조금 더 알려드릴게요! 이름에서 눈치채셨나요? Foley sound의 의미를 담고 있기도 합니다.    Foley는 영화 등의 소리 후반작업에서 음향효과를 재현하는 것을 의미합니다. 밥그릇 두 개를 번갈아 땅에 부딪히며 말발굽 소리를 만들어 내는 것처럼요. 1930년대에 유래된 말로, Jack Foley의 이름을 따서 지어졌죠.    Foley는 콘텐츠 제작에 반드시 필요한 과정인데요. 녹음된 음원을 재사용하기도 어렵고, 경제성도 떨어져 지금까지도 수작업에 의존하고 있는 실정입니다.    그래서 Generative 모델로 해결하면 좋은 문제이고, 가우디오랩은 이 기술에 집중하고 있어요.         이번 연구를 통해 확인한 어려움들은 어떤 것들이 있었냐면요.   가우디오랩은 이번 논문을 준비하며 실제 영화 음향 업계에 종사하시는 분들을 대상으로 설문 조사를 진행하여 논문에 포함하기도 했습니다. 살짝 결과를 공유드리자면, 저희가 발견한 가장 큰 한계점은 1) 음질이 더욱 좋아야 한다는 것과 2) 작은 디테일까지도 컨트롤할 수 있어야 한다는 것이 있었죠. [논문 전체 보러 가기]     그래서 가우디오랩은 FALL-E를 만들며 이 문제를 어떻게 풀어냈을까요?   깨끗한 고품질 데이터가 적다는 점이 어려운 점 중 한 가지였습니다. 게다가 생성 모델에서는 아주 많은 데이터가 필요하기 때문에 문제였죠. 가우디오랩이 생각한 해결책은 깨끗한 데이터와 상대적으로 덜 깨끗한 데이터를 동시에 같이 사용하되 모델에게 condition을 주는 방법이었습니다.    생성 모델은 생성할 샘플뿐만 아니라 모델을 생성하는 데 도움이 되는 다양한 힌트(텍스트, 카테고리, 비디오 등)를 함께 학습 데이터로 활용하는데, 이 데이터가 어떤 데이터 셋에서 가져왔는지를 라벨 형태로 추가 힌트를 주는 것이죠.   이렇게 되면 모델이 소리를 생성할 때, 깨끗한 소리를 생성할지, noisy 한 소리를 생성할지 정할 수 있게 되고, 실제로 저희가 DCASE Challenge에 참여했을 때, 다양한 소리를 생성하면서 음질도 좋다는 평을 받기도 했습니다. 당시 객관 평가 지표 (FAD)로 top contender를 각 트랙 별로 4팀씩 선발한 뒤 청취 평가를 진행했는데요. 보시다시피 가우디오랩은 깨끗한 음질과 수없이 다양한 소리를 생성해낼 수 있는 다양성 분야에서 높은 점수를 기록했습니다. 모든 소리를 생성할 수 있는 모델인 FALL-E로 일부 카테고리에 한정해 심사하는 대회에 나가 몸풀기 한 것치고 꽤 좋은 성과를 냈다고 할 수 있어요.      DCASE 2023 Challenge Task 7 결과 > 여기서 더 자세히 보실 수 있어요.     FALL-E는 지금까지 공개된 모델 중 가장 음질이 좋은 모델이라 평가할 수도 있지만, 저희는 여기서 멈추지 않고 더 좋은 소리를 만드는 모델을 위해 고민하는 중이기도 합니다.     사실, FALL-E가 세상에 나오기까지 이런 진통이 있었어요!   가우디오랩이 처음 FALL-E에 대한 아이디어를 얻고 연구를 시작한 2021년 당시에는 텍스트 기반의 AI 폴리 합성 모델에 관련된 논문은 거의 없는 수준이었습니다. 게다가 영상 기반의 효과음 연구도 매우 제한된 카테고리이거나 모델 성능이 promising 해 보이진 않았죠. (물론 지금은 관련 논문도 많이 나온 상황이지만요!)   연구 측면에서 방향성을 고민하기도 했으나, AI 디렉터인 근우가 팀의 에너지를 한곳으로 이끌어주며 그동안 explore 하며 쌓인 지식과 경험들을 exploit 하면서 힘을 모아 달려갈 수 있었던 것 같습니다. 당시에는 의구심이 들기도 하고 여러 고민이 들기도 했지만, 지금 돌아보니 이렇게 계속해서 방향을 정리하고 조정하는 과정이 ‘맞는 방향'을 찾는 좋은 과정이지 않았을까? 하는 생각이 듭니다.   “저쪽이다” 하면서 같이 우당탕탕 하면서 달려갔다가, 잠깐씩 숨 고르면서 방향을 fine-tuning 하면서 달리는 것,  당면한 상황에 맞춰 유연하게 방향을 수정해 결국은 목표한 곳에 당도하는 것, 그것이 가우디오랩 AI 리서치 팀이 일하는 방식이 아닐까 싶습니다.   정신 차려보니 DCASE를 주관하고, 가볍게 참가했는데도 아주 좋은 성적을 냈고, 저는 결국 하와이에 와있습니다. 사실 하와이는 논문이 통과되지 않는 경우가 생기더라도 더 많은 시야를 보기 위해 오는 것으로 결정되었었는데, ICML 논문이 억셉되며 더욱 의미 있는 출장이 되었으니 아주 신나고 알차게 보내다 한국에 들어갈 생각입니다.   그럼 하와이에서 올리는 글을 마칩니다! 🏝        

2023.07.27