가우디오랩은 왜 홈페이지를 리뉴얼했을까요?

2023.05.18 ・ by Eddie Koh

무브, 무브! (Move, move!)

2022년 3월, 가우디오랩은 테헤란로의 ‘싹타워’에 새 둥지를 틀었습니다. 덕분에 넓은 통창으로 경치를 바라보며 쉴 수 있는 라운지 ‘우도’와, 공간음향을 직접 체험할 수 있는 소리 실험실 ‘비자림’을 얻게 되었죠. 이사를 끝내고 진행한 오픈하우스 행사에서도 가장 인기 있던 곳 역시 우도와 비자림이었습니다. (싹타워 1주년 기념 영상에서 우도와 비자림을 구경해보세요! [링크]) 그러다 문득 비자림에서 데모를 시연하던 가우딘들은 이런 생각이 들었습니다.

🤔💭 “오프라인으로 직접 방문하지 않아도 우리 기술을 체험할 방법은 없을까?”

가우디오랩에게도 온라인으로 고객들을 가장 가깝게 만날 수 있는 공간이 있습니다. 바로 여러분이 보고 계시는 이 홈페이지입니다. 하지만 7년이라는 긴 시간 동안 Scale-up과 함께 기술과 상품의 가짓수가 늘어나면서 홈페이지는 점점 무거워졌고, 그 안에 숨겨진 코드는 더욱 복잡해졌어요. 어쩌면 ‘서울특별시 강남구 테헤란로 505, 싹타워 2층’으로의 이사를 성공적으로 마친 다음 스텝으로 온라인에서의 이사는 필연적이었을지도 모릅니다. 그렇게 가우디오랩의 기술을 많은 사람에게 알려주고 싶었던 마케팅팀은 메인 OKR을 ‘홈페이지 리뉴얼’로 설정하고 나아가기 시작했습니다.

익숙함을 벗어던질 용기

기존 홈페이지는 콘텐츠 관리 툴인 ‘워드프레스(Wordpress)’를 활용했었습니다. 필요에 따라 플러그인을 구해서 갖다 붙이기만 하면 SEO(검색 엔진 최적화)에 친화적인 사이트가 뚝딱 만들어졌기 때문에, 큰 노력과 비용을 들이지 않아도 내용을 추가하거나 수정할 수 있었죠. 문제는 워드프레스가 텍스트(또는 이미지)를 중점적으로 보여주는 툴이었기에, 방문객들에게 효과적으로 오디오 경험을 제공하는 건 거의 불가능에 가까웠습니다. 더욱이 오래 사용하다 보면 플러그인이 꼬이거나 보안에 취약해지는 문제도 있었죠.

이외에도 기존 홈페이지에서 해결해야 할 문제들을 크게 네 가지로 묶을 수 있었습니다.

버전이 다른 워드프레스 플러그인 간의 충돌로 인한 잦은 오류 발생
미디어 재생이 어려운 텍스트 중심의 홈페이지 구조 및 플로우
체험형 홈페이지 제작을 위한 내부 미디어 소스 부재
블로그 콘텐츠의 낮은 접근성

그래서 가우디오랩은 워드프레스 플러그인으로 가득 찬 기존 홈페이지를 과감하게 버리기로 결정하고, 홈페이지 방문객이 직접 기술을 체험하며 훌륭한 소리 경험을 할 수 있는 웹페이지를 만들기로 했습니다. 0에서부터요!

'딱' 맞는 홈페이지를 위한 8개월 간의 여정

백문이 불여일청(聽)

홈페이지를 구축하기 이전에, 가우디오랩의 기술을 선보일 수 있는 ‘좋은 소리’로 만들어진 미디어 소스가 필요했습니다. 마침 마케팅팀은 홈페이지와 함께 브랜드 필름 프로젝트도 진행하고 있었는데요, 음원 분리 기술(Source Separation)과 공간음향 기술(Spatial Audio)의 적용 여부에 따라 브랜드 필름에서 흘러나오는 재즈가 색다르게 느껴지도록 사운드 믹싱 작업을 진행했었습니다.

하지만 좋은 소리를 한 번에 알아채는 것은 ‘골든 이어’에게도 쉬운 일이 아닙니다. 그래서 화면 주사율을 120Hz에서 60Hz로 줄이면 역체감을 강하게 느낄 수 있듯, ‘좋은 소리’를 더욱 제대로 느낄 수 있도록 ‘안 좋은 소리’와 비교할 수 있는 자연스러운 유도 과정이 필요했어요. 홈페이지 화면을 아래로 스크롤 할 때마다 ‘좋은 소리’가 공간음향 효과가 빠지고 노이즈(소음)가 포함된 ‘불편한 소리’로 바뀌면서, 역체감을 통해 소리의 중요성을 몸소 체험할 수 있도록 설계했습니다.

가우디오랩의 ‘Source Separation’과 ‘Spatial Audio’, 그리고 ‘Loudness & Sound Quality’ 기술을 직접 체험할 수 있도록 데모를 만들어두기도 했습니다. 어쩌면 홈페이지를 제작하면서 가장 공을 들인 부분이라고도 할 수 있어요. 직접 악기를 켜고 끄면서 자연스럽게 음원 분리 기술의 효과를 체험하고, 머리 방향을 바꿔가며 공간 음향 유무의 차이를 실감하고, 음량 차이를 줄이는 것만으로도 얼마나 귀가 편해질 수 있는지를 확인할 수 있습니다.

홈페이지를 처음 방문한 고객들에게 브랜드 필름이 ‘와우’ 모멘트였다면, 그 뒤로 등장하는 기술별 on/off 데모와 소개 페이지들은 ‘아하’ 모멘트라고 할 수 있습니다. 왜 이 기술이 중요한지, 어느 곳에 적용될 수 있고 어떤 고객이 이미 사용하고 있는지 자세하게 적어둠으로써 기술에 대한 이해가 높아질 수 있도록 설계했죠. ‘Experience’ 메뉴에서 차이를 몸소 느껴보고 궁금증을 유발한 다음, ‘Technology'와 'Tools’ 페이지에서 궁금증을 해결해 주는 다양한 자료와 설명을 제공하는 플로우인 셈입니다.

브랜딩의 시작은 통일된 비주얼로부터

기존 홈페이지는 메인 비주얼 요소로 블루와 그린이 섞인 밝은 톤의 그라데이션을 사용했었는데요, 가우디오랩은 2023년 행동강령인 <Simple, Focus, Fast>에 맞게 몇 년 전 조용히 자취를 감췄던 블루 컬러를 화려하게 복귀시키기로 합니다. 키 컬러뿐만 아니라 얼마 전 리뉴얼된 로고와 함께 어울리는 배경색과 폰트까지 하나하나 심혈을 기울여 리브랜딩을 진행하기로 했어요.

‘고민을 제거하고 단순화시키는 가우딘의 빠른 의사결정’을 상징하는 가우디오랩의 키 컬러는, 오디오 덕후라면 모를 수가 없는 매킨토시 앰프의 레벨미터 ‘블루 아이즈(Blue Eyes)’와도 비슷한 색을 띠고 있습니다. 게다가 비행기 활주로의 유도등에서도 힌트를 얻었다고 하니 가우디오랩의 2023년 OKR인 <무한활주로 (Infinite Runway Again)>와도 연결고리가 있다고 볼 수 있겠네요! 몰입감을 상징하는 블랙(#121212)과 “좋은 소리로 만든 좋은 세상의 하늘”을 상징하는 블루(#02b9ff), 그리고 이 둘을 서포트해 주는 화이트(#ffffff)로 컬러 팔레트를 정리하고 나니 리뉴얼된 홈페이지가 조금씩 모습을 드러내기 시작했습니다.

대체 불가능한 오디오 인재들의 집합소

가우디오랩에는 음향공학 박사 9명, 석사 5명을 비롯한 오디오 전문가들이 근무하고 있습니다. 그만큼 가우딘이 보유하고 있는 오디오 인사이트 역시 타의 추종을 불허하죠. 누구나 일상생활에서 접할 수 있는 재미있는 오디오 이야기부터 논문 단계에서 접할 수 있는 전문가다운 음향공학 이야기까지, 어디서도 만나볼 수 없는 양질의 블로그 포스트 역시 홈페이지의 중요한 리소스입니다. 그래서 기존 홈페이지에서는 여러 페이지를 거쳐 접속할 수 있었던 ‘Blog’ 페이지를 바깥쪽으로 꺼내어 접근성을 높이고, 해시태그와 버튼 링크 등을 활용하여 관련 기술에 대한 페이지로 다시 이어질 수 있도록 여러 장치를 넣어두었습니다.

또한 ‘좋은 소리를 만드는' 가우딘들이 어떤 방식으로 일하는지, ‘가우디다움’은 무엇이고 어떤 문화를 가지고 있는지를 ‘Who We Are’과 ‘Careers’ 페이지에 담았어요. 그리고 저희와 함께하고자 하는 분들의 이야기를 귀담아듣고자 홈페이지 플로우의 마지막 스텝으로 ‘Contact Us’ 페이지를 두게 되었습니다.

“Homepage 4.0” 프로젝트를 마치며

홈페이지도 어떻게 보면 가상 세계의 집(Home), 즉 건축물인 셈입니다. 설계 단계부터 시작해서 하나하나 신경 쓰며 구현해 내고, 예상치 못한 곳에서 튀어나오는 이슈에 대응하느라 진땀을 빼기도 했죠. 하지만 건물이 완공되고 나서 시간이 지나면 수리가 필요하듯, 오랜 시간에 걸쳐 완성된 가우디오랩의 홈페이지에도 여전히 개선할 부분은 존재합니다. 앞으로 더욱 발전할 가우디오랩의 기술을 설명해 줄 페이지나 SEO(검색엔진 최적화) 설정 등이 Backlog로 남아있죠.

그래도 '혁신적인 기술로 사람들에게 훌륭한 소리 경험을 제공한다'는 가우디오랩의 미션은 변하지 않습니다. 홈페이지 곳곳에 담은 체험 요소와 기술 소개, 그리고 가우딘의 오디오 인사이트가 이를 뒷받침해 주죠. 저희 홈페이지를 방문해 주시는 분들이 더욱 쉽고 편하게 가우디오랩의 기술과 역량을 이해하고 접할 수 있으면 좋겠습니다. 우리가 만든 좋은 소리가 많은 분께 알려지면, 그 좋은 소리는 다시 모여 가우디오랩을 만드니까요!

(Written by Eddie Koh)

Culture

가우디오랩의 여덟 번째 생일을 축하해주세요!

가우디오랩의 여덟 번째 생일을 축하해주세요! 가우디오랩이 창립 8주년을 맞이했습니다! 여덟 번째 생일을 축하하고 8년 동안 헌신과 사랑으로 가우디오랩을 키워준 가우딘들의 노고에 보답하고자 HR팀과 OPS팀이 힘을 모아 소소한 기념행사를 준비해보았는데요. 오늘은 그 현장을 소개해드리려고 해요. 이벤트 준비 중인 Carol과 Heidi 내가 만든 쿠키 🎵 파티에 맛있는 음식이 빠질 순 없겠죠? (찡긋) 버터향이 솔솔 나는 쿠키를 준비해 보았습니다. 각 쿠키 상자에는 가우딘 한 명 한 명을 위한 “스페셜 가우딘 카드”를 제작해 하나씩 꽂아 드렸는데요. 앞면에는 가우딘의 얼굴과 자기소개 한 마디!, 뒷면에는 2023년 새해다짐이 적혀있어요. 잊고 있었던 각자의 올해 목표를 함께 다시금 상기하고, 응원해드릴 수 있었죠! 2023년도 벌써 5개월이 지나갔는데, 여러분들은 연초에 세웠던 목표에 잘 도달하고 계신가요? (저는 아직 가야 할 길이 멀었더라구요🤦🏼‍♀️) 쿠키 상자 속 “8”을 찾아보아요! ⚠️ 유사품에 주의하세요! (ex. 88, 8audio ...등) 재미를 위해 깜짝 럭키박스 이벤트도 진행되었답니다~ 숫자 “8” 스티커가 붙여있는 쿠키상자를 뽑은 가우딘에게는 선물이 기다리고 있었다지요! 거의 모든 상자가 열릴 때까지도 당첨자가 나오지 않아, 많은 분들이 스티커를 어디에 숨겨놨냐며 의문을 제기하셨죠 ㅎㅎ 유사품에 당첨되어 잠깐이나마 기대했다가 실망하는 ‘웃픈’ 모습도 보였어요. 한참이 지난 후, 그 행운의 주인공이 나타났는데요! 바로바로...! 우리의 인턴 가우딘 Eddie입니다! 깜짝 선물은 무려 최신 무선 이어폰! 선물은 모두의 부러움 속에서 Eddie에게 전달되었답니다~ 당첨 축하해요! 🎉 넘치는 기쁨에 입틀막 해버린 Edddie 👍🏻 올해 집중하고 싶은 가우디다움 중 하나는? 또 하나의 이벤트로, 올해 집중하여 실천하고 싶은 PIETICC 중 하나를 선택하는 시간을 가졌어요. PIETICC은 가우디오랩의 일하는 방식이자 ‘가우디다움’이라 규정된 지향점이에요. (PIETICC이 궁금하다면?) 각자가 선택한 PIETICC 항목 스티커를 가우딘 카드에 붙여 올레길에 쪼르륵 걸어두었지요. 연말 이벤트 때 다시 카드를 돌려드릴 예정인데요, 과연 다들 얼마나 더 성장해 있을지 기대가 됩니다! 올레길에 걸린 PIETICC 포스터와 가우딘 카드 소소하게 시간을 내어 준비해 본 이벤트였는데요, 모든 구성원들이 모여 동료들에게 고마움을 전하는 소중한 시간이 되었습니다. 그 현장 모습을 조금 더 공개합니다!! 어때요? 저랑 좀 닮았나요? ^.^ 숫자 ‘8’을 눕히면 무한대를 뜻하는 인피니티 ∞ 모양이 되는데요, 마침 2023 가우디오랩의 OKR이 ‘무한활주로’였다죠? 비행기가 이착륙하기 위해서는 활주로가 꼭 필요한것처럼, 가우디오랩도 더 큰 목표를 향해 날아갈 수 있는 무한한 추진력을 만들어보자는 의미랍니다. 훌륭한 소리 경험이 모두에게 전달되는 그날을 기대하며, 가우디오랩의 앞날을 응원해주세요!

2023.05.17

사운드 생성 AI 올림픽 DCASE 2023, 역시 가우디오랩이 주도했습니다.

DCASE 소개 DCASE, 세계 유수의 기관이 참여하는 음향 분야의 국제적인 데이터 챌린지 가우디오랩이 세계 최초의 AI 사운드 생성 챌린지인 DCASE(Detection and Classification of Acoustic Scenes and Events의 약자) Challenge의 폴리 사운드 합성(Foley Sound Synthesis) 분야를 리드함은 물론, 가벼운 마음으로 출전했음에도 2위를 차지했습니다. 2013년에 시작되어 올해 9회 차를 맞이한 DCASE는 사운드 AI 분야에서 ‘올림픽’에 견줄 수 있을 정도의 권위를 가진 대회입니다. 생성 AI 시대를 맞이하여 사운드 생성 종목이 처음 추가된 이번 대회에는 가우디오랩 외에도 구글, 소니, 노키아, 히타치 등 세계적인 기업들 뿐만 아니라, 서울대학교, 카이스트, 카네기 멜론 대학교, 도쿄대 등 세계 명문 대학에서 두루 참가하며 사운드 AI 분야의 첨단을 다투는 장이 되었습니다. 전체 7개 프로젝트에 123팀이 지원하여 총 428개의 결과물이 제출되었다고 하니 그 치열한 경쟁이 느껴지시나요? 세계 최초의 AI 사운드 생성 챌린지: Foley Sound Synthesis Challenge 특히 생성 AI에 해당하는 ‘폴리 사운드 합성’ 과제는 올해 처음 등장해 더욱 뜨거운 관심을 받았습니다. 구체적으로는 AI 기술과 데이터를 활용해 특정 범주(자동차, 재채기 등)의 소리를 생성하는 것을 겨루는 과제였는데요. 사실 가우디오랩은 해당 분야의 오랜 경험을 바탕으로 과제를 리드하는 주관사이기도 하면서, 가벼운 마음으로 참가해 2위를 거머쥐는 쾌거까지 이루었습니다. 특히 상용화 관점에서 가장 중요한 조건으로 볼 수 있는 ‘소리의 다양성’ 평가에서는 타 도전자들을 압도하는 점수를 받기도 했습니다. [그림 1] DCASE 2023 Foley Sound Synthesis 과제 개요와 주관사 명단(Organizers) 수상 소감 이름만 들어도 알 법한 대기업과 세계의 명문 대학들 사이에서 한국의 작은 스타트업인 가우디오랩이 대회를 주관하고 포디움에까지 우뚝 설 수 있었던 배경이 궁금하실텐데요. 여기에는 일찍이 생성 AI 연구 개발을 시작한 가우디오랩의 선견지명은 물론, 보이지 않는 곳에서 묵묵히 길을 걸어온 AI 연구원들의 노력이 있었습니다. 이제 자랑은 충분히 한 것 같으니 영광의 주인공들에게 소감을 들어보겠습니다. [그림 2] DCASE 순위 발표 화면, ‘Chon_Gaudio’가 가우디오랩이 제출한 결과물입니다. DCASE는 가우디오에게 어떤 의미인가요? Ben Chon : 가우디오랩은 ChatGPT가 화제가 되기 한참 전인 2021년부터 세상 모든 소리를 만들어내겠다는 담대한 목표를 가지고 사운드 생성 AI 를 연구 개발하고 있었습니다 ([그림 4] 참조). 오랜 연구 끝에 2022년 6월에는 이번 DCASE 챌린지와 같은 개념의 Category-to-Sound 생성에 성공하였고, 이후에는 실험실을 벗어난 상용화 수준에 도달하기 위해 보다 도전적인 목표인 (임의의) Text-to-Sound 와 (임의의) Image-to-Sound 연구에 전념하며 이미 큰 진전을 보이고 있습니다. 최종적으로는 Video-to-Sound 생성 모델을 통해 어떠한 형태의 입력이더라도 그에 꼭 맞는 소리를 생성하여 소리가 필요한 어디에나(Where sound is) - 즉, 영화, 게임과 같은 기존 미디어 뿐만 아니라 메타버스와 같은 차세대 미디어에서도 - 필수적으로 필요한 솔루션이 될 것을 기대하고 있습니다. [그림 3] Sound AI의 진화 단계, 가우디오는 3단계를 넘고 있습니다. 세상의 모든 소리를 AI가 생성해내는 것을 목표로 하는 가우디오랩의 AI에 비교하면, DCASE에서 요구하는 Category-to-Sound 모델은 몇 개의 카테고리만으로 생성 범주를 한정하고 있기 때문에, 가우디오랩의 기술이 활약하기에는 너무 작은 운동장이기도 했습니다. 이번 대회에는 30개가 넘는 기술이 제출되었는데요. 그동안 가우디오랩 홀로 이 분야를 개척하고 있는 것은 아닌가 하는 외로움도 있었는데, 대회 주관을 통해 이 분야 연구를 활성화하고, 그 안에서 우리 기술의 세계적 위상도 확인할 수 있어 뜻깊었습니다. 상용화를 위해 앞서가고 있는 만큼 다른 참가자들의 연구 성과들도 잘 참고하여 앞으로 이 시장을 지속적으로 리드해 나가고자 합니다. [그림 4] 가우디오의 소리 생성 AI 프로젝트인 SSG(Sound Studio Gaudio)의 킥오프 회의 당시 자료 표지, 전설의 시작이네요 DCASE를 준비하며 가장 어려웠던 점은 무엇인가요? Keunwoo Choi : 가우디오랩이 이 분야를 주관하는 주관사였던 만큼, 국제적인 대회의 Organizer와 가우디오랩의 Research Director 역할 사이에서 끊임없는 줄타기를 해야 했던 것이 가장 어려웠습니다. Foley Sound Synthesis는 DCASE에서는 처음으로 출제된 과제였기 때문에 오거나이저로서 좋은 선례를 남길 수 있도록 공정하고 학술적으로 의미 있는 대회를 만들기 위해 노력했습니다. 동시에 가우디오랩의 리서치 디렉터로서는 제한된 연산 자원을 공유하면서 팀 전체의 연구 계획을 수립/실행해야 했는데, 이 일이 마치 어려운 퍼즐 게임처럼 느껴졌습니다. 인적, 물적 자원을 효과적으로 할당하기 위해 표를 그려가며 사람과 GPU의 업무량을 최적화하기도 했죠. 그래도 대회를 잘 마무리한 지금은 모두 좋은 경험이 된 것 같습니다. Rio Oh : 모든 과정이 쉽지 않았지만 특히 LM(language model) 기반 모델을 같이 학습하는 과정에서 많이 애를 먹었습니다. 들이는 노력에 비해 결과가 잘 나오지 않아 힘들었던 기억이 있네요. DCASE를 준비하며 가장 기억에 남는 순간은 언제였나요? Manuel Kang : AI가 처음으로 사실적인 동물 울음소리를 만들어 냈던 순간(2022년 6월!)이 가장 기억에 남습니다. 아무 소리도 나지 않던 초기 모델이 점점 발전해서 여기까지 왔다는 것이 매우 뿌듯하게 느껴졌던 순간이었습니다. Monica Lee : 맞아요. 처음으로 제대로된 동물 소리가 났을 때가 저도 잊혀지지 않아요. 그렇게 생성된 강아지 소리를 집에서 틀어보니 집에서 키우는 강아지 사빈(Sabine)이가 와서 짖으면서 어리둥절해하더라구요. 강아지 튜링 테스트는 무난히 통과한 것 같네요~ (ㅎㅎ) Rio Oh : 준비 과정에서 생성 모델에 여러 업데이트가 있었는데요, 오작동 하지 않고 의도한대로 작동해주었을 때마다 기분이 좋았습니다. 그 중에서도 백그라운드 노이즈나 녹음 환경등을 원하는대로 컨트롤 할 수 있게 되었을 때가 가장 기억에 남습니다. Devin Moon : 프롬프트 엔지니어링을 거치며 섬세한 뉘앙스를 잘 반영한 소리를 만들어낼 수 있게 최적화를 수행한 경험도 재미있었습니다. 잔향이 있는 공간에서 삐걱대는 나무 바닥 위를 빠르게 뛰어가는 소리를 만들었는데, 실제와 구분하기 힘들 정도의 소리가 생성되었던 순간이 아직도 기억에 남습니다. 가우디오랩의 생성 AI가 특별한 점이 있다면 무엇인가요? Ben Chon : 가장 중요한 포인트는 가우디오랩 AI가 과제의 범위였던 Catergory-to-Sound를 뛰어넘어, Text-to-Sound, 그리고 Image-to-Sound 까지 포함하는, 사실상 세상의 모든 소리를 만들어낼 수 있는 모델이라는 점입니다. 쉽게 말해, 보다 다양한 소리를 만들어낼 수 있는 모델이지만 대회에서의 경쟁을 위해 핸디캡(일부 범주의 소리만 한정하는)이 적용되었다고 볼 수도 있을 것 같네요. 마라톤도 뛸 수 있는 선수가 100미터 경기에 출전한 것이랄까요? 실제로 현재의 가우디오랩 AI는 각종 동물의 울음소리 뿐만 아니라, 수백 종의 동물들이 서식하는 아프리카 초원의 앰비언스까지 여러분이 상상하실 수 있는 거의 모든 소리를 생성할 수 있습니다. 또한, 잡음 없는 단일 객체의 소리도 깔끔하게 뽑아낼 수 있기 때문에 실제 영화, 게임과 같은 콘텐츠 제작 과정에 바로 활용될 수 있도록 소리를 제공하는 것도 장점이라고 할 수 있습니다. Keunwoo Choi : 이렇게 성능 좋고 다재다능한 모델을 개발하기 위해 초기부터 AI 개발에서 가장 중요하다고 할 수 있는 데이터 수집에 누구보다도 많은 공을 들였습니다. 세상에 존재하는 온갖 데이터를 힘껏 긁어 모으고, 부족한 정보는 ChatGPT와 같은 AI의 도움을 받아 채워 넣으며 최상의 데이터를 최대한으로 모으고자 노력했습니다. 이러한 데이터 확보 노력 중 하나로 국내 정상급 영화 사운드 스튜디오 '웨이브랩'을 인수해 초고품질의 데이터를 수급하기도 했습니다. 또한, 음악이나 음성에 특화된 AI 모델과 구조를 벗어나 다양한 소리(오디오 신호)를 구현하는데 적합한 형태로 생성 모델이 구현된 것도 가우디오랩 AI의 특징이라고 할 수 있을 것 같습니다. 팀원들을 대신해 수상 소감 한 말씀 부탁드립니다. Ben Chon: 가우디오랩은 DCASE 과제의 범위 안에서만 머무르지 않고 나아가 더욱 포괄적인 의미에서 모든 소리를 만들 수 있는 Text-to-Sound 모델을 개발하였습니다. 여기서 생성된 소리가, 일부 한정된 범위 내에서만 소리를 생성하도록 세팅된 DCASE에서도 인정받았다는 것은, 가우디오랩의 AI 개발 역량이 얼마나 성숙했는지를 보여주는 좋은 예시라고 생각합니다. 그만큼 ‘만능’에 가까워졌다는 이야기니까요. 또한, DCASE에서 다루지 않은 다른 카테고리의 소리들도 세계 최고 수준의 품질임을 간접적으로 증명하였으니, 저희도 앞으로의 연구에 더욱 자신감을 가지고 임할 수 있는 계기가 될 것으로 생각합니다. 저희 팀원들이지만 정말 대단한 일을 해냈다고 생각합니다. 가우디오랩 연구원 분들 모두 고생하셨습니다! Keunwoo Choi : 허허벌판 같던 생성형 오디오 AI 분야를 미리 점찍고 연구개발을 지속해온 결실을 이제야 얻기 시작한것 같아 매우 기쁩니다. DCASE에서 생성형 오디오 챌린지는 처음이라 문제 정의가 간단한 편이었는데, 저희의 시스템은 이미 그보다 훨씬 복잡한 텍스트 프롬프트에도 잘 작동합니다. 무한한 가능성을 가진 이 기술을 더 발전시키고 제품화해서 오디오 업계에 평지풍파를 일으켰으면 합니다. 앞으로의 포부, 혹은 비전을 알려주세요. Ben Chon : 가우디오랩 생성 AI가 빛을 발하기 위해서는 학계에서의 영향력 뿐만 아니라, 실제 산업에서의 적용 케이스를 확보하는 것이 중요하다고 생각합니다. DCASE를 거치면서 가우디오랩 생성 AI는 Text-to-Sound를 넘어 Image-to-Sound에 대응할 수 있을 만큼 발전하였고, 이제는 Video-to-Sound 로의 영역 확장까지 계획중입니다. 기술이 발전하는 놀라운 속도에 발맞춰 이제는 실제 산업 분야에의 적용을 염두에 두고 사람들의 삶에 실질적인 영향을 줄 수 있는 기술로 발전할 차례라고 생각합니다. 실제로 이러한 노력들이 이미 결실을 맺어 영화 제작이나 메타버스와 같은 미래 산업 분야의 기업들과 이미 활발한 논의가 진행중이기도 합니다. 가우디오랩이 전세계 사운드의 중심이 되는 미래를 위해 기술 발전과 사업화에서 모두 성과를 낼 수 있도록 힘써보고 싶습니다. 앞으로도 가우디오랩 AI 기술에 많은 관심 부탁드리겠습니다! 마무리 누구도 가지 않은 길에 앞장서며, 스텔스 모드로 묵묵히 쌓아가던 가우디오랩 연구원들의 노력을, 이제 글로벌 무대에 당당히 선보일 수 있게 되었다는 소식을 전해드릴 수 있게 되어 정말 기쁩니다. “세상의 모든 소리는 가우디오랩으로부터”를 실현하는 그 날까지, 가우디오랩 AI 기술에 앞으로도 많은 관심과 응원 부탁드립니다.

2023.06.12