AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대

2021.02.09ㆍ by null

AirPods Max 출시와 함께 성큼 다가온 Spatial Audio 시대

2021/02/09

Hello, AirPods Max!

Apple의 첫 오버이어 헤드폰으로 시장의 주목을 한 몸에 받았던 에어팟 맥스(AirPods Max)가 한국 출시를 본격화하며 구매자들이 속속 제품을 받아보고 있다는 소식이 들리고 있습니다. Apple은 이번 에어팟 맥스 출시를 통해, 기존 에어팟 시리즈로 장악한 무선 이어폰 시장을 뛰어넘어 고성능 헤드폰 시장에서도 뜨거운 반응을 얻고 있습니다. 스마트폰과 불가분의 관계인 오디오 디바이스까지 장악하며 Apple 생태계에 소비자들을 더욱 꽉 락인(Lock-in)하고 있는 것 같네요. 이번 출시와 함께, 작년 10월 iOS 업데이트를 통해 본격적으로(어쩌면 비로소..) 사용자들의 이목을 끈 스페이셜 오디오(Spatial Audio, 공간 음향) 기술 또한 시장의 기대감을 한껏 끌어올리고 있습니다.

스페이셜 오디오(Spatial Audio), 익숙하지만 조금은 낯선 기술입니다. 스페이셜 오디오, 서라운드 사운드, 3D 사운드, 공간 음향… 많은 단어들로 면면의 장점을 맘껏 뽐내며 우리를 헷갈리게 하기도 합니다. 얼마 전 헤니가 스페이셜 오디오를 칭하는 말들에 대해 깔-끔하게 정리해 주신 적도 있었죠. 그래서 대체 스페이셜 오디오는 어떤 기술이길래 콘텐츠 제작자와 이용자 모두를 설레게 하는 걸까요? 오디오 초보 Dewey가 가우디오랩의 다정한 선생님이자 음향공학박사님 James를 조금 많이 귀찮게 한 뒤 나름대로 정리해봤습니다.

우리는 귀로도 봅니다.

잠깐. 잠시 눈을 지긋이 감고 주변의 소리에 귀를 기울여볼까요? 마치 여러 갈래의 소리가 나를 감싸고 있는듯한 느낌이 듭니다. 저는 지금 우도(가우디오의 아늑한 라운지이자 맥주가 화수분처럼 솟아나는 마법의 장소..)에 앉아서 잠시 눈을 감고 있습니다. 제 머리 앞쪽에서는 냉장고 소리가, 오른 편에서는 잔잔한 음악소리가, 왼쪽~뒤편 저 멀리서는 어느 가우딘의 작은 기침소리도 들리네요. 굳이 눈을 떠 두리번거리지 않아도, 우리는 청각을 통해 주변에서 일어나는 소리를 느끼고 그 위치를 머릿속에 대략적으로나마 그려낼 수 있습니다.

지금 제가 한 이 과정을 이어폰/헤드폰을 통해 나오는 소리로도 느낄 수 있도록 하는 소리 신호 전달 기술, 한 점을 기준으로 주변의 소리가 어디서 어떻게 나는 지를 잘 표현해서 듣는 사람이 마치 실제 그 공간 안에 있는 듯하게 만들어 주는 기술, 그것이 바로 스페이셜 오디오입니다. 덕분에 뒤통수 바로 뒤에서 펑! 하고 폭탄이 터지는 듯한 소리를 뿜어내는 영화 속 한 씬, 적막한 오케스트라 협연 공연장 안에 앉아 아주 작은 공기까지도 피부로 느낄 수 있는 실재감을 체험할 수 있게 되죠.

스페이셜 오디오, 어떤 원리를 숨기고 있는 걸까?

앞서 스페이셜 오디오는 소리라는 재료를 활용해 이어폰/헤드폰을 착용한 사용자의 귓속에 새로운 공간을 그려내고, 마치 그 공간 안에 사용자가 존재하는 것처럼 느끼게 해주는 기술이라고 말씀드렸습니다. 이 공간을 그려내려면 몇 가지 기준점이 필요한데요. 바로 나(청자이자 기준점), 나의 주변 공간, 그리고 각 소리들의 위치가 됩니다. 기준점을 중심으로 어느 방향에서 소리가 나는지를 파악해야, 오디오 기술을 통해 그 위치 그대로 사용자의 귓속에서 소리를 그려낼 수 있기 때문입니다.

고로, 스페이셜 오디오 구현의 중요한 기술은 소리의 위치를 파악(Localization)하고 바이노럴 렌더링(Binaural Rendering: 소리 신호가 두 귀로 흘러오기까지의 모든 프로세스)을 통해 양쪽 귀로 전달하는 것이 됩니다. 이 소리 산출물의 퀄리티를 좌우하는 요소 중 하나는 바로 HRTF(Head Related Transfer Function: 머리전달함수)와 BRIR(Binaural Room Impulse Response: 양이공간충격응답)인데요, HRTF는 특정 위치의 소리가 청자에게 전달 될 때의 전달 경로 및 소리가 청자의 머리와 귀의 위치에 따라 어떻게 변하는지에 대한 정보, BRIR는 최단 경로를 통해 전달되는 직접음 뿐만 아니라 공간 상에서 발생하는 반사음들이 사용자의 양쪽 귀에 어떻게 변경되어 전달되는지에 대한 정보를 필터의 형태로 나타낸 것이라고 말씀드릴 수 있습니다.

HRTF/BRIR 필터에 대해 조금 더 설명하자면…

청자의 주변을 360도의 구형으로 가정한 뒤 이 구형을 아주 세밀한 격자무늬로 쪼개서 각각의 조각으로 나눈다고 상상하면, 우리는 소리가 나는 곳의 위치를 많은 격자들 중 한 지점으로 가정해볼 수 있습니다. 어떤 음원을 이어폰/헤드폰으로 들었을 때 ‘바로 그’ 지점에서 소리가 나는 것처럼 들려주기 위해, 음원을 특정 필터에 필터링을 하게 되는데요, 이때 음원의 위치에 대한 정보를 전달하기 위해 사용되는 것이 HRTF 필터입니다. 스페이셜 오디오를 구현하는 첫 번째 과정에서는 소리를 공간 상의 특정 방향에 배치하는 것이 필수적이기 때문이죠.

그런데 HRTF는 방향에 대한 정보를 주지만, 그 공간을 모사하고 있지는 않습니다. 우리가 일상생활에서 듣는 소리에는 직접음 외에도 벽이나 주변 구조물에 부딪혀 튀어나오는 수많은 반사음들이 있습니다. 나무로 된 교실, 도톰한 커튼이 쳐져 있는 방안, 유리벽으로 둘러싸인 사무실… 각 공간의 특성마다 반사되어 나오는 소리가 달라지게 마련이죠. 이러한 공간에 대한 정보와 특성을 전달하는 것이 바로 BRIR 필터의 역할입니다. (하지만 우리 주변의 공간이란 너무나 다양하기 때문에 완벽히 해당 공간의 특성을 담는 것은 매우 어려운 일이긴 합니다.)

필터링을 통해 신호를 합성하는 과정은 청자가 실제 소리처럼 느끼게 하는 데 많은 직간접적인 역할을 하기 때문에, 이 필터는 스페이셜 오디오의 최종 품질을 좌우하는 중요한 요소라고 말씀드릴 수 있습니다.

고개를 돌릴 때마다 소리 위치가 더 생생하게 느껴져!

소리의 위치파악(Localization)이 되었다면, 우리는 공간 상에 정위된 소리와 상호작용(interactivity)을 할 수 있습니다. 에어팟 맥스, 에어팟 프로 등 스페이셜 오디오를 지원하는 TWS(True Wireless Stereo) 내부에 심어진 자이로스코프 센서(Gyroscope Sensor)가 우리의 위치 및 움직임을 파악해 주는 덕분이죠. 고개를 좌우로 돌리는 움직임에 따라 변하는 귀의 위치 및 사용자의 움직임을 TWS 속 자이로센서가 인식하고, 이미 파악해 둔 소리 재료의 위치 정보를 활용해 고개의 움직임에 맞게 실시간으로 소리를 배치해 표현해 줍니다.

네, 이것이 그 유명한 헤드 트래킹(Head Tracking)이죠. 각각의 소리 재료들이 내 움직임을 따라 실시간으로 버무려지며, 소리와 내 고개가 즉각적으로 씽크(Sync)되는 느낌을 받게 됩니다. 스페이셜 오디오를 지원하는 콘텐츠를 볼 때 내 고개의 움직임과 영상의 소리가 매우 잘 호응하며 마치 내가 그 현장에 있는 것 같은 몰입감을 선사하는 것은 바로 이 때문입니다.

아하, 그럼 스페이셜 오디오는 에어팟 맥스가 TOP?

소리가 내 귀로 들어오는 과정에 대해 James에게 자꾸 묻다 보니 뭔가 더 궁금해집니다. 대체 우리 귀는 어떻게 소리의 위치를 파악할 수 있는 것일까요? 정답은 귀의 생김새와 구조에 있습니다. 얼굴 양옆으로 빼꼼히 나와있는 귀와 제각각 다이나믹하게 생긴 귓바퀴는 우리가 소리의 상하, 전후, 좌우까지 파악할 수 있게 합니다.

어? 그런데 에어팟 프로는 커널형으로 귓속에 유닛이 쏙 들어와 있지만, 반대로 에어팟 맥스는 귀를 완전히 덮는 오버이어 헤드폰인데..? 무언가 차이가 있지 않을까요?

실제로 스페이셜 오디오는 에어팟 맥스보다는, 귓바퀴를 통과하지 않는 에어팟 프로에서 더 잘 기능하는 것 같다는 반응들도 있습니다. 에어팟 프로를 착용하게 되면(귓속으로 쏙!), 소리가 귓바퀴를 돌아 들어가며 생길 수 있는 리버브와 원치 않는 간섭 요소를 방지할 수 있기 때문이죠.

단정 지어 말하긴 어렵지만, 에어팟 맥스와 에어팟 프로를 비교해봤을 때 스페이셜 오디오 기능은 에어팟 프로에서 조금 더 잘 느껴지는 것 같다- 고 반응할 가능성이, 흔히들 말하는 음질은 오버이어 구조의 에어팟 맥스가 좀 더 좋다- 고 느낄 가능성이 더 높겠네요!

그렇지만, 내 주머니에는 둘 다 없는데..

네, 제 얘기입니다. 저는 에어팟 구형 모델을 사용하고 있기 때문에 자이로센서가 탑재된 TWS가 없습니다. 자이로센서를 탑재한 TWS가 없다면 내 위치 정보를 전송해 줄 지원군이 없기 때문에 아쉽지만 인터랙티비티는 포기해야 할 수밖에 없습니다.

사실 우리의 고개는 소리의 앞, 뒤가 불분명할 때 이를 정확히 파악해주는 역할도 담당하고 있습니다. 우리는 무의식 중에라도 들려오는 소리의 위치를 파악하기 위해 미세하더라도 고개를 돌리곤하거든요. 고개의 움직임을 통해 아주 작은 음압과 음색의 변화를 알아챌 수 있습니다. 때문에 공간 음향 구현에 자이로센서의 유무가 미치는 영향은 차원이 다를 수 밖에 없죠.

아쉽지만 에어팟 맥스, 에어팟 프로, 갤럭시 버즈 프로 등 헤드 트래킹을 지원하는 장치가 없는 경우, 제한적으로나마 스페이셜 오디오 기능을 느껴볼 수 있는 방법이 있습니다. 바로 스페이셜 업믹스(Spatial Upmix)를 장착하는 것이죠.

스페이셜 업믹스는 기존의 스테레오 사운드(2ch)를 구성하고 있는 요소들을 분석한 뒤, 가상의 공간에 각 소리 요소를 배치하여 기존에는 없던 공간감을 만들어 주는 기술입니다. 스테레오 채널에 욱여 넣어진 사운드를 다시 넓은 공간에 재배치해 주는, 말 그대로 공간 내에서 채널 자체를 업믹스(Upmix) 해주는 신호처리 기술이죠. 작년에 LG 벨벳에서도 가우디오랩의 SU를 적극 탑재하기도 했습니다. 글로만 봐서는 잘 모르시겠다고요? 아래 영상을 보면 한 번에 느끼실 수 있을 거예요.

본격 스페이셜 오디오 시대의 문, Apple이 활짝 열었다

Apple이 본격적인 스페이셜 오디오 시대를 열면서, 삼성전자, VIVO 등 세계적인 스마트폰 제조사에서도 이 흐름에 적극 편승하고 있습니다. 앞으로 출시되는 TWS를 포함한 오디오 장치들도 대부분 자이로센서를 탑재해 스페이셜 오디오를 기본적으로 지원하게 될 것으로 예상됩니다. 스마트폰과 오디오 디바이스 모두 스페이셜 오디오 시장에 발을 내디뎠으니, 이제 OTT 서비스와 스트리밍 서비스 등 콘텐츠 업계도 한 겹 더 풍성해질 일만 남았네요.

콘텐츠 헤비 유저인 제게 스페이셜 오디오는 매우 즐겁고 기대되는 흐름입니다. 이 기술을 통해 우리는 콘텐츠를 다양한 방식으로, 각자 원하는 깊이대로, 보다 높은 퀄리티로 즐길 수 있게 되었습니다. 유명 해외 아티스트의 공연을 내 방에서 즐길 수 있는 방구석 1열 콘텐츠, 중앙 VIP석과 2층 발코니석 을 맘대로 선택해서 볼 수 있는 뮤지컬 공연까지! 스페이셜 오디오가 불러올 짜릿한 콘텐츠 시장의 물결이 한껏 기대되는 요즘입니다.

‘최고의 소리를 경험한 사용자는 이전의 낡은 소리로는 돌아가지 못한다’라고들 하죠? 앞으로 콘텐츠 소비 경험 자체에 대한 사용자들의 안목과 기준도 점점 더 높아지고 구체화될 것 같습니다. 이미 오래전부터 스페이셜 오디오 기술을 갖고 있었던 가우디오랩은 누구보다 앞서 더 좋은 소리 경험을 제공하기 위해 열심히 달리고 있답니다!

Spatial Audio

요즘 핫한 Spatial Audio

요즘 핫한 Spatial Audio 12/03/2020 Spatial Audio. Apple이 입장했다. 주류시장이 될 것이다. 지난달(2020년 10월) iOS 업데이트로 iPhone과 Airpods Pro를 가진 사용자는 Spatial Audio라는 새로운 기능을 맛볼 수 있게 되었습니다. Airpods Pro를 귀에 꽂고 아이폰 화면으로 동영상을 시청하면, 그 소리가 아이폰에서 나오고 있는 것인지 귀에 착용된 이어폰에서 나오고 있는지 착각에 빠지는 신박한 체험을 할 수 있습니다. Apple 이 선보이는 많은 신기술이 그러했듯 Spatial Audio는 새로운 기술은 결코 아닙니다. 그렇지만, Apple이 입장하였기에 이제 대중화의 원년이 되지 않을까 점쳐 봅니다. Spatial Audio (공간 오디오)가 뭐길래? Spatial Audio Coding (SAC) 15년 전으로 시계를 돌려 2005년. 세계의 오디오 전문가들이 모여 각축을 벌이는 MPEG 표준화 회의에서는 Spatial Audio Coding 이라는 표준 제정이 한참입니다. 바야흐로 Spatial Audio 시대가 될테니, 이를 잘 압축하여 전송할 수 있는 표준을 만들자는 프로젝트를 완수하고 있었던 것이죠. MPEG은 우리가 아직도 일상에서 늘 사용하는 MP3, AAC (Advanced Audio Coding)와 같은 오디오 코덱을 표준화하는 단체입니다(물론 동영상 코덱도…). 그런데, 당시로선 아무래도 대중에게 낯선 이름 Spatial Audio Coding 이라는 이름 대신, 이 표준은 곧 MPEG Surround (ISO/IEC 23003-1) 라는 이름으로 개명을 합니다. (🤔질문 1: 그럼, Spatial Audio 와 Surround는 같은 뜻?) 이 표준 자체는 아직(?) 시장에서 큰 재미를 보지 못하여, 상당히 괜찮은 이 기술은 누군가의 하드디스크에서 잠자고 있을 겁니다. Spatial Audio Object Coding (SAOC) MPEG의 오디오 전문가들은 Spatial Audio Coding (SAC)의 압축 원리를 조금 더 확장하여 오디오 객체(Object)를 잘 압축하고 전송하기 위한 새로운 표준 Spatial Audio Object Coding (SAOC, ISO/IEC 23003-2)를 곧바로(2007년 무렵) 제정합니다만, 역시 13년이 지난 아직까지 시장에서 큰 재미를 보지는 못하고 있고, 역시 누군가의 하드디스크에서 잘 쉬고 있을 것입니다. Immersive Audio 그 사이 업계 전문가들은 시장에서 재미도 못보고 수그러든 Spatial Audio라는 네이밍 대신 Immersive Audio 라는 이름을 새로 꺼내듭니다. 극장 음향에서 천장에 스피커를 배치하여 소리의 방향감을 한차원 (수직차원)으로 높인 포맷을 설명하는데서 시작하여, VR, AR, XR로 대표되는 Immersive Media 시장이 급부상하면서 그에 맞는 오디오라는 의미로 활용된 듯 합니다. (Immersive를 우리말로 번역하기가 쉽지 않은데, “실감형“이라는 표현이 가장 좋겠으나 이 단어를 다른 의미로 이미 소진해버린 바람에 쓰지 못하고, “몰입형“이라고 번역하곤 하는 것 같습니다.) (🤔질문 2: 그럼, Spatial Audio와 Immersive Audio는 같은 뜻?) 3D (Three Dimensional) Audio 3차원 오디오라고 번역할 수 있겠죠. 소리가 표현하는 공간을 3차원으로 펼친 입체감을 의미하겠습니다. 1차원이란 선. 즉, 좌-우를 구분할 수 있는 스테레오로. 2차원이란 여기에 전-후를 구분할 수 있는 상태로 5.1채널 스피커를 통해 재생할 수 있는 공간으로 정의해볼 수 있습니다. 서라운드(Surround)라고 하면 2차원 공간을 의미합니다. 여기에 높이축(위-아래)을 더 한 것이 3차원입니다. 요즘 멀티채널 포맷으로 등장하는 5.1.2 채널, 7.1.4 채널이 3차원의 예입니다. MPEG-H 3D Audio (ISO/IEC 23008-3) MPEG의 그 오디오 전문가들은 시간이 흘러 2014년에 위와 같은 이름으로 표준을 만듭니다. 3D의 채널도, 객체도, 그리고 Ambisonics 라는 오디오 장면 신호도 모두 압축하고 표현할 수 있는 표준입니다. 3D라는 말이 이 표준의 정체성을 대표하는 dry한 기술용어 혹은 클래식한 용어 이기에 할말은 없습니다만, 뭔가 fancy한 느낌이 없습니다. 3D 오디오라는 말은 벌써 1960년대부터 등장했던 말이니까요… 아니나 다를까 요즘엔 그냥 MPEG-H Audio라고 표현하지 3D를 잘 안붙입니다. MPEG-H Audio는 UHDTV 방송 시대를 겨냥해 그에 맞는 오디오를 정의하기 위해 만든 표준입니다. 현재 대한민국 지상파 UHDTV 방송 표준으로 사용되고 있으며, Tidal, Amazon Echo 등에서 객체(Object) 기반의 Immersive Audio를 위한 코덱으로 사용되고 있기도 합니다. 시장의 대체제로 Dolby의 AC4 (압축방식) + ATMOS (신호포맷) 이 있습니다. MPEG-H는 포맷과 압축방식(코덱)을 포괄하는 표준입니다. Spatial Audio, Immersive Audio, 3D Audio 용어 정리 우리말로 번역하자면 공간 오디오, 몰입형 오디오, 3차원 오디오.결론부터 말씀 드리면 이 셋은 다 같은 말이라고 해야 혼동이 없습니다. 3D 오디오는 앞서 설명한대로 표현 그대로 3차원 공간을 표현하는 오디오인데, 일찍이 오디오 업계 선배들이 아직 진정한 의미의 3차원이 만들어지기도 전에, 3D Surround 뭐 이런식으로 3차원 오디오라는 용어 마케팅을 너무 일찍 사용해 버렸습니다. 그래서, 보통의 사람들에게 “3D 오디오 = 별것 아님“을 심어버린 것 같습니다. 다방커피, 믹스커피만 마시던 시절에 원래 커피는 그런거라고 생각했던 것과 비슷하달까요?다방커피와 구분하기 위해 “에스프레쏘“, “아메리카노“과 같은 다른 용어를 사용해야 하는 것과 유사하게 Spatial 이라는 말과 Immersive 라는 말을 각각 소환해 온 것 같습니다. Spatial Audio (공간 오디오)는 3D Audio 와 의미 자체가 이미 동의어입니다. 그런데, Spatial Audio Coding 이라고 명명하던 시절에 5.1 채널 혹은 Surround (둘 다 2차원)를 표현하는데 써버리고 나니 역시나 다방커피 이미지를 벗어나지 못했던 것 같습니다. Immersive 는 소리가 표현하는 공간, 차원이라는 기술적 정의 대신 그 소리를 듣는 사람의 입장에서 실체를 표현한 용어라 볼 수 있습니다. 명사형인 Immersion이 현실과 가상의 경계를 구분하기 어려운 상태를 의미하므로 Immersive Audio는 그럴 정도로 사실적인 오디오. 즉, 가상의 소리인데 우리가 주변에서 늘상 듣는 소리와 구분이 안되는 상태의 오디오라는 의미이고 가상 현실을 묘사하는 표현인 “Being There”를 실현하기 위한 오디오라고도 말할 수 있습니다. “Being There”의 Immersive를 실현하기 위해서 기술적으로는 3D 혹은 Spatial Audio 가 기본이겠죠. 다만, 여기서 한가지 더 고려할 점이 있습니다. VR이 등장하면서, 가상 세계의 3차원 공간에서 청취자(listener)인 “나”가 움직입니다. 나의 시점(perspective 혹은 head-orientation)이 Yaw-Pitch-Roll이라는 3축(3DOF; Degree-Of-Freedom)으로 변화하고, 나의 위치가 X-Y-Z의 3축으로 움직일 수 있습니다. 합쳐서 6축(6DOF)의 자유도가 있는데, 이렇게 자유롭게 활보하는 “나”의 위치와 시점에서 현실과 구분되지 않는 Immersive Audio를 제공해야합니다. 그래서, Immersive Audio는 다시 6DOF 오디오와 같은 의미를 가지게 됩니다. 청취자의 입장에서 보면 6DOF 환경에서의 3D Audio 혹은 Spatial Audio일 뿐입니다. 혹자가 Spatial Audio는 신호를 취득하는 방법을, Immersive Sound는 이 신호를 청취자에게 재현하는 과정을 의미하는 것으로 구별된다고 정의한 경우를 보았는데, 저는 이 구분에 동의하지 않습니다. VR Audio, 360 Audio 그러니까 VR Audio는 VR을 위한 오디오라는 의미이자 6DOF의 자유도를 보장하는 Immersive Audio라고 말할 수 있겠습니다. 마찬가지로 360 Audio는 360 Video (VR의 서브카테고리로 360 캠을 이용해 촬영한 영상 따위를 말하며 고개 움직임에 대응하는 3DOF의 자유도를 가진 영상 포맷)에 대응하는 오디오로서 Immersive Audio의 일종이라고 말할 수 있겠습니다. MPEG-I Immersive Audio 2014년에 MPEG-H 표준을 이미 마무리한 오디오 전문가들은 곧이어 MPEG-I 라는 프로젝트명으로 Immersive Audio 표준화에 착수하였습니다. VR, AR, XR 시대를 바라보며 6DOF 오디오를 실현하는 오디오 기술 표준인데, 그 시장이 좀 느린 관계로 본 글을 쓰는 2020년 11월 현재까지 몇 년이 흐르는 동안 아직 Exploration (아직 표준 요구사항을 확정하는 수준) 단계에 머물고 있습니다. MPEG-H 때 클래식한 3D Audio라는 용어를 소진한 덕분에 Immersive라는 단어가 살아 있었고(신의 한수?), 비로소 붙일 수 있게 된 것 같습니다. 후세에 이 이름을 너무 일찍 소진한거라는 평을 듣지는 않을런지 모르겠습니다. MPEG 표준을 기준으로 보면, Spatial Audio (2005) ➡️ 3D Audio (2014) ➡️ Immersive Audio (2022 ?) 의 순서로 표준을 만든셈이기도 하네요. 이 글의 주장에 따르면 같은 용어인데… 이름이 동의어라고 해서 같은 기술에 대한 표준인 것이냐? 앞서 각 표준을 요약한대로 그렇지 않습니다만, 순서도 개념도 뒤죽박죽이라 시장에는 다분히 혼선을 빚을 것 같습니다. 다시 Apple의 Spatial Audio 다시 Apple의 Spatial Audio 애플이 iOS 판올림을 하면서 “Immersive Audio” 기능을 추가했다고 말했다면 정리가 좀 더 수월했을텐데, “Spatial Audio”라고 말하면서 꼬인 것 같습니다. 이름짓기 명수인 애플이 Spatial Audio 라는 단어를 택한 탓인지 지금은 Spatial Audio가 동의어 3총사 중에는 가장 쿨해 보이기도 합니다. 애플이 발표한 Spatial Audio는 5.1채널 이상의 멀티채널 오디오 신호나 객체신호로 구성된 오디오 포맷을 수신한 경우 Airpods Pro에 이미 내장되어 있던 IMU (자이로센서 등 고개 움직임을 인식할 수 있는 센서)로 탐지한 사용자의 고개 움직임에 반응하여 (현재는 3DOF만 제공) 동영상 속의 가상의 소리가 마치 아이폰속 공간에서 나오고 있는 듯한 착각을 실현하고 있습니다. 동영상 감상의 몰입감을 높여준 것이죠. 이것이 발표된 WWDC 2020 에서는 “극장 사운드를 에어팟안에 가져왔다“고 그 효용 가치를 설명하였는데, 이는 시작일 뿐. Apple 생태계 안에서 Spatial Audio의 쓸모는 앞으로 쭉쭉 확대될 것이라 확신합니다. Apple이 열어젖힌 Spatial Audio 대중화 원년의 뒤를 이어 2021년에는 안드로이드계 스마트폰 주자들인 삼성, LG, Oppo, Vivo, Xiaomi, Huawei, … 모두 Spatial Audio 기능을 탑재한 제품들을 쏟아낼 것으로 감히 예상합니다. Spatial Audio (or Immersive Audio or 3D Audio)가 주전공인 회사에서 Spatial Audio 시대의 도래를 앞두고 그 용어부터 정리해보자는 뜻으로 글을 시작했는데, 쓰고보니 오히려 혼동만 가중한 것 같은 죄책감이 듭니다. 용어도 이렇게 어려운데 제품으로 가면 머리가 더 아파집니다. 가우디오랩 안에서 열심히 정리중입니다.

2020.12.04

메타버스의 진수, 오디오 기술이 가른다

메타버스의 진수, 오디오 기술이 가른다 (2021-05-10) ‘상상을 현실에서 만나는 일’, 메타버스를 중심으로 더욱 빈번해지고, 더더욱 뜨거워지는 분위기입니다. 메타버스(Metaverse)는 현실 세계를 의미하는 ‘Universe(유니버스)‘와 ‘가공, 추상’을 의미하는 ‘Meta(메타)’의 합성어로 3차원 가상세계를 뜻하죠. 이 메타버스의 주목도가 높아짐과 함께, 증강현실과(AR) 가상현실(VR) 시장에 다시금 훈풍이 불고 있다는 것에는 질문의 여지가 없습니다. 세상을 바꾸는 신기술은 대개 단 한차례의 바람으로는 결정적인 질량(Critical Mass)에까지 이르긴 어려운 것 같습니다. 2015년 즈음 거세게 불었던 가상현실 열풍 또한 그 질량을 넘지 못하고 꺼지는 듯 했었죠. 그렇지만 때를 기다리며 기술을 연마하던 몇몇 회사의 숨은 노력들과 COVID-19가 끌어온 팬데믹 상황이 더해져 세상의 관심이 차츰 높아졌나 봅니다. 넷플릭스로 영화를 보고, 페이스북으로 친구의 소식을 듣고, 배틀그라운드 세상에서 퇴근 후 한때를 즐기는 일. 모두 현재의 기술적 한계 내에서 구현해 나가는 메타버스의 일종입니다. 차츰 AI가 사람들을 단순노동으로부터 해방시킨다면, 우리는 더 많은 시간을 각자가 원하는 메타버스 세계에서, 더욱 밀도 있는 경험에 투자할 수 있겠죠. 바이노럴 큐 (Binaural Cues) <자료> Benedikt Grothe, Michael Pecka, and David McAlpine, “Mechanisms of Sound Localization in Mammals”, Physiological Reviews, Vol.90, No.3, Jul. 2010, pp.983-1012. 메타버스의 필수 오디오 기술, 바이노럴 렌더링 현실과 가상을 오가는 메타버스 세계에서, 마치 실제 같은 강력한 ‘현실감’은 단연 핵심 중에서도 핵심이 되는데요. 현실감을 불어넣는 중요한 기술의 중심에 바로 오디오 기술이 있습니다. 가상 세계와 현실의 경계를 없애기 위해서는, 시각과 더불어 인간의 소리 경험 – 즉, 실제감 넘치는 소리를 제공하기 위한 고도화된 실감 오디오 기술이 반드시 필요한 요소기 때문이죠. 이와 같은 메타버스 즉, AR과 VR을 완성하기 위한 필수 오디오 기술을 ‘바이노럴 렌더링(Binaural Rendering)’이라고 합니다. 가우디오랩 홈페이지에도 수차례 등장하는 이 단어. 뭔가 어려워 보이는 기술이지만, 조금만 관심을 가지고 보면 오히려 신기함을 안고 살펴보게 된답니다. 그래서! 메타버스 시대를 맞이해 바이노럴 렌더링이 궁금하신 분들께 소개해드리고 싶은 글을 가져와 보았습니다! 바이노럴 렌더링을 포함한 VR/AR 오디오 기술의 전반적인 구성과 동향에 대해 궁금했던 부분이 있었다면, 바로 이 글이 시원~하게 그리고 자상하게 풀어드릴 수 있을 것 같아요! 2019년 과학기술정보통신부 정보통신기획평가원의 주간기술동향 특집호에 게재했던 Sean(정현주 박사)과 Henney(오현오 박사)의 “VR/AR 오디오 기술 및 표준화 동향”입니다. 친절하고 차분하게 메타버스(당시에는 이 표현이 없었지만요-)에 필요한 오디오 기술과 그 동향을 설명해 드립니다. 아래와 같은 목차가 준비되어 있으니 요기에서 필요한 부분만 쏙! 챙겨보셔도 좋을 것 같네요! 서론 VR/AR 오디오 기술 개요 바이노럴 오디오 – 인간의 청각 특성 바이노럴 렌더링 VR/AR에서 사용자 자유도 오디오 포맷(채널, 앰비소닉스, 객체) VR/AR 오디오 제작 S/W VR/AR 오디오 표준화 동향 MPEG 3GPP VRIF 결론 및 시사점

2021.05.10