뒤로가기back

공간음향의 퀄리티를 높여주는 Motion-to-sound 레이턴시 측정(Motion to Sound Latency Measurement)

2023.04.07 by James Seo

공간음향의 퀄리티를 높여주는 Motion-to-sound 레이턴시 측정(Motion to Sound Latency Measurement)

(Writer: James Seo)

 

[Introduction: 들어가며]

 

Spatial Audio(공간 음향)는 사용자가 헤드폰이나 이어폰을 통해 듣는 소리를 사용자의 위치와 방향에 맞게 재현하여, 소리가 실제와 똑같은 듯 자연스러운 착각을 주는 오디오 렌더링 기술입니다. Spatial Audio의 품질과 성능에는 공간과 방향의 특성을 렌더링하는 음질 뿐만 아니라 사용자의 움직임으로부터 렌더링되어 소리가 재생되는 데에 소요되는 시간(motion-to-sound latency) 역시 큰 영향을 끼치게 됩니다.

 

-Motion-to-sound latency가 너무 길게 되면, 시각을 비롯한 현실의 자극체계와 청각 경험의 불일치로 인해 사용자는 몰입감을 잃게 될 뿐만 아니라 심한 경우 멀미가 발생하기도 합니다. 이것은 VR 기기를 사용하였을 때, 시각에서 발생하는 멀미 현상의 원인인, motion-to-photon latency와 동일한 개념입니다.

 

Spatial audio에 대한 고객 경험을 평가하는 데에는 이러한 motion-to-sound latency의 측정이 필수적인데, 이 측정은 단순한 작업은 아닙니다. 전체적인 motion-to-sound latency는 Figure 1과 같이 나누어서 생각해 볼 수 있습니다. (1) 사용자의 motion을 인지하는 motion-to-sensor latency, (2) sensor가 인지한 움직임이 오디오 프로세서로 전달되는 sensor-to-processor latency, (3) processor에서 rendering 과정에서 발생되는rendering latency, (4) rendering 된 신호가 Bluetooth 등의 통신 경로를 통해 전달되는 과정에서 발생하는 communication latency등이 있는데, 이를 독립적으로 측정하는 것은 쉽지 않고, 특히 시중에 판매되고 있는 완제품의 경우 내부 모듈을 Breakdown하여 측정하는 것은 불가능하다는 문제점이 있습니다.

 

이 글에서는 motion-to-sound latency를 좀 더 정확하게 측정하기 위한 방법을 설명합니다. 어렵지 않은 내용이니 천천히 따라오시면 잘 이해하실 수 있으리라 생각합니다.

 

Figure 1 Breakdown of Motion-to-Sound Latency

 

[Measurement Hypothesis: Binaural Rendering & Crosstalk Cancellation]

 

앞서 말씀드린 것과 같이 Spatial Audio 는 어떤 공간안에 존재하는 음원을 해당 음원과 청취자의 상대적인 위치에 맞게 렌더링 하는 Binaural Rendering 기술을 활용하고 있습니다. 즉, 음원의 위치 뿐만 아니라 음원이 존재하고 있는 공간의 느낌까지도 함께 재현하기 위한 기술이죠.

 

일반적으로 Binaural Rendering 을 수행하기 위해서는 BRIRs(Binaural Room Impulse Responses), HRIRs(Head-Related Impulse Responses)과 같은 Binaural Filter를 사용합니다.

 

Figure 2 HRIR(좌) vs. BRIR(우)
(좌) 청취룸 특성 없는 음원과 청취자와의 관계 / (우) 청취룸 특성을 고려한 음원과 청취자와의 관계

 

Binaural Filter의 기본 개념은 특정 ‘위치’에 있는 음원으로부터 발생한 소리가 좌/우 측 귀에 들어오는 소리의 특성 변화를 정의하는 필터입니다. 따라서, 이 Binaural Filter는 거리, 수평각, 수직각에 대한 함수로 정의할 수 있죠. Binaural 필터를 정의함에 있어서 반사음 성분들에 의한 공간적 특성을 반영하였는지(BRIR) 아니면 음원과 사용자(의 양 귀)와의 관계만을 표현한 것인지(HRIR)에 따라서 달라지게 됩니다.  BRIR의 경우 공간에서 발생하는 직접음 및 반사음까지 모두 Binaural Filter의 형태로 나타낸 것이고, HRIR은 반사음은 제외하고 직접음만을 고려한 Binaural Filter입니다. 당연히 BRIR 이 HRIR 보다 훨씬 긴 응답 길이를 갖고 있습니다.

 

일반적으로 Spatial audio는 HRIR보다는 BRIR을 사용하고 있어 본 글에서는 BRIR을 기준으로 설명 드립니다.

 

(a)

(b)

Figure 3 An Example of Impulse Responses of (a) HRIR and (b) BRIR

 

우선 두 개의 가상 음원 위치를 정할 필요가 있는데요. 이 때는 median plane(정중면; 좌우균등하게 나누는 면을 의미; 본 맥락에서는 사용자를 중심으로 좌우를 나누는 평면을 의미)을 기준으로 각각 다른 편에 속해 있는 두 개의 지점을 택하는 게 더 좋겠습니다. 이유는 이 측정 방법은 crosstalk cancellation 현상을 이용하여 측정하는 방법이기 때문입니다.

(앗, Crosstalk cancellation 현상이 무엇이냐고요? 이 글을 끝까지 읽다보면 자연스레 알 수 있답니다!)

 

Figure 4 An example of virtual speakers positions for M2S measurement

 

Figure 4처럼 median plane을 중심으로 서로 다른 편에 있는 두 개의 가상 음원의 위치가 결정되면, 각 음원으로부터 양쪽 귀까지의 전달함수, 즉 BRIR 을 두 세트를 측정할 수 있습니다. 이 세트를 [BRIR_LL, BRIR_LR], [BRIR_RL, BRIR_RR] 로 표시합니다. 각 세트에서 ‘_’뒤의 첫번째 알파벳은 음원의 위치(왼쪽 또는 오른쪽), 두번째 알파벳은 귀의 위치(왼쪽 귀 또는 오른쪽 귀)를 의미합니다. 즉, BRIR_LL은 왼쪽 스피커에서 발생한 소리가 공간 내에서 전파되다가 왼쪽 귀에 도달할 때까지의 충격응답을 의미하겠죠?

 

이렇게 BRIR세트를 구하면 어떤 단일 주파수 신호에 대해서 한쪽 귀에 들어오는 동측 음원으로부터 전달되는 신호(Ipsilateral Ear Input Signal)와 대측 음원으로부터 전달되는 신호 (Contralateral Ear Input Signal)의 크기 차이와 위상 차이를 구할 수 있습니다. 좀 더 풀어서 얘기하면, 왼쪽 스피커에서 왼쪽 귀로 재생되는 소리와 오른쪽 스피커에서 왼쪽귀로 재생되는 소리의 크기 차이와 위상 차이를 구할 수 있다는 이야기지요.

 

이러한 Ipsilateral Ear Input Signal과 Contralateral Ear Input Signal의 특정 주파수에 대한 크기 차이와 위상 차이를 계산해서 역함수 형태로 활용하여 오른쪽 가상 음원의 신호를 변경하면, 왼쪽 귀에는 crosstalk으로 인해 소리가 완전히 없어지거나 오른쪽에 비해 아주 작은 소리가 재생되도록 만들 수 있습니다. 거의 안 들리는 소리가 만들어 지는 것이죠. 이 크기 차이와 위상 차이는 BRIR의 주파수 영역에서의 표현인 BRTF(Binaural Room Transfer Function)의 크기 응답과 위상 응답으로부터 계산할 수도 있고, 특정 주파수를 이용하여 측정해서 획득할 수도 있습니다.

 

예를 들어 크기 차이와 위상 차이가 반영되지 않은 입력 신호는 아래와 같습니다.

 

Figure 5 Uncontrolled input signal for left and right virtual speakers

 

위 Figure 5에서 위쪽이 가상 채널 중 왼쪽 채널의 입력 신호, 아래쪽이 가상 채널 중 오른쪽 채널의 입력 신호입니다. 완전히 동일한 신호입니다. 그런데 BRIR 로부터 왼쪽 채널과 오른쪽 채널로부터 왼쪽귀까지 해당 주파수의 크기차와 위상차를 구해서 최종 왼쪽 귀 입력 신호가 상쇄되도록 오른쪽 가상 채널 신호의 크기와 위상을 변경한다면? 입력 신호는 Figure 6과 같게 됩니다.

Figure 6 Controlled input signal for left and right virtual speakers

 

그럼, Figure 6과 같은 입력으로 재생했을 때 왼쪽귀의 입력 신호는 어떻게 될까요?

결과는 아래 Figure 7과 같습니다.

Figure 7 An example of left ear input signal for uncontrolled and controlled input signal

 

Figure 7에서 실선은 크기/위상차 조절을 하지 않고 양쪽 가상 채널에 동일한 신호를 렌더링 했을 때의 왼쪽 귀 입력 신호, 점선은 크기 위상차 조절한 신호를 오른쪽 가상 채널 신호에 반영했을 때 왼쪽 귀 입력 신호입니다. 확연하게 크기가 줄어든 것을 확인할 수 있는데요. 이러한 방법을  “crosstalk cancellation” 이라고 부릅니다. 크기/위상차를 절묘하게 변형시켜 동측에서 전달된 소리와 대측에서 전달된 소리가 상쇄되도록 만드는 방법을 의미하죠. 이 crosstalk cancellation 은 크기와 위상차가 딱 맞아떨어졌을 때 발생하고 둘 중 하나라도 조건에 맞지 않으면 오히려 출력 신호가 더 커지기도 합니다.

 

Figure 6과 같은 입력 신호를 렌더링 하면서 정면을 가만히 바라보고 있으면 왼쪽 귀로 들어오는 신호는 들리지 않거나 들린다고 하더라도 아주 작은 소리로 들리게 될 겁니다. BRIR에는 뒤쪽 reverb 에 해당하는 필터가 꼬리를 형성하고 있기 때문에 정확한 크기/위상차를 구했다고 하더라도 실제 오차가 다소 존재할 수 있습니다. 다만, 이 때 나는 소리가 제일 작은 크기의 소리인 것은 맞다고 말씀드릴 수 있어요.

 

[Measurement Method & Results]

 

Figure 8 Block diagram for M2S measurement

 

Figure 8은 M2S(Motion-to-Sound) Latency를 측정하기 위한 과정을 그림으로 나타낸 것입니다. 앞서 설명한 내용은 M2S Latency를 측정하기 위한 입력 신호를 어떻게 생성할 수 있는지에 관한 것이고 위 그림의 [input signal control stage] 부분에 해당하겠네요. 그렇게 생성한 신호가 smsr입니다. 그럼 이제 실제 M2S Latency 측정을 해 보죠.

 

Spatial Audio Renderer에는 우리가 생성한 입력신호  smsr 이 입력되고, TWS(True Wireless Stereo)나 그 외의 IMU가 포함되어 있는 장치에서 움직임에 대한 정보를 전달받아, 그에 맞게 spatial audio rendering을 수행합니다.

 

우선 우리는 여기서 TWS에서 사용자의 움직임을 감지하여 해당 정보를 전달한다고 가정합니다. 사용자 움직임이 없는 경우, 출력된 바이노럴 신호의 왼쪽 또는 오른쪽 귀의 입력 신호는 crosstalk cancellation 때문에 소리가 나지 않거나 상대적으로 매우 작은 소리를 재생하고 있는 상황입니다. t=t0 순간에 모터 등을 이용하여 TWS를 회전시키면 TWS 는 그 움직임(실제로는 사용자의 움직임)을 감지하여 그에 맞는 movement 정보를 Spatial Audio Renderer로 전송하고, Spatial Audio Renderer는 그 정보에 맞게 렌더링을 하여 출력 신호를 생성하여 TWS를 이용해 재생하게 됩니다. 이렇게 재생된 소리를 획득하면 Crosstalk cancellation 조건이 깨지면서 렌더링 된 신호의 envelope의 변화를 볼 수 있고, 그로부터 M2S Latency를 측정할 수 있죠.

 

다만, 환경적 제약 때문에 Spatial Audio Renderer 의 출력신호를 직접 획득할 수 없는 상황이 있을 수도 있습니다. 그런 경우, external microphone 등을 통해 신호를 녹음하여 획득하여 사용합니다. 이 때 외부 잡음 등의 영향이 있을 수 있는데, 특정 주파수를 사용한 경우 대역통과필터 (Bandpass Filter) 를 이용하여 잡음을 제거할 수 있습니다. 아래 그림을 통해 조금 더 자세히 설명해 드릴게요.

Figure 9 Recorded signal before(upper) and after(lower) bandpass filtering

 

Figure 9의 위쪽 그림이 원래 측정 신호입니다. Figure 9의 ‘Moving Start’ 시점이 Figure 8에서 t0에 해당합니다. 즉,  ‘Moving Start’ 로 표시된 이전 구간은 정지되어 있는 상태입니다. 정지 상태에서는 Crosstalk Cancellation 덕분에 해당 방향의 Ear Input Signal은 상쇄되어 거의 들리지 않습니다. ‘Moving Start’ 순간부터 마이크로폰에는 모터가 동작하는 노이즈와 함께 실제 렌더링 되는 신호도 녹음이 될텐데요, 위쪽 그림에서는 렌더링 되는 신호는 크기가 작고 상대적으로 노이즈의 크기가 커서 언제부터 crosstalk cancellation 이 사라지는지 알 수가 없습니다. 이 실험에서 저희는 입력 신호로 500 Hz 의 pure tone 을 사용했습니다. 즉, 우리는 500Hz신호만 보면 되니, 위쪽 컬럼의 신호를 fc=500Hz 인 bandpass filter를 통과시키면 모터 구동음은 깨끗하게 없앨 수 있습니다. (윗 문단에서 언급한 대역통과필터를 이용한 잡음 제거) 그 결과가 Figure 9의 아래쪽 그림이 되는 것이고요. 움직이기 시작한 후부터 일정 시간이 지나면서부터 crosstalk cancellation 조건이 깨지면서 녹음되는 신호의 envelope이 커지는 걸 확인할 수 있습니다. 즉, crosstalk cancellation disappear 라고 표시된 시점이 Figure 8의 t1 에 해당하겠네요. 따라서, M2S Latency는 t1-t0 라고 계산할 수 있다는 것을 알 수 있습니다.

 

Envelope이 증가한 시점을 찾는 것은 여러가지 방법이 있겠습니다. 단순히 녹음된 신호의 샘플값이 커지는 구간을 찾을 수도 있긴 하겠습니다만, 너무 부정확한 방법이죠. 혹시나 perfect cancellation이 되지 않는다면 이 샘플값은 cancellation이 일어나고 있는 중에도 계속 변하게 될 것입니다. 그래서 개별 샘플 값을 이용하기 보다는 녹음된 신호를 일정 길이의  구간으로 나눈 후, 각 구간에 포함된  sample 값들의 variance를 구해서 사용하는 방법을 생각해볼 수 있습니다. Envelope 을 구하기 위해  variance 값을 계산한다면 각 구간의 길이를 선택하는 것이 중요합니다. 이 시간 구간을 짧게 잡으면 시간 영역에서 time precision은 높아질 수 있습니다만, 입력 신호 주파수의 주기보다는 길어야 합니다. 즉, 각 구간의 최소 길이는 입력 신호 주파수의 주기보다는 길어야 합니다. 위의 예시에서는 500Hz를 입력 신호로 사용하였고, 따라서 적어도 우리는 envelope의 변화량을 얻기 위해서는 2ms 이상의 시간 구간을 잡아야 한다는 의미죠. 즉, 500Hz 신호를 입력으로 사용한 경우 최대 precision은 2 ms 입니다. 해상도를 높이고 싶으면 더 높은 주파수의 입력 신호를 사용해도 괜찮습니다. 다만 너무 높은 주파수의 입력 신호를 사용할 경우 필터로부터 계산할 수 있는 크기/위상차의 오차 범위가 다소 높아질 수 있는 위험도 있으니 조심해야 할 필요는 있겠지요! 그 이외에 측정된 신호로부터 sparse envelope 을 추출하고 envelope의 실제 slope 를 계산해서 slope 가 급격히 변하는 지점을 기준으로 M2S Latency를 측정할 수도 있습니다. 측정 환경과 녹음 결과에 따라 이는 선택적으로 변경해서 사용할 수 있겠습니다.

 

결국 Figure 9에서처럼 원래 녹음된 신호와 fc=500Hz로 Bandpass filtering 된 신호를 기반으로 우리는 M2S Latency를 측정할 수 있습니다. 이 latency는 앞서 도면으로 그렸던 모든 관련된 정보가 오가는 과정에서 발생하는 latency가 포함된 값입니다. 따라서 이 latency가 실제 사용자가 경험하게 되는 latency가 됩니다.

 

[그래서 실제로 Latency를 측정해보니…]

 

요즘 출시되는 TWS 들은 공간음향 기능이 탑재되어 소리에 공간감을 더함과 동시에 사용자의 고개 움직임 등에 반응하는 렌더링 기능들을 제공하죠. 아시다시피 가우디오랩은 공간음향 기술의 원조이자 최고의 기술력을 자랑하는 회사인만큼, 각 제품들이 사용자의 움직임에 얼마나 빨리 반응해 좋은 퀄리티를 제공할 수 있을지를 파악하고자 여러 제조사의 TWS를 대상으로 M2S Latency 를 측정하였습니다. 측정치는 최소 10회의 측정을 기반으로 평균값을 구한 것이고, 따라서 그 표준 편차도 함께 기재해 봤습니다.

 

위에서 설명드린 측정방법을 활용해 다양한 TWS의 M2S Latency 를 측정해보았더니, 예시값은 아래 표 1과 같음을 알 수 있었습니다.

 

<Table 1 M2S latencies for different TWS [unit: ms]>

측정 결과는 놀라웠는데요. 가우디오랩의 기술이 (아직은 Mock-up 수준이라고 해도) 월등히 낮은 Motion-to-Sound Latency를 기록하고 있었습니다! 그 이유는 가우디오랩의 Spatial Audio Mock-up이 세계 최고의 Spatial Audio렌더링 최적화 기술로 TWS 위에서 구동되는 방식을 바탕으로 만들어졌고, 이는 기존의 다른 주요 TWS들이 채택하여 사용하고 있는 스마트폰 렌더링 방식에 반드시 필요한 Bluetooth Communication Latency를 제거할 수 있기에 얻어진 결과라고 말씀드릴 수 있겠습니다.

 

글을 시작하면서, Spatial Audio의 전체적인 품질은 공간과 방향의 특성을 렌더링하는 음질 뿐만 아니라 사용자의 움직임으로부터 렌더링되어 소리가 재현되는 데에 소요되는 시간 (motion-to-sound latency)에 따라 결정된다고 말씀드렸던 것을 기억하시나요?

 

공간음향의 품질을 높여주는 Motion-to-sound latency를 측정하는 방법을 설명 드리고자 시작한 이 글을 통해 가우디오랩의 기술력이 압도적인 뛰어난 수치들을 기록하고 있음까지 확인할 수 있었습니다.

 

Latency가 최고 수준인 것은 알겠는데, 그렇다면 과연 음질은 어떻게 되는지 궁금하실텐데요. 다음 글에서는 latency에 이어 놀라운 결과를 보여준 음질 평가 실험과 그 결과에 대해서 사운드 샘플과 함께 공개할 예정이니 Stay tuned~!

 

아! 가우디오랩이 2023년 CES에서 혁신상 2관왕을 차지했다더니, 역시 그럴만한 결과네요! ㅎㅎㅎ

 

 

------

 

[1] iPhone 11과 Airpods Pro로 구성된 렌더링에 대한 측정치임. 실제 렌더링은 iPhone에서 일어나고Phone-TWS간 통신 지연에 의한 지연이 큰 구조

 

[2] Galaxy Flip4와 Galaxy Buds 2 Pro로 구성된 렌더링에 대한 측정치임. 실제 렌더링은 Galaxy에서 일어나고Phone-TWS간 통신 지연에 의한 지연이 큰 구조

 

[3] iPhone11 과 가우디오랩에서 제작한TWS Chipset 위에 구현하여, 통신 지연을 제거한 목업의 측정 결과. iPhone은 소스 기기로 사용되고 Spatial Audio Rendering은 TWS 에서 수행.

 

 

pre-image
근우의 커리어 스토리 대방출! with AIIT

얼마 전 가우디오랩의 AI 디렉터 근우와 AI 커뮤니티인 AIIT가 인터뷰를 진행했는데요, 그 내용을 소개해드리려고 합니다.   AI/ML 관련 경험과 지식을 공유하는 커뮤니티 AIIT의 첫(!) 인터뷰인 만큼, 해당 분야에서 가장 핫한 연구자인 근우가 인터뷰이로 섭외되었는데요.   여러 어려움마저도 도전적인 '경험'의 일부라며 최고가 되기 위해 노력해 온 Competence한 마인드셋부터, 리서처이자 조직의 리더로서 연구와 비즈니스의 균형을 맞추며 쌓아온 솔직한 노하우와 진심 어린 조언들로 가득 담겨있답니다~   저와 같은 주니어부터 조직을 이끌어가는 리더까지, 모두에게 도움이 될 법한 유익한 이야기, 함께 보러 가실까요? Go Go!!    * 본 글은 AIIT <커리어 인터뷰>에 게재된 인터뷰를 일부 편집하였습니다.     '경험'이 최고의 가치였던 근우의 커리어 여정    Q. 안녕하세요 근우님, AIIT 커뮤니티 분들께 간단하게 근우님 소개를 부탁드립니다!   K. 안녕하세요, AIIT 커뮤니티 여러분. 처음 뵙겠습니다. 최근우라고 합니다. 만나 뵙게 되어서 반갑습니다. 저는 음악과 오디오 쪽 연구를 14년가량 해왔고 AI와 관련해서는 박사 졸업 후 4~5년 정도의 경험이 있습니다. Spotify, ByteDance(TikTok)에서 리서처로 일하다 현재는 가우디오랩에서 AI 디렉터로 일하고 있습니다.     Q. 음악, 오디오 쪽 연구를 하신 이력과 대비해서는 AI와 관련된 경험이 상대적으로 짧으신데요, 어떻게 음악, 오디오와 AI를 접목하실 생각을 하셨나요? AI 친화적인 시대의 흐름에 따라 내리신 결정인가요 아니면 특별한 근우님만의 계기가 있으셨나요?   K. 저는 원래는 음악 연구를 더 하고 싶었지만, 석사 때는 음향 연구를 하게 되었습니다. 음향 연구 역시 재미는 있었으나, 특히 제가 했던 3D 오디오는 실제 공간에서 일어나는 "소리"를 대상으로 하는 연구로 전자·전기와 물리에 기반한 내용을 담고 있다 보니 깊이 있는 학습이 계속 이어져야 했습니다.   석사 졸업 후 병역특례 기간 동안 논문을 4차례 투고했는데 제가 정말 원했던 곳에서는 다 통과되지 못했어요. 생각하면 정말 가슴이 아픈데, 머신러닝 practice를 제대로 이행하지 못해서 통과되지 못했다는 리뷰를 받았어요. 그때 ‘아 머신러닝을 해야겠다!’라는 생각했었고, 2013, 14년쯤 Computer Vision 분야에서 딥러닝의 성공이 오디오로도 전파되기 시작했고, 저도 살아남으려면 이게 답이라는 생각이 들었습니다.   저는 소리 중에서도 음악을 소재로 다루고 싶었고 실제 공간에서 일어나는 물리적인 현상보다는 디지털 도메인에서 일어나는 일을 하고 싶었어요. 그래서 박사 과정은 분야로는 CS, 소재로는 음악을 하는 음악 연구(Music Information Retrieval)를 골랐습니다. 종합적으로 생각해 보았을 때 머신러닝과 음악 연구가 시너지를 낼 가능성이 컸거든요.     Q. 그전까지 걸어왔던 근우님의 커리어는 AI와는 살짝 먼 것처럼 보이지만 가슴 아픈 2년을 보내시면서 방향이 많이 달라졌군요. 그 덕에 어떻게 보면 모두가 굉장히 관심 있어하는 회사들에서 근우님의 커리어를 이어 나갈 수 있었던 것 같아요. 그럼 각각의 커리어를 어떻게 시작하게 되셨는지와, 어떤 기준을 가지고 다음 스텝으로 옮기시게 되었는지 들어볼 수 있을까요?   K. 저는 매사에 ‘경험'을 중요시하는 타입이에요. “내가 그곳에서 어떤 경험을 할 수 있을까?”를 중심으로 생각하여 선택했습니다. Spotify에서 2년, ByteDance(TikTok)에서 1년 8개월, 현재 가우디오랩에서 약 1년 정도의 시간을 보내고 있네요.   런던에서 박사 과정을 밟다가 방문 연구 자격으로 뉴욕으로 오게 되었어요. 런던도 좋은 곳이긴 하지만, 제겐 뉴욕이 좀 더 잘 맞더라고요. 그래서 그때 난 꼭 여기서 직장을 얻어야겠다고 혼자 다짐했었죠. AI라고 넓게 봤을 때는 갈 수 있는 회사가 많지만, 제가 원하는 분야는 AI와 음악 혹은 오디오가 교집합으로 있어야 해서 상대적으로 희귀해요. 당시 Spotify가 제가 세웠던 조건에 가장 부합하는 회사였기에 망설임 없이 지원하게 되었습니다. 이런 말 하기는 좀 그렇지만..., 제 생각보다는 할 수 있는 것들이 많지 않았어요. 제가 박사 때 연구했던 내용을 가장 유용하게 쓸 수 있는 곳이라고 생각되어 갔지만, 막상 가보니 비즈니스가 너무 안정적인 나머지 제가 할 수 있는 게 없었어요. 이미 다 되어 있었거든요. 딱 하나 제가 기여할 수 있는 부분이 있어 팀과 매니저를 설득해 진행할 수 있었습니다. 그 프로젝트를 끝내고 난 후 많이 고민했어요. 내가 무엇을 더 할 수 있을까, 회사가 가는 방향성에 내가 가진 능력이 얼마나 많은 기여가 될까 등을 생각했을 때 제가 더 주도적으로 할 수 있는 곳으로 가는 게 옳다고 판단했습니다. 그렇게 Spotify를 떠나 ByteDance로 이직하게 되었습니다.   ByteDance에 갔더니 정말 할 게 많아서 좋았어요. (웃음) 제가 쓸모 있다고 느낄 수 있었죠. 다만 1년 정도 지난 이후에는 힘든 점들이 생기기 시작했어요. 일례로 저는 뉴욕에 있고 함께 일해야 하는 팀원들은 캘리포니아와 상하이에 있어 시차 때문에 함께 협업하기가 매우 까다로웠어요. 심지어 이 시기는 코로나가 유행했던 시기라 원격 근무를 해야 했거든요.   그리고 조심스럽지만, 외국인으로서 해외 회사에서 일하다 보면 눈에 보이지 않는 유리천장을 느낄 때가 많아요. 팀원들과 리더에게 새로운 프로젝트에 대한 의견을 제시하거나, 아이디어를 내도 거기가 끝이었어요. 제게 의사 결정을 할 수 있는 권한이 없었으니까요. 그런 부분에서 답답함이 컸어요. Spotify건 ByteDance건 제가 계속해서 다니려고 했다면 안정적으로 다닐 수 있는 좋은 회사예요. 하지만 앞서 말했듯 저는 경험을 중요시하는 사람이고, 제가 배우는 것이 없다면 떠나야 한다고 생각했습니다.   외국 회사에서는 제가 tech lead나 engineering manager가 되고 싶다면 그 포지션이 되기 전부터, 그 포지션을 맡은 사람이 수행하는 것만큼 사람들에게 도움을 주고 임팩트 있는 일들을 해서 자기 증명을 해야 해요. 그 말이 맞는 말이긴 하지만 제가 처한 상황에서는 할 수가 없었습니다.   그렇게 고민하던 시기에 가우디오랩에서 연락이 왔어요. 원래는 AI를 메인으로 하는 곳이 아니지만 제가 갈 때쯤 AI가 기반이 되는 프로덕트를 만드는 시점이었고, 그 부분에 공격적으로 투자하고 싶어 했어요. 그런 타이밍이 잘 맞았고 저로서는 새로운 것을 경험하고 싶어 이직하게 되었습니다.   Gaudio Friday Night Live (GFNL)의 메인 보컬 근우!   Q. 그래도 글로벌 기업에서 일하시다가 스타트업으로 옮기는 게 쉬운 결정은 아니었을 것 같아요. AI 연구라는 게 인프라와 데이터 사이즈가 연구하는데 영향 있을 텐데 일하는 방식이 어떻게 다른가요?   K. 스타트업이기 때문에 제게 회사 내에 임팩트를 줄 수 있는 적합한 포지션을 제안하고, 그 책임감을 제게 부여할 수 있었다고 봐요. 제가 원하는 것들을 찾다 보니 스타트업으로 가게 된 거죠. 큰 회사에 있을 땐 특히 내부 데이터로 할 수 있는 일들이 많았어요. Spotify에서는 내부 데이터를 많이 사용하기도 했고, 그런 것 대비 큰 회사에 있을 땐 편한 부분이 많이 있어요. 데이터 팀도 이미 있으니 설령 우리가 가지고 있지 않은 데이터를 요청해도 최대한 빨리 받을 수 있었어요. 그런 의미에서 보면 제가 그냥 맡은 일부분만 잘하면 되었죠.   가우디오랩에서는 문제를 풀기 위해서 데이터를 어디서 가져와야 하나부터 생각해요. 그런 점이 도전적이죠. 데이터가 없다는 게 문제의 일부이니, 데이터가 없다는 걸 감안하고 문제를 푸는 방법을 찾아가죠. 쉽지 않고 상대적으로 불편한 환경이긴 하지만 제가 경험하는 것을 중요시한다고 말씀드렸잖아요? 큰 회사에서는 경험할 수 없었던 것들을 여기서 많이 느끼고 있어요. 그리고 이런 경험은 제가 다음 커리어에서 어떤 문제를 풀 때 저에게 도움이 될 것이라고 믿어요.     직접 깨지고 부딪히며 깨달은 몇 가지   Q. 본인의 한계를 계속해서 깨부숴 나가기 위해 이직하신 경우시군요. 그렇게 커리어를 쌓아 나가시는 동안 개인적인 성장통이나 가장 큰 도전이 있었다면 어떤 걸까요?   K. ByteDance에서 함께 했던 팀원들의 역량 범위가 넓은 편이었어요. 저처럼 박사 과정을 하고 경력직으로 오신 분들도 있었고, 혹은 석사 졸업 후 바로 들어오게 된 사례도 있었고요. 그러다 보니 제가 조금 더 경험이 있어 팀 내 작은 파트를 이끌게 되었어요. 시니어로서 저는 이 프로젝트를 끌고 나가야 하지만, 제게 함께 일하는 주니어분들의 R&R을 산정하거나 스케줄링할 권한은 없었죠. 누가 이걸 맡아야 하는지 명확하지만, 이를 어떻게 설득해야 하는지 많이 고민했었습니다. 그때 내려놓는 법을 배웠어요. ‘내가 내 욕심만을 가지고 누군가를 바꾸려 하는 건 쉽지 않구나’ 하고 해탈했습니다.   이때 했던 고민이 지금까지 이어지는 것 같아요. 팀원들을 관리하고 제품에 대한 로드맵을 정의하고 하는 일을 분명히 하고 싶어 했는데 실제로 제가 직접 해보니 이게 쉽지 않아요. 정보를 어떻게 전달해야 하는지, 리소스를 어떻게 분담해야 하는지 등을 생각했던 것 이상으로 다각도에서 고민하고 행동해야 해요. 우리가 흔히 말하는 ‘짜치는 일'은 제가 웬만해서는 팀원들을 위해 하려고 하지만 항상 그 범위와 허용치를 정하는 데 매일 에너지를 쏟고 있습니다.   가우디오랩에서도 최근 1년간 고민했던 부분은 연구와 비즈니스 사이드 간의 균형을 맞추는 것이었어요. 연구자의 시선으로 봤을 땐 무엇이 되고, 무엇이 어려운지가 명확해요. 다만 이게 시장에서 필요로 하는 것일까에 대한 대답은 찾기 어려워하죠. 반대로 프로덕트를 디자인하는 사람들은 아직 시장에 없는 기술에 대해서는 상대적으로 이해도가 낮을 수밖에 없어요. 그래서 연구 파트에 요구사항을 전달할 때 모호하게 전달할 때가 있죠. 하지만 제가 가우디오랩에서 맡은 리드로써의 역할은 서로의 애매한 부분을 정리하고, 한 번 더 우리끼리의 결정 사항을 확인하고, 같은 방향성을 만들어 나가는 거예요. 이번 년에는 더욱더 우선순위를 잘 산정해서 일을 진행해보는 것을 개인적인 목표로 생각하고 있습니다.   오히려 인터뷰를 읽고 계신 다른 분들께 여쭤보고 싶어요. 리더로써 어떻게 다들 밸런스를 잡고 있으신가요? 제가 배울 수 있는 좋은 팁이 있다면 공유 부탁드립니다.     Q. 근우님의 지금까지 경험이 많은 분들께 굉장히 흥미롭게 느껴질 것 같아요. 누구나 일하고 싶어 하는 글로벌 기업에서 일하는 경험은 흔치 않으니까요. 글로벌한 조직에서 일하고자 하는 분들께 조언을 해주신다면요?   K. 여러 노력이 필요하지만, 그중에서도 오픈소스 활동과 블로그, 학회 세션 참여, 트위터 등 본인이 기여할 수 있는 한 다양한 활동을 해보라고 강조하고 싶어요. 그런 경험이 없다고 하면 채용 시 리스크가 크다고 느껴요. 언어 문제, 비자 문제, 시차 문제, 문화 문제 등 다양한 점들이 종합적으로 고려되기에 더 높은 확신을 회사에 주어야 해요. 그럴 때 확신을 줄 수 있는 가장 좋은 방법이 이런 활동들에 참여했다는 경험이죠.   특히 엔지니어, 리서처들은 논문들은 너무 당연하고, 그 외에 활발하게 소통하고 하찮은 거라도 기여해봤다는 것이 도움이 많이 되어요. 그리고 국내와 비교했을 땐 글로벌 회사에서 일하는 엔지니어, 리서처들이 좀 더 외향적인 모습을 많이 드러내고 있어서 이런 모습을 보이면 어필할 수 있겠죠?   저 또한 오픈소스의 크리에이터이자 메인테이너로 활동하고 있어요. 오픈소스 활동이 회사에서 코드를 짜는 것과는 달라요. 솔직히 말해서 회사에서 짜는 코드는 매번 유지하고 보수하기엔 리소스가 너무 많이 들어요. 글로벌 기업이라고 해서 코드가 완벽하지 않다는 걸 저도 느꼈고요. 마음속으로 ‘저렇게 엉망인데 배포한다고?’라고 생각해 본 적도 있어요. 비즈니스를 녹이다보면 어쩔 수 없이 클린코드를 짜는 것보다는 코드를 짜고 빠른 배포를 하는 데 중점을 둬야 할 때도 있고요. 회사의 코드는 메인터넌스가 1순위로 고려돼야 할 부분이 아니고, 특히나 리서처들이 짜는 코드는 결과를 보이는 게 더 중요할 때가 많아요.   근우의 개인 Github. Pinned된 레포트를 봐주세요! 근우가 진행하는 오픈소스 프로젝트   저는 박사 때 오픈 소스 활동을 많이 하면서 정말 많이 배운 편이에요. 수많은 사람이 쓰자고 만드는 거고, 그러다 보니 매우 엄격한 기준을 두고 코드 퀄리티나 코딩 컨벤션을 준수하게끔 해요. 저도 처음엔 PR이라는 게 뭔지 모르고, 말도 안 되는 것도 날려보고 했었어요. 메인테이너들은 이상한 PR을 날려도 이 사람이 굳이 자기 시간을 들여 무언가를 개선하기 위해 노력했다는 점을 고마워해요. 메인테이너들이 그런 사람들에게 자신의 시간을 조금 투자해 댓글로 피드백을 주고, 피드백을 바탕으로 코드가 수정되면 본인들 입장에서도 새로운 피쳐가 하나 추가되니 상호 좋은 일이거든요. 서로 배우고 도움받는 관계가 형성될 수 있어요.   코딩을 어떻게 해야 하는 건지, 다른 사람과 어떻게 함께 협업할 수 있는지를 배워볼 수 있는 가장 쉽고 빠른 그러면서 유익한 방법이라 저는 정말 권장해 드려요.     AI 리서처에게 중요한 것 3가지: 꾸준함, 끈기, 의지   Q. 다음 질문들은 근우님의 직무와 관련해서 좀 더 깊이 있게 여쭤볼게요. 앞서 두 회사에서 리서처로 근무하셨기도 하고, 많은 리서처 분들을 봐오셨을 텐데 리서처로 가져야 할 덕목이나 특성이 있다면 어떤 것들을 손꼽으실까요?   K. 전 세 가지가 먼저 생각나네요 - 꾸준함, 끈기, 빠르게 잘 배우려는 의지! 회사에서는 프로덕트를 만들기 위해 연구하게 되잖아요? 세상에 없던 것을 만들다 보면 우리가 따라 할 수 있는 레퍼런스를 찾기가 어려워요. 그런 연구를 이전부터 오래 해왔던 빅테크 회사의 경우는 이미 축적된 경험이 많기에 본인이 맡은 작은 일부분만 하더라도 누군가가 그걸 필요로 하고, 사용되는 걸 지켜볼 수 있어요. 오히려 린하게 움직이는 스타트업들은 더 어려운 문제를 풀어내야 하는 경우가 많아요.   그런 의미에서 스타트업에 있는 리서처들은 논문 중심으로 생각하는 버릇을 놓아야 해요. 어떤 특정한 상황에서의 문제를 풀 때 이런 방법을 써봤더니 기존보다 더 잘 풀 수 있다가 일반적인 논문의 요지예요. 그런데 회사에서 전체 프로덕트를 만드는 논리적인 과정에서 그건 아주 극히 일부분일 뿐이에요. 그런데 논문만 보다 보면 논문에 나와 있는 것만 해보고, 연구와 논문을 동일시하고, 내 연구도 논문 같아야 한다고 생각할 때가 있어요. 예를 들면 나는 연구하려고 왔는데 왜 다른 것만 시키냐고 말하는 분들도 있어요. 논문 저자들도 논문을 쓰기 위해서 다양한 밑 작업들을 했고, 그건 그냥 논문에 드러나지 않았을 뿐이에요. 혹은 뭐 존재하는 데이터셋을 가져다 썼을 수도 있어요.   하지만 저희가 하는 일은 다르잖아요. 저희는 데이터셋을 처음부터 모아야 할 수도 있어요. 우리는 질문의 존재를 깨달아야 하고 그 질문에 답변하기 위해 여러 가지를 고민해봐야 해요. 이런 과정은 논문에서는 생략되어 보일 수도 있죠. 그렇다고 해서 연구라는 게 항상 새로운 것을 고안하는 건 아니에요. 새로운 것이라는 의미는 논문 기준으로 학계에서 새롭게 느껴지는 것을 말해요. 그렇게 연구를 정의할 수도 있지만 회사에서의 연구는 좀 더 광의적 의미를 내포하고 있어요. 그리고 회사에서 문제를 푸는 리서처라면 회사에서의 연구와 학계에서의 연구가 다르다는 점을 인정해야 해요.   그렇기에 다양한 각도에서 여러 요구사항을 계산해 가며 답을 찾아가는 여정을 견뎌내야 해요. 한순간에 유레카! 하고 무언가를 발견하는 일은 잘 없어요. 꾸준하게, 끈기를 가져나가며 많은 시도를 해보고, 그 시도를 통한 경험을 바탕으로 빠르게 배워나가면 어느새 질적으로 엄청나게 성장한 본인을 느낄 수가 있습니다.     Q. 근우님께서 보시기에 리서처와 다른 직군을 비교했을 때 두드러지는 점이 있나요?   K. 저를 포함해서이지만 음… 말을 잘 안 듣는다?(웃음) 가령 개발자분들의 경우 코딩 컨벤션 등을 가지고 협업할 때 논쟁이 있기도 하잖아요. 그럼 그분들은 규칙이 정해지면 그 규칙에 따라 작업을 해요. 반면 리서처들은 본인이 관심이 없는 내용이나 분야는 아예 신경 쓰지 않는 것 같아요. 저도 몇 번 동료 리서처들에게 “제발 이렇게 좀 하자”, “너희가 쓴 코드 뭔지 못 알아보겠다!” 하며 주석처리나 가독성 있는 코드를 요청했지만, 실패로 돌아갔죠. 리서처들은 하고 싶은 게 많고, 그와 동시에 명확해요. 본인의 리소스를 최적으로 사용하는 것을 좋아하기에 본인이 불필요하다고 느끼면 습관을 바꾸지 않더라고요.    근우가 바라보는 AI 산업의 미래    Q. 앞으로 AI 분야 내에서 차별점을 만들어 내는 요소는 무엇이 될 거로 생각하시나요? 어떤 점이 가장 근본적인 수준 차이를 만들어 낼까요?   K. 일단 기술력은 모든 회사가 6개월 이상 차이가 나지 않는다고 봐요. 정확히는 차이를 낼 수가 없어요. 그래서 끝없는 경쟁일 수밖에 없어요. 기술 격차를 몇 년 이상 내는 것은 불가능하고, 딱히 유의미하다고 보지도 않아요. 가장 빨리 프로덕트를 디자인해서 만들어 내는 게 더 중요한 것 같아요. 서비스 잘 만들고, 유저를 가장 먼저 확보하는 게 성공의 요인이라고 봅니다.   리서치에 대해서 잘 알고 있어야 그런 프로덕트를 만들어 낼 수도 있겠지만 제 개인적인 생각으로는 기술의 발전이 기하급수적으로 빨라지면서 최근에는 존재하는 기술의 발전 속도가 만들어낼 수 있는 프로덕트의 속도를 넘어선 것 같아요. 다시 말해서 지금 존재하는 기술을 바탕으로 너무 많은 프로덕트를 만들어 낼 수 있는 세상에 우리는 살고 있어요. 한 6~7년 전 알파고 붐이 불 때 많은 AI 연구를 하시던 분이 새로운 서비스를 만들어내고 투자도 많이 받았어요. 그때는 많은 회사가 비전으로 삼았던 수준만큼의 제품을 만들어 내지를 못했어요. 기대 수준과 기술의 격차가 있었으니까요.   그런데 요즘은 그 격차가 반대로 된 것 같아요. 이 중 무엇을 갖고 만들어야 사람들이 좋아할까?라는 관점으로 답을 찾는 문제로 바뀌었다고 생각합니다.     Q. 말씀하신 만큼 빠르게 발전하는 AI인데요, 근우님은 AI 분야의 최신 동향을 주로 어떻게 파악하시나요? 근우님만의 팁이 있다면요?   K. 우선 저는 트위터에서 많은 정보를 얻고 있어요. 트위터야말로 학회의 메타버스라고 느껴요. 트위터에서 논문 출판과 관련된 대다수 정보를 알 수 있고, 학회의 경우에는 프로시딩이 나오면 들어가서 키워드를 보거나 음악과 관련된 학회라면 아예 제목을 쭉 다 보고 있어요. 트위터를 특히 연구용으로 많이 팔로우하고 있어요. 뉴스레터는 언젠가부터 안 보게 되네요.   사실 트위터라는 채널이 익숙하지 않은 분들도 계시고, 언어 장벽을 느끼실 수도 있을 것 같긴 해요. 하지만 그런 어려움을 극복할만한 가치가 있다고 느껴요. 오랜만에 한국 회사로 오게 되었고, 회사 내부 채널 중 새로운 정보나 논문, 기술, 서비스 등을 공유할 수 있는 곳이 있어요. 그런데 보니까 제가 공유하는 모든 연구 정보가 영어 소스더라구요. 다른 분들은 습관적으로 기사나 그런 글들을 보실 때 한국어로 된 정보를 선호하더라고요.   그런데 신문 기사의 경우 퀄리티 차이가 정말 심해요. 시간상으로 딜레이 되는 문제도 있지만, 대부분 그냥 외국에서 조회수가 높은 혹은 유명한 언론에서 올라온 테크 관련 기사를 그냥 요약, 번역 수준으로 재배포하는 것 같아요. 그러다 보니 1) 기사를 고르는 실력 2) 요약하는 실력에 따라 정보의 손실이 엄청나다고 생각해요. 포지션에 따라 다르겠지만 연구하는 분들의 경우 영어 소스로 최대한 보시는 게 좋을 것 같아요. 저는 그럴만한 가치가 있다고 봅니다.     Q. 근우님 개인의 5년 후를 그려보신다면 어떤 모습일 것 같으세요?   K. 저는 일단 가장 큰 고민은 언제까지 오디오 분야에 있을 수 있을까예요. 이게 저에게는 안락함을 주는 comfort zone이지만 그와 동시에 산업의 성장 속도가 제 생각보다 너무 더디기에 고민이 되는 부분이죠. 다만 지금까지 너무 사랑하고 애정을 쏟은 분야기에 계속하고 있어요. 앞으로의 5년은 제가 걸어온 이 도메인을 언제까지 더 할 수 있을까에 대한 답을 찾는 과정이지 않을까요? 저만의 것을 만들고 싶은 욕심도 있지만 이것도 가능성으로 우선은 열어두려고요.   내가 뭘 원하고, 뭘 좋아하는지, 내 시간을 어떻게 쓸지, 삶을 어떻게 살지에 대한 문제에 가깝네요. 5년은 정말 잘 모르겠어요. 그래도 많은 걸 계속해서 배우고 싶어요.

2023.04.04
after-image
소리 만들어주는 AI는 없나요? : 사운드와 생성 AI

ChatGPT가 불러온 생성 AI 돌풍 (Writer: Keunwoo Choi) ChatGPT 만큼 사람들의 삶에 빠르게 스며든 기술이 또 있었을까 싶을 정도로 생성 AI에 대한 관심이 뜨겁습니다. 마치 스마트폰의 초창기를 보는 듯, 새로운 패러다임이 찾아오는 것이 아닐까 하는 기대까지 하게 됩니다. 이처럼 ChatGPT에서 시작된 생성 AI 열풍이 글쓰기가 아닌 미술, 음악과 같은 다른 콘텐츠 영역까지 그 영향력을 확장하고 있음을 실감합니다.   사운드 분야의 생성 AI   사운드 분야도 예외는 아닌데요, 목소리를 AI로 합성하거나 음악을 작곡하는 등의 기술은 이미 많은 관심을 받아왔습니다. 하지만, 우리 주변에서 들려오는 소리를 생각해보면 음성이나 음악의 비중은 사실 크지 않습니다. 오히려 키보드 치는 소리, 옆 사람의 숨소리, 냉장고 소음과 같이 작은 소리가 모여 우리를 둘러싼 소리 환경을 만들고 있습니다. 결국 이러한 소리들이 없으면 아무리 잘 생성된 음성과 음악이라도 충분히 그 빛을 발할 수 없다는 것이기도 합니다.     이렇게 중요하다면, 그동안 우리 주변의 소리(원활한 표현을 위해 ‘효과음(Foley Sound)’이라고 칭하겠습니다)를 만드는 AI가 없었던 이유는 무엇일까요? 답은 간단합니다. 이것이 가장 난이도 높은 일이기 때문입니다. 세상의 모든 소리를 만들기 위해서는 세상의 모든 소리에 대응하는 소리의 데이터를 갖추고 있어야 합니다. 그만큼 고려해야하는 변수도 많을 수 밖에 없습니다.    하지만 이런 어려움에 굴복할 가우디오랩이 아닙니다.  세상의 모든 소리를 만들기 위해서는 세상의 모든 소리에 대응하는 소리의 데이터를 갖추고 있어야 합니다. 그만큼 고려해야하는 변수도 많을 수 밖에 없습니다.    긴 말 할 것 없이 데모부터 들어보시죠.   AI가 만든 소리 VS 실제 소리     여러분은 몇 개의 정답을 맞추셨나요?들으신 것 처럼 AI가 생성한 사운드의 수준은 실제 녹음된 사운드에 버금갈 정도로 많은 발전을 이루었습니다. 이젠 본격적으로 이렇게 놀랄 정도로 사실적인 사운드를 만들기 위한 AI 기술의 원리를 더 자세히 들여다 보겠습니다.   소리를 AI로 만듭니다.   소리를 표현하는 방식: 파형 그래프   뜬금없어 보이지만 AI로 소리를 만들어내는 과정을 설명하기 위해서는 소리를 표현하는 방식부터 짚고 넘어가야 합니다. 이런 이미지는 아마 많이 보셨을 것 같습니다.     소리의 파형을 시간대별로 나타낸 그래프로, 언제 어느 정도 크기의 소리가 나는지는 짐작할 수 있지만 이 소리가 어떤 특성을 가졌는지까지 파악할 수는 없습니다.   소리를 표현하는 방식: 스펙트로그램 (Spectrogram)   이러한 한계를 극복하고자 만들어진 것이 스펙트로그램입니다.     한눈에 봐도 앞선 그래프보다 많은 정보를 담고 있는 것처럼 보입니다.   자세히 살펴보면, x축은 시간, y축은 주파수, 그리고 각 픽셀의 색깔은 소리의 크기를 나타냅니다. 즉, 스펙트로그램은 어떤 소리에 대한 모든 정보를 담고 있는, 마치 소리의 DNA와 같은 존재라고 할 수 있습니다. 그렇기에 스펙트로그램을 오디오 신호로 변환할 수 있는 도구만 있다면, 소리를 만드는 것은 곧 이미지를 만드는 작업과 동일하다고 볼 수 있는것이죠. 이렇게 되면 많은 일이 간단해집니다. Open AI의 DALL-E 2 에서 사용된 것과 같은 디퓨전 기반 이미지 생성 알고리즘을 그대로 사용할 수 있기 때문입니다.   자, 이제 스펙트로그램을 설명한 이유를 아시겠나요? 이젠 정말로 소리를 만드는 과정을 자세히 살펴보겠습니다.   AI로 소리 만들기, 이렇게 합니다.     1단계: 텍스트 입력에서 작은 스펙트로그램 생성하기   첫 단계에서는 만들고 싶은 소리에 대한 입력을 처리합니다. ‘우렁찬 호랑이의 포효’라는 텍스트를 입력으로 받으면, 디퓨전 모델이 랜덤한 노이즈에서 작은 사이즈의 스펙트로그램을 만들어냅니다. 이 때 만들어진 스펙트로그램은 16x64 픽셀로 이루어진 작은 이미지인데요, 각 숫자는 16개의 주파수 밴드와 64개의 프레임을 나타냅니다. 얼핏 보면 이걸로 뭘 할 수 있겠냐는 의문이 드시겠지만 작은 스펙트로그램도 소리에 대한 상당한 정보를 담고 있습니다. 2단계: 슈퍼 레졸루션(Super Resolution)   그 이후에는 이런 작은 이미지를 점차 개선해 나가는 ‘슈퍼 레졸루션’ 단계를 거칩니다. 디퓨전 모델이 여러 단계를 거쳐 해상도를 개선하면 위에서 본 것과 같은 명료한 형태의 스펙트로그램이 완성됩니다. 3단계: 보코더 (Vocoder)   이제 마지막 단계로 스펙트로그램을 오디오 신호로 변환해주기만 하면 됩니다. 이 때 사용되는 것이 보코더 입니다. 하지만 시중에 오픈소스로 공개되어있는 대부분의 보코더는 음성 신호를 학습하여 제작되었기 때문에 다양한 소리에 대응해야 하는 지금과 같은 시나리오에 적합하지 않다는 점이 문제였습니다. 이에 가우디오랩은 내부 데이터로 학습시킨 세계 최고 수준의 보코더를 개발했습니다. 2023년 상반기 중에는 이러한 보코더를 오픈 소스로 공개할 계획도 가지고 있습니다.   사운드 생성 AI, 가우디오랩이 잘 만들 수 밖에 없는 이유   사운드 생성 AI 개발, 왜 어려울까요?   얼핏 보면 쉬워보이는 과정이지만, 마침내 그럴듯한 소리가 나오기까지 정말 많은 장애물을 거쳐야 했습니다. AI는 도구일 뿐, 실제로는 ‘오디오를 잘 해야만’ 풀 수 있는 문제이기 때문입니다.   일단 오디오 데이터는 그 크기가 남다릅니다. ChatGPT가 학습한 데이터는 약 570GB, 지난 10년간 딥러닝 발전을 이끌어온 이미지넷이 다루는 데이터는 약 1,000개의 카테고리에서 150GB 정도입니다. 하지만, 가우디오랩이 다뤄야 했던 데이터는 약 10TB에 달합니다. 이를 시간으로 바꿔보면 약 1만 시간 분량의 데이터입니다. 이것들을 수집하고 관리하는 데만 해도 상당한 노하우가 필요했을 뿐만 아니라, 학습을 위해 오디오 데이터를 불러오는 시간(i/o 오버헤드)를 줄이는 것도 큰 과제였습니다.   어렵게 학습을 시키더라도 오디오의 경우 AI 모델을 평가하는 것 자체가 어렵습니다. 생성된 시간만큼 들어봐야 하기 때문에 평가에 필요한 시간이 클 뿐더러, 청취 환경에도 큰 영향을 받기 때문입니다.    사운드 생성 AI도 전문가가 만들면 다릅니다.   다행히 가우디오랩에는 프라운호퍼, 삼성전자, 스포티파이 등 글로벌 레벨의 기업에서 풍부한 오디오 연구 경험을 쌓은 음향공학 분야의 석박사급 전문가들이 존재하고, 그들이 직접 청취 평가에 참여하고 있습니다. 그렇기 때문에 그들의 소위 ‘골든 이어’ 로서의 예민함, 좋은 소리에 대한 집착, 그리고 뛰어난 전문성이 그대로 AI 성능에도 반영되고, 이것이 세계 최고 수준의 생성 AI를 만들 수 있는 가우디오랩만의 따라올 수 없는 강점이 되고 있습니다.   사운드 생성 AI, 이렇게 발전합니다   가우디오랩이 그리는 미래는 메타버스에 있습니다. 사운드 생성 AI를 만들게 된 것도 소리 없는 메타버스에 소리를 채우기 위함이었습니다. 물론 지금까지 만들어진 모델의 성능이 뛰어나지만, 세상의 모든 소리를 담으려면 가야할 길이 꽤 많이 남았습니다.     DCASE 2023 이벤트 참여 소식    그래서 가우디오랩은 이렇게 어려운 문제를 해결하기 위해 DCASE 라는 이벤트에 Lead Organizer로 참여합니다! 세계 곳곳에서 모인 최고 수준의 오디오 연구자들과 함께 더 좋은 소리를 만드는 여정을 응원하고, 또 가우디오랩이 만들어낸 사운드가 얼마나 좋은지를 널리 알리기 위한 목적입니다.    DCASE의 결과는 5월에 발표됩니다. 과연 이렇게나 뛰어난 가우디오랩의 사운드 생성 AI가 세계에서는 어떤 평가를 받게 될까요? 좋은 소식으로 여러분을 찾아뵐 수 있도록 많은 응원 부탁드립니다!    곧 AI로 만든 소리도 함께 공개할 예정이니 많은 관심 부탁드려요!   

2023.04.18