AES Dublin 2019 프리뷰
AES (Audio Engineering Society) Convention 은 매년 봄과 가을에 열리는 오디오 업계의 가장 크고 오래된 역사를 가진 전시+학회 입니다. 봄에는 유럽 (영국포함)에서 가을에는 미국 (주로 New York)에서 열립니다. 미국에서 열리는 경우 전시회가 행사의 스케일을 키워주는 반면, 유럽에서 진행하는 봄 컨벤션의 전시회는 깜짝 놀랄 만큼 작고 (동네 바자회 아냐?), 대신 제출된 논문들과 회의장의 디스커션은 깊이가 조금 더 있는 느낌도 듭니다.
이번 제146차 AES Convention은 2019.3.20-23, 더블린 (아일랜드)에서 열립니다. 프로그램 미리보기로 더블린에 마음을 띄워보내봅니다.
4일간에 걸친 Paper Session (Engineering Brief 포함)의 세션 제목들만 보아도 현재 학계의 유행 트렌드를 볼 수 있습니다. 예를들어 VR의 바람이 거세던 2015년부터 직전 AES까지는 (Spatial Audio 세션과는 별개로) Binaural Audio 만 따로 모은 세션이 2-3개씩 될 만큼 (논문 편수로는 ~20여개) 때아닌 열풍이 불었었죠. 가우디오랩도 키노트 발표를 하는 등 유행을 거들었던 바 있구요. 이번 AES에서는 바이노럴 바람이 좀 잠잠해진 기미가 보이네요. 총 22개의 Paper Session 가운데 Spatial Audio는 딱 차례 있습니다. 물론 HRTF, Ambisonics, 3D Audio 등 관련 논문들이 여기 저기 다른 세션에 포함되어 있기는 하구요. 그리고, 쉽게 예상할 수 있듯, Machine Learning 태풍은 AES도 그대로 투영되어 독립 세션이 2개나 등장하였습니다. 아직까지 Audio Machine Learning은 음성이나 영상에 비하면 상당히 미개척된 분야라고들 하지요.
AES Convention에는 Paper Session 이외에 조금 더 간단한(?) 실험결과나 유용한 정보를 담은 Engineering Brief 세션들이 따로 있고 (경우에 따라 정규 논문과 별 구별이 없습니다), Tutorials와 Workshop들도 4일 내내 꽉꽉 담아 동시에 진행되어서 현장에 도착하면, AES 전통의 가이드북 (사진)을 들고 이방 저방 찾아다니며 뭘 들어야 하나 선택장애 상황에 놓이곤 하죠.
이번 AES Dublin에서 관심 가는 논문들을 몇 개 픽 (Pick) 합니다. (가우디오랩의 주관심분야에 한정된 선택이니 그 여부가 본 AES의 대표 자격을 의미하진 않습니다 ^^)
Convention Paper
P15-2 Turning the DAW Inside Out—Charles Holbrow, Massachusetts Institute of Technology – Cambridge, MA, USA; MIT Media Lab
“Turning the DAW Inside Out” describes a speculative, internet-enabled sound recording and music production technology. The internet changed music authorship, ownership, and distribution. We expect connected digital technologies to continue to affect the processes by which music is created and consumed. Our goal is to explore an optimistic future wherein musicians, audio engineers, software developers, and music fans all benefit from an open ecosystem of connected digital services. In the process we review a range of existing tools for internet enabled audio and audio production and consider how they can grow to support a new generation of music creation technology.
Convention Paper 10183
요즘 스트리밍 미디어로서 음악 및 오디오 서비스가 어떻게 진화할 지에 관심이 높은데, 제목과 요약이 호기심을 끌었네요. 그런데, 요약이 너무 거창해서 실속 없는 총론뿐일까 하는 의문도 드네요. 뮤지션, 오디오 엔지니어, 소프트웨어 개발자, 음악 팬이 모두 베네핏을 얻을 수 있는 오픈 에코시스템이라… too good to be true?
P20-2 Automatic Detection of Audio Problems for Quality Control in Digital Music Distribution—Pablo Alonso-Jiménez, Universitat Pompeu Fabra – Barcelona, Spain; Luis Joglar-Ongay, SonoSuite – Barcelona, Spain; Xavier Serra, Universitat Pompeu Fabra – Barcelona, Spain; Dmitry Bogdanov, Universitat Pompeu Fabra – Barcelona, Spain
Providing contents within the industry quality standards is crucial for digital music distribution companies. For this reason an excellent quality control (QC) support is paramount to ensure that the music does not contain audio defects. Manual QC is a very effective and widely used method, but it is very time and resources consuming. Therefore, automation is needed in order to develop an efficient and scalable QC service. In this paper we outline the main needs to solve together with the implementation of digital signal processing algorithms and perceptual heuristics to improve the QC workflow. The algorithms are validated on a large music collection of more than 300,000 tracks.
우린 별 생각 없이 음악스트리밍 서비스를 접하고 있지만, 스포티파이는 6천만곡, 한국의 벅스는 2천만곡이 넘는 노래를 보유하고 있고, 매일 수천에서 수만곡이 새로 추가되고 있다고 하더군요. 그런데, 그 많은 곡들을 들어보고 서비스할까? 19금 가사는 없는지, 음질은 안깨졌는지, … QC (Quality Control) 을 어떻게 해결할까 호기심가는 주제였는데, 여기 그 고민을 하고 솔루션을 제시한 곳이 있네요. 설명으론 요즘 유행하는 기계 + 사람 워크플로를 제안하는 것 같네요…
P17-4 Detecting Road Surface Wetness Using Microphones and Convolutional Neural Networks—Giovani Pepe, Universitá Politecnica delle Marche – Ancona, Italy; ASK Industries S.p.A. – Montecavolo di Quattro Castella (RE), Italy; Leonardo Gabrielli, Universitá Politecnica delle Marche – Ancona, Italy; Livio Ambrosini, Universita Politecnica delle Marche – Ancona, Italy; ASK Industries S.p.A. – Montecavolo di Quattro Castella (RE), Italy; Stefano Squartini, Università Politecnica delle Marche – Ancona, Italy; Luca Cattani, Ask Industries S.p.A. – Montecavolo di Quattrocastella (RE), Italy
The automatic detection of road conditions in next-generation vehicles is an important task that is getting increasing interest from the research community. Its main applications concern driver safety, autonomous vehicles, and in-car audio equalization. These applications rely on sensors that must be deployed following a trade-off between installation and maintenance costs and effectiveness. In this paper we tackle road surface wetness classification using microphones and comparing convolutional neural networks (CNN) with bi-directional long-short term memory networks (BLSTM) following previous motivating works. We introduce a new dataset to assess the role of different tire types and discuss the deployment of the microphones. We find a solution that is immune to water and sufficiently robust to in-cabin interference and tire type changes. Classification results with the recorded dataset reach a 95% F-score and a 97% F-score using the CNN and BLSTM methods, respectively.
Convention Paper 10193
자율주행 자동차를 위해 마이크 신호로 노면이 젖었는지를 판별하겠다고 합니다. 대표적 머신러닝 기법인 CNN을 이용해서요.. 타이어에 따라 달라지는 특성도 고려한다고 하는데, 자율주행의 완벽성을 위해 하나 더 센싱에 말이 안되는 얘기는 아닌 것 같습니다.
P05-6 ANC System Using Secondary Path Modeling Based on Driver’s Position in Vehicle—Seyeong Jang, Hyundai Mobis – Seoul, Korea; Jongin Jung, Hyundai Mobis – Seoul, Korea; Hyungsub Lim, Hyundai Mobis – Seoul, Korea
In this paper we propose a study of active noise control systems using the concept of Secondary Path modeling based on driver position in the vehicle. The system obtains estimates of the Secondary Path within range of occupant location and applies them to the ANC system to compensate for change depending on the driver’s position. We used the Offline Secondary Path modeling method and FxLMS algorithm in ANC System. Under assumption of detecting a change in position, the secondary path model is applied according to the occupant position and used as initial value of the ANC system. Therefore, ANC performance is better than a system that does not consider existing changing Secondary Path.
Convention Paper 10149
한국분들 (모비스)이 저자인 논문이라 일단 픽.했습니다. ANC (Active Noise Canceling). 노이즈캔슬링 헤드폰의 그 ANC입니다. 차량 실내 혹은 엔진 배기통을 ANC로 해결해보고자 하는 시도는 1990년대에도 한참 연구가 되었을만큼 오래된 분야입니다. 운전석의 소음을 줄이기 위해 ANC의 대표 접근방법이랄 수 있는 Filtered-X LMS (FxLMS) 를 2차 path를 추가하여 개선하는 방법을 다루고 있는 것 같네요.
P14-2 B-Format Decoding Based on Adaptive Beamforming—Alexis Favrot, Illusonic GmbH – Uster, Switzerland; Christof Faller, Illusonic GmbH – Uster, Zürich, Switzerland; EPFL – Lausanne, Switzerland
B-Format signals can be decoded into signals with first order directivity. For stereo and multichannel decoding it would be desirable to have more channel separation than what is achievable by first order. DirAC (directional audio coding) and HARPEX (high resolution plane wave expansion) achieve higher channel separation by means of using a parametric B-Format model to estimate plane waves and diffuse sound, and adaptively rendering those. A limitation is that plane wave and diffuse models are too simple to represent complex B-Format signals. We propose a B-Format decoder, where each channel is generated by an independent adaptive B-Format beamformer. Each beam is generated independently of the other beams, circumventing the limitation when using a single B-Format signal model.
Convention Paper 10180
가우디오랩과 Illusonic GmbH (스위스 소재의 오디오 기술회사입니다) 15년이 넘는 우정을 나누는 친구회사입니다. 올해도 거르지 않고 논문이 나왔네요. 훈남청년 (이젠 중년?) Alexis가 B-format (Ambisonics) 신호로부터 Adaptive Beamforming 기술을 이용해서 다채널 (e.g. 5.1채널) 오디오 신호를 잘 만들어냈다는 내용을 쓴 것 같습니다.
EB01-4 Consideration on the Design of Multi-Zone Control System in a Vehicle Cabin—Wan-Ho Cho, Korea Research Institute of Standards and Science (KRISS) – Daejeon, Korea, Republic of; Ji-Ho Chang, Korea Research Institute of Standards and Science (KRISS) – Daejeon, Korea
The personal audio system to generate different sound conditions for each seat in a vehicle cabin is the representative application of multi-zone sound field control. Here, the effectiveness validation of source positions and the robustness of estimated solutions are investigated for the design of a multi-zone control system in a vehicle cabin. To quantify the efficiency of source position, the linear independency test of transfer matrix between the candidate positions of sources and listener is conducted, and an efficient position is selected by the quantified value estimated by the effective independence method. The dummy head source system is applied to measure the transfer matrix efficiently. With the properly selected source positions, it is observed that the control performance is prominent and robust.
Engineering Brief 494
역시 한국저자분들이라 일단 픽 ^^. 한국표준과학연구원 (KRISS)에서 차량내 Personal Audio System (위치별로 사운드존을 형성) 관련한 연구 내용을 공유했네요. 소스 (음원이겠죠?)의 위치에 따라 성능이 달라지는 것을 확인했다는 내용인 것 같습니다…
EB04-1 A Study in Machine Learning Applications for Sound Source Localization with Regards to Distance—Hugh O’Dwyer, Trinity College – Dublin, Ireland; Sebastian Csadi, Trinity College Dublin – Dublin, Ireland; Enda Bates, Trinity College Dublin – Dublin, Ireland; Francis M. Boland, Trinity College Dublin – Dublin, Ireland
This engineering brief outlines how Machine Learning (ML) can be used to estimate objective sound source distance by examining both the temporal and spectral content of binaural signals. A simple ML algorithm is presented that is capable of predicting source distance to within half a meter in a previously unseen environment. This algorithm is trained using a selection of features extracted from synthesized binaural speech. This enables us to determine which of a selection of cues can be best used to predict sound source distance in binaural audio. The research presented can be seen not only as an exercise in ML but also as a means of investigating how binaural hearing works.
Engineering Brief 509
더블린에서 열리니 더블린 논문이 많아지는건 당연한거고. 유행하는 머신러닝과도 만났네요. 머신러닝 기법을 이용하여 바이노럴 신호 (레코딩? 합성?)로부터 음원의 거리를 추정하는 연구라네요. 50cm 이내의 음원에 대해 거리를 알아내는데 그 과정에서 거리에 영향을 주는 binaural hearing에 무엇이 있는지 덤으로 얻을 수 있다는군요. 제시된 요약만으로 왜 이 연구를 했는지 명확해보이진 않고, 따라서 50cm 이내라는 제약이 실험의 한계인지, 응용 시나리오가 그렇기 때문인지도 불명확하네요.
EB06-1 The Effect of HRTF Individualization and Head-Tracking on Localization and Source Wdith Perception in VR—Hengwei Su, Tokyo University of the Arts – Tokyo, Japan; Atsushi Marui, Tokyo University of the Arts – Tokyo, Japan; Toru Kamekawa, Tokyo University of the Arts – Adachi-ku, Tokyo, Japan
In this study the effects of head-tracking and HRTF individualization by subjective selection on localization and width perception of widen-processed sources in VR were investigated. Localization test and the perceived width evaluation were conducted under conditions with or without head-tracking and using individualized or non-individual HRTF. For the perceived width evaluation, monophonic signals were processed by a method proposed in previous studies, which aimed to create spatial extent for sound objects in the binaural synthesis. According to the results, head-tracking not only was effective to improve localization accuracies in localization test, but also could help synthesized source widths to be localized more accurately. No difference in perceived width was found under different conditions.
Engineering Brief 520
유행하던 바이노럴 / HRTF 연구의 연장선으로, 헤드트래킹과 HRTF 개인화 (각 개인에 따라 맞춘 HRTF 사용)가 localization (음원의 공간 위치 정확도)과 source width (음원의 크기)에 미치는 영향을 분석한 논문 (Brief)입니다. 맞게 해석한 것이라면, 헤드트레킹은 localization과 width 정확성에 모두 도움이 되지만 개인화는 영향이 없다는 것 같군요.
Tutorials
이번 AES Convention에서 제목만으로 관심을 끌만한 Workshop을 발견하진 못했습니다. Tutorials 중에서는 다음의 2개를 꼽았는데요..
T19 – Practical Deep Learning Introduction for Audio Processing Engineers
Presenter: Gabriele Bunkheila, MathWorks – Madrid, Spain
Are you an audio engineer working on product development or DSP algorithms and willing to integrate AI capabilities within your projects? In this session we will walk through a simple Deep Learning example for speech classification. We will use MATLAB code and a speech command dataset made available by Google. We will cover creating and accessing labeled data, using time-frequency transformations, extracting features, designing and training deep neural network architectures, and testing prototypes on real-time audio. We will also discuss working with other popular Deep Learning tools, including exploiting available pre-trained networks.
신호처리 연구자들의 비빌언덕 매틀랩에서도 머신러닝 툴셋을 제공하고 있는데요, 그 툴들을 오디오 엔지니어들이 활용할 수 있도록 소개하는 자리인 것 같습니다.
T26 – Sound for Extreme 360° Productions
Presenter: Martin Rieger, VRTONUNG – Munich, Germany
The workshop shows various examples of 360-degree video productions under challenging conditions, featuring location recordings and post-production. The purpose of the talk is to give practical insights of immersive VR-videos and how sound on vision needs to be contemplated, which varies a lot from usual film formats and requires a lot of knowledge additional to audio as such. Different technologies and sometimes even custom solutions are needed on set and in post. There is no use for a boom microphone and its operator, which gets replaced by an immersive microphone array which there is, just like for 360° cameras, no perfect setup for every occasion as people tend to claim that there is.
가우디오랩의 VR360 저작툴인 Works를 사용하는 고갱님이기도 한데요, 익스트림 환경 (이 어떤 예들을 말하나는 모르겠네요)에서 VR video에 적합한 오디오 취득, 편집 기법을 연구한 내용을 소개하려는 것 같습니다. VR이 활성화되는데 시간이 걸리는 이유의 첫번째는 디바이스 확산 속도이겠지만, 콘텐츠를 제작하는 비용도 또다른 원인중에 하나이지요. Works는 그 문제를 해결하기 위해 등장했던 툴이기도 했구요…
이상으로 2019년 봄 AES Convention, Dublin 을 프리뷰해보았습니다. 이제 비행기 예약을 고민할 때?
Gaudio Lab 은…
가우디오랩(주)는 VR/AR, 스트리밍 미디어, 모바일, 홈 등 소리가 있는 어디에서나 사람들에게 훌륭한 소리 경험을 제공하는 일을 합니다. 인터넷으로 연결된 가상 세계를 더욱 현실처럼 만드는 소리 기술들로 전세계를 누비며, “올해의 최고 VR 혁신 기업상 수상 (VR Awards, 런던, 2017)”, “ISO/IEC MPEG-H 3D Audio 국제표준 채택 (2013, 2018)”으로 혁신적인 오디오 기술력을 인정받았습니다. 음향공학박사 6명을 비롯한 가우디오랩의 오디오 긱들은 실리콘밸리와 서울에 서식하고 있습니다.
2019.03.05