헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

올해 6월부터 애플뮤직에서 Dolby Atmos 음원을 지원하기 시작한 것을 계기로 헤드폰이나 이어폰에서 어떻게 Dolby Atmos 음원의 공간감을 구현하는지를 찾아 봤습니다. 제가 홈시어터나 하이파이에 관심이 있는 사람이 아닌지라 애플 뮤직에서 Dolby Atmos를 지원하기 전까지는 어렴풋이 이름만 알고있던 기술인데, 짧은 기간동안 찾아본 내용을 정리한 글이라 잘못된 내용이 있을 수 있음은 미리 양해를 구합니다.

 

1. Dolby Atmos란?

Dolby Atmos는 이전의 Dolby Surround 시스템과 비교하여 크게 두가지의 차이가 있습니다. 첫번째 차이는 기존 Dolby Surround 시스템은 평면상에서 360도 방향으로부터의 소리를 표현할 수 있는데 반해 Dolby Atmos의 경우 평면상의 360도 방향에 더해 위/아래 방향에서 들리는 소리도 표현이 가능하다는 것입니다.

1.1 높이 방향의 공간감 구현

아래 두 그림 중 첫번째 그림은 Dolby Surround 7.1 채널 시스템 구성 예제를 보여주고 있는데 앞쪽에 좌/중앙/우 3개의 스피커가 있고 나머지 4개의 스피커가 좌/우, 그리고 후방의 좌/우 방향에 배치되어 총 7개의 스피커가 7 채널을 구성하고 있으며, 여기에 방향성이 없는 저음(우퍼) 채널이 1개 추가되어 7.1 채널을 구성하게 됩니다. Dolby Atmos 시스템의 경우 두번째 그림과 같이 천장에 4개의 스피커가 추가되어 7.1.4 채널을 구성하여 소리가 들리는 방향과 함께 높이까지 표현할 수 있습니다. 상황에 따라 전후좌우 방향의 스피커 배치는 5개 또는 9개도 될 수 있고 천장의 스피커도 2개나 6개 등으로 구성될 수 있어 상황에 맞게 5.1.2 채널 9.1.6 채널등 다양하게 스피커를 구성할 수 있습니다. 높이 방향의 스피커는 반드시 천정에 설치할 필요는 없고 윗 방향으로 소리를 쏘아 천장에서 반사되는 소리를 이용할 수도 있다고 합니다.

헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

Dolby surround 7.1 채널 시스템의 스피커 배치 (이미지 출처 – https://www.dolby.com/about/support/guide/speaker-setup-guides/7.1-virtual-speakers-setup-guide/ )

 

헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

Dolby Atmos 7.1.4 채널 시스템의 스피커 배치 (이미지 출처 – https://www.dolby.com/about/support/guide/speaker-setup-guides/7.1.4-overhead-speaker-setup-guide/ )

 

1.2 스피커와 독립적인 채널 구성

Dolby Surround 시스템과 Atmos 시스템의 두번째 차이는 채널을 사용하는 방식입니다. Dolby Surround 시스템의 경우에는 각각의 채널이 스피커 하나하나에 대응되어 있습니다. 두대의 악기 소리가 왼쪽에서 오른쪽으로 움직이는 효과를 내고 싶다면, 두 악기의 소리가 합쳐진 상태로 왼쪽 스피커 채널에서 출력하다가 가운데 스피커의 채널로 출력한 후 다시 오른쪽 스피커의 채널로 출력하도록 믹싱을 해야합니다. 두대의 악기 소리는 이미 합쳐져 있고 스피커 위치에 따른 채널을 이동하는 식으로 공간감을 표현하는 것이지요.

Dolby Atmos의 경우는 각 채널이 스피커에 대응되는 대신 각각의 악기(또는 보컬)에 대응이 되며 각각의 채널은 공간상에서의 위치 정보를 함께 가지고 있게 됩니다. 두대의 악기 소리가 왼쪽에서 오른쪽으로 움직이는 효과를 구현할 때 각각의 악기소리는 합쳐지지 않고 별도의 채널로 저장되며 각각 왼쪽에서 오른쪽으로 소리가 이동한다는 정보를 담고있게 됩니다.

아래의 스크린샷은 Dolby Atmos 믹싱 tool의 스크린 샷인데, 오른쪽 하단을 보면 청자를 중심으로 가상의 공간이 설정되어 있고 각각의 채널별로 다른 공간 정보가 할당된 것을 보실 수 있습니다. (연두색, 노란색, 주황색 원들이 각각의 채널을 나타냅니다.) Dolby Atmos 음원에는 스피커 배치와 독립적인 공간 정보가 담겨져 있고 Dolby Atmos 디코더가 음원을 재생할 때 채널에 포함된 공간정보를 바탕으로 현장에 설치된 스피커에 맞게 각 채널로 소리를 전달하게 됩니다.

헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

Dolby Atmos Renderer 스크린 샷 – (이미지 출어 – http://www.avidblogs.com/ko/dolby-atmos-software-right-for-you/ )

 

2. Binaural Recording

앞에서 설명한 Dolby Atmos나 Surround 시스템의 경우 여러개의 스피커가 물리적으로 전후좌우 및 위/아래로 배치되어 있으므로 공간 정보가 채널에 맞게 할당되어 있기만 하면 공간감을 느낄 수 있는 것은 자연스러운 결과입니다. 하지만 각각의 방향에 설치된 여러개의 스피커가 없더라도 Dolby Atmos 디코더를 잘 구현하면 이어폰/헤드폰 만으로도 공간감을 구현하는 것도 가능합니다. 이 원리를 이해하려면 먼저 Binaural Recording에 대한 개념을 이해할 필요가 있습니다.

Binaural Recording은 사람의 고막에서 들리는 그대로를 녹음해서 이어폰/헤드폰으로 재생하여 2개의 스피커만으로도 공간감을 구현하는 기술입니다. 이를 위해서 아래 영상에서 보이는 것과 같이 사람 머리 모양의 마네킹에 귓구멍의 모양도 실제 사람과 유사하게 만들고 내부도 사람의 머리와 비슷한 밀도의 물질로 채운 후 고막에 해당하는 위치에 2개의 마이크를 설치하여 스테레오로 녹음합니다. 헤드폰이나 이어폰을 끼고 아래의 영상을 재생해보면 (4:57 근처부터) 소리가 들리는 방향과 거리가 영상의 상황과 깜짝 놀랄정도로 일치하는 것이 느껴집니다.

 

 

이는 Binaural Recording이 사람이 소리를 듣는 방법을 그대로 모사하기 때문입니다. 소리가 들리는 방향에 따라 왼쪽귀와 오른쪽귀에 도달하는 소리사이에 시간차도 발생하고, 소리의 방향에 따른 머리와 귓구멍의 울림이 달라지기 때문에 주파수 별로 소리가 감쇄되는 정도도 달라지게 됩니다.이러한 변화가 반영된 좌/우 채널의 소리가 사람이 듣는 그대로 녹음되기 때문에 공간감을 느낄 수 있게 되는 것이지요.

이러한 감쇄를 함수로 표현한 것을 HRTF(Head-Related Transfer Function)라고 합니다. 아래의 그림을 보면 이해가 쉬울텐데 각각의 그래프에서 가로축은 주파수 세로축은 감쇄량인데 소리의 방향에 따라 HRTF 커브의 모양이 달라지는 것을 확인할 수 있습니다. 공간정보가 없이 녹음된 소리에 방향에 따른 HRTF를 바꿔가며 적용한 소리를 들려주면 소리의 방향이 바뀌는 듯한 느낌을 받게 되는 것이지요.

헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

소리의 방향에 따른 HRTF (이미지 출처 – https://www.dpamicrophones.com/mic-university/binaural-recording-techniques )

 

3. 소리에 공간감을 더하는 방법 (BRIR)

Binaural Recording을 통해 스테레오채널 만으로도 공간감을 구현할 수 있긴 하지만 Binaural Recording은 한계가 있습니다. 음원을 녹음할 때 매번 사람 머리모양의 마네킹을 이용하는 것도 쉽지 않고 이렇게 녹음된 음원은 좌/우 2개의 채널만은 가지고 있기 때문에 여러개의 스피커가 배치된 홈시어터나 극장에서 제대로 재생될 수가 없습니다. 앞에서 Dolby Atmos 음원은 각 채널마다 방향성 없이 녹음된 소리와 함께 공간상에서의 위치정보를 담고 있다고 했는데, 이어폰/헤드폰에서 공간감을 살리기 위해서는 각 채널별로 가상의 공간상 위치에 따른 왼쪽귀와 오른쪽귀에 대한 HRTF를 적용한 신호들을 좌/우 따로 더하여 스테레오 스피커로 들려주는 작업이 필요합니다.

방향 정보가 없는 소리에 방향성을 더하는 방법으로는 BRIR(Binaural Room Impulse Response)이 있습니다. 신호처리를 전공했다면 친숙한 특성인데, 방향성이 없는 소리와 공간상의 울림이 반영된 impluse response에 대해 convolution 연산을 하면 결과로 나오는 소리는 해당 공간의 울림을 반영한 소리가 됩니다. 이에 대한 자세한 내용이 궁금하시다면 링크의 영상을 참고하시기 바랍니다.

Impulse 신호는 디지털 샘플링 된 소리를 기준으로 첫번째 샘플만 1의 값을 가지고 나머지는 전부 0의 값을 가지는 소리인데, 이 신호를 스피커로 재생했을 때 공간상에서의 소리의 반사와 감쇄를 반영하여 마이크에 들리는 소리를 impulse response라고 합니다. Impulse 신호는 첫번째 샘플만 정보가 있지만 impulse response는 공간상에서의 반사와 감쇄에 의한 영향으로 이후의 샘플들도 0이 아닌 값을 갖게 됩니다. 그리고 BRIR은 특정 공간상의 impulse response에 대해 앞에서 설명한 Binaural Recording을 진행한 결과입니다.

아래의 그림은 사람의 정면과 우측에서의 BRIR을 파형으로 보여주고 있는데, 정면의 impulse response는 오른쪽과 왼쪽귀에 거의 비슷한 impulse response가 들어오지만 오른쪽의 impulse response는 오른쪽에서 소리가 크게 들리고 왼쪽에서는 훨씬 약하게 들리는 것을 보실 수 있습니다. (그림은 유튜브 Binaural Rooms Impulse Responses and Spatial Sound 영상에서 캡처했는데 한 번 보시는 것을 추천합니다.)

 

헤드폰에서 Dolby Atmos 음원의 공간감을 구현하는 원리

소리의 방향에 따른 BRIR (이미지 출처 – 유트브 영상 Binaural Rooms Impulse Responses and Spatial Sound 스크린 캡처)

 

특정한 공간상에서의 모든 거리와 방항에 대한 BRIR을 알고 있다면, 방향성이 없는 소리에 대해서 원하는 위치와 방향의 BRIR과 convolution을 계산하여 소리에 방향성을 부여할 수 있게 됩니다. 이제 부터는 저의 추측인데 애플뮤직에서 Dolby Atmos의 공간감을 지원하는 방법은 Dolby Atmos Render 에서 사용하는 가상 공간의 모든 위치에 대해 BRIR을 계산하거나 녹음해 둔 다음 채널에 기록된 공간 정보에 대응하는 BRIR을 convolution 하여 들려주는 것이 아닌가 합니다. 어떤 impulse 신호를 사용하여 impulse response를 얻을지 impulse response를 어느 정도 시점에서 자를지, 어떤 단위로 convolution을 수행할지 등이 실제 구현의 노하우가 되지 않을까 합니다. 애플은 카메라 기능과 관련해서 computational photorgarphy를 추구하고 있는데 Dolby Atmos 지원으로 computational audio 또한 추구하는 회사가 되어 가는 것 같습니다.

 

 

You may also like...

댓글 남기기