PlanetKit 5.2 음성 품질 스냅샷 리포트

2023년 12월 4일

강인규, 김기준, 이상현

LY Corporation Tech Blog에 게시한 LINE 앱에서 음성 품질을 측정하는 방법이라는 글에서, LINE 앱의 음성 품질을 정량적으로 측정하기 위한 세 가지 영역인 에코 제거(acoustic echo cancellation, 이하 AEC), 주파수 응답(frequency response), 손실 강건성(loss robustness)과 각각의 측정 방법을 자세히 살펴본 바 있습니다. LINE 앱은 음성 통화 기능을 위해 LINE Planet에서 제공하는 VoIP 모듈을 사용하고 있으므로, LINE Planet의 음성 품질을 측정하는 데도 동일한 측정 방법을 활용할 수 있습니다.

앞으로 음성 품질에 영향을 미치는 개선 사항이 적용된 LINE Planet 버전이 출시될 때마다 위의 세 가지 영역의 성능을 측정하여 정량적 음성 품질과 이전 버전 대비 개선된 부분이나 추가로 개선이 필요한 부분을 파악하려고 합니다. 여기서 각 버전의 음성 품질 측정 결과를 '음성 품질 스냅샷'이라고 부르겠습니다.

이 글은 LINE Planet 버전 간 음성 품질 스냅샷을 처음으로 비교하고 정리한 글로, 주로 PlanetKit 5.1과 PlanetKit 5.2의 음성 품질 스냅샷을 비교하고 분석한 결과를 다룹니다.

AEC 성능

LINE Planet의 AEC 성능을 정량적으로 평가합니다. 용어 설명, 측정 환경 구성 및 절차는 LINE 앱에서 음성 품질을 측정하는 방법의 'AEC 성능 측정' 섹션을 참고해 주시기 바랍니다.

측정 환경

AEC의 품질 측정은 AEC-Challenge에서 제공하는 2022년 테스트 데이터 셋과 AECMOS를 사용하여 진행하였습니다.

사용한 테스트 데이터 셋은 전대역 오디오(full-band audio)로 구성되어 있으며, 다음처럼 3가지 유형의 800개의 오디오 데이터로 구성되어 있습니다.

Double talk: 300개
Far-end single talk: 300개
Near-end single talk: 200개

AECMOS 측정에는 전대역 오디오의 성능 측정이 가능한 Run_1668423760_Stage_0.onnx 모델을 사용하였습니다.

성능 측정은 최신 버전인 PlanetKit 5.2와 이전 버전인 PlanetKit 5.1에 각각 적용된 AEC를 사용하여 진행하였습니다.

측정 결과

측정된 AECMOS 값은 아래 차트와 같습니다. (5.0점 만점)

측정 결과 해석

PlanetKit 5.2에서는 머신 러닝 기술을 이용한 AEC를 적용하여 AECMOS의 모든 성능 지표의 점수가 상승하였습니다. 특히, 에코를 강하게 제거할수록 음성이 더 많이 손상되는 트레이드오프 상황이 발생하는 것이 일반적이지만, 이번에 적용된 AEC는 이러한 트레이드오프 상황을 극복하여 모든 성능 지표의 점수가 하락하는 부분 없이 전부 상승하였습니다.

각각의 성능 지표에서 개선된 부분은 다음과 같습니다.

DT Echo DMOS
- 기존 버전 대비 0.23점 상승하였습니다. 이 부분은 두 사람이 동시에 말하는 상황에서 발생할 수 있는 에코를 좀 더 잘 제거하게 되었음을 의미합니다.
DT Other MOS
- 기존 버전 대비 1.09점 상승하였습니다. 이 부분은 두 사람이 동시에 말하는 상황에서 상대방의 소리를 더 잘 인식할 수 있게 되었음을 의미합니다. 이 지표는 성능 개선이 가장 어려운 지표이기 때문에 기존의 AEC에서는 매우 낮은 점수를 나타내고 있었습니다. 하지만 이번 버전에서는 이 부분을 크게 개선하여 가장 큰 폭으로 점수가 상승하였습니다.
ST FE Echo DMOS
- 기존 버전 대비 0.17점 상승하였습니다. 이 부분은 한 사람만 말하는 상황에서 발생할 수 있는 에코를 좀 더 잘 제거하게 되었음을 의미합니다.
ST NE MOS
- 기존 버전 대비 0.99점 상승하였습니다. 이 부분은 에코가 발생하지 않는 환경에서 두 사람이 동시에 말하는 경우에 발생할 수 있는 음성의 손상이 개선되었음을 의미합니다. 에코가 발생하지 않는 환경은 이어폰이나 헤드셋을 착용한 상태와 같이 스피커의 소리가 마이크로 전달될 수 없는 상황을 말합니다. 이와 같은 환경에서 두 사람이 동시에 말을 할 경우, AEC는 에코가 발생하지 않았음에도 불구하고 에코가 발생했다고 오판하는 경우가 있습니다. 이렇게 판단에 오류가 발생한 경우에는 상대방에게 전달해야 하는 음성을 에코라고 판단하여 제거하게 되면서 통화에 많은 불편함을 주게 됩니다. 이와 같은 현상은 통역 환경에서 많이 발생하는 것으로 분석되었으며, 이번 버전의 적용으로 인하여 문제가 대부분 개선되었음을 확인하였습니다.

측정 의의와 향후 계획

PlanetKit 5.2에서는 AECMOS의 세부 성능 지표가 올라가는 결과를 보여 주었습니다. 특히, 에코를 제거하면 음 손상이 따라올 수밖에 없는 트레이드오프 관계의 지표들임에도 불구하고 모든 성능 지표가 올라갔다는 것에 의미가 있습니다.

하지만 다른 지표는 모두 4.0 이상의 점수를 나타낸 반면 DT Other MOS는 3점대 중반 점수를 나타내고 있어서, 두 사람이 동시에 말하는 상황에서의 음성 품질 개선이 우선적으로 필요한 상황입니다.

두 사람이 동시에 말을 하는 경우, 스피커에서 출력되는 소리가 말하는 사람의 목소리보다 작을 경우에는 에코 제거 과정에서 목소리를 잘 보존하여 현재 버전에서도 높은 점수를 나타내고 있습니다. 그러나 반대로 스피커에서 출력되는 소리가 말하는 사람의 목소리보다 클 경우에는 에코 제거 과정에서 목소리가 많이 제거되어 낮은 점수를 나타내고 있습니다.

이와 같은 문제를 해결하기 위해 지속적인 연구 및 개발을 진행 중이며, 다른 지표의 품질을 높이기 위한 노력도 지속하고 있습니다.

주파수 응답

LINE Planet의 주파수 응답을 정량적으로 평가합니다. 용어 설명, 측정 환경 구성 및 절차는 LINE 앱에서 음성 품질을 측정하는 방법의 '주파수 응답 측정' 섹션을 참고해 주시기 바랍니다.

측정 환경

송신 측(A)에서 수신 측(B)에 음성 신호를 전송하고, A에서 전송한 음성과 B에서 수신된 음성을 비교하여 주파수 응답을 측정합니다.

측정 환경은 아래와 같습니다.

송신 측(A)
- 사용 기기: MacBook Pro M1
- OS 버전: macOS Ventura 13.4.1
- 오디오 장치: VB cable
- 송신 볼륨 조정: -4dB
- 앱 버전: LINE Desktop 8.4(PlanetKit 5.2)
수신 측(B)
- 사용 기기: MacBook Pro Intel
- OS 버전: macOS Ventura 13.4.1
- 오디오 장치: VB cable
- 앱 버전: LINE Desktop 8.4(PlanetKit 5.2)

측정 결과

측정된 주파수 응답은 아래 그래프와 같습니다.

측정 결과 해석

이번 주파수 응답 측정을 통해 PlanetKit 5.2가 인간의 청각으로 들을 수 있는 최대 주파수 대역인 20kHz까지 커버하고 있음을 확인했습니다. 특히 전반적인 주파수 대역에서 평탄하게 균형이 유지되고 있음을 확인하였습니다. 이러한 특징은 음성의 품질과 명료성을 높여 사용자가 보다 자연스럽게 대화할 수 있게 도와줍니다.

아래는 측정된 주파수 응답의 특징입니다.

120Hz 미만에서의 감쇄

120Hz 미만의 주파수에서 신호 크기가 2~10dB 감쇄되는 경향을 보입니다. 이 주파수 대역은 음성 통화에 아무런 기여를 하지 않기 때문에 의도적인 감쇄가 이루어집니다.
150Hz~350Hz에서의 부스트

150Hz~350Hz의 주파수에서 신호 크기가 0~3dB 부스트되는 경향을 보입니다. 이는 음성의 저주파 대역이 소폭 강조됨을 나타납니다.
7kHz~8kHz에서의 감쇄

7kHz~8kHz의 주파수에서 3dB 감쇄되는 경향을 보입니다. 7kHz~8kHz는 음성의 마찰음, 치찰음을 표현하는 주파수의 일부입니다. 따라서 마찰음, 치찰음의 7kHz~8kHz 영역에서 소폭 감쇄가 발생할 수 있습니다.

이는 LINE Planet의 음성 신호 처리 특성으로, 8kHz 이하의 신호와 8kHz 이상의 신호를 나누어 각각 처리하고, 이를 합치는 과정에서 주파수 접점 영역의 감쇄로 인한 것입니다.
20kHz 이상의 주파수 제한

20kHz 이상의 주파수는 신호가 없습니다. 20kHz 이상의 신호는 가청 주파수를 넘어가는 영역으로, LINE Planet에서는 20kHz 이상의 주파수 영역에 대해 아무런 정보를 전달하지 않습니다.

측정 의의와 향후 계획

주파수 응답 측정을 통해 PlanetKit 5.2는 음성 입력의 왜곡 없이 고르게 출력하는 것을 확인할 수 있었습니다. 또한 상세한 분석을 통해 주파수 특성을 정리할 수 있었습니다.

그중 주파수 응답의 7kHz~8kHz에서 일어나는 감쇄 현상을 확인했으며 이 부분은 개선하는 게 좋아 보입니다. 7kHz~8kHz에서 발생하는 감쇄 현상을 개선하면 음성에서 마찰음과 치찰음처럼 세밀한 부분을 좀 더 잘 표현할 수 있게 됩니다. 따라서 향후 업데이트에서 이 현상을 보완한다면 사용자가 좀 더 고품질의 음질을 경험할 수 있을 것입니다.

유의 사항

본 측정 결과는 macOS에서 측정되었으며, 오디오 장치 및 주변 환경의 영향을 최소화하기 위해 가상 오디오 장치를 사용하였습니다. 본 측정에서 사용된 환경과 다른 환경(앱 버전, 콘텐츠 종류, 송신 볼륨, OS, 오디오 장치 등)에서 측정 시 다른 결과가 나타날 수 있습니다.

예를 들어, 사용된 오디오 장치(스피커나 마이크 장치)가 저주파나 고주파를 정확하게 표현하지 못하거나, 주파수 응답이 평탄하지 않은 경우 다른 결과가 나타날 수 있습니다. 그리고 모바일 기기에서는 초고주파수 대역을 OS에서 차단하는 경우가 흔하므로 초고주파수 대역의 신호가 측정이 안 되기도 합니다.

또한, 콘텐츠가 음성이 아닌 경우에는 잡음으로 간주되어 제거될 수 있고, 이로 인해 주파수 응답 결과가 달라질 수 있습니다.

손실 강건성

LINE Planet의 손실 강건성을 정량적으로 평가합니다. 용어 설명, 측정 환경 구성 및 절차는 LINE 앱에서 음성 품질을 측정하는 방법의 '손실 강건성(loss robustness) 측정' 섹션을 참고해 주시기 바랍니다.

측정 환경

아래와 같은 환경에서 PlanetKit 5.2와 이전 버전인 PlanetKit 5.1의 패킷 손실 환경에서의 음성 품질을 비교합니다.

공통
- 네트워크: 한국, KT, 이더넷
- 패킷 손실 에뮬레이션: PacketStorm 장비 이용, 송신 측의 업링크(up-link)에 랜덤 패킷 손실(random packet loss)을 적용
- POLQA 측정: DSLA II 장비 이용
- 애플리케이션
  - 기존 버전: LINE Desktop 8.3(PlanetKit 5.1)
  - 최신 버전: LINE Desktop 8.4(PlanetKit 5.2)
송신 측
- 사용 기기: MacBook Pro M1
- OS 버전: macOS 11 Big Sur
수신 측
- 사용 기기: MacBook Pro Intel
- OS 버전: macOS 11 Big Sur

측정 결과

측정 항목 설명

POLQA MOS
- POLQA는 음성 품질을 객관적으로 평가할 수 있는 글로벌 표준 알고리즘입니다.
- MOS(mean opinion score)는 음성 품질을 평가하는 데 사용하는 척도입니다.
  - 1부터 5까지의 척도로 표현하며 숫자가 높을수록 음성 품질이 좋습니다.
음성 단방향 지연
- 음성 신호가 단말에 입력된 시점부터 수신 측 단말에서 재생되는 출력 시점까지의 시간을 측정합니다.
- 단방향 지연이 크면 양방향 커뮤니케이션이 불편해지므로 지연은 작을수록 좋습니다.
데이터 사용량
- 패킷 손실을 복구하기 위해서는 데이터를 추가로 사용해야 하는데, 이로 인해 데이터 사용량이 증가합니다.
- 네트워크 혼잡을 유발할 수 있으므로 적게 사용하는 것이 좋습니다.

측정 결과 요약

아래 그림의 데이터는 DSLA 장비를 이용하여 각각 50회 측정한 결과입니다.

POLQA MOS와 음성 단방향 지연은 중앙값을 보여줍니다.
데이터 사용량은 음성을 전송하는 단말의 업링크 비트레이트를 PacketStorm 장비에서 측정한 평균값을 나타냅니다.

측정 결과 분석

POLQA MOS

음성 품질은 이전 버전과 마찬가지로 손실률 30%까지는 Loss가 없는 상황과 동일한 품질로 측정될 만큼 완전히 복구되었습니다. 또한 손실률 50%에서는 1대1 통화, 그룹 통화 각각 POLQA MOS 3.80, 4.47 정도로 사용자 체감 품질이 우수했습니다.

그리고 그룹 통화에 비해 1대1 통화의 POLQA MOS 값이 손실률이 커짐에 따라 좀 더 큰 폭으로 떨어지는 것을 볼 수 있습니다. 이는 1대1 통화와 그룹 통화 간의 미디어 경로 차이로 인한 것으로 분석됩니다. 그룹 통화의 경우, 사용자와 사용자 사이에 놓인 미디어 서버의 손실 복구(loss recovery)를 위한 동작이 도움을 주고 있습니다.

손실 복구 기능이 없다면 품질 차이는 얼마나 클까요?

참고로 손실 복구 메커니즘의 존재 여부에 따라 통화 품질의 차이를 비교하면, 손실 복구의 역할을 가늠해 볼 수 있습니다. 아래는 LINE에 손실 복구가 없을 때의 버전과 최신 버전을 비교할 수 있는 확률분포도(probability density function plot)입니다. X축은 MOS 값이고 Y축은 해당 MOS 값의 확률 값입니다.

손실 복구 메커니즘이 없는 경우(적색)에는 손실률 10%만 돼도 POLQA MOS 대부분이 2점대에 머물게 되어 사용자가 통화를 거의 할 수 없을 수준의 불편함을 체감하게 됩니다. 반면 손실 복구를 활성화한 경우(녹색)에는 손실된 음성을 잘 복구하여 POLQA MOS 4.5 이상을 기록, 원활한 통신이 가능해집니다.

손실 복구 유무에 따른 POLQA MOS 비교

LINE의 1대1 통화 통계 기준으로 전체 통화 중 손실률 50%까지 기록한 경우가 약 97% 정도로, 패킷 손실에 의한 음질 저하를 대부분 완화할 수 있을 것으로 생각됩니다. 그러나 손실률이 50%를 넘으면 음성 품질이 다소 저하되는데, 1대1 통화의 경우 손실률 70%에서 POLQA MOS가 2.89로 감소하여 통화에 불편함을 느낄 수 있습니다.

음성 단방향 지연

음성의 단방향 지연은 손실률이 높아질수록 증가하는 결과를 보여주고 있습니다. 특히 손실률이 50% 이상으로 높은 환경에서는 음성의 단방향 지연이 통화에 불편함을 줄 수 있는 500msec 이상으로 증가하는 경우가 있었습니다.

손실률이 매우 높은 환경에서는 손실 복구 메커니즘이 복구를 반복해서 수행하기 때문에, 음성 패킷의 버퍼링 시간이 더 많이 필요해지므로 지연이 증가합니다. 1대1 통화의 경우 손실률 70% 이상에서, 그룹 통화의 경우 손실률 50% 이상에서 음성 단방향 지연이 500msec이 넘으면 실시간 대화가 불편할 수 있습니다.

데이터 사용량

일반적으로 손실률이 증가하면 복구에 필요한 패킷이 증가하기 때문에, 데이터 사용량도 증가하게 됩니다. PlanetKit 5.2에서 복구를 위한 패킷을 이전에 비해 덜 생성하도록 개선되었고, 이 효과로 데이터 사용량은 이전 버전과 비교하여 10% 정도 감소했습니다. 데이터 사용량이 줄었음에도 POLQA MOS와 음성 단방향 지연에는 악영향이 없는 것을 확인할 수 있습니다.

측정 의의와 향후 계획

이 테스트를 통해서 PlanetKit 5.2는 네트워크 손실 강건성 면에서 손실률 50%까지 원활한 음성 통화가 가능한 것을 확인할 수 있었습니다. 또한 최근 기능 개선을 통해 기존의 통화 품질과 지연을 유지하면서도 약 10%의 데이터를 절약할 수 있었습니다.

만일 패킷 손실이 악화되어 손실률 70%에 이르는 경우에도 통화는 가능하나, 음성 품질이 다소 저하되고 음성의 단방향 지연이 증가하고 있어 이 부분을 더 개선하는 것이 목표입니다. 네트워크 사용량과 음성의 단방향 지연, 그리고 손실 복구 성능을 고려하여 새로운 손실 복구 메커니즘을 실험하고 있습니다.

맺음말

본 리포트는 최근 업데이트된 PlanetKit 5.2에서 통화 품질의 개선 수준을 이전 버전과 AEC, 주파수 응답 그리고 손실 강건성에 대해서 정량적으로 비교하였습니다.

AEC의 경우, 모든 측면에서 개선이 있었습니다. 하지만 두 사람이 동시에 말하는 상황에서 품질을 더 끌어올릴 필요가 있어 보입니다.

주파수 응답 테스트의 경우, 원음을 거의 보존하는 형태를 확인하였습니다. 하지만 7kHz~8kHz 사이의 감쇄 현상을 개선하면 더 명료한 음성을 제공할 수 있을 것으로 예상됩니다.

손실 강건성 테스트의 경우, 기존 버전에 비해 음성 품질 및 지연의 하락 없이 데이터 사용량 10%를 절약한 것을 확인했습니다. 하지만 손실률이 70%에 달할 때 단방향 지연을 개선하는 것이 좋겠습니다.

본 리포트의 테스트 방법은 LY Corporation Tech Blog에 별도로 게재했던 LINE 앱에서 음성 품질을 측정하는 방법을 따르고 있습니다.

PlanetKit 5.2 음성 품질 스냅샷 리포트

AEC 성능

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 결과 해석

측정 의의와 향후 계획

주파수 응답

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 결과 해석

측정 의의와 향후 계획

손실 강건성

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 항목 설명

측정 결과 요약

측정 결과 분석

POLQA MOS

음성 단방향 지연

데이터 사용량

측정 의의와 향후 계획

맺음말

AEC 성능​

측정 환경​

관련 플랫폼 및 통화 유형​

측정 결과​

측정 결과 해석​

측정 의의와 향후 계획​

주파수 응답​

측정 환경​

관련 플랫폼 및 통화 유형​

측정 결과​

측정 결과 해석​

측정 의의와 향후 계획​

손실 강건성​

측정 환경​

관련 플랫폼 및 통화 유형​

측정 결과​

측정 항목 설명​

측정 결과 요약​

측정 결과 분석​

POLQA MOS​

음성 단방향 지연​

데이터 사용량​

측정 의의와 향후 계획​

맺음말​

AEC 성능

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 결과 해석

측정 의의와 향후 계획

주파수 응답

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 결과 해석

측정 의의와 향후 계획

손실 강건성

측정 환경

관련 플랫폼 및 통화 유형

측정 결과

측정 항목 설명

측정 결과 요약

측정 결과 분석

POLQA MOS

음성 단방향 지연

데이터 사용량

측정 의의와 향후 계획

맺음말