本文にスキップする

PlanetKit 5.2 音声品質スナップショットレポート

カン・インギュ、キム・ギジュン、イ・サンヒョン

LY Corporation Tech Blogに投稿したLINEアプリで音声品質を測定するという記事で、LINEアプリの音声品質を定量的に測定するための3つの領域であるエコー除去(acoustic echo cancellation、以下AEC)、周波数特性(frequency response)、ロスに対するロバスト性(loss robustness)とそれぞれの測定方法について詳しく説明しました。LINEアプリは、音声通話機能にLINE Planetが提供するVoIPモジュールを使用しているため、LINE Planetの音声品質を測定する際も同じ測定方法が活用できます。

今後、音声品質に影響を及ぼす改善を適用したLINE Planetバージョン発売のたびに上記3つの領域の性能を測定し、定量的な音声品質と、以前のバージョンよりも改善された部分やさらに改善が必要な部分を把握していきたいと考えています。ここでは、各バージョンの音声品質の測定結果を「音声品質スナップショット」と呼びます。

この記事は、LINE Planetバージョン間の音声品質スナップショットを初めて比較してまとめたもので、主にPlanetKit 5.1とPlanetKit 5.2の音声品質スナップショットを比較・分析した結果を紹介しています。

AECの性能

LINE PlanetのAECの性能を定量的に評価します。用語の説明、測定環境の構成および手順については、LINEアプリで音声品質を測定するの「AECの性能測定」セクションをご参照してください。

測定環境

AECの品質測定は、AEC-Challengeが提供する2022年のテストデータセットとAECMOSを使用して行いました。

使用したテストデータセットは、全帯域オーディオ(full-band audio)にわたり、次のとおり3種類800個のオーディオデータで構成されています。

  • Double talk: 300個
  • Far-end single talk: 300個
  • Near-end single talk: 200個

AECMOS測定には、全帯域オーディオの性能測定ができるRun_1668423760_Stage_0.onnxモデルを使用しました。

性能測定は、最新バージョンのPlanetKit 5.2と以前バージョンのPlanetKit 5.1にそれぞれ適用されたAECを使用して行いました。

関連プラットフォームおよび通話タイプ

本テストの対象となる品質に関連するプラットフォームと通話タイプは次のとおりです。

  • プラットフォーム
    • デスクトップ(Windows、macOS)
  • 通話タイプ
    • 1対1音声通話
    • 1対1ビデオ通話(音声部分)
    • グループ音声通話
    • グループビデオ通話(音声部分)

測定結果

測定されたAECMOS値は、以下のチャートのとおりです。(5.0点満点)

PlanetKit 5.1とPlanetKit 5.2のAECMOS
PlanetKit 5.1とPlanetKit 5.2のAECMOS

測定結果の解析

PlanetKit 5.2では、マシンラーニング技術を利用したAECを適用し、AECMOSのすべての性能指標の点数が上昇しました。特に、エコー除去の強度を高めるほど音声が大きく劣化するトレードオフが発生するのが一般的ですが、今回適用したAECはこのようなトレードオフを克服し、すべての性能指標の点数が下落することなく上昇しました。

それぞれの性能指標で改善された部分は次のとおりです。

  • DT Echo DMOS
    • 従来バージョンに比べて、0.23点上昇しました。この部分は、二人が同時に話す状況で発生しうるエコーをよりよく除去できるようになったことを意味します。
  • DT Other MOS
    • 従来バージョンに比べて、1.09点上昇しました。この部分は、二人が同時に話す状況で相手の声をよりよく認識できるようになったことを意味します。この指標は性能改善が最も難しい指標であるため、従来のAECでは非常に低い点数を示していました。しかし、今回のバージョンではこの部分を大きく改善し、最も大幅に点数が上昇しました。
  • ST FE Echo DMOS
    • 従来バージョンに比べて、0.17点上昇しました。この部分は、一人だけが話す状況で発生しうるエコーをよりよく除去できるようになったことを意味します。
  • ST NE MOS
    • 従来バージョンに比べて、0.99点上昇しました。この部分は、エコーが発生しない環境で二人が同時に話す場合に発生しうる音声の劣化が改善されたことを意味します。エコーが発生しない環境というのは、イヤホンやヘッドセットを着用した状態のようにスピーカーの音がマイクに伝わらない状況をいいます。こうした環境で二人が同時に話す場合、AECはエコーが発生していないにもかかわらずエコーが発生したと誤って判断することがあります。このように判断に誤りが発生した場合には、相手に伝えるべき音声をエコーと判断して除去することになり、通話に多くの不便を与えることになります。こういった現象は、通訳の環境で多く発生すると分析され、今回のバージョンの適用によって問題がほとんど改善されたことを確認しました。

測定の意義と今後の計画

PlanetKit 5.2では、AECMOSの細部性能指標が上がる結果を示しました。特に、エコーを除去すると音声の劣化が避けられないトレードオフ関係の指標であるにもかかわらず、すべての性能指標が上がったことに意味があります。

しかし、他の指標はいずれも4.0以上の点数を示した一方で、DT Other MOSは3点台半ばの点数を示しており、二人が同時に話す状況での音声品質の改善を優先する必要があります。

二人が同時に話す状況において、スピーカーから出力される音が話し手の声より小さい場合には、エコー除去の過程で声をきちんと保存し、現在のバージョンでも高い点数を示しています。その反面、スピーカーから出力される音が話し手の声より大きい場合には、エコー除去の過程で声が多く除去され、低い点数を示しています。

こういった問題を解決するため、継続的に研究開発を進めており、他の指標の品質を高めるための努力も続けています。

周波数特性

LINE Planetの周波数特性を定量的に評価します。用語の説明、測定環境の構成および手順については、LINEアプリで音声品質を測定するの「周波数特性の測定」セクションをご参照してください。

測定環境

送信側(A)から受信側(B)に音声信号を伝送し、Aから伝送した音声とBで受信された音声を比較して周波数特性を測定します。

測定環境は、以下のとおりです。

  • 送信側(A)
    • 使用デバイス:MacBook Pro M1
    • OSバージョン:macOS Ventura 13.4.1
    • オーディオデバイス:VB cable
    • 送信ボリューム調整:-4dB
    • アプリバージョン:LINE Desktop 8.4(PlanetKit 5.2)
  • 受信側(B)
    • 使用デバイス:MacBook Pro Intel
    • OSバージョン:macOS Ventura 13.4.1
    • オーディオデバイス:VB cable
    • アプリバージョン:LINE Desktop 8.4(PlanetKit 5.2)

関連プラットフォームおよび通話タイプ

本テストの対象となる品質に関連するプラットフォームと通話タイプは次のとおりです。

  • プラットフォーム
    • デスクトップ(Windows、macOS)
    • モバイル(iOS、Android)
  • 通話タイプ
    • 1対1音声通話
    • 1対1ビデオ通話(音声部分)
    • グループ音声通話
    • グループビデオ通話(音声部分)

測定結果

測定された周波数特性は、以下のグラフのとおりです。

PlanetKit 5.2の周波数特性
PlanetKit 5.2の周波数特性

測定結果の解析

今回の周波数特性の測定を通じて、PlanetKit 5.2が人間の聴覚で聞き取れる最大の周波数帯域である20kHzまでカバーしていることを確認しました。特に、全体的な周波数帯域で平坦にバランスが保たれていることを確認しました。こうした特徴は、音声の品質と明瞭性を高め、ユーザーがより自然に会話できるようにします。

以下は、測定された周波数特性の特徴です。

  1. 120Hz未満での減衰

    120Hz未満の周波数で、信号サイズが2〜10dB減衰する傾向があります。この周波数帯域は音声通話に影響を及ぼさないため、意図的な減衰が行われます。

  2. 150Hz〜350Hzでのブースト

    150Hz〜350Hzの周波数で、信号サイズが0〜3dBブーストする傾向があります。これは、音声の低周波帯域がわずかに強調されていることを示します。

  3. 7kHz〜8kHzでの減衰

    7kHz〜8kHzの周波数で、3dB減衰する傾向があります。7kHz〜8kHzは、音声の摩擦音、歯擦音を表現する周波数の一部です。したがって、摩擦音、歯擦音の7kHz〜8kHz領域でわずかに減衰することがあります。

    これは、LINE Planetの音声信号処理の特性で、8kHz以下の信号と8kHz以上の信号を分けてそれぞれ処理し、これを合わせる過程での周波数接点領域の減衰によるものです。

  4. 20kHz以上の周波数制限

    20kHz以上の周波数は、信号がありません。20kHz以上の信号は可聴周波数を超える領域で、LINE Planetでは20kHz以上の周波数領域についての情報は提供しません。

測定の意義と今後の計画

周波数特性の測定を通じて、PlanetKit 5.2は音声入力の歪みなく均一に出力していることを確認しました。また、詳細な分析によって周波数特性を整理できました。

その中で周波数特性の7kHz〜8kHzで起きる減衰現象を確認しており、この部分は改善が必要と思われます。7kHz〜8kHzで発生する減衰現象を改善すると、音声で摩擦音や歯擦音のような細かい部分をよりよく表現できるようになります。したがって、今後のアップデートでこの現象を補完すれば、ユーザーはより高品質な音質を体験できるでしょう。

留意事項

本測定結果はmacOSで測定されており、オーディオデバイスと周辺環境の影響を最小限に抑えるために仮想オーディオデバイスを使用しました。本測定で使用された環境と異なる環境(アプリのバージョン、コンテンツの種類、送信ボリューム、OS、オーディオデバイスなど)で測定すると、異なる結果が出ることがあります。

たとえば、使用したオーディオデバイス(スピーカーやマイクデバイス)が低周波や高周波を正確に表現できなかったり、周波数特性が平坦でない場合、異なる結果が出ることがあります。また、モバイルデバイスでは超高周波数帯域をOSで遮断することがよくあるので、超高周波数帯域の信号が測定されないこともあります。

さらに、コンテンツが音声でない場合は、雑音とみなされ除去されることがあり、これによって周波数特性の結果が変わることがあります。

ロスに対するロバスト性

LINE Planetのロスに対するロバスト性を定量的に評価します。用語の説明、測定環境の構成および手順については、 LINEアプリで音声品質を測定するの「ロスに対するロバスト性(loss robustness)の測定」セクションをご参照してください。

測定環境

以下のような環境で、PlanetKit 5.2と以前のバージョンであるPlanetKit 5.1のパケットロス環境での音声品質を比較します。

  • 共通
    • ネットワーク:韓国、KT、イーサネット
    • パケットロスエミュレーション:PacketStorm装置利用、送信側のアップリンク(up-link)にランダムパケットロス(random packet loss)を適用
    • POLQA測定:DSLA II装置利用
    • アプリケーション
      • 従来バージョン:LINE Desktop 8.3(PlanetKit 5.1)
      • 最新バージョン:LINE Desktop 8.4(PlanetKit 5.2)
  • 送信側
    • 使用デバイス:MacBook Pro M1
    • OSバージョン:macOS 11 Big Sur
  • 受信側
    • 使用デバイス:MacBook Pro Intel
    • OSバージョン:macOS 11 Big Sur

関連プラットフォームおよび通話タイプ

本テストの対象となる品質に関連するプラットフォームと通話タイプは次のとおりです。

  • プラットフォーム
    • デスクトップ(Windows、macOS)
    • モバイル(iOS、Android)
  • 通話タイプ
    • 1対1音声通話
    • 1対1ビデオ通話(音声部分)
    • グループ音声通話
    • グループビデオ通話(音声部分)

測定結果

測定項目の説明

  • POLQA MOS

    • POLQAは、音声品質を客観的に評価できるグローバル標準アルゴリズムです。
    • MOS(mean opinion score)は、音声品質を評価するのに使用する尺度です。
      • 1から5までの尺度で表現し、数字が高いほど音声品質が良いです。
  • 音声の片道遅延

    • 音声信号が端末に入力された時点から受信側の端末で再生される出力時点までの時間を測定します。
    • 片道遅延が大きいと、双方向のコミュニケーションは不便になるので、遅延は小さいほどよいといえます。
  • データ使用量

    • パケットロスをリカバリするためには、データを追加で使用する必要があり、これによってデータの使用量が増加します。
    • ネットワークの混雑を引き起こす可能性があるため、使用を少なくすることをお勧めします。

測定結果の要約

下図で示しているデータは、DSLA装置を利用してそれぞれ50回測定した結果です。

  • POLQA MOSと音声の片道遅延は中央値を示しています。
  • データ使用量は、音声を伝送する端末のアップリンクビットレートをPacketStorm装置で測定した平均値を示します。
PlanetKit 5.1とPlanetKit 5.2のPOLQA MOS
PlanetKit 5.1とPlanetKit 5.2のPOLQA MOS
PlanetKit 5.1とPlanetKit 5.2の音声の片道遅延
PlanetKit 5.1とPlanetKit 5.2の音声の片道遅延
PlanetKit 5.1とPlanetKit 5.2のデータ使用量
PlanetKit 5.1とPlanetKit 5.2のデータ使用量

測定結果の分析

POLQA MOS

音声品質は、以前のバージョンと同様にロス率30%まではロスがない状況と同じ品質で測定されるほど完全にリカバリされました。また、ロス率50%では1対1通話、グループ通話それぞれPOLQA MOS 3.80、4.47程度でユーザー体感品質に優れていました。

さらに、グループ通話に比べて1対1通話のPOLQA MOS値がロス率が大きくなるにつれ、より大きな幅で下がることが分かります。これは、1対1通話とグループ通話間のメディアパスの違いによるものと分析されます。グループ通話の場合、ユーザーとユーザーの間にあるメディアサーバーのロスリカバリ(loss recovery)のための動作が役立っています。

ロスリカバリ機能がなければ、品質の差はどれくらい大きいでしょうか?

ちなみに、ロスリカバリメカニズムの存在有無によって通話品質の差を比較することで、ロスリカバリの役割を推し量ることができます。以下は、LINEにロスリカバリがないときのバージョンと最新バージョンを比較できる確率分布図(probability density function plot)です。X軸はMOS値で、Y軸はそのMOS値の確率値です。

ロスリカバリメカニズムがない場合(赤色)は、ロス率10%であってもPOLQA MOSのほとんどが2点台にとどまることになり、ユーザーがほとんど通話できないほどの不便さを体感することになります。一方で、ロスリカバリを活性化した場合(緑色)は、ロスした音声をきちんとリカバリしてPOLQA MOS 4.5以上となり、スムーズな通信が可能になります。

ロスリカバリの有無によるPOLQA MOSの比較

LINEの1対1通話の統計では、全通話のうちロス率50%までの場合が約97%で、パケットロスによる音質低下をほぼ緩和できると考えられます。しかし、ロス率が50%を超えると音声品質がやや低下し、1対1通話の場合、ロス率70%からPOLQA MOSが2.89に減少し、通話に不便を感じることがあります。

音声の片道遅延

音声の片道遅延は、ロス率が高くなるにつれて増加する結果を示しています。特に、ロス率が50%以上と高い環境では、音声の片道遅延が通話に不便を与える500msec以上に増加する場合がありました。

ロス率が非常に高い環境では、ロスリカバリメカニズムがリカバリを繰り返し行うため、音声パケットのバッファリング時間がさらに必要になり、遅延が増加します。1対1通話の場合はロス率70%以上、グループ通話の場合はロス率50%以上で、音声の片道遅延が500msecを超えると、リアルタイムでの会話が不便になることがあります。

データ使用量

一般的にロス率が増加するとリカバリに必要なパケットが増加するため、データ使用量も増加します。PlanetKit 5.2ではリカバリのためのパケットを以前より少なく生成するように改善され、この効果でデータ使用量は以前のバージョンに比べて10%程度減少しました。データ使用量が減ったにもかかわらず、POLQA MOSと音声の片道遅延には悪影響がないことが確認できます。

測定の意義と今後の計画

このテストにより、PlanetKit 5.2はネットワークのロスに対するロバスト性の面でロス率50%までスムーズな音声通話が可能であることが確認できました。また、最近の機能改善により、従来の通話品質と遅延を維持しながらも、約10%のデータを節約できました。

パケットロスが悪化してロス率が70%に達した場合でも通話は可能ですが、音声品質がやや低下して音声の片道遅延が増加しているため、この部分をさらに改善することが目標です。ネットワーク使用量と音声の片道遅延、そしてロスリカバリ性能を考慮して新しいロスリカバリメカニズムを実験しています。

おわりに

本レポートでは、最近アップデートされたPlanetKit 5.2で通話品質の改善レベルをAEC、周波数特性、およびロスに対するロバスト性について、以前のバージョンと定量的に比較しました。

AECの場合、あらゆる側面で改善がありました。しかし、二人が同時に話す状況での品質をさらに高める必要があると思われます。

周波数特性テストの場合、原音をほぼ保存できている形を確認しました。しかし、7kHz〜8kHzの間の減衰現象を改善すれば、より明瞭な音声が提供できると予想されます。

ロスに対するロバスト性テストの場合、従来のバージョンに比べて音声品質および遅延の低下なしにデータ使用量10%を節約したことを確認しました。しかし、ロス率が70%に達したときは、片道遅延を改善する方がよいと思われます。

本レポートのテスト情報は、LY Corporation Tech Blogに別途投稿した LINEアプリで音声品質を測定するに基づいています。