Badanie jakości kodowanych sygnałów mowy PESQ i POLQA

Seria APx analizatorów firmy Audio Precision wraz z oprogramowaniem APx500 oferuje szerokie możliwości pomiarowe i badawcze. Generuje i analizuje sygnały analogowe (w tym akustyczne) oraz cyfrowe dźwięku, wykorzystywane w wielu obszarach inżynierii, działach badań i rozwoju czy też ogólnie transmisji i przetwarzania sygnałów audio i video. W niniejszym artykule prezentujemy jedną z funkcjonalności oprogramowania APx 500 pozwalającą na badanie jakości i zrozumiałości mowy, których znaczenie za sprawą coraz powszechniej dostępnych i lepiej działających wirtualnych asystentów obecnych w samochodach, komputerach, smartfonach czy innych urządzeniach staje się niemal codziennością.

APx 500

Kompresja sygnałów mowy

Potrzeba wprowadzenia wiarygodnych metod oceny jakości mowy powstała jednak znacznie wcześniej, wraz z wynalezieniem pierwszych urządzeń telekomunikacyjnych. Gwałtowny rozwój telekomunikacji w postaci sieci telefonii komórkowej i radiowej, Bluetooth, Internetu itp. oraz jej globalne upowszechnienie spowodowały konieczność ograniczenia ilości przesyłanych danych w czasie. Wynikało to wstępnie z chęci wyeliminowania ograniczeń spowodowanych przepustowością łącza, a obecnie także przyśpieszenia czasu reakcji procesora przetwarzającego taki sygnał. W celu wyeliminowania, a raczej “obejścia”, tego problemu stosuje się więc po dzień dzisiejszy różnego rodzaju metody kompresji danych, które mogą być stratne lub bezstratne (kodowanie). Kompresja sygnału ludzkiej mowy w telekomunikacji jest swoistym kompromisem pomiędzy ilością przesyłanych danych, a jakością dźwięku odbieranego przez słuchacza. Jak zatem można rzetelnie ocenić czy rodzaj zastosowanej kompresji (kodowania) nie wpłynął na jakość prowadzonej konwersacji w stopniu uniemożliwiającym wzajemne rozumienie się słuchaczy?

Podstawowy model metody oceny jakości mowy opracowano na postawie o subiektywnej opinii słuchaczy oceniających jakość słyszanej próbki dźwięku. Na tej podstawie stworzono skalę MOS (ang. Mean Opinion Score) nazywaną też subiektywnym współczynnikiem jakości dźwięku ocenianym w pięciostopniowej skali:

  1. zła
  2. słaba
  3. średnia
  4. dobra
  5. znakomita
ITU

International Telecommunication Union

Jak powszechnie wiadomo testy z wykorzystaniem ludzi są drogie i czasochłonne. Międzynarodowy Związek Telekomunikacyjny z siedzibą w Genewie i zrzeszający 193 członków (w skrócie ITU - International Telecommunication Union) wraz z innymi podmiotami zależnymi, chcąc sprostać zapotrzebowaniom rynkowym opracowywał specjalistyczne programowe metody oceny jakości mowy w kanałach telekomunikacyjnych.

Efektem pracy opracowano następujące technologie:

  • PSQM - Perceptual Speech Quality Measure
  • PESQ - Perceptual Evaluation of Speech Quality
  • POLQA - Perceptual Objective Listening Quality Analysis

Każdy z powyższych algorytmów ocenia jakość dźwięku stosując wcześniej wspomnianą skalę MOS (lub jej pochodną).

PESQ vs. POLQA

Obecnie w praktyce używa się dwóch z trzech ww. algorytmów, mianowicie PESQ oraz POLQA ze względu na ich dostosowanie do współczesnych sieci telekomunikacyjnych i metod kodowania sygnału

Ideą metody PESQ jest stworzenie tzw. reprezentacji wewnętrznej badanego sygnału mowy, czyli przekształcenie go do teoretycznej postaci sygnału odbieranego przez umysł człowieka. Do tego celu stosuje się operacje odwzorowania czasowo-częstotliwościowego, przeskalowania częstotliwości i poziomu natężenia. Porównywany jest on z sygnałem wzorcowym będącym nagraniem głosu męskiego i żeńskiego (po dwie frazy) przesłanym przez badane urządzenie telekomunikacyjne.

Schemat algorytmu metody PESQ

POLQA jest natomiast algorytmem zdecydowanie nowocześniejszym (choć opartym na podobnej zasadzie działania do PESQ) oceny jakości mowy, dostosowanym do współczesnych sieci telekomunikacyjnych oraz sygnałów wąskopasmowych (do 4 kHz), szerokopasmowych (do 8kHz) i super-szerokopasmowych (do 16kHz).

Cel stosowania obydwu algorytmów jest podobny. Główne różnice między nimi przedstawia poniższa tabela:

PESQ POLQA
Pomiary z przetwornikami akustycznymi Nie Tak
Pomiary z dużą ilością szumów zakłócających Nie Tak
Możliwość porównania kodeków AMR i EVRC Nie Tak
Wpływ poziomu sygnału mowy na próbki Nie Tak
Pomiary wąskopasmowe (300 Hz - 3400 Hz) Tak Tak
Pomiary szerokopasmowe (100 Hz - 7000 Hz) Tak Tak
Pomiary super-szerokopasmowe (50 Hz - 14000 Hz) Nie Tak
Czułość na liniowe zniekształcenia częstotliwości Nie Tak

Implementacja POLQA/PESQ w Audio Precision APx

Analizatory firmy Audio Precision z serii APx posiadają poza szeregiem funkcji związanych z pomiarami audio sygnałów cyfrowych i analogowych, oferują programową opcję oceny jakości sygnałów mowy za pomocą algorytmów POLQA oraz PESQ. Wraz z opcją użytkownik otrzymuje bazę sygnałów testowych (zgodnie w wytycznymi ITU) spełniających odpowiednie wymogi techniczne.

Dla każdej z metod PESQ/POLQA dostępne są dwa rodzaje wykonywanych pomiarów - pomiar pojedynczy i wynik uśredniony z kilku akwizycji. Wynik pomiaru przedstawiany jest w skali MOS lub skali pokrewnej.

Poszczególne opcje pozwalają na dokonanie następujących pomiarów:

  • MOS
  • PESQ
  • Chwilowa wartość MOS w dziedzinie czasu
  • Średnia wartość MOS
  • MOS sygnału testowego

Opcja programowa po instalacji dostępna jest w projektach APx500 wraz w wszystkimi dotychczasowymi pomiarami równocześnie będąc bardzo intuicyjną w obsłudze. Może ona być stosowana ze wszystkimi dostępnymi modułami wejść i wyjść:

  • analogowe zbalansowane
  • analogowe niezbalansowane
  • interfejs cyfrowy
  • interfejs szeregowy DSIO
  • PDM
  • HDMI
  • Bluetooth

W ofercie firmy Audio Precision znajdują się kilka różnych modeli Analizatorów, których konfiguracja może zostać dostosowana w razie konieczności do konkretnych wymagań Klienta (zarówno jeśli chodzi o ilość kanałów oraz typ interfejsów).

Jeżeli rozwiązanie do pomiarów zrozumiałości mowy APx, zaprezentowane w niniejszym artykule, znajduje się w obszarze Państwa zainteresowania lub projektu badawczego, zachęcamy do kontaktu w celu przetestowania oferowanego przez nas zestawu w praktyce.