Nauka

Jak biomarkery głosowe wykrywają choroby na podstawie mowy

Analiza głosu oparta na sztucznej inteligencji może identyfikować oznaki choroby Parkinsona, depresji, cukrzycy i chorób serca na podstawie krótkich próbek mowy – to rozwijająca się dziedzina, która może zrewolucjonizować zdalne badania przesiewowe.

R
Redakcia
4 min czytania
Udostępnij
Jak biomarkery głosowe wykrywają choroby na podstawie mowy

Twój głos skrywa wskazówki dotyczące Twojego zdrowia

Za każdym razem, gdy mówisz, Twój głos niesie ze sobą znacznie więcej informacji niż same słowa. Subtelne zmiany w wysokości dźwięku, rytmie, oddechu i drżeniu odzwierciedlają stan Twojego układu nerwowego, dróg oddechowych, a nawet zdrowia układu krążenia. Naukowcy i rosnąca liczba startupów wykorzystują obecnie sztuczną inteligencję do dekodowania tych ukrytych sygnałów – przekształcając proste nagranie głosu w potencjalne narzędzie diagnostyczne.

Koncepcja ta nazywana jest biomarkerami głosowymi: mierzalnymi cechami głosu danej osoby, które są statystycznie powiązane ze stanem klinicznym. W przeciwieństwie do pobrania krwi lub rezonansu magnetycznego, próbkę głosu można zarejestrować za pomocą smartfona, co czyni ją jedną z najbardziej dostępnych metod badań przesiewowych, jakie można sobie wyobrazić.

Jak działa analiza głosu

Proces od mowy do badań przesiewowych przebiega według spójnego schematu w laboratoriach badawczych i na platformach komercyjnych. Najpierw pacjent nagrywa krótką próbkę – czasami przedłużoną samogłoskę, czasami fragment tekstu do przeczytania lub kilka minut rozmowy. Następnie dźwięk jest wstępnie przetwarzany w celu usunięcia szumów tła i normalizacji głośności.

Następnie algorytmy wyodrębniają dziesiątki cech akustycznych: współczynniki cepstralne częstotliwości Mela (MFCC), jitter (wariancje cyklu do cyklu w wysokości dźwięku), shimmer (wariancje amplitudy), stosunek harmonicznych do szumu i tempo mowy. W przypadku zaburzeń poznawczych analizowane są również cechy lingwistyczne – dobór słów, złożoność zdań, pauzy.

Modele uczenia maszynowego, często łączące konwolucyjne i rekurencyjne sieci neuronowe, porównują następnie te cechy z wzorcami wyuczonymi na podstawie tysięcy oznaczonych nagrań. Wynikiem jest zazwyczaj wynik ryzyka lub binarna flaga, której klinicysta może użyć wraz z konwencjonalnymi testami.

Jakie choroby może ujawnić głos?

Najsilniejsze dowody istnieją dla zaburzeń neurologicznych i psychiatrycznych. Nawet 89% pacjentów z chorobą Parkinsona rozwija mierzalne zaburzenia głosu – czasami na lata przed pojawieniem się widocznych objawów ruchowych, zgodnie z badaniami opublikowanymi w Sensors and Diagnostics. Modele AI analizujące przedłużone fonacje samogłosek osiągnęły wskaźniki dokładności powyżej 91% w rozróżnianiu pacjentów z wczesną chorobą Parkinsona od zdrowych osób z grupy kontrolnej.

Depresja i lęk zmieniają prozodię głosu – melodię i rytm mowy – w sposób, który wyszkolone algorytmy mogą wykryć z dokładnością często w granicach 80%. Choroba Alzheimera pozostawia ślady w złożoności języka i wzorcach wahań na długo przed formalną diagnozą.

Ale zastosowania wykraczają poza mózg. Naukowcy z Mayo Clinic odkryli, że specyficzne cechy głosu są niezależnie związane z chorobą wieńcową, nawet po uwzględnieniu tradycyjnych czynników ryzyka. Oddzielne badanie pilotażowe opublikowane w Mayo Clinic Proceedings: Digital Health wykazało, że analiza głosu może być wykorzystana do badań przesiewowych w kierunku cukrzycy typu 2. Schorzenia układu oddechowego, takie jak POChP i astma, również są przedmiotem aktywnych badań.

Z laboratorium do kliniki

Kilka firm dąży do wdrożenia biomarkerów głosowych w rzeczywistych warunkach. Canary Speech, firma z siedzibą w Utah, opracowała narzędzia do ambientowego słuchania, które są już wykorzystywane w badaniach medycznych zatwierdzonych przez FDA i IRB. Na początku 2026 roku firma rozpoczęła badanie zatwierdzone przez IRB z Intermountain Health w celu wykrywania stwardnienia rozsianego wyłącznie na podstawie głosu. Platformy telezdrowotne zgodne z HIPAA zaczynają integrować moduły badań przesiewowych głosu, umożliwiając pasywną analizę podczas rutynowych wirtualnych wizyt.

Apel jest oczywisty: badania przesiewowe oparte na głosie są nieinwazyjne, niedrogie i skalowalne. Pacjent na obszarze wiejskim, bez neurologa w pobliżu, mógłby nagrać 45-sekundową próbkę w aplikacji na telefon i otrzymać ocenę ryzyka w ciągu kilku minut.

Wyzwania i ograniczenia

Pomimo obiecujących wyników pozostają istotne przeszkody. Żadne narzędzie do biomarkerów głosowych nie otrzymało jeszcze zgody FDA na samodzielną diagnozę kliniczną. Większość badań opiera się na stosunkowo małych, demograficznie wąskich zbiorach danych, co budzi obawy o to, jak dobrze modele uogólniają się na języki, akcenty, wiek i pochodzenie etniczne.

Prywatność to kolejna paląca kwestia. Nagranie głosu może ujawnić nie tylko stan zdrowia, ale także tożsamość, płeć, pochodzenie etniczne i stan emocjonalny. Naukowcy podkreślają potrzebę szyfrowania, anonimizacji i ścisłych protokołów postępowania z danymi przed powszechnym przyjęciem.

Istnieje również ryzyko nadmiernego polegania na nich. Biomarkery głosowe najlepiej rozumieć jako warstwę badań przesiewowych – sposób na oznaczanie osób, które powinny zostać poddane dalszej ocenie klinicznej – a nie jako zamiennik ustalonych metod diagnostycznych.

Dlaczego to ma znaczenie

Wczesne wykrycie jest najważniejszym czynnikiem w medycynie. Wykrycie choroby Parkinsona pięć lat wcześniej, zidentyfikowanie depresji przed kryzysem lub oznaczenie ryzyka sercowego podczas rutynowej rozmowy telefonicznej może uratować życie i radykalnie obniżyć koszty opieki zdrowotnej. W miarę jak modele AI stają się dokładniejsze, a zbiory danych bardziej zróżnicowane, głos może stać się jednym z najpotężniejszych – i najbardziej demokratycznych – dostępnych narzędzi diagnostycznych.

Ten artykuł jest dostępny także w innych językach:

Powiązane artykuły