El síndrome de apnea obstructiva del sueño (SAOS) es un trastorno que se manifiesta con somnolencia diurna causada por un cese de la respiración ocurrido repetidamente durante el sueño, a menudo durante un minuto o más y con una frecuencia de cientos de veces durante una sola noche. El diagnóstico de la condición del sueño se basa en el cálculo del índice de apnea-hipopnea (IAH) que mide la frecuencia de las reducciones en el flujo de aire asociados con el colapso o estrechamiento de la vía aérea superior, que se produce a lo largo del tiempo entre la vigilia y sueño. El procedimiento estándar para determinar este parámetro es la polisomnografía. Sin embargo, es una metodología muy costosa. Aunque no existen por el momento otras medidas que permitan mejorar al IAH en la evaluación del efecto global de la apnea obstructiva del sueño, otro tipo de indicadores, como el número o frecuencia de arousals durante una noche de sueño, podrían considerarse igualmente buen indicador de SAOS. Por lo tanto, la búsqueda de métodos alternativos de diagnóstico que sean más simples y más costo-efectivos es interesante, y más teniendo en cuenta que este trastorno, que afecta al 4 % de los adultos, está infradiagnosticado.

Dado que el síndrome está asociado a cambios en la vía aérea superior, es lógico pensar que la voz de los sujetos que padecen de SAOS debería recoger este hecho. En realidad así es, y algunos trabajos lo demuestran. El problema, en general, es saber qué parámetros se tienen que medir para poder realizar el diagnóstico de SAOS mediante voz.

Para ello, una estrategia (véase: “Detection of severe obstructive sleep apnea through voice analysis” en Applied Soft Computing, vol. 23, octubre 2014) es la siguiente: recoger gran cantidad de parámetros que caracterizan diferentes aspectos de la señal de voz, determinar cuáles de ellos permiten discriminar mejor entre sujetos sanos y sujetos con SAOS, y finalmente utilizar este subgrupo óptimo de parámetros para desarrollar un sistema de clasificación para la ayuda al diagnóstico.

Los parámetros que se pueden extraer de la señal de voz son de muchos tipos. En el trabajo que estamos comentando se organizaron en diferentes grupos:

  • basados en el pitch y los formantes
  • basados en la forma de onda temporal
  • basados en la turbulencia y la tensión o dureza de la voz
  • basados en predicción lineal de la señal de voz
  • basados en características no-lineales y de no-gaussianidad de la señal de voz
  • basados en características espectrales

En total se recogieron 253 parámetros, utilizando como señal las 5 vocales sostenidos durante unos segundos, y una frase (la misma para todos los sujetos).

En este punto, el problema se convierte en un problema de clasificación. Disponemos de 253 parámetros para cada sujeto y estamos interesados en descubrir cuáles de estos parámetros nos permitirían separar (discriminar) los sujetos en dos grupos (sujetos que padecen de SAOS y sujetos sanos o controles).

Para decidir qué características a utilizar de entre las 235 disponibles se probaron diferentes estrategias basadas en selección de características (a partir de tests estadísticos y a partir de algoritmos genéticos) y combinación de características (mediante PCA, Principal Component Analysis). En todos los casos se redujo drásticamente el número de éstas, de 235 a 5.

Uno de los que se reveló como más interesante para discriminar entre los dos grupos fue el parámetro MEAN_HNR_VA_A, que es la media del Harmonics to Noise Ratio calculado sobre la vocal /a/. La figura 1 muestra un boxplot de este parámetro para los dos grupos. Observamos cómo se comportan de manera diferente, con lo cual este valor tienen potencial para permitir discriminar entre grupos. De todas formas, se observa que la diferencia no es muy acusada, y el solo valor de la media del HNR no permitiría discriminar con suficiente calidad entre los dos grupos. Por este motivo se necesitan más parámetros (en este estudio se utilizaron 5) y un sistema de clasificación más complejo que permita separar clases no-linealmente separables.

f1  

Figura 1: Boxplot del parámetro MEAN_HNR_VA_A para el grupo control (izquierda) y el grupo SAOS (derecha). El parámetro HNR (Harmonics to Noise Ratio) estima el nivel de ruido presente en la señal de voz.

Para ello, en el estudio comentado se investigaron diferentes estrategias para el clasificador: 

  1. Perceptrón multicapa (red neuronal)
  2. Máquina de vector soporte
  3. AdaBoost
  4. Vecino más cercano
  5. Clasificador bayesiano

Para medir la calidad del sistema se utilizó el porcentaje de aciertos de clasificación (classification rate, CCR) y se calculó la sensibilidad (proporción de positivos reales que se han identificado correctamente como tal) y la especificidad (proporción de negativos reales que se han identificado correctamente como tal) del sistema. Estos dos últimos parámetros son importantes porque nos indican la capacidad del sistema de identificar SAOS cuando el sujeto tiene SAOS y de identificar no-SAOS cuando el sujeto está sano.  

Los mejores resultados promedio con un único sistema se consiguieron con el clasificador bayesiano con las características obtenidas mediante algoritmos genéticos:

  • CCR = 82,04 %
  • Sensibilidad = 81,74 % 
  • Especificidad = 82,40%

También se investigó una combinación de los mejores sistemas, incrementando ligeramente los resultados anteriores.

Es interesante destacar que entre el conjunto de los 5 parámetros que el algoritmo genético escogió como los mejores, cuatro están relacionados con vocales y uno con la frase. De entre las vocales, parece que las registradas con el sujeto en posición tumbada aportan más información para el sistema. Esto tiene sentido si pensamos que las apneas aparecen cuando estamos durmiendo, y por lo tanto en posición tumbada. Por lo tanto, la misma posición tumbada que provoca el colapso de la vía aérea superior genera también cambios significativos en la voz debido a las estructuras de esta vía aérea que se colapsan en esta posición.  

Sin entrar en más detalles de los experimentos realizados, podemos decir que en los casos extremos (127 controles y 121 pacientes con SAOS severo) la voz por ella sola es capaz de discriminar bien entre la presencia y ausencia de la SAOS. Sin embargo, en casos intermedios (SAOS leve o sujetos sanos roncadores) parece que la voz desempeña un papel más secundario y los resultados son peores.

Estos avances indican que en un futuro no muy lejano se podrían desarrollar sistemas de cribaje de SAOS mediante procesado de voz, complementado con otros datos que aportan también mucha información (edad, índice de masa corporal, presión sanguínea, test de Epworth, etc.). Esto permitiría reducir las listas de espera para realizar una polisomnografía y a la vez podría ayudar a detectar multitud de casos de SAOS que actualmente no se diagnostican por distintos motivos.

Jordi Solé i Casals
Jordi Solé i Casals
Sobre este blog
En la sociedad actual todo va muy deprisa. Comunicaciones, industria, avances técnicos y científicos... mucha información y poco tiempo para asimilarla nos produce vértigo y nos deja vacíos de saber. Intentaremos dar a conocer diferentes avances en el campo de la ciencia y la técnica en un lenguaje accesible, y devolver a la sociedad los resultados de las investigaciones hoy en curso.
Ver todos los artículos