Nueva red neuronal de aprendizaje profundo puede identificar patrones de habla indicativos de depresión


Investigadores del MIT han desarrollado una nueva red neuronal de aprendizaje profundo que puede identificar patrones de habla indicativos de depresión a partir de datos de audio. 
El algoritmo, según los investigadores, es 77% efectivo para detectar la depresión. 
Fuente: MIT.


Para diagnosticar la depresión, los médicos entrevistan a los pacientes, formulan preguntas específicas sobre, por ejemplo, enfermedades mentales pasadas, estilo de vida y estado de ánimo, e identifican la afección según las respuestas del paciente.

En los últimos años, el aprendizaje automático ha sido defendido como una ayuda útil para el diagnóstico. Los modelos de aprendizaje automático, por ejemplo, se han desarrollado para detectar palabras y entonaciones del habla que pueden indicar depresión. Pero estos modelos tienden a predecir que una persona está deprimida o no, en función de las respuestas específicas de la persona a preguntas específicas. Estos métodos son precisos, pero su dependencia del tipo de pregunta que se hace limita cómo y dónde se pueden usar.

En un documento presentado en la conferencia de Interspeech, investigadores del MIT detallan un modelo de red neuronal que puede descubrir patrones de habla indicativos de depresión desatar en datos de audio y texto de entrevistas sin procesar. Los investigadores esperan que este método se pueda utilizar para desarrollar herramientas para detectar signos de depresión en una conversación natural. En el futuro, el modelo podría, por ejemplo, impulsar las aplicaciones móviles que monitorean el texto y la voz de un usuario en busca de problemas mentales y enviar alertas. Esto podría ser especialmente útil para aquellos que no pueden acudir a un médico para un diagnóstico inicial, debido a la distancia, el costo o la falta de conciencia de que algo puede estar mal.
"Los primeros indicios que tenemos de que una persona es feliz, emocionada, triste o tiene alguna condición cognitiva grave, como la depresión, es a través de su habla", dice el primer autor Tuka Alhanai, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial ( CSAIL). "Si desea implementar modelos de detección de depresión de forma escalable ... desea minimizar la cantidad de restricciones que tiene sobre los datos que está usando. Desea implementarlo en cualquier conversación habitual y hacer que el modelo recoja, a partir de la interacción natural, el estado del individuo ".
La tecnología podría, por supuesto, ser utilizada para identificar la angustia mental en conversaciones casuales en consultorios clínicos, agrega el coautor James Glass, un investigador científico sénior de CSAIL. "Cada paciente hablará de manera diferente, y si el modelo ve cambios, tal vez será una bandera para los médicos", dice. "Este es un paso adelante para ver si podemos hacer algo de ayuda para ayudar a los médicos".
El otro coautor del artículo es Mohammad Ghassemi, miembro del Instituto de Ingeniería Médica y Ciencia (IMES). 

Modelado sin contexto
La innovación clave del modelo radica en su capacidad para detectar patrones indicativos de depresión, y luego asignar esos patrones a nuevos individuos, sin información adicional. "Lo llamamos 'sin contexto', porque no está poniendo restricciones en los tipos de preguntas que está buscando y el tipo de respuestas a esas preguntas", dice Alhanai.
A otros modelos se les proporciona un conjunto específico de preguntas, y luego se dan ejemplos de cómo responde una persona sin depresión y ejemplos de cómo responde una persona con depresión, por ejemplo, la pregunta directa: "¿Tiene un historial de depresión?" usa esas respuestas exactas para luego determinar si un nuevo individuo está deprimido cuando se le hace exactamente la misma pregunta. "Pero así no es como funcionan las conversaciones naturales", dice Alhanai.
Los investigadores, por otro lado, utilizaron una técnica llamada modelado de secuencias, a menudo utilizada para el procesamiento del habla. Con esta técnica, alimentaron las secuencias modelo de datos de texto y audio de preguntas y respuestas, de individuos deprimidos y no deprimidos, uno por uno. A medida que las secuencias se acumulaban, el modelo extraía patrones de habla que surgían para las personas con depresión o sin ella. Las palabras como, por ejemplo, "triste", "bajo" o "abajo" pueden combinarse con señales de audio que son más planas y monótonas. Las personas con depresión también pueden hablar más despacio y usar pausas más largas entre palabras. Estos identificadores de texto y audio para problemas mentales han sido explorados en investigaciones previas. En última instancia, depende del modelo determinar si los patrones son predictivos de depresión o no.
"El modelo ve secuencias de palabras o estilos de habla, y determina que estos patrones son más propensos a verse en personas deprimidas o que no están deprimidas", dice Alhanai. "Entonces, si ve las mismas secuencias en nuevos sujetos, puede predecir si también están deprimidos".
Esta técnica de secuenciación también ayuda al modelo a considerar la conversación como un todo y a notar las diferencias entre las personas con y sin depresión que hablan a lo largo del tiempo.
Detectando la depresión
Los investigadores entrenaron y probaron su modelo en un conjunto de datos de 142 interacciones del Distress Analysis Interview Corpus que contiene entrevistas de audio, texto y video de pacientes con problemas de salud mental y agentes virtuales controlados por humanos. Cada sujeto se clasifica en términos de depresión en una escala de 0 a 27, utilizando el Cuestionario de salud personal. Los puntajes por encima de un límite entre moderado (10 a 14) y moderadamente grave (15 a 19) se consideran deprimidos, mientras que todos los demás por debajo de ese umbral no se consideran deprimidos. De todos los sujetos en el conjunto de datos, 28 (20 por ciento) están etiquetados como deprimidos.
En experimentos, el modelo se evaluó usando métricas de precisión y recuperación. Medidas de precisión de los sujetos deprimidos identificados por el modelo se diagnosticaron como deprimidos. Recall mide la precisión del modelo para detectar a todos los sujetos a quienes se les diagnosticó depresión en todo el conjunto de datos. En precisión, el modelo obtuvo un puntaje del 71 por ciento y, al recordarlo, obtuvo un 83 por ciento. El puntaje combinado promediado para esas métricas, considerando cualquier error, fue del 77 por ciento. En la mayoría de las pruebas, el modelo de los investigadores superó a casi todos los demás modelos.
una mujer sentada debajo de los árboles
Los investigadores del MIT han desarrollado un modelo de red neuronal que puede analizar el texto en bruto y los datos de audio de las entrevistas para descubrir patrones de habla indicativos de depresión. Este método podría usarse para desarrollar ayudas de diagnóstico para médicos que puedan detectar signos de depresión en una conversación natural. La imagen de NeuroscienceNews.com se ha adaptado del comunicado de prensa de MIT.
Una idea clave de la investigación, señala Alhanai, es que, durante los experimentos, el modelo necesitaba mucha más información para predecir la depresión a partir del audio que del texto. Con el texto, el modelo puede detectar con precisión la depresión utilizando un promedio de siete secuencias de preguntas y respuestas. Con audio, el modelo necesitó alrededor de 30 secuencias. "Eso implica que los patrones en palabras que usan las personas que son predictivos de depresión ocurren en un lapso de tiempo más corto en el texto que en el audio", dice Alhanai. Estas ideas podrían ayudar a los investigadores del MIT, y a otros, a perfeccionar sus modelos.
Este trabajo representa un piloto "muy alentador", dice Glass. Pero ahora los investigadores tratan de descubrir qué patrones específicos identifica el modelo entre las puntuaciones de los datos brutos. "Ahora mismo es un poco de una caja negra", dice Glass. "Estos sistemas, sin embargo, son más creíbles cuando tienes una explicación de lo que están recogiendo. ... El próximo desafío es descubrir qué datos se aprovechan ".
Los investigadores también apuntan a probar estos métodos en datos adicionales de muchos más sujetos con otras condiciones cognitivas, como la demencia. "No es tanto detectar la depresión, sino que es un concepto similar de evaluación, a partir de una señal cotidiana en el habla, si alguien tiene deterioro cognitivo o no", dice Alhanai.

Source: Rob Matheson – MIT
Publisher: Organized by NeuroscienceNews.com.
Image Source: NeuroscienceNews.com image is adapted from the MIT news release.
Original Research: Open access research for “Detecting Depression with Audio/Text Sequence Modeling of Interviews” is available from the MIT website.

Traducido de https://neurosciencenews.com/ai-speech-depression-9808/

Comentarios

Entradas más populares de este blog

Los 30 neurocientíficos vivos más influyentes de hoy en día

¿Cuál es la edad ideal para jubilarse? Nunca, según un neurocientífico

Psicólogo ciego ayuda a otros a ver soluciones