Y chat, bot y logopeda. Cómo desarrollar un servicio basado en ML para diagnosticar defectos del habla en niños

"Sasha caminaba por la carretera", "Di: rrrrryba", "Cuco cuco ..." - ya sabes, sí, ¿estas frases que nos traumatizaron a todos en la infancia? Fue una especie de experimento interminable de padres con un resultado deseado sin forma y, lo más importante, temores de que su hijo esté creciendo con un impedimento del habla. 





¡Oye! Mi nombre es Dima Pukhov, soy el director técnico de Cleverbots. Quiero contarles cómo le enseñamos al chatbot a reconocer los defectos del habla y cómo logramos un 80% de precisión en los diagnósticos de un logopeda de IA.





Problema

Cada segundo estudiante tiene problemas con la pronunciación, dicen los terapeutas del habla. Pueden eliminarse en una etapa temprana, pero a menudo las dificultades se atribuyen a la infancia y, cuando los defectos del habla se vuelven obvios, es difícil solucionarlos. Por lo tanto, el espectrograma, como servicio de diagnóstico primario remoto, podrá prevenir el desarrollo y agravamiento de problemas y señalar si se requiere la intervención de un especialista. 





El año pasado, la compañía farmacéutica Geropharm, con el fin de combatir los miedos y estereotipos sobre el desarrollo cognitivo, lanzó el portal PRO.MOZG, donde se puede leer una gran cantidad de materiales útiles y accesibles sobre cómo funciona el cerebro, cómo “funcionan” las enfermedades y la cambios corporales. Además, el sitio tiene un espectrograma, un servicio que ayuda a los padres a evaluar a su hijo en un formato de juego y determinar si tiene defectos del habla.





Brevemente sobre el servicio

Para los usuarios, la interfaz de Spectrogram se implementa en forma de un bot de chat y está integrada como un widget en el sitio web. Las pruebas se realizan de manera lúdica: bajo la guía de los padres, el niño debe pronunciar las frases propuestas, que luego deben enviarse al bot en el formato de mensajes de audio, y el modelo ML determinará automáticamente si la frase se pronuncia. con un defecto.





Es importante retroceder un poco y recordar cómo era al principio.





En la primera etapa de la introducción de un servicio similar, todos los cuestionarios se enviaron a un logopeda, cada uno tuvo que ser escuchado y evaluado si las habilidades del habla del niño coincidían con la edad, se dio una opinión experta y se debería marcar una marca correspondiente en el sistema. colocar. Y esto es más de 10 entradas por cuestionario. 





, , , , .





– . . .





– . , , . .





:





  • , - (MFCC). feature engineering;









  • Deep Learning, , speech2text. , , , ;





  • . , Yandex, Google, AWS , speech2text , , .





, , – .





, :





  1. ;





  2. ( );





  3. ;





  4. .





, – , .





. , , / .





(, ) 3Sigma - . , , / .





.





spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.





, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .





... , , , . , , , . ( ). , – timestamp .





– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .





( 52 ; <100 ). – , .





– . onset_detection, , . balanced_accuracy_score, 0.80, .





, , . – DTW Audio Fingerprinting. , , , , .





production

  • Python;





  • Kafka – ;





  • Django .





, , . , , .





. , , : , . , , , , .





( , , ~10 ) , «» , – . , , . , . , .





, , , , -, – 80% . -, : .





En el futuro, se planea una transición completa del modelo humano en el circuito, cuando es necesaria la participación de una persona en el diagnóstico, a una automatización completa del proceso gracias a un modelo reentrenado. 








All Articles