Estudios de movimiento ocular para mejorar la salud y la accesibilidad.

imagen




Un ejemplo de seguimiento ocular para un participante sin fatiga (izquierda) y con fatiga mental (derecha) mientras rastrea un objeto siguiendo una trayectoria circular.



El movimiento ocular es ampliamente estudiado por profesionales de la visión , el lenguaje y la usabilidad.desde la década de 1970. Más allá de la investigación básica, una mejor comprensión del movimiento ocular puede ser útil en una amplia variedad de aplicaciones, incluida la investigación de la usabilidad y la experiencia del usuario, los juegos, la conducción y las interacciones basadas en la mirada para la accesibilidad de la salud. Sin embargo, el progreso fue limitado porque la mayor parte de la investigación anterior se centró en rastreadores oculares de hardware especializados que eran costosos y difíciles de escalar.



En «la investigación del movimiento ocular acelerado a través de un seguimiento ocular asequible y preciso de un teléfono inteligente» , publicado en Nature Communications , y « el digital un biomarcador de fatiga mental no », publicado en npj Digital Medicine , presentamos el seguimiento ocular preciso y el aprendizaje automático de teléfonos inteligentes que tienen el potencial de desbloquear nuevas investigaciones de aplicaciones en las áreas de visión, accesibilidad, salud y bienestar, al tiempo que permiten la escalabilidad a diferentes poblaciones de todo el mundo, todo con el uso de cámara frontal en su teléfono inteligente. También estamos discutiendo el uso potencial de esta tecnología como un biomarcador digital para la fatiga mental, que puede ser útil para mejorar el bienestar.



Descripción general del modelo



El núcleo de nuestro modelo de mirada era una red neuronal convolucional multicapa de retroalimentación (ConvNet) entrenada en el conjunto de datos MIT GazeCapture . El algoritmo de detección de rostros seleccionó un área de la cara con los puntos de referencia correspondientes en las esquinas de los ojos, que se usaron para recortar imágenes solo en el área de los ojos. Estos marcos recortados se pasaron a través de dos torres ConvNet idénticas con el mismo peso. Cada capa convolucional fue seguida por una capa intermedia de fusión . Los puntos de referencia en las esquinas de los ojos se fusionaron con la salida de las dos torres a través de capas completamente conectadas. Unidades lineales enderezadas (ReLU) se utilizó para todas las capas excepto el último nivel de salida completamente conectado (FC6), que no se activó.



imagen




La arquitectura del modelo de mirada no personalizada. Las áreas de los ojos extraídas de la imagen de la cámara frontal sirven como entrada a la red neuronal convolucional. Las capas completamente vinculadas (FC) combinan la salida con puntos de referencia en las esquinas del ojo para generar las coordenadas X e Y en pantalla a través de la capa de salida de regresión múltiple.



La precisión del modelo de mirada no personalizada se ha mejorado mediante el ajuste fino y la personalización para cada participante. Para este último, se ajustó un modelo de regresión ligero a la penúltima capa del modelo ReLU y datos para un participante específico.



Evaluación del modelo



Para evaluar el modelo, recopilamos datos de participantes concordantes del estudio cuando vieron puntos que aparecían en ubicaciones aleatorias en una pantalla en blanco. El error del modelo se calculó como la distancia (en cm) entre la ubicación del estímulo y la predicción del modelo. Los resultados muestran que, aunque el modelo no personalizado tiene un alto margen de error, la personalización con ~ 30 segundos de datos de calibración resultó en una reducción de más de cuatro veces en el error (de 1,92 cm a 0,46 cm). Con una distancia de visualización de 25 a 40 cm, esto corresponde a una precisión de 0,6 a 1 °, que es una mejora significativa con respecto a los 2,4 a 3 ° informados en trabajos anteriores [1, 2].



Experimentos adicionales muestran que la precisión del modelo de rastreador ocular del teléfono inteligente es comparable a la precisión de los rastreadores oculares portátiles modernos, tanto cuando el teléfono se coloca en el soporte del dispositivo como cuando los usuarios sostienen libremente el teléfono en la mano casi en frente de su cabeza. A diferencia del equipo de seguimiento ocular especializado con varias cámaras infrarrojas cerca de cada ojo, lanzar nuestro modelo con una sola cámara frontal RGB en un teléfono inteligente es significativamente más económico (aproximadamente 100 veces más barato) y más escalable.



Con esta tecnología de teléfonos inteligentes, pudimos replicar los hallazgos clave de investigaciones previas sobre el movimiento ocular en neurociencia y psicología, incluidas las tareas oculomotoras estándar (para comprender las funciones visuales básicas del cerebro) y la comprensión natural de las imágenes. Por ejemplo, en un simple problema de prosacada que evalúa la capacidad de una persona para mover los ojos rápidamente en la dirección de un estímulo que aparece en la pantalla, encontramos que el retraso sacádico promedio (tiempo para mover los ojos) era consistente con el trabajo anterior.para la salud oftálmica básica (210 ms frente a 200-250 ms). En las tareas de búsqueda visual guiada, pudimos reproducir resultados clave como los efectos de la visibilidad del objetivo y el desorden en los movimientos oculares.



imagen




Los ejemplos de trayectorias de exploración de la mirada muestran el efecto de la visibilidad del objetivo (es decir, el contraste de color) sobre la eficacia de la búsqueda visual. Se requieren menos fijaciones para encontrar un objetivo de alta firma (izquierda) (que no sean distractores), mientras que se requieren más fijaciones para encontrar un objetivo de baja firma (derecha) (similar a los distractores).



Para estímulos complejos, como imágenes naturales, encontramos que la distribución de la mirada (calculada agregando las posiciones de la mirada en todos los participantes) de nuestro rastreador ocular de teléfono inteligente era similar a la obtenida de rastreadores oculares voluminosos y costosos que usaban configuraciones estrictamente controladas como sistemas de enfoque de laboratorio para la barbilla. Aunque los mapas de calor de mirada en un teléfono inteligente están más extendidos (es decir, parecen más "borrosos") que los rastreadores de ojos de hardware, están altamente correlacionados tanto a nivel de píxel (r = 0,74) como a nivel de objeto (r = 0, 90) . Estos resultados sugieren que esta tecnología se puede utilizar para escalar el análisis de la mirada para estímulos complejos, como imágenes naturales y médicas (por ejemplo, los radiólogos revisan las exploraciones por resonancia magnética / PET).



imagen




Mapa de mirada térmica al usar nuestro teléfono inteligente en comparación con el rastreador ocular más caro (100x) ( conjunto de datos OSIE )



Descubrimos que un teléfono inteligente también puede ayudar a detectar dificultades de comprensión lectora. Los participantes que leyeron pasajes dedicaron mucho más tiempo a buscar pasajes relevantes cuando respondieron correctamente. Sin embargo, a medida que aumentaba la dificultad de comprensión, dedicaron más tiempo a estudiar pasajes irrelevantes del texto antes de encontrar un pasaje adecuado que contenga la respuesta. La proporción de tiempo de mirada dedicado al pasaje relevante fue un buen indicador de comprensión y se correlacionó fuertemente negativamente con la dificultad en la comprensión (r = -0,72).



Biomarcador digital de fatiga mental



La detección de la mirada es una herramienta importante para determinar el estado de alerta y salud, y está ampliamente estudiada en medicina, investigación del sueño y condiciones críticas como operaciones médicas, seguridad de vuelo, etc. Sin embargo, las pruebas de fatiga existentes son subjetivas y, a menudo, llevan tiempo. En nuestro artículo reciente publicado en npj Digital Medicine, demostramos que la mirada de los teléfonos inteligentes está significativamente afectada debido a la fatiga mental y puede usarse para rastrear el inicio y la progresión de la fatiga.



Un modelo simple predice de manera confiable la fatiga mental utilizando datos de la mirada de los participantes en una tarea en solo unos minutos. Validamos estos resultados en dos experimentos diferentes, una tarea de seguimiento de objetos independiente del lenguaje y una tarea de validación dependiente del lenguaje. Como se muestra a continuación, en la tarea de rastrear un objeto, la mirada de los participantes primero sigue la trayectoria circular del objeto, pero cuando están cansados, su mirada muestra grandes errores y desviaciones. Dada la ubicuidad de los teléfonos, estos resultados sugieren que mirar un teléfono inteligente puede servir como un biomarcador digital escalable para la fatiga mental.



imagen




Un ejemplo de seguimiento ocular para un participante sin fatiga (izquierda) y con fatiga mental (derecha) mientras rastrea un objeto siguiendo una trayectoria circular.



imagen




Progresión correspondiente de las estimaciones de fatiga (confianza) y predicción del modelo en función del tiempo de ejecución de la tarea.



Además de sentirse bien, mirar un teléfono inteligente también puede proporcionar un fenotipo digital para detectar o monitorear condiciones de salud como el trastorno del espectro autista , dislexia , conmoción cerebral , etc. Esto podría permitir una intervención oportuna y temprana, especialmente para países con acceso limitado a los servicios de salud.



Otra área que puede ser de gran beneficio es la accesibilidad. En personas con afecciones como ELA , síndrome de la persona encerraday los accidentes cerebrovasculares, el habla y las habilidades motoras están dañadas. Mirar un teléfono inteligente puede proporcionar una forma poderosa de simplificar las tareas diarias mediante el uso de la mirada para interactuar, como se demostró recientemente con Look to Speak .



Consideraciones éticas



La investigación ocular requiere una consideración cuidadosa, incluido el uso correcto de dicha tecnología; las aplicaciones deben recibir la aprobación total y el consentimiento plenamente informado de los usuarios para completar una tarea específica. En nuestro trabajo, todos los datos se recopilaron con fines de investigación con la aprobación y el consentimiento totales de los usuarios. Además, los usuarios podían optar por no participar en cualquier momento y solicitar la eliminación de sus datos. Continuamos explorando formas adicionales de hacer que el aprendizaje automático sea justo y de mejorar la precisión y confiabilidad de la tecnología de la mirada en los datos demográficos de una manera responsable y confidencial.



Conclusión



Nuestros resultados en el seguimiento ocular preciso y asequible basado en el aprendizaje automático en teléfonos inteligentes abren el potencial para estudios a gran escala del movimiento ocular en todos los dominios (por ejemplo, neurociencia, psicología e interacción persona-computadora). Abren nuevas aplicaciones potenciales para el bien público, como la interacción ojo a ojo para la accesibilidad y las herramientas de detección y monitoreo basadas en teléfonos inteligentes para el bienestar y la salud.



Expresiones de gratitud



-, . , : , , , ; , ​​, ; , ; UXR: , . , .



All Articles