Cómo los conjuntos de datos acumulan racismo y sexismo

Los algoritmos de aprendizaje automático para imágenes y texto exhiben regularmente sesgos raciales y sexistas. Un ejemplo reciente es el bloqueo del robot surcoreano de Facebook Lee Luda , que "odia" a los miembros de minorías sexuales y afroamericanos. El problema es más profundo de lo que parece. Al crear conjuntos de datos para el aprendizaje automático, las personas (de forma consciente o no) traducen en ellos muchos de sus propios prejuicios, que posteriormente guían los algoritmos.







Racismo programado



Los datos de fotografías de rostros son la base de los sistemas de visión por computadora. Estos conjuntos a menudo se etiquetan según la raza de los individuos en un conjunto de datos en particular. Sin embargo, en realidad, la raza es un concepto abstracto y vago. Al crear categorías, se presta poca atención a la validez, estructuración y estabilidad de esta información. Esto significa que las personas que forman conjuntos de datos tienen la oportunidad de manifestar el racismo consciente o inconscientemente cuando forman conjuntos de datos.



Investigadores de la Universidad del Noreste de Massachusetts, Zayed Han y Yun Fu, examinaron las etiquetas faciales en conjuntos de datos en el contexto de categorías raciales. Los científicos afirmanque las etiquetas no son fiables porque codifican sistemáticamente estereotipos raciales. Algunos conjuntos de datos utilizan características demasiado vagas como "India / Asia meridional" o "personas con antepasados ​​de países de África, India, Bangladesh, Bután y otros países". Y a veces se utilizan etiquetas que pueden interpretarse como ofensivas, por ejemplo, "mongoloide".



Los investigadores escriben que el conjunto estándar de categorías raciales comúnmente utilizado (asiático, negro, blanco) no puede representar a un número significativo de personas. Por ejemplo, este esquema excluye a los pueblos nativos americanos. No está claro qué etiqueta poner a los cientos de millones de personas que viven en Oriente Medio o África del Norte. Otro problema descubierto es que la gente percibe la identidad racial de ciertos individuos de manera diferente. Por ejemplo, en un conjunto de datos, se consideró a los coreanos más asiáticos que a los filipinos.



Teóricamente es posible ampliar el número de categorías raciales, pero no podrán describir, por ejemplo, mestizo. Se puede utilizar el origen nacional o étnico, pero las fronteras de los países a menudo son el resultado de circunstancias históricas que no reflejan diferencias en la apariencia. Además, muchos países son racialmente heterogéneos.



Los investigadores advierten que los prejuicios raciales pueden multiplicarse y reforzarse si no se abordan. Los algoritmos de reconocimiento facial son susceptibles a varios sesgos. Los conjuntos de datos deben tener tantas razas descritas correctamente como sea posible para evitar cualquier discriminación. Todos los grupos étnicos deben estar representados en el mundo digital, por pequeños que sean.



Sexismo programado



En cuanto a los algoritmos para generar textos e imágenes, también pueden transmitir creencias incorrectas. En cierto sentido, son la personificación del inconsciente colectivo de Internet. Las ideas negativas se normalizan como parte de los algoritmos de aprendizaje.



Los investigadores Ryan Steed y Eileen Caliscan llevaron a cabo un experimento : subieron fotografías de rostros de hombres y mujeres a los servicios que agregan imágenes recortadas. En el 43% de los casos, el algoritmo ofreció a los hombres un traje de negocios. Para las mujeres, en el 53% de los casos, el algoritmo generó una blusa o un traje con un escote profundo.



En 2019, el investigador Keith Crawford y el artista Trevor Paglen descubrieronque las etiquetas de ImageNet, el mayor conjunto de datos para entrenar modelos de visión por computadora, contienen palabras ofensivas. Por ejemplo, "puta" y nombres de razas incorrectos. El problema es que estos conjuntos de datos se basan en datos de Internet, donde circulan muchos estereotipos sobre personas y fenómenos.



Los investigadores enfatizan que las imágenes son datos muy confusos, cargados de muchos significados ambiguos, preguntas insolubles y contradicciones. Y los desarrolladores de algoritmos de aprendizaje automático se enfrentan a la tarea de estudiar todos los matices de la relación inestable entre imágenes y valores.



Necesito más fotos



Las investigadoras Deborah Raji y Genevieve Fried examinaron 130 conjuntos de datos faciales (FairFace, BFW, RFW y LAOFIW) recopilados durante 43 años. Al final resultó que, a medida que crecían más datos, la gente dejó de pedir consentimiento para usar sus imágenes en conjuntos de datos.



Esto dio como resultado que los conjuntos de datos incluían fotos de menores, fotos con descripciones racistas y sexistas e imágenes de baja calidad. Esta tendencia puede explicar la razón por la que la policía arresta por error a personas con frecuencia basándose en datos de reconocimiento facial.



Al principio, la gente era muy cautelosa a la hora de recopilar, documentar y verificar datos faciales, pero hoy a nadie le importa. “Simplemente no puedes rastrear un millón de caras. Después de cierto punto, ni siquiera puedes fingir que tienes el control. Recopilamos información privada de al menos decenas de miles de personas, que en sí misma es la base del daño. Y luego acumulamos toda esta información que no puedes controlar para construir algo que probablemente funcione de una manera que ni siquiera puedes predecir ”, dice Deborah Raji.



Por lo tanto, no debe pensar en los datos y los algoritmos de aprendizaje automático como entidades que clasifican el mundo de manera objetiva y científica. También están sujetos a prejuicios políticos, ideológicos, raciales y evaluaciones subjetivas. Y a juzgar por el estado de conjuntos de datos grandes y populares, esta es la regla, no la excepción.






Blog ITGLOBAL.COM - TI administrada, nubes privadas, IaaS, servicios de seguridad de la información para empresas:






All Articles