Cuando tus datos están sucios

La siguiente historia es una excelente ilustración de cómo la IA tiene una idea equivocada sobre el problema que estamos pidiendo que resuelva:



investigadores de la Universidad de Tübingen entrenaron una red neuronal para reconocer imágenes y luego pidieron que indicaran qué partes de las imágenes eran más importantes para tomar una decisión. Cuando le pidieron a la red neuronal que resaltara los píxeles más importantes para la categoría de tencas (especies de peces), esto es lo que resaltaron:







Dedos humanos rosados ​​sobre un fondo verde.



¡Dedos humanos sobre un fondo verde!



¿Por qué buscaba dedos en las fotografías cuando tenía que buscar peces? Resultó que la mayoría de las imágenes de tencas en el conjunto de datos eran imágenes de personas sosteniendo peces como trofeo. No tiene contexto para lo que realmente es la tenca, por lo que asume que los dedos son parte del pez.



La red neuronal que genera imágenes en ArtBreeder ( BigGAN ) se entrenó en el mismo conjunto de datos de ImageNet, y cuando le pides que genere una línea, hace lo mismo:





cuatro imágenes son personas blancas sosteniendo algo verde y moteado. En algunas imágenes, la cosa verde tiene una textura más a pescado, pero en ninguna parte hay una cabeza y una cola claras. Es solo un gran cuerpo de pez. Las aletas inferiores están intrincadamente mezcladas con muchos dedos humanos rosados.



Los seres humanos son mucho más articulados que los peces y me fascinan los dedos humanos muy exagerados.



Hay otras categorías en ImageNet con problemas similares. Aquí tienes un micrófono.





Cuatro imágenes con un fondo muy oscuro. La parte superior izquierda tiene una forma similar a un micrófono con un deflector de sonido esponjoso o una cabeza hecha de cabello humano gris. Otros parecen personas La



red neuronal ha reconocido el contraste de iluminación de la escena y la forma humana, pero muchas imágenes no contienen nada que se parezca remotamente a un micrófono. En muchas de las fotos del kit de entrenamiento, el micrófono es una pequeña parte de la imagen que puede pasarse por alto fácilmente. Problemas similares surgen con instrumentos pequeños como la "flauta" y el "oboe".



En otros casos, existe evidencia de que las fotografías están mal etiquetadas. En estas imágenes generadas de "cascos de fútbol", algunas muestran claramente a personas que no usan cascos, y algunas se parecen sospechosamente a cascos de béisbol.





Cuatro imágenes generadas. Los dos primeros son personas, ninguno de los cuales usa un casco de fútbol americano (aunque su cabello puede ser un poco extraño; difícil de decir ya que los demás también son tan extraños). En la parte inferior izquierda, un hombre usa un casco que parece una pelota de béisbol de metal. Abajo a la derecha ... Abajo a la derecha: un casco de fútbol americano cruzado con un pez de dibujos animados con dientes



ImageNet es un conjunto de datos realmente desordenado. Tiene una categoría para un agama, pero no para una jirafa. En lugar de un caballo como categoría, hay acedera (un color específico de un caballo). La bicicleta para dos es una categoría, pero la patineta no lo es.





Cuatro imágenes que claramente son una especie de objetos de bicicleta de múltiples ruedas. Las ruedas tienden a ser flexibles con radios extrañamente divididos y, a veces, las ruedas se aflojan. Hay personas que parecen ciclistas, pero son difíciles de separar de las bicicletas La



principal razón de la contaminación de ImageNet es que la base de datos se recopila automáticamente en Internet. Se suponía que las imágenes debían ser filtradas por los trabajadores de crowdsourcing que las etiquetaron, pero se han filtrado muchas rarezas. Y terriblemente grandela cantidad de imágenes y etiquetas que definitivamente no deberían haber aparecido en el conjunto de datos de investigación general y las imágenes que parecen haber llegado allí sin el consentimiento de las personas representadas. Después de años de uso generalizado por parte de la comunidad de IA, el equipo de ImageNet eliminó parte de este contenido. Otros conjuntos de datos problemáticos, como los recopilados a partir de imágenes en línea sin permiso o de imágenes de vigilancia, también se han eliminado recientemente (otros, como Clearview AI, todavía están en uso ).



Vinay Prabhu y Ababa Birhane señalaron problemas serios con otro conjunto de datos esta semana , 80 millones de Tiny Images... El sistema recortó las imágenes y las etiquetó automáticamente mediante otra red neuronal entrenada en texto de Internet. Puede que se sorprenda, pero hay algunas cosas bastante ofensivas en el texto de Internet. MIT CSAIL eliminó este conjunto de datos de forma permanente, eligiendo no filtrar manualmente los 80 millones de imágenes.



Esto no es solo un problema con datos incorrectos , sino con un sistema en el que grandes grupos de investigación pueden publicar conjuntos de datos con grandes problemas, como lenguaje ofensivo y falta de consentimiento para tomar fotos. Como dijo la especialista en ética de la tecnología Shannon Vallor , "Para cualquier institución que hace aprendizaje automático en la actualidad, 'no sabíamos' no es una excusa, sino un reconocimiento". Me gustaEl algoritmo que convirtió a Obama en un hombre blanco , ImageNet es un producto de la comunidad de aprendizaje automático donde hay una gran falta de diversidad (¿ha notado que la mayoría de las personas generadas en este blog son blancas? Si no lo ha notado, esto podría deberse al hecho de que una gran parte de la cultura occidental considera el blanco como color predeterminado).



Se necesita mucho trabajo para crear el mejor conjunto de datos, y saber mejor qué conjuntos de datos nunca deberían crearse. Pero vale la pena hacer este trabajo.



Ver también:






All Articles