La crisis de la reproducibilidad en la investigación de inteligencia artificial

La investigación de la IA está dominada por gigantes tecnológicos, pero la línea entre los avances reales y la publicidad de productos comerciales se está difuminando gradualmente. Algunos científicos creen que es hora de detener esto.







El mes pasado, la revista Nature publicó una reseña abusiva firmada por 31 científicos. No les gustó el estudio de Google Health que apareció anteriormente en la misma revista. En él, Google describió los resultados exitosos de una prueba de inteligencia artificial (IA) que buscaba signos de cáncer de mama en fotografías médicas. Los críticos argumentan que el equipo de Google proporcionó tan poca información sobre el código y el progreso de la prueba que el estudio se parecía más a una descripción promocional de una tecnología patentada y cerrada.



“No podíamos soportarlo más”, dice Benjamin Haibe-Caines, revisor principal que estudia genómica computacional en la Universidad de Toronto. "Y no se trata de este estudio en particular, hemos estado observando una tendencia similar durante muchos años seguidos, y esto realmente nos molesta".



Haibe-Kains y sus colegas se encuentran entre un número creciente de científicos que se resisten a la aparente falta de transparencia en la investigación de la IA. “Después de ver este trabajo de Google, nos dimos cuenta de que este era solo otro ejemplo de una serie de publicaciones entusiastas en una revista muy respetada que no tenía nada que ver con la ciencia”, dice. - Esto es más un anuncio de tecnología genial. No podemos hacer nada al respecto ".



La ciencia se basa en la confianza, incluida la divulgación de los detalles de cómo se realiza la investigación con suficiente detalle para que otros puedan replicar y validar sus hallazgos. Así es como la ciencia se corrige y desarraiga los resultados no confirmados. La reproducibilidad permite que otros basen su trabajo en esos resultados, lo que ayuda a hacer avanzar el campo del conocimiento. La ciencia que no se puede reproducir se encuentra al margen de la historia.



Al menos en teoría. En la práctica, pocos estudios son completamente reproducibles, ya que la mayoría de los investigadores están más interesados ​​en obtener nuevos resultados que en repetir los antiguos. Sin embargo, en campos como la biología, la física, las ciencias de la computación, los investigadores esperan que los autores proporcionen suficiente información para compartir para que estos experimentos puedan repetirse, incluso si esto se hace raramente.



Novato ambicioso



La IA es regañada por varias razones. Primero, es un principiante. Se ha convertido en una ciencia experimental en los últimos diez años, dice Joel Pigno, científico informático de Facebook AI Research y la Universidad McGill, coautor de la denuncia. “Al principio era un área puramente teórica, pero ahora estamos haciendo más y más experimentos”, dice. "Y nuestro compromiso con la metodología rigurosa va por detrás de la ambición de nuestros experimentos".



Este no es solo un problema académico. La falta de transparencia hace que sea difícil probar adecuadamente los nuevos modelos y tecnologías de IA en cuanto a confiabilidad, distorsión y seguridad. La IA está pasando rápidamente de los laboratorios de investigación al mundo real, afectando directamente la vida de las personas. Sin embargo, los modelos de aprendizaje automático (ML) que funcionan bien en el laboratorio pueden romperse en el mundo real, lo que podría tener consecuencias peligrosas. La reproducción de los resultados de los experimentos de diferentes investigadores en diferentes condiciones revelará más rápidamente posibles problemas, lo que hará que la IA sea más confiable para todos.



La IA ya sufre el problema de la "caja negra": a veces es imposible decir cómo o por qué un modelo ML produce exactamente este resultado. La falta de transparencia en la investigación solo empeora las cosas. Los modelos grandes requieren tantos observadores como sea posible para que más personas experimenten y comprendan su trabajo. Así es como puede hacer que el uso de la IA sea más seguro en la atención médica, más justo en el orden público y educado en el chat.



La reproducibilidad normal de la IA se ve obstaculizada por la falta de tres cosas: código, datos y hardware. El estado de la IA en 2020"Un análisis anual verificado por los inversores Nathan Benaich e Ian Hogarth, encontró que solo el 15% de la investigación de IA comparte código. Los investigadores de la industria tienen más probabilidades de comportarse mal que los científicos universitarios. En particular, las empresas OpenAI se destacan en el informe y DeepMind, que es menos probable que compartan su código.



La falta de herramientas necesarias para la reproducibilidad se siente más agudamente cuando se trata de los dos pilares de la IA: datos y hardware. Los datos a menudo se mantienen en manos privadas, por ejemplo, los datos que Facebook recopila sobre sus usuarios, o son confidenciales, como es el caso de los registros médicos. Los gigantes tecnológicos están realizando cada vez más investigaciones sobre clústeres informáticos enormes y extremadamente costosos a los que solo un pequeño número de universidades o pequeñas empresas tienen acceso.



Por ejemplo, entrenar un generador de lenguaje GPT-3, según algunas estimaciones, OpenAI cuesta entre $ 10 y $ 12 millones, y esto es solo si tomamos en cuenta el último modelo, sin tener en cuenta el costo o el desarrollo y la capacitación de los prototipos. "Entonces esa cifra probablemente podría incrementarse en un orden de magnitud o dos", dice Benaich, fundador de la empresa de capital de riesgo Air Street Capital. Un pequeño porcentaje de las grandes empresas de tecnología puede permitírselo, dice: "Nadie más puede invertir presupuestos tan enormes en tales experimentos".





Pregunta hipotética: algunas personas tienen acceso a GPT-3 y otras no. ¿Qué sucede cuando vemos surgir un nuevo trabajo en el que personas ajenas al proyecto OpenAI utilizan GPT-3 para obtener resultados de vanguardia?

Y el principal problema es: ¿OpenAI elige investigadores ganadores y perdedores?




La velocidad del progreso es vertiginosa. Cada año se publican miles de obras. Sin embargo, si no sabe en quién confiar, es muy difícil promover el desarrollo de esta área. La replicación permite a otros investigadores verificar que los autores no emparejaron manualmente los mejores resultados y que las nuevas tecnologías funcionan como se describe. “Cada vez es más difícil distinguir los resultados fiables del resto”, dice Pigno.



¿Qué se puede hacer aquí? Como muchos otros investigadores de IA, Pigno divide su tiempo entre la universidad y los laboratorios corporativos. En los últimos años, ha influido activamente en el sistema de publicación de la investigación sobre IA. Por ejemplo, el año pasado ayudó a promover la lista de elementos que los investigadores deben garantizar en el envío de un artículo a una de las conferencias de inteligencia artificial más importantes, NeurIPS. Incluye código, descripción detallada de experimentos.



La reproducibilidad es valiosa en sí misma



Pinho también ha ayudado a lanzar varios concursos de repetibilidad en los que los investigadores intentan replicar los resultados de los investigadores publicados. Los participantes seleccionan los trabajos aceptados en las conferencias y compiten entre sí realizando experimentos basados ​​en la información proporcionada. Es cierto que solo reciben reconocimiento como recompensa.



La falta de motivación no promueve la difusión de tales prácticas en todos los campos de la investigación, no solo en la IA. La reproducción es algo necesario, pero no se fomenta de ninguna manera. Una solución a este problema es involucrar a los estudiantes en este trabajo. En los últimos años, Rosemary Ke, Ph.D. de Mila, un instituto de investigación de Montreal fundado por Yoshua Benjio, ha organizado un concurso de reproducibilidad, en el marco del cual los estudiantes intentan reproducir las investigaciones enviadas a NeurIPS en el marco de la formación. Algunos de los intentos exitosos son revisados ​​por pares y publicados en ReScience.



"Reproducir el trabajo de otra persona desde cero requiere mucho esfuerzo", dice Ke. "El Concurso de reproducibilidad premia este esfuerzo y honra a las personas que hacen un buen trabajo". Ke y otros hablan sobre estos intentos en conferencias de IA, organizando talleres para alentar a los investigadores a agregar transparencia a su trabajo. Este año, Pinho y Ke han ampliado su competencia para incluir las siete conferencias de inteligencia artificial más importantes, incluidas ICML e ICLR.



Otro proyecto que promueve la transparencia se llama Papers with Code. Fue organizado por el investigador de inteligencia artificial Robert Stoinik cuando trabajaba en la Universidad de Cambridge. Ahora él y Pinho trabajan juntos en Facebook. El proyecto se lanzó por primera vez como un sitio web independiente donde los investigadores podían vincular su trabajo a su código. Este año, el proyecto se ha asociado con el popular servidor de preimpresión arXiv. Desde octubre, todos los trabajos de machine learning publicados en arXiv cuentan con una sección Papers with Code, desde donde hay un enlace al código que los autores del trabajo están listos para publicar. El objetivo del proyecto es hacer que la distribución de dicho código sea la norma.



¿Estos intentos afectan algo? Pigno descubrió que el año pasado, cuando se publicó la lista de requisitos previos, el número de artículos sometidos a código enviados a la conferencia NeurIPS había aumentado del 50% al 75%. Miles de revisores dicen que usaron el código para calificar los envíos. El número de participantes en el concurso de reproducibilidad está creciendo.



El diablo está en los detalles



Pero esto es solo el principio. Haibe-Kains señala que el código por sí solo a menudo no es suficiente para volver a ejecutar un experimento. Para crear modelos de IA, debe realizar muchos cambios pequeños: agregue un parámetro allí, valor aquí. Cualquiera de estos puede hacer que un modelo de trabajo no funcione. Sin metadatos que describan cómo se entrenan y ajustan los modelos, el código puede ser inútil. "El diablo realmente está en las pequeñas cosas", dice.



Tampoco siempre está claro qué código distribuir. Muchos laboratorios utilizan programas especiales para ejecutar modelos. A veces es software propietario propietario. A veces también es difícil saber qué código compartir, dice Haibe-Kains.



Pinho no está particularmente preocupado por tales obstáculos. “Se puede esperar mucho de la distribución del código”, dice. Compartir datos es más difícil, pero hay soluciones. Si los investigadores no pueden compartir los datos, pueden brindar orientación sobre cómo recopilar un conjunto de datos adecuado por sí mismos. O bien, un pequeño número de revisores puede acceder a los datos que validarán los resultados para todos los demás, dice Khaibe-Kains.



El mayor problema es el hardware. DeepMind afirma que los grandes proyectos como AlphaGo o GPT-3 en los que los grandes laboratorios gastan dinero beneficiarán a todos al final. Inaccesible para otros investigadores en las primeras etapas, la IA, que requiere una gran potencia informática, a menudo se vuelve más eficiente y más accesible durante el desarrollo. "AlphaGo Zero superó a su predecesor, AlphaGo, utilizando mucho menos poder de cómputo", dijo Koray Kavukchuoglu, vicepresidente de investigación de DeepMind.



En teoría, esto significa que incluso si el estudio se reproduce tarde, seguirá siendo posible. Kavukchuoglu señala que Jean-Carlo Pascutto, un programador belga de Mozilla que escribe ajedrez y programas go en su tiempo libre, pudo replicar una variante de AlphaGo Zero, llamándola Leela Zero, utilizando algoritmos descritos en los artículos de DeepMind. Pigno también cree que los estudios emblemáticos como AlphaGo y GPT-3 son raros. Ella dice que la mayoría de las investigaciones de inteligencia artificial funcionan en computadoras disponibles para el laboratorio promedio. Y ese problema no es exclusivo de la IA. Pinho y Benayhom apuntan a la física de partículas, en la que algunos experimentos solo pueden realizarse en equipos costosos como el Gran Colisionador de Hadrones.



Sin embargo, varios laboratorios realizan juntos experimentos de física en el LHC. Y los grandes experimentos de IA generalmente se llevan a cabo en equipos que son propiedad y están controlados por empresas privadas. Pero Pinho dice que esto también está cambiando. Por ejemplo, Compute Canada está ensamblando clústeres informáticos para permitir que las universidades lleven a cabo grandes experimentos de inteligencia artificial. Algunas empresas, incluida Facebook, dan a las universidades acceso limitado a sus equipos. “La situación no está completamente resuelta”, dice. "Pero algunas puertas están comenzando a abrirse".





, . . Google, , Nature , , Google - .

: , , ( ). . .




Khaibe-Kains duda. Cuando le pidió al equipo de Google Health que compartiera el código de su IA de diagnóstico de cáncer, le dijeron que el código aún necesitaba más pruebas. El equipo reitera esta misma excusa en una respuesta formal a la crítica de Haibe-Kains, también publicada en Nature. "Vamos a someter nuestros programas a pruebas rigurosas antes de que se utilicen en un entorno clínico, trabajando con pacientes, proveedores de servicios y reguladores para que todo funcione de manera eficiente y segura". Los investigadores también afirmaron que no se les permite compartir todos los datos médicos que utilizan.



Eso no funcionará, dice Haibe-Kains. "Si quieren convertir esto en un producto comercial, entiendo por qué no quieren revelar toda la información". Sin embargo, cree que si publica en una revista científica o en una conferencia, es su deber publicar código que otros puedan ejecutar. A veces es posible lanzar una versión entrenada para nosotros con menos datos o usando hardware menos costoso. Los resultados pueden ser peores, pero la gente puede jugar con ellos. “La línea entre la fabricación de productos comerciales y la investigación se difumina constantemente”, dice Haibe-Kains. "Creo que esta área de especialización eventualmente saldrá perdiendo".



Los hábitos de investigación son difíciles de abandonar



Si las empresas son criticadas por publicar trabajos, ¿por qué molestarse con ello? Parte de esto, por supuesto, tiene que ver con las relaciones públicas. Sin embargo, esto es principalmente necesario porque los mejores laboratorios comerciales están llenos de investigadores universitarios. Hasta cierto punto, la cultura de lugares como Facebook AI Research, DeepMind y OpenAI está moldeada por hábitos académicos tradicionales. Además, las empresas de tecnología se benefician de participar en la comunidad de investigación más amplia. Todos los grandes proyectos de IA en laboratorios privados se basan en una variedad de resultados de investigaciones publicadas. Y pocos investigadores de IA han utilizado herramientas de aprendizaje automático de código abierto como PyTorch de Facebook o TensorFlow de Google.



Cuanta más investigación se realice en las empresas gigantes de la tecnología, más compensaciones habrá que hacer entre los requisitos comerciales y de investigación. La pregunta es cómo los investigadores abordarán estos problemas. A Haibe-Kains le gustaría que revistas como Nature dividieran sus publicaciones en flujos separados: investigación replicable y demostración de avances tecnológicos.



Pinho es más optimista sobre el futuro. “No estaría trabajando en Facebook si no fuera por un enfoque abierto a la investigación”, dice.



Otros laboratorios corporativos también insisten en un compromiso con la apertura. “El trabajo científico requiere un estudio cuidadoso y reproducibilidad por parte de otros investigadores”, dice Kavukchuoglu. "Esta es una parte fundamental de nuestro enfoque de investigación en DeepMind".



“OpenAI se ha convertido en algo muy diferente de un laboratorio tradicional”, dice Kayla Wood, portavoz de la empresa. "Naturalmente, surgen preguntas para ella". Ella señala que OpenAI está trabajando con más de 80 organizaciones comerciales y académicas a través de la iniciativa Partnership on AI para pensar en normas a largo plazo para la publicación de investigaciones.



Pinho cree que hay algo en esto. Ella cree que las empresas de inteligencia artificial están demostrando una tercera forma de hacer investigación, en algún lugar entre las dos corrientes de Haibe-Kains. Ella compara los resultados inteligentes de los laboratorios privados de inteligencia artificial con las de las empresas farmacéuticas; estas últimas invierten miles de millones en el desarrollo de fármacos y se quedan con la mayoría de los resultados.



Queda por ver el impacto a largo plazo de las prácticas adoptadas por Pinho y otros. ¿Cambiarán los hábitos de forma permanente? ¿Cómo afectará esto al uso de la IA fuera de la investigación? Mucho depende de en qué dirección vaya la IA. La tendencia hacia modelos y conjuntos de datos más grandes, que sigue, por ejemplo, OpenAI, mantendrá una situación en la que las opciones avanzadas de IA no están disponibles para la mayoría de los investigadores. Por otro lado, las nuevas tecnologías, como la compresión de modelos y el aprendizaje de pocas oportunidades, podrían romper esta tendencia y permitir que más investigadores trabajen con IA más pequeñas y eficientes.



De cualquier manera, las grandes empresas seguirán dominando la investigación de IA. Y si se hace bien, no hay nada de malo en eso, dice Pigno: "La IA está cambiando el funcionamiento de los laboratorios de investigación". La clave es asegurarse de que el público en general tenga la oportunidad de participar en la investigación. Porque la fe en la IA, de la que tanto depende, comienza en la vanguardia.



All Articles