Lo que quieren las conferencias: reproducibilidad de experimentos en ciencia de datos

Las principales conferencias cientĂ­ficas piden la reproducibilidad de los experimentos. Y esto es necesario para aumentar la credibilidad del trabajo, para extraer valor (reutilizaciĂłn y cita), bueno, y la "tendencia" ( segĂşn una encuesta de la revista Nature ).





Las expectativas están creciendo, en 2021 ya 9 de cada 10 conferencias ofrecen a los autores para verificar la reproducibilidad. Aprobar la prueba, completar un cuestionario, traer un testigo, etc. 





De quĂ© estamos hablando, por quĂ© es necesaria la reproducibilidad, quĂ© problemas deben resolverse, lo discutiremos en este artĂ­culo. 





Experimentos en aprendizaje automático

. .





, . , train, test .





, , , . , , (pipeline) .





, .





, AAAI 2014, AAAI 2016, IJCAI 2013 IJCAI 2016 , 80% — !





,

2021 . GuideToResearch (Top 100), Machine Learning, Data Mining & Artificial Intelligence. .





#

















1





CVPR 2020





http://cvpr2020.thecvf.com/submission/main-conference/author-guidelines





Encouraged





2





NeurIPS 2021





https://neurips.cc/Conferences/2021/PaperInformation/PaperChecklist





Required





3





ICCV 2021





http://iccv2021.thecvf.com/node/4





Encouraged





4





ECCV 2020





https://eccv2020.eu/reviewer-instructions/





Encouraged





5





AAAI 2021





https://aaai.org/Conferences/AAAI-21/aaai21call/





Required





6





ICML 2021





https://icml.cc/Conferences/2021/CallForPapers





Encouraged





7





SIGKDD 2021





https://www.kdd.org/kdd2020/files/KDD_2020_Call_for_Research_Papers.pdf





Encouraged





8





IJCAI 2021





https://ijcai-21.org/cfp/





Required





9





ICLR 2021





https://iclr.cc/Conferences/2021/CallForPapers





Not found





10





ACL 2021





https://2021.aclweb.org/calls/papers/





Reminder





:





  • Not found — CFP .





  • Reminder — .





  • Encouraged — , .





  • Required — .





, . , , , . , , . ( NeurIPS, Gundersen et al.). 





, , .





, . , 2020-2021 , , . ACM , :





(repeatable experiment / )

, .





(artifact) , , , , , .





(reproducible / )

, .





(replicable / )

.





, « », .





.

, - https://en.wikipedia.org/wiki/Reproducibility





XX :





“non-reproducible single occurrences are of no significance to science”





— Popper, K. R. 1959. The logic of scientific discovery. Hutchinson, London, United Kingdom.





. .





—

.





: , ? -, , (, ). , ?





: , , . , ? ? , , !





, ?





. , arxiv.org paperswithcode.org. ? ? ? ? . « », — .





— provenance

. ! Prov-ML . UML 2 ( , << «).





. ? ? ? ? ?





. , , , . , , .





— ?! 

. , , , .





— , , code style, , , .





— //, / ( ), . . , (. ).





, « » StackOverflow StackExchange. « , . — , . , , , , , , .»





, , -, .





,





Jupyter Notebooks, GitHub, , 4% .





4%, !





, , : 





A Large-scale Study about Quality and Reproducibility of Jupyter Notebooks.





— . requirements.txt, setup.py. - .





— . , .





— , , .





, , , :





  • (40%)





  • (13%)





  • ( matplotlib ) (52%)





  • (3%)





  • (3%)





  • . python (4%)





  • (27%)





? , R 44% ( , ). , .





?

. .





, « » (. « DL» , google it). 





. .





— . (a.k.a. MLOps), (Exploratory Data Analysis, EDA) , , - .





— . , , .





— , , - ( , )!





ML — , (hardcore).





P.S. FAIR

, (Findable), (Accessible), (Interoperable) (Reusable) (FAIR) 2016 , .





[1] .





[2] .





[3] .





[5] Jupyter Notebooks. 





[6] .





[7]  , Best Practices for Scientific Computing





[8] Top Ten Reasons (not) to Share your Research Code .





[9] Un artículo con resultados de encuestas que tiene un mayor impacto en la reproducibilidad, Comprensión de experimentos y prácticas de investigación para la reproducibilidad: un estudio exploratorio








All Articles