DVC frente a GIT. Por qué GIT no es suficiente para proyectos de aprendizaje automático

Contenido





Introducción



A pesar de todos los beneficios de DVC , hay muy pocos desarrolladores que conozcan esta herramienta. Por tanto, creo que no será superfluo presentaros primero. DVC es un sistema de control de versiones de datos de código abierto que es excelente para el aprendizaje automático. Y la principal diferencia entre DVC y Git es que: en primer lugar, tiene un conjunto de herramientas más amplio y conveniente para proyectos ML ; en segundo lugar, está diseñado para el control de versiones de datos, no de código. Y en su mayor parte, aquí es donde terminan sus principales diferencias. Y luego intentaré describir por qué DVC es tan bueno y por qué Git no es suficiente para ML.









Crisis de reproducibilidad



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • Creación de pipelines para procesar conjuntos de datos y su visualización en la consola;
  • Guardar y rastrear todas las métricas;
  • Cambiar entre versiones de archivos;
  • Reproducción de modelos en las tuberías creadas.









All Articles