Contenido
- Grandes diferencias
- Crisis de reproducibilidad
- Sistema de control de versiones
- Control de versión de datos
- Enlaces útiles
Introducción
A pesar de todos los beneficios de DVC , hay muy pocos desarrolladores que conozcan esta herramienta. Por tanto, creo que no será superfluo presentaros primero. DVC es un sistema de control de versiones de datos de código abierto que es excelente para el aprendizaje automático. Y la principal diferencia entre DVC y Git es que: en primer lugar, tiene un conjunto de herramientas más amplio y conveniente para proyectos ML ; en segundo lugar, está diseñado para el control de versiones de datos, no de código. Y en su mayor parte, aquí es donde terminan sus principales diferencias. Y luego intentaré describir por qué DVC es tan bueno y por qué Git no es suficiente para ML.
Crisis de reproducibilidad
«Reproducibility crisis» ( . – « »), , , , , .
? , 98.5%, ?
, . . , . – , , , , , .
, – . , / . , .
Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS
Git-LFS [] Git , Git. – / , . . . . , :
- Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
- , .
- Git-LFS . LFS .
- Git-LFS .
Data Version Control
DVC Git. , (, Git). DVC + Git :


Github’ - . ( ) , . .
DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .
DVC:
- ;
- ;
- Creación de pipelines para procesar conjuntos de datos y su visualización en la consola;
- Guardar y rastrear todas las métricas;
- Cambiar entre versiones de archivos;
- Reproducción de modelos en las tuberías creadas.
Enlaces útiles
- Sitio web de DVC
- Tutorial de @raiffeisenbank en DVC
- Tutorial DVC en formato Jupiter Notebook