Aprender ciencia de datos desde cero: hitos e hitos

De acuerdo con el concepto de un enfoque en espiral del aprendizaje, sobre el que escribí anteriormente , aquí hay un plan paso a paso para dominar la ciencia de datos. El plan está diseñado para que cada etapa haga que el estudiante esté más o menos mejor equipado para tareas del mundo real. Este enfoque está inspirado en la ideología de Agile en el sentido de que no importa cuánto tiempo dedique a aprender y en cualquier momento que se detenga, tendrá el conjunto de conocimientos más solicitado que pueda dominar en ese momento.





Esta lógica también se puede explicar por lo contrario: es peligroso aprender de inmediato las redes neuronales, porque una persona que sabe algo sobre ellos, pero que no sabe cómo aplicarlo eficazmente en la práctica, no tiene demanda. Y, por ejemplo, puedes obtener un conjunto de conocimientos en 300 horas que no te convierte en un especialista lo suficientemente bueno para resolver ningún problema real, y ni siquiera te permitirá encontrar un trabajo inicial para seguir desarrollando estas habilidades.





Si estudia de acuerdo con el plan propuesto, en cada etapa habrá una mayor posibilidad de encontrar un trabajo de este tipo, de modo que las habilidades necesarias para un mayor crecimiento también se puedan mejorar en el curso del trabajo real.





Para cada etapa, indico los costos laborales de referencia, sujeto a un enfoque más o menos efectivo y estudiando solo el volumen mínimo requerido (con un enfoque ineficaz, cada punto se puede enseñar diez veces más)





Más adelante, en un artículo aparte, escribiré buenos cursos y libros correspondientes a cada etapa (algunos cursos y libros para las primeras etapas ya se han indicado anteriormente en el primer artículo de esta serie).





Etapa 1. Herramientas básicas de análisis de datos: SQL, Excel

  • Conceptos básicos de SQL (20h). El conocimiento de SQL por su cuenta puede ser útil para muchas otras tareas. Y, en cualquier caso, es necesario para una gran parte (¿la mayoría?) De las vacantes para el puesto de analista, científico de datos y, más aún, ingeniero de aprendizaje automático.





  • Conceptos básicos de Excel (10h): filtros y clasificación de datos, fórmulas, vlookup, tablas dinámicas, trabajo básico con gráficos. Los colegas, socios o la gerencia enviarán aportes para sobresalir, y deberá poder comprenderlos y estudiarlos rápidamente. A menudo, es más conveniente preparar y presentar los resultados del análisis realizado en Python en Excel.





  • (20-200, ), .. , pandas/scikit, Python .





: / / -. , , 100, 50-70 .





2. Python Pandas

  • Python (80). . .





  • pandas (20 ) - . : , , ,





  • API (requests, beatiful soup)





Python API, -.





, . , -, ( ). , , .





3.

( 200-400 , )





  :





  • -





  • Overfitting









  • Data leakage





  • ( )









, :





  • :

















    • Random forest









    • kNN





  • : k-means





  • :





  • : PCA





: dummy , one-hot encoding, tf-idf









:





  • : , ( ).





  • : "correlation does not imply causation", .





  • ., ,   : . (max likelihood), (log-likelihood). ( log log-odds), ( ""). , , . , . . , senior, :





. - (/) .





4.

- scikit-learn, pandas (numpy).





, . 100-300. - , .





feature engineering





junior data scientist. . . senior , .





, CNN, RNN/LSTM , vector embeddings. , . " " , , , , , .





, .





20-40, .





5. ,  

60-200, . , , , .. ,





  • Conda, , conda





  • bash





  • Python standard library, ( itertools, collections, contextlib), , ; context managers.





  • git, IDE: pycharm/vs code. git,





  • (matplotlib+seaborn, plotnine, plotly), .





( -, ).





, , , , (feature engineering), , , (xgboost, cat-boost). . Senior .





, 2-5

- , . , , . ( ):





  • matplotlib – , . , , -. , , "" - .





  • seaborn - , . .





  • plotnine - . - , . - seaborn , matplotlib , . , , plotnine . plotly - .





  • plotly - . . , , ().





, 10-20 .





, - PowerBI Tableau, . , , 60. SQL+Excel+PowerBI/Tableau "BI-" c 100 ., 150 . .





, ,





  • regular expressions, aka RegExp (10). regexp .





  • PySpark (40 , 100-200 ) . , (). Big data. , .. . ( , ).





    Spark , , , .. SQL , , API pandas. , . Koalas, pandas spark-, Spark.





  • html - , , , .





6

, , , .





  • Python :  , , , dunderscore ____ .





  • bash, linux





  • docker





  . , , . .. , .





- (, EDA ). , . , . , , .. . , : , , .





, . , .. . , "" .





:  . 50, , , .





, , data science









, ,









, ( 2 ) , , .





, , , , . , , , . , .





, , , .





self.development.mentor en el dominio gmail.com, Oleg 








All Articles