Cómo estudiaría ciencia de datos si comenzara hace un par de años, o una guía para aprender ciencia de datos de manera efectiva

Cuando comencé mi viaje por la ciencia de datos, pasé mucho tiempo averiguando por dónde empezar, qué debería aprender primero y qué recursos debería utilizar. En los últimos dos años, he aprendido algunas cosas que quería saber antes, como si enfocarme primero en programación o estadísticas, qué recursos debo usar para aprender nuevas habilidades, cómo debo abordar el aprendizaje de esas habilidades, etc. Por lo tanto, este artículo está escrito para proporcionar instrucciones e ideas para quienes estudian Ciencia de datos .








Tabla de contenido:



Introducción

1. Matemáticas y estadística

2. Fundamentos de programación

3. Algoritmos y conceptos de aprendizaje automático

4. Proyectos en el campo de la ciencia de datos



Introducción



Supongo que, como científico de datos en ciernes, querrá comprender completamente los conceptos y detalles de varios algoritmos de aprendizaje automático, conceptos de ciencia de datos, etc.

Por lo tanto, le recomiendo que comience desde la base antes de siquiera mirar los algoritmos de aprendizaje automático o las aplicaciones de análisis de datos. Si no tiene un conocimiento básico de cálculo e integrales, álgebra lineal y estadística, le resultará difícil comprender la mecánica subyacente de los distintos algoritmos. Del mismo modo, si no tiene un conocimiento básico de Python, le resultará difícil traducir su conocimiento en aplicaciones del mundo real. A continuación se muestra el orden de los temas que recomiendo estudiar:



  1. Matemáticas y estadística.

  2. Conceptos básicos de programación.

  3. Conceptos y algoritmos de aprendizaje automático.






1. Matemáticas y estadística



Como con todo lo demás, debes aprender los conceptos básicos antes de comenzar con las cosas divertidas. Créame, sería mucho más fácil para mí si comenzara aprendiendo matemáticas y estadística antes de comenzar con algunos algoritmos de aprendizaje automático. Tres temas generales que recomiendo mirar son cálculo / integrales, estadística y álgebra lineal (sin ningún orden en particular).



Integrales



Las integrales son importantes cuando se trata de distribución de probabilidad y prueba de hipótesis. Si bien no necesita ser un experto, lo mejor para usted es aprender los conceptos básicos de las integrales. Los dos primeros artículos están destinados a aquellos que quieran hacerse una idea de lo que son las integrales, o para aquellos que simplemente necesitan repasar sus conocimientos. Si no sabe absolutamente nada sobre integrales, le recomiendo que tome el curso de Khan Academy. Finalmente, aquí hay enlaces a una serie de tareas prácticas para perfeccionar sus habilidades:





Estadísticas



Si hay algún tema en el que deberías centrarte es en las estadísticas. Después de todo, un científico de datos es un estadístico verdaderamente moderno, y el aprendizaje automático es un término moderno para la estadística. Si tiene tiempo, le recomiendo que tome el curso de Georgia Tech titulado Técnicas estadísticas , que cubre los conceptos básicos de probabilidad, variables aleatorias, distribución de probabilidad, pruebas de hipótesis y más. Si no tiene tiempo para dedicarse a este curso, le recomiendo que vea los videos de Khan Academy sobre estadísticas .



Álgebra lineal



El álgebra lineal es especialmente importante si desea sumergirse en el aprendizaje profundo, pero incluso entonces es útil conocerlo para otros conceptos fundamentales de aprendizaje automático, como el análisis de componentes principales y los sistemas de recomendación. Para dominar el álgebra lineal, ¡también recomiendo Khan Academy !




2. Fundamentos de la programación



Así como una comprensión fundamental de las matemáticas y la estadística es importante, una comprensión fundamental de la programación hará su vida mucho más fácil, especialmente cuando se trata de implementación. Por lo tanto, le recomiendo que se tome el tiempo para aprender los lenguajes básicos, SQL y Python, antes de sumergirse en los algoritmos de aprendizaje automático.



SQL



No importa por dónde empezar, pero empezaría con SQL. ¿Por qué? Es más fácil de aprender y útil saber si está empleado en una empresa de datos, incluso si no es un científico de datos.



Si es nuevo en SQL, le recomiendo que consulte los tutoriales de SQL de Mode , ya que son muy concisos y detallados. Si desea aprender conceptos más avanzados, consulte la lista de recursos donde puede aprender SQL avanzado .



A continuación se muestran algunos recursos que puede utilizar para practicar SQL:





Pitón



Empecé con Python y probablemente me quedaré con este lenguaje por el resto de mi vida. Está muy por delante en términos de contribuciones de código abierto y es fácil de aprender. No dudes en recurrir a R si quieres, pero no tengo opiniones ni consejos sobre R. He descubierto que aprender Python a través de la práctica es mucho más gratificante. Sin embargo, después de tomar varios cursos intensivos de Python, llegué a la conclusión de que este curso es el más completo (¡y gratuito!).





Pandas



Quizás la biblioteca más importante que debe conocer es Pandas, que está diseñada específicamente para la manipulación y el análisis de datos. A continuación se presentan dos recursos que deberían acelerar su curva de aprendizaje. El primer enlace es un tutorial sobre cómo usar Randas, y el segundo enlace contiene muchas tareas prácticas que puedes resolver para solidificar tus conocimientos.








3. Algoritmos y conceptos de aprendizaje automático



Si ha llegado a esta parte del artículo, significa que ha construido sus cimientos y está listo para aprender cosas interesantes. Esta parte se divide en otras dos: algoritmos de aprendizaje automático y conceptos de aprendizaje automático.



Algoritmos de aprendizaje automático



El siguiente paso es aprender los diferentes algoritmos de aprendizaje automático, cómo funcionan y cuándo usarlos. A continuación se muestra una lista parcial de los diversos algoritmos y recursos de aprendizaje automático que puede usar para aprender cada uno.





Conceptos de aprendizaje automático



Además, hay algunos conceptos fundamentales de aprendizaje automático que también querrá aprender. A continuación se muestra una lista (no exhaustiva) de conceptos que recomiendo encarecidamente aprender. ¡Muchas preguntas de la entrevista se basan en estos temas!








4. Proyectos en el campo de la ciencia de datos



En este punto, no solo habrá construido una base sólida, sino que también tendrá una comprensión sólida de los fundamentos del aprendizaje automático. Ahora es el momento de trabajar en algunos proyectos paralelos personales. Si desea ver algunos ejemplos simples de proyectos de ciencia de datos, consulte algunos de mis proyectos:



  • Predicción de la calidad del vino mediante métodos de clasificación ( artículo , Github ).
  • Visualización de datos de coronavirus con Plotly ( artículo , Github ).
  • Sistema de recomendaciones de películas con filtros colaborativos ( Github ).


Aquí hay una lista de proyectos de ciencia de datos que puede ver para crear un proyecto paralelo interesante.



Espero que esta publicación le oriente y le ayude en su carrera en la ciencia de datos. No existe una fórmula mágica, así que siéntete libre de ser escéptico acerca de esta publicación, pero creo que aprender los conceptos básicos dará frutos en el futuro. Y el código de promoción HABR agregará un 10% al descuento de capacitación que se muestra en el banner.



imagen









All Articles