En este artículo, me gustaría compartir mi experiencia de una carrera científica en el campo de la Ciencia de Datos, acumulada durante el último año y medio.
Esta es mi primera publicación en Medium, así que me gustaría hablar sobre mí y mis experiencias anteriores. Soy estudiante de doctorado en Ingeniería Ambiental y Computación en la Universidad de Harvard, y también trabajo como consultor de aprendizaje automático y blockchain para la consultora de inteligencia artificial con sede en el Reino Unido Critical Future. Mi investigación se centra en la implementación del aprendizaje automático y la inteligencia artificial en la ciencia ambiental utilizando sistemas de sensores basados en drones que pueden moverse por sí mismos para componer una imagen de la composición química de la atmósfera inferior, principalmente en la selva amazónica (para los interesados en este proyecto, Publicaré artículos separados sobre este tema en un futuro próximo).
Comencé mi viaje de doctorado en la Universidad de Harvard en el otoño de 2017 con una licenciatura y una maestría en ingeniería mecánica del Imperial College London y completé mi último año en el extranjero en la Universidad Nacional de Singapur. Durante mis estudios de pregrado, no estaba muy familiarizado con la ciencia de datos y la estadística en general, pero al mismo tiempo sabía mucho sobre programación en Matlab, C y Visual Basic, y también tenía una sólida formación matemática.
Antes de comenzar en Harvard, nunca había programado en Python, ni siquiera había oído hablar de R. Nunca había hecho computación paralela, nunca había creado clústeres, y el aprendizaje automático y la inteligencia artificial eran cosas de las que generalmente solo escuchaba. de novelas y películas distópicas.
Asistir a un programa de Harvard Computer Science and Machine Learning con un trasfondo tan humilde fue como escalar un acantilado (agotador y tembloroso). Sin embargo, esto es Harvard, así que no puedes esperar menos. El programa de doctorado de Harvard requiere 10 cursos, de los cuales generalmente 8 son de maestría. Se pueden completar a su propio ritmo, pero debe completarlos antes de graduarse, lo que demora 5 años en promedio. Se anima a los estudiantes a completar todos los cursos dentro de los primeros dos años, después de los cuales pueden obtener su título de maestría (formalmente gratis). Al final del semestre de primavera de 2019, cumpliré con estos requisitos y recibiré mi diploma, después del cual me concentraré exclusivamente en la investigación.
En el otoño de 2018, Harvard lanzó el primer grupo de estudiantes para un programa de maestría en ciencia de datos. Es un programa de dos años que consta de cursos básicos en ciencia de datos, ética y matemáticas aplicadas, informática y materias optativas en estadística / economía. Al llegar un año antes que todos estos estudiantes, seré uno de los primeros en cumplir con los prerrequisitos básicos para este programa, brindándome una experiencia única en términos de la efectividad de mi título en Ciencias de Datos.
Durante los últimos 18 meses, he realizado varios cursos. Uno de los primeros fue CS205: Computación paralela, donde aprendí por primera vez a programar en Linux y creé clústeres de cómputo capaces de acelerar linealmente los cálculos matriciales, y este curso culminó con un proyecto final que incluía computación paralela en Python con Dask en un clúster de Kubernetes.
También tomé AM207: Computación científica avanzada, que ofrece la Escuela de Extensión de Harvard (lo que significa que cualquiera puede tomar este curso). Este curso se centró en las estadísticas bayesianas y su implementación en el aprendizaje automático, e incluyó innumerables horas de simulaciones de la Cadena de Markov de Montecarlo (MCMC), trabajando con el Teorema Bayesiano e incluso viendo un breve video sobre Superman que hizo que el tiempo pasara. reversión (para demostrar el concepto de reversibilidad temporal en el aprendizaje automático)
También uno de los cursos básicos es AC209a, que se centra en los fundamentos del aprendizaje automático y la ciencia de datos. Yo diría que este curso incluye lo que la mayoría de la gente piensa cuando alguien dice las palabras "Ciencia de datos" o "Aprendizaje automático". Se trata de aprender a realizar análisis de datos exploratorios y ejecutar regresores y clasificadores mediante sklearn. Gran parte del tutorial se centra en comprender estas técnicas y la mejor manera de optimizarlas para un conjunto de datos determinado (se necesita un poco más que usar model.fit (X_train, y_train) ...). Otro curso es AC209b: Secciones adicionales de ciencia de datos, que es una extensión de la primera clase. Básicamente, este es un curso de ciencia de datos sobre esteroides,en el que las primeras conferencias comienzan con modelos aditivos generalizados y la creación de buenos splines para describir conjuntos de datos. Sin embargo, las cosas escalan rápidamente para ejecutar 2500 modelos en paralelo usando Dask en un clúster de Kubernetes en un intento de realizar una optimización hiperparamétrica en una red neuronal artificial de 100 capas. Al mismo tiempo, de hecho, ni siquiera fue lo más difícil que hicimos: todo esto sucedió solo en la tercera semana de conferencias, si hablamos del curso en su conjunto.Ni siquiera fue lo más difícil que hicimos, todo sucedió solo en la tercera semana de conferencias, si hablamos del curso en su conjunto.Ni siquiera fue lo más difícil que hicimos, todo sucedió solo en la tercera semana de conferencias, si hablamos del curso en su conjunto.
También he tomado otros cursos, incluido CS181: Machine Learning, que cubre los fundamentos matemáticos de regresión, clasificación, aprendizaje por refuerzo y otras áreas utilizando métodos tanto basados en frecuencia como bayesianos; AM205: Métodos científicos para resolver ecuaciones diferenciales y AM225: Métodos avanzados para resolver ecuaciones diferenciales parciales. Hay muchos otros cursos que también podría tomar durante mi tiempo restante en Harvard para profundizar mis conocimientos, como CS207: Ingeniería de sistemas para ciencias computacionales, AM231: Teoría de decisiones o AM221: Optimización avanzada. También debo aclarar que cada uno de estos cursos tuvo un proyecto final que pude agregar a mi portafolio.
Ahora, pasemos al tema del artículo: después de todo este tiempo que pasé aprendiendo cómo ser un buen científico de datos, ¿valió la pena? ¿O podría haberlo hecho todo yo mismo? Más específicamente, ¿vale la pena que alguien que busque seguir esto como una carrera invierta de 1 a 2 años y más de $ 100,000 en un título en Ciencias de la Información?
No creo que todo lo que aprendí en estos 18 meses de cursos de ciencia de datos lo pudiera aprender leyendo libros, viendo videos en línea y estudiando la documentación de varios paquetes de software. Sin embargo, no tengo ninguna duda de que obtener un título en Ciencia de datos puede acelerar la carrera de alguien, así como proporcionar una experiencia valiosa con proyectos del mundo real que podrían discutirse durante las entrevistas y usarse en un portafolio. Personalmente, me tomaría años descubrir cómo optimizar una red neuronal de 100 capas que se ejecuta en un clúster paralelo en Google Cloud si estuviera sentado en casa y viendo un video en Youtube; ni siquiera podía imaginar cómo hacerlo.
La curiosidad por la ciencia de datos es excelente y me gustaría que más personas se interesaran en este tema. Desde la explosión de la información, parece que en la próxima década, los datos se convertirán en la nueva religión mundial y, por lo tanto, es inevitable que el mundo necesite muchos más especialistas en Ciencia de Datos. Sin embargo, la curiosidad puede llevarlo muy lejos, y tener un papel que demuestre que ha dedicado tiempo, invertido en habilidades y buenos hábitos, y se ha convertido en un científico de datos verdaderamente consumado, lo diferenciará del resto. La ciencia de datos no solo existe como una competencia de Kaggle, como algunos parecen pensar.
Mi consejo para aquellos que buscan hacer ciencia de datos es que obtengan una buena base en estadística y matemáticas, también les aconsejo que adquieran algo de experiencia en programación en lenguajes como Python y R, así como dominar el desarrollo de Linux. La mayoría de los estudiantes de informática que he visto parecen tener problemas con aspectos relacionados con la informática, como trabajar con contenedores Docker y crear y administrar clústeres distribuidos que se ejecutan en alguna infraestructura en la nube. Hay muchas habilidades complejas que dominar para convertirme en un científico de datos experimentado, y ciertamente no puedo llamarme un experto. Sin embargo, con algo de experiencia, me siento lo suficientemente seguroque puedo seguir desarrollando mis propias habilidades en Data Science y Machine Learning y aplicarlas en proyectos e investigaciones relacionadas con la industria, sin miedo a hacer "mala ciencia".
Si quieres saber qué es un curso de Data Science, te recomiendo que eches un vistazo a los cursos en línea que ofrecen las universidades, que a menudo te otorgan los créditos que necesitas para completar tu título. Ahora hay un estudiante en Harvard que completó 3 cursos en ciencias de la computación en la Escuela de Extensión y ahora tiene un título en Ciencias de la Computación e Ingeniería y es uno de los asistentes de enseñanza en el curso de Ciencia de Datos Avanzados. ¡Todo es posible!
Cursos en línea en ciencia de datos con un diploma estatal de MISIS
NUST MISIS y SkillFactory (una escuela en línea de ciencia de datos) firmaron un acuerdo para crear un programa de maestría en línea conjunto "Ciencia de datos", que incluirá pasantías en proyectos reales, salas de chat con mentores y un plan de capacitación individual. Las clases serán dirigidas por el profesor NUST "MISA" y los profesionales de Mail.ru Group, Yandex, Tinkoff Bank y las empresas VTB Lamoda, BIOCAD, Alpha Insurance y otras.
Este es el primero en el caso ruso de una asociación con una empresa de educación privada modelo de universidad pública de OPM (Online Gestión de programas). El socio industrial del programa será Mail.ru Group. El programa también cuenta con el apoyo de NVidia, Rostelecom y NTI University "20.35".
Los graduados de licenciatura de cualquier dirección podrán inscribirse en el programa de maestría en función de los resultados del examen en línea.Puedes postularte ahora mismo y hasta el 10 de agosto.
Materiales útiles
- No se convierta en un científico de datos
- 450 cursos gratuitos de la Ivy League
- Cursos gratuitos de ciencia de datos de la Universidad de Harvard
- 109 cursos gratuitos de ciencia de datos
- 65 cursos gratuitos de aprendizaje automático de las mejores universidades del mundo
- Lo siento, pero los cursos en línea no lo convertirán en científico de datos
- Cómo aprender a ser un científico de datos: las habilidades técnicas más demandadas
- Filosofía de la enseñanza de la ciencia de datos y el aprendizaje profundo de fast.ai
- Cómo me convertí (doctorado en neurobiología) en científico de datos en 6 meses
- Proyecto de ciencia de datos más exitoso y controvertido: Cambridge Analytica
- Python.org recomienda: Programación para no programadores