Lo mejor de Kaggle: qué es la ciencia de datos competitiva y cómo tener éxito en ella

¡Hola Habr! En el blog de nuestro sitio web, publicamos periódicamente artículos sobre datos y todo lo relacionado con ellos. Publicamos algunos materiales de aquí y de aquí.



¿Cómo saben las empresas qué científico de datos es mejor cuando los contratan? ¿Cómo mostrar tu talento y hacerte famoso en la comunidad? ¿Sobre la base de cuál se forma la calificación, en función de la cual puede ser contratado para un puesto de prestigio? Le informaremos sobre la plataforma competitiva más famosa, las posibilidades y reglas de su juego, y también revelaremos la lista de los mejores participantes de Rusia.










La ciencia de datos es, por definición, una ciencia. Por lo tanto, para evaluar a desarrolladores y analistas, el índice de Hirsch , muy extendido entre los científicos, se ha aplicado y se está aplicando desde hace mucho tiempo  . Ayuda, por el número de publicaciones y su citación, a comprender cuánto trabajo científico está en demanda y, por lo tanto, su autor. 

El índice de Hirsch h es igual al número de artículos, a cada uno de los cuales se hizo referencia al menos h veces. Es decir, para calcularlo toman todos los artículos del científico que fueron citados por sus colegas, los ordenan en orden decreciente del número de referencias a ellos, asignándoles números. A continuación, encuentran el último artículo, cuyo número no supera el número de citas. Este número es el índice de Hirsch.
¿Complicado? No parece muy bueno y los científicos de datos reales lo entienden de inmediato, pero no es muy adecuado para evaluar su trabajo. Después de todo, el resultado de su trabajo es mucho más a menudo un código, no un texto científico. Además, los científicos de datos tienen demanda en el mercado, y el mercado es más importante en los ejemplos de algoritmos que en los logros científicos. 



Pero a menudo las empresas mantienen en secreto la información sobre sus empleados y su trabajo. Los científicos de datos están especialmente ocultos en Rusia, donde  hay una  gran escasez de personal en esta área. 



En respuesta a la demanda, las plataformas competitivas para desarrolladores han ganado popularidad. El servicio más famoso es Kaggle (pronunciado: "cajl"), que es propiedad de Google. Los estudiantes lo usan  y los desarrolladores profesionales  cuentancómo actualizar su calificación. Las soluciones utilizadas allí marcan la moda entre los científicos de datos, y las empresas en Rusia y en el mundo prestan atención a su lugar en las calificaciones de Kaggle cuando contratan. 



En 2017,  más de un millón de usuarios se registraron en Kaggle  , y en agosto de 2020, los usuarios de Rusia  buscaron en Google el  servicio casi con tanta frecuencia como la frase "Big Data": 







Kaggle es completamente gratuito y cualquier usuario puede organizar una competencia de minería de datos o participar en una existente. El sistema aloja conjuntos de  datos abiertos y también proporciona herramientas en la nube para su procesamiento y aprendizaje automático. También hay una oportunidad para estudiar y una sección para publicar vacantes, donde los concursos también ayudarán a seleccionar a los mejores candidatos. 



Cómo funciona



Una de las características interesantes de Kaggle, gracias a la cual se hizo tan popular en el entorno de la ciencia de datos, es  el sistema de clasificación



Los usuarios pueden ganar puntos y mejorar su clasificación en cuatro categorías diferentes: 



  • Competencia.  Solo o en equipo, resuelves problemas de aprendizaje automático. Las competiciones son muy diversas: desde una tarea simple y directa de predecir la  cantidad de sobrevivientes en el Titanic  hasta  evaluar la efectividad de los defensores  cuando juegan un pase del NFL Big Data Bowl 2021.
  • Código de programa.  Comparta su código con la comunidad ejecutándolo en Kaggle Notebooks, un entorno de computación en la nube.
  • Conjuntos de datos.  Puede ayudar a otros científicos de datos compartiendo nuevos datos.
  • Discusiones.  Discuta las tareas y comparta sus mejores soluciones, además de calificar las publicaciones de otros usuarios.


La promoción en cada una de las categorías no depende de las demás. En ellos hay disponibles diferentes niveles de logros: 



  • Principiante.  Solo necesitas registrarte.
  • Partícipe.  Completó su perfil y habló con la comunidad, y también utilizó todas las funciones de la plataforma:

    - Ejecute un script.

    - Participamos en una competición.

    - Escribimos un comentario.

    - Dimos un voto a uno de los participantes.

  • .  Kaggle . , Kaggle . 
  • .  , Kaggle . «» , .
  • .  . .


Las medallas se otorgan por excelentes resultados en concursos, código de programa popular o conjunto de datos útiles y permanecen para siempre. Al mismo tiempo, los puntos pierden su valor con el tiempo, lo que permite que la clasificación general siga siendo relevante.



¿Quién viene primero?



Sobre todo, Kaggle tiene   usuarios registrados de India y EE. UU. Los rusos ocupan un quinto lugar estable en la clasificación general de países, entre China y Japón. El primer lugar en la clasificación general de las competencias de  ciencia de datos lo  ocupa Guanshuo Xu, un científico de datos de Nueva York. En cinco años, anotó más de 255 mil puntos en las competencias de Kaggle (este es un récord absoluto).



Guangshuo  terminado Licenciada en Ingeniería Eléctrica y Electrónica de la Universidad de Tongji en Shanghai, y luego ingresó a la Maestría en la Universidad de Nueva Jersey. Desde 2010, ha estado trabajando en el reconocimiento de imágenes y algoritmos de aprendizaje automático, en 2017 se convirtió por primera vez en gran maestro en Kaggle, y desde 2019 trabaja como científico de datos en H2O.ai (Cisco, Intel y PayPal utilizan los algoritmos de esta empresa). 



Los mejores científicos de datos de Rusia según Kaggle



Para compilar una lista de los científicos de datos con mejor práctica en Rusia, usamos los  datos de los  participantes de las competencias de Kaggle, que tienen información personal.



El  desarrollador ruso más fuerte que participa en la competencia de Kaggle,  Dmitry Gordeev  ( dott ), también trabaja en H2O.ai. Se registró con Kaggle hace ocho años y tiene 114.000 puntos en la actualidad.



En la clasificación general de Kaggle,  ocupa el noveno lugar... Dmitry se graduó de la Universidad Estatal de Moscú en 2010 y realizó reconocimiento de imágenes y extracción de datos allí. Trabajando en el grupo de modelos de riesgo minorista en un banco desde 2008, se convirtió en director de división y se mudó a Austria en 2013. En 2014, completó un curso de ciencia de datos en Coursera, y en 2020 se unió al  equipo  de H2O.ai.



En el  segundo lugar  entre los científicos de datos rusos en las competencias de calificación de Kaggle, Arthur Kuzin ( n01z3 ), ocupa el lugar 28 en el ranking general de Kaggle, con más de 71 mil puntos. 



Arthur se graduó del Instituto de Física y Tecnología de Moscú en 2011 y trabajó en análisis de investigación de 2008 a 2016. Después de eso, consiguió un trabajo en Avito como científico de datos y durante los últimos años ha estado al frente del equipo de visión por computadora en X5 Retail Group. Arthur tiene  varias publicaciones de  física y una patente para un dispositivo para calibrar microscopios electrónicos de transmisión.  Artem Kulakov ocupa el



tercer lugar en la clasificación general de las competiciones de Kaggle entre los rusos ( Art) - en la clasificación general ocupa el puesto 29 y 71 mil puntos Kaggle, que obtuvo en dos años de participación en la competencia. Artem está estudiando en la Escuela Superior de Economía con un título en Ciencias de la Computación y ya ha trabajado como analista de datos en Tinkoff Bank y Megafon. Artem ahora trabaja como autónomo y se especializa en tareas de visión artificial y PNL.



En cuarto lugar está Roman Soloviev ( ZFTurbo ): tiene 69 mil puntos y el 31 en el ranking general de las competiciones de Kaggle. Roman es un investigador destacado del Instituto de Problemas de Diseño en Microelectrónica de la Academia de Ciencias de Rusia.



En quinto lugar está  Ilya Larchenko ( ilialar), actualmente en el puesto 37 en la clasificación general de Kaggle con 65k puntos. Ilya se graduó en el Instituto de Física y Tecnología de Moscú en 2014 y luego trabajó como analista y desarrollador. Desde 2017,  dirigió  el equipo de Data Scientist en DOC +, y en 2020 se mudó a Tailandia, donde trabaja como Data Science Manager en Agoda. 



Un pequeño elemento de gamificación que permite a los usuarios ganar puntos y medallas en las competencias de Kaggle ha cambiado el juego de la contratación. 



El ejemplo de los mejores científicos de datos de Rusia muestra que la educación y la experiencia trabajando con datos no son tan importantes para construir una carrera exitosa. Por ejemplo, Artem Kulakov todavía está estudiando en la universidad y comenzó a participar en competencias en Kaggle hace solo dos años. Ahora está en la lista de los mejores científicos de datos de Rusia y trabaja como autónomo. Guangshuo Xu se graduó con una licenciatura en Ingeniería Eléctrica y Electrónica y ahora trabaja en H2O.ai, líder en soluciones de ciencia de datos de código abierto.



Empiece hoy con tareas sencillas y, quién sabe, tal vez en uno o dos años esté en el ranking de los mejores científicos de datos y avance en la implementación de tecnologías de  investigación del VIH , modelos para  predecir la congestión de las carreteras. y mucho más. Lo principal es tener ganas de desarrollarse en el campo de la ciencia de datos y practicar tanto como sea posible. 



imagen






Artículos recomendados






All Articles