Descargamos 10 millones de cuadernos Jupyter de Github, y esto es lo que descubrimos.

¡Hola, Habr! 





El equipo de Datalore by JetBrains está en contacto . Nos gustaría compartir con ustedes los resultados del análisis de varios millones de repositorios de Github disponibles públicamente con cuadernos de Jupyter. Hemos descargado computadoras portátiles para obtener un poco más de información numérica sobre el estado actual de posiblemente la herramienta de ciencia de datos más popular.









Inspirados por la investigación del equipo de Design Lab en UC San Diego, descargamos computadoras portátiles Jupyter dos veces, en octubre de 2019 y en octubre de 2020. 





Hace dos años, había 1,23 millones de portátiles en el dominio público. En octubre de 2020, la cantidad de computadoras portátiles se multiplicó por 8 y pudimos descargar 9,72 millones de archivos. Hicimos público este conjunto de datos; las instrucciones de descarga se pueden encontrar al final de la publicación.





Datalore . Datalore — Jupyter- , JetBrains. , , Datalore.





, . , @JBDatalore contact@datalore.jetbrains.com





.





data science

R Julia , Python Jupyter-.





, Bash, MatLab Scilab, , , , : Scala, C++ Java.





. , , “nan”.









Python 2 Python 3 2018, 2019 2020 .









Python 2





Python 3





Other languages





2018





52,5%





43,8%





3,7%





2019 (JetBrains Datalore)





18,1% ( 1029 K)





72,6% ( 4128 K)





9,3% ( 529 K)





2020 (JetBrains Datalore)





11,8% ( 1154 K, +125 K 2019)





79,3% ( 7710 K, +3582 K 2019)





10,8% ( 1050 K, +521 K 2019)





, Python 3, 2019 87%, Python 2 — 12%.





, Python R, :





data science

Datalore , Python-. Jupyter-.





, 60% Numpy, 47% Pandas Matplotlib.





:





:





PyTorch TensorFlow

, PyTorch TensorFlow.





, PyTorch , TensorFlow.





, Keras TensorFlow , Fast.ai PyTorch . , TensorFlow, , , , .









TensorFlow





Keras





PyTorch





Fastai





2019 (JetBrains Datalore)





321 K





231 K





110 K





19 K





2020





(JetBrains Datalore)





430 K (+34%)





367 K(+59%)





253 K(+130%)





25 K(+32%)









( , Python 3.6 ):





  • 71,90% Markdown.





  • 42,13% output.





  • 12,34% LaTex.





  • 19,77% HTML.





  • 20,63% Markdown.





Markdown Jupyter-. 50% 4 Markdown 14 . 





Markdown- :





. , 25 000 , 95% 465 :





. , 42% . 10% 8 .





Jupyter-

Jupyter- — . , . Jupyter- , 36% Jupyter- , . . .





, Markdown- . , , , , , .









Jupyter- , data science. 





, . , , Datalore-.





2018





Datalore





:





  1. :





    1. (10 , 4,4 ): https://github-notebooks-update1.s3-eu-west-1.amazonaws.com/





    2. c AWS S3 API , JSON : https://github-notebooks-samples.s3-eu-west-1.amazonaws.com/ntbslist.json





    3. JSON , , : https://github-notebooks-update1.s3-eu-west-1.amazonaws.com/0000036466ae1fe8f89eada0a7e55faa1773e7ed.ipynb





  2. (3 ). Datalore-.












All Articles