👨🏾‍🔧 🛠️ 🔤 Qué leer para un científico de datos en 2020 📊 💥 🙍🏻

En esta publicación, compartimos con usted una selección de conocimientos sobre ciencia de datos del cofundador y director de tecnología de DAGsHub, una comunidad y plataforma web para el control de revisión de datos y la colaboración entre científicos de datos e ingenieros de aprendizaje automático. La selección incluye una variedad de fuentes, desde cuentas de Twitter hasta blogs de ingeniería completos que están dirigidos a aquellos que saben exactamente lo que están buscando. Detalles debajo del corte.

Del autor:

Usted es lo que come y, como trabajador del conocimiento, necesita una buena dieta informativa. Quiero compartir las fuentes de información sobre Data Science, Inteligencia Artificial y tecnologías relacionadas que me resultan más útiles o atractivas. ¡Espero que esto también te ayude!

Documentos de dos minutos

Un canal de YouTube que es bueno para mantenerse al día con las últimas noticias. El canal se actualiza con frecuencia y el presentador tiene un entusiasmo contagioso y una actitud positiva en todos los temas tratados. Espere cubrir trabajos interesantes no solo sobre IA, sino también sobre gráficos por computadora y otros temas visualmente atractivos.

Yannick Kilcher

En su canal de YouTube, Yannick explica técnicamente la investigación significativa en el aprendizaje profundo con detalles técnicos. En lugar de leer el estudio usted mismo, a menudo es más rápido y fácil ver uno de sus videos para obtener una comprensión más profunda de los artículos importantes. Las explicaciones transmiten la esencia de los artículos, sin dejar de lado las matemáticas y sin perderse en los tres pinos. Yannick también comparte sus puntos de vista sobre cómo se comparan los estudios entre sí, qué tan en serio tomar los resultados, interpretaciones más amplias, etc. Es más difícil para los principiantes (o practicantes no académicos) llegar a estos descubrimientos por sí mismos.

Destilar.pub

En sus propias palabras:

La investigación del aprendizaje automático debe ser clara, dinámica y vibrante. Y Distill se creó para ayudar con la investigación.

Distill es una publicación única con investigación de aprendizaje automático. Los artículos se promocionan con visualizaciones impresionantes para brindar al lector una comprensión más intuitiva de los temas. El pensamiento espacial y la imaginación tienden a funcionar muy bien para ayudar a comprender los temas de aprendizaje automático y ciencia de datos. Por el contrario, los formatos de publicación tradicionales tienden a ser rígidos en su estructura, estáticos y secos, ya veces “matemáticos” . Chris Olah, uno de los creadores de Distill, también mantiene un increíble blog personal en GitHub . No se ha actualizado durante mucho tiempo, pero sigue siendo una colección de las mejores explicaciones jamás escritas sobre el tema del aprendizaje profundo. En particular, ¡la descripción de LSTM me ayudó mucho !

una fuente

Sebastián Ruder

Sebastian Ruder escribe un blog y un boletín informativo, principalmente sobre la intersección de las redes neuronales y el análisis de texto en lenguaje natural. También da muchos consejos a investigadores y presentadores en conferencias científicas, lo que puede ser muy útil si estás en el mundo académico. Los artículos de Sebastian suelen tener la forma de reseñas, que resumen y explican el estado de la investigación y los métodos modernos en un área en particular. Esto significa que los artículos son extremadamente útiles para los profesionales que desean orientarse rápidamente. Sebastián también tuitea .

Andrey Karpati

Andrey Karpati no necesita presentación. Además de ser uno de los investigadores de aprendizaje profundo más famosos de la Tierra, crea herramientas ampliamente utilizadas como arxiv sanity preserver como proyectos paralelos. Innumerables personas han ingresado al campo a través de su curso de Stanford sobre cs231n , y le resultará útil conocer su receta para aprender una red neuronal. También recomiendo ver su charla sobre los desafíos del mundo real que Tesla debe superar cuando intenta aplicar el aprendizaje automático a gran escala en el mundo real. El discurso es informativo, impresionante y aleccionador. Además de los artículos sobre ML directamente, Andrey Karpati ofrece buenos consejos para la vidacientíficos ambiciosos . Lea a Andrew en Twitter y Github .

Ingeniería Uber

El blog de ingeniería de Uber realmente impresiona por su escala y amplitud, y cubre un montón de temas, incluida la inteligencia artificial . Lo que más me gusta de la cultura de ingeniería de Uber, es su tendencia a producir algunos muy interesantes y valiosos proyectos con código abierto a un ritmo vertiginoso. Aquí hay unos ejemplos:

Ludwig
h3
reaccionar-vis
aresdb
Y la lista sigue y sigue ... Me quito el sombrero, Uber

Blog de OpenAI

Dejando a un lado los desacuerdos, el blog de OpenAI es sin duda hermoso. De vez en cuando, el blog publica contenido e ideas sobre aprendizaje profundo que solo pueden llegar a la escala de OpenAI: el hipotético fenómeno de doble descendencia profunda. El equipo de OpenAI tiende a publicar con poca frecuencia, pero es importante.

una fuente

Blog de Taboola

El blog de Taboola no es tan conocido como algunas de las otras fuentes en esta publicación, pero lo encuentro único: los autores escriben sobre desafíos muy mundanos y del mundo real cuando intentan aplicar ML en la fabricación para un negocio "normal": menos autos autónomos y agentes de RL ganando campeones del mundo, más sobre "¿cómo sé que mi modelo ahora está prediciendo cosas con falsa confianza?" Estos problemas son relevantes para casi todos los que trabajan en el campo y reciben menos cobertura de prensa que los temas de IA más comunes, pero aún se necesita talento de clase mundial para abordar adecuadamente estos problemas. Afortunadamente, Taboola tiene tanto ese talento como la voluntad y la capacidad de escribir sobre él para que otras personas también puedan aprender.

Junto con Twitter, no hay nada mejor en Reddit que engancharse a la investigación, las herramientas o la sabiduría de la multitud.

Estado de la IA

Las publicaciones se publican solo anualmente, pero están llenas de información de manera muy densa. En comparación con otras fuentes de esta lista, esta es más accesible para personas de negocios no tecnológicas. Lo que me encanta de los informes es que intentan dar una visión más holística de hacia dónde se dirige la industria y la investigación, vinculando los avances en hardware, investigación, negocios e incluso geopolítica a vista de pájaro. Asegúrese de comenzar por el final para leer acerca de los conflictos de intereses.

Podcasts

Francamente, creo que los podcasts no son adecuados para aprender sobre temas técnicos. Después de todo, solo usan el sonido para explicar temas, y la ciencia de datos es un campo muy visual. Los podcasts tienden a darle una razón para hacer una investigación más profunda más adelante o para entablar discusiones filosóficas. Sin embargo, aquí hay algunas pautas:

podcast de Lex Friedman cuando habla con destacados investigadores en el campo de la inteligencia artificial. ¡Los episodios con Francois Schollet son especialmente buenos!
Podcast de ingeniería de datos . Es bueno escuchar acerca de las nuevas herramientas de infraestructura de datos.

Listas impresionantes

Hay menos de lo que estar atento, pero más recursos para ayudar cuando sabe lo que está buscando:

Gorjeo

, , — Twitter. .
— . -. , , . , , .
fast.ai, .
ML Github, .
François

Chollet, el creador de Keras, ahora está tratando de actualizar nuestra comprensión de qué es la inteligencia y cómo probarla.
Científico investigador de Hardmaru

en Google Brain.

Conclusión

La publicación original puede actualizarse a medida que el autor encuentre excelentes fuentes de contenido que sería una pena no enumerar. ¡No dudes en seguirlo en Twitter si quieres recomendar alguna fuente nueva! DAGsHub también contrata a Advocate [aprox. transl. practicante público] en Data Science, por lo que si está creando su propio contenido de Data Science, no dude en escribirle al autor de la publicación.

Desarrolle usted mismo leyendo las fuentes recomendadas, y utilizando el código de promoción HABR , puede obtener un 10% adicional al descuento indicado en el banner.

Más cursos

Qué leer para un científico de datos en 2020