Cómo se construyó la práctica de datos en EPAM

EPAM ha estado trabajando con datos durante mucho tiempo, los primeros grandes clientes con proyectos de Big Data aparecieron en 2001. En ese momento, reconocidas empresas de análisis Gartner y Forrester, así como los principales proveedores Oracle, Microsoft e IBM, señalaron que las empresas deberían avanzar hacia Big Data, ya que estas tecnologías son indispensables en todas las áreas relacionadas con el procesamiento de grandes cantidades de datos. Desde entonces, el equipo de expertos de EPAM ha crecido de manera constante, trabajando en proyectos cada vez más complejos y ofreciendo soluciones probadas y productos de calidad para trabajar con big data. Hoy, solo en EPAM ruso, más de 500 personas trabajan en la práctica de datos. Sobre cómo empezó todo, qué proyectos conocimos, qué fallos ocurrieron, para qué deberían prepararse los especialistas en datos y qué tipo de especialistas en datos hay,Hablé con el director de la práctica de datos de EPAM en Rusia:Ilya Gerasimov .  





Carrera profesional 

Cuéntenos cómo llegó a la dirección de datos

Me uní a EPAM en 2006 como desarrollador junior en .NET y MS SQL Server, antes de eso trabajé en una empresa de productos y ocupé el cargo de líder de equipo, desarrollando software para la automatización de hoteles y restaurantes. Pero en EPAM comencé mi carrera desde cero. Para 2013, me había convertido en líder de equipo y estaba buscando nuevas oportunidades para mi desarrollo en EPAM, y fue en ese momento que me reuní en la SEC en Minsk con el jefe del centro de competencia de Big Data y acordamos que esta área debería desarrollarse en Rusia.   





Luego éramos dos o tres. Colegas de otros países nos ayudaron, nos impartieron cursos y nos involucraron en diversas actividades relacionadas con esta área. Tuve que estudiar mucho y luego difundir los conocimientos adquiridos.  





¿Por qué lleva tanto tiempo trabajando para la empresa?

Data , - . , , . - — , .





Data?

   —  Data,  Data.  :)





Data-?

   Data-: Data Science, Machine Learning, Business Intelligence, Enterprise Search, DevOps in Data, Data Quality, Business Data Analysis.   500 —        .  





     .     «»  ,  «»  .  





 Data-  Data governance, ..  , , ,    .   , ,  ,  .. 





 —  .  





, , . ,    —  , ,  , Data Science  .  





, , ,

2013-2014 , - , , , , Data Science.





, Scala , DevOps, , . , , , .





?

. , . Java, Python, DevOps- .





« », , . , 2012 — , . , , , . , . , , , , -, EPAM.





— Data Analytics, , Data Engineering, Data Science , — EPAM.





, , . — , .





? ?

, - , - , - , . , . , . . Cadence, , , , , , .





, Reinforcement Learning. . 2- , . , . , , Reinforcement Learning. , , , .





« », Data-. . , , «» . , « » — . , , , . , , Theano, TensorFlow, Theano - .





  •  Apache  , ,  —  Spark, Cassandra, Elasticsearch  .  





  • Yarn, HDFSMapReduceHiveKafkaZooKeeper —   , .   Hadoop  ,     ,   ,  ,  . 





  •     —  Amazon, Microsoft Azure, GCP —   Hadoop, .  





  • ,  Kerberos, Knox, Ranger.  





  • ,  NoSQL  NewSQL  — Cassandra,  (  ), Snowflake, Amazon Redshift, HBase, MongoDBTeradata





  • DevOps  — Kubernetes, Docker, Jenkins.  





  • : Power BI, Tableau, QlikView. 





  •  Data Science  ,  TensorFlow  Google BERT (  « »,   ), PyTorchKeras.  





  •  Streaming. Streaming    Data,    — Spark Streaming, Kafka Streams, Apache Flink, Apache Storm.   





.   





SQL ( ), DWH ( — , , Data Vault,  ..), ( ,   , , ), , DWH, Data Mart, Data Lake.  





, . , AWS, Azure, GCP. 





, ETL ( ) ETL ELT, , ,  slowly changed dimension. ETL (PL/SQL, T-SQL, pgSQL, Python, Spark), (, Airflow), ,  , (TalendInformatica Power CenterPentaho, etc.). 





(Data Analytics and Visualization), 2- (Power BI, Tableau, TIBCO Spotfire, MicroStrategy, Pentaho,  ..)   (, Storytelling). 





- ?

   Apache —  Spark, NiFi, Elasticsearch . .   ,  ,  — - Open Source .  





,     Open Source , , Open Data Analytics Hub (ODAHU) , ML .  





?

- ,    Data —     ,   . (blueprint) . ,  ,   .  ,  ,        , , . 





  blueprint   -  , ,      , ,   Data Scientists, ,   .. 





?

    , ,   , e-commerce,  ,  ,  Life Science   —  , -.  , ,  blueprints  , .   





,     , , .    , ,   .





2020 ?

, ,      XXI .  2020 , (late majority),   ,    . 





La difusión de innovaciones según Rogers.  (De Wikipedia)
The diffusion of innovations according to Rogers. (From Wikipedia)

, : , ?

, ,    , . , ,   ,    .  





,   ,   Data,  Java, Scala  Python. 





- EPAM , Data Engineering, Data Science, BI, Python , .





, Data EPAM?

. ,  Data  —  Java, Scala  Python (, ),  SQL, , , ,  DevOps- ,      Machine Learning  .   








All Articles