Programa SmartData 2020



Ya le hemos dicho a Habr que el nuevo SmartData es una conferencia sobre ingeniería de datos. Pero, ¿qué significa esto exactamente en la práctica, qué informes se ajustan a esta definición? En el momento del anuncio, solo pudimos explicar en términos generales, pero ahora el programa de la conferencia está listo, por lo que estamos mostrando todos los detalles. Debajo del corte: descripciones de todos los informes.



- -: 1 YouTube , ( asm0dey , olegchir , , ) — , . YouTube-.







Streaming





Flink — , . , Flink SQL, Flink . , Apache Zeppelin . , Zeppelin Flink -, HTML/JS- .

, Flink Zeppelin, .



: Zeppelin

: Zeppelin — Exploratory Data Analysis (EDA). , .

: , Zeppelin Flink .






« Kafka NiFi: »,



Apache NiFi Apache Kafka .



: VirtualHealth . , , ?

: , NiFi Kafka.

: VirtualHealth , .






«Advanced usage patterns of Scala UDF in PySpark»,



PySpark UDF, Scala/Java. .

, , Scala/Java UDF PySpark.



, :



  • PySpark , UDF;
  • pyspark.sql.Column UDF spark.sql(...);
  • Singleton Pattern UDF;
  • UDF ;
  • log4j.


: Spark .

: , Spark, - , Spark (Spark-).

: , , .






«Stateful streaming: , , »,



— , . , . , .






Storage



«Kusto (Azure Data Explorer): Big Data »,



Kusto — Big Data. , Kusto Azure . Kusto security log analytics- : Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection . Kusto Azure Data Explorer, e-commerce, gaming, manufacturing, automotive .



, Kusto (Azure Data Explorer) , , - ( ) , , Kusto.



: — .

: . .

: , .

, .






«Kusto (Azure Data Explorer): Architecture and internals»,



Kusto , . , , .



. , , , Azure .






«NeoFS: »,



NeoFS — , . . NeoFS AWS S3, . .



, S3 , . , , , , .



: .

: .

: , , .






« : Business intelligence Clickhouse»,



: , . Data Silo. - , .



Data Silo . DWH Clickhouse, Kafka Spark.



, , - . , DWH Clickhouse, , . , , , Clickhouse DWH .



: DWH DE, , .

: ClickHouse — , BA , .

: , BI.






«The latest and greatest of Delta Lake», Jacek Laskowski



: Spark, « » Apache Spark, Delta Lake, Apache Kafka Kafka Streams.

: , SQL. DeltaLake — , .

: -, DeltaLake.






« . , , »,



: bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata .



, , . , , .



, , , .



: , , .

: , .






«SQL- Postgres »,



? ? ? - , . , — ? ( ), ?



, PostgreSQL, .



: PG, , .

: , — , .

: , , , .






Tooling



« - Dagster»,



- — , Java/Scala- .



Spark + Scala- Python-? Dagster , - , .



, Dagster .



: 7 , ML DE , .

: -.

: , - .






« »,



Lamoda:



  • SVN + Python + Jira + cron Git + Liquibase + Bamboo;
  • ;
  • .


: , .

: , , . .






«CI/CD Ml- »,



, , DS . , , , DS - ( , ).



— , , . , , .



: MLOps .

: -, ML.






«Scio — data processing at Spotify», Neville Li



Scio — Scala API Apache Beam Google Cloud Dataflow, Spotify , , . Scio .



big data Spotify: Python, Hadoop, Hive, Storm, Scalding . , « », , Discover Weekly, Wrapped, a , .



, Scio Spotify big data- Scala, Algebird, macros, shapeless magnolia. , .






Industry use-cases



« »,



« » — , , , .



, Kafka, Clickhouse Esper , , .



: , stateful- .






«Enterprise data platform: -»,



S7 . , , data governance . , , , .



S7 : Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.



: , , - . , , .






«Predictive Maintenance S7: »,



S7. S7 , , .



S7 : Apache Spark, Apache Airflow, Python, R.



: S7 , .

: , , DE. , , .






«: , ,



, , , , .



, , : , , , , .



: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.



. .



: , , -.






Architecture



«Retable DSL: technology-agnostic data pipelines »,



Retable DataFrame DSL — open-source data pipelines DSL. C , data-, Spark DataFrames Python Pandas, — backend-agnostic, data pipelines data warehouses ELT, ETL data lakes, Spark.



Modern Data Stack, (ETL) (ELT) , DSL. , data pipelines, CI/CD-, — Spark, Snowflake Pandas Code.






«Highly Normalized Hybrid Model, », ,



DWH «» «». , , Agile.



, DWH , : Data Vault Anchor modeling — . , , : , .



:



  • DV AM: ;
  • «» ;
  • «» , ;
  • , ;
  • .


: DWH.

: -, DWH.






« . »,



, DWH, Hadoop.



:

: -, Hadoop, , data engineering.






« »,



, . . DWH, . , , .



:



  • ;
  • , -;
  • .


: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.



: : — Joom , .

: DE, .

: .






« -»,



- , . , , MongoDB .



: .



Other



« »,



, , , . , . , — JIT, BLAS .






« NiFi»,



Apache NiFi , , NiFi, . , . , , .

, , .



, . , — . « », . SmartData 9 12 !



All Articles