Data engineer

Ultimátní kurz datového inženýrství

Připoj se k certifikovaným datovým nadšencům a zvyš svoji odbornost v oblasti velkých dat

Rezervuj si místo

O kurzu:

Začneme teoretickými základy, jako jsou architektury distribuovaných systémů a ETL procesy, a postupně se přesuneme k praktickým cvičením s technologiemi jako Hadoop, Apache Spark a Apache Flink. Získáš praktické dovednosti ve škálování výpočtů a cloudových platformách.

8 týdnů
Apache Beam, Spark a Flink
Škálování datových souborů

Kurz je vhodný pro:

Začátečníky v oblasti datového inženýrství

Zorientuješ se v praxi datového inženýrství.
Získáš kompletní balíček technologií datových inženýrů.
Naučíš se základy ETL procesů, výkonu a škálovatelnosti.

Profesionály a datové analytiky se základy programování

Rozšíříš své praktické znalosti datových technologií.
Naučíš se hledat a eliminovat chyby.
Zjistíš, jak řešit problémy při škálování distribuovaných systémů.

Požadavky

#javabasics
#bash

Roadmap tvojí kariéry

1

po 5 měsících

Junior Data Engineer

59 210 Kč
2

po 2-2,5 letech

Middle Data Engineer

89 670 Kč
3

po 4-5 letech

Senior Data Engineer

141 000 Kč

Připravujeme

Chci se přihlásit

Lektor

Jan Lukavský

Big data engineer / architect

Autor knihy Building Big Data Pipelines with Apache Beam
Od roku 2010 se pohybuje v oboru big data a od roku 2018 působí jako big data engineer/architect
Spolupracuje s renomovanými firmami jako Seznam.cz, O2 a Packt. V Seznamu pracoval jako developer, poté Data engineering team leader se zaměřením na web crawling
V O2 působil jako Technical lead streaming data processing platformy a IoT
Člen Product Management Committee (PMC) projektu Apache Beam u Apache Software Foundation
Držitel certifikátu „Cloudera Certified Professional for Apache Hadoop“ od Cloudery
Pravidelný speaker na odborných konferencích a workshopech

Program

- Lekce 1
Úvod do big data

—> Co jsou „big data“?
—> Role data engineering týmu v produktu
—> Škálovatelnost, fault-tolerance, reliability

Úkol: Seznámit se s Minikube
- Lekce 2
Základy data engineeringu

—> Schema on write vs. schema at read
—> Typické architektury big data aplikací
—> Data in motion vs. Data at rest
—> Klasifikace typu storage systému

Úkol: Přístup na GitHub, provést Fork repozitáře a procvičit si probírané příkazy v Gitu.
- Lekce 3
Zrod „big data“

—> Batch processing: historie
—> Hadoop HDFS details
—> Hadoop MapReduce

Úkol: Dokončení implementace invertovaného indexu na článcích z Wikipedie.

- Lekce 4
Teorie batchových big data systémů

—> Batch big data teorie – problémy, debugging
—> Pravděpodobnostní algoritmy HLLCounter, TDigest
- Lekce 5
Apache Spark

—> Nevýhody jednoduchého M/R přístupu
—> Přesun od M/R k higher-level transformacím
—> Apache Spark
—> End-to-end implementace vybraného problému

Úkol: Implementace jazykového klasifikátoru ve Sparku

Zobrazit celý program Skrýt program

- Lekce 6
Data engineering v Pythonu

—> Pandas, dataframes
—> PySpark
- Lekce 7
NoSQL databáze pro big data

—> Architektura big data random-access databází
—> Architektura HBase, BigTable
—> Architektura Cassandry
—> OLAP v big data databázích
- Lekce 8
Výpočetní systémy pro real-time big data

—> Přínosy a náklady streaming přístupu
—> Time-series data a problémy při jejich ukládání a prezentaci
- Lekce 9
Apache Flink

—> Batch execution
—> DataStream API
—> Streaming execution
—> Implementace streaming problému

Úkol: Implementace jazykového klasifikátoru ve Flink DataStream API
- Lekce 10
Unified data processing

—> Apache Beam
—> Deployment streaming aplikací
- Lekce 11
Data processing v SQL

—> Batch and streaming SQL
—> Beam SQL
—> SparkSQL
—> FlinkSQL
- Lekce 12
Real-time data engineering v Pythonu

—> Beam python SDK
—> PyFlink

Úkol: Implementace jazykového klasifikátoru pomocí Beam Python SDK
- Lekce 13
Big data ecosystem z pohledu open source světa

—> The Apache-way
—> Apache big data ekosystém
—> Apache Parquet, Apache Avro

Úkol: Implementace vybraného jednoduchého issue ze zvoleného Apache projektu
- Lekce 14
Data engineering v Cloudu

—> Cloud storage services – S3, GCS, Cloud streaming storages – PubSub, Kinesis, Cloud computation engines – Dataflow, Amazon EMR
- Lekce 15
Propojení konceptů – Proxima platform

—> Nadstavba
—> Proxima platform
—> Proxima platform architektura, typická konfigurace batch/streaming aplikace v Proximě, náhrada RDBMS za využití stream processingu
—> Implementace jednoduché aplikace s využitím Proximy
- Lekce 16
Q&A, dokončení

—> Diskuze, Q&A

Získat více informací

Vyplň registrační formulář a připoj se k nám!
Náš robot_dreams tým se s tebou spojí co nejdříve,
abys získal*a všechny potřebné detaily o obsahu kurzu a jeho ceně.

ZÍSKAT VÍCE INFORMACÍ

Data engineer

Ultimátní kurz datového inženýrství

O kurzu:

Kurz je vhodný pro:

Roadmap tvojí kariéry

Jan Lukavský

Program

Úvod do big data

Základy data engineeringu

Zrod „big data“

Teorie batchových big data systémů

Apache Spark

Data engineering v Pythonu

NoSQL databáze pro big data

Výpočetní systémy pro real-time big data

Apache Flink

Unified data processing

Data processing v SQL

Real-time data engineering v Pythonu

Big data ecosystem z pohledu open source světa

Data engineering v Cloudu

Propojení konceptů – Proxima platform

Q&A, dokončení

Získat více informací