Online kurz Big Data Engineer | Od open source k real-time data processing | robot_dreams
  • < živý online kurz >
  • < 16 lekcí >
  • < 8 týdnů >

Jan Lukavský

Big data engineer / architect

Spolupracuje se Seznam.cz, O2, Packt

 

Data engineer

Ultimátní kurz datového inženýrství

Připoj se k certifikovaným datovým nadšencům a zvyš svoji odbornost v oblasti velkých dat

Rezervuj si místo

O kurzu:

Začneme teoretickými základy, jako jsou architektury distribuovaných systémů a ETL procesy, a postupně se přesuneme k praktickým cvičením s technologiemi jako Hadoop, Apache Spark a Apache Flink. Získáš praktické dovednosti ve škálování výpočtů a cloudových platformách.

  • 8 týdnů
  • Apache Beam, Spark a Flink
  • Škálování datových souborů

Kurz je vhodný pro:

Začátečníky v oblasti datového inženýrství
  • Zorientuješ se v praxi datového inženýrství.
  • Získáš kompletní balíček technologií datových inženýrů.
  • Naučíš se základy ETL procesů, výkonu a škálovatelnosti.
Profesionály a datové analytiky se základy programování
  • Rozšíříš své praktické znalosti datových technologií.
  • Naučíš se hledat a eliminovat chyby.
  • Zjistíš, jak řešit problémy při škálování distribuovaných systémů.
Požadavky
  • #javabasics
  • #bash

Roadmap tvojí kariéry

  • 1

    po 5 měsících

    Junior Data Engineer

    59 210 Kč

  • 2

    po 2-2,5 letech

    Middle Data Engineer

    89 670 Kč

  • 3

    po 4-5 letech

    Senior Data Engineer

    141 000 Kč

Připravujeme

Chci se přihlásit

Lektor

Jan Lukavský

Big data engineer / architect 

  • Autor knihy Building Big Data Pipelines with Apache Beam
  • Od roku 2010 se pohybuje v oboru big data a od roku 2018 působí jako big data engineer/architect
  • Spolupracuje s renomovanými firmami jako Seznam.cz, O2 a Packt. V Seznamu pracoval jako developer, poté Data engineering team leader se zaměřením na web crawling
  • V O2 působil jako Technical lead streaming data processing platformy a IoT
  • Člen Product Management Committee (PMC) projektu Apache Beam u Apache Software Foundation
  • Držitel certifikátu „Cloudera Certified Professional for Apache Hadoop“ od Cloudery
  • Pravidelný speaker na odborných konferencích a workshopech

Program

    • Lekce 1

    Úvod do big data

    —> Co jsou „big data“?
    —> Role data engineering týmu v produktu
    —> Škálovatelnost, fault-tolerance, reliability

     

    Úkol: Seznámit se s Minikube

    • Lekce 2

    Základy data engineeringu

    —> Schema on write vs. schema at read
    —> Typické architektury big data aplikací
    —> Data in motion vs. Data at rest
    —> Klasifikace typu storage systému

     

    Úkol: Přístup na GitHub, provést Fork repozitáře a procvičit si probírané příkazy v Gitu.

    • Lekce 3

    Zrod „big data“

    —> Batch processing: historie
    —> Hadoop HDFS details
    —> Hadoop MapReduce

     

    Úkol: Dokončení implementace invertovaného indexu na článcích z Wikipedie.

 
    • Lekce 4

    Teorie batchových big data systémů

    —> Batch big data teorie – problémy, debugging
    —> Pravděpodobnostní algoritmy HLLCounter, TDigest

    • Lekce 5

    Apache Spark

    —> Nevýhody jednoduchého M/R přístupu
    —> Přesun od M/R k higher-level transformacím
    —> Apache Spark
    —> End-to-end implementace vybraného problému

     

    Úkol: Implementace jazykového klasifikátoru ve Sparku

Zobrazit celý program Skrýt program
    • Lekce 6

    Data engineering v Pythonu

    —> Pandas, dataframes
    —> PySpark

    • Lekce 7

    NoSQL databáze pro big data

    —> Architektura big data random-access databází
    —> Architektura HBase, BigTable
    —> Architektura Cassandry
    —> OLAP v big data databázích

    • Lekce 8

    Výpočetní systémy pro real-time big data

    —> Přínosy a náklady streaming přístupu
    —> Time-series data a problémy při jejich ukládání a prezentaci

    • Lekce 9

    Apache Flink

    —> Batch execution
    —> DataStream API
    —> Streaming execution
    —> Implementace streaming problému

     

    Úkol: Implementace jazykového klasifikátoru ve Flink DataStream API

    • Lekce 10

    Unified data processing

    —> Apache Beam
    —> Deployment streaming aplikací

    • Lekce 11

    Data processing v SQL

    —> Batch and streaming SQL
    —> Beam SQL
    —> SparkSQL
    —> FlinkSQL

    • Lekce 12

    Real-time data engineering v Pythonu

    —> Beam python SDK
    —> PyFlink

     

    Úkol: Implementace jazykového klasifikátoru pomocí Beam Python SDK

    • Lekce 13

    Big data ecosystem z pohledu open source světa

    —> The Apache-way
    —> Apache big data ekosystém
    —> Apache Parquet, Apache Avro

     

    Úkol: Implementace vybraného jednoduchého issue ze zvoleného Apache projektu

    • Lekce 14

    Data engineering v Cloudu

    —> Cloud storage services – S3, GCS, Cloud streaming storages – PubSub, Kinesis, Cloud computation engines – Dataflow, Amazon EMR

    • Lekce 15

    Propojení konceptů – Proxima platform

    —> Nadstavba
    —> Proxima platform

    —> Proxima platform architektura, typická konfigurace batch/streaming aplikace v Proximě, náhrada RDBMS za využití stream processingu
    —> Implementace jednoduché aplikace s využitím Proximy

     

    • Lekce 16

    Q&A, dokončení

    —> Diskuze, Q&A

Získat více informací

Vyplň registrační formulář a připoj se k nám!
Náš robot_dreams tým se s tebou spojí co nejdříve,
abys získal*a všechny potřebné detaily o obsahu kurzu a jeho ceně.

Povinné pole
ZÍSKAT VÍCE INFORMACÍ