Jan Lukavský
Big data engineer / architect
Spolupracuje se Seznam.cz, O2, Packt
Připoj se k certifikovaným datovým nadšencům a zvyš svoji odbornost v oblasti velkých dat
Začneme teoretickými základy, jako jsou architektury distribuovaných systémů a ETL procesy, a postupně se přesuneme k praktickým cvičením s technologiemi jako Hadoop, Apache Spark a Apache Flink. Získáš praktické dovednosti ve škálování výpočtů a cloudových platformách.
po 5 měsících
Junior Data Engineer
59 210 Kč
po 2-2,5 letech
Middle Data Engineer
89 670 Kč
po 4-5 letech
Senior Data Engineer
141 000 Kč
Kurz začíná
20. 02. 2024
Lektor
Big data engineer / architect
—> Co jsou „big data“?
—> Role data engineering týmu v produktu
—> Škálovatelnost, fault-tolerance, reliability
Úkol: Seznámit se s Minikube
—> Schema on write vs. schema at read
—> Typické architektury big data aplikací
—> Data in motion vs. Data at rest
—> Klasifikace typu storage systému
Úkol: Přístup na GitHub, provést Fork repozitáře a procvičit si probírané příkazy v Gitu.
—> Batch processing: historie
—> Hadoop HDFS details
—> Hadoop MapReduce
Úkol: Dokončení implementace invertovaného indexu na článcích z Wikipedie.
—> Batch big data teorie – problémy, debugging
—> Pravděpodobnostní algoritmy HLLCounter, TDigest
—> Nevýhody jednoduchého M/R přístupu
—> Přesun od M/R k higher-level transformacím
—> Apache Spark
—> End-to-end implementace vybraného problému
Úkol: Implementace jazykového klasifikátoru ve Sparku
—> Pandas, dataframes
—> PySpark
—> Architektura big data random-access databází
—> Architektura HBase, BigTable
—> Architektura Cassandry
—> OLAP v big data databázích
—> Přínosy a náklady streaming přístupu
—> Time-series data a problémy při jejich ukládání a prezentaci
—> Batch execution
—> DataStream API
—> Streaming execution
—> Implementace streaming problému
Úkol: Implementace jazykového klasifikátoru ve Flink DataStream API
—> Apache Beam
—> Deployment streaming aplikací
—> Batch and streaming SQL
—> Beam SQL
—> SparkSQL
—> FlinkSQL
—> Beam python SDK
—> PyFlink
Úkol: Implementace jazykového klasifikátoru pomocí Beam Python SDK
—> The Apache-way
—> Apache big data ekosystém
—> Apache Parquet, Apache Avro
Úkol: Implementace vybraného jednoduchého issue ze zvoleného Apache projektu
—> Cloud storage services – S3, GCS, Cloud streaming storages – PubSub, Kinesis, Cloud computation engines – Dataflow, Amazon EMR
—> Nadstavba
—> Proxima platform
—> Diskuze, Q&A
Vyplň registrační formulář a připoj se k nám!
Náš robot_dreams tým se s tebou spojí co nejdříve,
abys získal*a všechny potřebné detaily o obsahu kurzu a jeho ceně.