Živý online kurz Web scraping v Pythonu | Data analyst kurz | robot_dreams Czech
  • živý online kurz
  • start 15. 5. 2025
  • 12 lekcí
  • praktická cvičení

WEB SCRAPING

Osvoj si dovednosti web scrapingu a získej přístup k cenným datům z internetu. Naučíš se používat nejmodernější knihovny pro efektivní sběr a analýzu dat.

─────────────
Pro vstup do kurzu je nutná základní znalost programování a nástrojů pro práci daty.

 

Jiří Zelenka

Data analytik Merchantee s.r.o.

Petr Kalát

Senior Data Engineer Merchantee s.r.o.

  • Naučíš se vytvářet vlastní scrapery a přidáš si praktický projekt do svého portfolia.

  • Zautomatizuješ sběr dat z webu a získáš klíčové informace pro analýzu nebo podnikání.

  • Budeš pracovat s reálnými daty z tržišť, registrů nebo API a získáš cennou praxi.

  • Získáš přehled o právních a etických zásadách web scrapingu.

  • Získat více informací

PO ABSOLVOVÁNÍ KURZU BUDEŠ UMĚT:

  • Ušetříš čas díky automatizaci sběru dat z webových stránek.

  • Získáš konkurenční výhodu díky spolehlivým a efektivním scrapingovým procesům.

  • Podpoříš lepší rozhodování integrací dat s API a databázemi.

  • Zvýšíš produktivitu pomocí pokročilého zpracování a analýzy dat.

Lektoři

Jiří Zelenka

Data analytik
Merchantee s.r.o.

  • Má 7 let zkušeností jako datový analytik a inženýr v oblasti zpracování dat, automatizace skriptů a monitoringu procesů.

  • Aktuálně pracuje ve startupu zaměřeném na pomoc e-shopům pronikat na online tržiště, kde analyzuje data a vytváří výstupy pro klienty i prodejní tým.

  • Předtím působil 6 let v Adastra CZ a Deloitte, kde se zaměřoval na transformaci datových platforem, orchestraci Python skriptů a automatizaci rutinních procesů.

  • Je absolventem magisterského programu na Institutu ekonomických studií Univerzity Karlovy a držitelem certifikátů Data Analyst a Data Scientist z Datacampu.

Petr Kalát

Senior Data Engineer
Merchantee s.r.o.

  • Má více než 8 let zkušeností v oblastech data engineeringu, strojového učení a back-endového vývoje.

  • Pracuje jako Data/Back-end Engineer ve společnosti Merchantee, kde se zaměřuje na sběr dat z trhu a chytrou analytiku pro podporu prodejců na tržištích.

  • Dříve vyvíjel samostatné produkty, jako jsou aplikace pro vytěžování finančních závěrek a engine pro cenovou optimalizaci nabízených služeb.

  • Je absolventem Vysoké školy ekonomické v Praze se zaměřením na ekonomickou a finanční analýzu. Další odborné znalosti získal praxí v oblasti datové vědy a programování.

Program

  • 1. lekce
    Čtvrtek 15. 5. 2025 18:00–19:30

    Úvod do web scrapingu

    • Co je web scraping, terminologie a k čemu je dobré ho umět
    • Právní a etické hledisko scrapování
    • Představení jednotlivých přístupů na konkrétních příkladech

    Praktické cvičení: Najdi soubor /robots.txt alespoň pro tři různé weby (například Sreality.cz, Katastr nemovitostí…) a zjisti, jak se liší jejich přístup ke sdílení dat s veřejností.

    Výstupy z lekce: Dokážeš vysvětlit, co je web scraping, objasnit jeho význam a využití, orientuješ se v pravidlech a etických zásadách pro nakládání s daty získanými scrapingem a máš základní přehled o různých metodách a technikách web scrapingu.

  • 2. lekce
    Úterý 20. 5. 2025 18:00–19:30

    HTML a základy parsování

    • Porozumění HTML struktuře webů
    • Rozdíly mezi XML a JSON formáty
    • Práce s nástrojem Inspect Element ve webovém prohlížeči

    Praktické cvičení: Připrav si své IDE a virtuální prostředí pro příští domácí úkoly a nainstaluj si potřebné knihovny.

    Výstupy z lekce: Rozumíš struktuře webu a HTML tagům, znáš rozdíly mezi XML a JSON formáty, umíš připravit IDE a virtuální prostředí a nainstalovat potřebné knihovny.

  • 3. lekce
    Čtvrtek 22. 5. 2025 18:00–19:30

    Knihovna Requests

    • Typy requestů a responsů
    • Používání Postman
    • Sestavení a posílání requestů

    Praktické cvičení: Vyzkoušíš volání na vlastní webový server, kde si vyzkoušíš různé typy odpovědí a status kódů, a také provedeš volání na web třetí strany.

    Výstupy z lekce: Znáš různé typy requestů a příslušných responsů, umíš základy používání Postman a rozumíš struktuře requestu.

  • 4. lekce
    Úterý 27. 5. 2025 18:00–19:30

    Knihovna Beautiful Soup

    • Vytvoření B. Soup reprezentace HTML z Response webového serveru
    • Použití B. Soup k identifikování tagů
    • Parsování a filtrování získaných dat

    Praktické cvičení: Stáhni a rozparsuj týdenní menu své oblíbené restaurace pomocí knihovny B. Soup.

    Výstupy z lekce: Umíš nastavit a použít knihovnu B. Soup, správně parsuješ získaná data a dokážeš sám získat a rozparsovat data z místa, kde se pravidelně mění, například týdenní menu restaurace.

  • 5. lekce
    Čtvrtek 29. 5. 2025 18:00–19:30

    Knihovna Scrapy

    • Koncept Spiders
    • Použití knihovny Scrapy a srovnání s B. Soup

    Praktické cvičení: Připrav Spider pro monitoring cen libovolného e-shopu, nastav dynamické crawlování nalezených odkazů a zajisti ukládání dat pomocí pipelin.

    Výstupy z lekce: Umíš nastavit a použít knihovnu Scrapy, znáš rozdíly oproti B. Soup a rozumíš výhodám, nevýhodám i konkrétním možnostem jejího využití.

  • 6. lekce
    Úterý 3. 6. 2025 18:00–19:30

    Xpath a CSS selektory

    • CSS selektory
    • XPath a struktura
    • Regular expressions

    Praktické cvičení: Použij regular expressions k nalezení klíčových slov a prvků na jednom z vybraných webů.

    Výstupy z lekce: Umíš používat CSS selektory, vyznáš se ve struktuře XPath a víš, jak kombinovat regular expressions k vyhledání konkrétních informací.

  • 7. lekce
    Čtvrtek 5. 6. 2025 18:00–19:30

    Knihovna Selenium

    • Instalace knihovny a webdriverů
    • Použití Xpath a CSS v kombinaci se Seleniem
    • Ukázka dynamických webů a webových formulářů

    Praktické cvičení: Vyplň a odešli formuláře automatizovaně.

    Výstupy z lekce: Dokážeš připravit prostředí pro práci se Selenium, používat XPath a CSS selektory pro navigaci ve struktuře webu, interagovat s dynamickými prvky a automatizovat jednoduché úkoly, jako je vyplnění formuláře.

  • 8. lekce
    Úterý 10. 6. 2025 18:00–19:30

    Používání API

    • Rozdíly mezi API a web scrapingem
    • Používání veřejných zdrojů (GitHub, OpenWeather, …)
    • API dokumentace

    Praktické cvičení: Stáhni relevantní data z jednoho ze zdrojů, jako je Sreality nebo GitHub, a připrav si vlastní projekt – vyber téma a stanov jeho cíl.

    Výstupy z lekce: Umíš rozlišit situace, kdy je vhodné použít API místo web scrapingu, víš, jak pracovat s API obecně, a dokážeš stáhnout data pomocí API podle dostupné dokumentace.

  • 9. lekce
    Čtvrtek 12. 6. 2025 18:00–19:30

    Zprocesování dat pomocí Pandas

    • Transformace extrahovaných dat do příjemných formátů
    • Pandas dataframy
    • Exporty do Excel a CSV
    • VS Code – nástroj Inspector

    Praktické cvičení: Zpracuj připravená data do formátu Excel nebo CSV a pomocí pandas dataframu vypočítej potřebné metriky.

    Výstupy z lekce: Umíš transformovat data do různých formátů a dokážeš získávat statistiky o datech pomocí knihovny pandas nebo zabudovaných nástrojů a víš, jak data vyexportovat do Excelu či CSV.

  • 10. lekce
    Úterý 17. 6. 2025 18:00–19:30

    Anti-scraping a efektivita

    • CAPTCHA, Timeout
    • Používání user-agent
    • Dodržování limitů, sleep()

    Praktické cvičení: Najdi příklady, kdy vynechání user-agentu způsobí znehodnocení scrapingu (například u Sreality), a připrav si vlastní projekt – navrhni strukturu scraperu a formát výstupu.

    Výstupy z lekce: Znáš techniky ulehčující web scraping, umíš se vyhnout základním překážkám, které se mohou objevit, a pokračuješ s hlavním projektem, přičemž formátuješ výstup.

  • 11. lekce
    Čtvrtek 19. 6. 2025 18:00–19:30

    Q&A s lektorem

    • Lekce zaměřená na zodpovězení konkrétních dotazů
    • Doplnění témat, která nebyla dostatečně pokrytá

    Výstupy z lekce: Dokážeš získat odpovědi na otázky týkající se projektů a doplnit chybějící informace.

  • 12. lekce
    Úterý 24. 6. 2025 18:00–19:30

    Prezentace závěrečných projektů

    • Představení projektu a jeho cíle
    • Krátká ukázka kódu a jeho funkcionalit
    • Výsledky projektu

    Výstupy z lekce: Odprezentuješ svůj projekt včetně praktické ukázky a obdržíš přímou zpětnou vazbu.

KURZ JE PRO TEBE, POKUD JSI:

ZAČÍNAJÍCÍ PROGRAMÁTOR*KA

Naučíš se základy web scrapingu, pochopíš techniky získávání dat z webů a osvojíš si práci s knihovnami jako Beautiful Soup, Scrapy a Selenium. Na konci kurzu vytvoříš projekt do portfolia, který můžeš prezentovat zaměstnavatelům nebo klientům.

DATOVÝ*Á ANALYTIK*ČKA

Zvládneš automatické stahování a zpracování dat z webových zdrojů. Naučíš se kombinovat data z API, webů a dalších formátů. Nové dovednosti ti umožní připravovat a parsovat data pro přesnější reporty a analýzy.

PODNIKATEL*KA NEBO PROJECT MANAGER

Zjistíš, jak získávat data z veřejných rejstříků, tržišť a konkurenčních webů. Naučíš se sledovat změny cen a nabídek, což pomůže při plánování. Praktické dovednosti ti usnadní komunikaci s technickým týmem nebo vývojáři.

NOVINÁŘ*KA NEBO AKADEMICKÝ*Á PRACOVNÍK*CE

Získáš dovednosti pro automatizované stahování aktuálních dat z webových stránek. Naučíš se transformovat data do jednotného formátu a vytvářet rozsáhlé datasety pro analýzu, reportáže nebo výzkum.

 

ZÍSKEJ VÍCE INFORMACÍ O KURZU WEB SCRAPING

Vyplň registrační formulář a připoj se k nám! Náš r_d tým se s tebou spojí co nejdříve, abys získal*a všechny potřebné detaily o obsahu kurzu Web scraping a jeho ceně.

 
 
 
 
Získat více informací

FAQ

Kdy dostanu přihlašovací údaje do kurzu?
 
Welcome letter s informacemi o přístupu do kurzu ti pošleme 1 týden a potom znovu den před začátkem kurzu. Pomocí zaslaných odkazů se přihlásíš do Google Classroom, na Discord a zjistíš všechny důležité věci.
Kdy dostanu materiály z lekcí?
 
Materiály k lekci se ti v Google Classroom odemknou vždy v den lekce, a to kolem 12 hodiny.
Kdy bude záznam lekce ke zhlédnutí?
 
Záznam lekce bude k dispozici následující den po lekci, většinou kolem poledne.
Dostanu po absolvování kurzu nějaký certifikát?
 
Ano, po kurzu můžeš dostat certifikát o úspěšném absolvování nebo certifikát o účasti. Na ten první potřebuješ splnit aspoň 80 % bodů, které získáš plněním praktických cvičení.
Musím mít na lekci zapnutou kameru?
 
Kamera není povinná, ale pomáhá to vytvořit lepší atmosféru jak pro lektora*lektorku, tak pro ostatní studenty, takže je fajn ji mít zapnutou.
V průběhu kurzu jedu na dovolenou, bude to nějaký problém?
 
Účast na lekcích není povinná a nemá vliv na certifikát. Všechno, co zameškáš, si můžeš doplnit ze záznamů a materiálů.
Můžu domácí úkoly odevzdat později?
 
Když nestíháš termín, můžeš požádat o prodloužení. Jenom počítej s tím, že za pozdní odevzdání ti strhneme 20 % bodů.
Kdy budu mít přístup do repozitáře na GitHubu?
 
Studenty přidáváme do repozitáře 1 den před startem kurzu.
Jak se přihlásím do repozitáře na GitHubu? Link mi nefunguje a hlásí chybu.
 
Před začátkem první lekce tě přidáme do repozitáře podle uživatelského jména, které jsi nám dal*a. Pokud ještě nemáš účet na GitHubu, tak si ho založ. Pak ti přijde e-mail s pozvánkou, kterou musíš potvrdit. Dokud to nepotvrdíš, bude ti odkaz hlásit chybu 404.
Budu mít přístup k záznamům i po skončení kurzu?
 
Ano, přístup ke všem materiálům a záznamům ti zůstane na neomezenou dobu i po skončení kurzu.