WEB SCRAPING
Osvoj si dovednosti web scrapingu a získej přístup k cenným datům z internetu. Naučíš se používat nejmodernější knihovny pro efektivní sběr a analýzu dat.
─────────────
Pro vstup do kurzu je nutná základní znalost programování a nástrojů pro práci daty.
Jiří Zelenka
Data analytik Merchantee s.r.o.
Petr Kalát
Senior Data Engineer Merchantee s.r.o.
-
Naučíš se vytvářet vlastní scrapery a přidáš si praktický projekt do svého portfolia.
-
Zautomatizuješ sběr dat z webu a získáš klíčové informace pro analýzu nebo podnikání.
-
Budeš pracovat s reálnými daty z tržišť, registrů nebo API a získáš cennou praxi.
-
Získáš přehled o právních a etických zásadách web scrapingu.
- Získat více informací
PO ABSOLVOVÁNÍ KURZU BUDEŠ UMĚT:
-
Ušetříš čas díky automatizaci sběru dat z webových stránek.
-
Získáš konkurenční výhodu díky spolehlivým a efektivním scrapingovým procesům.
-
Podpoříš lepší rozhodování integrací dat s API a databázemi.
-
Zvýšíš produktivitu pomocí pokročilého zpracování a analýzy dat.

Lektoři
Jiří Zelenka
Data analytik
Merchantee s.r.o.
-
Má 7 let zkušeností jako datový analytik a inženýr v oblasti zpracování dat, automatizace skriptů a monitoringu procesů.
-
Aktuálně pracuje ve startupu zaměřeném na pomoc e-shopům pronikat na online tržiště, kde analyzuje data a vytváří výstupy pro klienty i prodejní tým.
-
Předtím působil 6 let v Adastra CZ a Deloitte, kde se zaměřoval na transformaci datových platforem, orchestraci Python skriptů a automatizaci rutinních procesů.
-
Je absolventem magisterského programu na Institutu ekonomických studií Univerzity Karlovy a držitelem certifikátů Data Analyst a Data Scientist z Datacampu.
Petr Kalát
Senior Data Engineer
Merchantee s.r.o.
-
Má více než 8 let zkušeností v oblastech data engineeringu, strojového učení a back-endového vývoje.
-
Pracuje jako Data/Back-end Engineer ve společnosti Merchantee, kde se zaměřuje na sběr dat z trhu a chytrou analytiku pro podporu prodejců na tržištích.
-
Dříve vyvíjel samostatné produkty, jako jsou aplikace pro vytěžování finančních závěrek a engine pro cenovou optimalizaci nabízených služeb.
-
Je absolventem Vysoké školy ekonomické v Praze se zaměřením na ekonomickou a finanční analýzu. Další odborné znalosti získal praxí v oblasti datové vědy a programování.
Program
-
1. lekceČtvrtek 15. 5. 2025 18:00–19:30
Úvod do web scrapingu
- Co je web scraping, terminologie a k čemu je dobré ho umět
- Právní a etické hledisko scrapování
- Představení jednotlivých přístupů na konkrétních příkladech
Praktické cvičení: Najdi soubor /robots.txt alespoň pro tři různé weby (například Sreality.cz, Katastr nemovitostí…) a zjisti, jak se liší jejich přístup ke sdílení dat s veřejností.
Výstupy z lekce: Dokážeš vysvětlit, co je web scraping, objasnit jeho význam a využití, orientuješ se v pravidlech a etických zásadách pro nakládání s daty získanými scrapingem a máš základní přehled o různých metodách a technikách web scrapingu.
-
2. lekceÚterý 20. 5. 2025 18:00–19:30
HTML a základy parsování
- Porozumění HTML struktuře webů
- Rozdíly mezi XML a JSON formáty
- Práce s nástrojem Inspect Element ve webovém prohlížeči
Praktické cvičení: Připrav si své IDE a virtuální prostředí pro příští domácí úkoly a nainstaluj si potřebné knihovny.
Výstupy z lekce: Rozumíš struktuře webu a HTML tagům, znáš rozdíly mezi XML a JSON formáty, umíš připravit IDE a virtuální prostředí a nainstalovat potřebné knihovny.
-
3. lekceČtvrtek 22. 5. 2025 18:00–19:30
Knihovna Requests
- Typy requestů a responsů
- Používání Postman
- Sestavení a posílání requestů
Praktické cvičení: Vyzkoušíš volání na vlastní webový server, kde si vyzkoušíš různé typy odpovědí a status kódů, a také provedeš volání na web třetí strany.
Výstupy z lekce: Znáš různé typy requestů a příslušných responsů, umíš základy používání Postman a rozumíš struktuře requestu.
-
4. lekceÚterý 27. 5. 2025 18:00–19:30
Knihovna Beautiful Soup
- Vytvoření B. Soup reprezentace HTML z Response webového serveru
- Použití B. Soup k identifikování tagů
- Parsování a filtrování získaných dat
Praktické cvičení: Stáhni a rozparsuj týdenní menu své oblíbené restaurace pomocí knihovny B. Soup.
Výstupy z lekce: Umíš nastavit a použít knihovnu B. Soup, správně parsuješ získaná data a dokážeš sám získat a rozparsovat data z místa, kde se pravidelně mění, například týdenní menu restaurace.
-
5. lekceČtvrtek 29. 5. 2025 18:00–19:30
Knihovna Scrapy
- Koncept Spiders
- Použití knihovny Scrapy a srovnání s B. Soup
Praktické cvičení: Připrav Spider pro monitoring cen libovolného e-shopu, nastav dynamické crawlování nalezených odkazů a zajisti ukládání dat pomocí pipelin.
Výstupy z lekce: Umíš nastavit a použít knihovnu Scrapy, znáš rozdíly oproti B. Soup a rozumíš výhodám, nevýhodám i konkrétním možnostem jejího využití.
-
6. lekceÚterý 3. 6. 2025 18:00–19:30
Xpath a CSS selektory
- CSS selektory
- XPath a struktura
- Regular expressions
Praktické cvičení: Použij regular expressions k nalezení klíčových slov a prvků na jednom z vybraných webů.
Výstupy z lekce: Umíš používat CSS selektory, vyznáš se ve struktuře XPath a víš, jak kombinovat regular expressions k vyhledání konkrétních informací.
-
7. lekceČtvrtek 5. 6. 2025 18:00–19:30
Knihovna Selenium
- Instalace knihovny a webdriverů
- Použití Xpath a CSS v kombinaci se Seleniem
- Ukázka dynamických webů a webových formulářů
Praktické cvičení: Vyplň a odešli formuláře automatizovaně.
Výstupy z lekce: Dokážeš připravit prostředí pro práci se Selenium, používat XPath a CSS selektory pro navigaci ve struktuře webu, interagovat s dynamickými prvky a automatizovat jednoduché úkoly, jako je vyplnění formuláře.
-
8. lekceÚterý 10. 6. 2025 18:00–19:30
Používání API
- Rozdíly mezi API a web scrapingem
- Používání veřejných zdrojů (GitHub, OpenWeather, …)
- API dokumentace
Praktické cvičení: Stáhni relevantní data z jednoho ze zdrojů, jako je Sreality nebo GitHub, a připrav si vlastní projekt – vyber téma a stanov jeho cíl.
Výstupy z lekce: Umíš rozlišit situace, kdy je vhodné použít API místo web scrapingu, víš, jak pracovat s API obecně, a dokážeš stáhnout data pomocí API podle dostupné dokumentace.
-
9. lekceČtvrtek 12. 6. 2025 18:00–19:30
Zprocesování dat pomocí Pandas
- Transformace extrahovaných dat do příjemných formátů
- Pandas dataframy
- Exporty do Excel a CSV
- VS Code – nástroj Inspector
Praktické cvičení: Zpracuj připravená data do formátu Excel nebo CSV a pomocí pandas dataframu vypočítej potřebné metriky.
Výstupy z lekce: Umíš transformovat data do různých formátů a dokážeš získávat statistiky o datech pomocí knihovny pandas nebo zabudovaných nástrojů a víš, jak data vyexportovat do Excelu či CSV.
-
10. lekceÚterý 17. 6. 2025 18:00–19:30
Anti-scraping a efektivita
- CAPTCHA, Timeout
- Používání user-agent
- Dodržování limitů, sleep()
Praktické cvičení: Najdi příklady, kdy vynechání user-agentu způsobí znehodnocení scrapingu (například u Sreality), a připrav si vlastní projekt – navrhni strukturu scraperu a formát výstupu.
Výstupy z lekce: Znáš techniky ulehčující web scraping, umíš se vyhnout základním překážkám, které se mohou objevit, a pokračuješ s hlavním projektem, přičemž formátuješ výstup.
-
11. lekceČtvrtek 19. 6. 2025 18:00–19:30
Q&A s lektorem
- Lekce zaměřená na zodpovězení konkrétních dotazů
- Doplnění témat, která nebyla dostatečně pokrytá
Výstupy z lekce: Dokážeš získat odpovědi na otázky týkající se projektů a doplnit chybějící informace.
-
12. lekceÚterý 24. 6. 2025 18:00–19:30
Prezentace závěrečných projektů
- Představení projektu a jeho cíle
- Krátká ukázka kódu a jeho funkcionalit
- Výsledky projektu
Výstupy z lekce: Odprezentuješ svůj projekt včetně praktické ukázky a obdržíš přímou zpětnou vazbu.
KURZ JE PRO TEBE, POKUD JSI:
ZÍSKEJ VÍCE INFORMACÍ O KURZU WEB SCRAPING
Vyplň registrační formulář a připoj se k nám! Náš r_d tým se s tebou spojí co nejdříve, abys získal*a všechny potřebné detaily o obsahu kurzu Web scraping a jeho ceně.