Jan Kohout: Od základů matematiky k hlubokým neuronovým sítím
Jak matematika a statistika formují budoucnost datové analýzy?
Ve světě, kde jsou data zlatem, představují odborníci schopní data správně interpretovat, skutečnou hodnotu. Jedním z nich je Jan Kohout. S jeho rozsáhlými zkušenostmi v oblasti datové analýzy a strojového učení, a kariérou ve společnosti Cisco Systems a start-upu TruU, je Kohout jedním z předních odborníků v oblasti aplikace strojového učení v praxi.
Jan Kohout spojuje akademickou teorii s praxí. Studium teoretické informatiky na Matematicko-fyzikální fakultě Univerzity Karlovy položilo základy pro jeho akademickou kariéru. Pokračoval v doktorském studiu na Fakultě elektrotechnické ČVUT, kde se specializoval na využití strojového učení pro zabezpečení počítačových sítí.
V období 2013 až 2022 působil ve společnosti Cisco Systems, kde se věnoval návrhu algoritmů pro detekci anomálií, bezpečnostních incidentů a modelování chování pomocí umělé inteligence. Od roku 2022 se stal součástí týmu start-upu TruU jako datový analytik.
Jeho práce nejen přispívají k rozvoji oboru, ale je zároveň uznávána v odborné komunitě. Kohout je autorem a spoluautorem řady odborných článků a patentů v oblasti využití strojového učení v bezpečnosti, které si vysloužily stovky citací.
Matematika a statistika v datové analýze
Matematika a statistika jsou klíčové pro správné pochopení datové analýzy, bez nich by datová analýza a strojové učení byly jako hledání jehly v kupce sena. Matematika a statistika nám poskytují nástroje, jak data systematicky procházet a jehlu najít.
Jedním z nejdůležitějších aspektů datové analýzy je schopnost vytvářet a testovat modely, které mohou předvídat budoucí vývoj nebo identifikovat vzorce v datech. Matematika a statistika umožňují vytvořit modely a ověřit, zda tyto modely skutečně fungují.
Když se podíváme na proces datové analýzy, vidíme, že matematika a statistika jsou nezbytné na každém kroku. V první fázi, kdy se data sbírají a předzpracovávají, je třeba aplikovat statistické metody k odstranění šumu a outlierů, k identifikaci a řešení chybějících hodnot, a k normalizaci a transformaci dat, aby byla vhodná pro další analýzu.
V další fázi, kdy se provádí samotná analýza, jsou matematické a statistické metody klíčové k vytváření a výběru vhodných modelů, k porovnání modelů a k interpretaci výsledků. Příkladem takových metod mohou být různé formy regresní analýzy, klasifikace nebo shlukové analýzy.
Nakonec, ve fázi vyhodnocení a komunikace výsledků, jsou statistické metody nezbytné k posouzení důvěryhodnosti a přesnosti modelů a k zajištění, že závěry jsou vědecky podložené a mohou být důvěryhodně použity k rozhodování.
Jan Kohout využívá matematické a statistické modely ke své práci jako datový analytik na denním pořádku. V rozhovoru odpovídá na otázky o datové analýze a roli matematiky a statistiky ve své práci. Jak vidí Jan Kohout budoucnost datové analýzy a strojového učení?
Jak se matematika a statistika projevují ve vaší práci s datovou analýzou?
Matematika i statistika tvoří základy metod používaných v datové analýze - ať už se jedná o hledání skrytých vztahů a závislostí v datech nebo rozhodování, jaké metody strojového učení budeme používat. Setkáváme se tedy s nimi i když uvažujeme nad tím, jak již existující a fungující metody zlepšit a lépe přizpůsobit konkrétnímu problému, který řešíme.
Jaké tipy byste dal začátečníkům, kteří se cítí ztraceni v datové analýze?
Věnovat počáteční úsilí tomu, aby člověk dobře pochopil principy fungování základních metod a přístupů. Když si pro příklad vezmeme oblast dnes populárních hlubokých neuronových sítí (tzv. deep learning), tak ta se díky velkému zájmu vyvíjí poměrně rychle a nové modely jsou svou architekturou relativně složité a je těžké sledovat do detailu celý vývoj. Pokud ale člověk chápe základní mechanismy, na kterých učení neuronových sítí funguje, dokáže si mnohem snadněji udělat představu o tom, na čem je nový publikovaný model založený a jak funguje.
Kterou nejčastější chybu lidé dělají při použití metod strojového učení pro analýzu dat?
Obecně použití nevhodného modelu/metody pro daná data. Například použití modelu, který sice je obecně schopný naučit se i velmi složitý problém, ale potřebuje pro to velký objem dat, protože má obrovské množství vnitřních parametrů, které je potřeba během procesu učení správně nastavit. Pokud ale potřebný objem a kvalitu dat pro učení nemáme, tak samozřejmě učení modelu nevede k výsledku, který by si člověk přál.
Proč se Python stal tak oblíbeným jazykem pro datovou analýzu a strojové učení?
Myslím si, že je Python tak oblíbený díky tomu, že dokáže člověka odstínit od technických detailů a programovací “omáčky” okolo, a tím pádem rychle a pro člověka srozumitelně psát experimentální kód. Kolem vývoje spousty knihoven (nejen) pro data science jsou pak poměrně aktivní komunity vývojařů, což jeho rozšíření také podporuje.
Jak nám může vizualizace dat pomoci lépe porozumět datům?
Data, se kterými člověk v praxi pracuje, jsou zpravidla vysokodimenzionální a rozsáhlá. Pro lidskou mysl je tak těžké se v nich přímo orientovat a rozhodnout se, na co se zaměřit. Právě díky vhodné vizualizaci si pak můžeme udělat lepší představu o tom, jaké závislosti v datech existují, nebo třeba pochopit, proč námi zvolená metoda nefunguje na daných datech podle našeho očekávání.
Jak vidíte budoucnost oboru strojového učení a datové analýzy?
Je těžké dělat relevantní odhady pro vzdálenější budoucnost, ale celý obor má určitě potenciál výrazně ovlivnit způsob života lidí. Nepochybně téměř v každé oblasti lidské činnosti se dají najít úlohy, jejichž řešení může strojové učení ulehčit, zefektivnit nebo i zkvalitnit. Samozřejmě jako každý jiný technický pokrok s sebou i vývoj ve strojovém učení nese nová nebezpečí a zneužití k podvodům a jiným zlým úmyslům. Není to ale podle mě důvod, proč se ho přehnaně obávat, ale je potřeba být na to připraven.
Kurz Matematiky a Statistiky
Přichází nová éra datové analýzy a strojového učení, která rozšiřuje hranice toho, co je možné. Abychom úspěšně čelili výzvám, které nové technologie a metody přináší, potřebujeme hluboké pochopení matematiky a statistiky. Ať už jste nováček v oblasti data science, zkušený softwarový inženýr hledající nové možnosti, nebo odvážný absolvent s cílem proniknout do světa dat, máme pro vás řešení - náš kurz Matematika & statistika pro data science.
Práce s daty je více než jen programování; je to aplikace matematických a statistických principů. Může se zdát složité rozumět a používat tyto principy na různé druhy dat, ale co kdybychom ti řekli, že máme klíč k jejich pochopení?
Kurz Matematika & statistika pro data science je cesta k uchopení těchto klíčových konceptů. Je navržen tak, aby tě provedl nejen základy, ale také pokročilé aspekty práce s daty. Ať už se potýkáš s principy strojového učení, cítíš se nejistě při analýze a interpretaci dat, nebo chceš rozšířit své znalosti a posunout svou kariéru na novou úroveň, náš kurz je přesně to, co potřebuješ.
Buď lídrem v data science
Staň se datovým analytikem nebo vývojářem, který je respektovaný za své hluboké porozumění datům a schopnost vytvářet efektivní řešení. Buď průkopníkem, inovátorem a soustřeď se na rozvíjení svých silných stránek.
Náš kurz sestává z dvanácti lekcí, které můžeš studovat online. Na konci kurzu budeš ovládat základy jazyka Python, práci v Jupyter notebooku, základy knihovny Pandas, základy pravděpodobnosti a náhodných veličin. Budeš umět vizualizovat data, modelovat pravděpodobnost a odhalovat anomálie v datech. Přidej se k nám a staň se odborníkem, který rozumí datům a umí je efektivně využít.