Jak zvládnout Python a porozumět datům: Rozhovor s datovým expertem Josefem Brechlerem
Od prvotních výpočtů k pokročilým predikcím, Josef Brechler diskutuje o své cestě do srdce data science
Od ekonomických tabulek k pokročilé predikci prodejů - takovou trasu za svou kariéru prošel jeden z našich lektorů a současných expertů v oblasti data science Josef Brechler. Celou svou kariéru se pohybuje na rozhraní data science a ekonomie, získává data, zpracovává je a následně je vizualizuje.
Josef Brechler se poprvé setkal s programováním a daty v roce 2011, kdy byl pověřen úkolem automatizovat aktualizaci, zpracování a vizualizaci dat pro svůj tým v České národní bance. Zde nabral první zkušenosti, které ho nakonec přivedly k data science v programovacím jazyce Python. Ale jeho cesta k Pythonu nebyla lineární. Začal ve Visual Basicu, pokračoval v R a nakonec skončil u Pythonu, který ho osvobodil od mnoha omezení a umožnil mu řešit problémy efektivněji.
Nyní, jako data scientist v Moody’s Analytics, Josef používá Python k vývoji produktu, který integruje ekonomická rizika a řeší problémy spojené se strojovým učením, paralelizací výpočtů a správou dat.
Josef také sdílí své zkušenosti prostřednictvím školení počítačových kurzů. Má za sebou stovky odučených hodin týkajících se práce s MS Excel, statistiky a ekonometrie.
Data science v Pythonu
Exploze volně dostupných dat přináší nejen nové příležitosti, ale také výzvy pro analytiky, softwarové inženýry a IT manažery. Python se stal silným nástrojem, který umožňuje odborníkům získávat z dat užitečné poznatky, provádět analýzy, modelování a předpovědi.
Python je mezi data scientisty a analytiky oblíbený díky své jednoduché syntaxi a široké škále knihoven, které umožňují rychlé a efektivní zpracování dat a analýzy. Úspěch v oblasti data science spočívá v precizní manipulaci s daty, kreativním formulování hypotéz a modelování, a pevném porozumění nástrojům a technologiím používaných pro analýzu a vizualizaci dat.
V tomto kontextu je inspirující slyšet od expertů, kteří jsou na frontové linii data science. V dnešním článku hovoříme s jedním z nich - datovým odborníkem Josefem Brechlerem, který se podělil o svůj příběh a své názory na to, jak zvládnout Python, porozumět datům a překonat výzvy v oblasti AI.
Jak jste se dostal k oboru data science a jak dlouho se mu věnujete?
Během mého prvního zaměstnání v ČNB v roce 2011 jsem se začal více zajímat programování a měl jsem za úkol automatizovat update, zpracování a vizualizaci některých dat pro náš tým. Byť tato pozice byla méně o tvorbě prediktivních modelů, zpracování vstupních dat považuji za jednu z nejdůležitějších součástí data science projektů a byla to pro mě velmi přínosná zkušenost. Množství dat sice nebylo velké, ale o to více bylo nutné dbát na jejich kvalitu.
Jak vám pomáhá kombinace zkušeností z ekonomie a data science v praxi?
Na každé pozici je velmi přínosná doménová znalost, tedy vědomosti o odvětví, pro které dodáváte výsledky. Můžete postavit po technické stránce výtečný model, ale může se stát, že jeho praktické využití bude mizerné. Důvodem může být nedostatečné porozumění oblasti, následné špatné uchopení problému a tedy nesprávná formulace úlohy, kterou se snažíte vyřešit. Je také důležité mluvit stejným odborným jazykem s ostatními účastníky projektu, na kterém pracujete. Snáze se mi tak zachází s ekonomickými daty, protože jim rozumím více, než datům z jiných oblastí.
Jaké jsou podle vás klíčové dovednosti pro někoho, kdo chce pracovat v oboru data science?
Z technických znalostí je určitě důležitý Python, v mnohých firmách je vhodná i znalost SQL. Z teoretických znalostí alespoň základy statistiky. Mně se osvědčily znalosti z oblasti data engineeringu, které umožňují mimo jiné efektivní zpracování a ukládání větších objemů dat.
Jaké přednosti Pythonu vedou k tomu, že dominuje v oblasti Data Science?
Z mého pohledu poskytuje Python pro využití v data science ideální poměr jednoduchosti kódu a funkcionality, které můžete dosáhnout. Díky tomu má jazyk rozsáhlou uživatelskou základnu, což se pozitivně odráží v množství knihoven, vědomostních zdrojů a rozsahu využití napříč firmami.
S jakými problémy a výzvami se často potýkáte při práci s Pythonem na projektech Data Science?
Uživatel Pythonu může narážet na limity ve formě nutného výpočetního výkonu nebo operační paměti vyžadované pro výpočet úlohy. Obzvlášť, pokud se jedná o větší objem dat nebo komplikovaný model. Přeci jen existují programovací jazyky, které v této oblasti nabízejí větší možnosti, ale jsou složitější na zvládnutí. Naštěstí existují nástroje, které tyto problémy dokáží překonat, aniž by bylo nutné se vzdát Pythonu jako hlavního jazyka pro data science projekt. Jako příklad uvedu Spark, což je framework pro zpracování velkých objemů dat. Pro práci se Sparkem lze využít jazyk PySpark, který je syntaxí podobný částečně Pythonu a částečně SQL.
Jakých chyb se začátečníci v Pythonu a Data Science nejčastěji dopouštějí?
Mně samotnému trvalo nějakou dobu zbavit se přesvědčení, že čím složitější model, tím bude úspěšnější z hlediska přesnosti či praktičnosti. Toto tvrzení obecně neplatí. Vývojář s tímto přístupem může snadno upozadit ostatní části projektu, které jsou neméně důležité, jako například počáteční uchopení vstupních dat a jejich analýza. Je třeba uvědomit si, jaké limity nebo nedostatky vstupní data mají a jak bych je případně mohl obohatit. Tyhle části projektu nemusejí být pro někoho zábavné a sexy, ale s kvalitou dat většina projektů stojí a padá.
Můžete sdílet příklad složitého problému, který jste úspěšně vyřešil pomocí Pythonu a Data Science?
Jmenoval bych například úlohu predikce prodejů, kterou jsem se dlouhou dobu zabýval. Složitost úlohy umocňoval fakt, že se jednalo o poměrně rozsáhlé portfolio produktů. Řešení tak muselo být dostatečně univerzální, aby správně předpovědělo jak prodeje zahradního bazénu, tak prodeje mobilního telefonu. Bylo také nutné zajistit pravidelný automatizovaný běh modelu v produkčním prostředí, což byl trochu přesah do oblasti data engineeringu.
Jaké jsou vaše předpovědi pro budoucí trendy v Pythonu a Data Science a jak se na ně připravit?
S ohledem na současný rychlý rozvoj především v oblasti generativní AI je toto těžká otázka. Až za nějakou dobu se ukáže, jestli se změní náplň práce data scientistů a technologie, se kterými pracují. Ačkoliv některé nové nástroje sám využívám, nemám zatím dojem, že by se charakter mé práce výrazně změnil. Je vhodné sledovat trendy v této oblasti a pochopit, jaké limity generativní AI má. Pro nově příchozí do oboru data science tak může být specializace na oblasti na hraně těchto limitů příležitostí. Z mé zkušenosti také vidím velký prostor v oblasti tzv. demokratizace dat.
Kurz Data science v Pythonu
Našli jste se v článku? Toužíte porozumět světu data science v Pythonu, nebo se potýkáte s obtížnostmi v práci s daty a toužíte je překonat, stejně jako datový expert Josef Brechler?
Své znalosti a praktické zkušenosti s Pythonem pro data science můžete prohloubit v našem novém kurzu, který je speciálně navržen tak, aby se zaměřil na reálné problémy a potřeby rolí v IT.
Ať už jste analytik, BI analytik, SW inženýr, programátor, databázový specialista nebo střední IT management, náš kurz vás provede složitými koncepty data science a nabídne vám možnost zkoušet si implementaci nástrojů v Pythonu. V průběhu kurzu se naučíte pracovat s většími objemy dat, získáte praktickou zkušenost a dovednosti potřebné k zvládnutí výzev spojených se strojovým učením a dalšími aspekty data science.
Kurz vyžaduje mírně pokročilé znalosti Pythonu a není vhodný pro úplné začátečníky v Pythonu nebo statistice. Po úspěšném absolvování kurzu budete mít komplexní znalosti práce s Jupyter sešity, knihovnami Numpy a Pandas, s vizualizací dat a mnoha dalšími procesy, které vám umožní provádět pokročilé analýzy dat.
Ať už chcete zlepšit své schopnosti pro svou současnou roli, nebo se připravit na budoucí kariérní příležitosti, náš kurz Data science v Pythonu vám pomůže dosáhnout vašich cílů.
Autor: Jan Bílek