Data Talk #58: Zdenka Teplá (Sazka)
epizoda#58 | vyšlo | délka | 825 poslechů | permalink | mp3
Vše, co byste mohli chtít vědět o data governance, se dozvíte od Zdeňky Teplé ze Sazky. Moderuje Jirka Vicherek a uslyšíte o tom, jak může být data governance přínosem pro jakoukoli moderní firmu a jak zajistit, že budou data využita pro jejich maximální potenciál všemi stakeholdery. Dozvíte se také o cestě Zdeňky k data governance, aktuálním stavu data governance ve Sazce a o výhledech do budoucna.
Strojový přepis
Dobrý den, mé jméno je Jirka Vicherek a vítám vás u dalšího dílu Datatolku.
Mým dnešním hostem, vzácnou hostkou, je Zdeňka Teplá ze společnosti SASka. Zdeňka má v SASce na starosti data governance a právě o data governance se v tomto speciálním dílu budeme bavit.
Ahoj Zdeňko, děkuji, že jsi přišla.
Zdeňko, jsem opravdu rád, že tady jsi, protože budeme mluvit o tématu, které nepatří mezi ta nejvíce sexy a nejpopulárnější témata. Data governance zní dost nudně. Doufám, že naší dnešní diskuzi to společně změníme, protože ty máš data governance v SASce na starosti a byla jsi u samého začátku zavádění postupů, nástrojů a celého profesionálního data governance.
Než se však do toho pustíme, mohla bys našim posluchačům říct něco o sobě – co bylo předtím, než jsi nastoupila do SASky, a jak ses dostala k datům?
Určitě. Na začátek možná uvedu, že data governance není vůbec nudné téma, takže posluchači se mají na co těšit.
Než jsem se dostala do SASky a vůbec k datům, studovala jsem jiný obor – religionistiku. Pro ty, co nevědí, religionistika je objektivní bádání o náboženských systémech, což je zcela jiná oblast.
Objektivní bádání nad systémy zní docela podobně, takže to možná má něco společného.
Každopádně se s daty setkávala i při studiu a po ukončení studia jsem se rozhodla zkusit něco jiného, nezůstat v akademické sféře, jak jsem původně plánovala. Začala jsem v SAPu na pozici Marketing Operations, což byla datová pozice, kde jsme se hodně zabývali datovou kvalitou.
Počkej, než půjdeme dál – skok z religionistiky do SAPu je poměrně velký. Jak k tomu došlo? Zaujala tě nějaká nabídka práce? Nebo jsi hledala technologie či velké německé firmy? Nebo byla situace spíš náhodná?
Úplně tak to nebylo. Když jsem nastupovala na vysokou školu, plánovala jsem kariéru v akademické sféře, ale po prvních projektech a žádostech o grant jsem zjistila, že to pro mě asi nebude. Rozhodla jsem se zkusit štěstí v běžné práci.
Mám však spolužáky a kamarády, kteří v akademické sféře zůstali, a stále jsme v kontaktu, takže religionistika mi dala hodně dobrých přátel.
Co se týče SAPu, nabídku jsem dostala právě ze SAPu. Po škole jsem rozeslala životopisy a různé personální agentury mě kontaktovaly; nabídka z SAPu byla jedna z nich, nikoli něco, co bych sama přímo hledala.
Takže jsi začala v SAPu a setkala ses tam poprvé s komerčními daty?
Ano, pracovala jsem s CRM daty, která se dále zpracovávala a využívala pro marketingové kampaně. Posun z religionistiky k datům byl sice náročný, musela jsem se rychle naučit mnoho nového, ale měla jsem skvělý tým a zázemí, takže to šlo. Navíc ráda přijímám nové výzvy.
Co následovalo po práci v SAPu?
Přešla jsem do společnosti Johnson & Johnson, což byla rovněž datová pozice, ale s větším důrazem na výstupy z dat, nejen jejich zpracování do systému. Měla jsem tam možnost účastnit se projektů, což se mi velmi líbilo.
Co konkrétně znamenaly ty „projekty“?
Bylo to zavádění nových systémů, testování a různé nadnárodní projekty, protože Johnson & Johnson je nadnárodní společnost, což znamenalo možnost práce v mezinárodních týmech, což mi také vyhovovalo.
Jak tě nakonec přesvědčili, abys opustila Johnson & Johnson?
Byla jsem tam asi tři roky a chtěla jsem si dát pauzu na cestování, avšak pak přišel covid.
Bylo to tedy nečekané.
Následně jsem hledala novou práci a přes personální agenturu jsem se dozvěděla o pozici BI analytika ve společnosti SASka. Zaujala mě – líbil se mi popis práce. Analytická pozice v BI týmu znamená nejen práci s daty a tvorbu reportů, ale také hodně komunikaci s byznysem. A jsou tam zajímavé projekty, zavádění nových produktů a také práce na data governance, což je nyní můj největší projekt.
Rozumím. A kdy jsi do SASky nastoupila?
V dubnu roku 2021 – právě 1. dubna, na Apríla.
Takže před dvěma lety jsi nastoupila jako BI specialistka. Jaký byl tehdy tvůj vztah k data governance? Věděla jsi, co to znamená? Bylo to pro tebe atraktivní téma?
Ne, když jsem do SASky nastupovala, vůbec jsem nevěděla, co data governance je. Myslím, že na pohovoru to bylo poprvé, co jsem ten pojem slyšela.
A jak jsi odpověděla?
Popravdě jsem řekla, že nevím.
Takže data governance jsi slyšela poprvé na pohovoru, jak pak tvůj příběh pokračoval až do chvíle, kdy jsi se stala „data governance queen“?
Když jsem nastoupila, měla jsem na starosti určitou oblast v analytice, ale už rovnou jsem se soustředila i na data governance. V tu chvíli jsme vybírali vhodný nástroj a konzultanty, takže od začátku jsem byla zapojena do data governance.
A co se týká výběru nástroje?
Zvažovali jsme několik možností, například Colibru, Davizot, UD4D, a nakonec jsme si vybrali Atacam One.
Proč právě Atacamu? Můžeš nastínit, co by měl někdo, kdo vybírá nástroj na data governance, zvážit? Jaké byly důležité faktory, a které se naopak ukázaly jako méně významné?
Měli jsme jasnou představu, co od nástroje chceme a co by měl splňovat. Navštěvovali jsme různé firmy, abychom se podívali, jak nástroje používají v praxi. To bych určitě doporučila všem, kteří data governance zavádějí a vybírají si vhodný nástroj.
Jak jste tyto návštěvy organizovali? Skrze LinkedIn nebo osobní kontakty?
Vše probíhalo přes osobní kontakty.
A jak je to nyní, když už máte data governance zavedenou?
Ke mně přicházejí i jiné společnosti, aby si od nás něco odkoukaly, což mi přijde super – když jsem na začátku nevěděla, chodila jsem se ptát já, a teď naopak já pomáhám druhým.
To je skvělé. Právě proto tě dnes tady máme – abychom toto know-how sdíleli a pomohli více datovým profesionálům.
Pojďme se vrátit k začátkům. Proč jste začali právě nástrojem? Proč vám byl tak důležitý? Některé firmy data governance dělají i bez nástroje, což si nedovedu představit.
My jsme chtěli mít jedno centrální místo, kde budou všechny věci obsaženy. Nástroj nám umožňuje nastavit různé kontroly, máme tam business glossary, slovník, katalog reportů. Bez nástroje si myslím, to není dobré.
Dokážeš si představit, jak by to fungovalo v menších firmách? Vím, že ty máš zkušenosti převážně z velkých, téměř mezinárodních společností.
Určitě záleží na tom, jak chce firma data governance zavádět. Pokud po částech – třeba jen business glossary nebo katalog reportů – statický katalog je možné vytvořit třeba v Confluence či podobném nástroji. Ale pokud firma chce pravidelné automatické kontroly a skeny dat, pak je nástroj nezbytný.
My jsme s Atacamou moc spokojeni – je uživatelsky velmi přívětivá. Technicky si tam můžeme nastavit, co potřebujeme, a byznysoví uživatelé se v ní dobře orientují. Otázky, na které mají uživatelé odpovědi, se netýkají toho, jak něco v Atacamě najít, protože je to hezky popsáno a vysvětleno.
Atacama nebyla jediným nástrojem, s kterým jste v rámci data governance pracovali?
Máme také nástroj Manta pro datovou linku, který jsme instalovali jako první. Používali jsme ho na začátku roku 2022 pro dopadovou analýzu při přechodu na nový systém. Datovou linku jsme zkoumali přes Manta Viewer.
Používáme oba nástroje odděleně, protože verze, které máme, nejsou kompatibilní, ale to je jen otázka upgradu. Doporučuji dávat pozor na kompatibilitu verzí, pokud instalujete nástroje, které chcete používat vzájemně.
To je užitečná rada. Můžeš říct, jaká je synergie těchto dvou nástrojů? Jak se doplňují a co řeší každý z nich? Používáte je standardně, nebo jste je upravovali podle svých potřeb?
Manta zobrazuje datovou linku od zdroje dat až po výsledný report vizuálně. Můžeme v Mantě kontrolovat nejen tabulky a sloupce, ale také vyhledávat dle údajů v reportech či klíčových slov.
Atacama to řeší komplexněji, Manta je do ní integrována a lze ji používat samostatně i integrovaně. V Atacamě vidíme linku například z byznysového pojmu až do tabulky nebo reportu.
Pokud tomu správně rozumím, Atacama je vaše hlavní platforma – „go to“, jedno místo, jeden zdroj pravdy. Kdy saháte do Manty? Kdy ji spouštíte? Je to řešení „headless“ pro Atacamu?
Ano, Manta je součástí Atacamy, a když ji nelze použít současně, tak ji využíváme třeba na dopadové analýzy. Když upravujeme tabulky, přidáváme sloupce či odstraňujeme tabulky, potřebujeme znát dopady těchto změn. To jsou právě dopadové analýzy.
Analytici také potřebují informace z Manty pro práci s reporty – odkud čerpat data, z kterých tabulek.
Jak dlouho trvala fáze výběru nástroje?
Probíhala od jara 2021 do konce roku 2021, kdy jsme podepsali smlouvu.
Před covidem, než jsi nastoupila, probíhaly nějaké menší přípravy a proof of concepty, ale hlavní výběr byl od jara 2021 do konce roku.
Takže máme dva skvělé nástroje. Co se dělo dál?
Z mé zkušenosti nástroj nevyléčí všechno, jak dobrý a pokročilý byl. Licence a nástroje mít rozhodně nestačí, i když jsou šťastní, že je mají.
K nástrojům jsme si vybrali také konzultanty, konkrétně společnost Adastra ABC. Konzultanty jsme si vybírali podle použitého nástroje, jelikož ne všechny konzultantské firmy všechny nástroje pokrývají.
Od roku 2022 začala samotná implementace – nainstalovali jsme nástroje a prošli školením.
A teď bych se zastavil: rok 2022 byl začátek opravdové práce?
Ano, tehdy jsem byla stále BI specialistka a přidávala se k tomu práce v data governance jako podpora. Později, když někteří kolegové odešli na jiné projekty, jsem převzala celou procesní část.
Byl to velký skok?
Ano, zpočátku to bylo překvapivé a trochu stresující, ale baví mě to a jsem za tuto příležitost vděčná, protože mi připadá pěkné, že jsem dostala velkou odpovědnost, i když jsem začínala na jiné pozici.
Jaký byl tvůj vztah k data governance na začátku roku 2022?
Na začátku jsem ještě neměla data governance na starosti, jen jsem pomáhala. Když kolegové odešli, převzala jsem procesní část. Na začátku jsem byla nervózní, ale postupem času jsem práci začala mít ráda, protože vidím přínos.
Vnímáš od začátku vývoj – od výběru nástroje po současný stav?
Ano, vidím velký pokrok a hlavní je, že vidím přínos v celém systému a díky tomu mám data governance ráda.
To můžu podepsat.
Když se dostaneme k těžkým počátkům – v době, kdy přínos byl malý, ale práce a domlouvání hodně, co se dělo dál?
Šli jsme na hlavní školení, abychom byli schopni Atacamu obsluhovat – nastavovat kontroly, pracovat s business glossary apod.
Pak jsme vstoupili do klíčových fází, kterými procházejí většina firem při zavádění data governance – tzv. Discovery fáze, MVP a Rollout.
V Discovery fázi nám konzultanti pomohli zhodnotit současný stav data governance ve společnosti a vedli workshopy s jednotlivými odděleními. Pomohli nám rozdělit data do datových domén a oblastí.
Na okamžik se zastavím – co znamenaly workshopy s konzultanty? Jak je organizovali? S kým konkrétně měli ty workshopy a na co se vás ptali?
Nebyla to armáda konzultantů. Ptali se hlavně na byznysová témata...
[Text končí zde.]
Aby navnímali to prostředí, ta data, která můžeme mít, potom jsme jim samozřejmě ukazovali ta hlavní data, která máme. Co se týká workshopů, představili vlastně data governance, hlediska BI komponent, všechny data, která tečou přes BI, a poté lidé z toho oddělení a konzultanti. Ptali se na takové ty základní věci, například jaké reporty používají, kde vidí hlavní nedostatky, třeba z hlediska reportingu nebo kvality dat a podobně.
Takže proběhly dva měsíce workshopů. Co vám z toho vzešlo?
Vzešlo nám z toho zhodnocení aktuálního stavu a sestavení nějakého plánu právě na MVP a na roll-out, tedy jak postupovat, jestli jet full roll-out, anebo postupně například jenom BI roll-out.
Zmiňovala jsi, že z discovery fáze vzniklo nějaké doporučení, nějaký plán. Jaký typ roll-outu jste si tedy vybrali?
My jsme se rozhodli pro BI roll-out, což znamená data governance z hlediska BI komponent a všech dat, která tečou přes BI.
A jaké byly jiné varianty?
Jiné varianty byly například full roll-out, tedy začít na celou společnost a zavádět data governance i nad daty ze SAPu a podobně.
To asi chápu, proč jste si vybrali BI roll-out. Co se dělo pak?
Potom jste šli do MVP. Co znamenalo MVP ve vašem prostředí a kontextu?
V rámci MVP jsme se rozhodli otevřít dvě konkrétní datové domény. V discovery fázi nám Adastra pomohla s rozdělením dat v sasce do jednotlivých oblastí podle určitých kritérií, které označujeme jako datové domény.
Například máme doménu zákazník, která obsahuje veškerá data vztahující se k našemu zákazníkovi. Dále pak například doménu loterie, která obsahuje veškerá data týkající se loterií. Totéž platí například pro doménu losy.
V MVP jsme otevírali dvě domény – loterie a losy.
Když zůstanu u datových domén, předpokládám, že se nějakým způsobem překrývají, že jeden datový zdroj spadá do mnoha domén. Například revenues se propisují do více domén, chápu to správně?
Ano, ale to jsme právě řešili, jak vybrat ta data. Hodně jsme naráželi na business glossary pojmy. Jeden pojem může být v jiné doméně používán trochu jinak.
Rozhodli jsme se proto používat pojmy vždycky v rámci konkrétní datové domény. Za pojem a jeho definici je totiž zodpovědný vlastník dané datové domény.
Takže mu nemůžeme říkat, aby používal tuhle definici, když on celou dobu používá jinou. Proto jsme v business glossary pojmy rozdělili podle datových domén.
Takže může nastat situace, kdy definice jednoho pojmu v jedné datové doméně je mírně odlišná od stejného pojmu v jiné datové doméně. To platí i u základních věcí, jako je zákazník nebo revenue.
Máte pár univerzálních pojmů napříč, které jsou dogmatické, ale může se stát, že například některé metriky jsou v jedné doméně počítány trochu jinak než v jiné.
Když se pak ta metrika objeví v reportu, uživatel potřebuje přesně vědět, jak je počítána pro konkrétní doménu.
Proto máme business glossary, kde najde přesnou definici pro danou doménu.
Díky tomu, že máte vše takto zdokumentované a držíte to, můžete dát větší svobodu vlastníkům jednotlivých datových domén, aby s nimi pracovali podle svého uvážení, vědomí a svědomí.
Ano, určitě. Nechtěli jsme něco na sílu protlačovat. Zavádíme data governance do společností, které již existují a mají nějaké standardy, pojmy a definice.
Rozhodli jsme se proto jít tímto směrem a co nejvíce přizpůsobit tomu, co už máme, a doladit to k dokonalosti data governance.
Super, děkuji.
Měli jsme tedy datové domény, já jsem ti skočil do řeči, že jste si vybrali dvě z nich.
Ještě jednou, jaké to byly?
Vybrali jsme loterie a losy.
V nich jsme nastavovali automatické kontroly dat v nástroji Atacama.
Data pro tyto dvě domény přicházela jednou denně, a nastavili jsme kontroly, které ověřují, zda jsou data správná a kompletní.
Na základě toho jsme vytvořili alerting pro jednotlivé kontroly.
Při nastavování kontrol to bylo jednoduché? Existují pro to best practices? Bylo třeba něco vyjednávat nebo prioritizovat?
Tak, jak to říkáš, zní to samozřejmě, ale nebylo to úplně jednoduché.
V MVP fázi nám kontroly v Atacamě nastavovala Adastra spolu s Atacamou, po MVP fázi už je však nastavujeme sami.
Co jsi se naučila o nastavování kontrol? Co je u vás standard?
Snažíme se hlavně udržovat správné názvosloví kontrol a jejich rozdělení v nástroji Atacama, aby vše bylo co nejpřehlednější.
Některé kontroly jsme z MVP fáze předělávali, protože jsme zjistili, že není možné je udržovat aktuální, zvláště s přibývajícími produkty, které je třeba přiřadit.
Ano, co jsme v MVP nastavili, jsme pak v některých částech upravovali.
To je vlastně smysl – kontroly se nastavují a upravují podle potřeby.
Když jsem mluvil s tvým kolegou, nadřízeným Martinem Košinou, říkal, že kromě klasických D-1 BI máte také jiné režimy, například regulatorní, které řešíte třikrát denně.
Mluvil i o real-time datech a streamlinování – už řešíte data governance na takových datech? Jsou tam ty kontroly nastavené?
Zatím ne. Zatím řešíme kontroly pouze nad daty D-1 v DVH.
To bylo rozhodnutí, že data governance děláte zatím pouze nad BI.
Ano, správně.
Takže tyto ostatní domény jdou stranou.
Kontrolujete tedy dvě datové domény.
Co z toho vzešlo? Na co jste přišli? Byly nějaké aha momenty, kdy jste si řekli: „Byli jsme slepí“?
Ne, hlavní přínos pro nás byla metoda, jak otevírat datové domény.
Otevírali jsme datové domény rovnou s kontrolami nastavenými v Atacamě, což je podle nás velmi užitečné pro vlastníky datové domény i businessové stewardy.
Kdo je businessový stevard?
Businessový stevard je v podstatě pravá ruka vlastníka datové domény, pomáhá udržovat kvalitu dat a jejich bezpečnost.
Je to někdo, kdo zná ta data, komunikuje třeba s dodavateli a reportuje vlastníkovi.
Takže jde o business usera?
Ano, business user – záleží na doméně.
Například u těch dvou domén, které máme, jsou to produktoví manažeři.
S nimi jste se potkávali každý den? Jak MVP fáze probíhala? Jak dlouho trvala?
MVP fáze byla především o nastavení kontrol. Následná fáze roll-outu znamenala pravidelné schůzky s doménou, kde jsme řešili konkrétní výsledky kontrol, jejich úpravy, potřeby…
Také jsme postupně vyplňovali business glossary pro každou doménu.
Tento proces pokračujeme i nyní; každou novou datovou doménu otevíráme s konkrétním nastavením kontroly v Atacamě.
Po otevření začínáme řešit business glossary s danou doménou.
Co bylo v business glossary dříve? Jak začínáte?
Například z kontroly, kdy jsme porovnávali počty prodaných losů konkrétní emise, vyplynulo několik pojmů, například emise losů.
Posluchači si možná nedovedou představit, že když si koupí los v trafice, je označen, například jako Černá perla.
Každá emise má omezený počet losů, které lze prodat.
Pokud se vyprodají, vytváří se nová emise.
Tohle najdou v business glossary.
Postupně přidáváme nejen pojmy z kontrol a reportů, ale i pojmy běžně používané v doméně.
Například když nastoupí nový zaměstnanec do domény losů, může nalézt všechny pojmy a jejich definice v business glossary v Atacamě.
Business glossary se tak stává rozsáhlou knowledge base.
Skvělé.
Když se podíváme zpětně, začali jste zavádět Data Governance do celého BI od začátku roku 2022.
Discovery fáze trvala dva měsíce, pokud jsem správně pochopil.
Dostal jste hezký deadline a dokonce jste ho dodrželi.
MVP trvalo čtyři až pět měsíců, podle zvolených use caseů.
Po půl roce, sedmi až osmi měsících jste se pustili do roll-outu na celé BI oddělení, tedy na všechny datové domény?
Ne na všechny.
Postupně otevíráme datové domény, máme je nadefinované, včetně návrhů vlastníků a business stewardů, ale otevíráme je postupně.
Jak jsem už říkala, vždy začínáme s konkrétní kontrolou v Atacamě.
Jaký máte tedy status quo?
Kolik z dvanácti datových domén nyní pokrýváte data governance?
Aktuálně máme otevřených šest datových domén.
Pro každou máme nastavenou alespoň jednu kontrolu, doplněné business glossary.
U těch, které jsme otevírali už v MVP fázi, nyní během roku nastavujeme další kontroly.
Takže nejde jen o to nastavit jednu kontrolu na začátku a pak se s doménou nespolupracovat.
Spolupracujeme pravidelně, máme meetingy, řešíme potřeby, doplňujeme kontroly, business glossary, řešíme nesrovnalosti.
Snažíme se nastavit procesy, co dělat, pokud něco nastane.
Co se vám osvědčilo a co bys doporučila?
Například pokud používáte JIRU, doporučuji nastavit alerting do JIRY.
My používáme JIRU běžně, business na ni je zvyklý.
Nastavili jsme, aby alerty z Atacamy nechodily jen e-mailem, ale automaticky do JIRY.
V JIRĚ se rovnou vytvoří úkol s informacemi o kontrole – která kontrola proběhla, s jakým výsledkem.
V případě nesrovnalostí je přiložen i soubor s detaily.
Jak se vám ukazují slabá či problematická místa, když kontrolujete šest datových domén?
Obecně, co jsou nejčastější věci, které vám vyplynuly?
Co bys doporučila někomu, kdo bude ve své organizaci hledat nedostatky nebo nesrovnalosti?
Pro nás i podle zkušeností z jiných společností je třeba klást důraz na kontroly dat.
Data pocházejí z různých zdrojů a jsou různě zpracovávána, může tedy docházet k nekonzistencím, které je třeba kontrolovat.
My také posíláme reporty ministerstvu v rámci regulačního reportingu, takže musíme být jistí, že data jsou správná.
Nejde jen o reporty, na základě kterých se rozhoduje business, ale i o data posílaná v regulaci.
Další důležitá věc je business glossary, tedy mít přesně definované významy pojmů.
Aby každý mluvil o tom stejném, ne aby jeden mluvil o voze a druhý o koze.
Co se vám ještě osvědčilo?
Určitě pravidelné meetingy s datovými doménami.
Nejen zaškolit je v nástroji data governance, ale i kontrolovat, zda nástroj používají, jak ho používají, zda nemají problémy.
Je důležité nástroj zlidštit, aby ho chtěli používat.
Aby viděli, že jim usnadní život, například katalogem reportů, kde mají všechny reporty přehledně roztříděné podle domén.
Mohou si zkontrolovat, zda například nepotřebují vytvářet nový report, když už podobný existuje.
Myslím, že si myslíš, že je to jednorázová činnost – nastavíme pravidla a pak už jen kontrolujeme jejich dodržování.
Co je ale tvoje práce v již otevřených datových doménách? Jsou tam už pokročilé věci? Neustále budujete?
Určitě to není jednorázová činnost.
Celý tento systém je proces, který se neustále vyvíjí a mění.
My máme pravidelný kontakt s datovými doménami, řešíme jejich problémy.
Když otevřeme datovou doménu, nenecháme ji samotnou.
Je to moje práce – nejen support otevřených domén, ale i udržování nástroje, jeho aktuálnosti.
Provádíme pravidelné skeny datového katalogu, kontrolujeme a doplňujeme business glossary.
Aktualizujeme katalog reportů.
Nastavujeme další kontroly podle požadavků domény.
Data quality kontroly nastavujeme jako základ, ale dál s doménami komunikujeme o nových požadavcích.
Procesy data governance se také průběžně upravují podle vývoje společnosti, otevírání nových domén, zániku jiných.
Jak mi to vyprávíš, Data Governance to zahrnuje všechno.
Když například vidíte výsledky data quality checku, může vám z procesu vyplynout, že někde je potenciál ke zlepšení...
[Text končí zde, není dokončený.]
Zlepšení, že někde to prostě nesedí. V tu chvíli, jaký je další proces? Máte vy na starosti navrhnout a držet implementaci nějaké nové kontroly kvality dat, nebo to jde na nějaké jiné oddělení, případně si to rozdělí? Nebo je to vlastně zodpovědnost?
Celkově zpráva o Atacamě a nastavování, ať už kontrol kvality dat nebo čehokoliv jiného v Atacamě, jde na náš interní malý tým pro správu dat (data governance tým), který tvořím já a ještě dva kolegové. Máme na starosti práci technického stewarda z hlediska data governance. To znamená technickou stránku, technickou podporu a technické nastavení.
Co je potřeba kontrolovat, si musí určit podnikový steward. Tím, že mu třeba něco nesedí, nebo je tam nějaká potřeba, přijde podnikový steward s požadavkem. My mu s tím pomůžeme, nastavíme to a případně mu to předáme k užívání, zprovozníme tyto upozornění (alerty) a pokud je potřeba, opět ho technicky podporujeme.
Pokud při kontrole vyběhne nějaký rozdíl nebo nesrovnalost, podnikový steward to řeší třeba s dodavateli dat a pokud je potřeba bližší technický pohled, například z hlediska data warehouse, opět podporujeme my jako techničtí stewardi.
Co se týče požadavků na změny do týmu data warehouse, také se může stát, že tam jdeme, ale většinou je to spíš na dodavatele dat a řeší se třeba nedodaná data nebo výpadek, což řeší podnikový steward.
Samozřejmě, když je kontrola zavedena a objeví se problém při zavádění nebo brzy po něm, máme tzv. „babysitting period“, což jsou přibližně dva měsíce po otevření dané domény, kdy ji podporujeme, řešíme problémy my – já a moji dva kolegové – a jednáme s dodavatelem. Na pravidelných schůzkách s tou doménou ukazujeme, jak jsme jednali, jak jsme to reportovali dodavateli a jak se problém vyřešil.
Takže podnikový steward vidí, co má dělat a není to tak, že mu jen předhodíme kontrolu a upozornění, ať si poradí sám.
Rozumím, rozumím. Hodně se mi mění pohled na tu doménu a váš malý tým. Předpokládal bych, že pokud nabízíte takovou podporu, tak ty zbývající datové domény bojují o to, kdo bude další, že se to otočilo v tom, že i oni chtějí mít u sebe pořádek. Je to tak, nebo musíš ještě uvnitř firmy přesvědčovat o významu data governance, protože je to něco nového a u vás v korporátu to může být komplikované?
Samozřejmě, při zavádění každého nového procesu nebo i nástroje se člověk může setkat se strachem a je potřeba přesvědčit o jeho důležitosti. Myslím, že jsme neměli žádný problém při otevírání datových domén, nikdo to výslovně neodmítal a nikdo nechtěl být mimo roli stewarda nebo vlastníka dat. Ukazujeme vždy konkrétní příklady a děláme kvalitní a pravidelnou podporu, máme pravidelné meetingy, takže si myslím, že tam problém není.
Dokonce máme více podnikových stewardů na jednu doménu – minimálně dva.
Je to kvůli zastupitelnosti, nebo má každý jiný účel?
Z hlediska zastupitelnosti je to určitě. Dále jsme si řekli, že jeden steward by se mohl specializovat na kvalitu dat a druhý třeba na reporty, protože i ty reporty rozdělujeme v rámci domén a jejich kontrolu a specifikaci má na starosti druhý steward. Některé datové domény jsou rozsáhlejší, a na speciálnost dat se někdy specializuje jiný kolega než hlavní steward. Takže máme jednoho hlavního stewarda a dalšího doplňkového.
No a ty jsi hezky zmínila, že na začátku každé nové věci jsou obavy a někdy neochota. Co bys poradila těm, kteří jsou teď na tvé pozici a nesou zodpovědnost za data governance a chtějí ji zavést ve své firmě, ať už oficiálně, nebo jen chtějí zlepšit fungování data governance? Máš nějaké „lessons learned“, rady nebo postřehy, které ti pomáhají přesvědčovat o důležitosti tohoto oboru?
Nám určitě pomáhá ukazovat příklady, na kterých je vidět přínos. Ukazovat příklady používání v praxi, nejen to, že nastavíte kontrolu, ale že běžný uživatel může používat třeba Atacamu. Máme kontrolu nastavenou a tím si jsme jisti, že máme správná data.
Pro běžného uživatele je ale důležitý katalog reportů – tam uvidí přehled reportů s vysvětlením, co v nich vidí. V reportech není vždy popsána každá metrika nebo její výpočet, takže člověk musí někdy jít za někým, kdo mu to vysvětlí. V katalogu reportů má už přesně napsáno, do jaké domény report patří, kdo je jeho vlastníkem, kdo je podnikový steward a kdo report vytvořil. Takže při změnách ví, na koho se obrátit.
Pokud potřebuje vysvětlení nějakého pojmu, v reportu je prolink na business glossary, kde jsou metriky a pojmy vysvětlené. To hodně šetří čas a hlavně uživatel se v reportu dokonale orientuje.
A v čem máte reporty? V Power BI?
Ano, máme reporty v Power BI. Toto propojení a zapojení bylo velmi jednoduché, nebo byl to projekt, abys mohla propojit business glossary a reporty?
My se dostáváme z katalogu reportů, který je v Atacamě, do business glossary a z katalogu reportů přímo na reporty. Takže to je jedna věc.
Na vývoj a propojení toho report serveru s Atacamou máme kontakty v Atacamě a jsem za ně moc ráda, protože vždy, když potřebujeme pomoc při vývoji, máme na koho se obrátit.
Čas se nám pomalu chýlí ke konci, a mě by nyní zajímalo, když se ohlédneš zpět na poslední dva a půl roku od našeho prvního rozhovoru, kdy tě trochu „nachytali“ pojmem data governance, až do dnešního dne, kdy tě vnímám jako věrozvěsta data governance, co je pro tebe v tom celém důležité? Proč bychom měli řešit data governance?
Co je to, co lidé v tomto oboru za poslední dva a půl roku pořád nevidí? Jaký je největší mýtus o data governance?
Podle mě je data governance přínosem a vidím to denně u nás v práci. Nejen díky kontrolám kvality dat, ale i běžnému používání pojmů a reportů. Například když u nás v BI nastoupí noví lidé, používají Atacamu jako nástroj, kde najdou, co potřebují – ať už jde o popis datového skladu, jednotlivých sloupců v tabulkách, nebo business glossary reportů.
Postupně bych to chtěla rozšířit i na celou SASku, aby všichni uživatelé reportů měli jednotné místo, kde najdou reporty, pojmy a mohli se spolehnout, že reporty jsou postavené na datech, která jsou korektní, protože projdou kontrolami. Když nastane nekonzistence, máme procesy, jak ji vyřešit a data opravit.
Moc se mi líbilo, jak jsi říkala, že nekonzistence a chyby se vždycky stanou, protože komplexita dat a světa je obrovská a čím více věcí roztáčíš, tím víc vzniká nových dat. Proto je lepší řešit to proaktivně. To, že se chybám nevyhneš, ale je velký rozdíl v postavení se k nim.
Přišlo mi to velmi pěkné a já jsem si díky tomu zařadila data governance do jiné kategorie, než jsem ji měla předtím.
Každopádně, Zdeni, moc ti děkuji, že jsi přišla a sdílela své zkušenosti.
Taky děkuji a přeji, ať data governance stále více standardizuje práci nejen v SASce, ale ve všech firmách zaměřených na data.
Těším se příště na shledanou.
Díky, ahoj.
A to je vše. Děkujeme, že jste doposlouchali další díl podcastu Data Talk. Děkujeme také našim partnerům: BigHub, VipNot, Manta, Natín, Atacamu, Jim Beam, Seznam.cz a Muse.
Pokud vás zajímají další informace ze světa datových technologií a československé datové scény, navštivte naše stránky datatalk.cz.
Nechť vás provázejí data.