Postavte datovou kvalitu do centra firemní datové strategie
31.3.2023Velkým současným trendem se v organizacích stává demokratizace dat, tedy jejich transparentní zpřístupnění pro využití všemi odděleními ve firmě. To vyžaduje změnu přístupu a celkového smýšlení o práci s daty v rámci firmy a způsobu, jak data řídit a starat se o ně.
Data Governance představuje řešení pro kompletní nastavení a optimalizaci způsobu, jak jsou data ve firmách získávána, ukládána a dále využívána. Aby bylo možné z nich získat přidanou hodnotu, je nutné, aby všichni pracovali se stejnými daty, rozuměli stejně definicím (například, kdo je zákazník) a měli co nejjednodušší přístup k potřebným zdrojům a reportům. Pokud nerozumíme, co jaká metrika znamená, může to vést k chybným rozhodnutím. S tím úzce souvisí téma datové kvality.
Datová kvalita se prolíná celým frameworkem Data Governance, nelze ji izolovat. Je to zodpovědnost společná pro celou organizaci, nikoliv pro jednotlivce nebo oddělení, a měla by jí být věnována dostatečná pozornost. Abychom mohli řídit data a měli data kvalitní, je nutné počítat už ve vývojovém cyklu s tím, že data musíme měřit a nějakým způsobem kontrolovat. To se týká i jejich zabezpečení. Metadata, která používáme pro popis datového světa v organizaci, by měla mít určitou dimenzi datové kvality. Také v datové architektuře je třeba se věnovat validitě a kontrole dat z různých pohledů.
V dnešní uspěchané době s vysokým důrazem na rychlou dodávku vývoje se velmi často přehlíží téma datových kontrol na vstupu nebo během transformačních procesů při zpracování dat. Prozření nastává v okamžiku, kdy je třeba rychle připravit report, reporty nejsou dodávány včas, ručně se dohledávají správná data, manuálně se přepisují chybná, spouští se připravené workaroundy, které pravidelnou chybu v datech opraví a podobně. Přitom investice do nastavení datových kontrol na vstupu dat do systému nebo online ověření na pozadí je jednorázovou investicí, která může výrazně snížit množství chyb, které musí následně tým reportingu opravovat na výstupu.
Datová kvalita bývá podceňována např. při migraci dat ze starého systému do nového, ať už ze snahy snížit celkový rozpočet projektu nebo dodat ho v co nejkratším čase. Pročištění dat např. pro desetitisíce klientů před migrací do nového stroje se opět může zdát jako zbytečnost, ale až s odstupem času se ukáže, kolik nepořádku se do nového stroje zaneslo.
Důležitým faktorem přispívajícím ke kvalitě dat je také jejich stáří, komplexnost datových toků a transformací. Ať už kvalitu dat ovlivňuje jakýkoliv faktor, prevence vzniku datové chyby je v delším časovém horizontu levnější řešení než nekonečné opravování datových chyb a hašení požárů na poslední chvíli.
Mezi nejčastější příčiny datové nekvality v organizacích patří:
- manuální kontroly dat uživateli podle vlastních pravidel, bez kontextu,
- manuální vkládání dat, využívání dat třetích stran bez validace datové kvality,
- chybějící vlastnictví (ownership) dat a datových kontrol,
- neporozumění metrikám datové kvality mezi různými odděleními.
Jak tedy zajistit, abychom měli data kvalitní?
Doporučujeme definovat tři pilíře:
KDO: Kdo je vlastníkem, kdo je zodpovědný za data, kdo definuje datovou kvalitu a vytváří kontroly, kdo zodpovídá za exekuci kontroly datové kvality.
CO: Jaké kontroly, dimenze a metriky chceme na naše data aplikovat. Jaké technologie nebo nástroje můžeme použít pro podporu naší snahy, jakým způsobem můžeme ideálně automatizovat celý process.
JAK: Jak se vypořádáme s odhalenými problémy, jaké reporty, upozornění a jak často posílat zodpovědné osobě a jakým způsobem vynucovat nastavená pravidla, což je důležitá součást postupu k dosažení růstu datové kvality.
Úspěšná implementace řešení se skládá ze tří fází:
- Přípravná fáze – definice požadavků, identifikace dat pro kontrolu datové kvality. Zde je třeba k datům přistupovat jako k majetku a definovat si proces z pohledu návratnosti investice. Není tedy žádoucí mít na 100 % dat v organizaci 100% datovou kvalitu. Je třeba dívat se na to z pohledu zásadních dat a jejich segmentace. Tzn. určit klíčový datový element, který chceme zkvalitnit, nastavit krátkodobý, střednědobý a dlouhodobý cíl pro zkvalitnění, způsob, jakým ho budeme měřit a za jakou dobu chceme do tohoto cíle dojít.
- Způsob měření – obsahuje definice pravidel kvality, kterým rozumí všichni, ideálně popsaná pro business uživatele a veřejně přístupná, vytvoření a zveřejnění kódu a nastavení cílových hodnot. Implementace pravidel prostřednictvím vhodného nástroje a určení dimenze datové kvality (kompletnost, přesnost, unikátnost záznamu…).
- Exekuce datových pravidel a měření datové kvality – výstupem by měl být ideálně veřejně dostupný report. Z tohoto kroku by měly vzejít problémy, u kterých nastavíme priority a následně je začneme řešit a zajistíme opravu ve zdroji. Datovou kvalitu bychom neměli řešit na konci datového toku, ale v místě vzniku. Využít lze trasování (v nástroji pomocí modulu data lineage). Po opravách je třeba nastavená pravidla aktualizovat.
V případě datové kvality se nejedná o časově ohraničený projekt, ale o neustálý proces, který by se měl stát standardní součástí práce s daty v organizaci.
Co dává smysl na datech měřit?
Kromě přesnosti, kompletnosti, konzistence a unikátnosti sem patří i včasnost doručení dat uživateli, správnost – validita, adekvátnost – extrémy, výchylky, které nedávají smysl, a integrita dat – zda se na sebe vzájemně odvolávají, existují klíče mezi nimi.
Datová kvalita je o byznysu, IT už moc nezachrání
Většina běžných uživatelů dat při setkání s datovou chybou zadá incident, který spadne na IT, kde několik měsíců leží, a nakonec je uzavřen bez systematické opravy příčiny. Typickým problémem této situace bývá nedostatečné nastavení komunikace mezi IT a byznysem. Byznys, jako vlastník dat, je často nejvíce kvalifikovaný k řešení datové chyby a měl by být zahrnut do tohoto procesu. Díky jeho zapojení získá byznys vlastník dobrý přehled o kvalitě dat, která vlastní, a dokáže dát i ostatním uživatelům/konzumentům dat zpětnou vazbu, jak moc se na data mohou spolehnout. Zároveň má sám možnost iniciovat preventivní opatření pro zvýšení datové kvality.
Toto zmocnění byznys uživatelů má však několik důvodů, proč dost často končí neúspěchem.
Velmi často není dána byznys expertům, kteří mají řešit datovou kvalitu, dostatečná kapacita. Přidání této povinnosti nad rámec již existujících aktivit není efektivní řešení a datová kvalita má pak velmi nízkou prioritu. Propojení řízení datové kvality do celkového rámce Data Governance bývá často opomíjeno. S tím také souvisí nedostatečná pozornost ze strany managementu, chybějící rozpočet na opravu datových chyb a implementaci preventivních opatření.
Řešení datové kvality má byznys ve vlastních rukách a bez adekvátního zapojení datových stewardů a pozornosti managementu je velmi náročné donést hmatatelné výsledky. IT je v tomto procesu spíše servisní organizace a byznys musí o svá data náležitě pečovat, aby organizace mohla být doopravdy data-driven company.
Data Governance by mělo pro firmy představovat základ pro další práci s daty a efektivní vytěžování jejich hodnoty.
Zavedení aktivního řízení datové kvality s použitím dobrého nástroje pod rozběhlé Data Governance aktivity může pomoci dosáhnout stanovených cílů s menším úsilím, ale vyšší efektivitou a je důležitým krokem, který postaví Data Governance v očích byznysu na vyšší úroveň.
Michal Heřmanský
Michal Heřmanský je Data Governance stream lead pro CZ/SK region ve společnosti Billigence. V posledních 10 letech se podílel na analytických, data governance a transformačních projektech primárně v bankovnictví a telekomunikacích v ČR, Spojeném království, Singapuru nebo Austrálii. Je držitelem certifikací pro data governance a projektové řízení.
Billigence je společnost působící jako přední poradenský partner v oblasti Business Intelligence, Data Analytics & Data Governance s globálním dosahem již více než 12 let.