Jak si poradit s datovou explozí? Zkuste datový sklad, v němž hospodaří AI agenti
- cover-story
- před 2 dny
- Minut čtení: 5
Je jich ohromná spousta, mají různé formy a podle všeho se v nich ukrývá nemalé bohatství. Jak se říkává, data jsou ropou 21. století. Naplno a efektivně je využít ale není jednoduchá úloha. Jak na to, poradil na posledním letošním setkání technologické podkomunity projektu FinŽeny Jan Láznička ze společnosti Billigence. Ta vznikla před dekádou v Austrálii a dnes pomáhá s vytěžováním dat firmám po celém světě. Pohled z české podnikové praxe pak nabídla Zuzana Pečová z Innogy.

Datové skladování má své kořeny už někdy v roce 1800 před naším letopočtem a za jeho počátek by se dal považovat věhlasný Chammurapiho zákoník. Již v této dávné minulosti totiž musel mít žadatel o půjčku podle babylónského právního kodexu svědka a transakce musela být oficiálně zaznamenána. „To je moment, který jsem si minimálně já vybral jako zrod zápisu dat, protože šlo o první reálný datový záznam“ zahájil historický exkurz Jan Láznička, který je ve firmě Billigence lídrem Data Engineering Practice pro centrální Evropu.
Za dalším milníkem se posunul v čase zhruba o 3600 let vpřed do tehdejší Anglie, kde se rodil kreditní reporting. Tamní krejčí totiž začali sdílet informace o zákaznících, kteří nedokázali vyrovnat své závazky. Následující časový skok už byl jen o 180 let vpřed, tedy do závěru minulého milénia, kdy se banky sžívaly s počítači a zapisovaly transakce, čímž vznikaly klasické databáze v podobě tabulek.
Od tabulek k datovým skladům
„Od té doby je vývoj opravdu překotný a dnes máme přehršel různých dat ze všech možných zdrojů,“ uvedl Láznička. Nastala datová exploze a klasické databáze v podobě excelovských či jiných tabulek už ji nejsou schopny pojmout, natož smysluplně zpracovat. „Proto přišly datové sklady. Stalo se tak už někdy v devadesátých letech, ale dnes jsou důležitější než kdy dříve,“ zdůraznil expert Billigence.
Otec datového skladu Bill Inmon jej definoval jako podnikově strukturovaný depozitář subjektově orientovaných dat. „Z mého pohledu má datový sklad dvě složky – data uložená v databázích a pak výpočetní výkon, který je schopen nabrat data stejně jako vozík v klasickém skladišti nabere zboží a nějak je zpracovat do podoby užitečné pro ty, kdo rozhodují,“ nabídl svou definici Láznička.
Doba však podle něj přináší stále nové požadavky. Jedním z nich je škálovatelnost skladu, protože firma, která před deseti lety spravovala třeba jeden terabajt dat, dnes může mít shromážděno 150krát tolik. Vytvářená IT řešení proto musí myslet na budoucnost na pravděpodobně exponenciální nárůst nároků.
Zároveň se mění podoba dat. Už to nejsou jen o informace, které lze utřídit do tabulek, ale také například PDF, obrázky a další formy informací. Vzniká tak data lake neboli datové jezero jakožto úložiště všech možných typů dat. „To dává smysl z různých důvodů. Například už není cílem, aby datový tým tvořil všechny analýzy a reporty pro všechny konzumenty. My chceme, aby si ti konzumenti byli schopni vytvořit na základě datových sad, které jim poskytujeme, vlastní business intelligence výstupy,“ vysvětlil Láznička. Zároveň je nezbytné, aby celá platforma podporovala různé způsoby data engineeringu čili zpracování dat a různé druhy programovacích jazyků.
Mezi základní pilíře datového skladu patří data governance, neboli jasné určení, kdo může s jakými daty pracovat, kdo může jaká vidět, která data jsou citlivá a která mají životní důležitost. Rozhraním směrem k uživatelům představují datové aplikace, jejichž prostřednictvím byznysový klient získává všechny analýzy a výstupy, které potřebuje. Jejich šíři definuje paleta zařízení, které dnes lidé mají k dispozici. Datový sklad tak může nabízet přístup z počítače, tabletu i mobilu. V obvyklé cloudové verzi zároveň bez problému umožňuje sdílení dat interně ve firmě nebo i externě, třeba s obchodními partnery, aniž by bylo třeba data kamkoli exportovat či importovat.
AI pracanti
Nový rozměr přináší umělá inteligence. Ta je podle experta Billigence nejnovější součástí datové vědy, která se vyvíjela od analýzy, vizualizace a zpracování dat, přes těžbu, strojové učení, hluboké učení až do současné etapy. „Za první umělou inteligenci považujeme svým způsobem machine learning. Někdy kolem roku 2010 jsme začali používat různé algoritmy pro řešení problémů, s nimiž nejsme schopni se jednoduše vypořádat, protože objem dat je příliš velký a jejich šířka příliš složitá,“ uvedl Láznička. Strojové učení podle něj stále pomáhá například s rozpoznáváním obrázků nebo k detekci zákazníků, kteří projevují tendenci od firmy odejít.
Před několika lety pak přišla generativní AI. Její první boom je spjat s velkými jazykovými modely jako ChatGPT. Tento fenomén se ovšem opět překotně vyvíjí a dnes jsou už hlavním tématem AI agenti. „Jde o nějaké workflow, proces nebo systém, který používá velké jazykové modely, ale je něco víc. Dokáže v uvozovkách přemýšlet, možná už i trošku bez uvozovek a postupně dochází k nějakému výstupu, ale nejenom tím, že odpoví na otázku, ale tím, že udělá řadu akcí, které si naplánuje ve správném pořadí,“ vysvětlil Láznička.
Datový AI agent je pak podle něj nástroj, který dokáže poskytovat odpovědi ne na základě toho, co si všichni mohou najít na internetu, ale na základě unikátních dat, které má například jen daná firma. „Z mého pohledu by přitom mělo platit pravidlo, že kde žijí vaše data, měli by žít i vaši datoví agenti, protože pak vaše data neprochází internetem,“ dodal Láznička. S datovým agentem lze podle něj řešit ty samé úlohy jako pomocí strojového učení, tedy například vytipovávat klienty, kteří mají tendenci firmu opustit. Umělá inteligence je ovšem schopna využít větší kontext a poskytnout tak lepší výstupy.
Svobodomyslné propojení s byznysem
Protože je vždy užitečné doplnit teorii praxí, pohled z konkrétní firmy doplnila Zuzana Pečová, která je Data & Business Intelligence Teamleader v Innogy Česká republika. Mimo jiné zdůraznila význam úzkého sepjetí s byznysem, protože bez byznysového kontextu se obtížně dělá například zmíněná data governance. „Potřebujeme nějakým způsobem popisovat ta data a bez znalosti byznysu tohle vlastně moc nejde,“ uvedla.
Důraz na byznysový přesah se projevuje i v tom, že výkonná část „datařiny“ se uskutečňuje do velké míry jako self-service, tedy samoobslužně. „To znamená, že náš tým má na starosti aplikace a když si byznys přeje, vyvíjíme pro něj reporty, insights a podobně. Ale z velké části ta echt datová analytika probíhá v koncových týmech, kde oni mají svoje vlastní datové analytiky. Od nás tam přichází hlavně metodika a pravidla pro to, aby to dělali správně,“ vysvětlila.
Jsou části firmy, která potenciál dat nevyužívají odpovídajícím způsobem. Snahou Zuzany Pečové je měnit to k lepšímu. Dělá to ale nenásilně, hlavně prostřednictvím edukace členů příslušných týmu, aby se naučili s daty pracovat a využívat nástroje, které jsou k tomu ve firemním portfoliu k dispozici.
V Innogy zatím z jejího pohledu převládají výhody decentralizovaného přístupu nad nevýhodami. Pokud s daty pracují přímo týmy, které jim byznysově rozumí, a navíc přesně vědí, co se potřebují dozvědět, je to efektivní. „Na druhé straně se mi hůře prosazuje metodika a stejná pravidla,“ přiznala Zuzana Pečová. Je to ale dáno i tím, že v Innogy nechtějí být příliš striktní a omezovat v práci s daty nápaditost. „Škála, jak se dá self-service dělat, je pestrá a my jdeme cestou velké volatility,“ dodala.
Komunitní přístup pomáhá
Firma se zároveň snaží budovat sdílené know how, čemuž pomáhají specializované komunity, do nichž se může zapojit kdokoliv, koho daná tématika zajímá. „Jedna z nich je třeba reportingová, takže všichni vývojáři v Power BI, kterých máme po celé firmě zhruba 45, jsou součástí jedné komunity a pravidelně pro ně pořádáme workshopy a školení,“ přiblížila Zuzana. Nejenže se tak sdílejí zkušenosti, novinky v daném softwarovém nástroji a předávají se nově vytvořená pravidla, ale tato praxe pomáhá i v tolik zdůrazňované data governance. Firma totiž v rámci ní požaduje, aby vývojář každý report, který vytváří a sdílí koncový uživatelům, zařadil do takzvaného report katalogu. Každý si díky tomu může ověřit, jestli už existuje report, který by ho zajímal a přechází se duplicitní práci. Navozování přátelských vztahů v rámci komunit přitom přispívá k ochotě vývojářů dělat poněkud nezáživnou katalogizaci.
Také innogy dnes svým způsobem žije umělou inteligencí. „AI komunita je hodně živá a početná, má kolem 150 členů napříč firmou,“ popsala Zuzana Pečová. Firma je ale svým založením hodně tradiční, takže i k umělé inteligenci přistoupila spíše opatrně. Na počátku se v jednotlivých byznysových odděleních vysbíraly různé nápady na využití nové technologie. Následně si v Innogy provedli výběr, do nějž se dostaly zhruba dvě desítky námětů. Jejich realizaci firma rozplánovala na dva roky.



