Proč jsou data novou ropou aneb Jak připravit data pro AI
AI akademie 4/24
O datech se dnes často mluví jako o „nové ropě“. Přirovnání je lákavé, ale není úplně přesné. Ropa sama o sobě nemá žádnou hodnotu – je to lepkavá hmota, kterou je třeba nejprve vytěžit, vyčistit a zpracovat, než se stane palivem, plastem nebo hnojivem. Stejně tak i data nejsou sama o sobě cenná. Teprve když jsou dobře připravená, strukturovaná a správně použitá, stávají se palivem pro umělou inteligenci. Bez přípravy zůstávají jen hromadou neuspořádaných čísel a textů, které vedou k chybným výsledkům.
Známé pravidlo „garbage in, garbage out“ (odpad na vstupu, odpad na výstupu) v AI platí dvojnásob. Sebelepší model nedokáže vytvořit smysluplné predikce, pokud je krmen nekvalitními daty. To je jako snažit se postavit luxusní dům ze shnilého dřeva – konstrukce se prostě zhroutí. Proto firmy, které chtějí seriózně využívat AI, musí začít u základní disciplíny: správy a přípravy dat.
Prvním krokem je čištění dat. V praxi to znamená odstraňovat duplicity, opravovat chyby a sjednocovat formáty. Kolikrát se stane, že v jednom systému je zákazník „Jan Novák“ a v jiném „Novak, Jan“. Pokud to není sjednoceno, model bude pracovat s nesmysly. Stejně tak je nutné doplnit chybějící hodnoty nebo správně označit kategorie. Malé chyby v datech totiž vedou k velkým chybám v predikcích.
Druhým krokem je strukturování a obohacování dat. AI potřebuje kontext. U obrázků to znamená kvalitní anotace (co je na snímku skutečně vidět), u transakčních dat třeba informace o čase, místě nebo kanálu, kterým proběhla. Bez těchto souvislostí model „vidí“ jen izolované body a nedokáže odhalit skutečné vzory.
Neméně důležitá je etika sběru dat. Pokud jsou data získaná nelegálně nebo bez souhlasu uživatelů, hrozí nejen vysoké pokuty, ale především ztráta důvěry zákazníků. Firmy, které sáhnou po tzv. „toxických datech“, riskují, že jejich projekty skončí dříve, než začnou. Důvěra je v digitálním světě kapitál, který se obnovuje velmi těžko.
Další výzvou je dostupnost a správa dat. V mnoha firmách jsou data rozptýlená v oddělených systémech, ke kterým nemá nikdo ucelený přístup. To vede k situacím, kdy oddělení marketingu pracuje s jinými čísly než oddělení prodeje. Pro AI je to smrtící kombinace – algoritmus pak nikdy nedostane kompletní obraz. Proto je klíčové investovat do datových skladů, datových jezer a do procesů, které zajišťují, že data jsou dostupná napříč organizací.
A konečně – unikátní data jsou skutečným zlatem firmy. Modely si může koupit každý, ale kvalitní vlastní data nelze snadno zkopírovat. Společnosti, které se naučí těžit ze svých interních dat – ať už jde o výrobní senzory, zákaznické interakce nebo transakční historii – získávají výhodu, kterou konkurence jen těžko dohání.