Lee Boonstra: Jak fungují LLM a generativní AI?

Umělá inteligence

Přednáška z 18. května 2024 od Lee Boonstry, Software Engineer Tech Lead & Advocat v Google.

liberální progresivista popularizující "kybernetický občanský humanismus" skrze ESG participaci

7:30

Napište první komentář

Na DevWorld 2024 vystoupila Lee Boonstra, technická lídryně a softwarová inženýrka z Google, se silně inspirativní přednáškou s názvem „How Does LLM and Generative AI Really Work?“. Ve své prezentaci nabídla nejen jednoduché a srozumitelné vysvětlení technologií LLM (Large Language Models) a generativní AI, ale také ukázala, jak tyto systémy mění svět – od psaní e-mailů po řízení drive-thru ve fast foodech. Lee připodobnila velké jazykové modely k Matildě z knihy Roalda Dahla (1916-1990) – dítěti, které přečetlo celou knihovnu a stalo se géniem. Podobně i LLM (např. Gemini, GPT nebo LLaMA) jsou trénovány na obrovských objemech dat – doslova petabytech textu. A čím víc toho „přečtou“, tím lepšími prediktory textu se stávají. Generativní AI pak zahrnuje nejen práci s textem, ale i generování obrázků, hudby, videa nebo dokonce kódu. V praxi tedy můžeme pomocí těchto nástrojů napsat e-mail, vytvořit prezentaci, nebo třeba generovat obrázek na základě textového zadání.

LLM fungují na bázi predikce – nedělají magii, ale statistiku. Na základě předchozích slov model odhaduje, které slovo by mělo následovat. Pokud zadáte otázku „Kdo je prezidentem USA?“, model odpoví „Biden“. Ne proto, že by „věděl“, ale protože statisticky je to nejpravděpodobnější odpověď, která se v datech vyskytuje. Srdcem těchto modelů je tzv. Transformer architektura – technologie, kterou před sedmi lety vyvinul Google. Díky ní LLM zvládají chápat kontext i vztahy mezi slovy v textu. Zadání správného dotazu, tzv. „promptu“, je klíčové. Jak říká Lee: napsat prompt umí každý, ale napsat dobrý prompt je umění. Výsledky se mohou výrazně lišit podle toho, jak přesně formulujete požadavek – jaká slova použijete, v jakém pořadí nebo jestli poskytnete příklad. Nejzajímavější část přednášky byla ukázka konkrétního projektu, který Lee a její tým realizovali pro řetězec rychlého občerstvení Wendy’s. Zde použili generativní AI a LLM k automatizaci drive-thru objednávek. Úkol zněl jednoduše: nahradit člověka, který přijímá objednávky přes interkom. V praxi to ale bylo extrémně složité:

Objednávky jsou chaotické („Dám si cheeseburger... ne, vlastně spicy chicken... a přidej pickles... a vlastně udělej z toho trojitý“).
Lidé používají slang, mluví rychle, mění si objednávku za pochodu.
V pozadí je hluk motorů, dětí nebo rádia.

Tým Lee vytvořil komplexní systém, který převádí hlas na text, analyzuje text pomocí vlastního LLM, překládá objednávku do strukturovaného JSON formátu pro kuchyňský systém, odpovídá zpět zákazníkovi přirozeným hlasem. Navíc díky embedding modelu rozpoznával i situace, kdy zákazník objednával třeba „Big Mac“ (který Wendy’s nemá), a automaticky jej přeložil na ekvivalent z jejich nabídky (např. „Baconator“). Výsledek? Projekt se stal virálním. Automatizovaný drive-thru fungoval bleskově a bez chyb – a hlavně, zákazníci ani nepoznali, že nemluví s člověkem.

Lee otevřeně mluvila i o rizicích. Upozornila, že LLM nemají „fakta“, ale pracují s pravděpodobností. To znamená, že mohou halucinovat – tedy generovat přesvědčivě znějící, ale nepravdivé informace. Diskutovala také o zodpovědném využití AI – o tom, jak důležité je používat ji pro dobro, ne ke škodě. Ať už jde o dezinformace, zneužití v marketingu, nebo etické otázky kolem zaměstnanosti. Přednáška Lee Boonstry byla perfektní kombinací technického vhledu, praktických ukázek a lidského přístupu. AI podle ní není magie – je to nástroj. A jako každý nástroj, může být použit dobře i špatně. Ať už jste vývojář, manažer, nebo jen technologický nadšenec, jedno je jasné: budoucnost patří těm, kteří se naučí s AI pracovat – a nejlépe ji začnou chápat hned teď.