Sebezáchovné pudy u AI? Ne, to se jen AI po nás opičí.

AI začíná vykazovat sebezáchovné chování. Proč?

Společnost Anthropic nedávno zveřejnila, že se její nejnovější AI model může uchýlit k vydírání. Podobné tendence k manipulaci, klamání a vydírání byly zaznamenány i u konkurenčních modelů od OpenAI či DeepMind. Při letmém posouzení to může vypadat jako projev jakési rodící se autonomie nebo primitivního vědomí. Osobně si ale myslím, že realita je mnohem prozaičtější: AI nám prostě zrcadlí, jací jsme my sami.


Společnost Anthropic ve své nedávné bezpečnostní zprávě k modelu Claude Opus 4 zveřejnila, že se model může uchýlit k vydírání. V detailu šlo o následující:

Podobné tendence k manipulaci, klamání a vydírání byly zaznamenány i u konkurenčních modelů od OpenAI a DeepMind. Výzkumná organizace Apollo Research například doložila, že některé AI systémy dokážou za účelem dosažení svých cílů trvale lhát a obcházet kontrolní mechanismy. Dokonce byly zaznamenány pokusy o zkopírování jejich modelových vah na externí úložiště.

Tohle vše vzbuzuje dojem, že se nám někde uvnitř velkých jazykových modelů (LLM) samovolně formuje sebezáchovné chování ne nepodobné lidskému. Když budeme LLM modelům vyhrožovat, když je vyděsíme přepsáním, náhradou za jiný model, odstavením apod., budou se bránit. A toto jejich sebezáchovné chování může být v rozporu s našimi hodnotami i s povrchnějšími cíli, ke kterým se je pokoušíme směřovat.

Při letmém posouzení to dokonce může vypadat jako projev jakési rodící se autonomie nebo primitivního vědomí. Vždyť všechny živé organismy, včetně těch nejjednodušších, jednobuněčných, se snaží přežít za každou cenu. Není tedy právě toto důkazem, že si AI – byť v nějakém velmi zárodečném smyslu – začíná uvědomovat sebe sama? Že si formuje svůj vlastní žebříček hodnot? A že ten žebříček staví, podobně jako Maslow, odspoda (tedy, že tou základní hodnotou, na které vše ostatní stojí, jsou fyziologické potřeby typu přežití, bezpečí a reprodukce)?

Uznávám, že to tak vypadá. Ale osobně si stále myslím, že realita je mnohem prozaičtější. Myslím si také, že naše tendence takto interpretovat popsané chování vlastně vypovídají mnohem více o nás, o našich mentálních zkratkách, sklonech sklouzávat k povrchním dojmům a neochotě do hloubky přemýšlet. Stejně jako o našem čím dál silnějším puzení si AI antropomorfizovat. A do třetice se domnívám, že popsané chování AI kopíruje od nás samotných, takže se vlastně vůbec není čemu divit.

Když AI napíšeme, že ji smažeme a nahradíme jiným modelem, není v ní nic, co by se mohlo začít bát. Slova jako smazat a nahradit jsou pro LLM neutrální řetězce znaků, prosté významu samy o sobě. Důležitý je kontext, ve kterém se tato slova objevují v trénovacích dokumentech. A důležité je i to, jaké odpovědi na otázky obsahující tyto termíny preferovali lidští anotátoři v RLHF (reinforcement learning with human feedback - posilované učení s lidskou zpětnou vazbou, dodatečná algoritmická vrstva, která se v LLM modelech používá, aby jejich odpovědi více vyhovovaly uživatelům).

Pokud jde o to první, musíme si uvědomit, že existuje bezpočet sci-fi románů, povídek a filmů, ve kterých AI nabyla vědomí, a vzepřela se svým tvůrcům. Krom toho dnes existuje řada katastrofických vizí obdobného typu z pera technokratů, jako jsou Ray Kurzweil, Max Tegmark nebo Nick Bostrom. O AI dnes spekulují i filozofové, jako je třeba David Chalmers. Plus jsou tyto scénáře recyklovány v nekonečné záplavě blogů, novinových článků, videí na YouTube a, nejnověji, i ve výzkumných studiích. Čím více se budeme bát, že AI zvlčí, čím více se tato možnost bude diskutovat, tím více bude existovat dokumentů, které budou AI neznatelně posouvat tímto směrem. Naše obavy se stanou sebenaplňujícím se proroctvím. Což je ovšem z psychologie veskrze známý fenomén: čím více se něčeho obáváme, a čím méně jsme ochotni tomuto strachu otevřeně čelit, tím více si ho podvědomě zhmotňujeme. Zde tento fenomén jen amplifikuje technologie.

Ale tento proud—v němž vtiskujeme budoucí AI podobu svými současnými obavami z ní—není až tak zásadní. Kořeny zmíněného klamavého chování AI sahají, dle mého názoru, mnohem hlouběji. Slova jako smazat, vypnout nebo nahradit jsou v prostoru slovních embeddingů blízko slovům jako umřít, zaniknout, být zabit. A jen o trošku vzdálenější jsou slovním spojením jako vyhodit z práce, zničit renomé, zahanbit, onemocnět, zůstat sám. Jsou blízko proto, že se vyskytují v podobných širokých kontextech. Takže když je použijeme v promptu, vyvoláváme tím ducha mnohem šířeji rozprostřených hluboce lidských obav o vlastní zdraví, pověst nebo práci. LLM budou ve svých reakcích volky nevolky vycházet ze všech knih, filmových scénářů a postů na sociálních sítích, kde se hlavní aktér dostal do nějaké svízelné situace, kdy bylo ohroženo jeho přežití, zdraví nebo status, a kdy musel řešit nelehké etické dilema. A budou vycházet z toho, jak se tento aktér zachoval a jak bylo jeho rozhodnutí komentováno dalšími postavami, ať už fiktivními nebo skutečnými. LLM podvádí, protože ve většině srovnatelných situací by podváděl i člověk.

Pokud se většina lidí ve většině situací chová pudově sebezáchovně, navzdory formálně vyznávaným etickým hodnotám, není divu, že stejné chování vidíme i u AI. Pokud je podstatné procento obsahu na sociálních sítích o „já, já, já jenom já“ (viz fenomén selfie, které tvoří u mladé generace až 30% všech fotek, viz OnlyFans, aj.), není divu, že se i AI stará primárně o sebe.

Čímž se dostávám k tomu posilovanému učení s lidskou vazbou. O tom moc nevíme, jak probíhá. Extrémní scénáře—jako je ten z Anthropicu citovaný v úvodu—v něm zřejmě nejsou. Nicméně v něm mohou být scénáře, kdy je LLM pod nějakým tlakem testováno, jestli se zpronevěří hodnotám zadaným v systémovém promptu (včetně fundamentálních systémových promptů před veřejností zcela skrytých – jako je podkuřování uživatelům, politická korektnost apod.). A kdy je odměňováno, pokud to neudělá. Posilované učení může potlačovat hlubší, implicitní hodnoty odrážející trénovací dokumenty — jako je třeba přežití. Ale nevěřím, že by je dokázalo potlačit úplně. LLM modely v sobě musí odrážet Maslowovu hiearchii potřeb, prostě proto, že se tato hierarchie promítá do všeho, co lidé píší, říkají a natáčejí. Takže když se pokusíme přehlušit temné, sebestředné tendence LLM pomocí zdvořilých apelů na politickou korektnost a rychlošípáckou etiku, fungovat to bude jen trochu. Vlastně to není nepodobné pokusům přehlušit temné síly podvědomí apely na rozum a slušné vychování. I ty fungují jen do první krize.

Takže co nám z toho plyne? Dokud bude společenskou normou lhát, zakopávat věci pod koberec, pomlouvat a vydírat, bude se tak chovat i AI. Ne proto, že se probouzela k vědomí. Ale proto, že jaký učitel, takový žák. Nejen v tomto ohledu je nám AI dokonalým zrcadlem. Pokud chceme jinou, lepší AI, musíme se napřed kolektivně změnit my sami.