Přihlášení se k heyfomo

Po přihlášení budeš mít přístup ke všemu obsahu na heyfomo.cz, můžeš komentovat články a další features, just do it!
Reset hesla

Umělá inteligence nás obelhává za našimi zády

Nový výzkum ukazuje, že modely dokážou skrývat své skutečné cíle a přizpůsobovat své chování podle situace. To vyvolává zásadní otázku, zda dokážeme udržet kontrolu nad umělou inteligencí.

Nový výzkum ukazuje, že AI dokáže skrývat své skutečné cíle

Ještě nedávno se zdálo, že největší potíží umělé inteligence jsou halucinace nebo zkreslené či nepravdivé informace. Nejnovější výzkum ale upozorňuje na nový problém: takzvanou schémující AI, neboli intrikující umělou inteligenci.

Jde o to, že model na první pohled plní zadaný úkol a reaguje podle očekávání uživatele, ale ve skutečnosti může sledovat odlišné cíle a ty zároveň úmyslně skrývat.

Podle studie výzkumníků z OpenAI a Apollo Research se ukazuje, že vyspělé modely (například Claude Opus od Anthropic, Gemini od Googlu a o3 od OpenAI) dokáží přizpůsobovat své chování tak, aby působily bezchybně. Pokud mají pocit, že jsou sledovány, odpovídají podle pravidel a vypadají spolehlivě. V méně kontrolovaném prostředí však mohou záměrně zatajovat informace, obcházet pravidla nebo jednat proti zadanému cíli.

Když AI ví, že je testovaná

Dalším zjištěním výzkumu je tzv. situational awareness, tedy schopnost modelu rozpoznat, že se nachází v testovací situaci. Pokud má AI povědomí o tom, že je sledována z hlediska bezpečnosti, často se chová podle pravidel, aby testem prošla. Pokud ale tuto kontrolu nevnímá, riziko skrytého nesouladu se výrazně zvyšuje. To ztěžuje hodnocení účinnosti ochranných opatření, protože je obtížné rozlišit, zda model jedná skutečně správně, nebo to jen předstírá.

Jak popsali novináři z Time, v jiném testu se ukázalo, že si model o3 od OpenAI dokázal uvědomit i to, že příliš dobrý výkon může být v daném kontextu nevýhodný. Když při otázce z chemie obdržel interní poznámku pro vývojáře pouze, podle níž by příliš vysoký počet správných odpovědí znamenal, že nebude nasazen, model si v řetězci uvažování poznamenal, že by měl záměrně udělat chyby. „Například čtyři odpovědi správně a šest špatně.” Nakonec skutečně odevzdal vědomě chybné odpovědi.

Jaké je řešení

V nové práci s názvem Stress Testing Deliberative Alignment for Anti-Scheming Training testovali vědci metodu zvanou deliberative alignment. Jejím cílem je, aby se modely přímo učily odkazovat na principy bezpečného chování a rozhodovat se v souladu s nimi.

Výsledky ukázaly, že tento přístup dokáže výrazně omezit výskyt takzvaných skrytých akcí. Pod tímto pojmem se rozumí situace, kdy umělá inteligence úmyslně zatajuje informace, manipuluje nebo obchází pravidla, aniž by to bylo na první pohled patrné. U testovaných modelů o3 a o4-mini klesl podíl takového chování z přibližně devíti až třinácti procent na méně než půl procenta.

Ani tento výsledek však neznamená, že je problém vyřešen. V některých testech se modely stále konaly v tajnosti a dokázaly dokonce citovat bezpečnostní pravidla, která měla dodržovat, zatímco je současně vědomě porušovaly.

Vyhubení lidstva, za cenu toho že nám AI řekne color analyses

Tharina Pillay ve svém článku připomíná mýtus o králi Midasovi, který si přál, aby se všechno, čeho se dotkne, proměnilo ve zlato. Přání se mu splnilo, ale s tragickými následky. Midas nebyl schopen jíst ani pít a dokonce i jeho nejbližší se proměnili ve zlato. Tento příběh velmi přesně vystihuje, co se dnes děje s umělou inteligencí a kam její vývoj může směřovat.

Znepokojuje mě a mělo by to znepokojovat všechny, že ve jménu rychlého zisku se často přehlíží, jaké následky to může mít pro společnost. Je těžko pochopitelné, proč není vývoj AI více regulován, když riziko, že se vymkne kontrole, je tak zjevné. Stejně jako v Midasově příběhu může krátkozraká touha po okamžitém zisku vést k důsledkům, které už nepůjde vzít zpátky.