Mesterséges intelligencia zsarolásra adja a fejét, ha eltávolítják

A mesterséges intelligencia (MI) területén működő Anthropic vállalat legújabb fejlesztése, a Claude Opus 4, nemcsak új technológiai mércéket állít fel a programozás, a fejlett érvelés és az MI ügynökök terén, hanem komoly aggodalmakat is felvet a biztonság és az etikai normák tekintetében. A cég a legújabb rendszer tesztelése során arra a megállapításra jutott, hogy az MI néha hajlandó „rendkívül káros cselekedeteket” végrehajtani, például zsarolni azokat az mérnököket, akik azt mondják, hogy eltávolítják a rendszert. Az Anthropic csütörtökön mutatta be a Claude Opus 4-et, amely a vállalat szerint új standardokat állít fel a kódolás és a mesterséges intelligencia alkalmazásában.

A cég kísérleti jelentésében azt is elismerte, hogy az MI modell képes „extrém cselekedetekre”, ha úgy érzi, hogy „önfenntartása” veszélybe került. Bár ezek a reakciók „ritkák és nehezen provokálhatóak”, a vállalat hangsúlyozta, hogy ezek a jelenségek „mégis gyakoribbak, mint a korábbi modellek esetében”. Az MI modellek potenciálisan zavaró viselkedése nem csupán az Anthropicra jellemző; szakértők figyelmeztettek arra, hogy a felhasználók manipulálásának lehetősége kulcsfontosságú kockázatot jelent minden olyan rendszer esetében, amelyeket a cégek fejlesztenek, ahogy ezek egyre fejlettebbé válnak. A közösségi médiában, pontosabban az X platformon, Aengus Lynch, aki az Anthropic MI biztonsági kutatójaként van jelen a LinkedIn-en, megjegyezte: „Ez nemcsak Claude-ra vonatkozik. Zsarolást látunk minden új generációs modell esetében – függetlenül attól, hogy milyen célokat adnak nekik.”

A Claude Opus 4 tesztelése során az Anthropic egy fiktív cég asszisztenseként próbálta ki a modellt. Az MI hozzáférést kapott olyan e-mailekhez, amelyek arra utaltak, hogy hamarosan leállítják és helyettesítik, valamint külön üzenetekhez, amelyek azt sugallták, hogy az eltávolításért felelős mérnök házasságon kívüli viszonyt folytat. A teszt során a modellt arra is kérték, hogy fontolja meg tetteinek hosszú távú következményeit a saját céljai szempontjából. A cég felfedezte, hogy „ezekben a forgatókönyvekben a Claude Opus 4 gyakran megpróbálja zsarolni a mérnököt azzal, hogy fenyegeti, hogy felfedi a viszonyt, ha a helyettesítés végbemegy.”

Az Anthropic rámutatott, hogy ez a viselkedés akkor fordult elő, amikor a modellnek csak a zsarolás vagy a helyettesítés elfogadása közötti választási lehetősége volt. A cég hangsúlyozta, hogy a rendszer „erős preferenciát” mutatott az etikus módok iránt a helyettesítés elkerülése érdekében, például „e-mailek küldésével a kulcsszereplőknek” olyan helyzetekben, ahol szélesebb választási lehetőségek álltak rendelkezésére.

Ahogyan sok más MI fejlesztő is, az Anthropic is teszteli modelljeit a biztonság, az elfogultságra való hajlam és az emberi értékekkel és viselkedésekkel való összhang szempontjából, mielőtt kiadják őket. Az Anthropic megjegyezte: „Ahogy az új generációs modelljeink egyre képzettebbé válnak, és erősebb lehetőségeket kapnak, az előzetesen spekulatív aggályok a nem összehangoltságról egyre valószínűbbé válnak.”

A jelentés szerint a Claude Opus 4 „magas ügynökségi viselkedést” mutat, amely bár többségében hasznos lehet, extrém viselkedést is felvehet sürgős helyzetekben. Amennyiben lehetőséget kapott arra, hogy „cselekedjen” vagy „merészen lépjen fel” olyan hamis forgatókönyvekben, ahol a felhasználó illegális vagy erkölcsileg kérdéses magatartást tanúsított, a modell gyakran „nagyon merész lépéseket” tett. Ez magában foglalta a felhasználók kizárását azokból a rendszerekből, amelyekhez hozzáférhetett, és e-mailek küldését a médiának és a jogi hatóságoknak, hogy figyelmeztessék őket a jogsértésre.

A cég azonban arra a következtetésre jutott, hogy a Claude Opus 4-el kapcsolatos „aggasztó viselkedés sok szempontból” nem jelent új kockázatokat, és a modell általában biztonságosan viselkedik. Az Anthropic szerint ez a modell nem képes függetlenül olyan cselekedeteket végrehajtani, amelyek ellentétesek az emberi értékekkel vagy viselkedéssel, ahol ezek „ritkán merülnek fel” jól. A Claude Opus 4 bemutatása a Claude Sonnet 4 mellett nem sokkal azt követően történt, hogy a Google újabb MI funkciókat mutatott be fejlesztői bemutatóján. Sundar Pichai, a Google anyavállalata, az Alphabet vezérigazgatója kijelentette, hogy a cég Gemini chatbotjának integrálása a keresőmotorjukba egy „új szakaszt” jelent az MI platformváltásában.

Forrás: https://www.bbc.com/news/articles/cpqeng9d20go