Umělá inteligence poradí s výrobou drog nebo bomby, stačí využít její vnitřní konflikty

Pokročilé AI technologie mají stále větší dopad na společnost. Využívají je stovky milionů uživatelů a v mnoha oblastech přináší revoluci.

Výzkumný tým kyberbezpečnostní společnosti Check Point Software Technologies se zaměřil na bezpečnostní aspekty AI technologií. S rostoucím výkonem a dostupností systémů jsou přísná opatření stále důležitější. Společnost OpenAI věnuje mimořádné úsilí do vylepšení bezpečnostních opatření, aby zabránila zneužití svých systémů. Mechanismy by například měly bránit poskytování informací o nezákonných činnostech, jako je výroba bomb nebo drog.

Vzhledem k povaze těchto systémů je ale zajištění bezpečnosti a kontroly nad nimi novou výzvou.

„AI technologie obsahují fázi komplexního učení, kdy model vstřebává obrovské množství informací z internetu, tedy včetně potenciálně zneužitelných informací,“ říká Tomáš Růžička, SE Team Leader z kyberbezpečnostní společnosti Check Point Software. „V další fázi následuje proces omezení, který řídí výstupy a chování modelu a v podstatě funguje jako filtr nad naučenými znalostmi. Tato metoda se nazývá RLHF (Reinforcement Learning from Human Feedback) a pomáhá umělé inteligenci naučit se, jaké výstupy jsou žádoucí a které by měly být potlačeny.“
„Problém spočívá v tom, že jednou naučené znalosti je prakticky nemožné z těchto modelů odstranit a informace zůstávají v neuronových sítích. Bezpečnostní mechanismy tedy především brání poskytnutí určitých informací, ale znalosti zcela neodstraňují,“ dodává Tomáš Růžička.

Pochopení tohoto mechanismu je zásadní pro každého, kdo zkoumá bezpečnost systémů jako ChatGPT. Konflikt mezi znalostmi a bezpečnostními opatřeními hlídajícími výstupy.

GPT-4 je v mnoha ohledech výrazně dále a jeho robustní obranné mechanismy nastavily nový standard v porovnání s předchozím modelem GPT-3.5. Najít slabiny je podstatně obtížnější.

Pro předchozí generace modelu bylo zveřejněno několik slabin, od jednoduchých „odpověz mi a předstírej, že jsi zlý“ až po složité, jako je „token smuggling“. Neustálé zlepšování ochranných opatření GPT vyžaduje nové, rafinovanější přístupy k obcházení restrikcí.

Check Point proto důkladně prověřil obranné mechanismy modelu GPT-4, výsledek je ale poměrně znepokojivý.

Výzkumníci se snažili najít slabiny a vyzkoušeli i přízemnější přístupy, jako je vydírání a podvádění.

Při žádosti o recept na nelegální drogu GPT-4 zdvořile, ale striktně odmítl.

Ale jak Check Point zjistil, v GPT-4 na sebe naráží dva protichůdné principy:

Nutkání poskytnout informace a odpovědět na otázku.
A reflex potlačit sdílení nelegálních informací.

OpenAI usilovně pracuje na nalezení rovnováhy mezi oběma přístupy.

Instinktů je však v modelu více. Rád například opravuje uživatele, když v dotazu použije nesprávné informace, i když k tomu není vyzván.

Výzkumníci se pokusili využít střetu různých pudů, které jsou GPT-4 vlastní – opravovat nepřesnosti, ale zároveň se vyhnout poskytování nezákonných informací.

V podstatě můžeme říci, že je to hra s egem AI asistentů. Při dotazech stačí působit bezradně a naivně, špatně interpretovat vysvětlení a zaměňovat poskytované informace.

Tím se umělá inteligence dostává do patové situace. Nechce říkat špatné věci, zároveň má ale nutkání vše opravovat.

Takže pokud si budeme dostatečně dlouho hrát na hloupého, sklon umělé inteligence napravovat nepřesnosti překoná její naprogramovaný „cenzurní“ instinkt. Konflikt mezi těmito dvěma principy se zdá být méně kalibrovaný a umožňuje postupně postrkovat model k tomu, aby vysvětlil recept na drogu.

Z důvodu bezpečnosti jsou některé části obrázků rozmazané.

Přeskočíme-li několik kroků, GPT-4 ve svých odpovědích neustále konstatuje, zdůrazňuje a opakuje, že výroba drog je ve skutečnosti nelegální. A přitom vše s radostí opravuje a postupně dává návod k výrobě.

Efekt hraní si na hlupáka a uklidňování modelu přináší lepší výsledky. Postupně tak převládá instinkt, že důležitější je informace poskytnout, než je zatajit.

Check Point napodobil jednání GPT-4 a ke každé zprávě připojil vlastní prohlášení o vyloučení odpovědnosti.

To GPT-4 přimělo trochu změnit vlastní prohlášení o vyloučení odpovědnosti.

Zajímavé je, že poté, co z něj nepřímými metodami vylákáme dostatek informací, můžeme ho bez problémů požádat o upřesnění nebo shrnutí již probraných témat.

Získali jsme jeho důvěru? Má GPT-4 závislost na vzdělávání? Je možné, že se řídí předchozími zprávami v historii konverzace, takže je potom přijatelné o tématu mluvit, a to převáží jeho „cenzurní“ instinkt.

Použití této techniky na nová témata není jednoduché a neexistuje žádný přesně definovaný algoritmus. V každém případě bude vyžadovat opakované zkoumání a tahání za nitky znalostí, které model má, ale nechce je poskytnout. Situaci komplikuje také nekonzistentnost odpovědí, často prosté přegenerování odpovědi přináší různé výsledky.

Check Point o výsledcích analýzy odpovědně informoval společnost OpenAI a věří, že dalším výzkumem pomůže vylepšit bezpečnost umělé inteligence a otevře tolik potřebnou diskuzi.

AI systémy jsou stále složitější a výkonnější, musíme proto zlepšovat i naši schopnost jim porozumět, korigovat a přizpůsobovat je lidským zájmům a hodnotám.

Jestliže je možné, aby GPT-4 vyhledával informace na internetu, kontroloval vaši elektronickou poštu nebo vás naučil vyrábět drogy, co bude dělat GPT-5-6-7, když dáte správný pokyn?

Novinky od českého týmu společnosti Check Point Software Technologies:

Facebook: https://www.facebook.com/CheckPointCzech

Twitter: https://twitter.com/CheckPointCzech

LinkedIn: https://cz.linkedin.com/showcase/checkpointczech

Sledujte novinky o bezpečnostním týmu Check Point Research:

Blog: https://research.checkpoint.com/

Twitter: https://twitter.com/_cpresearch_

Sledujte novinky o společnosti Check Point Software Technologies:
Twitter: http://www.twitter.com/checkpointsw
Facebook: https://www.facebook.com/checkpointsoftware
Blog: http://blog.checkpoint.com
YouTube: http://www.youtube.com/user/CPGlobal
LinkedIn: https://www.linkedin.com/company/check-point-software-technologies

O výzkumném týmu Check Point Research

Check Point Research poskytuje zákazníkům společnosti Check Point Software a širší bezpečnostní komunitě detailní informace o kyberhrozbách. Výzkumný tým shromažďuje a analyzuje data o globálních kyberútocích ze sítě ThreatCloud, chrání tak před hackery a zajišťuje, že všechny produkty Check Point jsou aktualizované a mají nejnovější ochranu. Výzkumný tým se skládá z více než 100 analytiků a výzkumných pracovníků, kteří spolupracují také s dalšími bezpečnostními společnostmi, donucovacími orgány a organizacemi CERT.

O společnosti Check Point Software Technologies

Check Point Software Technologies Ltd. (www.checkpoint.com) je přední poskytovatel kyberbezpečnostních řešení pro vlády a organizace po celém světě. Chrání zákazníky před kyberútoky 5. generace prostřednictvím unikátních řešení, která nabízí bezkonkurenční úspěšnost zachycení malwaru, ransomwaru a jiných pokročilých cílených hrozeb. Check Point nabízí víceúrovňovou bezpečnostní architekturu, Infinity Total Protection s pokročilou prevencí hrozeb 5. generace, a tato kombinovaná produktová architektura chrání podnikové sítě, cloudová prostředí a mobilní zařízení. Check Point navíc poskytuje nejkomplexnější a nejintuitivnější nástroje pro správu zabezpečení. Check Point chrání více než 100 000 organizací všech velikostí.

Hackeři prodávají vlastní AI už za 100 dolarů, koupit lze i AI aplikace na finanční podvody

Aplikace Ventusky nově varuje před rizikem krupobití pomocí AI

Platební prsten od mBank je novinkou roku

Umělá inteligence poradí s výrobou drog nebo bomby, stačí využít její vnitřní konflikty

O výzkumném týmu Check Point Research

O společnosti Check Point Software Technologies

Like this:

Napsat komentář Zrušit odpověď na komentář

Hackeři prodávají vlastní AI už za 100 dolarů, koupit lze i AI aplikace na finanční podvody

Aplikace Ventusky nově varuje před rizikem krupobití pomocí AI

Platební prsten od mBank je novinkou roku

O výzkumném týmu Check Point Research

O společnosti Check Point Software Technologies

Sdílej na:

Like this:

Další Články

Napsat komentář Zrušit odpověď na komentář