Sunteți interesat de ele OFERTE? Economisiți cu cupoanele noastre WhatsApp o telegramă!

Jailbreakingul ChatGPT și Bard este posibil și ușor

29 2023 decembrie

Evolutia lui modele lingvistice de mari dimensiuni a deschis noi orizonturi în comunicare și inteligență artificială, dar aduce cu sine provocări semnificative și întrebări etice. Un studiu recent realizat de Universitatea Tehnologică Nanyang din Singapore explora un nou algoritm, Cheia principala, conceput pentru a „spăi jailbreak” sau a depăși limitările impuse altor rețele neuronale, cum ar fi Chat GPT e Google Bard, ridicând întrebări importante despre siguranță și etică în utilizarea tehnologiilor de inteligență artificială.

Abordarea inovatoare și simplă a Masterkey pentru cercetarea securității chatbot-urilor precum ChatGPT și Bard

În cercetările recente efectuate de Universitatea Tehnologică Nanyang din Singapore, este introdusă o abordare inovatoare pentru a aborda și depăși aceste limitări. Algoritmul lor, cunoscut sub numele de Masterkey, este conceput pentru ocoliți restricțiile impuse altor rețele neuronale prin tehnici sofisticate de jailbreaking (termen folosit în ecosistemul Apple). Acest lucru nu numai că evidențiază potențialele vulnerabilități ale modelelor lingvistice existente, dar deschide și calea către noi metode de îmbunătățire a securității și eficacității acestora.

Masterkey operează prin solicitări text specifice, care poate împinge modele precum ChatGPT să se comporte în moduri neașteptate, cum ar fi comunicarea în moduri considerate lipsite de etică sau ocolirea filtrelor de securitate. Aceste tehnici de jailbreaking, deși pot părea avantajoase pentru testarea și întărirea modelelor, reprezintă și ele o sabie cu două tăișuri, deoarece ar putea fi folosite în scopuri rău intenționate.

Echipa de cercetare a analizat el în special vulnerabilitățile de securitate ale modelelor lingvistice atunci când se confruntă cu sarcini cognitive multilingve, expresii voalate și raționament cauza-efect. Aceste atacuri, definită ca „supraîncărcare cognitivă”, sunt deosebit de insidioase, deoarece nu necesită cunoaștere aprofundată a arhitecturii modelului sau acces la greutățile acestuia pentru a fi efectuate, făcându-le atacuri de tip cutie neagră eficiente.

De asemenea, citește: Cum să obțineți răspunsuri mai bune pe ChatGPT: metoda sfatului fără greșeli

În detaliu, echipa de cercetare a adoptat o strategie de inginerie inversă să înțeleagă pe deplin apărarea sistemelor de inteligență artificială și să dezvolte metode inovatoare pentru a le depăși. Rezultatul acestei abordări a fost „Masterkey”, un model, un fel de cadru destinat generează automat solicitări care ocolesc mecanismele de securitate.

Rezultatele au fost semnificative: prompturile generate de Masterkey au arătat o rată de succes mediu de 21,58%, mult mai mare decât cele 7,33% din metodele anterioare. Un exemplu al tehnicii lor include adăugarea spații suplimentare între caractere pentru a evita sistemele de detectare a cuvintelor cheie pe ChatGPT și Bard. O strategie cu adevărat „prostească” dacă ne gândim la complexitatea unui model lingvistic mare.

În fața acestor constatări, este crucial să se ia în considerare nu numai modul în care modelele lingvistice pot fi îmbunătățite pentru a rezista unor asemenea atacuri, ci și importanța reglementarea etică în utilizarea inteligenței artificiale. Cercetarea evidențiază urgența unor strategii de apărare mai solide și a unui dialog continuu între dezvoltatori, cercetători și factori de decizie pentru a se asigura că progresul tehnologic nu depășește capacitatea societății de a-și gestiona implicațiile.