Sunteți interesat de ele OFERTE? Economisiți cu cupoanele noastre WhatsApp o telegramă!

Ce este Mamba, arhitectura care își propune să depășească complet GPT. Noua era a AI?

Ianuarie 18 2024

un șarpe digital reprezintă simbolic arhitectura Mamba în inteligența artificială

Astăzi vreau să trec puțin mai tehnic. Despre inteligența artificială vorbim în fiecare zi, dar este corect să știm pe ce se bazează și cum funcționează. În acest sens, vreau să vă prezint Mamba, o nouă arhitectură care promite să schimbe i modele lingvistice așa cum îi cunoaștem astăzi. Caracteristicile lui Mamba, în comparație cu cele ale GPT, sunt extrem de superioare, precum și ceea ce vă permite să faceți.

Mamba este un nou orizont pentru inteligența artificială

Arhitectura Transformer, introdusă în 2016 prin lucrarea „Atenția este tot ce aveți nevoie” de la Google, a reprezentat o descoperire pentru modelele lingvistice, permițându-le să mențină contextul în interacțiuni. Pe scurt: arhitectura Transformer este un model AI folosit pentru a crea modele precum GPT (Transformator generativ preantrenat).

CUM FUNcționează ARHITECTURA TRANSFORMATORULUI

Inima arhitecturii Transformer este mecanismul „Attenzione„, ceea ce permite modelului să se concentreze pe anumite părți ale unui text în timp ce generează sau procesează altul. Acest mecanism face ca Transformers să fie deosebit de eficient în înțelegerea contextului și a relațiilor complexe dintr-un text. În practică, modelele bazate pe arhitectura Transformer, cum ar fi GPT, ei învață să genereze și să înțeleagă limbajul prin două etape principalele: antrenament (antrenament) și inferență (generare de text).
În timpul pregătire, modelul este antrenat pe seturi mari de date text pentru a înțelege structurile lingvistice, relațiile dintre cuvinte, context etc. In faza de deducere, modelul folosește ceea ce a învățat pentru a genera text nou, a răspunde la întrebări, a traduce limbi și alte sarcini de procesare a limbii.

Cu toate acestea, apariția lui Mamba ar putea marca începutul unei noi ere. Această arhitectură promite să fie mai eficient, capabil să depășească unele provocări cheie cu care se confruntă modelele actuale precum GPT. Mai exact, trei aspecte cheie fac din Mamba o arhitectură promițătoare:

costuri reduse de inferență: Un aspect cheie al Mamba este reducerea semnificativă a costurilor de inferență. După cum am spus mai devreme, inferența este procesul prin care un model AI, după ce a fost antrenat, aplică ceea ce a învățat la date noi, generând text sau imagini. În modelele complexe precum GPT-3 sau GPT-4, acest proces poate fi costisitor din punct de vedere al resurselor de calcul. Mamba promite reduce aceste costuri de până la cinci ori comparativ cu modelele bazate pe Transformer, care ar putea avea un impact semnificativ, mai ales pentru aplicațiile care necesită generarea rapidă de răspuns sau lucrul cu seturi de date uriașe;
costul calcul al atenției liniare: Al doilea avantaj al Mamba se referă la eficiența în calcularea atenției. În modelele cu transformator, costul crește potenţial (tocmai la nivel de putere, nu este o figură de stil) pe măsură ce lungimea textului crește. Aceasta înseamnă că cu cât textul este mai lung, cu atât sunt necesare mai multe resurse pentru a-l procesa, limitând caracterul practic al modelelor în unele aplicații. Mamba propune o solutie unde costul crește liniar în comparație cu dimensiunea ferestrei de atenție, făcând procesarea textelor lungi mai ușor de gestionat și mai puțin oneroasă din punct de vedere computațional;
aport extrem de mare: Mamba ar putea gestiona o fereastră de intrare maximă până la 1 milion de jetoanen, mult mai mult decât este posibil cu arhitectura Transformer. Aceasta înseamnă că Mamba ar putea, teoretic, analizați și înțelegeți texte extrem de lungi, cum ar fi cărți întregi, menținând coerența și detaliile în context. De exemplu, ar putea analiza un întreg roman, menținând în același timp o înțelegere clară a personajelor, a intrigii și a temelor de la început până la sfârșit.

În ciuda promisiunilor lui Mamba, cel hârtie ridicare îndoieli cu privire la scalabilitatea acestuia, în special în comparație cu modelele masive precum GPT-4, care are 175 de miliarde de parametri. Scalabilitate, în termeni foarte simpli, se referă la capacitatea unui sistem de a gestiona o creștere a volumului de muncă sau de a crește în dimensiune fără a-și pierde eficacitatea. Imaginați-vă un mic restaurant care se descurcă bine cu puțini clienți. Dacă restaurantul devine popular și începe să aibă mult mai mulți clienți, ar trebui să poată face față acestei creșteri fără a compromite calitatea serviciului sau a mâncării. Dacă reușește, atunci este „scalabil”.

Mamba, în starea sa actuală, a fost testată doar cu 3 miliarde de parametri. Astfel, rămâne incert dacă performanța și eficiența acestuia pot fi menținute sau îmbunătățite atunci când sunt scalate la dimensiuni mai mari.