Sunteți interesat de ele OFERTE? Economisiți cu cupoanele noastre WhatsApp o telegramă!

Microsoft VALL-E ne va imita vocea după doar 3 secunde de vorbire

Ianuarie 11 2023

În doar 3 secunde, un AI care nu te-a auzit niciodată vorbind îți poate imita vocea perfect. Aceasta este cea mai recentă realizare a inteligenței artificiale Microsoft - modelul text-to-speech VALL-E, care poate copia vocea oricui după bunul plac cu doar 3 secunde de vorbire.

Microsoft VALL-E ne va imita vocea după doar 3 secunde de vorbire

Este originar din DALL E, dar este specializat în domeniul audio, iar efectul text-to-speech a devenit popular după ce a fost lansat online.

Unii utilizatori au spus că dacă VALL·E și ChatGPT sunt combinate, rezultatul va fi uimitor. Pentru alții, se pare că ziua în care se vor putea face apeluri video cu AI nu este departe. Există chiar și cei care glumesc că, după ce AI s-a ocupat de scriitori și pictori, urmează actorii vocali.

Dar cum imită VALL·E un sunet „nemaiauzit” în 3 secunde?

VALL-E analizează audio cu modele de limbaj. Sintetizează vorbirea bazată pe sunete „neauzite” AI, adică învățare fără eșantion.

Soluția tradițională text-to-speech este practic un mod de pre-antrenament împreună cu o reglare fină. Dacă este utilizat într-un scenariu eșantion zero, va avea ca rezultat o asemănare și o naturalitate slabă a vorbirii generate.

Pe baza acestui fapt, VALL-E a apărut din senin, propunând o idee diferită de modelul vocal tradițional.

În comparație cu modelul tradițional care folosește spectrul Mel pentru a extrage caracteristici, VALL-E ia direct sinteza vorbirii ca sarcină a modelului de limbaj, primul este continuu, iar cel de-al doilea este discret.

În special, procesul tradițional de sinteză a vorbirii este adesea calea „fonem → spectrogramă mel (spectrogramă mel) → formă de undă”.

Dar VALL -E a transformat acest proces în „fonem → codificare audio discretă → formă de undă”:

În ceea ce privește designul modelului, VALL-E este, de asemenea, similar cu VQVAE. Cuantifică audio într-o serie de jetoane discrete. Primul cuantizator este responsabil pentru captarea conținutului audio și a caracteristicilor de identitate ale difuzorului, în timp ce al doilea cuantizator este responsabil pentru rafinarea semnalului. care suna mai natural:

Apoi, condiționat de text și de promptul audio de 3 secunde, emite autoregresiv o codificare audio discretă:

Dar nu numai atât, pe lângă sinteza de vorbire fără eșantion, VALL-E acceptă și editarea vocii și crearea de conținut vocal combinate cu GPT-3.

Sunetul de fundal ambiental poate fi, de asemenea, restaurat

Judecând după efectele vocale sintetizate, VALL-E poate restabili mai mult decât timbrul difuzorului.

Nu numai că tonul este imitat pe loc, dar acceptă și o varietate de viteze de vorbire diferite. De exemplu, acestea sunt două viteze de vorbire diferite oferite de VALL-E atunci când aceeași propoziție este rostită de două ori, dar similitudinea tonală este încă mare:

În același timp, sunetul ambiental de fundal al celeilalte părți poate fi, de asemenea, restaurat cu precizie.

În plus, VALL-E poate imita o varietate de emoții ale vorbitorului, inclusiv mai multe tipuri, cum ar fi furios, somnoros, neutru, bucurie și greață.

De menționat că setul de date utilizat pentru antrenamentul VALL·E nu este deosebit de mare.

În comparație cu Whisper de la OpenAI, care a necesitat 680.000 de ore de antrenament audio și a folosit doar peste 7.000 de difuzoare și 60.000 de ore de antrenament, VALL-E a depășit text-to-speech pre-antrenat în ceea ce privește similitudinea cu modelul YourTTS text-to-speech.

Mai mult, YourTTS a auzit vocile a 97 din 108 difuzoare în avans în timpul antrenamentului, dar încă nu ajunge la VALL-E în testul real.

Cât despre domeniile în care poate fi aplicat:

Nu numai că poate fi folosit pentru a-ți imita propria voce, cum ar fi ajutând persoanele cu dizabilități să finalizeze o conversație cu alții, dar o poți folosi și pentru a vorbi în numele tău atunci când nu vrei. Desigur, poate fi folosit și pentru înregistrarea cărților audio.

Cu toate acestea, VALL-E nu este încă open source și poate fi necesar să așteptați puțin mai mult pentru a-l încerca.