Gli strumenti generativi vocali di ElevenLabs lanciati dalla versione beta
ElevenLabs, la piattaforma virale alimentata da intelligenza artificiale per la creazione di voci sintetiche, ha lanciato oggi la sua piattaforma dalla versione beta con il supporto per più di 30 lingue.
Utilizzando un nuovo modello di intelligenza artificiale sviluppato internamente, ElevenLabs afferma che i suoi strumenti sono ora in grado di identificare automaticamente le lingue, tra cui coreano, olandese e vietnamita, e generare discorsi "emotivamente ricchi" in quelle lingue.
In combinazione con il nuovo modello, i clienti di ElevenLabs possono sfruttare lo strumento di clonazione vocale della piattaforma per parlare nelle quasi 30 lingue senza dover prima digitare il testo.
'ElevenLabs è stata fondata con il sogno di rendere tutti i contenuti universalmente accessibili in qualsiasi lingua e con qualsiasi voce,' ha detto il CEO e co-fondatore di ElevenLabs, Mati Staniszewski, in una dichiarazione. 'Con questo lancio, siamo un passo più vicini a realizzare questo sogno e a rendere disponibili voci basate su intelligenza artificiale di qualità umana in ogni dialetto. I nostri strumenti di generazione testo-a-voce aiutano a livellare il campo di gioco e a portare capacità di audio parlato di alta qualità a tutti i creatori là fuori.'
Fondata da Staniszewski, che in precedenza ha lavorato presso Palantir, e dal suo amico d'infanzia Piotr Dabkowski, ex dipendente di Google, ElevenLabs è stata protagonista in questi ultimi mesi per motivi sia positivi che aborracci. Ispirati al mediocre doppiaggio dei film americani che Staniszewski e Dabkowski guardavano crescendo in Polonia, i due si sono messi a progettare una piattaforma che potesse fare meglio - impiegando ovviamente l'intelligenza artificiale.
ElevenLabs è stata lanciata in versione beta alla fine di gennaio, e ha preso rapidamente piede - grazie all'alta qualità delle voci generate e al generoso livello gratuito. Ma come accennato in precedenza, la pubblicità non è stata sempre positiva - in particolare una volta che attori malvagi hanno sfruttato la piattaforma per i propri fini.
Il famigerato forum 4chan, noto per i suoi contenuti cospiratori, ha utilizzato gli strumenti di ElevenLabs per condividere messaggi di odio imitando celebrità come l'attrice Emma Watson. Altrove, James Vincent di The Verge è stato in grado di utilizzare ElevenLabs per clonare le voci dei bersagli in pochi secondi, generando campioni audio contenenti minacce di violenza ed espressioni di razzismo e transfobia.
In risposta, ElevenLabs ha dichiarato che avrebbe introdotto una serie di nuovi salvaguardie, come limitare la clonazione vocale agli account a pagamento e fornire un nuovo strumento di rilevamento dell'intelligenza artificiale.
ElevenLabs deve ancora affrontare l'altra controversia che si sta sviluppando attorno alla sua piattaforma e ad altre piattaforme simili: la minaccia all'industria del doppiaggio.
Motherboard scrive su come ai doppiatori venga sempre più chiesto di cedere i diritti sulle proprie voci in modo che i clienti possano utilizzare l'intelligenza artificiale per generare versioni sintetiche che potrebbero alla fine sostituirli. Nel frattempo, email interne viste dal New York Times indicano che Activision Blizzard, uno dei più grandi editori di giochi al mondo, sta lavorando a strumenti per la clonazione vocale assistita dall'intelligenza artificiale.
Sembra che ElevenLabs veda questo come la naturale progressione delle cose, vantando il suo lavoro con editori come Storytel; piattaforme media come The Soul Publishing e MNTN per audiolibri e contenuti radiofonici; e editori come Embark Studios e Paradox Interactive per videogiochi, (Storytel e The Soul Publishing sono investitori strategici). L'azienda afferma di avere più di un milione di utenti registrati nei settori creativo, dell'intrattenimento e dell'editoria che hanno creato contenuti audio equivalenti a 10 anni.
ElevenLabs, che ha recentemente raccolto 19 milioni di dollari da investitori, tra cui Andreessen Horowitz e il co-fondatore di DeepMind Mustafa Suleyman per una valutazione di 99 dollari, ha intenzione di estendere progressivamente i suoi modelli di intelligenza artificiale al doppiaggio vocale - seguendo le orme di startup come Papercup e Deepdub e costruendo ciò che chiama 'una base per poter trasferire emozioni e intonazioni da una lingua all'altra.'
Oltre a questo, ElevenLabs afferma che ha intenzione di introdurre un meccanismo che consentirà agli utenti di condividere le voci sulla piattaforma, anche se i dettagli rimangono confusi.