Deze computerstemmen van Amazon klinken als mensen: 'Grootste AI-spraakmodel ooit'
Wie wel eens iets heeft laten voorlezen door de computer of de smartphone, zal het niet ontgaan zijn: een 'cringy' stem die met onverwachte intonaties je zinnen uitspuugt. Maar dankzij AI wordt tekst-naar-spraak ook steeds beter. Amazon heeft nu een nieuw AI-model onthuld, waarmee computerstemmen veel natuurlijker en menselijker klinken.
Onderzoekers van Amazon zeggen 's werelds grootste AI-model te hebben ontwikkeld voor tekst naar spraak, genaamd BASE TTS. Een beetje vergelijkbaar met ChatGPT voor teksten, maar dan voor stemmen. Het nieuwe spraakmodel heeft unieke eigenschappen om zelflerend te zijn en is gerelateerd aan de ontwikkeling van artificial general intelligence (AGI), de fase waarin AI-systemen dezelfde intellectuele taken als mensen kunnen uitvoeren.
Eerst horen, dan geloven...
Bij zo'n aankondiging wil je natuurlijk horen hoe realistisch die stemmen dan wel niet klinken. Amazon heeft hier dan ook een aantal voorbeelden van gepubliceerd, waarvan je hieronder een selectie kan beluisteren. Volgens de onderzoekers zijn de gebruikte zinnen geen toeval: ze horen tot de moeilijkste zinnen voor een computer om correct uit te spreken, omdat ze een complexe opbouw gebruiken.
<audio controls="controls"><source src="https://assets.amazon.science/67/52/427178824bd5b7145bfbb9b37849/en-us-eric-18.wav" type="audio/wav"></audio>
<audio controls="controls"><source src="https://assets.amazon.science/72/3f/95c1d7994155a6641a180a9637f6/en-us-kendra-5.wav" type="audio/wav"></audio>
<audio controls="controls"><source src="https://assets.amazon.science/d8/a6/bf477c9d423695081da14c2a1b74/en-us-kendra-19.wav" type="audio/wav"></audio>
<audio controls="controls"><source src="https://assets.amazon.science/05/46/ebec3aef4f4ba0d38dca45a1f6e6/en-us-kendra-sarcasm-4.wav" type="audio/wav"></audio>
Toepassingen met andere AI-tools
Tools zoals ChatGPT hebben al aangetoond hoe menselijk AI een antwoord kan geven op bepaalde vragen. Bovendien lanceerde OpenAI vorige week Sora, een tool om realistische video's mee te maken op basis van een tekstuele omschrijving. Voeg hier een zeer realistische stem aan toe en we zullen straks mogelijk niet meer mens van machine kunnen onderscheiden.
Volgens de Amazon-onderzoekers kan hun taalmodel complexe woorden gebruiken, emoties tonen, leestekens correct interpreteren en op een slimme manier vragen stellen.
Hoe meer 'knopjes', hoe beter
De AI-experts bij Amazon AGI hebben hun prestatie gedetailleerd beschreven in een paper, waarin zij aangeven dat hun model gebruik heeft gemaakt van 980 miljoen parameters. Dit betekent dat er bijna een miljard verschillende 'knopjes' zijn die het model kan aanpassen om zijn spraak te verbeteren.
Denk aan een gigantische controlekamer waar elk knopje een klein detail van de spraak beïnvloedt. Bovendien ontdekten de onderzoekers dat er vanaf 150 miljoen parameters een enorme verbetering plaatsvond.
Brits accent het moeilijkst?
Het model is getraind op 100.000 uur opgenomen spraak afkomstig van openbare sites. Bovendien hebben de onderzoekers het model verrijkt door voorbeelden van gesproken woorden en zinnen uit verschillende talen op te nemen, waardoor het naadloos kan omgaan met specifieke nuances en uitspraken. Hoewel het model slaagde voor de Amerikaanse en Spaanse uitspraak, kon het gek genoeg een Brits accent niet helemaal repliceren.
Risico's
Het team van Amazon AGI heeft er momenteel voor gekozen om het model niet vrij te geven aan het publiek uit ethische overwegingen. Bewust van het potentiële misbruik van zulke technologie, gebruiken ze het voorlopig alleen intern als leermiddel. Dit lijkt een slimme keuze, vooral als je bedenkt dat er later dit jaar in de Verenigde Staten presidentsverkiezingen worden gehouden en desinformatie daarbij een groot probleem vormt.
Lees meer nieuws over chatbots en blijf op de hoogte met onze nieuwsbrief.