©BBC

Oi bruv: Britse AI-tool kloont kenmerkende Britse accenten
Veel AI-tools kunnen inmiddels praten, maar ze klinken grotendeels hetzelfde: Amerikaans, of Brits met een standaard net accent. Dat vinden ze zonde in Engeland, waar je elk halfuur een nieuw accent hoort, dus hebben ze het verbeterd.
Het Verenigd Koninkrijk heeft een rijkdom aan herkenbare accenten. Van plat en posh Londens tot de bekende accenten uit steden als Manchester en Liverpool, de bekende accenten uit Wales, Ierland en Schotland: de lijst is enorm. Toch zijn de meeste AI-chatbots voorzien van alleen dat nette Londense accent, dat in werkelijkheid bijna niemand in het VK spreekt. Hoe verbeter je dat nou? Zoals alles met AI: veel meer data.
Het Britse AI-bedrijf Synthesia, dat laatst nog een grote investering kreeg van Adobe, heeft een jaar de tijd genomen om zijn eigen database met Britse accenten te bouwen, meldt de BBC. Daarvoor heeft het bedrijf zowel eigen studio-opnames als online materiaal gebruikt. Het resultaat is Express-Voice, een tool die zowel echte stemmen kan klonen als synthetische stemmen kan genereren. AI is namelijk al wel goed in het overnemen van het stemgeluid op basis van een korte opname, maar het accent is moeilijker over te nemen. De tool van Synthesia kan dat wel met slechts een paar seconden geluid, omdat het zoveel verschillende accenten paraat heeft.
Luister hier naar de tool, die een Iers accent kloont:
Betere vertegenwoordiging
De AI-stemmen zouden onder meer gebruikt worden in trainingsvideo's, verkoopondersteuning en presentaties. Synthesia is namelijk vooral een AI-videobedrijf, dat van die realistisch sprekende mensen kan genreren. Volgens Synthesia willen hun klanten een betere vertegenwoordiging van de verschillende regio's. "Als je de CEO van een bedrijf bent, of als je gewoon een gewoon persoon bent, als je je gelijkenis hebt, wil je dat je accent behouden blijft", zegt Synthesia Head of Research Youssef Alami Mejjati.
Zo viel het Franssprekende klanten van Synthesia bijvoorbeeld op dat AI-stemmen in het Frans vaak een Frans-Canadees accent hebben. "Dit komt alleen omdat de bedrijven die deze modellen bouwen meestal Noord-Amerikaanse bedrijven zijn, en ze hebben meestal datasets die bevooroordeeld zijn naar de demografische gegevens waarin ze zich bevinden", aldus Mejjati.
Ook betere spraakbesturing
De grotere databases van accenten zouden er ook voor kunnen zorgen dat AI-chatbots de verschillende accenten van gebruikers beter kunnen verstaan. Nu is het voor mensen met een zwaarder dialect soms nog lastig om zich verstaanbaar te maken voor AI-chatbots, die net zo'n accentloze spraak verwachten als ze zelf voortbrengen.
Bovendien bestaan er zorgen dat accenten verdwijnen door de digitalisering. Niet alleen vanwege chatbots, maar ook omdat de regionale grenzen online niet bestaan, en vooral jongeren zich dan conformeren tot een meer standaard uitspraak van de taal. "Van de meer dan zevenduizend talen die vandaag de dag nog bestaan, is bijna de helft volgens UNESCO bedreigd; ongeveer een derde heeft enige online aanwezigheid; minder dan 2 procent wordt ondersteund door Google Translate; en volgens de eigen tests van OpenAI worden er slechts vijftien, of 0,2 procent ondersteund door GPT-4 met nauwkeurigheid van 80 procent of hoger", schrijft Karen Hao in het boek Empire of AI.
Hoewel we tool van Synthesia indrukwekkend is, zitten er natuurlijk ook schaduwkanten aan. Ieders stem is immers met een paar seconden aan opname te klonen, eerst in het Engels maar andere talen volgen vast. Het scheelt dat de tool alleen voor betalende gebruikers beschikbaar is, ook belooft Synthesia om beveiligen in te bouwen tegen misbruik voor kwetsende en expliciete uitspraken. Evengoed is hek vroeg of laat van de dam, want er zijn ook al gratis, open-source concurrenten op het model van Synthesia, die uiteindelijk ook dit niveau zullen bereiken.
Meer AI-nieuws en mis niets met onze Bright-app.