Microsoft-spraakherkenning net zo goed als mensen

Microsoft-spraakherkenning net zo goed als mensen

21-08-2017 08:12 Laatste update: 26-04-2018 18:43

Een mijlpaal: de spraakherkenningssoftware van Microsoft kan woorden net zo goed verstaan als mensen.

De Microsoft-spraakherkenningssoftware moest luisteren naar het zogeheten switchboard-pakket, een verzameling van opgenomen telefoonconversaties die de spraakherkenningsindustrie de laatste 20 jaar gebruikt om spraakherkenning te testen. Het switchboard-pakket bestaat uit conversaties tussen vreemden onderling over diverse onderwerpen zoals politiek en sport.

Uit meerdere onderzoeken blijkt dat mensen de woorden in dergelijke conversaties met een foutmarge van 5,1% verstaan. Eerdere versies van de spraakherkenningssoftware verstonden 5,9 procent van de woorden niet goed. Maar Microsoft verbeterde de software en verlaagde de foutmarge naar 5,1 procent, het niveau waar wij mensen woorden helemaal goed herkennen.

Nog veel uitdagingen

Dat lijkt moeilijk te rijmen met gebruikerservaringen van de spraakherkenningsassistenten zoals Cortana van Microsoft en ook niet die van Google of Siri van Apple. Die zijn vaak nog steeds slechthorend.

Microsoft zegt dan ook dat dit nieuwe record significant is maar dat er nog veel uitdagingen liggen om spraakherkenning echt op het niveau van mensen te krijgen. In de 'echte' wereld is er namelijk vaak meer omgevingsgeluid, is de audiokwaliteit van opgenomen conversaties laag en praten mensen bovendien met allerlei accenten. 

Volgens Microsoft is de volgende stap om computers te leren het gesproken woord te vertalen naar tekst. Daarnaast wil het bedrijf de woorden daadwerkelijk in de context kunnen begrijpen, oftewel kunstmatige intelligentie die spraakherkenning gebruikt om menselijke conversaties daadwerkelijk te begrijpen.