Uitlegparty: Voice control

Uitlegparty: Voice control

23-05-2012 12:24 Laatste update: 28-04-2018 16:38

Van Siri tot Kinect en van je auto tot de tv. Praten tegen je apparaten is in opkomst.

Spraakherkenning is al sinds eind jaren 80 beschikbaar voor consumenten. De technieken om menselijke spraak om te zetten naar tekst of om apparaten te besturen wordt nog elk jaar beter. De massa gebruikt het nog maar weinig. Veel mensen verwachten dat spraakherkenning nog niet goed genoeg werkt om hen van nut te zijn. Dat ligt echter aan de toepassing.

De software van jaren geleden heeft het imago weinig goed gedaan en dat komt vooral door te onnauwkeurige speech-to-text. Bekend voorbeeld is een mislukte demonstratie van de spraakherkenning in Windows Vista in 2006. Dat bleek het resultaat van een simpele bug die later snel was verholpen, maar het beeld bleef toch hangen dat spraakherkenning nog niet goed genoeg werkt.

Anno 2012 is spraakherkenning een stuk beter geworden, zelfs voor het dicteren van teksten. Maar ook steeds meer apparaten zijn te bedienen per spraak en er is op internet te zoeken door zoekwoorden in te spreken. Dat is minder moeilijk dan hele zinnen herkennen, doordat er maar een beperkt aantal commando's zijn. Of er zijn systemen die kunnen leren van het natuurlijk taalgebruik van alle gebruikers, want wie per spraak zoekt op Google, Siri, Samsungs S Voice of andere systemen uploadt een geluidsfragment naar de cloud. Het systeem kan vervolgens leren van wat gebruikers met de antwoorden doen.

De herkenning is een stuk gemakkelijker als de systemen op vaste lijsten commando's moeten reageren en niet op complete vocabulaires met tienduizenden termen.

Spraakbesturing kan een alternatief vormen voor het indrukken van toetsen of touchscreens. Het is daardoor al volop in gebruik in de gezondheidszorg, waar aanraken vanwege de hygiëne uit den boze is. Ook beroepen waarbij mensen letterlijk hun handen vol hebben, profiteren van spraakbediening. Ook binnen de militaire sector en de luchtvaart zijn voice control-systemen daarom al gemeengoed.

Praten tegen je tv
De komende jaren zijn consumenten aan de beurt. Niet alleen meer computers, telefoons en tablets zijn straks per spraak te bedienen, ook steeds meer dashboards van auto's en nieuwe televisies krijgen voice control aan boord. Samsung en LG zijn al gestart met de eerste tv's waarvan sommige functies per spraak zijn te besturen. Zoals je in Davids Uitpakparty van het Samsung-model kan zien, werkt dat nog niet altijd vlekkeloos. De tv begint met luisteren als de kijker 'Hi TV!' zegt. Of roept, als het geluid van de tv hard staat.

Een probleem is dat de tv zelf ook geluid produceert, wat er soms voor zorgt dat de spraakbediening per ongeluk wordt ingeschakeld. Dat hebben we bij het Samsung-model meermaals gezien. In Microsofts Kinect zitten daarom vier microfoons die detecteren waar het geluid precies vandaan komt. Zo is het makkelijker te herkennen of de persoon die de spelcomputer bedient aan het woord is. Kinect heeft ook voice control voor gebruik in spelletjes en het opvragen van bepaalde apps of te huren films.

Samsung levert echter ook een nieuwe afstandsbediening mee met daarin een microfoon en een spraakknop. Op die manier werkt spraakbediening een stuk nauwkeuriger, zeker bij omgevingslawaai. Bij LG zit de microfoon alleen in de afstandsbediening en niet in de tv zelf.

De waarde van spraakherkenning in tv's moet vooral zitten in het oproepen van on-demand programma's en films, het starten van apps, het inspreken van tweets of Facebook-berichtjes en het zoeken op internet. Bij Samsung is het mogelijk om een zoekterm in te spreken, waarna de tv zoekt in zowel online videotheken, Facebook, YouTube en Google. Bij LG is iets soortgelijks mogelijk. Daar werkt spraakinvoer ook als alternatief voor het virtuele toetsenbord bij invoeren van webadressen of Google-opdrachten.

LG laat tv-kijkers nog niet zappen, het volume aanpassen of andere tv-functies bedienen per spraak, wat Samsung wel doet. De vraag is ook of het zo veel beter werkt om 'kanaal 23' te zeggen dan gewoon 23 in te voeren op een gewone afstandsbediening. De naam van de zender zeggen, zoals Discovery, BBC2 of RTL7, om ernaar toe te zappen, kan nog niet bij Samsung. Dat is jammer. De tv uitschakelen met een spraakcommando kan wel handig zijn als de afstandsbediening even kwijt is. Maar het is ook vervelend dat iedereen die de kamer binnenkomt dat ook kan doen door eerst Hi TV te zeggen. De controle over de bediening van de tv ligt dan niet langer bij wie de afstandsbediening in hand heeft.


Siri en S Voice
Op mobiel gebied heeft spraakbesturing een nieuwe impuls gekregen door de combinatie met apps die werken als een soort persoonlijke assistent. Apple kwam op de iPhone 4S met Siri en Samsung komt binnenkort op de Galaxy S III met een soortgelijke app, S Voice. Beide reageren op natuurlijk taalgebruik. Je kan een vraag stellen zoals je normaal ook zou doen. Gaat het regenen vandaag? Heb ik morgen afspraken? Wat is de hoofdstad van Colombia?

Met S Voice is het anders dan bij Siri ook mogelijk op alle apps op je telefoon te starten met een spraakcommando. Ook navigeren, een foto nemen, wifi aanzetten en andere functies zijn met S Voice per spraak te doen. Zelfs de wekker is te snoozen door iets naar je telefooon te roepen. Wat betreft voice control gaat S Voice nog iets verder dan Siri, omdat er meer standaardcommando's mogelijk zijn. Maar de vraag is of de interpretatie van natuurlijk taalgebruik even goed werkt. Bij de eerste testen weet S Voice minder vaak een antwoord te geven dan Siri en verwijst de app vaker door naar Google. De waarde van S Voice moet blijken zodra de Galaxy S IIi beschikbaar is.

Wennen
Zitten smartphone-gebruikers op voice control te wachten? Ze moeten er in elk geval flink aan wennen. Het gebruik van Siri valt volgens de eerste cijfers nog tegen. Uit een onderzoekje door iMore blijkt dat maar 5 procent van de iPhone 4S-bezitters Siri meerdere keren per dag gebruikt en 16 procent gemiddeld één keer per dag. De helft zegt Siri helemaal nooit te gebruiken.

Consumenten blijken toch erg gewend op met hun vingers te werken in plaats van met hun mond. Bovendien sta je liever niet in het openbaar Siri commando's te geven. Ook zijn er privacyzorgen. Medewerkers van IBM mogen Siri bijvoorbeeld niet gebruiken op hun iPhone, omdat het bedrijf zich zorgen maakt over de opslag van gevoelige informatie op de Apple-servers.

Nog geen Nederlands
Zowel Siri als S Voice werkt overigens nog niet in het Nederlands. Dat is jammer en ook niet echt nodig, omdat de spraakleveranciers op zich meestal wel Nederlands aanbieden. In geval van Siri moet Apple echter ook overeenkomsten sluiten met informatiediensten in elk land.

Ook de spraakherkenning in Kinect werkt nog niet in het Nederlands, al heeft Microsoft al wel Nederlandse testpersonen laten inspreken. Spraakgestuurd zoeken bij Google werkt wel in het Nederlands, maar de stemcommando's in Android nog niet.

Betalen met je stem
Spraakbediening komt ook naar andere terreinen. Het zit steeds vaker in auto's ingebouwd. Niet alleen om te navigeren, maar ook om multimedia te bedienen of andere apps aan te sturen. Spraakbedrijf Nuance kwam deze week ook met Dragon Message, waarmee gebruikers met een carkit op sms'jes kunnen antwoorden of mailtjes kunnen dicteren.

Nuance is ook het bedrijf dat technologie levert aan Apple voor Siri, aan Samsung voor zijn tv's en aan tal van andere applicaties met spraakherkenning. Een concurrent is Vlingo, waarmee Samsung met S Voice werkt. Google heeft ook een eigen systeem voor spraakherkenning, al moet het bedrijf nog een persoonlijke spraakassistent à la Siri toevoegen aan Android.

Als het aan Nuance ligt, komt spraak in veel meer toepassingen te zitten. Bijvoorbeeld als manier om mensen te herkennen. Zo kan een herkende stem werken als een extra veiligheidsmethode bij betalingen. Ook camcorders en foto-camera's met spraakherkenning komen eraan. Huishoudelijke apparaten reageren straks ook op je stem. Er is al een koffiezetapparaat van het merk Jura dat de spraaktechniek van Nuance gebruikt om je favoriete bakkie te zetten.