Interview: Luis von Ahn over megalomane crowdsourceprojecten

Interview: Luis von Ahn over megalomane crowdsourceprojecten

11-07-2012 13:58 Laatste update: 28-04-2018 17:09

Sjoerd Arends

Crowdsourcegoeroe Von Ahn wil heel internet laten vertalen door mensen. Hoe? Door iets extra's toe te voegen aan handelingen die ze toch al uitvoeren.

Everything is bigger in America, dus ook ambitie. Luis von Ahn wil heel internet vertalen met een gratis talencursus: DuoLingo. Na drie jaar onderzoek en testen, is de start-up eindelijk toegankelijk. Op de DuoLingo-site krijgen leerlingen zinnen voorgeschoteld die afkomstig zijn van webpagina's. Die vertalen zij en als een hoog percentage van de vertalingen hetzelfde is, is de betrouwbaarheid groot. Bovendien wordt er gestemd op werk van medeleerlingen.

De verwachtingen van dit project zijn hoog. De professor aan de Carnegie Mellon-universiteit in Pittsburg heeft zijn sporen verdiend met programma's als CAPTCHA en reCAPTCHA. Dat zijn de moeilijk leesbare woorden onder internetformulieren die je moet overtypen om te verifiëren dat je een mens bent en geen bot. Door het invoeren digitaliseren internetters ongemerkt complete archieven, waaronder die van de New York Times. Als bewijs van het succes werd de start-up in 2009 verkocht aan Google.

Met de lancering van DuoLingo wordt langzaam een lijn zichtbaar in Von Ahns werk. Wederom probeert hij iets waardevols te injecteren in de handelingen die we toch al uitvoeren op internet.

Hoe kun je iets laten vertalen door mensen die de taal nog niet kennen?
De eerste persoon die een zin vertaalt, kunnen we een aantal woorden verklappen en zeggen of diegene het waarschijnlijk juist, of waarschijnlijk onjuist heeft. Dat is gebaseerd op computervertalingen. In de realiteit moet hij of zij wachten totdat andere mensen positief of negatief stemmen op zijn vertaling. Zodra veel meer mensen dezelfde zin verwerken, zijn we zeker of je het juist of onjuist hebt.

Waarom zijn die webvertalingen belangrijk?
Momenteel is internetcontent verdeeld in stukken. Elk stuk is in een andere taal. Een groot deel van de content is Engelstalig, meer dan vijftig procent. Als je geen Engels spreekt, heb je simpelweg geen toegang tot dat deel. Er zijn ook delen in het Spaans, Nederlands en elke andere taal. Ik maak die delen toegankelijk door het web in elke grote taal beschikbaar te maken.

Het web vertalen, dat is behoorlijk ambitieus, aangezien het aantal geïndexeerde pagina's wordt geschat op 7,9 miljard.
Het is heel ambitieus en misschien halen we het ook niet. Maar we willen een zo groot mogelijk deel vertalen. Momenteel werken we aan content met een creative commons-licentie, zodat we geen kopierechten schenden. Bijvoorbeeld Wikipedia. Binnenkort mag iedereen pagina's uploaden voor vertaling.

Hoe is de kwaliteit van de vertalingen en hoe is die getest?
De kwaliteit is zeer goed. Willekeurige mensen hebben zinnen vertaald en het resultaat hebben we vergeleken met dat van professionele vertalers. Daarna hebben we mensen die beide talen kennen, gevraagd om ernaar te kijken. Er waren fouten, maar dezelfde soort fouten werden ook gevonden in de vertalingen van professionals. Spelfouten bijvoorbeeld.

En zijn de mensen getest die de cursus DuoLingo hebben afgerond?
Ja, en ze leren succesvol! Natuurlijk ken je de taal niet zo goed als jouw eigen taal, na zo'n cursus. Maar de resultaten zijn net zo goed als bij rosettastone.eu of soortgelijke betaalde cursussen. Bovendien is onze cursus honderd procent gratis. Tot nu toe gaat het erg goed. 180.000 mensen zijn geregistreerd.

Gaan bedrijven in de toekomst betalen voor vertalingen?
Dat is inderdaad de bedoeling. Nu doen we creative commons-onderdelen gratis en later kunnen bedrijven betalen voor een versnelde vertaling.

Heeft de New York Times weer interesse, aangezien ze ook gebruik maken van je crowdsourceproject reCAPTCHA?
Dat is inderdaad één van de bedrijven, maar het is nog niet officieel. We praten met meerdere bedrijven voor verdere testen, maar er is er geen waar ik over mag praten.

Er wordt al tientallen jaren geïnvesteerd in vertaalsoftware door mensen die geloven in een geautomatiseerde toekomst. Gelooft u daar niet in?
Ik geloof er wel in, maar het is er gewoon nog niet. Computervertalingen zijn simpelweg niet goed. Mensen werken al 50 jaar aan dit soort software en er worden nog veel fouten gemaakt. We zijn nog steeds op een punt waarbij we geen boek laten vertalen door software en dat vervolgens in de boekhandel leggen. De computervertalingen komen niet eens in de buurt. Ik geloof dat mensen het nu eerst moeten waarmaken.

Is de mate van crowdsourcing niet overdreven bij projecten als DuoLingo? Google Translate vraagt ook aan mensen wat ze van een vertaling vinden. In feite ook crowdsourcing, maar daar wordt het meeste werk door software gedaan.
Voor zover ik weet, zijn er weinig mensen die daarop reageren. Het is niet onderdeel van de main flow of things.

Die main flow is waar je gebruik van maakt. Net als bij reCAPTCHA gebruik je handelingen die toch al verricht worden. Is die gedachte de fundering van jouw werk?
Dat is exact onze filosofie. Pak dingen die mensen toch al aan het doen zijn, zoals het volgen van online taalcursussen, en injecteer extra's in die handelingen. We kunnen een groot deel van de dingen die wij online doen transformeren in iets dat nog nuttiger is. Bijvoorbeeld de tijd die we besteden aan gamen. Daar heb ik research naar gedaan. Zo kunnen mensen in de vorm van een game muziek en afbeeldingen taggen.

Al decennia voeren we discussie over verdienmodellen op internet. Weinig mensen zijn blij met advertenties of het verkopen van persoonsgegevens. Brengt deze visie een goed alternatief?
Zeker. De belangrijkste vraag is hoe we iets maken wat weinig extra energie kost, minder irritant is dan advertenties en waar mensen wel voor willen betalen. Zoals webvertalingen, of het digitaliseren van archieven.

En als je klaar bent met het web vertalen, wat dan?
Tijdens het verzinnen van een crowdsourceproject denk ik na over het enorme aantal arbeidskrachten. Als je kijkt naar mijn vorige projecten CAPTCHA en het digitaliseren met reCAPTCHA, dan zie je dat het aantal mensen zo groot wordt – 200 miljoen per dag – dat je kunt nadenken over projecten die groter zijn dan alles wat we in het verleden hebben gedaan. Projecten als de eerste maanlanding of het bouwen van het Panamakanaal zijn uitgevoerd door een relatief kleine groep mensen, zo'n 100.000 man. Stel dat je een miljard mensen aan hetzelfde project kunt laten werken. Wat doe je daar dan mee?