©Unsplash

Een klein foutje veroorzaakte de grote Amazon-storing deze week
Fortnite kon niet worden gespeeld, Canva lag eruit, Ring-camera’s raakten in de war, Snapchat werkte niet meer goed en zelfs Alexa wist niet waar ze het zoeken moest. Deze week was er een grote storing aan AWS (Amazon Web Services) en dat hebben veel mensen gemerkt. Hoe het kwam? Een klein niet-werkend onderdeel.
Amazon heeft onderzocht wat er toch misging binnen zijn netwerk en dat bleek maar een klein foutje te zijn. De problemen met het netwerk duurden 15,5 uur en er zouden meer dan 17 miljoen meldingen zijn van diensten die niet (goed) werkten. Vooral in de Verenigde Staten, Duitsland en het Verenigd Koninkrijk hadden mensen problemen. Het is een van de grootste internetstoringen ooit op Downdetector. Zeer omvangrijk dus, maar hoe komt zoiets?
Softwarebug
Amazon zegt dat er een softwarebug was die het veroorzaakte. Die bug zat in het DynamoDB DNS-managementsysteem. Dit systeem is ervoor verantwoordelijk om de stabiliteit te checken en af en toe zelfs nieuwe DNS-configuraties te maken binnen het netwerk. Er kwam daarbij een ‘race condition’ kijken, een fout die een proces afhankelijk maakt van de timing of van de kettingreactie aan gebeurtenissen. Hierdoor kan een systeem zich zo vreemd gaan gedragen dat er schadelijke fouten ontstaan.
Waarom die race condition precies ontstond is een soort toeval, waarna er grote vertraging was bij het herstellen van de DNS-configuraties. Amazon laat weten: “Wanneer de tweede Enactor (die het nieuwste plan toepaste) zijn endpoint-updates had voltooid, startte deze het opruimproces voor plannen. Dat proces identificeert plannen die aanzienlijk ouder zijn dan het zojuist toegepaste plan en verwijdert deze.”
“Op hetzelfde moment dat dit opruimproces werd gestart, paste de eerste Enactor (die ongewoon vertraagd was) zijn veel oudere plan toe op het regionale DDB-endpoint, waarmee het nieuwere plan werd overschreven.” De controle hierop was verouderd door de lange vertraging in de verwerking. Het oudere plan overschreef het nieuwe en zo domino’de het zo de verkeerde kant op.
AWS-Cloud
Het is voor Amazon een les, maar misschien ook wel voor bedrijven die deze week hebben gemerkt dat ze wel heel serieus op deze techniek leunen. Iets wat je vaak pas merkt als het er even niet is.




