Wanneer het Cloudflare internetserviceplatform een stroomstoring gehad in november bracht het een groot deel van de onlinewereld met zich mee.
Grote platforms zoals ChatGPT, X en Canva werden onbereikbaar. Hetzelfde geldt voor digitale diensten die door veel banken, detailhandelaren en vele andere bedrijven worden aangeboden. Tijdens de zes uur durende crisis, net zoveel 2,4 miljard gebruikers kunnen de impact voelen.
Softwarestoringen als deze zijn altijd een onderdeel geweest en zullen altijd een onderdeel blijven van het online leven. Maar tegenwoordig zijn onze systemen meer met elkaar verbonden dan ooit, dus zelfs één storing kan verwoestende gevolgen hebben. AI vergroot dat risico alleen maar.
Er zijn echter nog steeds veel bedrijven die geen bescherming hebben tegen deze rampen. In een tijdperk waarin stroomuitval onvermijdelijk is, functioneren ze effectief zonder vangnet.
Het fundamentele ontbrekende element is iets eenvoudigs, maar gemakkelijk over het hoofd gezien: robuustheidstests.
Kortom, veerkrachttesten gaat over het stresstesten van uw software, voordat er problemen optreden. Dit zorgt ervoor dat het systeem functioneel blijft – of snel herstelt – wanneer zich een probleem voordoet.
Beschouw duurzaamheidstesten als een kleine veiligheidsmaatregel om grote problemen te voorkomen. De gemiddelde jaarlijkse kosten van een IT-storing met grote impact zijn ongeveer $ 76 miljoen. Bedrijven kunnen ook reputatieschade oplopen, klanten verliezen en onderworpen worden aan wettelijke sancties. Cloudflare is slechts een recent voorbeeld. Alleen al het afgelopen jaar AWS, Microsoft365En Ster link allemaal, om er maar een paar te noemen.
Dus waarom testen niet meer bedrijven hun software op onvermijdelijke fouten? Dit is waarom en wat bedrijven eraan kunnen doen.
DE MEESTE BEDRIJVEN DOEN GEEN DUURTESTS UIT
Ondanks de grote inzet hebben bedrijven redenen om het testen van de veerkracht van software te vermijden. Het proces is technisch en kan rommelig zijn.
Moderne veerkrachttesten, ook wel chaos-engineering genoemd, werden vijftien jaar geleden in de schijnwerpers gezet door softwareontwikkelaars van Netflix. Ze realiseerden zich dat de enige manier om robuustheid te testen het simuleren van problemen “in het wild” of in de productie was, en creëerden een set gereedschappen die netwerkcrashes, cloudservicecrises en andere echte mislukkingen repliceren.
Netflix kan misschien het beste doen, maar weinig andere bedrijven hebben de expertise of de wens om hun systemen op deze manier in gevaar te brengen. Dit is het equivalent van het starten van een gecontroleerde brand om ervoor te zorgen dat u over de middelen beschikt om deze te blussen.
Voor het testen van veerkracht is technische intelligentie nodig om te weten welke mislukkingen moeten worden gesimuleerd en welke reacties moeten worden genomen. Het implementeren van deze praktijk brengt ook risico’s met zich mee, zoals het activeren van het sprinklersysteem in uw huis, waardoor meubels kunnen worden beschadigd. Het allerbelangrijkste is dat ontwikkelaars moeten weten wat ze moeten doen als testen zwakke punten aan het licht brengen.
Omdat de drempel voor robuustheidstesten zo hoog is, is dit bij de meeste bedrijven niet geïntegreerd in het softwareontwikkelingsproces. Er is zelden een toegewijd team, en vaak heeft niemand, behalve misschien de CTO, duidelijk de leiding. Als gevolg hiervan worden stresstests een obstakel waar bedrijven zich niet mee bezighouden.
EEN BETERE WEG VOORUIT: HULP VAN AI
Het goede nieuws: dit hoeft niet langer het geval te zijn. Voor bedrijven die veerkrachttesten willen toepassen, maken nieuwe platforms en tools – mogelijk gemaakt door AI – het proces veiliger en gemakkelijker.
Speciaal duurzaamheid testmiddel Hiermee kunnen bedrijven nu het testen automatiseren en optimaliseren, zonder de noodzaak van experts of speciale teams.
Ten eerste identificeert de AI-agent mogelijke randgevallen: ongebruikelijke of onverwachte scenario’s die de betrouwbaarheid in gevaar kunnen brengen. Het onderzoekt het gedrag van systemen in de productie, hoe services met elkaar omgaan en waar vergelijkbare systemen eerder faalden.
Agenten kunnen bijvoorbeeld scenario’s benadrukken waarin de service vertraagt, in plaats van volledig mislukt. Nog een extreem geval: de code-implementatie heeft slechts de helft van de servers van het bedrijf bijgewerkt, wat leidde tot een inconsistente gebruikerservaring.
Vervolgens creëert en prioriteert de agent de testgevallen die het meest waarschijnlijk veerkrachtproblemen aan het licht zullen brengen, en legt uit waarom elk van deze gevallen belangrijk is. Het kan dergelijke tests ook organiseren en uitvoeren.
Zodra een probleem is geïdentificeerd, stelt de AI-agent gerichte oplossingen voor, waardoor de software veerkrachtiger wordt. Zodra het zware werk achter de rug is, kunnen ontwikkelaars deze inzichten beoordelen en toepassen.
WAAROM DUURZAAMHEIDSTESTEN NAAR LINKS MOET WORDEN VERZONDEN
Het hebben van de juiste tools is één ding, maar voor het effectief testen van de veerkracht is meer nodig dan alleen software.
Het creëren van een cultuur van veerkracht is één oplossing. Softwareteams moeten testen in hun routine opnemen. Uiteindelijk is de enige manier om jezelf te wapenen tegen mislukkingen, het onder ogen zien ervan. Als je deze oefeningen nooit doet, zul je nooit weten hoe erg de dingen zullen worden totdat het te laat is.
Ontwikkelaars moeten ook onthouden dat het testen van de veerkracht niet alleen gaat over grootschalige uitval van vijf alarmen. Het gaat ook om kleine, gedeeltelijke storingen die een slechte gebruikerservaring voor klanten creëren, zonder dat het hele systeem hoeft te worden afgesloten.
Laten we zeggen dat een platform als Cloudflare een probleem heeft dat gevolgen heeft voor de consumentenapp van een grote bank, waardoor miljoenen mensen hun saldo niet kunnen controleren. Veerkrachttests moeten op deze problemen anticiperen en passende oplossingen bieden.
Maar de beste manier om een cultuur van veerkracht aan te moedigen is door ‘naar links te verschuiven’: het testen van veerkracht naar de pre-productiefase van softwareontwikkeling te verplaatsen, voordat code wordt ingezet.
Door naar links te verschuiven, kunnen teams zwakke punten ontdekken lang voordat klanten ze opmerken. Dit is belangrijk in de huidige complexe, onderling verbonden softwaresystemen, waar ogenschijnlijk kleine problemen snel kunnen uitmonden in grote verstoringen. In plaats van te worstelen met het diagnosticeren van problemen tijdens een live-evenement, kunnen ontwikkelaars deze in een veilige omgeving ontdekken en oplossen.
Naar links verschuiven kan ook geld en stress besparen. Het oplossen van veerkrachtproblemen in de productie is duur en ontwrichtend, waardoor teamleden vaak worden weggenomen van andere belangrijke taken. Door een proactieve aanpak te hanteren, kunnen ontwikkelaars en bedrijfsleiders meer vertrouwen hebben in de producten die zij aan klanten leveren.
Uiteindelijk is het testen van duurzaamheid geen rocket science. Bedrijven die brandoefeningen houden voor hun software en een cultuur omarmen waarin de veerkracht wordt getest, zullen in een sterkere positie verkeren wanneer de volgende verstoring zich voordoet. En in een steeds meer onderling verbonden wereld, waar AI-tools en -functies afhankelijk zijn van meer basisdiensten dan ooit tevoren, is het veilig om te zeggen dat dit waarschijnlijk eerder vroeger dan later zal gebeuren.
Jyoti Bansal is de CEO van Harnas.



