February 4, 2019

Hoe kun je downtime voorkomen? 6 tips

In het moderne digitale tijdperk hebben bedrijven steeds meer behoefte aan een betrouwbare en solide IT-omgeving. Het zoveel mogelijk voorkomen of op zijn minst tot een minimum beperken van downtime is dan ook een absolute topprioriteit voor de meeste moderne organisaties. Waarom is downtime uiteindelijk zo schadelijk voor een bedrijf? Wat zijn veelvoorkomende oorzaken voor het probleem? En welke mogelijkheden zijn voorhanden om downtime zoveel mogelijk uit te bannen? In dit blogartikel leggen we het haarfijn uit.

Waarom is downtime zo schadelijk voor je organisatie?

In een technocratische samenleving zoals de onze, waarin burgers, bedrijven, overheden en non-gouvernementele organisaties (ngo’s) allemaal in sterke mate afhankelijk zijn van soepel functionerende IT-omgevingen, is downtime een zeer onwelkom en potentieel systeemontwrichtend fenomeen. Tijd om een blik te werpen op de belangrijkste problemen die gepaard gaan met downtime.

● Downtime is een van de belangrijkste veroorzakers van gegevensverlies. Defecte harde schijven vormen bijvoorbeeld nog steeds de hoofdoorzaak voor het verliezen van data, zo blijkt uit een wereldwijd onderzoek. Maar ook de voortschrijdende virtualisatie heeft een keerzijde: het is gemakkelijker dan ooit om onbedoeld en met een paar muisklikken drives en bestanden te wissen.

● Downtime leidt tot stilstand. Het doorvoeren van nieuwe en kansrijke toepassingen binnen jouw IT-infrastructuur loopt vertraging op. Hetzelfde geldt voor zaken als het optimaliseren of gebruiksklaar maken van klantvriendelijke applicaties en technieken.

● Downtime kost geld. Data recovery is bijvoorbeeld een kostbaar proces dat op financieel vlak flink in de papieren kan lopen. Daarnaast ben je veel tijd kwijt aan het afhandelen van klachten als jouw IT-infrastructuur om de haverklap platligt.

Download hier de whitepaper: RTO en RPO toepassingen voor maximale continuïteit.

Oorzaken voor downtime

Er zijn in de praktijk diverse oorzaken die ten grondslag kunnen liggen aan downtime. Hieronder vind je een overzicht van de vaakst voorkomende problemen.

● Defecte harde schijven zijn binnen on-premisesomgevingen nog altijd een veelvoorkomend probleem.

● Verkeerde of ontoereikende hosting kan ook leiden tot het veelvuldig optreden van downtime. Als je bijvoorbeeld een zware website laat draaien op een structuur die uitgaat van shared hosting, neemt de kans op downtime significant toe. Je deelt de resources en servercapaciteit immers met andere gebruikers. Als je hoge eisen stelt aan de webhosting van jouw website is een VPS (virtual private server) een betere en meer betrouwbare hostingoptie. Wel duurder, maar ook veiliger.

● Menselijke fouten kunnen downtime veroorzaken. Denk bijvoorbeeld aan zaken als een op het eerste gezicht triviale codewijziging, een systeem dat offline wordt gehaald, een kapitale tikfout of een DNS-entry die niet op de juiste manier wordt geüpdatet.

● Ook versleten, defecte of verouderde apparatuur kan de oorzaak van veel downtime-ellende zijn. Computers, harde schijven en servers hebben nu eenmaal niet het eeuwige leven. Een grootschalige storing die in 2010 de Europese tak van e-commercegigant Amazon trof, werd bijvoorbeeld veroorzaakt door een hardwaredefect in een Amazon-datacenter.

● Ook hacks zijn vandaag de dag een serieuze bedreiging voor de IT-continuïteit van bedrijven, vooral ook omdat de cybercriminelen hun werkwijzen constant verfijnen. De ddos-aanval is bijvoorbeeld een beproefd middel dat al heel wat bedrijven heeft opgezadeld met veel downtime en de bijbehorende kosten of reputatieschade. Een ddos-aanval bestookt een server met requests. De requests komen gelijktijdig en herhaaldelijk vanaf meerdere locaties binnen, waardoor de aangevallen webservers overbelast raken en een site uiteindelijk op zwart gaat.

‍

Hoe voorkom je downtime en beperk je de risico’s?

Gelukkig zijn er wel verschillende manieren en tools die je helpen om downtime te beperken, terwijl het ook mogelijk is om de risico’s in te dammen die gepaard gaan met downtime. Hieronder vind je een overzicht van de belangrijkste aanbevelingen, tips en tricks.

1. Risico’s in kaart brengen

Het voorkomen van downtime begint met het in kaart brengen van de risico’s hierop. Hierbij moet je eerst kijken naar de impact van en de kans op een calamiteit. Het is verstandig om daarbij het vizier niet louter op de financiële schade te richten, maar ook rekening te houden met factoren als eventuele reputatieschade, productieverlies van de medewerkers of andere belanghebbenden, mogelijke juridische gevolgen en het effect op de strategische doelstellingen van jouw organisatie. Een globale risicoanalyse helpt je ook om te bepalen of er binnen de IT-structuur en organisatie sprake is van een single point of failure (SPOF) of meerdere risicofactoren.

2. Recovery Time Objective (RTO) en Recovery Point Objective (RPO)

Recovery Time Objective (RTO) en Recovery Point Objective (RPO) zijn twee sleutelbegrippen bij het bepalen van de IT-continuïteit binnen een organisatie. RTO is een tijdseenheid die in het geval van downtime aangeeft hoe lang het duurt voordat de IT-omgeving met de desbetreffende applicatie weer volledig functioneert. Een RTO van drie uur garandeert bijvoorbeeld dat een applicatie of website in het meest extreme geval hooguit drie uur offline is.

RPO richt zich vooral op de impact die een bepaalde periode van downtime op de IT-continuïteit van een organisatie heeft. Uitgangspunt is de hoeveelheid informatie die door het incident verloren gaat. Voor het weergeven van de RPO worden ook tijdseenheden gebruikt. Een RPO van vier uur houdt in dat in het ongunstigste geval alleen de gegevens die verwerkt werden in de laatste vier uur voorafgaand aan het moment van uitval verloren gaan. Alle data die voor dat moment verwerkt werden, blijven behouden.

Het opstellen en bewaken van een RTO en RPO maakt het gemakkelijker om het belang van continue beschikbaarheid voor jouw organisatie goed in te schatten. De twee begrippen richten zich niet zozeer op de technische oplossingen tegen downtime, maar beantwoorden vooral een cruciale praktische vraag: “Hoeveel productiedagen of -uren mogen er verloren gaan voordat de bedrijfscontinuïteit serieus in het gedrang komt?” Door de RTO en RPO te meten, weet je of de bestaande risico’s voor jouw bedrijfsvoering acceptabel zijn of dat er maatregelen genomen moeten worden om de schadelijke gevolgen van downtime verder te beperken.

3. Welke onderdelen zijn gevoelig voor downtime?

Om downtime zoveel mogelijk te voorkomen en de gevolgen ervan binnen de perken te houden, is het ook belangrijk om de diverse onderdelen van het IT-netwerk goed tegen het licht te houden. Welke onderdelen zijn extra gevoelig voor downtime? In de praktijk hebben problemen met downtime vooral betrekking op de serverruimte of storage.

Een goed medicijn tegen downtime is het ‘dubbel uitvoeren’ van IT-omgevingen. Door IT-onderdelen als switches, servers en internetverbindingen dubbel uit te voeren, wordt voorkomen dat defecten uitmonden in calamiteiten die een lange downtime teweegbrengen. Door regelmatig back-ups (offsite en/of colocatie met offsite en uitwijk) uit te voeren, scherp je ook jouw databescherming aan en wordt de kans kleiner dat belangrijke gegevens verloren gaan of op straat belanden.

4. Cloud-first en thuiswerken

Je kunt de gevolgen van downtime ook beperken door een on-premises netwerk helemaal of gedeeltelijk te verruilen voor de cloud. Problemen met het IT-netwerk binnen de kantoormuren hebben zo minder gevolgen voor de IT-continuïteit dan wanneer je volledig op on-premises bent ingesteld. De cloud geeft medewerkers namelijk ook thuis gewoon toegang tot belangrijke data en documenten, terwijl de kans op gegevensverlies ook afneemt.

De bekende 3-2-1-regel is een extra slot op de deur tegen dataverlies als je toch getroffen wordt door langdurige downtime. Bewaar om risico’s te spreiden altijd drie back-ups van je belangrijke gegevens. Sla deze back-ups vervolgens op twee verschillende media op, bijvoorbeeld op een computer en een externe harde schijf. En bewaar de back-ups tot slot altijd op minimaal één andere locatie dan de plek waar jouw productiedata zich bevindt. Denk bijvoorbeeld aan een cloudaanbieder of een remote-locatie.

5. Vooruitwerken en processen vastleggen

Het is ook belangrijk dat mensen binnen je organisatie goed weten wat de gevolgen zijn van downtime, systeemstoringen, dataverlies of haperende CRM- en betalingssystemen. Door belangrijke processen vast te leggen en ervoor te zorgen dat iedere medewerker de contactgegevens van je hoster, IT-reseller en supportservice heeft, kun je bij downtime kostbare tijd besparen en de schade aanzienlijk beperken in het geval van dataverlies.

6. Instant recovery en zero downtime backup bij downtime

Instant recovery houdt in dat een virtuele machine de productieomgeving overneemt als er sprake is van langdurige downtime. IT-providers gebruiken hiervoor een back-upbestand dat de virtuele machine direct terugzet naar de productieomgeving. Door deze techniek hoef je niet langer uren of zelfs dagen te wachten voordat je de draad weer kunt oppakken.

In het geval van zero downtime backup (ZDB) wordt een kopie of replica (split mirror of snapshot) van de data gecreëerd of onderhouden op een disk-array. Dit gebeurt razendsnel en heeft weinig tot geen impact op de snelheid van een applicatie. De replica of kopie fungeert als een back-up die direct kan worden ingezet in het geval van downtime.

Conclusie: een strategische aanpak beperkt de gevolgen van downtime

Downtime is voor bedrijven een potentieel disruptief fenomeen. Door het nemen van de juiste maatregelen kun je de kans op en de gevolgen van downtime serieus beperken, zodat de bedrijfscontinuïteit toch gewaarborgd blijft. Begin met het maken van een risicoanalyse. Wat zijn de belangrijkste risicofactoren binnen het IT-netwerk? En hoe zit het met mijn RPO- en RTO-waarden? Door vervolgens maatregelen zoals cloud-first, het maken van goede back-ups en het vastleggen van processen toe te passen, beperk je de gevolgen van downtime verder.

Overig

Deel deze post

Ronald Kers

Ronald behoort tot de harde kern die meer dan 10 jaar in dienst is bij ACC ICT. Als contentmarketeer schrijft Ronald graag over technologische ontwikkelingen binnen de IT-branche. Met een achtergrond als system administrator weet hij als geen ander complexe materie in begrijpelijke taal uit te leggen.