En omstart løste problemene, men...
Derfor tok det 16 timer å gjenopprette normal drift da Skatteetatens systemer gikk ned i januar
På ettermiddagen den 21. januar gikk flere av Skatteetatens IT-systemer i knestående – til stor frustrasjon for regnskapsbransjen. Økonomi24 har fått tilgang til etatens «rotårsaksanalyse», som viser hva som gjorde feilsøkingen så krevende at den lammet kritiske tjenester i to tredjedels døgn.
For flere i regnskapsbransjen fremstod det som «den årlige runden med IT-trøbbel» i Skatteetaten da en lang rekke av etatens tjenester plutselig fikk trøbbel og ble utilgjengelige en onsdag i slutten av januar.
Mange husket at etaten hadde store problemer med sine IT-systemer også i januar i fjor, noe som skapte store utfordringer for den siste lønnskjøringen for 2024.
I år skyldtes imidlertid feilen noe ganske annet enn i fjor. Det viser rotårsaksanalysen etter hendelsen, som Skatteetaten nå har gitt Økonomi24 tilgang på.
Hittil ukjent programfeil i datautstyret
Klokken 15:25 den 21. januar ble det utført rutinemessig vedlikehold på de sentrale nettverkssvitsjene i Skatteetaten. Dette er kritiske knutepunkter for all datatrafikk inn og ut av etaten. Like etter begynte etatens overvåkingssystemer å varsle om feil, først på DNS-forespørsler og deretter på et økende antall tjenester.
Det viste seg senere at vedlikeholdsarbeidet hadde utløst en skjult og hittil ukjent programfeil i maskinvaren. Denne feilen førte til såkalt «pakketap», som i praksis betyr at store deler av datatrafikken rett og slett forsvant i nettverket, heller enn å bli sendt videre dit den skulle.
Selv om varslene kom raskt, var situasjonen forvirrende for etatens teknikere. Svitsjene er sentrale knutepunkter, noe som gjorde at pakketapet skapte ustabiliteter som artet seg forskjellig fra system til system. Dette gjorde feilsøkingen svært krevende, og etaten melder at det ikke var umiddelbart åpenbart at feilen lå isolert til selve nettverkssvitsjene.
Kompleks feilsøking i blinde
Etaten fulgte derfor normale prosedyrer og gjennomgikk samtlige sentrale komponenter for å finne rotårsaken. For brukerne – inkludert regnskapsførere som satt midt i innsendinger – betydde dette timer med usikkerhet og utilgjengelige publikumstjenester.
Først om morgenen den 22. januar ble det foreslått å restarte de sentrale svitsjene. Dette er et vanlig tiltak ved mistanke om minnefeil eller bufferfeil i maskinvare, men det er ikke et grep man tar lett på: En restart kan i seg selv medføre at funksjonelle tjenester ble helt utilgjengelige – dette er altså ikke som når du og jeg skrur laptoppen av og på igjen.
Strategien i slike situasjoner er derfor å forsøke å avdekke rotårsaken før man tyr til en fullstendig omstart av kritisk infrastruktur. Her tok imidlertid det for mye tid, så Skatteetatens Incident Response Team (IRT) måtte derfor veie behovet for en rask løsning opp mot de iboende risikoene.
De valgte å gjennomføre en restart, og deretter kunne IRT snart konkludere med at hovedproblemet var løst, og normal drift gjenopprettet.
Skal hindre at det skjer igjen
Skatteetaten understreker at de har etablert faste rutiner ved slike avvik, inkludert bruk av spesialiserte innsatsteam og etterarbeid når problemene er løst. Gjennom en såkalt «lesson learned»-prosess, som de alltid foretar når slike hendelser oppstår, prøver de å lære og eventuelt etablere kompenserende tiltak som kan bidra til å unngå tilsvarende situasjoner i framtida
For etaten ble hendelsen en påminnelse om sårbarheten i selv de mest rutinemessige vedlikeholdsoppgavene når ukjente «bugs» ligger gjemt i sentral infrastruktur.