Britiske FRC varsler strengere krav til bruk av AI i revisjon
I en ny veiledning slår FRC fast at selv om generativ og agentisk AI kan løfte revisjonskvaliteten, vil de samtidig advarer mot sviktende output, feil bruk av output og metodikk som ikke oppfyller revisjonsstandardene.
Spørsmålet er ikke lenger bare hvilke oppgaver AI kan løse i revisjon, men hvordan revisjonshusene skal sikre at verktøyene ikke svekker revisjonskvalitet, metodikk og profesjonsansvar. Like før påske kom den britiske tilsynsmyndigheten Financial Reporting Council, FRC, med en ny veiledning.
FRC «støtter innovasjon og hensiktsmessig bruk av kunstig intelligens for å fremme høy revisjonskvalitet, vekst i britisk økonomi og allmennhetens interesse». Samtidig advarer det om at teknologien også «innebærer risiko for revisjonskvaliteten». Sertifisering, styring, opplæring og menneskelig kontroll pekes ut som nødvendige premisser for forsvarlig AI-bruk.
Veiledningen er dessuten rettet mot «de sentrale tekniske teamene i revisjonsfirmaer som har ansvar for utvikling av generative og/eller agentiske AI-verktøy og tilhørende metodikk». Guiden er altså ikke en praktisk brukerveiledning for hver enkelt oppdragsansvarlig revisor, men et styringsdokument for dem som bygger, tester og ruller ut AI-løsninger i revisjonsmiljøene.
Les også: Slik jobber Deloitte i Norge med kunstig intelligens i revisjon
... Og: - KI gjør PwC i Norge til en mer attraktiv arbeidsgiver
Tre hovedrisikoer
FRC deler risikoen ved bruk av generativ og agentisk AI i revisjon i tre hovedkategorier: Risiko for mangelfullt output, risiko for feil bruk av output og risiko for en metodikk som ikke er i samsvar med revisjonsstandardene. Det siste punktet er trolig det mest alvorlige signalet til bransjen, fordi FRC her flytter oppmerksomheten fra enkeltverktøy til selve revisjonsmodellen.
FRC skriver at generativ og agentisk AI «muliggjør mange nye former for revisjonshandlinger», men at det krever «betydelig profesjonelt skjønn» å innarbeide slike løsninger på en måte som oppfyller revisjonsstandardene. Videre advarer rådet om at firmaenes metodikk kan «tillate tilnærminger som, når de inkluderer bruk av AI-verktøyet, ikke oppfyller revisjonsstandardene» selv når outputet er egnet og brukes slik metodikken legger opp til.
For partnere, fagavdelinger og kvalitetsansvarlige i revisjonshusene er det ikke nok at et AI-verktøy virker plausibelt eller effektivt. Også måten verktøyet bygges inn i metodikken på, må tåle FRCs tilsyn.
Fem konkrete former for AI-svikt
FRC bryter ned svikt i LLM-output i fem konkrete kategorier. Disse er «hallusinasjoner», «utelatelser», «distorsjoner», «feilaktig resonnering» og «inkonsistenser». Med andre ord: Informasjon som er diktet opp, informasjon som mangler, meningsforskyvninger, ulogiske konklusjoner og svar som ikke henger sammen internt eller over tid.
FRC forklarer dette med at store språkmodeller genererer tekst ved å gjenkjenne og gjenskape statistiske mønstre i språk, «uten reell forståelse av mening, kontekst eller logikk». Derfor kan output fremstå sammenhengende og overbevisende, samtidig som det fordreier mening, misforstår kontekst eller bygger på usunn logikk.
Slike feil må fortsatt fanges opp med mer tradisjonell kvalitetskontroll, gjennomgang og metodikk.
Særskilt advarsel om agentisk AI
FRC bruker betydelig plass på agentiske systemer, altså AI-løsninger som kan koordinere flere steg og utføre oppgaver mot et mål med en viss grad av autonomi. Det avgjørende særtrekket er, ifølge veiledningen, at systemet har evne til å «forfølge et mål uavhengig over flere steg, potensielt med en viss grad av autonomi til å bestemme hvordan dette skal gjøres, uten steg-for-steg-instruksjon fra et menneske».
Her er tonen merkbart skarpere enn i mye av den generelle GenAI-debatten. FRC går grundig inn i risikoer knyttet til målforståelse, arbeidsprogram, integrasjon av deloutput og styring av iterasjoner. Dokumentet advarer blant annet mot at små feil kan forsterkes når de behandles videre i systemet. Veiledningen omtaler dette som «amplification risk», altså risikoen for at «hver for seg ubetydelige feil eller skjevheter» blir forstørret når de prosesseres videre av andre komponenter, slik at sluttresultatet får vesentlige mangler.
Med andre ord: Jo mer autonomi som bygges inn, desto større blir kravet til kontrollpunkter, autorisasjon og menneskelig overprøving.
Sertifisering må skje i kontekst
En av de viktigste presiseringene i veiledningen er at AI ikke fremstilles som et produkt man bare tar i bruk, men som en del av et kvalitetsstyringssystem. FRC kobler dette direkte til ISQM (UK) 1 og legger til grunn at firmaene må designe, implementere og drifte kvalitetsstyringssystemer som gir rimelig sikkerhet for at oppdrag gjennomføres i samsvar med profesjonsstandardene.
Sertifisering må normalt gjøres for «et AI-verktøy i konteksten av et bruksområde», sier FRC. For eksempel: Et verktøy som fungerer godt til oppsummering av styreprotokoller, er ikke dermed sertifisert for kontraktsanalyse, risikovurdering eller annen bruk.
Veiledningen peker på fire hovedformer for risikoreduserende tiltak: Systemdesign og utvikling, sertifisering, opplæring og styring, samt menneskelig gjennomgang og tilsyn. FRC skriver at risikoen for mangelfullt output kan reduseres ved å «designe og utvikle systemet på en måte som er tilpasset den tiltenkte bruken», «utsette verktøyet for en robust sertifiseringsprosess», «utstyre dem som bruker verktøyet med riktig kunnskap» og gjennom «menneskelig gjennomgang og/eller tilsyn med output og drift».
Litt enkelt sagt: AI-styring handler ikke bare om modellvalg og promptkvalitet, men om kontrollregime, testing og avgrensning av brukstilfeller.
Profesjonelt skjønn kan ikke outsources
FRC understreker også at graden av tillit som kan legges i AI-output alltid er et spørsmål om profesjonelt skjønn. Veiledningen sier at det «er et spørsmål om profesjonelt skjønn for hvert bruksområde hvor stor tillit til kvaliteten på output det er riktig å oppnå, og hvordan denne tilliten oppnås».
Det betyr i praksis at revisjonshusene selv må kunne begrunne hvorfor et verktøy brukes, hvor godt det er testet, hvilke begrensninger det har og hvilken menneskelig kontroll som kompenserer for gjenværende risiko. Ansvaret kan ikke skyves over på leverandøren eller modellen.
Advarer også mot feil bruk av korrekt output
FRC er tydelig på at risikoen ikke bare ligger i at et AI-system kan ta feil. Også korrekt output kan bli misbrukt dersom revisjonsteamet misforstår rekkevidden eller metodisk betydning av resultatet.
Veiledningen beskriver «feiltolkning av output» som risikoen for at mening, omfang, begrensninger eller sikkerhetsnivå i et AI-resultat blir misforstått av revisjonsteamet. Den peker også på «misforståelse av metodikk» som en egen risiko, altså at revisor ikke forstår hvordan output skal brukes innenfor revisjonsmetodikken.
God AI-styring handler ikke bare om å redusere tekniske feil; FRC sier at selv et korrekt svar kan føre til svak revisjon hvis brukerne overvurderer rekkevidden, misforstår sikkerhetsnivået eller dropper nødvendige tilleggsprosedyrer.
Les også: Slik jobber Deloitte i Norge med kunstig intelligens i revisjon
... Og: - KI gjør PwC i Norge til en mer attraktiv arbeidsgiver
Flere artikler om revisjonsbransjen i Økonomi24
-
To av tre revisorer i Norge driver overrevisjon i frykt for sanksjoner
-
– Mange CFOer i PE-selskaper prioriterer feil, og risikerer å miste verdier før exit
-
Etter «Atkins-dietten» i USA kommer «evolusjonen» i UK
-
Grant Thornton Sverige satser i Norge
-
PwCs USA-sjef stiller ultimatum til partnere som somler med å kaste seg på AI-bølgen
-
Beyond budgeting: En praktisk tilnærming for CFO og økonomifunksjonen