Hva sier forskningen?
Studien «Constraint Decay: The Fragility of LLM Agents in Backend Code Generation» (Dente, Satriani, Papotti — arXiv 2605.06445) testet AI-agenter på 100 oppgaver spredt over åtte web-rammeverk. Metodikken var enkel og brutal: hold API-kontrakten identisk, men øk de strukturelle kravene gradvis fra rent grøntmarksoppdrag til realistiske produksjonsoppgaver med eksisterende databaselag, ORM-integrasjoner og rammeverkskonvensjoner.
Resultatet:
Den viktigste enkeltfunnet: feilene skyldes primært datalags-defekter — feil i spørringskomposisjon og ORM runtime-brudd. AI-en klarer den funksjonelle logikken, men bryter mot det eksisterende systemets regler for hvordan data faktisk håndteres. I et demo-miljø finnes ikke disse reglene. I produksjon finnes de alltid.
Hva er «assertion pass rate»? Studien brukte end-to-end atferdstester kombinert med statisk analyse. «Assertion pass rate» er andelen tester der AI-en produserte kode som oppfylte alle krav — funksjonelt OG strukturelt. 30 pp fall betyr ikke at AI-en begynner å snakke tull. Det betyr at et system som bestod 8 av 10 tester i demo, bare består 5 av 10 i produksjon.
Rammeverket bestemmer mer enn modellen
Studien avdekket et mønster som burde bekymre alle som kjøper AI-agenter basert på benchmarks: ytelsen varierer dramatisk med rammeverket, ikke bare med modellen.
| Rammeverk-type | Karakteristikk | AI-ytelse |
|---|---|---|
| Flask (Python) | Minimalt, eksplisitt — du skriver det meste selv | Relativt stabil |
| FastAPI / Django | Konvensjonstungt — mange implisitte regler | Betydelig degradering |
| Eksisterende kodebase | Full produksjonskontekst med historisk gjeld | Størst fall |
De fleste norske bedrifter kjøper AI-agenter inn i det siste scenariet. Eksisterende systemer, eksisterende databaser, eksisterende kodekonvensjoner. Leverandørens benchmark ble kjørt i et ferskt demo-miljø. Gapet er strukturelt, ikke tilfeldig.
Cork Protocol: hva skjer når ingen sjekker løpende
Cork Protocol er et DeFi-protokoll støttet av a16z. I mai 2026 ble de hacket for 12 millioner dollar. Vektoren: en tilgangskontrollfeil i et sentralt smart contract-lag — en feil ingen av revisorene hadde funnet.
Og Cork hadde mange revisorer. Fem firmaer hadde gjennomgått systemet. Her er det som skjedde hos de to som stod i senterscenen:
- Sherlock (12-dagers konkurranse, 39 sikkerhetsforskere): fant 10 kritiske sårbarheter
- Cantina/Spearbit (22-dagers privat revisjon): fant 0 kritiske sårbarheter
Sherlock-CEO Jack Sanford gikk offentlig ut og stilte spørsmål om ansvarlighet. Cantina mangler commit-hasher fra sin revisjon. Spearbit har ikke publisert sin rapport. Hackerens on-chain meldinger pekte direkte på revisorenes manglende arbeid.
Det relevante poenget her er ikke krypto-drama. Det er dette: punkt-i-tid revisjoner av komplekse systemer fanger ikke alle feil. 22 dager med dedikerte sikkerhetsforskere fant ingenting i et system med en åpenbar tilgangskontrollfeil. Enten ble feilen introdusert etter revisjonen, eller revisjonen var utilstrekkelig. I begge tilfeller: løpende verifisering hadde endret utfallet.
Hva det betyr for din AI-implementasjon
Koblingen mellom Constraint Decay-studien og Cork Protocol-saken er den samme strukturelle svakheten: systemer som ser ut til å fungere, svikter under virkelige driftsbetingelser — og ingen oppdager det fordi ingen sjekker løpende.
For norske bedrifter som bruker AI i dag handler dette om tre konkrete risikoer:
1. Kundevendte AI-chatboter gir feil svar
En AI-assistent som ble testet i demo og klarte seg godt, opererer nå i et produksjonsmiljø med ekte kundedata, reelle bakkendsystemer og faktisk bedriftsinformasjon. Studien indikerer at ytelsen degraderer systematisk. Har du sjekket om den fortsatt gir riktige svar om produkter, priser og rutiner? Ikke i demo — i produksjon, mot de spørsmålene kundene faktisk stiller?
2. AI bruker feil informasjon om bedriften din
AI-søkemotorer som ChatGPT og Perplexity henter informasjon om virksomheten din fra nettet. Hvis nettsiden din mangler strukturerte data, er outdated, eller motsigende — vil AI-en presentere feil bilde. Det er ikke en engangsfeil: det er en løpende feilinformasjonsjobb mot alle som spør om bedriften din i en AI-assistent.
3. Engangsjekker hjelper ikke mot løpende degradering
Cork Protocol-saken viser at en revisjon — uansett hvor grundig — bare sier noe om tilstanden på ett tidspunkt. Systemer endres. Produksjonsmiljøer evolusjonerer. AI-modeller oppdateres. En SEO-audit fra 2024 hjelper ikke mot AI Mode i 2026. En AI-sjekk fra januar hjelper ikke mot det Google lærte i april.
Påliteligheten må verifiseres, ikke antas
Den praktiske konklusjonen fra begge disse tilfellene er den samme: det er ikke nok å implementere et AI-system og anta at det fungerer. Det må verifiseres løpende, mot virkelige produksjonsbetingelser, og med en standard som faktisk fanger feil.
For AEO — synlighet i AI-søk — betyr det å sjekke ikke bare om bedriften din er synlig, men om den er synlig riktig. At AI-en refererer til faktiske priser, faktiske tjenester og faktiske kontaktdetaljer. At strukturerte data stemmer med innholdet. At endringer i bedriften faktisk reflekteres i det AI-systemene sier om deg.
Synlig Digitals gratis AEO-sjekk er et startpunkt: den analyserer nettstedet ditt mot de kriteriene ChatGPT, Perplexity og Google AI bruker for å velge og verifisere kilder. Du ser om du har synlighetsmangler. Du ser om strukturerte data stemmer. Sjekk din AI-synlighet nå — 30 sekunder, ingen registrering.
Hva du kan gjøre nå
- Test AI-systemer under produksjonsbetingelser. Ikke i demo-miljøet. Bruk virkelige kundeforespørsler og verifiser at svarene er korrekte mot det systemet faktisk vet.
- Sett opp løpende overvåkning. Logg ikke bare om AI-en svarer — logg om den svarer riktig. Definer «riktig» konkret: riktig pris, riktig åpningstid, riktig prosedyre.
- Sjekk hva AI-søkemotorer sier om deg. Spør ChatGPT om bedriften din. Spør Perplexity. Sjekk om informasjonen er korrekt — og om strukturerte data på nettstedet støtter det riktige svaret.
- Ikke regn med at engangsjekker holder. Plan for revurdering etter hvert større system-skifte: ny AI-modell, nytt rammeverk, ny versjon av nettstedet.
Håkon Åmdal driver Synlig Digital fra Stavanger. Vi hjelper norske bedrifter bli synlige der kundene spør — i ChatGPT, Perplexity, Google AI og andre AI-assistenter.
Kilder
- Dente, Satriani, Papotti (2026): «Constraint Decay: The Fragility of LLM Agents in Backend Code Generation» — arXiv:2605.06445
- Protos.com (mai 2026): «'Sherlock missed it': Cork hacker slams audit firms in on-chain messages»
- Jack Sanford / Sherlock (X, mai 2026): «How Responsible are Spearbit and Cantina for Cork's $12M Hack?»
- Cork Protocol (2025–2026): Post-mortem og «Lessons Learned» — cork.tech/blog