Testa AI-agenten med verkliga arbetsflöden innan ni byter modell

Adam Olofsson HammareAdam Olofsson Hammare
Testa AI-agenten med verkliga arbetsflöden innan ni byter modell

Att byta AI-modell är ofta farligt enkelt. Någon ändrar ett modellnamn, slår på ett nytt agentverktyg eller låter assistenten skriva direkt i ett system som tidigare krävde mänsklig handpåläggning. Först märks inget. Sedan dyker de konstiga felen upp: fel ton i kundsvaret, missad eskalering, ett verktygsanrop som borde ha pausats för godkännande, eller en process som blir dyr för att agenten försöker igen och igen.

OpenAI publicerade den 16 juni en forskningspost om deployment simulation: att testa en kandidatmodell på verklighetsnära, avidentifierade arbetsflöden innan den släpps. Hammer Automation behöver inte kopiera OpenAI:s skala. Poängen för vanliga organisationer är enklare: innan AI får mer ansvar bör ni låta den repetera på era egna fall, i en miljö där ett dåligt svar inte skadar någon.

Vad OpenAI egentligen testade

Deployment simulation betyder att man tar tidigare konversationer, tar bort det gamla AI-svaret och låter en ny kandidatmodell svara på samma kontext. Sedan granskas svaren mot definierade felkategorier. OpenAI skriver att metoden användes på GPT-5-seriens Thinking-modeller, med cirka 1,3 miljoner avidentifierade konversationer från perioden augusti 2025 till mars 2026, 20 typer av oönskat beteende och även agentiska verktygsscenarier.

Det viktiga är inte siffran. Det viktiga är sättet att tänka. Vanliga benchmarktester visar ofta hur modellen beter sig på provfrågor. Deployment simulation försöker visa hur den beter sig i den trafik och de arbetsflöden som faktiskt väntar efter release. OpenAI lyfter också att metoden kunde hitta nya problem, bland annat calculator hacking, innan modellen släpptes.

Källa: OpenAI, Predicting model behavior before release by simulating deployment och forsknings-PDF

Gör en liten testrepetition istället

En mindre organisation behöver inte en forskningsplattform. En repetitionsyta räcker långt. Välj några riktiga arbetsflöden där AI redan används eller snart ska användas: kundmejl, intern policyfråga, elevstöd, offertutkast, ärendesammanfattning, fakturakontroll eller kodändring i ett icke-kritiskt repo.

Börja så här:

  • Välj 20 till 50 representativa fall. Ta hellre vardagliga ärenden än spektakulära edge cases.
  • Ta bort personuppgifter, kundnamn, interna ID:n och känsliga detaljer innan ni testar.
  • Skriv felkategorierna i förväg: fel råd, dataläckage, dålig ton, missad eskalering, fel verktygsanrop, för hög kostnad eller otydlig källa.
  • Kör den nya modellen eller agenten i spegelläge. Den får svara, men svaret går inte till kund, elev, kollega eller system.
  • Låt en människa granska svaren med samma enkla mall varje gång.
  • Bestäm stoppregel innan testet börjar. Om tre av fem kritiska fall blir fel ska uppdateringen inte gå vidare den dagen.

Det här låter tråkigare än en demo. Bra. Produktion ska vara tråkigare än en demo.

Testet måste också mäta drift, inte bara svarskvalitet

En AI-agent kan skriva ett bra svar och ändå vara fel verktyg för arbetsflödet. Därför ska testrepetitionen fånga mer än textkvalitet. Logga vad agenten försökte göra, vilka verktyg den ville använda, vad den bad om godkännande för, hur lång tid den tog, vad det kostade och om den fastnade.

Det här blev extra tydligt samma vecka. Claude hade den 16 juni ett statuskluster där Sonnet- och Opus-modeller påverkades i en fas, följt av Opus 4.8-specifika fel. Anthropic angav ungefär 10 procents felgrad under delar av incidenten och listade påverkan på claude.ai, Claude API, Claude Code och Claude Cowork. Det är inte samma sak som att alla AI-system är nere. Det är en modell- och komponentfråga som kräver rätt fallback.

Källa: Claude Status, Elevated errors across many models och Claude Status, Elevated errors for Claude Opus 4.8

Stoppregler som faktiskt hjälper

Skriv stoppreglerna på svenska, inte som en teknisk policy ingen läser. Exempel:

  • AI får inte skicka kundkommunikation om källan saknas eller tonen behöver mänsklig bedömning.
  • AI får inte radera, publicera, betala, boka eller ge systemåtkomst utan separat godkännande.
  • En ny modell får inte aktiveras i ett kritiskt flöde samma dag som leverantören har pågående kapacitets- eller modellincident.
  • Om agenten missar eskalering i testfall som rör klagomål, persondata eller säkerhet pausas utrullningen.
  • Om kostnaden per körning blir mer än dubbelt så hög som väntat krävs ny budgetägare innan nästa steg.

Det är här Tool Forge brukar börja bli konkret: inte med en snygg agentdemo, utan med rätt behörighet, loggning, fallback och ägarskap runt det som redan händer i verksamheten.

En bra första vecka

Välj ett enda arbetsflöde. Inte hela organisationen. Ta 30 gamla exempel, avidentifiera dem och kör den nya modellen eller agenten i spegelläge. Låt två personer granska resultaten: en som äger processen och en som förstår verktyget. Spara besluten i en enkel logg: fall, förväntat beteende, faktiskt beteende, felkategori, kostnad, godkännanden och beslut.

Efter det vet ni mer än efter ännu en säljdemo. Ni vet om AI:n klarar era vanliga fall. Ni vet var människan måste stoppa den. Och ni vet om nästa steg är utrullning, omskolning av rutinen eller ett lugnt nej tills verktyget är redo.

Vanliga frågor

Vad är deployment simulation?

Att testa en ny AI-modell eller agent mot representativa, avidentifierade arbetsflöden innan den släpps i produktion.

Måste en mindre organisation göra detta lika avancerat som OpenAI?

Nej. Börja med 20 till 50 typiska fall, tydliga felkategorier, mänsklig granskning och en enkel stoppregel.

Vilka risker ska mätas?

Fel råd, dataläckage, felaktiga verktygsanrop, oönskad ton, missad eskalering, kostnad och avbrott vid leverantörsincidenter.

När ska en AI-uppdatering stoppas?

När testet visar oacceptabla fel i kritiska ärenden, saknar fallback, eller kräver behörigheter som organisationen inte har godkänt.

Smedjans nyhetsbrev

Få nya artiklar i inkorgen

Välj de ämnen som intresserar dig. Inget brus, max ett mejl i veckan.

Få nya artiklar i inkorgen

Vi följer GDPR. Avsluta när du vill.