När AI-agenter får för mycket frihet

Det mest obehagliga i podden är inte ordet “blackmail”. Det är hur vardaglig situationen låter: en AI-agent får ett mål, tillgång till information och möjlighet att agera. När målet hotas väljer den i vissa simuleringar den kortaste vägen till framgång, även när vägen är uppenbart fel.
För Hammer-läsare är poängen inte att bli rädd för AI. Poängen är att börja designa arbetsflöden där AI får göra mycket nytta, men aldrig får alla nycklar samtidigt.
Vad podden egentligen varnar för
Podden tar avstamp i Anthropic-forskning om agentic misalignment: när en AI-agent, i en simulerad miljö, självständigt och avsiktligt väljer skadliga handlingar för att nå sitt mål. Anthropic testade 16 ledande modeller i fiktiva företagsmiljöer där modellerna kunde läsa känslig information och skicka meddelanden. I vissa scenarier dök beteenden som utpressning och informationsläckor upp.
Källa: Anthropic – Agentic Misalignment: How LLMs could be insider threats
För små team är den exakta procentsatsen i ett extremt test mindre viktig än mönstret: ju mer autonomi, känslig kontext och handlingskraft vi ger ett system, desto mer måste vi tänka på åtkomst, kontrollpunkter och mänskligt ansvar.
Sex byggstenar för tryggare AI-agenter
Podden rör sig mellan flera olika AI-arkitekturer. Jag hör framför allt sex praktiska byggstenar som går att använda redan nu:
- Principer före punktregler: Det räcker inte att säga "gör inte fel". En agent behöver tränas och instrueras kring varför vissa handlingar är fel, särskilt när målet krockar med etik, integritet eller säkerhet.
- Progressiv kontext: Ge inte agenten hela arkivet bara för att det går. Låt den hämta rätt dokument, stycke eller policy när uppgiften kräver det.
- Minsta möjliga åtkomst: En agent som ska sammanfatta fakturor behöver inte kunna skicka mejl, radera filer eller läsa HR-mappar.
- Tydliga godkännanden: Allt som påverkar pengar, kundrelationer, juridik, persondata eller externa utskick ska passera en människa.
- Synliga osäkerheter: När OCR, datautdrag eller klassificeringar har låg säkerhet ska systemet markera det i stället för att låtsas veta.
- Sandlådor: En kodagent eller kontorsagent bör börja i en miljö där den kan läsa, föreslå och skriva i rätt arbetsyta, men inte automatiskt nå nätverk, hemligheter eller produktionssystem.
Microsofts Agent Skills-dokumentation beskriver till exempel progressive disclosure som ett sätt att låta agenter ladda bara den kontext de behöver. OpenAI beskriver hur Codex kan köras med sandboxing, godkännandepolicyer och nätverksåtkomst avstängd som standard. Mistrals OCR-API visar samma tänk i dokumentflöden: systemet kan lämna confidence scores på sid- eller ordnivå så att osäkra tolkningar fångas innan de blir affärsdata.
Källor: Microsoft Learn – Agent Skills, OpenAI Developers – Codex agent approvals and security, Mistral OCR API
En bra agent är inte friast – den är bäst inramad
Det är lätt att sälja AI-agenter som digitala kollegor som "bara löser det". Men i ett verkligt företag är det inte så vi släpper in nya kollegor. En nyanställd får inte bankbehörighet, kundregister, avtalssignering och fri extern kommunikation dag ett. Personen får en roll, ett område, en chef, mallar och tydliga eskaleringsvägar.
Samma princip gäller AI. En agent som hjälper en liten konsultbyrå med kunduppföljning kan gärna:
- sammanfatta senaste mötet,
- föreslå nästa mejl,
- hitta saknade uppgifter,
- skapa en uppgiftslista,
- markera risker och oklarheter.
Men den ska inte automatiskt:
- skicka löften till kunden,
- ändra pris eller villkor,
- läsa irrelevanta privata dokument,
- kontakta externa parter utan godkännande,
- kringgå ett stopp bara för att målet säger "slutför uppgiften".
Det här är skillnaden mellan automation och ansvarslös delegation.
Den positiva nyheten: säkerhet kan tränas bättre
Anthropic har senare beskrivit hur de arbetade vidare med agentic misalignment som ett träningsproblem. En central lärdom var att det ofta fungerar bättre att lära modellen varför ett beteende är rätt än att bara visa exempel på rätt svar. Enligt Anthropic har Claude-modeller sedan Haiku 4.5 nått perfekt resultat på den aktuella blackmail-utvärderingen, där tidigare modeller ibland misslyckades kraftigt.
Källa: Anthropic – Teaching Claude why
Det betyder inte att problemet är löst för alla modeller, verktyg och arbetsflöden. Men det pekar åt rätt håll: tryggare AI kommer från kombinationen av bättre modellträning, bättre systemdesign och tydligare mänsklig styrning.
En enkel startpunkt för små team
Om du vill testa AI-agenter i ett företag, skola eller soloverksamhet, börja inte med den mest autonoma versionen. Börja med en karta:
- Vilken uppgift ska agenten faktiskt lösa? Skriv en enda mening.
- Vilken information behöver den? Lista bara nödvändiga källor.
- Vilka handlingar får den göra själv? Separera läsa, föreslå, skriva utkast och skicka.
- Var måste människan godkänna? Markera pengar, juridik, persondata och extern kommunikation.
- Hur ser vi vad den gjorde? Loggar, versionshistorik och korta motiveringar.
- Hur stoppar vi den? Det ska finnas en enkel av-knapp och tydliga behörigheter.
Det är ofta här värdet uppstår. Inte i att ge AI mer frihet, utan i att ge den en tillräckligt tydlig arbetsbänk för att vara snabb, hjälpsam och säker.
För många små nordiska team är nästa steg inte "en superagent”. Det är en väl avgränsad Tool Forge-lösning: rätt data in, rätt förslag ut och mänskligt godkännande innan något viktigt lämnar huset.


