AI Enablement Radar vecka 21: agentarbete behöver kvitto

Adam Olofsson HammareAdam Olofsson Hammare
AI Enablement Radar vecka 21: agentarbete behöver kvitto

Den tydligaste signalen den här veckan är enkel: AI flyttar från fritt chattande till arbetsflöden där någon måste kunna se vad som hände. KPMG ger Claude till fler än 276 000 medarbetare, GitHub låter Copilot-agenten ta hand om kodgranskningsåtgärder, OpenAI Codex får längre målläge, och säkerhetsmodeller hittar sårbarheter i en takt som gör verifiering och patchning till flaskhalsen. För ett nordiskt småteam betyder det inte att allt ska kopplas in på måndag. Det betyder att nästa AI-test bör ha källkvitto, tydliga behörigheter och en människa som godkänner resultatet.

Toppsignaler denna vecka

  • KPMG rullar ut Claude brett. Anthropic och KPMG meddelade en global allians där Claude integreras i KPMG:s Digital Gateway och görs tillgänglig för fler än 276 000 medarbetare i 138 länder och territorier. Det är ett tydligt exempel på AI som byggs in i befintliga klient- och kunskapsplattformar, inte bara läggs ovanpå som en separat chatt.

Källa: Anthropic, KPMG integrates Claude across its core business and workforce of more than 276,000

  • AI-agenter behöver bättre kontaktytor. Anthropic köper Stainless, ett bolag som bygger SDK:er, CLI:er och MCP-servrar. MCP, Model Context Protocol, är ett sätt att låta AI-agenter ansluta till verktyg och datakällor med tydligare gränssnitt. Det här säger något viktigt: värdet ligger allt oftare i hur agenten når rätt system, inte bara i modellen.

Källa: Anthropic, Anthropic acquires Stainless

  • Kodagenter får mer ansvar, men också mer revisionsyta. GitHub har lagt till ett REST-API för att granska Copilot cloud agent-konfiguration per repository, inklusive MCP-servrar, aktiverade verktyg, GitHub Actions-policy och brandväggskonfiguration. Samma vecka blev Copilot-flödet för kodgranskningsfeedback mer explicit med val för var ändringen ska hamna, vilken modell som används och vilka instruktioner agenten får.

Källa: GitHub Changelog, Audit repository Copilot cloud agent configuration via the REST API

Källa: GitHub Changelog, Easily apply Copilot code review feedback with Copilot cloud agent

  • OpenAI Codex går mot längre agentjobb. Codex changelog för 21 maj visar Appshots på macOS, Goal Mode som GA och fjärrstyrd datoranvändning. Goal Mode är särskilt relevant: agenten kan arbeta mot ett mål under timmar eller dagar. Det gör startinstruktion, avgränsning och efterkontroll mycket viktigare än en snygg prompt.

Källa: OpenAI Developers, Codex changelog

  • Säkerhetsflödet blir en patchkö. Anthropic rapporterar att Project Glasswing och Claude Mythos Preview har hittat fler än 10 000 sårbarheter med hög eller kritisk allvarlighetsgrad tillsammans med omkring 50 partner. Cloudflare hittade 2 000 buggar, varav 400 med hög eller kritisk allvarlighet. Den nya flaskhalsen är inte bara att hitta fel, utan att verifiera, rapportera och patcha dem.

Källa: Anthropic Research, Project Glasswing: An initial update

Vad företag faktiskt gör med AI

KPMG-signalen är värd att stanna vid. Digital Gateway är byggt på Microsoft Azure och används i klientarbete inom skatter, juridik, private equity, cybersäkerhet och modernisering av affärsfunktioner. Det är inte en liten sidopilot. Det är AI i ett arbetslager där data, verktyg, ansvar och kundarbete redan möts.

Källa: Anthropic, KPMG integrates Claude across its core business and workforce of more than 276,000

PwC:s nyliga Anthropic-samarbete pekar åt samma håll. PwC ska träna och certifiera 30 000 personer på Claude, bygga ett gemensamt Center of Excellence och använda Claude Code och Claude Cowork i bland annat underwriting, cybersäkerhet, HR och modernisering av mainframe-system. I ett exempel säger Anthropic att försäkringsunderwriting som tog 10 veckor nu tar 10 dagar. Sådana siffror är lätta att stirra sig blind på, men den praktiska lärdomen är enklare: mät ett verkligt ledtidsmått före och efter AI, annars vet ingen vad som faktiskt blev bättre.

Källa: Anthropic, PwC is deploying Claude to build technology, execute deals, and reinvent enterprise functions for clients

Databricks rapport om AI-agenter ger mer bredd. Den bygger på insikter från fler än 20 000 globala organisationer och visar att organisationer med AI-governance-verktyg får 12 gånger fler AI-projekt i produktion. De som använder evalueringsverktyg får nästan 6 gånger fler AI-system i produktion. Evals betyder återkommande tester av AI-svar mot exempel, regler och kvalitetskrav. För små team kan det vara så enkelt som 20 gamla ärenden med facit och en poängsatt granskning.

Källa: Databricks, Enterprise AI Agent Trends

Google Clouds agentrapport ger konkreta exempel på vad agentflöden används till. Telus uppges ha fler än 57 000 AI-användande teammedlemmar och spara 40 minuter per AI-interaktion. Danfoss automatiserar enligt Google 80 procent av transaktionella beslut i e-postbaserad orderhantering och har minskat svarstiden från 42 timmar till nästan realtid. För en liten verksamhet är mönstret viktigare än storleken: välj ett återkommande ärende, definiera vad AI får föreslå och låt en människa godkänna innan något skickas.

Källa: Google Cloud, 5 ways AI agents will transform the way we work in 2026

Verktygslagret: plattformar, agenter och arbetsflöden

Ett agentiskt arbetsflöde är ett flerstegsflöde där AI inte bara skriver ett svar, utan planerar, hämtar underlag, använder verktyg och föreslår eller utför nästa steg. Veckans verktygsnyheter handlar mindre om magi och mer om kontrollpunkter.

GitHub-exemplet är bra eftersom det visar två sidor av samma sak. Copilot cloud agent kan ta kodgranskningsfeedback och göra ändringar, men GitHub lägger också till granskning av agentens konfiguration: vilka MCP-servrar som finns, vilka verktyg som är aktiva, vilken Actions-policy som gäller och hur brandväggen ser ut. Om du översätter detta till en icke-teknisk verksamhet blir frågan: vilka system får AI läsa, vilka får den skriva till, och var hamnar loggen?

Källa: GitHub Changelog, Audit repository Copilot cloud agent configuration via the REST API

OpenAI Codex utvecklas åt samma håll. Appshots skickar kontext från den främsta macOS-rutan till Codex, och Goal Mode gör det möjligt att låta agenten arbeta längre. Det kan bli användbart även utanför kodvärlden: tänk offertgenomgång, dokumentrensning eller en intern kunskapsbas. Men ju längre jobbet pågår, desto mer behövs en startbrief, en stoppregel och en slutrapport som en människa kan läsa.

Källa: OpenAI Developers, Codex changelog

GitHubs npm-nyhet är också relevant utanför utveckling. Staged publishing gör att ett paket först hamnar i en kö och måste godkännas med 2FA innan det blir installerbart. De nya installationsflaggorna kan begränsa paket från fil, fjärr-URL, katalog och git-källa. Mönstret är värt att kopiera: låt automation förbereda arbetet, men lägg in en mänsklig godkännandepunkt innan något når produktion, kund eller elev.

Källa: GitHub Changelog, Staged publishing and new install-time controls for npm

Styrning och risk: vad som behöver sättas innan skala

AI-governance är de regler, roller och kontroller som gör att AI används på ett spårbart och ansvarsfullt sätt. Det behöver inte börja som ett stort policydokument. Det kan börja med fyra frågor på en sida: vad får AI läsa, vad får AI föreslå, vem godkänner, och var sparas källkvitto och beslut?

EU:s AI Act har en riskbaserad modell med förbjudna användningar, högriskanvändningar, transparensrisker och minimal risk. Den är särskilt viktig för skola, rekrytering, kredit, välfärd, arbetsledning och andra områden där automatiserade beslut kan påverka människor. Små verksamheter behöver inte låtsas vara storbolag, men de bör kunna visa varför ett AI-flöde är lågrisk eller vilka kontroller som finns om det rör känsligare beslut.

Källa: European Commission, AI Act

Kommissionens riktlinjer för leverantörer av general-purpose AI-modeller, GPAI, förtydligar vilka skyldigheter som gäller och hur enforcement byggs upp. Skyldigheterna började gälla 2 augusti 2025, och kommissionens enforcement-befogenheter börjar gälla 2 augusti 2026. Även om många Hammer-läsare inte är modellleverantörer påverkar detta inköp: fråga leverantören om dokumentation, datakällor, incidentrapportering och hur modellen får användas i EU.

Källa: European Commission, Guidelines for providers of general-purpose AI models

NIST AI RMF är frivilligt, men praktiskt. Ramverket hjälper organisationer att tänka kring risker för individer, organisationer och samhälle, och NIST släppte i april 2026 en concept note för AI RMF-profil för kritisk infrastruktur. För små team är NIST-språket användbart som checklista: styrning, kartläggning, mätning och hantering. Det går att börja med en enkel risklogg.

Källa: NIST, AI Risk Management Framework

Veckans praktiska Hammer-test

Testa ett "källkvitto-flöde" i 30 till 45 minuter. Välj ett riktigt men avgränsat arbetsflöde: supportärenden, elevfrågor, offertförfrågningar, policyfrågor eller interna tickets. Använd kopior eller rensade exempel.

Gör så här:

  1. Välj 10 gamla ärenden där ni redan vet vad ett bra svar eller nästa steg var.
  2. Skriv tre regler: AI får läsa detta, AI får föreslå detta, AI får inte skicka eller ändra något själv.
  3. Lägg eventuella nycklar och systemåtkomst bakom miljövariabler, secret manager eller ett konto med begränsade rättigheter. Ge inte agenten mer åtkomst än uppgiften kräver.
  4. Be AI sammanfatta ärendet, föreslå nästa mänskliga åtgärd, markera osäkerhet och lista exakt vilka källor eller fält den använde.
  5. Granska varje förslag manuellt och poängsätt: korrekt, användbart efter redigering, eller fel.
  6. Bestäm efter 10 ärenden om flödet ska stoppas, justeras eller byggas vidare med loggning, godkännandesteg och redigering av känslig information.

Kopiera gärna denna prompt:

Du är en arbetsassistent, inte en beslutsfattare. Läs underlaget nedan och gör fyra saker:
1. Sammanfatta ärendet med högst fem punkter.
2. Föreslå nästa mänskliga åtgärd.
3. Skriv vilka källor, fält eller citat du använde som stöd.
4. Markera osäkerhet och vad en människa måste kontrollera innan något skickas eller ändras.

Regler:
- Du får inte hitta på saknade uppgifter.
- Du får inte skicka, publicera, ändra systemdata eller kontakta någon.
- Om underlaget inte räcker, säg vad som saknas.

Underlag:
[klistra in rensat ärende här]

Om testet visar tidsvinst utan att kvaliteten faller är det ett bra första steg mot Tool Forge, där Hammer hjälper till att bygga arbetsflöden med rätt behörigheter, godkännanden, loggar och praktisk vardagsanvändning. Boka en kort genomgång om ni vill göra samma sak med era egna ärenden.

Företag och verktyg att hålla koll på

  • Anthropic och KPMG: visar hur AI rullas in i stora kunskapsplattformar där ansvar och kundarbete redan finns.
  • Stainless och MCP: viktiga för alla som vill låta agenter nå rätt API:er och verktyg utan improviserade kopplingar.
  • GitHub Copilot cloud agent: bra att följa även för icke-utvecklare eftersom den visar hur agentarbete får konfiguration, policy och revisionsspår.
  • OpenAI Codex: visar hur längre agentjobb kräver tydligare mål, avgränsning och efterkontroll.
  • Databricks och Deloitte: ger användbara siffror för varför governance och evals inte är bromsar, utan ofta det som gör produktion möjlig.

Deloitte skriver att tillgången till AI för medarbetare ökade med 50 procent under 2025, men att bara en av fem organisationer har en mogen styrningsmodell för autonoma AI-agenter. Det sammanfattar veckan ganska bra. Verktygen blir mer kapabla. Den praktiska vinsten kommer först när arbetet går att följa, mäta och godkänna.

Källa: Deloitte, The State of AI in the Enterprise 2026

Smedjans nyhetsbrev

Få nya artiklar i inkorgen

Välj de ämnen som intresserar dig. Inget brus, max ett mejl i veckan.

Få nya artiklar i inkorgen

Vi följer GDPR. Avsluta när du vill.