AI Enablement Radar vecka 25: mät agenten innan den får nycklarna

Adam Olofsson Hammare
AI Enablement Radar vecka 25: mät agenten innan den får nycklarna

Den tydligaste signalen den här veckan är ganska jordnära: AI-agenter får inte bara fler verktyg. De får register, kostnadsmätning, säkerhetskontroller och tydligare regler för när de får agera. För ett nordiskt småteam, en skola eller en verksamhet utan stor IT-avdelning betyder det här mindre magi och mer drift: börja inte med den smartaste modellen, börja med vilken arbetsuppgift agenten får röra, hur ni mäter om den gör rätt, och vem som kan stoppa den.

Toppsignaler denna vecka

  • Microsoft formulerade sitt företagsbudskap som "Intelligence + Trust": AI ska förstärka organisationens egen kunskap, men också ge styrning, säkerhet, kostnadskontroll och modellflexibilitet. Det är en bra sammanfattning av vart marknaden rör sig.

Källa: Achieving success with AI, Microsoft

  • Microsofts Work IQ APIs blev generellt tillgängliga den 16 juni. Work IQ ska ge agenter kontext från Microsoft 365, och Microsoft beskriver bland annat över 600 TB genomsnittlig Work IQ-datayta hos Fortune 500-kunder, tio generiska verktyg via MCP och 80 procent färre token i interna tester. MCP, Model Context Protocol, är ett sätt för AI-klienter att ansluta till verktyg och datakällor utan att varje integration behöver byggas från noll.

Källa: Announcing the new Work IQ APIs, Microsoft 365 Blog

  • GitHub gjorde agentupptäckt konkret med Agent finder för GitHub Copilot. I stället för att ladda in alla MCP-servrar, skills och verktyg i förväg kan Copilot hitta rätt resurs från ett valt register. Viktigt: GitHub skriver att verktyg inte installeras automatiskt och att företag kan styra vilka resurser som får hittas.

Källa: Agent finder for GitHub Copilot now available, GitHub Changelog

  • GitHub lade också till daglig AI-kreditförbrukning per användare i Copilot usage metrics API. Det låter torrt, men det är exakt den typen av mätning som gör AI-adoption möjlig att driva som budget och kapacitet, inte som en känsla.

Källa: AI credits consumed per user now in the Copilot usage metrics API, GitHub Changelog

  • Workday lanserade Agent Passport för att testa, verifiera och kontinuerligt övervaka AI-agenter. Varje agent ska kunna kopplas till tester mot standarder som OWASP LLM Top 10, NIST AI RMF och MITRE ATLAS, med Cisco som första testpartner. Det här är pass-metaforen på riktigt: vem är agenten, vad har den testats för, och när ska tillgången dras tillbaka?

Källa: Workday Launches Agent Passport, Workday

  • Databricks rapporterar från sin kundbas att organisationer som använder AI-styrningsverktyg får fler än 12 gånger fler AI-projekt till produktion, och att organisationer med utvärderingsverktyg får nästan 6 gånger fler AI-system till produktion. Evals, eller utvärderingar, är återkommande tester som visar om en AI-lösning fortfarande gör rätt när promptar, modeller, data eller verktyg ändras.

Källa: Enterprise AI Agent Trends, Databricks

Vad företag faktiskt gör med AI

Det som sticker ut är inte en enskild demo. Det är att stora plattformar försöker flytta AI från chattfliken till befintliga arbetsytor: Microsoft 365, GitHub, Workday, Shopify och dataplattformar. Ett agentiskt arbetsflöde betyder här att AI:n inte bara svarar, utan planerar, hämtar kontext, använder verktyg, lämnar spår och ibland föreslår eller utför nästa steg.

I Workday-exemplet handlar det om HR, ekonomi och IT. Agent-Ready Tools ska låta agenter hämta poster, uppdatera förmåner eller trigga godkännanden, men med Workdays säkerhetsmodell, delegering, affärsprocesskontroller och audit trail kvar runt åtgärden. Den praktiska lärdomen för mindre team är enkel: ge inte agenten en lös API-nyckel och hoppas. Lägg åtgärderna bakom verktyg som redan har behörighet, logg och godkännande.

Källa: Workday Launches New Tools for Developers to Build, Connect, and Verify AI Agents, Workday

I handel syns samma rörelse från en annan vinkel. Shopify säger att miljontals handlare kan sälja i AI-chattar via Agentic Storefronts, med kanaler som ChatGPT, Microsoft Copilot, AI Mode i Google Search och Gemini-appen centralt hanterade från Shopify Admin. För en liten webbutik är poängen inte att springa efter varje ny AI-kanal. Poängen är att produktdata, priser, leveransregler och kundlöften måste vara så tydliga att en AI-assistent kan citera dem rätt.

Källa: Millions of merchants can sell in AI chats, Shopify

Shopify och Google har också presenterat Universal Commerce Protocol, UCP, som ett öppet sätt för AI-agenter att koppla upp sig mot handelssystem. Shopify nämner stöd för REST, MCP, Agent Payments Protocol och Agent2Agent. Det är ännu en signal om att AI-adoption blir integrationsarbete: produktkatalog, betalning, returregler och kunddata behöver hänga ihop.

Källa: The agentic commerce platform, Shopify

Verktygslagret: plattformar, agenter och arbetsflöden

Det mest användbara för små organisationer är att verktygsleverantörerna börjar visa samma mönster: register över tillåtna resurser, mätning av användning, spår av körningar, och instruktioner som ligger nära arbetsytan.

GitHubs Agent finder är en sådan pusselbit. Ett internt register kan vara lika enkelt som en lista över vilka MCP-servrar, mallar, prompts och datakällor som är godkända för olika uppgifter. När agenten behöver bokningsdata, CRM-information eller projektfiler ska den hitta rätt väg, inte gissa.

Källa: Agent finder for GitHub Copilot now available, GitHub Changelog

GitHubs säkerhetsvalidering för tredjepartsagenter är en annan. Claude och OpenAI Codex kan skapa kod i repositoryn, och GitHub skriver att samma automatiska validering med CodeQL, GitHub Advisory Database och secret scanning nu gäller även tredjepartsagenter. Om en agent introducerar en sårbarhet eller hemlighet ska det fångas innan pull requesten blir färdig.

Källa: Security validation for third-party coding agents, GitHub Changelog

OpenAI pekar åt samma håll i sin dokumentation: använd Responses API när ett modellanrop med verktyg räcker, men Agents SDK när din applikation äger orkestrering, verktygskörning, godkännanden och state. Det är en nyttig gränsdragning. Allt behöver inte bli ett stort agentsystem. Men när agenten ska göra flera steg och använda riktiga verktyg behöver körningen vara kodad, mätbar och möjlig att pausa.

Källa: Agents SDK, OpenAI API docs

OpenAIs vägledning om agent-evals börjar med traces: granska hela körningen, verktygsanropen, handoffs och guardrails innan ni bygger återkommande testdataset. Det är en bra start även utan dyr plattform. Spara tre representativa körningar, bedöm dem mot en enkel checklista och ändra inte prompten utan att jämföra resultatet.

Källa: Evaluate agent workflows, OpenAI API docs

Styrning och risk: vad som behöver sättas innan skala

AI-styrning betyder inte en pärm ingen läser. I praktiken är det beslut om vilka AI-system ni använder, vilken data de får se, vilka åtgärder de får ta, hur loggar sparas, vem som godkänner avvikelser och hur ni mäter kvalitet över tid.

EU:s AI Act fortsätter att vara grundramen för europeiska organisationer. Den delar AI-system efter risk och ställer hårdare krav på högriskanvändning, bland annat riskhantering, dokumentation, loggning, information till användare, mänsklig översyn, robusthet, cybersäkerhet och noggrannhet. För en skola, rekryteringsprocess eller offentlig verksamhet räcker det alltså inte att fråga "fungerar prompten?". Fråga också om användningen hamnar i en riskkategori där ni behöver tydligare kontroll.

Källa: AI Act, European Commission

För generella AI-modeller har EU:s General-Purpose AI Code of Practice blivit den praktiska bryggan mellan lagtext och leverantörsarbete. Kommissionen beskriver koden som ett frivilligt verktyg för att hjälpa leverantörer följa AI Act-regler om transparens, upphovsrätt, säkerhet och systemrisker för GPAI-modeller.

Källa: Drawing-up a General-Purpose AI Code of Practice, European Commission

NIST AI Risk Management Framework är fortfarande en bra praktisk karta även för mindre organisationer: identifiera risker, mät dem, hantera dem och styr dem. NIST noterar dessutom 2026-arbete med en AI RMF-profil för kritisk infrastruktur, vilket säger något om vart ribban flyttas: AI-kontroller ska gå att koppla till riktiga driftsmiljöer, inte bara policytexter.

Källa: AI Risk Management Framework, NIST

OWASP GenAI Security Project är mer tekniskt, men användbart när agenter får verktyg. Prompt injection, osäker output-hantering och dataläckage är inte abstrakta risker om agenten kan läsa filer, skriva kod eller skicka kundsvar. Det är därför env vars, secret managers, scoped API keys, least-privilege-behörigheter, redaction, approval gates och audit logs behöver in i arbetsflödet från början.

Källa: OWASP Top 10 for Large Language Model Applications

ISO/IEC 42001 ger en mer organisationsnära ram: ett ledningssystem för AI. För ett litet team kan den fulla standarden vara för tung, men tankesättet är användbart. Bestäm policy, ansvar, riskbedömning, uppföljning och förbättringscykel innan AI blir allas privata experiment.

Källa: ISO/IEC 42001:2023, ISO

Veckans praktiska Hammer-test

Välj en återkommande arbetsuppgift där AI redan används informellt: kundsvar, offertutkast, lektionsplanering, kodgranskning, mötesuppföljning eller research. Lägg 30-45 minuter på att göra den mätbar.

  1. Skriv uppgiften som ett arbetskort: mål, vilka källor AI:n får använda, vilka verktyg den får röra, och vad den aldrig får göra utan människa.
  2. Skapa tre testfall: ett lätt, ett normalt och ett knepigt. Använd verkliga format men rensa bort sådant som inte ska ligga i prompten.
  3. Kör AI:n och spara resultatet, källorna den använde, vilka verktyg den försökte nå och vad en människa ändrade.
  4. Sätt två stoppunkter: en för kvalitet och en för behörighet. Exempel: "skicka inte kundsvar utan godkännande" eller "läs från CRM men skriv inte tillbaka".
  5. Bestäm en enkel mätning för nästa vecka: tid sparad, fel fångade, källor saknade, kostnad per körning eller antal ärenden som behövde mänsklig korrigering.

Det här är ett litet Tool Forge-test: inte en stor implementation, utan en kontrollerad agentkörning med register, logg och granskning. Om ni vill göra det tillsammans med Hammer kan Verktygssmide hjälpa till att bygga första versionen med rätt behörigheter och stoppunkter.

Företag och verktyg att hålla koll på

  • Microsoft Work IQ och Agent 365: visar hur företagsagenter flyttas mot kontext, governance och kostnadskontroll i Microsoft 365-miljön.
  • GitHub Copilot: agent discovery, AGENTS.md, usage metrics och tredjepartsvalidering gör kodagenter mer operativa.
  • Workday Agent Passport: intressant modell för att ge varje agent en verifierbar säkerhets- och kontrollprofil.
  • Databricks: deras siffror om governance och evals visar att produktion handlar mindre om demo och mer om mätning.
  • Shopify Agentic Storefronts och UCP: viktig signal för webbutiker när köp börjar i AI-chattar i stället för på startsidan.

Vanliga frågor

Vad är den viktigaste AI-signalen vecka 25 2026?

Att AI-agenter flyttas från fristående chattar till mätbara, styrda arbetsflöden med register, kostnadsmätning, säkerhetskontroller och mänskliga stoppunkter.

Vad betyder MCP för små team?

MCP, Model Context Protocol, gör det enklare att koppla AI till verktyg och datakällor. För små team bör MCP användas med godkända servrar, begränsade behörigheter, loggar och tydliga regler för vad agenten får göra.

Hur testar man en AI-agent utan ett stort projekt?

Välj en återkommande uppgift, skapa tre testfall, logga källor och verktygsanrop, sätt en kvalitetsstoppunkt och en behörighetsstoppunkt, och mät resultatet nästa vecka.

Smedjans nyhetsbrev

Få nya artiklar i inkorgen

Välj de ämnen som intresserar dig. Inget brus, max ett mejl i veckan.

Få nya artiklar i inkorgen

Vi följer GDPR. Avsluta när du vill.