AI Enablement Radar vecka 22: bygg spårbarhet runt vardagsagenten

Den tydligaste signalen vecka 22 är inte en ny chattfunktion. Det är att AI trycks in i de verktyg där arbete redan sker: Microsoft 365, GitHub, Notion, supportflöden, dokumenttolkning och skatteproduktion. För små team betyder det något ganska jordnära. Nästa AI-steg handlar mindre om att hitta ännu en modell och mer om att skapa spår: vem får agenten hjälpa, vilka system får den nå, vilka resultat ska kontrolleras, och vad lär ni er när den gör fel?
Toppsignaler denna vecka
- Microsoft gör Copilot mer relevant för småföretag genom nya Microsoft 365 Business Standard with Copilot och Business Premium with Copilot som lanseras 1 juli. Poängen är inte bara pris eller paketering, utan att AI kopplas till Word, Excel, PowerPoint, Outlook, Work IQ och fler än 1 000 anslutningar till affärssystem.
Källa: Introducing Microsoft 365 Business with Copilot
- Microsofts nya Copilot-design pekar åt samma håll: prompten blir mer av en arbetsyta, med bättre kontext, historik och output-design. Det gör promptvanor till en del av arbetsmiljön, inte en hobby bredvid jobbet.
Källa: Introducing a new design for Microsoft 365 Copilot
- Google Clouds majexempel visar att AI-projekt ofta börjar i mycket specifika verksamhetsproblem. BASF använder AlphaEvolve för att modellera globala försörjningskedjor, Urban Outfitters flyttar ett orderhanteringssystem från Oracle till AlloyDB, och Movix använder agentisk AI för kvalitetskontroll i tandreglering.
Källa: Cool stuff Google Cloud customers built, May edition
- Lyft visar vad som händer när domänexperter får bygga och justera supportagenter själva. Med LangGraph och LangSmith minskade tiden för nya konfigurerbara agenter från ungefär sex månader till ungefär två veckor. Lyft rapporterar också 100 procent automatiserade LLM-as-a-judge-utvärderingar för produktionsagenter, 20 procent färre hallucinationer och motsägelser samt 16 procent högre AI Resolution Rate.
Källa: How Lyft Built a Self-Serve AI Agent Platform
- GitHub lägger mätning ovanpå Copilot-användningen. Det nya fältet
ai_adoption_phasedelar in användare efter beteende under ett rullande 28-dagarsfönster: code first, agent first och multi-agent. Det är ett bättre styrmått än “antal licenser”.
Källa: Copilot usage metrics API adds cohorts for AI adoption
- OpenAI och Thrive Holdings beskriver Tax AI hos Cretes nätverk av fler än 30 redovisningsbyråer. Systemet behandlade 7 000 deklarationer under pilotsäsongen, sparade ungefär en tredjedel av tiden, nådde upp till 97 procents träffsäkerhet i utkast och ökade genomströmningen med omkring 50 procent. Den viktiga detaljen är förbättringsloopen: praktikerfeedback, produktionsspår och riktade evals.
Källa: Building self-improving tax agents with Codex
Vad företag faktiskt gör med AI
Veckans mer användbara exempel har en gemensam form: AI får inte bara “svara”. Den får arbeta i en avgränsad process där människor redan vet vad bra ser ut.
Lyft är ett bra exempel för kundservice. De lät Voice of Customer, operations och produktroller påverka agentbeteendet med prompts och konfiguration, medan LangGraph skötte flödet mellan specialiserade delagenter. En agentisk arbetsprocess betyder här att AI inte bara skriver ett svar, utan tar flera steg genom ett supportflöde: klassificerar ärendet, väljer rätt delagent, samlar kontext och lämnar över när reglerna kräver det.
Källa: How Lyft Built a Self-Serve AI Agent Platform
OpenAI/Thrive-exemplet är ännu smalare, och därför intressant. Skattearbete har tydliga underlag, fält, kontroller och ansvar. När Tax AI blev bättre berodde det inte på magi i modellen, utan på att produkten började spara rätt bevis: källdokument, extraherade fält, hänvisningar, praktikerändringar och slutlig deklaration. Det är exakt den sortens spårbarhet som även ett mindre svenskt team behöver när AI ska hjälpa med offerter, elevunderlag, avtal, projektrapporter eller ekonomiadministration.
Källa: Building self-improving tax agents with Codex
Google Clouds kundrunda visar samma sak från en annan vinkel. BASF försöker förstå försörjningskedjor med 180 produktionssajter och fler än 5 000 värdekedjor. Det är långt från ett småföretag i Norden, men principen går att skala ned: börja med en process där ni redan har historik, regler och mänskliga beslut. Då kan AI hjälpa till att hitta mönster utan att få sista ordet.
Källa: Cool stuff Google Cloud customers built, May edition
För skolor och utbildningsmiljöer är lärdomen liknande. Börja inte med “AI i hela skolan”. Välj ett arbetsflöde där gränsen är tydlig: sammanfatta öppet kursmaterial, jämför lektionsplanering mot kunskapsmål, skapa en första frågebank som läraren granskar, eller gör elevinstruktioner enklare. Det är små system, men de bygger den vana som behövs innan AI får hantera tyngre uppgifter.
Verktygslagret: plattformar, agenter och arbetsflöden
MCP, Model Context Protocol, är ett sätt att koppla AI-system till externa verktyg och datakällor med en gemensam anslutningsmodell. Men veckans viktigaste verktygssignal är bredare än MCP. Plattformarna försöker bygga kontrollplan runt agenter: mätning, modellregler, minne, sandlådor, dokumentparsing och återanvändbara arbetsflöden.
GitHubs nya Copilot-mätning gör adoption mer konkret. Om bara två personer använder agentytor medan resten stannar i kodkomplettering, ska utbildningen se annorlunda ut än om teamet redan arbetar multi-agent. GitHub släppte också riktade modellregler, så enterprise-ägare kan styra vilka Copilot-modeller som är tillgängliga för olika organisationer.
Källor: Copilot usage metrics API adds cohorts for AI adoption, Target Copilot models to organizations with model rules
GitHubs minneskontroller är små men viktiga. Copilot Memory kan nu stängas av på repository-nivå, hanteras via CLI och visa tydligare om en sparad uppgift är en personlig preferens eller ett repository-faktum. För icke-tekniska team är översättningen enkel: bestäm vad AI får minnas på individnivå, teamnivå och processnivå. Skriv ned det innan minnet blir en osynlig vana.
Källa: Copilot Memory has more controls for deletion, scope, and the Copilot CLI
LangChain rör sig åt ett praktiskt håll med interpreter skills. En skill är återanvändbar agentinstruktion. En interpreter skill kan också innehålla testad TypeScript-kod som agenten importerar och kör i en styrd runtime. Det betyder att viktiga steg kan ligga i kod, medan modellen väljer när rutinen ska användas.
Källa: Building workflows for agents with Skills and Interpreters
LlamaIndex släppte ParseBench, ett benchmark för dokumenttolkning med ungefär 2 000 mänskligt verifierade företagssidor och fler än 167 000 testregler. Det låter smalt, men många AI-projekt faller just där: en PDF tolkas fel, en tabellrad hamnar under fel rubrik, eller en agent läser ett överstruket pris som aktivt pris.
Källa: ParseBench: The First Document Parsing Benchmark for AI Agents
Notions utvecklarplattform pekar också mot en vardag där agenter behöver dela yta med människor. Notion beskriver datasyner, Workers, externa agenter och egna verktyg för Custom Agents. Det är ett tecken på att “AI-arbetsyta” inte bara betyder chatt. Det betyder en plats där data, rutiner, integrationer och ansvar möts.
Källa: What’s New – Notion
Styrning och risk: vad som behöver sättas innan skala
AI governance betyder inte att skapa en pärm som ingen läser. I praktiken är AI-styrning de enkla regler som avgör när AI får agera, vilken data den får använda, vem som godkänner resultatet och hur ni kan se vad som hände efteråt.
EU:s AI Act är riskbaserad och delar AI-användning i nivåer som förbjuden risk, hög risk, transparensrisk och minimal risk. För mindre organisationer är den praktiska starten att sortera egna AI-idéer efter konsekvens: påverkar detta anställning, utbildning, kredit, vård, säkerhet eller myndighetsliknande beslut? I så fall behövs mer dokumentation, testning och mänsklig kontroll innan ni skalar.
Källa: AI Act – European Commission
OpenAI skrev i veckan om tredjepartsutvärderingar för moderna agentiska system. De lyfter fram att en eval inte bara testar modellen. Den testar också harnessen: prompts, verktyg, minne, retries, validatorer och kontrollogik runt modellen. För Hammer-läsare är det en användbar definition av evals: små återkommande tester som visar om AI-rutinen fungerar i den miljö där den faktiskt ska användas.
Källa: A shared playbook for trustworthy third party evaluations
LangSmiths Auth Proxy visar hur säker integration kan se ut när agenter kör kod och anropar tjänster. I stället för att lägga API-nycklar i agentens miljö kan en proxy hålla hemligheter utanför sandlådan, tillåta bara godkända destinationer och injicera autentisering på nätverksnivå. Samma princip fungerar i mindre skala: använd miljövariabler eller en secret manager, scoped API-nycklar, minsta möjliga behörighet, loggar, redigering av känslig output och godkännandesteg för åtgärder som påverkar kunder, ekonomi eller personal.
Källa: How Auth Proxy secures network access for LangSmith agent sandboxes
Google Clouds säkerhetsartikel för offentlig sektor har en bra formulering: behandla AI som en muse, inte ett orakel. Den rekommendationen är användbar även utanför myndigheter. Låt AI minska administration och samla kontext, men låt människor fatta slutbeslut när arbetet har juridisk, ekonomisk eller personlig konsekvens.
Källa: Cloud CISO Perspectives: How to build an AI-ready security program for the public sector
Veckans praktiska Hammer-test
Testet tar 30–45 minuter och passar ett litet team som redan använder AI men inte har kopplat ihop den ordentligt med arbetet.
Välj en återkommande uppgift där AI redan hjälper lite: kundsvar, offertutkast, mötesanteckningar, lektionsplanering, projektrapport, supporttriage eller dokumentgranskning. Gör sedan ett enkelt agentkort.
- Uppgift: Vad ska AI hjälpa till med, och vad ska den inte göra?
- Källor: Vilka filer, system eller sidor får den läsa?
- Åtgärder: Får den bara föreslå, eller får den också skriva, skapa, ändra eller skicka?
- Behörighet: Vilka nycklar, konton eller integrationer behövs, och hur gör ni dem scoped?
- Bevis: Vilka källhänvisningar, loggar eller före/efter-värden måste sparas?
- Mänsklig kontroll: Vem godkänner innan något skickas till kund, elev, leverantör eller ekonomi?
- Eval: Vilka fem exempel ska ni testa varje vecka för att se om rutinen blir bättre eller sämre?
Kopiera gärna prompten:
Du är vår AI-arbetsflödesgranskare. Hjälp oss göra ett agentkort för följande återkommande uppgift: [beskriv uppgiften].
Föreslå:
1. vilka källor AI får läsa,
2. vilka åtgärder AI får göra själv och vilka som kräver mänskligt godkännande,
3. vilka behörigheter eller integrationer som behövs,
4. hur vi skyddar hemligheter med scoped access, miljövariabler eller secret manager,
5. vilka loggar eller källhänvisningar som måste sparas,
6. fem testfall vi kan återanvända som enkel eval.
Var praktisk. Anta att vi är ett litet team och vill börja med en fungerande version nästa vecka.
Gränsen är enkel: låt AI göra förarbete och förslag. Låt en människa godkänna beslut, externa meddelanden, pengar, personuppgifter och ändringar i system tills rutinen har bevisat sig.
Företag och verktyg att hålla koll på
- Microsoft 365 Copilot: viktig för småföretag eftersom Copilot byggs in i befintliga arbetsappar och affärsanslutningar.
- GitHub Copilot: intressant även utanför utvecklarteam eftersom adoption, minne och modellval nu blir mät- och styrbara.
- LangChain/LangSmith: visar hur agentarbete går från prompt till drift, evals, sandlådor och säker nätverksåtkomst.
- LlamaIndex/LlamaParse: påminner om att dokumentkvalitet ofta avgör om AI kan agera korrekt.
- Notion Developer Platform: gör arbetsytan till en integrationsyta för människor, data och agenter.
Om ni vill gå från lösa AI-test till ett spårbart arbetsflöde passar det här väl in i Hammer Automations Tool Forge/Tekniksmide: vi kartlägger uppgiften, sätter rätt integrationer och bygger en första rutin med behörigheter, loggar och mänskliga godkännanden. Börja med ett agentkort och kontakta oss via Tool Forge om ni vill bygga nästa version tillsammans.
Smedjans nyhetsbrev
Få nya artiklar i inkorgen
Välj de ämnen som intresserar dig. Inget brus, max ett mejl i veckan.
Vi följer GDPR. Avsluta när du vill.


