AI-veckan som just skakade om: 7 nyheter du måste känna till
Sammanfattning: Kimmy K 2.6 slår proprietary-modeller till 5% av kostnaden, GPT 5.5 ("Spud") väntas inom dagar, Codex blir en "super-app" med datorsyn på Mac, och Grock 4.5 sägs nå 1.5 biljoner parametrar innan månadens slut. Samtidigt förbereder Google minst tre nyheter för Google I/O — och en robot sprang nyligen marathon snabbare än människor.
0:04 – "En av de mest intensiva perioderna i AI-historien"
Vi har precis avslutat en av de mest intensiva perioderna någonsin inom AI-nyheter, och nästa vecka ser ännu mer galen ut. Bara idag dök det upp massiva nyheter: Moonshot AI släppte Kimmy K 2.6, en avancerad open-source kodningsmodell som redan jämförs med Opus 4.5 och 4.6. Samtidigt ryktas GPT 5.5 — kodnamn "Spud" — vara precis runt hörnet, möjligen redan idag eller torsdag. På Googles sida ser vi nya Gemini-checkpoints dyka upp, och Coin 3.6 Max har äntligen släppts. Codex förvandlas till något som närmast liknar en super-app.
0:34 – "Kimmy K 2.6 — open source slår proprietary"
Kimmy K 2.6 är en ny open-source kodningsmodell från Moonshot AI som levererar state-of-the-art-resultat över benchmarks som Swaybench, Browser Comp och avancerade matematik- och visionuppgifter. I vissa fall jämförs den direkt med Opus 4.6 — vilket är helt sinnesjuk för en open-source-modell.
De stora nyheterna:
- 12-timmars+ kodningssessioner med 4,000+ verktygsanrop
- 300 parallella agenter som arbetar tillsammans
- Multilingual, multi-file development från en enda prompt
- 94% billigare input och 95% billigare output jämfört med Opus 4.6 — samtidigt som den överträffar Opus 4.6 på Swaybench Pro
"Det faktum att denna modell är i princip i paritet med eller bara lite efter dessa proprietära modeller är helt galet."
Verkligt exempel: Kvantitativa strategier över hundratals tillgångar
Kimmy K 2.6 kan designa och exekvera komplexa flerstegs-arbetsflöden från start till mål — till exempel att bygga fullständiga kvantitativa handelsstrategier över hundratals tillgångar. När det gäller front-end är modellen exceptionell: den kan generera vackra landningssidor med dynamiska rörelser, olika typografier och interaktiva element — något som inte är möjligt med proprietära modeller.
Den kan köras lokalt på dual M3 Ultra med MLX vid full en biljon parameter VLM.
2:38 – "GPT 5.5 Spud — mellansteget mot GPT 6"
GPT 5.5, kodnamn "Spud", testas just nu internt i ChatGPT. Tidiga demos visar otrolig hastighet, token-effektivitet och resonemang med snabbare output och starkare prestanda på komplexa uppgifter.
Utmärker sig särskilt inom:
- Kodning
- SVG-generering
- Spelskapande
- 3D-arbetsflöden med verktyg som GS
Modellen går beyond prompts för att själv lägga till struktur, detaljer och bättre design-riktning. Den känns som en halv väg till GPT 6 — bättre resonemang, snabbare prestanda och lägre kostnad i en och samma modell.
"Det bästa sättet att tänka på det är att det är ett halvt steg till GPT 6, som kombinerar bättre resonemang, snabbare prestanda och lägre kostnad i en modell."
Enligt Poly Market-tipsters väntas släppet idag eller senast torsdag — de två dagar OpenAI vanligtvis levererar modeller.
Verkligt exempel: Excel-klon på minuter
Med GPT 5.5 skapades en fullständig Excel-klon som inte bara ser ut som Excel — den känns som Excel. Full grid-uppförande, formatteringsinteraktioner, cellselektering. Skrämmande nära verkligheten.
Det som gör detta praktiskt intressant: modellen är token-effektiv och lättåtkomlig jämfört med Opus 4.7. För kodningsuppgifter kan detta bli det naturliga valet.
4:12 – "DeepSeek v4 — 1.6 biljoner parametrar på gång"
Enligt Zank — Princeton PhD-forskare och AI-lab-fellow — kan DeepSeek version 4 släppas redan denna vecka. Ryktena är stora:
Rapporterad spec:
- 1.6 biljoner parametrar
- Sparse MQA, fused kernels och hyperconnections
- MMLU runt 99.4% — bara 4 procentenheter från maximum
- Swaybench: 83.7%
"Early leaks antyder extrema prestandanivåer, men dessa siffror är fortfarande overifierade."
Modellen sägs konkurrera direkt med Opus 4.7 och GPT 5.5. På grund av skalan skulle endast kraftigt quantiserade versioner realistiskt kunna köras lokalt — potentiellt krävande en 512 GB-maskin.
6:04 – "Codex blir super-app — ser, klickar och tänker"
OpenAI har förvandlat Codex till något langt bortom ett kodningsverktyg. Codex kan nu:
- Interagera med appar på din Mac — se, klicka och skriva med sin egen markör
- Köra i bakgrunden utan att ta över systemet
- Hantera front-end-iteration, app-testning och arbetsflöden utan API:er
- Schemalägga arbete, pausa och återuppta med full kontext i samma tråd
- Föreslå bildgenereringar med GPT Image 1.5 — och GPT Image 2 kan vara på gång direkt i Codex
"Det är i praktiken att det förvandlas till en fullständig super-app för utveckling och automatisering."
Verkligt exempel: Automatisering över API-lösa appar
Tidigare krävde automatisering av appar utan APIer manuella skript eller tredjepartsverktyg. Nu kan Codex se skärmen, förstå vad som händer, och interagera med element — som en mänsklig användare, fast utan pauser.
Nyhet: Chronicle — Codex bygger minne från ditt arbete
Chronicle är en ny research-preview inuti Codex som låter modellen bygga minnen från ditt dagliga arbete på datorn, och sedan använda dessa minnen för att bli avsevärt mer hjälpsam och kontextmedveten över tid.
"Folk på OpenAI säger redan att det markant har förändrat hur de använder Codex i sina dagliga arbetsflöden."
8:38 – "Grock 4.3 — underradar men extremt kapabel"
Grock 4.3 beta är XAI:s senaste testmodell och den är verkligt underrapporterad. Cirka 0.5 biljoner parametrar med förbättrad arkitektur och tränad fram till december 2025.
Nyckelförbättringar:
- Native multimodal med bättre visuell förståelse
- Agentic verktygsanvändning och kodning
- Genererar dokument, slides, PDFs, kalkylark
- Förbättrat resonemang med färre hallucinationer
Verkligt exempel: CSGO-klon med bazooka
Med en enkel request skapade Grock 4.3 beta en fullständig CSGO-klon — inklusive en fungerande bazooka. Helt genererad kod, ingen mall.
Elons färdplan avslöjad
Enligt Musks egna kommentarer:
- Grock 4.4 — 1 biljon parametrar, tidig maj
- Grock 4.5 — 1.5 biljoner parametrar, slutet av maj
- Grock 5 — positionerad som AGI
"Om ens delvis korrekt betyder det att vi är två stora modellsläpp ifrån det han kallar AGI."
(Observera: vi känner inte till Musks exakta definition av AGI.)
10:11 – "Qwen 3.6 Max — Alibabas nya flaggskepp"
Alibaba har tyst släppt en preview av Qwen 3.6 Max — nästa generation av deras flagskeppsmodell. Fokus ligger på:
- Starkare agentic kodningsförmågor jämfört med Qwen 3.6 Plus
- Bättre instruktionsföljande och förbättrat verklig världen-resonemang
- Högre tillförlitlighet i kunskapsuppgifter
Modellen är designad för att vara smartare, mer konsekvent i långa uppgifter och mer kapabel som autonom agent i praktiska arbetsflöden.
"I enkla termer: designad för att vara mer intelligent, mer konsekvent i långhorisontuppgifter och mer kapabel som autonom agent."
11:33 – "Google I/O om 28 dagar — tre saker på gång"
Med Google I/O cirka 28 dagar bort börjar ryktena flöda. Tre saker sticker ut:
1. Nya Gemini-checkpoints i AI Studio
Google testar nya, förbättrade modeller internt. Det kan röra sig om Gemini 3.2 Pro eller till och med Gemini 3.5 Pro — eller möjligen en lättare flash-variant av Gemini 3.1.
2. Co-Work-konkurrent inuti Gemini
Google utvecklar en funktion som fungerar exakt som Co-Work — en agentisk automation för att delegera mål, koppla samman applikationer och automatisera arbetsflöden. Det som gör det extra kraftfullt: djupintegration med Google Workspace — Gmail, Kalkylark, Drive, allt samlat.
3. Utökad AI Studio-åtkomst för AI-prenumeranter
Google har nu utökat åtkomsten så att AI-prenumeranter kan använda förbättrade kodningsgränser och direktåtkomst till Pro-modeller utan att behöva koppla ett API.
13:37 – "Robot maraton — F1:an för AI"
Som avslutning: robotics har nu nått en punkt där det känns hämtat direkt från en sci-fi-simulation. En fullfjädrad robot tävlar nu i maraton — och presterar faktiskt bättre än människor i vissa segment.
Det som gör det hela extra surrealistiskt är hur systemet är konstruerat. Hela rörelseapparaten fungerar som en fullständig F1-boxning — människor kliver in snabbt för att serva roboten, kyla ned den mellan heat, och i vissa fall används till och med torris för kylning.
"Det är i praktiken F1 för robotar."
Tankar om hur detta påverkar framtiden
Det som är slående med denna vecka är hastigheten. Open-source-modeller som Kimmy K 2.6 presterar nu i paritet med de bästa proprietära alternativen till en bråkdel av kostnaden. Det demokratiserar inte bara kraftfull AI — det pressar hela branschen framåt.
Samtidigt ser vi en tydlig konvergens: verktyg som Codex och Grock 4.3 slutar vara ren kodgenerering och blir ständiga arbetskamrater som minns, planerar och exekverar över tid. Gränsen mellan verktyg och kollegor suddas ut.
För den som bygger med AI dagligen innebär detta att valet inte längre är "vilken modell" — utan "vilken agentarkitektur". Frågan är inte längre teoretisk.


