Vilken AI-chip dominerar marknaden 2026?

Nvidia kontrollerar runt 80 procent av data center AI-acceleratormarknaden med Blackwell-arkitekturen (B200, B300, GB200 NVL72). AMD är den närmaste utmanaren med MI400-serien och HBM4-minnesfördelen, medan Intel befinner sig under 1 procent marknadsandel med Gaudi 3.

Vad är skillnaden mellan AMD MI455X och Nvidia B200?

AMD MI455X erbjuder 432 GB HBM4 och 19,6 TB/s minnesbandbredd mot B200:s 192 GB HBM3e och 8 TB/s. Det är 2,25 gånger mer minne och 2,4 gånger mer bandbredd. FP8-prestanda är ungefär likvärdig på ~20 PFLOPS. AMDs minnesfördel är störst för inferensarbetsbelastningar med stora modeller.

Varför avvecklade Intel Falcon Shores?

Intel stoppade Falcon Shores i januari 2025 på grund av tre faktorer: en komplex unified CPU-GPU-arkitektur som inte fungerade, yield-problem på Intel 4 och Intel 3-processnoder, och en marknad som skiftade mot specialiserade inferenschips snarare än generella träningschips. Intel ersätter det med Jaguar Shores, en rack-scale-lösning på 18A-processen.

Nvidia, AMD och Intel: vem äger AI-chips 2026?

AI-chipmarknaden passerade 120 miljarder dollar 2025. Tre gånger vad den omsatte 2023. Investeringsbanker projicerar 200 miljarder dollar 2026. Och trots år av löften om att AMD och Intel ska bryta Nvidias grepp, kontrollerar Nvidia fortfarande runt 80 procent av market share för data center-AI-acceleratorer.

Det enkla svaret på vem som vinner är Nvidia. Men det enkla svaret missar varför, vad som faktiskt förändras och var de riktigt intressanta stridslinerna löper. Den här analysen täcker Nvidia Blackwell-arkitekturen, AMD Instinct MI400-serien, Intels strategiska reset, och custom silicon från Google, Amazon, Microsoft och Meta.

Nvidia säljer inte chips. De säljer en infrastruktur som tog 15 år att bygga. Det är skillnaden mellan ett hårdvarukrig och ett ekosystemkrig, och AMD och Intel befinner sig fortfarande på fel sida av den gränsen.

Blackwell-eran: Nvidia sätter ribban

Nvidias nuvarande arkitektur heter Blackwell. Den definierar referenspunkten alla andra mäts mot 2026.

B200 levererar 20 petaFLOPS FP4 per GPU med 192 GB HBM3e och 8 TB/s minnesbandbredd, vid 1 000 watts. B300 Blackwell Ultra skickades i januari 2026 med 288 GB HBM3e, 12 TB/s och 15 petaFLOPS dense FP4. Siffrorna imponerar. Det verkliga språnget är rack-skalan.

GB200 NVL72: rack-skala som redefinierar jämförelsen

GB200 NVL72 är 36 Grace CPUs och 72 B200 GPUs i ett enda rack, sammankopplade via NVLink 5. Systemet levererar 720 petaFLOPS FP4 och genererar 30 gånger fler tokens per sekund än ett H100-system, mätt på LLM-inferens med modeller i biljonparametersklassen. HPE levererade sina första exemplar i februari 2025.

GB300 NVL72, med B300 Ultra, tar det till 1,1 exaFLOPS FP4 per rack. För att sätta det i perspektiv: en enskild GB300-rack levererar mer AI-beräkningskraft än hela superdatorsystem som ansågs extrema för tre år sedan.

System	FP4/FP8	Minne	Bandbredd
Nvidia B200	20 PFLOPS FP4	192 GB HBM3e	8 TB/s
Nvidia B300 Ultra	15 PFLOPS dense FP4	288 GB HBM3e	12 TB/s
Nvidia GB200 NVL72	720 PFLOPS FP4	13,8 TB HBM3e (totalt)	576 TB/s
AMD MI455X	40 PFLOPS FP4	432 GB HBM4	19,6 TB/s
Intel Gaudi 3	1,8 PFLOPS BF16	128 GB HBM2e	3,7 TB/s

Rubin: nästa generation är redan planerad

Nvidia tillkännagav Rubin (R200) för Q2 2026. Arkitekturen byter från HBM3e till HBM4, ökar minnesbandbredden från 12 TB/s till 13 TB/s och introducerar NVLink 6. Rubin NVL144 ska leverera 3,6 exaFLOPS FP4, 3,3 gånger mer än Blackwell Ultra.

Rubin Ultra 2027 tar in 576 GPUs i ett enda rack (NVL576) och projicerar 15 exaFLOPS FP4 för inferens. Efter Rubin Ultra kommer Feynman. Produkttakten en ny arkitektur per år är inte ett marknadsföringsargument, det är en supply chain-strategi. Varje gång en konkurrent lyckas producera ett konkurrenskraftigt chip, har Nvidia redan gått vidare till nästa generation.

CUDA-moat: programvaran konkurrenterna inte kan kopiera

Det standardiserade narrativet om Nvidias CUDA-fördel förenklar det verkliga läget. CUDA lanserades 2007. Under 18 år har varje maggiort AI-bibliotek optimerats för det. TensorRT, cuDNN, cuBLAS, NCCL. De flesta ML-ramverk, vLLM, Hugging Face Transformers, PyTorch, har CUDA som primärmål. Att byta bort Nvidia i en produktion-AI-miljö innebär inte bara att byta GPU. Det innebär att migrera verktyg, utbilda ingenjörerna och hitta ersättning för decennier av finjusterade bibliotek.

Utmaningarna är reala. OpenAI Triton och MLIR har bevisat att GPU-kod kan skrivas en gång och nå nära-paritetsprestanda på annan hårdvara. Custom silicon representerar redan 20 procent av marknaden och projiceras till 28 procent 2026, främst inom inferens. Men på training, det tyngsta beräkningsarbetet för att bygga frontlinjsmodeller, håller CUDA-ekosystemet. Det är inte bara CUDA som programmeringsspråk utan ett cuda ecosystem av verktyg, architecture-specifika bibliotek och utbildad arbetskraft som ingen konkurrent matchar i dag.

AMD MI400: minnesfördelen som ändrar inference-kalkylen

AMD presenterade MI400-serien på CES 2026. Flaggskeppet MI455X bygger på CDNA 5-arkitekturen och TSMC N2 (2nm) med 320 miljarder transistorer. Minnessiffrorna är genuint imponerande.

MI455X bär 432 GB HBM4 mot B200:s 192 GB HBM3e. Minnesbandbredden är 19,6 TB/s mot B200:s 8 TB/s. Det är 2,25 gånger mer minne och 2,4 gånger mer bandbredd. För inferensarbetsbelastningar, vilket innebär att serva en stor modell till miljontals förfrågningar, är minnesbandbredd ofta flaskhalsen. En MI455X kan hålla en mycket större modell i minnet utan att dela upp den över flera GPUs. Färre chips per driftsatt modell kan innebära lägre total ägandekostnad.

FP8-prestanda landar på 20 petaFLOPS för MI455X mot B200:s 20 petaFLOPS. På pappret lika. FP4 ger AMD 40 petaFLOPS mot B200:s 40 petaFLOPS. Också lika. Minnesfördelen och minnesbandbredden är den verkliga differentiatorn, inte råa FLOPS. AMD:s CDNA 5 architecture med HBM4 och överlägsen memory bandwidth ger en market share-möjlighet som Nvidias Blackwell inte kan bemöta förrän Rubin levereras.

Helios vs DGX SuperPOD: rack mot rack

Helios är AMDs rack-scale-plattform, 72 MI455X plus EPYC Venice (Zen 6) CPUs. Det ger 2,9 exaFLOPS FP4 inferens och 1,4 exaFLOPS FP8 training per rack, med 31 TB HBM4 i aggregat. Jämfört med GB200 NVL72:s 720 petaFLOPS FP4 ser Helios imponerande ut, men jämförelsen kräver metodisk försiktighet. Precision, model-sharding och reala benchmark är inte identiska.

AMD har säkrat kundåtaganden. Meta, Microsoft och OpenAI har bekräftat MI350-deployments 2025. TensorWave har åtagit sig Helios-driftsättning. Analytiker på S&P Global Market Intelligence projicerar 7,2 miljarder dollar i MI400-intäkter år ett, baserat på 258 000 enheter till ett snittpris på ungefär 31 000 dollar. Det är AMDs ambitiösaste AI-lansering hittills.

ROCm: mjukvaruglappet är fortfarande AMDs akilleshäl

ROCm 7.0 levererar 4 gånger bättre inferensprestanda och 3 gånger bättre träning jämfört med ROCm 6.0. PyTorch, TensorFlow och JAX stöds. Samarbete med Hugging Face säkerställer att populära öppna modeller körs effektivt.

Men Matt Bryson på Wedbush Securities sammanfattar det konkurrenter inte vill höra: “AMD’s hardware specs are increasingly competitive, but the CUDA moat is real.” Daniel Newman på Futurum Group är mer direkt: “The gap with CUDA is still measured in years, not months.”

AMDs svar på NVLink är UALink, ett öppet interconnect-standard backat av AMD, Intel, Google, Meta, Microsoft och Broadcom. Om UALink får bred adoption minskar ett av Nvidias centrala fördelar. Det är ett strategiskt drag, inte bara ett tekniskt val.

Intel: Falcon Shores ner, Jaguar Shores upp

Intel avvecklade Falcon Shores i januari 2025. Michelle Johnston Holthaus, Intels co-CEO, meddelade att chips-et skulle “levereras as an internal test chip, without bringing it to market.” Tre år av arkitekturutveckling, borta.

Orsakerna är tre: komplex unified CPU-GPU-arkitektur som inte fungerade, yield-problem på Intel 4 och Intel 3, och en marknad som skiftade mot specialiserade inferensprocessorer snarare än generella träningschips.

Gaudi 3: kompetent, men missade AI-vågen

Gaudi 3 lanserades i april 2024. Specifikationerna är i rätt klass: 1,8 PFLOPS BF16, 128 GB HBM2e, 3,7 TB/s minnesbandbredd, 600W. Nätverksarkitekturen är faktiskt differentierad, native Ethernet via 24 portar à 200 Gbps istället för proprietär interconnect, vilket förenklar klusterkonfiguration.

Problemet är prestanda. Data Center Dynamics exklusiva benchmark visade att Nvidia H200 slår Gaudi 3 med en faktor 9 på Llama 3.1 405B-inferens. Inflection AI valde ändå Gaudi 3 och rapporterade upp till 2 gånger bättre price-performance för Inflection 3.0. Cost-conscious kunder kan hitta ett case, men Gaudi 3 har inte tagit del av den stora AI-chipvågen.

18A-processen: Intels make-or-break-teknologi

Jaguar Shores, tillkännagivet av ny CEO Lip-Bu Tan, bygger på en helt annan filosofi. Intel väljer sin egna 18A-process (effektivt 1,8nm) med RibbonFET gate-all-around-transistorer och PowerVia backside-strömförsörjning. Det sistnämnda minskar resistansen i strömfördelningen med 30 procent och frigör routingsresurser på chippets framsida. TSMC N2 erbjuder 1,15 gånger densitetsökning jämfört med N3. Intel 18A hävdar 1,5 gånger jämfört med Intel 3.

Arkitekturen är rack-scale, disaggregerade compute, minne och storage med silicon photonics för optiska interconnects (400 Gbps till 1,6 Tbps, tio gånger lägre latens än koppar). HBM4 från SK Hynix med ett 3 miljarder dollar-åtagande, angivet från Intels CTO Sachin Katti. Tidlinjen: initial silicon Q4 2025, volymproduktion H2 2026. Risken är välkänd. Intel har missat tidlinjerna på 7 av 10 stora produkter de senaste fem åren.

Hyperscalernas egenbyggda chips: marknaden fragmenterar

Nvidia FY2026-intäkter uppgick till 215,9 miljarder dollar, ökning 65 procent jämfört med föregående år. Det är en siffra som förklarar både varför ingen kan ignorera Nvidia och varför varje stor kund vill minska beroendet.

Google TPU v6 Trillium erbjuder 4,7 gånger mer compute per chip än TPU v5e och 67 procent bättre energieffektivitet. GA på Google Cloud till 2,70 dollar per chip-timme, fyra gånger bättre price-performance än H100-instanser för LLM-arbetsbelastningar. Anthropic tecknade avtal om upp till en miljon TPUs i oktober 2025, den hittills största affären i Google Clouds historia.

AWS Trainium3 ger 2,52 petaFLOPS FP8 på 3nm med 144 GB HBM3e. Både Anthropic och OpenAI är bekräftade kunder. Amazon AWS custom silicon är nu ett 10-plus miljarder dollar run-rate business.

Microsoft Maia 200 körde på TSMC 3nm med 140-plus miljarder transistorer och 216 GB HBM3e. Det kör GPT-5.2, Microsoft Foundry och Copilot i Azure US Central. Fokuset är rent inferens.

Meta MTIA är en aggressiv fjärde aktör. Fyra generationer RISC-V-chips (MTIA 300–500) presenterades i mars 2026, byggda med Broadcom och TSMC. Från MTIA 300 till MTIA 500: 25 gånger mer compute FLOPS, ny generation var sjätte månad.

Den gemensamma konsekvensen är att de hyperscaler-kunder som representerar Nvidias största intäktsflöde aktivt bygger alternativ. Inte för att Nvidia är dåligt, utan för att vendor lock-in och supply risk med en enda leverantör är en strategisk risk man inte vill ha.

Alternativa arkitekturer: Cerebras, Groq och vad som hände sedan

Cerebras WSE-3 är en 300mm wafer med 4 biljoner transistorer, 900 000 AI-kärnor och 44 GB on-chip SRAM kopplat med ett 21 petabytes-per-sekund fabric. Benchmark på GPT-OSS-120B visade runt 2 700 tokens per sekund, ett resultat GPU-kluster inte kan matcha utan massiv parallellisering över dussintals H100. Waferscale-arkitekturen levererar deterministisk inferens med latenser och tokens per second som är omöjliga att nå med traditionell GPU-design.

I januari 2026 tecknade Cerebras och OpenAI ett 10 miljarder dollar Master Relationship Agreement för 750 megawatt inferenskapacitet, levererat över tre år. Cerebras lämnade in sin Nasdaq-noteringsansökan i april 2026 med ett målvärde på 22–25 miljarder dollar baserat på 510 miljoner dollar i 2025-intäkter.

Groq byggde LPU-arkitekturen, Learning Processing Unit, specifikt för deterministisk, låglatens-inferens. Jonathan Ross, Groqs grundare och personen som startade Googles TPU-projekt, sålde bolaget till Nvidia på julafton 2025 i ett 20 miljarder dollar-aquihire. Ross är numera chief software architect på Nvidia och leder en ny Real-Time Inference-division. Signalen är tydlig: Nvidia förstår att inferens är den verkliga frontlinjen.

Exportkontroller och den kinesiska variabeln

USA:s exportkontroller begränsar försäljning av H100, H200 och B200 till Kina. Export controls är en direkt effekt av CHIPS Act och den geopolitiska spänningen kring AI-dominans. AMD kringgår restriktionerna med MI308, en nedskalad variant, och sålde 390 miljoner dollar av det till kinesiska kunder Q4 2025. Huawei Ascend 910C fyller luckan på hemmaplan. Energieffektivitet per TFLOPS/W är en av anledningarna kinesiska kunder tittar på alternativa arkitekturer.

Sovereign AI-trenden driver en separat marknadsdynamik. EU-länder investerar i nationell AI-infrastruktur. AMDs MI430X används i Alice Recoque, en europeisk superdator. Nvidia säljer aktivt DGX-system till europeiska nationalstater. Det är en marknad som inte existerade för tre år sedan och som inte styrs av CUDA-moaten utan av datalokaliseringslagstiftning och geopolitiska överväganden.

Nvidias svar på CHIPS Act-eran är Sovereign AI-programmet, en serie partnerskap med nationella regeringar för att bygga inhemska AI-kluster. Det är inte välgörenhet, det är geografisk diversifiering av intäktsbasen inför en potentiellt mer fraktionerad världsekonomi.