Hoe werken AI-agents?

De nieuwe AI-chip van Alibaba voor het tijdperk van AI-agents: wat dit betekent voor uw AI-strategie

Alibaba heeft de XuanTie C950 geïntroduceerd, een serverklasse-processor die speciaal is ontwikkeld om AI-agents op grote schaal te draaien. De chip, aangekondigd op de jaarlijkse ecosysteemconferentie van het bedrijf in Shanghai, draait op een 5-nanometerproces met 3,2 GHz en levert ruim drie keer de prestaties van zijn voorganger. Voor organisaties die AI-agents willen inzetten, markeert dit een verschuiving in hoe de onderliggende infrastructuur wordt ontworpen, geprijsd en beheerd.

Wat is agentic AI en waarom vereist het andere hardware?

Agentic AI verwijst naar systemen die verder gaan dan het genereren van tekst of het beantwoorden van vragen. Dit zijn AI-systemen die zelfstandig meerstapstaken uitvoeren: gegevens uit het ene systeem ophalen, een beslissing nemen, een record in een ander systeem bijwerken en samenwerken met andere agents om een workflow te voltooien. Een supply-chain-agent kan bijvoorbeeld de voorraad bewaken, op basis van realtimeprijzen opnieuw onderhandelen over leveranciersvoorwaarden en zonder menselijke tussenkomst nieuwe bestellingen in gang zetten. Een e-commerce-agent kan prijzen op verschillende marktplaatsen aanpassen, productvermeldingen beheren en geschillen van begin tot eind oplossen.

Deze workflows stellen andere eisen aan de hardware dan een chatbot die afzonderlijke vragen beantwoordt. Een chatbot heeft één snelle reactie nodig. Een agent die een workflow van tien stappen over drie bedrijfssystemen coördineert, heeft bij elke stap continu rekenvermogen met lage latentie nodig. Daarvoor zijn processors nodig die zijn geoptimaliseerd voor sequentiële besluitvorming, niet alleen voor ruwe parallelle doorvoercapaciteit. De C950 is precies voor dit soort workloads ontworpen.

Wat Alibaba heeft gebouwd: de XuanTie C950 in het kort

De C950 is een CPU, geen GPU. GPU’s voeren de parallelle berekeningen uit die nodig zijn om grote AI-modellen te trainen. CPU’s voeren sequentiële, algemene taken uit: invoer lezen, logica beheren en instructies in volgorde uitvoeren. Daardoor zijn CPU’s van cruciaal belang voor AI-inferentie, de fase waarin een getraind model daadwerkelijk echte invoer verwerkt en echte uitvoer produceert.

Het technische profiel: 5-nanometerproductie, kloksnelheid van 3,2 GHz, RISC-V-architectuur. De processor maakt gebruik van een decodeerbreedte van 8 instructies en een 16-traps pijplijn, waardoor hij grote hoeveelheden instructies efficiënt kan lezen en uitvoeren. Alibaba beweert dat de processor meer dan 70 punten heeft behaald op de SPECint2006-benchmark, een nieuw wereldrecord voor RISC-V-processors.

In combinatie met Alibaba’s Vector Acceleration Engine en Matrix Acceleration Engine voert de chip inferentie uit voor de Qwen-taalmodellen van het bedrijf en de open-source DeepSeek-serie. De architectuur biedt bovendien de mogelijkheid tot maatwerk: gebruikers kunnen instructiesets afstemmen op specifieke inferentiepatronen, wat volgens Alibaba een prestatieverbetering van meer dan 30% oplevert ten opzichte van gangbare alternatieven wanneer deze voor bepaalde gebruiksscenario’s worden geoptimaliseerd.

Het strategische plaatje: exportbeperkingen, RISC-V en zelfvoorziening

De RISC-V-architectuur van de C950 is niet alleen een technische keuze. RISC-V is een open-sourceontwerp voor chips, waarvoor geen licentiekosten hoeven te worden betaald en dat, wat cruciaal is, niet onder Amerikaanse exportbeperkingen valt. De concurrerende architectuur, Arm, vereist royalty’s en is gebonden aan westerse intellectuele eigendom. Door Amerikaanse beperkingen heeft China beperkte toegang tot geavanceerde Nvidia-GPU’s, wat de ontwikkeling van architecturen die China zelfstandig kan ontwikkelen en produceren, in een stroomversnelling heeft gebracht.

Alibaba lanceerde de XuanTie-serie in 2018 en heeft deze gestaag verder ontwikkeld: de C910 in 2019, de C920 in 2024, chips van serverkwaliteit in 2025 en nu de C950. T-Head, de chipontwerpafdeling van Alibaba, heeft in februari 2026 meer dan 470.000 AI-chips geleverd en nadert een jaaromzet van 10 miljard yuan (ongeveer 1,45 miljard dollar). Naar verluidt bereidt de afdeling zich voor op een afzonderlijke beursgang.

De bredere context is veelzeggend. Volgens gegevens van OpenRouter-analisten hadden Chinese open-source taalmodellen in 2026 ongeveer 30% van het wereldwijde marktaandeel in handen, tegenover 1,2% in 2024. Op elk niveau – van modellen tot chips en agentplatforms – wordt het Chinese AI-ecosysteem steeds minder afhankelijk van westerse technologie.

Hoe dit verband houdt met de implementatie van AI-agents

De C950 is niet alleen van belang binnen de eigen cloud van Alibaba. Het geeft aan dat grote infrastructuuraanbieders chips ontwerpen die specifiek zijn afgestemd op agent-workloads. Wanneer chipfabrikanten hun chips optimaliseren voor meerstapsredenering en -coördinatie in plaats van het genereren van resultaten in één stap, verandert dit wat er op grote schaal haalbaar is en tegen welke prijs.

Denk aan de parallellen met hoe organisaties vandaag AI-agents inzetten. Een Email Agent die inkomende berichten sorteert, antwoorden opstelt en actiepunten doorstuurt, voert tientallen inferentie-aanroepen uit per e-mailconversatie. Een Pro-Active Agent die projecttijdlijnen bewaakt, draait continu inferentielussen om risico’s te signaleren voordat ze escaleren. Een Custom Agent die afdelingsspecifieke workflows beheert, zoals factuurverwerking of compliance-controles, heeft bij elke stap van een meerfasige pijplijn continu rekenvermogen nodig.

Speciaal ontwikkelde inferentiehardware maakt deze workloads goedkoper en sneller. Naarmate meer aanbieders het voorbeeld van Alibaba volgen, zullen de kosten om agent-orkestratie op grote schaal uit te voeren dalen, waardoor multi-agent-implementaties ook toegankelijk worden voor middelgrote organisaties die dit nu nog als onbetaalbaar beschouwen.

Wat dit betekent voor uw organisatie

Alibaba verkoopt de C950 niet aan externe partijen. In plaats daarvan wordt het gebruikt voor de diensten van Alibaba Cloud, wat betekent dat zakelijke klanten via cloud-API’s toegang hebben tot de chip. Maar de gevolgen reiken verder dan één leverancier.

Ten eerste dalen de kosten per inferentie. Wanneer grote cloudproviders hun eigen chips ontwerpen, zijn ze minder afhankelijk van de prijzen van Nvidia en geven ze een deel van die besparingen door aan hun klanten. Voor organisaties die AI-agents in meerdere afdelingen inzetten, lopen zelfs kleine kostenbesparingen per inferentie snel op.

Ten tweede bevestigt de concurrentie op het gebied van hardware het agentmodel. Het feit dat er miljardenprogramma’s voor chips worden opgezet rond agentgebaseerde workloads, bevestigt dat de sector multi-agentsystemen beschouwt als het dominante implementatiemodel voor AI, en niet als een niche-experiment. Organisaties die wachten met het ontwikkelen van hun agentstrategie, zullen steeds verder achterop raken naarmate de infrastructuurkosten dalen en de acceptatie toeneemt.

Ten derde is diversificatie van leveranciers van belang. Naarmate Chinese en westerse AI-stacks steeds verder uit elkaar groeien, kunnen wereldwijd opererende organisaties behoefte hebben aan agentarchitecturen die bij verschillende cloudproviders functioneren. Een contextgerichte aanpak, in combinatie met gestructureerde bijscholing van teams, waarbij uw Interactive Agent put uit een gedeelde kennisbank in plaats van gebonden te zijn aan de modellen van één leverancier, biedt bescherming tegen veranderingen in de infrastructuur.

Hoe u uw AI-agentstrategie kunt afstemmen op de verschuiving in de infrastructuur

Stap 1: Scheid uw agentlogica van uw infrastructuur

Ontwerp uw AI-agent-workflows zo dat ze niet gebonden zijn aan één specifieke cloudprovider of chiparchitectuur. Maak gebruik van orkestratielagen die inferentie kunnen doorsturen naar de backend die op dat moment de beste prijs-kwaliteitverhouding biedt. Zo bent u beschermd tegen veranderingen op de hardwaremarkt.

Stap 2: Controleer uw inferentiekosten

De meeste organisaties houden de uitgaven voor inferentie per agent niet bij. Begin nu met het meten hiervan. Zorg dat u weet wat de kosten per transactie zijn voor de workflow van elke agent, zodat u kunt profiteren van prijsdalingen wanneer speciaal ontwikkelde chips zoals de C950 in productie gaan. Een Agent Strategy Scan kan helpen vaststellen waar uw meest intensieve inferentieworkloads zich bevinden.

Stap 3: Geef prioriteit aan veelgebruikte agent-workflows

De grootste kostenbesparingen dankzij goedkopere hardware voor inferentie zullen zich in de eerste plaats voordoen bij omvangrijke, meerstapsworkflows. Ga na welke agents in uw organisatie de meeste transacties afhandelen: e-mailtriage, doorverwijzing van klanten, documentverwerking. Dit zijn de workflows waarbij verbeteringen in de infrastructuur direct leiden tot een hogere winstmarge.

Stap 4: Bouw nu uw contextlaag op

Goedkopere inferentie betekent dat meer organisaties AI-agents zullen inzetten. Het onderscheidende vermogen zal niet liggen in de rekenkracht, maar in de context. De organisaties die het gaan maken, zijn die waarvan de agents hun specifieke bedrijfsregels, klantgeschiedenis en operationele patronen begrijpen. Begin nu met het opbouwen van die contextlaag, zodat u klaar bent om op te schalen zodra de kosten dalen.

Stap 5: Houd de hardware-roadmap in de gaten

Houd de mogelijke beursgang van T-Head, de prijswijzigingen bij Alibaba Cloud en de vraag of concurrenten zoals Tencent en ByteDance hun eigen, voor inferentie geoptimaliseerde chips op de markt brengen, goed in de gaten. Elke ontwikkeling zal van invloed zijn op de economische aspecten van de inzet van agents. Organisaties die deze verschuivingen volgen, kunnen hun beslissingen over schaalvergroting zo afstemmen dat deze samenvallen met kostendraaipunten.