AI Tools

Hoe Mercury 2 de 'Latentie Muur' Voorgoed Doorbroken Heeft

Mercury 2 is het eerste redenerende diffusie-taalmodel. Door tekst parallel te bewerken haalt het >1.000 tokens/sec, perfect voor realtime AI.

Erik van de Blaak
Erik van de Blaak
6 min leestijd 128 weergaven
Hoe Mercury 2 de 'Latentie Muur' Voorgoed Doorbroken Heeft

De Evolutie van AI: Hoe Mercury 2 de 'Latentie Muur' Voorgoed Doorbroken Heeft

Iedereen die regelmatig met AI werkt, kent die herkenbare, kleine frustratie: je typt een complexe prompt in, drukt op enter, en vervolgens wacht je. Je staart naar je scherm terwijl de taalmodellen woord voor woord, zin voor zin hun antwoord uittypen. Het voelt magisch, maar tegelijkertijd is het alsof je naar een onzichtbare, behoorlijk trage typemachine zit te kijken. Voor een simpel mailtje is dat geen ramp, maar voor realtime toepassingen is die wachttijd dodelijk.

Wat nou als ik je vertel dat we die denkbeeldige typemachine eindelijk bij het grofvuil kunnen zetten? Maak kennis met Mercury 2, een gloednieuw taalmodel van de start-up Inception Labs. Dit model schudt de techwereld momenteel flink op door een fundamenteel andere aanpak te kiezen en alle bestaande snelheidsrecords te verpulveren.

De Typemachine versus De Eindredacteur

Om te snappen waarom Mercury 2 zo'n gigantische sprong voorwaarts is, moeten we even onder de motorkap kijken. Vrijwel alle bekende AI-modellen (zoals Claude, Gemini en de GPT-reeks) werken autoregressief. Dat is een duur woord om aan te geven dat ze tekst serieel genereren: ze voorspellen het eerste woord, dan het tweede, enzovoort. Het grote nadeel hiervan is dat dit proces inherent traag is. Erger nog: als het model halverwege een foute logische afslag neemt, kan het niet meer terug. De fout is net zo permanent als inkt op papier, waardoor fouten zich onherroepelijk opstapelen (cascading errors).

Mercury 2 pakt dit totaal anders aan en gebruikt diffusietechnologie. Dit is exact hetzelfde geniale concept dat de drijvende kracht is achter populaire beeld- en videogeneratoren zoals Midjourney en Sora. In plaats van woord voor woord te typen, start Mercury 2 met een ruwe schets van 'ruis' en creëert het de complete tekst in één keer. Daarna wordt de hele respons in een razendsnel tempo parallel verfijnd en opgepoetst.

Je kunt het het beste vergelijken met een scherpe eindredacteur die de volledige tekst overziet. Maakt het model ergens in het midden een foutje? Dan gaat het simpelweg 'terug in de tijd' tijdens een verfijningsstap en corrigeert het die specifieke woorden, voordat jij de uiteindelijke tekst überhaupt ziet.

Absurde Snelheid: Meer dan 1.000 Tokens per Seconde

Leuk, al die theorie, maar wat merk je daarvan in de praktijk? Klinkklare, ongekende snelheid. Mercury 2 klokt tijdens tests met gemak meer dan 1.000 tokens per seconde op NVIDIA Blackwell GPU's. Om dat in perspectief te plaatsen: modellen die specifiek door de concurrentie zijn gebouwd voor snelheid, zoals Claude 4.5 Haiku of GPT-5.2 mini, blijven ergens steken rond de 70 tot 89 tokens per seconde. Mercury 2 is dus letterlijk een compleet andere gewichtsklasse.

Een bizar en prachtig voorbeeld zagen we tijdens een test waarbij ontwikkelaars vroegen om een werkende Tetris-game te coderen, maar dan met de twist dat de blokjes omhoog moesten vallen in plaats van omlaag.

  • Claude Haiku deed er 1 minuut en 24 seconden over.
  • Gemini 3 Flash faalde na 1 minuut en 8 seconden door niet-werkende code te leveren.
  • Mercury 2? Dat zette de perfect werkende game in slechts 18 seconden op het scherm.

Nog een voorbeeld? Het genereren van een werkende, browser-gebaseerde Mac OS-interface met SVG-icoontjes kostte het model slechts 12 seconden. Kortere, end-to-end taken worden in benchmarks zelfs al in zo'n 1,7 seconden afgerond.Razendsnel, maar mét Hersens (Reasoning)

Snelheid is natuurlijk waardeloos als de output nergens op slaat. Het ware unicum van Mercury 2 is dat het 's werelds allereerste diffusie-taalmodel is dat ook daadwerkelijk kan redeneren (reasoning). Gebruikers en ontwikkelaars kunnen de 'denkkracht' zelfs handmatig instellen op niveaus zoals instant, low, medium en high.

Zet je het model op 'high' voor een complexe programmeertaak, dan denkt het diep na en structureert het zijn logica. Dit levert indrukwekkende testresultaten op:

  • Een score van meer dan 90 op de loodzware wiskundige AIM-benchmark.
  • Scores in de mid-70s op de GPQA-test, die academisch wetenschappelijk redeneren toetst.
  • Het perfect volgen van bizarre opdrachten, zoals het schrijven van een coherent verhaal waarbij elke zin exact één woord langer moet zijn dan de vorige (van 2 tot 20 woorden, en weer terug).
  • Naadloos gebruik van ingebouwde tools, zoals realtime zoeken op het web om de nieuwste feiten op te halen.

Waar Gaan We Dit In De Praktijk Voor Gebruiken?

Doordat de befaamde "latency wall" (de vertragingsmuur) in de AI-wereld nu is doorbroken, opent dit deuren voor applicaties die tot nu toe veel te stroef liepen:

  1. Vloeiende Voice Assistenten: Bij gesproken klantenservice via AI is elke seconde stilte funest. Dankzij de sub-seconde responstijd voelt een gesproken conversatie met Mercury 2 ineens ontzettend natuurlijk aan, alsof je met een echt mens belt.
  2. Agentic Workflows & RAG: AI-agenten die zelfstandig meerdere stappen uitvoeren (plannen, documenten zoeken, acties ondernemen) liepen vaak vast omdat elke stap op de vorige moest wachten. Doordat Mercury 2 deze wachttijden minimaliseert, werken geautomatiseerde processen (zoals RAG-pipelines voor data-extractie) nu sneller en betrouwbaarder dan ooit.
  3. Realtime Programmeren: Voor developers die direct features willen bouwen of code willen refactoren, voelt dit als pure magie. Je vraagt om een stuk software, en de code staat letterlijk vrijwel direct op je scherm. Dit houdt programmeurs perfect in hun flow.

Gemaakt door Zwaargewichten (en Verrassend Betaalbaar)

Dit meesterwerkje komt niet zomaar uit de lucht vallen. Het team achter Inception Labs bestaat uit professoren en onderzoekers van topuniversiteiten als Stanford, UCLA en Cornell. Deze mensen stonden in het verleden zelf aan de wieg van diffusietechnologie. Bovendien hebben ze zware financiële steun gekregen van tech-iconen als Andrew Ng, Andrej Karpathy, Microsoft en Nvidia.

Ze hebben ervoor gezorgd dat dit model niet alleen waanzinnig slim is, maar ook super toegankelijk voor ontwikkelaars. Mercury 2 werkt als een directe 'drop-in replacement' voor de veelgebruikte OpenAI API. Je hoeft je code dus niet compleet te herschrijven. Verder heeft het een gigantisch context window van 128.000 tokens en is de prijs ronduit agressief laag gehouden: slechts $0,25 per miljoen input tokens en $0,75 per miljoen output tokens.

Ervaar Het Zelf

We hebben als industrie jarenlang geprobeerd om dat trage, sequentiële model te versnellen met alsmaar grotere chips en trucjes. Mercury 2 bewijst dat we het probleem fundamenteel anders moesten benaderen: door de flessenhals in zijn geheel weg te nemen.

Maar geloof mij niet zomaar op mijn woord, je kunt de krankzinnige snelheid en het redeneervermogen van deze diffusie-aanpak nu direct zelf testen. Ga naar https://chat.inceptionlabs.ai/, speel wat met de verschillende 'reasoning' instellingen (zoals instant of high) en ervaar met eigen ogen hoe de toekomst van AI voelt. Wees wel gewaarschuwd: als je deze snelheid eenmaal gewend bent, voelt die oude AI-'typemachine' daarna waarschijnlijk tergend langzaam aan!

Deel dit artikel

Reacties (0)

Laat een reactie achter

Wordt niet gepubliceerd

Je reactie wordt gecontroleerd voordat deze zichtbaar wordt.

Nog geen reacties. Wees de eerste!

Gerelateerde artikelen