Een wiskundige werkte 20 jaar aan dit probleem. GPT-5.4 loste het op

🗞️ Het belangrijkste nieuws

ChatGPT-5.4: het beste AI-model ter wereld (tot volgende week)

OpenAI heeft met GPT-5.4 een nieuw model uitgebracht dat op vrijwel alle vlakken beter presteert dan alles wat er tot nu toe was. Betere spreadsheets, betere presentaties, betere code, en voor het eerst kan het ook zelfstandig je computer bedienen. Maar in een wereld waarin bijna elke week een nieuw ‘beste model ooit’ verschijnt, wordt de draagtijd van die kroon steeds korter.

Arguably het beste model, voor nu

Ethan Mollick, hoogleraar aan Wharton en auteur van ons boek Co-intelligentie, vat de huidige situatie treffend samen: elke keer dat OpenAI, Anthropic (de maker van Claude) of Google een nieuw model uitbrengt, is dat even het beste model ter wereld, tot de volgende release van een van de drie. Aangezien er bijna wekelijkse nieuwe releases verschijnen, is de race competitiever dan ooit.

Maar die nuancering neemt niet weg dat GPT-5.4 indruk maakt. Matt Shumer, AI-ondernemer en schrijver van het virale essay ‘Something Big Is Happening’, testte het model een week lang en is uitgesproken: “Dit is het beste model ter wereld. Met afstand. Het is zo goed dat het de vraag ‘welk model moet ik gebruiken?’ bijna overbodig maakt.”

Peter Steinberger, maker van OpenClaw, is genuanceerder: “Het is een goed model, de sprong in programmeren is vergelijkbaar met eerdere verbeteringen, maar het is nu op alle vlakken slimmer: het schrijft betere documentatie, is een betere allround-assistent en is prettiger in gebruik.” Neem zijn mening met een korrel zout: Steinberger werkt inmiddels voor OpenAI.

Wat is er veranderd?

GPT-5.4 bundelt voor het eerst de beste capaciteiten van eerdere modellen in één pakket. Het is flink beter geworden in het maken van presentaties, het bouwen van financiële modellen en het opstellen van documenten. In een interne test met spreadsheettaken die normaal door een junior analist bij een investeringsbank worden uitgevoerd, scoorde het 87,5 procent, tegenover 68,4 procent voor de vorige versie. Bij presentaties gaven menselijke beoordelaars in 68 procent van de gevallen de voorkeur aan GPT-5.4.

Een vergelijking van de output van GPT-5.4 met zijn voorganger. Bron afbeelding: OpenAI

Nieuw is dat het model zelfstandig je computer kan bedienen: klikken, typen, door software navigeren. Op OSWorld (een test die meet hoe goed AI door een desktopomgeving kan navigeren) haalt GPT-5.4 een score van 75 procent, ruim boven de menselijke score van 72,4 procent en ver boven de 47,3 procent van de vorige versie. OpenAI heeft ook een Excel-plugin gelanceerd die voorlopig in bèta is en alleen in de VS beschikbaar is.

Daarnaast kun je het model halverwege een antwoord bijsturen: het toont eerst een plan van aanpak, zodat je de koers kunt aanpassen zonder opnieuw te beginnen.

De wetenschap is onder de indruk

Wiskundige Bartosz Naskręcki, verbonden aan Epoch AI (een vooraanstaand onderzoeksinstituut dat AI-vooruitgang meet), zag GPT-5.4 een probleem oplossen waar hij twintig jaar aan werkte. Hij beschreef het als zijn persoonlijke move 37, een verwijzing naar de legendarische zet van Googles AlphaGo die geen mens had voorzien. “Het is een onheilspellend gevoel,” schreef hij, “maar ik heb zojuist mijn keerpunt ervaren… en ik kan je vertellen, er is daar leven mogelijk.”

De cijfers onderbouwen dat gevoel. Op FrontierMath, een extreem zware wiskundebenchmark (een soort examen voor AI-systemen) van Epoch AI, scoort de Pro-versie 50 procent op de reguliere opgaven en 38 procent op het allerzwaarste niveau. Ter vergelijking: het vorige record op dat niveau was 18,8 procent. Op CritPt, een benchmark met onopgeloste natuurkundeproblemen, springt GPT-5.4 Pro naar 30 procent, waar het vorige beste model (Gemini 3.1 Pro van Google) op 17,7 procent bleef steken.

Sowieso valt op dat AI-modellen de laatste weken steeds meer voormalige sceptici over de streep trekken. Donald Knuth, een 87-jarige legende in de informatica wiens standaardwerken al decennia verplichte kost zijn voor iedere programmeur, schreef onlangs dat het tijd wordt om zijn opvattingen over generatieve AI bij te stellen. Dat deed hij overigens naar aanleiding van Claude (van Anthropic), niet van GPT-5.4, maar het tekent de bredere trend: de wetenschap begint AI serieus te nemen als nuttig gereedschap.

Bron afbeelding: Stanford University

De kanttekeningen

Maar GPT-5.4 laat ook zien dat AI nog altijd last heeft van wat Ethan Mollick de jagged frontier noemt: een grillige, onvoorspelbare grens van wat AI wel en niet kan. Stel je een kasteelmuur voor met uitstekende torens en diepe inkepingen. Op sommige taken is AI bovenmenselijk goed, op andere faalt het op manieren die je niet zou verwachten. En het lastige is: je weet van tevoren niet waar die grens ligt.

Philip van AI Explained wijst erop dat GPT-5.4 op een interne OpenAI-benchmark met echte onderzoeksknelpunten zelfs slechter presteert dan zijn voorganger. Dat is het centrale debat in AI op dit moment: leidt verbetering op specifieke gebieden uiteindelijk tot brede intelligentie, of blijf je die grilligheid houden?

En dan de hallucinaties, momenten waarop het model met grote stelligheid onzin serveert. Volgens onderzoeksbureau Artificial Analysis verzint GPT-5.4 in 89 procent van de gevallen een antwoord wanneer het iets niet weet, in plaats van toe te geven dat het om een antwoord verlegen zit. Daarmee scoort het slechter dan zowel voorgaande modellen als concurrerende modellen van vergelijkbaar kaliber. OpenAI claimt dat feitelijke fouten met 33 procent zijn afgenomen, maar dat gaat over een andere meting. De les blijft: controleer altijd de output.

Wat betekent dit voor jou?

GPT-5.4 is een serieuze stap vooruit voor wie ChatGPT gebruikt voor werk. De combinatie van betere spreadsheets, presentaties, computergebruik en de mogelijkheid om halverwege bij te sturen maakt het model bruikbaarder dan ooit als assistent. In de AI Toolkit van vandaag laten we je uitgebreider zien wat je er concreet mee kunt doen.

Maar het blijft een tool die af en toe met droge ogen onzin vertelt. Houd daar rekening mee.

GPT-5.4 is beschikbaar voor ChatGPT Plus-, Team- en Pro-abonnees (vanaf 20 euro per maand). De Pro-versie is beschikbaar voor Pro- en Enterprise-gebruikers.

Anthropic onderzocht welke banen AI het hardst raakt

Welke beroepen worden het meest geraakt door AI? Anthropic, het bedrijf achter AI-assistent Claude, publiceerde deze week een grootschalig onderzoek op basis van eigen gebruiksdata. Het is de eerste keer dat een groot AI-lab met concrete cijfers uit de praktijk komt over welke taken AI daadwerkelijk overneemt, en welke niet.

Wat is er aan de hand?

Het onderzoek combineert drie bronnen: een Amerikaanse database met beroepen en bijbehorende taken, Anthropics eigen gebruiksgegevens (welke taken mensen daadwerkelijk aan Claude uitbesteden) en eerdere schattingen van de theoretische mogelijkheden van AI. Het cruciale verschil met eerdere studies: Anthropic meet niet alleen wat AI in theorie zou kúnnen, maar ook waar het in de praktijk daadwerkelijk voor wordt gebruikt.

De resultaten zijn ontnuchterend. AI is nog lang niet zo ver als de theorie suggereert. Neem de categorie ‘computer en wiskunde’: in theorie kan AI 94 procent van de taken in die beroepsgroep versnellen. In de praktijk wordt slechts 33 procent van die taken daadwerkelijk door AI uitgevoerd. Er zit dus een enorm gat tussen wat AI kán en wat er écht gebeurt.

Bron afbeelding: Anthropic

Wie wordt het meest geraakt?

Computerprogrammeurs staan bovenaan de lijst, met 75 procent van hun taken die in de praktijk door AI worden uitgevoerd. Daarna volgen klantenservicemedewerkers en data-invoermedewerkers. Aan de andere kant loopt 30 procent van alle werkenden helemaal geen risico. Denk hierbij aan koks, monteurs, barkeepers en badmeesters.

Een opvallende bevinding: de meest blootgestelde werknemers zijn vaker vrouw, hoger opgeleid, ouder en beter betaald. Het beeld dat AI vooral laaggeschoold werk raakt, klopt hier dus niet.

Maar: nog geen ontslaggolf

Ondanks die dreiging vinden de onderzoekers tot nu toe geen meetbare stijging van de werkloosheid bij de meest getroffen beroepsgroepen. Eén zorgwekkend signaal is er wel: de instroom van jonge werknemers (22 tot 25 jaar) in de meest risicovolle beroepen lijkt te vertragen, een daling van zo’n 14 procent. Maar ook dat cijfer is net aan statistisch significant.

De onderzoekers zijn zelf bescheiden over de conclusies: “Dit is een eerste stap. We hopen dat het kader dat we nu opzetten, toekomstige verschuivingen betrouwbaarder kan identificeren dan analyses achteraf.”

De realiteit bijt al wel

Tegelijkertijd zijn er signalen die wijzen op een minder rooskleurige werkelijkheid. Uit recente Amerikaanse arbeidsmarktcijfers blijkt dat de techsector banen verliest in een tempo dat sinds de dotcomcrisis niet meer is voorgekomen. Econoom Joseph Politano noemt het “duidelijk en significant erger dan de recessie van 2020, en iets erger dan 2008”. AI speelt daar volgens hem een rol in, al is dat lastig te kwantificeren.

Niet in een vacuüm

Een belangrijke kanttekening die we zelf willen maken: dit soort onderzoeken worden vaak gelezen als een checklist. Is mijn baan veilig of niet? Maar banen bestaan niet in een vacuüm. Als twintig procent van alle kenniswerkers hun baan verliest, heeft dat een domino-effect op de hele economie. Minder uitgaven, minder vraag naar diensten, minder werk voor beroepen die op het eerste gezicht veilig lijken. Het Anthropic-onderzoek meet de directe blootstelling aan deze risico’s, maar vangt die bredere economische doorwerking niet.

Wat betekent dit voor jou?

Het onderzoek bevestigt wat velen al aanvoelden: AI verandert de arbeidsmarkt, maar langzamer en grilliger dan nieuwskoppen soms suggereren. De grootste impact zit althans voorlopig niet in massaontslag, maar in het langzaam opdrogen van nieuwe banen voor instromers. Dat is minder zichtbaar, maar op termijn minstens zo ingrijpend. Het goede nieuws: er is nog een enorm gat tussen wat AI theoretisch kan en wat er in de praktijk gebeurt. Dat gat biedt tijd, maar krimpt wel.

⚡ AI Pulse

Googles NotebookLM maakt nu cinematische video’s van je aantekeningen. Googles AI-notitieboek NotebookLM kan voortaan je onderzoek en notities omzetten in volledig geanimeerde video’s – niet zomaar een slideshow, maar cinematische samenvattingen met animaties gegenereerd door Googles nieuwste AI-modellen. Het resultaat is indrukwekkend en vliegt nog grotendeels onder de radar. De grote maar: de functie is voorlopig alleen beschikbaar voor gebruikers met een Google AI Ultra-abonnement, dat 250 euro per maand kost. De functie is al wel beschikbaar in Nederland.

Robotmaker Figure laat zien hoe een huishoudrobot je woonkamer opruimt. Figure, een Amerikaans roboticabedrijf, demonstreerde deze week hoe zijn humanoïde robot Helix 02 zelfstandig een woonkamer opruimt – inclusief kussens terugleggen op de bank, oppervlakken reinigen met schoonmaakmiddel, speelgoed opruimen in een bak en de tv uitzetten met de afstandsbediening. Het bijzondere: de robot gebruikt één enkel neuraal netwerk voor al deze taken, zonder dat elke handeling apart is geprogrammeerd. Hij leert nieuwe taken simpelweg door meer voorbeelden te zien.

Gesponsord

Haal echte waarde uit AI met het juiste fundament

Uit onze CEO Survey blijkt dat CEO’s fors investeren in AI, maar dat bij de meeste bedrijven financiële resultaten nog uitblijven. Ontdek hoe met een stevig AI-fundament dit wel mogelijk is.

Ontdek hoe dat mogelijk is

🛠️ AI Toolkit+

Zo haal je het meeste uit GPT-5.4 voor je werk

Zojuist las je over GPT-5.4, het nieuwste model van OpenAI. Indrukwekkende benchmarks, wetenschappers die het met open mond gadeslaan – maar wat heb jij eraan? Wij zijn erin gedoken en hebben voor je uitgezocht wat de slimste toepassingen zijn. Dit is wat je moet weten om er vandaag nog mee aan de slag te gaan.

Omdat we net naar Beehiiv verhuisd zijn, is de AI Toolkit+ deze editie beschikbaar voor zowel betalende als gratis abonnees!

Hoe begin je?

Open ChatGPT (je hebt een Plus-abonnement nodig, 20 euro per maand).
Selecteer bovenaan in het modelmenu ‘GPT-5.4 Thinking’.
Typ je opdracht, of upload een bestand (spreadsheet, pdf, afbeelding, vergadernotities).
GPT-5.4 toont eerst een plan van aanpak. Lees dit even door – je kunt bijsturen vóórdat je het model aan het werk zet.
Niet tevreden halverwege? Geen probleem: je kunt de koers aanpassen zonder opnieuw te beginnen.

Er is ook een Pro-versie voor de allerzwaarste taken, maar die is alleen beschikbaar met een Pro- of Enterprise-abonnement. Voor dagelijks kantoorwerk is de gewone 5.4 Thinking meer dan voldoende.

Je nieuwe collega voor presentaties, spreadsheets en documenten

De grootste sprong voor kantoorwerk: GPT-5.4 is flink beter geworden in het maken en bewerken van spreadsheets, presentaties en documenten. In interne tests scoorde het model 87,5 procent op spreadsheettaken die normaal door een junior analist worden uitgevoerd – een flinke verbetering ten opzichte van de vorige versie.

In de praktijk betekent dit: upload je kwartaalcijfers en laat ChatGPT er een overzichtelijk financieel model van maken. Of geef het je losse aantekeningen van een vergadering en vraag om een presentatie.

Probeer deze prompt:

❝

“Ik upload de kwartaalcijfers van ons team (Q1 2026). Maak hier een overzichtelijke spreadsheet van met: omzet per productlijn, groei ten opzichte van het vorige kwartaal in procenten, en een samenvattend dashboard. Markeer alles wat meer dan 10% afwijkt van het vorige kwartaal.”

Of voor een presentatie:

❝

“Ik heb deze vergadernotities bijgevoegd. Maak er een presentatie van voor het managementteam van maximaal 8 slides. Structuur: samenvatting, drie belangrijkste inzichten, aanbevelingen, vervolgstappen. Gebruik een professionele, strakke stijl.”

OpenAI demonstreerde ook hoe iemand een handgetekend ontwerp uploadde en het model daar een complete, werkende website van maakte – inclusief automatisch gegenereerde afbeeldingen die bij de stijl pasten. Vertaald naar kantoor: je kunt een schets op een whiteboard fotograferen en er een uitgewerkte presentatie van laten maken.

Let op: OpenAI heeft ook een Excel-plugin gelanceerd, maar die is voorlopig alleen beschikbaar in de VS als bèta. Je kunt wel gewoon spreadsheets uploaden in ChatGPT zelf.

Een miljoen woorden context: wat betekent dat?

Het contextvenster – hoeveel tekst de AI in één keer kan ‘onthouden’ – is nu 1 miljoen tokens. Dat is ruwweg zeven boeken, of een compleet jaarverslag plus alle notulen van het afgelopen halfjaar. Voorheen raakte ChatGPT halverwege een lang document de draad kwijt. Nu kun je het hele document erin gooien en er gerichte vragen over stellen.

Concreet:

❝

“Ik upload hierbij alle notulen van onze wekelijkse teamvergaderingen van de afgelopen drie maanden. Analyseer de belangrijkste terugkerende thema’s, identificeer besluiten die zijn genomen maar nog niet zijn uitgevoerd, en maak een overzicht van openstaande actiepunten per teamlid.”

Of:

❝

“Hier is ons jaarverslag van 2025 (120 pagina’s). Vat de drie belangrijkste financiële trends samen en vergelijk ze met de strategische doelen die op pagina 12-14 worden beschreven. Waar zitten de grootste afwijkingen?”

Dit is een fundamentele verandering: je hoeft niet meer te kiezen welk stukje context je meeneemt. Geef het alles, en laat het model het uitzoeken.

Bijsturen terwijl het werkt

Een subtiele maar waardevolle vernieuwing: GPT-5.4 Thinking toont nu eerst een plan van aanpak voordat het aan de slag gaat. Je ziet wat het van plan is, en kunt halverwege ingrijpen – zonder dat het helemaal opnieuw hoeft te beginnen.

Zie het als een collega die zegt: “Ik ga het zo aanpakken, oké?” Jij kunt dan zeggen: “Prima, maar voeg ook de concurrentieanalyse toe” – waarna het gewoon doorgaat met de aanpassing erbij.

Dit scheelt enorm veel tijd bij complexe taken. Geen eindeloos geheen-en-weer meer van “nee, dat bedoelde ik niet, begin opnieuw”. Vooral bij langere opdrachten merk je het verschil.

Dit hebben mensen ermee gedaan

Het internet staat inmiddels vol met indrukwekkende voorbeelden. Een bloemlezing:

Ethan Mollick liet GPT-5.4 Pro in één enkele prompt een interactieve 3D-ruimte bouwen geïnspireerd op het werk van kunstenaar Piranesi – zonder fouten, klaar na één vervolgvraag.

Philip van YouTube-kanaal AI Explained liet het model een complete, geanimeerde competitietabel maken van een Engelse voetbalclub, inclusief automatische webzoekacties om actuele uitslagen op te halen. In één prompt.

OpenAI zelf demonstreerde hoe het model een volledig pretparksimulatiegame bouwde – met bezoekers, attracties, tevredenheidsscores en een werkende economie – vanuit ‘een licht gespecificeerde prompt’.

En een verzekeringsstart-up testte het computergebruik op twintig jaar oude, loodzware bedrijfssoftware. Hun conclusie: GPT-5.4 kan nu betrouwbaar door de meest complexe interfaces navigeren, klikken en formulieren invullen – iets wat een jaar geleden nog ondenkbaar was.

Onze Xiang was vooral onder de indruk van de planfunctie: “Het voelt daardoor ietsjes meer als samenwerken in plaats van droog opdrachten geven. Je ziet wat het van plan is, kunt bijsturen, en het resultaat sluit daardoor veel beter aan bij wat je nodig hebt. Dat scheelt enorm veel heen-en-weer.”

Pro-tips om het meeste eruit te halen

Begin met een concrete taak, niet met kennismaken. OpenAI’s eigen GPT-5.4 gids voor ontwikkelaars is hier stellig over. GPT-5.4 werkt het beste wanneer je meteen specifiek bent over wat je nodig hebt.

Geef het format aan dat je wilt. Zeg expliciet of je een tabel, een memo, een presentatie of een opsomming verwacht. Hoe specifieker, hoe beter het resultaat.

Gebruik de planfunctie. Bij complexere taken toont het model eerst zijn aanpak. Lees dat plan even door voordat je het laat doorwerken – een kleine investering die veel tijd bespaart.

Controleer altijd feiten en cijfers. De hallucinaties zijn niet verdwenen. GPT-5.4 verzint nog steeds met grote stelligheid dingen die niet kloppen, vooral wanneer het iets niet weet.

Pas op voor overijver. Meerdere testers merkten op dat GPT-5.4 soms meer doet dan je vraagt. Het team van Every beschreef het als volgt: “Het model voltooide alle geplande taken, en probeerde vervolgens uit eigen beweging een heel inlogsysteem te redesignen waar niemand om had gevraagd. Vermakelijk, maar iets om op te letten.

De balans

GPT-5.4 is het meest complete AI-model dat OpenAI tot nu toe heeft uitgebracht. De combinatie van betere documenten, een enorm contextvenster en de mogelijkheid om halverwege bij te sturen maakt het bruikbaar als dagelijkse collega. Het is niet perfect – maar het is een stuk dichterbij dan een halfjaar geleden. Het is, zoals ZDNET-reviewer David Gewirtz het na uitgebreid testen omschrijft, “een zeer slimme stagiair die goede begeleiding nodig heeft”. De antwoorden zijn uitstekend, maar je moet het blijven bijsturen. Dat gezegd hebbende: deze stagiair wordt elke maand beter.

Zit je ergens mee of wil je meer weten? Als betaalde abonnee kun je normaal terecht in onze comments-sectie onderaan deze nieuwsbrief. Momenteel vogelen we nog even uit hoe we dat goed overzetten. Heb je in de tussentijd een vraag? Stuur ons een berichtje op WhatsApp.

Tot de volgende keer,

Xiang Yu Yeung, Wietse Hage en Alexander Klöpping

Een wiskundige werkte 20 jaar aan dit probleem. GPT-5.4 loste het op

🗞️ Het belangrijkste nieuws

ChatGPT-5.4: het beste AI-model ter wereld (tot volgende week)

Arguably het beste model, voor nu

Wat is er veranderd?

De wetenschap is onder de indruk

De kanttekeningen

Wat betekent dit voor jou?

Anthropic onderzocht welke banen AI het hardst raakt

Wat is er aan de hand?

Wie wordt het meest geraakt?

Maar: nog geen ontslaggolf

De realiteit bijt al wel

Niet in een vacuüm

Wat betekent dit voor jou?

⚡ AI Pulse

Haal echte waarde uit AI met het juiste fundament

🛠️ AI Toolkit+

Zo haal je het meeste uit GPT-5.4 voor je werk

Hoe begin je?

Je nieuwe collega voor presentaties, spreadsheets en documenten

Een miljoen woorden context: wat betekent dat?

Bijsturen terwijl het werkt

Dit hebben mensen ermee gedaan

Pro-tips om het meeste eruit te halen

De balans

Jouw vaste bron voor het laatste AI-nieuws, met praktische tips om het toe te passen in je leven en werk.