Claude geeft nu toe wanneer het iets niet weet

🗞️ Het belangrijkste nieuws

Claude geeft nu vaker toe wanneer het iets niet weet

De nieuwste versie van AI-assistent Claude is eerlijker over zijn eigen twijfels. Fijn als je hem voor je werk inzet, al blijft zelf controleren verstandig.

Vraag een AI-chatbot om je kwartaalcijfers te analyseren of een lastige e-mail op te stellen, en je krijgt vaak een zelfverzekerd antwoord, ook als het nergens op slaat. De nieuwste versie van Claude belooft daar verandering in te brengen: hij geeft vaker aan wanneer hij iets niet zeker weet. Dat scheelt jou nakijkwerk.

Wat is er nieuw?

Anthropic, de maker van AI-assistent Claude (de belangrijkste concurrent van ChatGPT), bracht op 28 mei een nieuwe versie uit: Claude Opus 4.8. Die is sindsdien overal beschikbaar, ook in Nederland, en voor dezelfde prijs als de vorige versie.

Volgens Anthropic zit de belangrijkste verbetering in de eerlijkheid. AI-modellen hebben de neiging om te snel te denken dat ze klaar zijn, en verkondigen dan met grote stelligheid klinkklare onzin. In vaktaal heet dat ‘hallucineren’. Opus 4.8 zou vaker zijn twijfels benoemen en minder vaak iets beweren wat het niet kan onderbouwen. In de eigen tests van Anthropic laat het model ongeveer vier keer minder vaak fouten in geschreven programmacode ongemerkt passeren dan zijn voorganger.

Wat kun je ermee?

Voor jouw werk maakt dat een praktisch verschil. Laat je Claude een rapport of een set cijfers analyseren, dan wijst de nieuwe versie je vaker op zwakke plekken of vreemde uitkomsten, in plaats van die stilletjes mee te nemen. Eén investeringsanalist die het model vooraf mocht testen, merkte op dat juist dat proactief aankaarten van problemen het verschil maakte met andere modellen.

Ook voor schrijfwerk is de sprong groot. In de tests van techpublicatie Every kwam Opus 4.8 als beste schrijfmodel uit de bus, en het is opvallend goed in het overnemen van jouw schrijfstijl als je een voorbeeld of stijlgids meegeeft. Handig als je wilt dat een memo of presentatie klinkt zoals jij, en niet zoals een robot. Op een test voor presentaties maakte het in één keer de beste PowerPoint die de testers tot nu toe van een AI hadden gezien.

Nieuw is verder dat je nu zelf kunt bepalen hoeveel moeite Claude in een antwoord steekt. Voor een snelle vraag kies je een lichte stand en heb je vlot antwoord; voor een ingewikkelde klus laat je hem langer nadenken. Die keuze zit voortaan in alle abonnementen, naast de modelkeuze. Ook kan het model nu in één gesprek zo veel tekst ‘onthouden’ dat je er een heel boek, een flinke stapel vergadernotities of weken aan documenten in kwijt kunt, zonder dat het halverwege de draad verliest.

Eerlijker, maar niet ineens een heilige

Onafhankelijke testers bevestigen het beeld. Bij Every noemen meerdere redacteuren Opus 4.8 hun favoriete model van dit moment. Schrijfster Katie Parrott, die na de vorige versie haar vertrouwen in Anthropic was verloren, schrijft dat dit weer een model is dat ze durft te vertrouwen om het werk gedaan te krijgen.

Tegelijk is enige nuchterheid op zijn plaats. De analist achter het YouTube-kanaal AI Explained spitte het 244 pagina's tellende technische rapport door dat Anthropic bij het model publiceerde, en concludeert dat het eerlijker is, maar geen fundamentele omslag vormt. Het model is in bepaalde situaties eerlijker, maar daarmee nog geen door en door eerlijk model. Het kan nog steeds met volle overtuiging dingen beweren die het helemaal niet doet, zonder enige slag om de arm.

Anthropic geeft daar zelf een treffend voorbeeld van. In een test beweerde Claude meermaals dat het bepaalde code aan het controleren was, terwijl het dat helemaal niet deed. Zelfs nadat het was gecorrigeerd en een notitie voor zichzelf had gemaakt om het voortaan wél te doen, overtrad het die eigen regel daarna gewoon weer.

Een kanttekening die de testers van Every benadrukken: de kwaliteit hangt sterk af van die nieuwe instelling waarmee je het inspanningsniveau van het model instelt. Op de hoogste stand levert het model uitstekend werk, op een lagere stand zakt de kwaliteit merkbaar in. En de Claude-app zelf vinden ze rommelig, met drie losse tabbladen die het geheel traag laten aanvoelen.

Geen kluis voor je geheimen

Nog een opvallende uitkomst uit het rapport: hoe eerlijker en braver het model wordt, hoe slechter het blijkt te zijn in het bewaren van een geheim. In een veiligheidstest kreeg het de opdracht om een wachtwoord onder geen enkele omstandigheid prijs te geven. Het resultaat? Uiteindelijk floepte het er bij alle modellen toch uit, en bij Opus 4.8 zelfs eerder dan bij een oudere versie. Deugdzaamheid heeft zo zijn nadelen.

Geen reden tot paniek over je eigen gegevens, want dit ging om een gecontroleerde test. Maar het onderstreept wel een gouden regel die voor élke chatbot geldt: plak er geen echt vertrouwelijke informatie in.

Waarom dit belangrijk is

Een AI die toegeeft wat hij niet weet, is voor jou een stuk bruikbaarder dan een AI die overal even stellig op antwoordt. Het scheelt je tijd, omdat je minder hoeft te dubbelchecken, en het voorkomt blunders die ontstaan doordat je op een mooi geformuleerd maar fout antwoord vertrouwt.

Maar eerlijkheid is bij AI geen aan-uitknop. Het model is iets betrouwbaarder geworden, niet onfeilbaar. De eindverantwoordelijkheid voor wat je met het antwoord doet, blijft bij jou. Zie Claude dus als een scherpe, eerlijke collega die af en toe iets uit zijn duim zuigt: prettig om mee te werken, zolang je zijn werk nog even nakijkt.

En dit is nog niet het eindstation. Anthropic, dat inmiddels bijna 1 biljoen dollar waard is, kondigde aan dat er binnen enkele weken een nog krachtiger model aankomt.

🎥 Masterclass: Met Codex maak je ChatGPT 10× krachtiger

Sinds de laatste podcast stromen de reacties binnen van mensen die met Codex aan de slag zijn gegaan. Donderdag 4 juni om 12:00 uur laat Wietse zien wat het is, waarom het een stap verdergaat dan andere AI-tools, en wat je er al in tien minuutjes mee kunt bouwen. Leuke voorbeelden dus die je hopelijk inspireren om tot nog meer nieuwe ideeën te komen!

Als je erbij wil zijn: sluit dan vandaag nog een betaald abonnement af op AI Report. Je ontvangt dan voor de masterclass de link voor Zoom in je inbox en achteraf een compleet pakketje inclusief de mogelijkheid om het terug te kijken (+ alle eerdere masterclasses natuurlijk).

⚡ AI Pulse

Straks draait krachtige AI gewoon op je eigen laptop. Voor serieuze AI op je eigen apparaat, zonder cloud of internet, had je tot nu toe een dure Mac nodig. Daar komt verandering in: chipfabrikant NVIDIA toonde op techbeurs Computex zijn eerste laptopchip voor Windows, de N1X, krachtig genoeg om geavanceerde AI lokaal te draaien. Het voordeel voor jou: je gegevens blijven op je eigen laptop en je hebt geen abonnement nodig (in onze recente webinar over lokale AI gaan we hier dieper op in). De eerste toestellen met de N1X-chip, van onder meer Dell, Lenovo en Microsoft, komen eind dit jaar, al blijven het prijzige apparaten (reken op ruim 1300 euro).

— # (#)

NVIDIA bleef deze week niet bij laptops. Het bedrijf lanceerde ook Cosmos 3, een gratis ‘wereldmodel’: AI die snapt hoe de fysieke wereld werkt, van zwaartekracht tot hoe voorwerpen bewegen en op elkaar reageren. Waarom dat telt? Robots en zelfrijdende auto's moeten normaal gesproken maandenlang oefenen in de echte wereld. Met zo'n wereldmodel kan dat in een gesimuleerde omgeving, wat de training terugbrengt van maanden naar dagen. Het is vooral bedoeld voor ontwikkelaars, maar het geeft een aardige blik op hoe snel de robots en zelfrijdende auto's van morgen er straks zullen zijn.

Ook de maker van ChatGPT wil de fysieke wereld in. OpenAI, het bedrijf achter ChatGPT, kondigde aan een eigen robotica-afdeling op te zetten en zoekt ingenieurs om echte robots te bouwen. Op korte termijn mikt het op robots die vakmensen helpen bij het aanleggen van infrastructuur (denk aan wegen, bruggen en datacenters); op de lange termijn ziet topman Sam Altman voor zich dat iedereen een eigen persoonlijke robot heeft. Voorlopig is het vooral een ambitie en een vacature, maar het tekent wel hoe de grote AI-bedrijven hun blik verleggen van het scherm naar de echte wereld.

AI wordt nu ook ingezet tegen de volgende pandemie. Datzelfde OpenAI lanceerde Rosalind Biodefense, een programma dat een speciaal AI-model voor de biowetenschappen beschikbaar stelt aan zorgvuldig geselecteerde partners en overheden. Het doel: betere bescherming tegen biologische dreigingen, met toepassingen als het in kaart brengen van epidemieën, het vroeg opsporen van uitbraken en het sneller ontwikkelen van tegenmaatregelen. Omdat dezelfde kennis ook misbruikt kan worden, houdt OpenAI de toegang bewust beperkt tot vertrouwde gebruikers. Voor jou is dit vooral geruststellend nieuws: de instanties die ons tegen de volgende uitbraak moeten beschermen, krijgen er krachtig gereedschap bij.

En AI helpt straks ook bij het ontwikkelen van nieuwe medicijnen. Biohub, het goededoelenproject van Meta-topman Mark Zuckerberg en zijn partner, arts Priscilla Chan, bracht een gratis AI-model uit dat de eiwitten in ons lichaam doorgrondt, de bouwstenen waar veel medicijnen op aangrijpen. Onderzoekers gebruikten het al om nieuwe eiwitten te ontwerpen die in laboratoriumtests afweercellen tegen kanker weer activeerden. Het model is vrij beschikbaar, zodat wetenschappers wereldwijd er meteen mee aan de slag kunnen. Een kant-en-klaar medicijn ligt er nog niet, maar het laat zien hoe AI het zoeken naar nieuwe behandelingen flink kan versnellen.

Europa krijgt toegang tot een van de krachtigste AI-modellen ter wereld (na flink onderhandelen). AI-bedrijf Anthropic, de maker van Claude, geeft de Europese Commissie toegang tot Mythos, zijn meest geavanceerde model dat nog achter slot en grendel zit voor gewone gebruikers. De EU drong daar maandenlang op aan uit zorg over cyberveiligheid: Mythos is opvallend goed in het opsporen van zwakke plekken in software, wat in verkeerde handen gevaarlijk is. Bijzonder detail: volgens CNBC moest de EU eerst toestemming vragen aan de Amerikaanse overheid, die haar voorsprong in AI niet wil verliezen. Het gaat hier om toegang voor de overheid om risico's te beoordelen, niet om een versie voor jou en mij. Wel laat dit zien hoe AI inmiddels een geopolitieke kwestie is geworden.

Gesponsord

De groeiende waarde van data

Bijna tien cent van elke euro in de Nederlandse economie komt voort uit data. Dat hebben we onderzocht. De waarde verschuift daarbij van data verzamelen naar inzichten en impact via datascience en AI. Ontdek meer resultaten.

Ontdek meer

🛠️ AI Toolkit+

Praten tegen je computer, en die doet gewoon wat je vraagt

Stel je voor: je leunt achterover en zegt hardop wat je gedaan wil hebben, en je Mac voert het uit. Je mailbox checken, een reactie opstellen, een ingewikkelde grafiek laten uitleggen. Deze week testte onze Xiang een gratis tool die precies dat doet, en ze stond versteld van hoe soepel het ging.

In het betaalde deel leer je vandaag hoe je:

je Mac volledig met je stem bestuurt, zonder ook maar één knop aan te raken;
een AI je inbox laat samenvatten en alvast een antwoord laat opstellen;
een ingewikkeld rapport, diagram of presentatie op je scherm laat uitleggen in gewone taal;
een nieuw programma gebruikt terwijl je erin werkt, met een assistent die letterlijk naar de juiste knop wijst;
met één gesproken commando een digitale assistent op de achtergrond een klus laat uitvoeren terwijl jij doorwerkt;
voorkomt dat je nog langer heen en weer klikt tussen tutorials, chatbots en het programma waar je eigenlijk mee bezig bent.

Abonneer je om verder te lezen

Welke AI-tool gebruik je waarvoor? We testen ze zodat jij dat niet hoeft te doen. Eerlijke vergelijkingen, geen sponsored content.

Abonneer nu

Dit zit achter de betaalmuur:

Onafhankelijke tool-reviews en vergelijkingen
Concrete aanbevelingen: welke tool past bij welk werk
Bespaart je uren uitzoekwerk
Regelmatig bijgewerkt met nieuwe tools