Eureka! Nvidia’s AI leert robots om pennen te draaien als een pro

10/24/20232 min lezen

Nvidia Research heeft onlangs een baanbrekende AI-agent onthuld, genaamd Eureka, die gebruik maakt van OpenAI's GPT-4 om softwarecode te genereren die robots beloont voor het leren door trial-and-error. Eureka heeft robots onder meer geleerd hoe ze lades moeten openen, ballen moeten vangen en scharen moeten manipuleren. Een van de meest opvallende prestaties van Eureka is dat het een robotische hand heeft getraind om snelle pen-spinning trucs uit te voeren, voor het eerst net zo goed als een mens.

Eureka is een eerste stap in de richting van het ontwikkelen van nieuwe algoritmen die generatieve en reinforcement learning methoden integreren om moeilijke taken op te lossen, volgens Anima Anandkumar, senior director of AI research bij Nvidia en een van de auteurs van de Eureka-paper. Reinforcement learning is een tak van machine learning die zich richt op het leren van gedrag op basis van beloningen of straffen. Generatieve AI is een vorm van kunstmatige intelligentie die nieuwe gegevens kan creëren op basis van bestaande gegevens, zoals tekst, beeld of geluid.

Eureka maakt gebruik van de krachtige GPT-4 large language model (LLM), een neuraal netwerk dat miljarden woorden kan verwerken en patronen kan herkennen in natuurlijke taal. Eureka geeft GPT-4 instructies om beloningsfuncties te schrijven, die de criteria definiëren waaraan een robot moet voldoen om een taak te voltooien. Deze beloningsfuncties worden vervolgens gebruikt om de robots te trainen in een gesimuleerde omgeving, genaamd Isaac Gym, die is gebouwd op Nvidia Omniverse, een ontwikkelplatform voor het bouwen van 3D-tools en applicaties.

Eureka kan snel de kwaliteit van grote hoeveelheden beloningskandidaten evalueren met behulp van GPU-versnelde simulatie in Isaac Gym. Eureka construeert vervolgens een samenvatting van de belangrijkste statistieken uit de trainingsresultaten en instrueert de LLM om zijn generatie van beloningsfuncties te verbeteren. Op deze manier is de AI zelfverbeterend. Het leert ook van menselijke feedback om zijn beloningen aan te passen aan de visie van de ontwikkelaar.

Eureka heeft allerlei soorten robots getraind, zoals viervoeters, tweebeners, quadrotors, behendige handen, cobot-armen en anderen, om allerlei soorten taken uit te voeren. Uit het onderzoek blijkt dat Eureka-gegenereerde beloningsfuncties beter presteren dan handgeschreven beloningsfuncties in termen van leerprestaties, robuustheid en generalisatie. Bovendien kan Eureka de beloningsfuncties aanpassen aan verschillende robotplatforms en taken, zonder dat er veel menselijke tussenkomst nodig is.

Een van de meest indrukwekkende demonstraties van Eureka is het leren van pen-spinning trucs met een robotische hand. Pen-spinning is een vaardigheid die veel oefening en coördinatie vereist, zelfs voor mensen. Eureka heeft een robotische hand geleerd om een pen te draaien met behulp van een beloningsfunctie die gebaseerd is op de hoek en de snelheid van de pen. De robotische hand kon de pen draaien met een snelheid van meer dan 300 graden per seconde, wat vergelijkbaar is met het wereldrecord voor mensen.

Eureka is niet alleen in staat om robots te leren om pennen te draaien, maar ook om andere complexe manipulaties uit te voeren, zoals het gebruik van scharen om papier te knippen, het openen van flessen en het stapelen van blokken. Deze vaardigheden kunnen nuttig zijn voor robots in industriële, huishoudelijke of educatieve omgevingen.

Eureka is een spannend voorbeeld van hoe AI en robotica samen kunnen werken om nieuwe mogelijkheden te creëren. Nvidia Research hoopt dat Eureka zal inspireren tot meer onderzoek naar het combineren van generatieve en reinforcement learning methoden voor het oplossen van uitdagende problemen in de echte wereld.