OpenAI's reusachtige GPT-3 hint op de grenzen van taalmodellen voor AI

Een beetje meer dan een jaar geleden heeft OpenAI, een kunstmatige intelligentiebedrijf gevestigd in San Francisco, de wereld versteld doen staan door een dramatische sprong te laten zien in wat leek op de kracht van computers om natuurlijke zinnen te vormen, en zelfs om vragen op te lossen, zoals het voltooien van een zin, en het formuleren van lange stukken tekst die mensen tamelijk menselijk vonden.

Het nieuwste werk van dat team laat zien hoe het denken van OpenAI op sommige vlakken volwassener is geworden. GPT-3, zoals de nieuwste creatie heet, kwam vorige week naar voren met meer toeters en bellen, gemaakt door dezelfde auteurs als de vorige versie, waaronder Alec Radford en Ilya Sutskever, samen met verschillende extra samenwerkers, waaronder wetenschappers van de Johns Hopkins Universiteit.

Het is nu een echt monster taalmodel, zoals het genoemd wordt, dat twee ordes van grootte meer tekst opslokt dan zijn voorganger.

Maar binnen die bigger-is-better stunt lijkt het OpenAI-team enkele diepere waarheden te benaderen, op dezelfde manier als Dr. David Bowman de grenzen van het bekende benaderde aan het einde van de film 2001.

Begraven in het afsluitende gedeelte van het 72 pagina's tellende artikel, Taalmodellen zijn Few-Shot Leerlingen, dat vorige week is gepost op de arXiv pre-print server, staat een opvallende erkenning.

"Een meer fundamentele beperking van de algemene aanpak die in dit artikel wordt beschreven - het schalen van elk LM-achtig model, of het nu autoregressief of bidirectioneel is - is dat het uiteindelijk tegen de grenzen van het pretraining-objectief kan aanlopen (of er mogelijk al tegen aan het aanlopen is), schrijven de auteurs."

Wat de auteurs zeggen, is dat het bouwen van een neurale netwerk dat alleen maar waarschijnlijkheden voorspelt van het volgende woord in een zin of frase zijn beperkingen kan hebben. Het steeds maar sterker maken en vullen met steeds meer tekst kan mogelijk geen betere resultaten opleveren. Dit is een belangrijke erkenning binnen een artikel dat voornamelijk de prestatie viert van het inzetten van meer rekenkracht om een probleem op te lossen.

Om te begrijpen waarom de conclusie van de auteurs zo belangrijk is, moeten we kijken naar hoe we hier zijn gekomen. De geschiedenis van OpenAI's werk met taal maakt deel uit van de geschiedenis van een gestage vooruitgang van één soort aanpak, met steeds groter wordend succes naarmate de technologie steeds groter en groter werd.

De originele GPT en GPT-2 zijn beide aanpassingen van wat bekend staat als een Transformer, een uitvinding die in 2017 bij Google is ontwikkeld. De Transformer gebruikt een functie genaamd aandacht om de waarschijnlijkheid te berekenen dat een woord zal verschijnen gegeven omliggende woorden. OpenAI veroorzaakte een jaar geleden controverse toen het zei dat het de broncode van de grootste versie van GPT-2 niet zou vrijgeven, omdat, zei het, die code in verkeerde handen kon vallen en misbruikt kon worden om mensen te misleiden met zaken als nepnieuws.

Het nieuwe artikel brengt GPT naar een nog hoger niveau door het nog groter te maken. De grootste versie van GPT-2, degene die niet in bronvorm werd gepost, had 1,5 miljard parameters. GPT-3 heeft 175 miljard parameters. Een parameter is een berekening in een neuraal netwerk die een groter of kleiner gewicht toepast op een bepaald aspect van de gegevens, om dat aspect meer of minder belangrijk te maken in de algehele berekening van de gegevens. Het zijn deze gewichten die vorm geven aan de gegevens en het neurale netwerk een geleerd perspectief geven op de gegevens.

Het toenemende gewicht in de loop der tijd heeft geleid tot verbazingwekkende benchmarktestresultaten van de GPT-familie van programma's en andere grote transformerende afgeleiden, zoals Google's BERT, resultaten die consequent indrukwekkend zijn gebleken.

Maakt niet uit dat genoeg mensen hebben opgemerkt dat geen van deze taalmodellen echt leek taal op een betekenisvolle manier te begrijpen. Ze halen toetsen met vlag en wimpel, en dat telt voor iets.

De nieuwste versie toont opnieuw kwantitatieve vooruitgang. Net als GPT-2 en andere op Transformer gebaseerde programma's, is GPT-3 getraind op de Common Crawl-dataset, een corpus van bijna een biljoen woorden aan tekst verzameld van het web. "Het dataset- en modelformaat zijn ongeveer twee ordes van grootte groter dan die gebruikt voor GPT-2," schrijven de auteurs.

GPT-3 met 175 miljard parameters kan bereiken wat de auteurs "meta-leren" noemen. Meta-leren betekent dat het GPT-neurale netwerk niet opnieuw wordt getraind om een taak uit te voeren, zoals het voltooien van zinnen. Gegeven een voorbeeld van een taak, zoals een onvolledige zin, en vervolgens de voltooide zin, zal GPT-3 elke onvolledige zin afmaken die het ontvangt.

GPT-3 is in staat om te leren hoe een taak moet worden uitgevoerd met een enkele prompt, beter, in sommige gevallen, dan versies van Transformer die gespecialiseerd zijn om alleen die taak uit te voeren. Daarom is GPT-3 de triomf van een allesomvattende algemeenheid. Voer het gewoon een enorme hoeveelheid tekst in totdat de gewichten ideaal zijn en het kan vervolgens behoorlijk goed presteren op een aantal specifieke taken zonder verdere ontwikkeling.

Dit is waar het verhaal tot een opvallende ontknoping komt in het nieuwe artikel. Na het opsommen van de indrukwekkende resultaten van GPT-3 op taaktaken, variërend van het invullen van zinnen tot het afleiden van de logische implicatie van uitspraken tot het vertalen tussen talen, merken de auteurs de tekortkomingen op.

"Ondanks de sterke kwantitatieve en kwalitatieve verbeteringen van GPT-3, met name in vergelijking met zijn directe voorganger GPT-2, heeft het nog steeds opmerkelijke zwakheden."

Die zwaktes omvatten een onvermogen om significante nauwkeurigheid te behalen in wat Adversarial NLI wordt genoemd. NLI, of natuurlijke taal inferentie, is een test waarbij het programma de relatie tussen twee zinnen moet bepalen. Onderzoekers van Facebook en de Universiteit van North Carolina hebben een adversariële versie geïntroduceerd, waarbij mensen zinnenparen maken die moeilijk zijn voor de computer om op te lossen.

GPT-3 doet "iets beter dan toeval" bij dingen zoals Adversarial NLI, schrijven de auteurs. Wat erger is, is dat de auteurs, ondanks het verhogen van de verwerkingskracht van hun systeem naar 175 miljard gewichten, niet precies weten waarom ze tekortschieten bij sommige taken.

Dat is wanneer zij tot de conclusie komen, zoals hierboven geciteerd, dat misschien het eenvoudig voeden van een enorm tekstcorpus aan een gigantische machine niet het ultieme antwoord is.

Nog schokkender is de volgende vaststelling. Het hele idee om te proberen te voorspellen wat er gaat gebeuren met taal, kan de verkeerde aanpak zijn, zo schrijven de auteurs. Ze richten zich mogelijk op de verkeerde plek.

"Met zelf-supervised doelen berust de taakspecificatie op het afdwingen van de gewenste taak in een voorspellingsprobleem," schrijven ze, "terwijl nuttige taalsystemen (bijvoorbeeld virtuele assistenten) uiteindelijk beter kunnen worden gezien als het nemen van doelgerichte acties in plaats van alleen voorspellingen te doen."

De auteurs laten het voor een andere keer over om aan te geven hoe ze deze nogal fascinerende mogelijke nieuwe richting zullen benaderen.

Ondanks het besef dat groter uiteindelijk misschien niet beter is, zullen de verbeterde resultaten van GPT-3 op veel taken waarschijnlijk het verlangen naar steeds grotere neurale netwerken aanwakkeren, in plaats van verminderen. Met 175 miljard parameters is GPT-3 op dit moment de koning van grote neurale netwerken. In een presentatie in april beschreef AI-chipbedrijf Tenstorrent toekomstige neurale netwerken met meer dan één biljoen parameters.

Voor een groot deel van de machine learning gemeenschap zal grotere en grotere taalmodellering de standaard blijven.

OpenAI's gigantische GPT-3 hint op de grenzen van taalmodellen voor AI

Gerelateerde Artikelen