Wat is GPT-3? Alles wat uw bedrijf moet weten over OpenAI's baanbrekende AI-taalprogramma

GPT-3 is een computerprogramma dat is gemaakt door het in San Francisco gevestigde bedrijf OpenAI. Het is een gigantisch neuronaal netwerk en als zodanig maakt het deel uit van het segment van diep leren binnen machine learning, wat op zijn beurt een tak is van de informatica die bekend staat als kunstmatige intelligentie of AI. Het programma is beter dan enig ander voorafgaand programma in het produceren van tekstregels die klinken alsof ze door een mens geschreven zouden kunnen zijn.

De reden waarom zo'n doorbraak nuttig kan zijn voor bedrijven is dat het een groot potentieel heeft om taken te automatiseren. GPT-3 kan reageren op elke tekst die een persoon in de computer typt met een nieuw stuk tekst dat geschikt is voor de context. Typ bijvoorbeeld een volledige Engelse zin in een zoekvak en de kans is groter dat je een relevante reactie in volledige zinnen terugkrijgt. Dat betekent dat GPT-3 in principe menselijke inspanningen kan versterken in een breed scala aan situaties, van vragen en antwoorden voor klantenservice tot due diligence-documentzoekopdrachten en rapportgeneratie.

Let op het volgende korte voorbeeld van wat een persoon in de computer typt, en hoe GPT-3 een antwoord terugstuurt:

Menselijke input: V: Wie speelde Tess in Touched by an Angel?

GPT-3 gegenereerde voltooiing: A: Delloreese Patricia Early (6 juli 1931 - 19 november 2017), bekend als Della Reese

Het programma bevindt zich momenteel in een besloten bètaversie waarvoor mensen zich kunnen aanmelden op een wachtlijst. Het wordt aangeboden door OpenAI als een API die toegankelijk is via de cloud, en bedrijven die toegang hebben gekregen, hebben enkele intrigerende toepassingen ontwikkeld die gebruikmaken van het genereren van tekst om allerlei soorten programma's te verbeteren, van eenvoudige vraag-en-antwoord tot het produceren van programmeercode.

Samen met het potentieel voor automatisering komen er grote nadelen. GPT-3 heeft veel rekenkracht nodig, waardoor het buiten het bereik valt van de meeste bedrijven in welke denkbare on-premise vorm dan ook. De gegenereerde tekst kan op het eerste gezicht indrukwekkend zijn, maar lange composities worden vaak enigszins zinloos. Bovendien heeft het grote potentie om vooroordelen te versterken, waaronder racisme en seksisme.

HOE WERKT GPT-3?

GPT-3 is een voorbeeld van wat bekend staat als een taalmodel, dat is een specifiek soort statistisch programma. In dit geval is het gemaakt als een neurale netwerk.

De naam GPT-3 is een acroniem dat staat voor "generative pre-training," waarvan dit de derde versie is tot nu toe. Het is generatief omdat het in tegenstelling tot andere neurale netwerken die een numerieke score of een ja of nee antwoord geven, GPT-3 lange sequenties van originele tekst kan genereren als output. Het is vooraf getraind in die zin dat het geen enkele domeinkennis heeft, hoewel het domeinspecifieke taken kan voltooien, zoals vertaling van vreemde talen.

Een taalmodel, in het geval van GPT-3, is een programma dat berekent hoe waarschijnlijk het is dat een woord verschijnt in een tekst gegeven de andere woorden in de tekst. Dat is wat bekend staat als de conditionele waarschijnlijkheid van woorden.

Neem bijvoorbeeld de zin, Ik wilde een omelet maken, dus ging ik naar de koelkast en haalde wat ____ eruit, de lege plek kan worden ingevuld met elk woord, zelfs wartaal, gezien de oneindige mogelijkheden van taal. Maar het woord "eieren" scoort waarschijnlijk vrij hoog om die lege plek in de meeste normale teksten in te vullen, hoger dan bijvoorbeeld "olifanten". We zeggen dat de waarschijnlijkheid van eieren onder de gegeven tekst hoger is dan de waarschijnlijkheid van olifanten.

Wanneer het neurale netwerk wordt ontwikkeld, ook wel de trainingsfase genoemd, worden er miljoenen en miljoenen tekstvoorbeelden aan GPT-3 gevoed en het zet woorden om in wat "vectoren" worden genoemd, numerieke representaties. Dat is een vorm van gegevenscompressie. Het programma probeert vervolgens deze gecomprimeerde tekst weer in een geldige zin uit te pakken. De taak van comprimeren en decomprimeren ontwikkelt de nauwkeurigheid van het programma bij het berekenen van de voorwaardelijke waarschijnlijkheid van woorden.

Als het model eenmaal getraind is, wat betekent dat de berekeningen van de voorwaardelijke waarschijnlijkheid over miljarden woorden zo nauwkeurig mogelijk zijn gemaakt, kan het voorspellen welke woorden er volgen wanneer het wordt gestimuleerd door een persoon die een beginselwoord of woorden intypt. Die voorspellende actie staat bekend in machine learning als inferentie.

Dit leidt tot een opvallend spiegeleffect. Niet alleen komen waarschijnlijke woorden naar voren, maar ook de structuur en ritme van een genre of de vorm van een geschreven opdracht, zoals vraag-antwoord sets, wordt gereproduceerd. Dus bijvoorbeeld, GPT-3 kan worden gevoed met enkele namen van beroemde dichters en voorbeelden van hun werk, vervolgens de naam van een andere dichter en alleen de titel van een denkbeeldig gedicht, en GPT-3 zal een nieuw gedicht produceren op een manier die consistent is met het ritme en de syntax van de dichter wiens naam is gegeven.

Beschouw het volgende voorbeeld van GPT-3 die een gedicht vanaf nul maakt dat soortgelijk is aan het werk van Wallace Stevens, na het krijgen van titels, namen en voorbeelden van andere dichters en hun werk:

Door de mens geleverde invoer: De Stad    DOOR C. P. CAVAFY   VERTAALD DOOR EDMUND KEELEY [Gedichttekst weggelaten]

Door de mens geleverde input: SOME TREES John Ashbery [Gedichttekst weggelaten]

Menselijk ingevoerde tekst: Schaduwen op de weg - Wallace Stevens

Gegenereerd gedicht 1:

Ik moet schaduwen hebben op de weg
Als ik wil lopen moet ik
Elke stap langzaam en alleen nemen
Om het kant-en-klaar te hebben

En ik moet in grijze lijnen denken
Om vage gedachten als mijn gids te hebben
Moet naar blauw en groen kijken
En mijn oog nooit vergeten
Dat kleur mijn vriend is

En paars moet me ook omringen
Het geel van de zon is niet meer
Storend dan de blauwachtige sneeuw
Die op ons allemaal valt. Ik moet
Grijze gedachten en blauwe gedachten met me meenemen
Als ik überhaupt weg wil gaan.

Het genereren van een antwoord betekent dat GPT-3 verder kan gaan dan het alleen produceren van tekst. Het kan presteren bij allerlei tests, waaronder tests van redenering die een reactie in natuurlijke taal vereisen. Als bijvoorbeeld GPT-3 een essay krijgt over huurprijzen van huurwoningen in Manhattan, en een uitspraak die de tekst samenvat, zoals "Manhattan is goedkoop", en de vraag "waar of niet waar?", zal GPT-3 op die hele prompt reageren door het woord "niet waar" terug te geven, aangezien de uitspraak niet overeenkomt met het argument van het essay.

Mensen geleverde input: De trend naar lagere huurprijzen kan verrassend lijken gezien het feit dat sommige gemeenschappen in New York klagen over het verlies van favoriete lokale bedrijven als gevolg van hoge huren. Maar, ondanks de recente verzachting, is er voor veel van deze retailers nog steeds een te grote sprong geweest van de huurtarieven uit eind jaren 70, toen hun leaseovereenkomsten werden ondertekend. Zeker, de recente daling van de prijzen betekent niet dat Manhattan goedkoop is.

Menselijke input: vraag: Manhattan is goedkoop. waar, niet waar, of geen van beide?

Door de mens geleverde invoer: antwoord:

GPT-3 gegenereerde voltooiing : onwaar

De mogelijkheid van GPT-3 om te reageren op een manier die consistent is met een voorbeeldtaak, inclusief vormen waar het nog nooit eerder aan blootgesteld is geweest, maakt het wat een "few-shot" taalmodel wordt genoemd. In plaats van uitgebreid te worden afgesteld, of "getraind" zoals het genoemd wordt, voor een bepaalde taak, heeft GPT-3 al zoveel informatie over de vele manieren waarop woorden kunnen combineren dat het slechts een handvol voorbeelden van een taak kan krijgen, wat een fine-tuning stap wordt genoemd, en het krijgt ook de mogelijkheid om die nieuwe taak uit te voeren.

De mogelijkheid om natuurlijke taalstijlen weer te geven en relatief hoog te scoren op taalgerelateerde tests kan de indruk wekken dat GPT-3 een soort mensachtige taalvaardigheid benadert. Zoals we zullen zien, is dat niet het geval.

Meer technische details zijn te vinden in het formele GPT-3 paper dat is uitgebracht door wetenschappers van OpenAI.

WAT KAN GPT-3 DOEN?

OpenAI is inmiddels net zo bekend - of berucht - om zijn code-release-praktijken als om de code zelf. Toen het bedrijf GPT-2, de voorganger, onthulde op Valentijnsdag 2019, werd aanvankelijk de meest capabele versie niet vrijgegeven aan het publiek, omdat deze te gevaarlijk zou zijn om in het wild uit te brengen vanwege het risico op massaproductie van valse en misleidende tekst. OpenAI heeft het later wel beschikbaar gesteld om te downloaden.

Deze keer biedt OpenAI geen downloads aan. In plaats daarvan heeft het een cloudgebaseerd API-eindpunt ingeschakeld, waardoor GPT-3 een aanbod als service is geworden. (Denk aan LMaaS, taalmodel-als-een-service.) De reden, stelt OpenAI, is zowel om het gebruik van GPT-3 door kwaadwillende actoren te beperken als om geld te verdienen.

"Bij open source is er geen 'ongedaan maken'-knop," vertelde OpenAI aan ZDNet via een woordvoerder.

"Het vrijgeven van GPT-3 via een API stelt ons in staat om het gebruik ervan veilig te beheren en de toegang indien nodig terug te draaien."

Op dit moment is de OpenAI API-service beperkt tot goedgekeurde partijen; er is een wachtlijst waar men zich bij kan aansluiten om toegang te krijgen.

"Op dit moment is de API in een gecontroleerde bètafase met een klein aantal ontwikkelaars die een idee indienen voor iets dat ze met behulp van de API in productie willen brengen", vertelde OpenAI aan ZDNet.

Ook: OpenAI's 'gevaarlijke' AI-tekstgenerator is uit: Mensen vinden de woorden 'overtuigend'

Er zijn intrigerende voorbeelden van wat er mogelijk is vanuit bedrijven in het betaprogramma. Sapling, een bedrijf gesteund door durfkapitaalfonds Y Combinator, biedt een programma dat bovenop CRM-software draait. Wanneer een klantmedewerker een inkomend verzoek om hulp afhandelt, bijvoorbeeld via e-mail, gebruikt het programma GPT-3 om een volledige zin voor te stellen als reactie uit de meest waarschijnlijke reacties.

Spelontwikkelaar Latitude maakt gebruik van GPT-3 om zijn tekstgebaseerde avonturenspel, AI Dungeon, te verbeteren. Normaal gesproken zou een avonturenspel een complex beslissingsboom vereisen om veel mogelijke paden door het spel te programmeren. In plaats daarvan kan GPT-3 dynamisch een veranderende gameplay genereren in reactie op de getypte acties van gebruikers.

Al inmiddels gaat taakautomatisering verder dan natuurlijke taal, naar het genereren van computercode. Code is een taal, en GPT-3 kan de meest waarschijnlijke syntaxis van operatoren en operanden in verschillende programmeertalen afleiden, en het kan sequenties produceren die succesvol kunnen worden gecompileerd en uitgevoerd.

Een vroeg voorbeeld deed veel stof opwaaien op Twitter, afkomstig van de app-ontwikkelingsstartup Debuild. De CEO van het bedrijf, Sharif Shameem, was in staat om een programma te bouwen waarbij je je beschrijving van een software-gebruikersinterface in gewoon Engels typt, en GPT-3 reageert met computercode die gebruikmaakt van de JSX-syntaxextensie voor JavaScript. Deze code produceert een gebruikersinterface die overeenkomt met wat je hebt beschreven.

Dit is waanzinnig. Met GPT-3 heb ik een layoutgenerator gebouwd waar je gewoon een beschrijving geeft van elke layout die je wilt, en het genereert de JSX-code voor je. W A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 juli 2020

Shameem liet zien dat hij met een enkele zin een hele programma kon beschrijven door een gebruikersinterface met meerdere knoppen te beschrijven, zij het een eenvoudig programma zoals het berekenen van basisaritmetica en het weergeven van het resultaat, en GPT-3 zou alle code ervoor genereren en de werkende app weergeven.

Ik heb zojuist een *functionerende* React-app gebouwd door te beschrijven wat ik wilde GPT-3. Ik ben nog steeds onder de indruk. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 juli 2020

OpenAI heeft "tot nu toe tienduizenden aanvragen ontvangen voor API-toegang en we zijn terughoudend met toegang, terwijl we ontdekken wat deze modellen in de echte wereld kunnen doen," aldus het bedrijf tegen ZDNet. "Daarom kan de wachtlijst lang zijn."

De prijsbepaling voor een eventuele commerciële service moet nog worden bepaald. Op de vraag wanneer het programma uit de bètafase zal komen, antwoordde OpenAI aan ZDNet, "niet binnenkort."

"Het vrijgeven van zo'n krachtig model betekent dat we langzaam moeten gaan en doordacht moeten zijn over de impact ervan op bedrijven, industrieën en mensen," aldus het bedrijf. "De opzet van een API stelt ons in staat om het gebruik ervan zorgvuldig te bestuderen en te modereren, maar we hebben geen haast om het algemeen beschikbaar te stellen gezien de beperkingen ervan."

Als je ongeduldig bent met de beta-wachtlijst, kun je in de tussentijd de vorige versie, GPT-2, downloaden. Deze kan worden uitgevoerd op een laptop met behulp van een Docker-installatie. De broncode is gepost in hetzelfde Github-opslagplaats, in Python-formaat voor het TensorFlow-framework. Natuurlijk krijg je niet dezelfde resultaten als GPT-3, maar het is een manier om jezelf vertrouwd te maken.

Onthoud ook dat er voortdurend nieuwe taalmodellen verschijnen met vergelijkbare mogelijkheden, en sommige daarvan kunnen voldoende zijn voor jouw doeleinden. Bijvoorbeeld, Google heeft onlangs een versie van zijn BERT taalmodel uitgebracht, genaamd LaBSE, die een opmerkelijke verbetering in taalvertaling laat zien. Het is beschikbaar om te downloaden vanuit de TensorFlow Hub.

Ook: OpenAI's gigantische GPT-3 hint naar de limieten van taalmodellen voor AI

WAT IS DE GESCHIEDENIS VAN GPT-3?

GPT-3, onthuld in mei, is de derde versie van een programma dat voor het eerst werd geïntroduceerd in 2018 door OpenAI en vorig jaar werd gevolgd door GPT-2. De drie programma's zijn een voorbeeld van snelle innovatie op het gebied van taalmodellen, dankzij twee grote ontwikkelingen die beide plaatsvonden in 2015.

De eerste vooruitgang was het gebruik van wat bekend staat als aandacht. AI-wetenschapper Yoshua Bengio en zijn collega's van het Mila-instituut voor AI in Montreal merkten op dat taalmodellen bij het comprimeren en vervolgens decomprimeren van een Engelse zin allemaal een vector van een vaste lengte gebruikten. Elke zin werd in dezelfde grootte vector gepropt, ongeacht de lengte van de zin.

Bengio en zijn team kwamen tot de conclusie dat deze rigide aanpak een beperking was. Een taalmodel zou in staat moeten zijn om te zoeken naar veel vectoren van verschillende lengtes om de woorden te vinden die de conditionele waarschijnlijkheid optimaliseren. En dus bedachten ze een manier om het neurale netwerk woorden flexibel samen te laten drukken tot vectoren van verschillende groottes, en om het programma in staat te stellen flexibel te zoeken naar de context die belangrijk zou zijn. Dit noemden ze aandacht.

Aandacht werd een cruciaal element in taalmodellen. Het werd twee jaar later gebruikt door wetenschappers bij Google om een taalmodellenprogramma genaamd de Transformer te creëren. De Transformer behaalde ongelofelijke scores bij tests van taalmanipulatie. Het werd hét taalmodel en werd door Google gebruikt om BERT te creëren, nog een zeer succesvol taalmodel. De Transformer werd tevens de basis van GPT-1.

Vrij van de noodzaak om een vastomlijnde vector van vaste grootte rigide te manipuleren, zou de Transformer en zijn afstammelingen zich vrij kunnen bewegen over verschillende delen van een gegeven tekst en voorwaardelijke afhankelijkheden kunnen vinden die een veel grotere context bestrijken.

Die vrijheid legde de basis voor nog een innovatie die in 2015 werd geïntroduceerd en die nog centraler stond in het werk van OpenAI, bekend als onbegeleid leren.

De focus tot die tijd voor de meeste taalmodellen lag op begeleid leren met wat bekend staat als gelabelde gegevens. Gegeven een invoer, wordt een neuraal netwerk ook voorzien van een voorbeelduitvoer als de objectieve versie van het antwoord. Dus, als de taak vertaling is, kan een Engelse zin de invoer zijn, en een door de mens gemaakte Franse vertaling zou worden geleverd als het gewenste doel, en het paar zinnen vormen een gelabeld voorbeeld.

De poging van het neurale netwerk om een Franse vertaling te genereren zou worden vergeleken met de officiële Franse zin, en het verschil tussen de twee is hoeveel het neurale netwerk fout zit in het maken van zijn voorspellingen, wat bekend staat als de verliesfunctie of objectieve functie.

De trainingsfase is bedoeld om deze foutmarge tussen de voorgestelde output van het neurale netwerk en de doeloutput te verkleinen. Wanneer de foutmarge zo klein mogelijk is, is de objectieve functie geoptimaliseerd en wordt het neurale netwerk van het taalmodel als getraind beschouwd.

Maar het probleem is dat het verkrijgen van de gewenste output met zorg gelabeld moet worden, omdat dit veel datacuratie vereist, zoals het samenstellen van voorbeeldzinnen door menselijke beoordeling. Dit is tijdrovend en kostbaar. Andrew Dai en Quoc Le van Google stelden zich voor dat het mogelijk was om het benodigde gelabelde data te verminderen als het taalmodel eerst ongesuperviseerd werd getraind.

In plaats van een zinpaar te krijgen, kreeg het netwerk alleen enkele zinnen en moest elke zin comprimeren naar een vector en vervolgens decomprimeren naar de originele zin. Spiegeling werd de verliesfunctie om te optimaliseren. Ze ontdekten dat hoe meer ongelabelde voorbeelden op deze manier werden gecomprimeerd en gedecomprimeerd, hoe meer ze veel gelabelde gegevens konden vervangen bij taken zoals vertaling.

In 2018 combineerde het OpenAI-team deze twee elementen: het aandachtsmechanisme dat Bengio en zijn collega's ontwikkelden, dat zou rondzwerven over vele woordvectoren, en de ongesuperviseerde voorafgaande training aanpak van Dai en Le, die grote hoeveelheden tekst zou verwerken, comprimeren en decomprimeren om de oorspronkelijke tekst te reproduceren.

Ze namen een standaard Transformer en voerden het de inhoud van de BookCorpus, een database samengesteld door de Universiteit van Toronto en MIT, met meer dan 7.000 gepubliceerde boekteksten met bijna een miljoen woorden, in totaal 5GB. GPT-1 werd getraind om die boeken te comprimeren en decomprimeren.

Zo begon een driejarige geschiedenis van steeds grotere datasets. De onderzoekers van OpenAI, met de hypothese dat meer data het model nauwkeuriger maakte, rekte de grenzen op van wat het programma kon verwerken. Met GPT-2 verwierpen ze de BookCorpus ten gunste van een zelfgemaakte dataset, bestaande uit acht miljoen webpagina's verzameld van uitgaande links op Reddit, met een totaal van 40GB aan data.

De training van GPT-3 is nog groter en omvat de populaire CommonCrawl dataset van webpagina's van 2016 tot 2019. Het heeft nominally een grootte van 45TB aan gecomprimeerde tekstgegevens, hoewel OpenAI het heeft samengesteld om duplicaten te verwijderen en de kwaliteit anderszins te verbeteren. De uiteindelij

HOE IS GPT-3 AFHANKELIJK VAN REKENKRACHT?

Met de komst van GPT-1, 2 en 3 is de schaal van rekenkracht een essentieel ingrediënt geworden voor vooruitgang. De modellen gebruiken steeds meer computerkracht tijdens het trainen om betere resultaten te behalen.

Wat optimaliseert een neuraal netwerk tijdens training is de aanpassing van de gewichten. De gewichten, die ook wel parameters worden genoemd, zijn matrices, arrays van rijen en kolommen waarmee elke vector wordt vermenigvuldigd. Door vermenigvuldiging worden de vele vectoren van woorden, of woordfragmenten, meer of minder gewicht toegekend in de uiteindelijke output, terwijl het neurale netwerk is afgestemd om de foutkloof te verkleinen.

OpenAI ontdekte dat ze steeds meer gewichten moesten toevoegen om goed te presteren op hun steeds groter wordende datasets.

De oorspronkelijke Transformer van Google had 110 miljoen gewichten. GPT-1 volgde dit ontwerp. Met GPT-2 werd het aantal verhoogd tot 1,5 miljard gewichten. Met GPT-3 is het aantal parameters gegroeid tot 175 miljard, waardoor GPT-3 het grootste neurale netwerk is dat de wereld ooit heeft gezien.

Vermenigvuldiging is een eenvoudige zaak, maar wanneer 175 miljard gewichten moeten worden vermenigvuldigd met elke bit van de invoerdata, over miljarden bytes aan data, wordt het een ongelooflijke oefening in parallel computer processing.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Al in 2018, met GPT-1, duwde OpenAI de grenzen van praktische computerkracht. Het vergaren van meer data betekende het vergaren van meer GPU's. Eerdere taalmodellen pasten op één enkele GPU omdat de modellen zelf klein waren. GPT-1 heeft een maand gekost om te trainen op acht GPU's die parallel werkten.

Met GPT-3 is OpenAI een beetje terughoudend geweest. Het heeft de exacte computerconfiguratie die voor de training is gebruikt niet beschreven, behalve dat het op een cluster van Nvidia V100-chips draaide in Microsoft Azure. Het bedrijf beschreef de totale rekencycli die nodig waren en gaf aan dat dit overeenkomt met het uitvoeren van duizend biljoen zwevendekomma-bewerkingen per seconde per dag gedurende 3.640 dagen.

Computerfabrikant en cloudexploitant Lambda Computing heeft geschat dat het een enkele GPU 355 jaar zou kosten om zoveel berekeningen uit te voeren, wat bij een standaard cloud GPU-instanceprijs $4,6 miljoen zou kosten. En dan is er nog het geheugen. Om alle gewichtswaarden vast te houden, is steeds meer geheugen nodig naarmate het aantal parameters toeneemt. De 175 miljard parameters van GPT-3 vereisen 700 GB, 10 keer meer dan het geheugen op een enkele GPU.

Het is dat soort enorme behoefte aan energie die het vakgebied van computerchips voortstuwt. Het heeft de aandelenkoers van Nvidia, de dominante leverancier van GPU's voor AI-training, de afgelopen tien jaar met bijna 5.000% doen stijgen. Het heeft geleid tot een reeks start-upbedrijven die gesteund worden door honderden miljoenen dollars aan durfkapitaalfinanciering, waaronder Cerebras Systems, Graphcore en Tachyum. De concurrentie zal blijven bloeien zolang het bouwen van steeds grotere modellen de koers van het vakgebied blijft.

OpenAI heeft zijn eigen onderzoek geproduceerd naar de groeiende computerkracht die nodig is. Het bedrijf merkte al in 2018 op dat de rekencycli die worden verbruikt door de grootste AI-trainingsmodellen elke 3,4 maanden verdubbelen sinds 2012, een snellere groeisnelheid dan het geval was voor de beroemde wet van Moore van de groei van chiptransistoren. (Bedenk wel dat het bedrijf ook onderzoek heeft geproduceerd waaruit blijkt dat de steeds grotere modellen op een eenheidsbasis efficiënter blijken te zijn dan eerdere neurale netwerken die hetzelfde werk deden.)

Er zijn al modellen in ontwikkeling die meer dan een biljoen parameters gebruiken, volgens bedrijven die op de hoogte zijn van topgeheime AI-projecten. Dat is waarschijnlijk niet de limiet, zolang hyperscale-bedrijven zoals Google bereid zijn hun enorme datacenters te wijden aan steeds grotere modellen. De meeste AI-onderzoekers zijn het erover eens dat groter en groter de norm zal zijn voor machine learning-modellen voor de komende tijd.

"Wat betreft de impact op AI als vakgebied, is het meest opwindende deel van GPT-3 dat het laat zien dat we nog lang niet bij de grenzen zijn van het opschalen van AI," zei Kenny Daniel, CTO van AI-beheerstools leverancier Algorithmia, tegen ZDNet.

Naast het stimuleren van het gebruik van rekenkracht, zal de grootste impact van GPT-3 duidelijk zijn verbetering van de snelheid van programmeren en applicatieontwikkeling in het algemeen. De demonstratie van Shameem van een JSX-programma dat eenvoudig wordt opgebouwd door een zin te typen, is slechts het topje van de ijsberg.

WAT ZIJN DE GEBREKEN VAN GPT-3?

Ondanks aanzienlijke verbeteringen ten opzichte van de vorige versie heeft GPT-3 nog steeds veel beperkingen, zoals de auteurs zelf aangeven. "Hoewel de kwaliteit als geheel hoog is, herhalen GPT-3-voorbeelden zich soms nog steeds semantisch op documentniveau en verliezen ze samenhang bij voldoende lange passages," merken ze op in het gepubliceerde artikel.

Het programma presteert ook niet goed bij verschillende individuele tests. "Specifiek heeft GPT-3 moeite met vragen van het type 'Als ik kaas in de koelkast leg, zal het smelten?' schrijven de auteurs, waarbij ze de soort gezond verstand dingen beschrijven die GPT-3 ontgaan."

Er was zoveel opwinding kort na de lancering van GPT-3 dat de CEO van het bedrijf, Sam Altman, publiekelijk zei dat mensen hun enthousiasme moesten temperen.

"De hype rondom GPT-3 is veel te groot," tweette Altman op 19 juli. "Het is indrukwekkend (bedankt voor de mooie complimenten!), maar het heeft nog steeds ernstige zwaktes en maakt soms heel domme fouten," schreef hij. "AI gaat de wereld veranderen, maar GPT-3 is slechts een vroege glimp. We hebben nog veel uit te zoeken."

De hype rondom GPT-3 is veel te groot. Het is indrukwekkend (dank voor de mooie complimenten!), maar het heeft nog steeds ernstige zwaktes en maakt soms erg domme fouten. AI gaat de wereld veranderen, maar GPT-3 is gewoon een zeer vroege blik. We moeten nog veel uitzoeken.

— Sam Altman (@sama) 19 juli 2020

Andere mensen buiten OpenAI hebben ook hun eigen realiteitscheck gegeven. Een ervaren gebruiker van meerdere generaties GPT, Max Woolf, heeft op zijn persoonlijke blog geschreven dat GPT-3 beter is dan wat eraan voorafging, maar alleen gemiddeld genomen. Er is een spectrum aan kwaliteit van de gegenereerde tekst, zodat sommige voorbeelden opmerkelijk lijken, en andere helemaal niet zo goed. Woolf vergelijkt GPT-3 met Apple's Siri, die de verontrustende gewoonte heeft om op veel momenten onzin te produceren. (Woolf's essay is de moeite waard om volledig te lezen voor een doordrachte analyse van GPT-3.)

Inderdaad, naarmate men meer GPT-3 voorbeelden leest, vooral lange tekstfragmenten, zal het initiële enthousiasme ongetwijfeld verminderen. GPT-3 verliest na verloop van tijd het verhaal, zoals ze zeggen. Ongeacht het genre of de taak, wordt de tekstuele output omslachtig en saai, met interne inconsistenties in de verhaallijn die naar voren komen.

Sommige programmeurs hebben, ondanks hun enthousiasme, de vele tekortkomingen geanalyseerd, zoals GPT-3's mislukte pogingen tot vadergrappen. Bij een vadergrap als invoer, "Wat zei het ene bord tegen het andere?," is de juiste vadergrap pointe, "Het diner staat op mij!" Maar GPT-3 zou in plaats daarvan kunnen antwoorden met het niet-grappige, "Dompel me!"

Menselijke input: V. Wat zei het ene bord tegen het andere bord?

GPT-3 gegenereerde aanvulling: A. Dompel me onder!

Terwijl GPT-3 in staat is om zogenaamd algemene vragen te beantwoorden, zoals hoeveel ogen een giraffe heeft, kan het geen onzinvraag afweren en wordt het verleid tot het geven van een onzinnig antwoord. Als het wordt gevraagd: "Hoeveel ogen heeft mijn voet?," zal het braaf antwoorden: "Mijn voet heeft twee ogen."

Een manier om over al die middelmatigheid na te denken is dat het verkrijgen van goede output van GPT-3 tot op zekere hoogte vereist dat er geïnvesteerd wordt in het creëren van effectieve prompts. Sommige door mensen bedachte prompts zullen het programma betere resultaten opleveren dan andere prompts. Het is een nieuwe versie van het gezegde "rotzooi erin, rotzooi eruit". Prompts lijken een nieuw domein van programmering op zichzelf te worden, waar zowel handigheid als vindingrijkheid voor nodig zijn.

Vooroordelen zijn een belangrijke overweging, niet alleen bij GPT-3 maar bij alle programma's die vertrouwen op conditionele distributie. De onderliggende benadering van het programma is om precies terug te geven wat erin wordt gestopt, als een spiegel. Dat heeft het potentieel om vooroordelen in de data te repliceren. Er is al een wetenschappelijke discussie geweest over uitgebreide vooroordelen in GPT-2.

Met GPT-3 waarschuwde Nvidia AI-wetenschapper Anima Anandkumar dat de neiging om bevooroordeelde resultaten te produceren, inclusief racistische en seksistische resultaten, aanhoudt.

Ik ben verontrust om te zien dat dit zonder enige verantwoording voor vooringenomenheid is vrijgegeven. Het is getraind op de @reddit tekstverzameling met enorme #racisme en #seksisme. Ik heb met deze modellen gewerkt en de tekst die ze hebben geproduceerd is schokkend vooringenomen. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 juni 2020

Gevraagd naar kritiek van Anandkumar, vertelde OpenAI aan ZDNet: "Net als bij alle steeds krachtiger wordende generatieve modellen, zijn eerlijkheid en misbruik zorgen van ons."

"Dit is een van de redenen waarom we deze technologie delen via API en beginnen met een privé-bèta," zei OpenAI tegen ZDNet. Het bedrijf merkt op dat het "gebruikssituaties zal ondersteunen die volgens ons fysieke of mentale schade aan mensen veroorzaken, waaronder maar niet beperkt tot intimidatie, opzettelijke misleiding, radicalisering, astroturfing of spam."

OpenAI heeft aan ZDNet laten weten dat het gebruik maakt van een bekende vorm van white hat, black hat wargaming om gevaren in het programma te detecteren:

We hebben wat we een 'rood team' noemen ingezet, dat constant belast is met het doorbreken van het contentfiltratiesysteem zodat we meer kunnen leren over hoe en waarom het model slechte resultaten oplevert. Het tegenovergestelde is het 'blauwe team' dat belast is met het meten en verminderen van bias.

Nog een groot probleem is de zeer brede, laagste-gemene-deler aard van GPT-3, het feit dat het alleen de dikste deel van de curve van voorwaardelijke waarschijnlijkheid versterkt. Er is wat bekend staat als de lange staart, en soms een dikke staart, van een waarschijnlijkheidsverdeling. Dit zijn minder voorkomende gevallen die de meest innovatieve voorbeelden van taalgebruik kunnen vormen. De focus leggen op het nabootsen van de meest voorkomende tekst in een samenleving riskeert creativiteit en verkenning te onderdrukken.

Voorlopig is het antwoord van OpenAI op dat probleem een instelling die men kan aanpassen in GPT-3 genaamd een temperatuurwaarde. Door met deze knop te spelen, kan GPT-3 worden afgesteld om minder waarschijnlijke woordcombinaties te kiezen en daardoor mogelijk meer ongebruikelijke tekst te produceren.

Een belangrijke zorg voor een bedrijf is dat men GPT-3 niet kan afstellen met bedrijfsspecifieke gegevens. Zonder iets te kunnen afstellen, is het moeilijk om GPT-3 te specialiseren voor een industriële sector, bijvoorbeeld. Het zou kunnen zijn dat elk bedrijf dat de API-service gebruikt uiteindelijk tekst heeft die verder bewerkt moet worden om deze geschikt te maken voor een specifiek domein. Misschien zullen start-ups zoals Sapling een ecosysteem vormen, vergelijkbaar met VAR's, die dat probleem oplossen. Misschien, maar dat moet nog blijken.

Als dat nog niet zorgwekkend genoeg was, is er nog een ander probleem, namelijk dat GPT-3 als een black box functioneert. Dat betekent dat bedrijven die de service gebruiken geen idee hebben hoe het tot zijn output komt - een bijzonder riskante aangelegenheid als men rekening houdt met kwesties van vooringenomenheid. Een ecosysteem van partijen, zoals Sapling, die GPT-3 verbeteren, kan tegelijkertijd extra lagen van verhulling toevoegen terwijl ze de service verbeteren.

Als een subonderdeel van het black box probleem kan GPT-3 in sommige gevallen eenvoudigweg onthouden wat het van internet heeft opgenomen. Dat roept auteursrechtelijke kwesties op. Als een bedrijf output van de API-service gebruikt die auteursrechtelijk beschermd materiaal bevat, kan dat bedrijf inbreuk maken op het auteursrecht van een andere entiteit. Op de vraag over auteursrecht heeft OpenAI aan ZDNet aangegeven dat het auteursrecht voor de door GPT-3 gegenereerde tekst "in handen is van de gebruiker, niet van OpenAI." Wat dat in de praktijk betekent moet nog blijken.

Op dit moment is de grootste praktische tekortkoming de schaal die vereist is voor het trainen en uitvoeren van GPT-3. OpenAI erkent dit in het formele artikel. De auteurs schrijven dat er werk gedaan moet worden om te berekenen hoe de kosten van grote modellen geamortiseerd worden over tijd, gebaseerd op de waarde van de geproduceerde output.

Ook: Nee, deze AI kan je zin niet afmaken

LEERT GPT-3 ECHT?

Met de enge betekenis van het woord is GPT-3 aan het leren in de zin dat zijn parametergewichten automatisch worden afgestemd door het opnemen van de trainingsdata, zodat het taalmodel beter wordt dan wat alleen de expliciete programmering zou mogelijk maken. In die zin is GPT-3 een vooruitgang in de decennialange zoektocht naar een computer die een functie kan leren om data te transformeren zonder dat een mens die functie expliciet codeert.

Met dat gezegd te hebben, zal men zich afvragen of de machine echt intelligent is of daadwerkelijk leert. Er zijn tal van manieren om daarover te discussiëren, maar een oppervlakkige reflectie suggereert dat veel van wat we menselijk denken zouden noemen hier niet plaatsvindt.

Stel je voor dat je in je brein een numerieke score zou kunnen bijhouden voor hoe vaak woorden waarschijnlijk samen zullen voorkomen. Zou je zeggen dat jouw vermogen om zinnen, alinea's en hele passages tekst te vormen doordacht is? Je zou waarschijnlijk zeggen dat het slechts statistisch is en dat er iets anders ontbreekt.

Er zijn vergelijkingen gemaakt tussen deep learning en de beroemde Clever Hans, een Duitse paard wiens meester hem in het openbaar liet zien als een dier dat in staat was om rekenkundige taken met zijn hoeven uit te voeren. Later werd ontdekt dat Hans reageerde op lichamelijke aanwijzingen van zijn meester om op zijn hoef te stampen, en dat hij zonder de aanwijzingen geen prestaties kon leveren.

Op dezelfde manier blijkt de menselijke kwaliteit van GPT-3 bij nader onderzoek niet te kloppen. Wanneer GPT-3 een juist antwoord geeft op een waar-onwaar vraag over een essay over vastgoed in New York, komt dat niet doordat het programma iets afweet van vastgoed of New York. Het heeft de kansverdeling opgeslagen die beweringen in teksten vastlegt en het format van een vraag-uitspraakpaar, en het kan deze reproduceren in de uitvoer.

Hans wist niets van rekenkunde, hoewel Hans ter verdediging wel intelligentie had. In het geval van neurale netwerken zullen critici zeggen dat alleen de trucjes er zijn, zonder enig gezond verstand.

Niettemin kan intelligentie en leren vele dingen betekenen, en de doelpalen zijn in de loop der jaren verplaatst voor wat verondersteld wordt kunstmatige intelligentie te zijn, zoals Pamela McCorduck, een historica op het gebied, uiteengezet heeft. Sommigen zouden kunnen betogen dat een programma dat waarschijnlijkheden kan berekenen over uitgestrekte verzamelingen tekst een ander soort intelligentie kan zijn, wellicht een buitenaardse intelligentie anders dan de onze. Het opzij zetten ervan lijkt voorbarig.

Bovendien zijn de neurale netwerken die deze voorwaardelijke waarschijnlijkheden teweegbrengen meer dan alleen statistische programma's. Hun berekeningen zijn het opkomende eigenschap van meerdere gelijktijdige wiskundige bewerkingen die parallel plaatsvinden, namelijk het afstemmen van parametergewichten. Als het mogelijk is om andere vormen van intelligentie te overwegen, dan kan een opkomende eigenschap zoals de gedistribueerde representaties die binnen neurale netwerken ontstaan een plek zijn om naar te kijken.

WAT IS DE TOEKOMST VAN GPT-3?

Eén ding lijkt zeker: GPT-3 heeft een nieuw hoofdstuk geopend in machine learning. Zijn meest opvallende kenmerk is zijn algemeenheid. Slechts een paar jaar geleden werden neurale netwerken gebouwd met functies afgestemd op een specifieke taak, zoals vertaling of vraagbeantwoording. Datasets werden samengesteld om die taak weer te geven. In plaats daarvan heeft GPT-3 geen taakspecifieke functies en heeft het geen speciale dataset nodig. Het verslindt eenvoudigweg zoveel mogelijk tekst van waar dan ook en spiegelt het in zijn uitvoer.

Op de een of andere manier, bij de berekening van de voorwaardelijke kansverdeling over al die gigabytes aan tekst, ontstaat er een functie die antwoorden kan genereren die op elk aantal taken concurrerend zijn. Het is een adembenemende triomf van eenvoud die waarschijnlijk nog vele jaren van prestatie voor zich heeft.

Zelfs die algemeenheid kan echter zijn grens bereiken. De auteurs van GPT-3 merken al aan het einde van hun paper op dat de richting van pre-training uiteindelijk mogelijk uitgeput kan raken. "Een meer fundamentele beperking van de algemene aanpak die in dit paper wordt beschreven [...], is dat het uiteindelijk de grenzen van het pretraining-doel zou kunnen bereiken (of misschien al heeft bereikt)".

De auteurs suggereren dat veelbelovende nieuwe richtingen "het leren van het objectieve doelfunctie door mensen" kunnen omvatten, en het combineren van andere soorten diep leren, zoals de "versterking leren" benadering gebruikt in DeepMind's AlphaZero om te winnen bij schaken en go. (Ze zijn al begonnen met het implementeren van dergelijke benaderingen. Begin september toonden OpenAI-auteurs aan dat ze versterking leren konden gebruiken om GPT-3 te trainen om betere samenvattingen van artikelen te produceren door het taalmodel enige feedback van mensen te geven over welke samenvattingen beter klinken.)

Een ander advies dat ze geven is het toevoegen van andere gegevenstypen, zoals afbeeldingen, om het "model van de wereld" van het programma aan te vullen.

Inderdaad, de komende jaren zal naar verwachting deze zeer algemene benadering zich verspreiden naar andere modaliteiten dan tekst, zoals afbeeldingen en video. Stel je een programma voor zoals GPT-3 dat afbeeldingen naar woorden kan vertalen en vice versa, zonder enige specifieke algoritme om de relatie tussen beide te modelleren. Het zou bijvoorbeeld "leren" tekstuele scènebeschrijvingen kunnen halen uit foto's of de fysieke opeenvolging van gebeurtenissen kunnen voorspellen op basis van tekstuele beschrijvingen.

Facebook AI-directeur Yann LeCun heeft betoogd dat ongesuperviseerde training in verschillende vormen de toekomst is van diep leren. Als dat waar is, kan de pre-training methode toegepast op meerdere modaliteiten van data, van stem tot tekst tot afbeeldingen tot video, gezien worden als een zeer veelbelovende toekomstige richting van de ongesuperviseerde golf.