Deze nieuwe technologie kan GPT-4 en alles wat daarop lijkt wegblazen

Voor al het enthousiasme over het chatbot-AI-programma genaamd ChatGPT, van OpenAI, en zijn opvolgerstechnologie GPT-4, zijn de programma's uiteindelijk gewoon softwaretoepassingen. En net als alle toepassingen hebben ze technische beperkingen die hun prestaties suboptimaal kunnen maken.

In een in maart gepubliceerd artikel hebben kunstmatige intelligentie (AI) wetenschappers van de Universiteit van Stanford en het MILA-instituut voor AI in Canada een technologie voorgesteld die veel efficiënter zou kunnen zijn dan GPT-4 - of wat dan ook - in het verwerken van enorme hoeveelheden gegevens en het omzetten ervan in een antwoord.

Ook: Deze voormalige Apple medewerkers willen smartphones vervangen door dit apparaat

Bekend als Hyena, is de technologie in staat om een equivalent nauwkeurigheid te behalen bij benchmark-tests, zoals vraag-en-antwoord, terwijl het slechts een fractie van de computerkracht gebruikt. In sommige gevallen kan de Hyena-code hoeveelheden tekst verwerken die ervoor zorgen dat GPT-stijl technologie simpelweg te weinig geheugen heeft en faalt.

"Onze veelbelovende resultaten op de sub-miljard parameter schaal suggereren dat aandacht misschien niet alles is wat we nodig hebben", schrijven de auteurs. Die opmerking verwijst naar de titel van een baanbrekend AI-rapport uit 2017, 'Aandacht is alles wat je nodig hebt'. In dat artikel introduceerden Google-wetenschapper Ashish Vaswani en collega's de wereld aan het Transformer AI-programma van Google. De Transformer werd de basis voor elk van de recente grote taalmodellen.

Maar de Transformer heeft een groot nadeel. Het maakt gebruik van iets wat "aandacht" wordt genoemd, waarbij het computerprogramma informatie uit een groep symbolen, zoals woorden, neemt en die informatie naar een nieuwe groep symbolen verplaatst, zoals het antwoord dat je ziet van ChatGPT, dat de output is.

Ook:Wat is GPT-4? Hier is alles wat je moet weten

Die aandachtoperatie - het essentiële gereedschap van alle grote taalprogramma's, waaronder ChatGPT en GPT-4 - heeft een "kwadratische" computationele complexiteit (Wiki "tijdcomplexiteit" van berekening). Die complexiteit betekent dat de tijd die ChatGPT nodig heeft om een antwoord te genereren toeneemt met het kwadraat van de hoeveelheid gegevens die als invoer wordt gegeven.

Op een gegeven moment, als er te veel data is - te veel woorden in de prompt, of te veel reeksen gesprekken over uren en uren chatten met het programma - dan wordt het programma traag bij het geven van een antwoord, of het moet steeds meer GPU-chips krijgen om sneller te kunnen draaien, wat leidt tot een toename in rekeneisen.

In het nieuwe artikel 'Hyena Hiërarchie: Op weg naar grotere Convolutional Language Models', gepost op de voorpublicatie-server arXiv, stellen hoofdauteur Michael Poli van Stanford en zijn collega's voor om de aandachtsfunctie van de Transformer te vervangen door iets sub-kwadratisch, namelijk Hyena.

Ook:Wat is Auto-GPT? Alles wat je moet weten over de volgende krachtige AI-tool

De auteurs leggen de naam niet uit, maar men kan zich verschillende redenen voorstellen voor een "Hyena" programma. Hyena's zijn dieren die in Afrika leven en kilometerslang kunnen jagen. In zekere zin zou een zeer krachtig taalmodel als een hyena kunnen zijn, die kilometerslang jaagt om voeding te vinden.

Maar de auteurs zijn echt bezorgd over "hiërarchie", zoals de titel suggereert, en hyenafamilies hebben een strikte hiërarchie waarbij leden van een lokale hyenaklan variërende niveaus van rang hebben die dominantie vaststellen. Op een vergelijkbare manier past het Hyena-programma steeds weer een reeks zeer eenvoudige bewerkingen toe, zoals u zult zien, zodat ze samenkomen om een soort hiërarchie van gegevensverwerking te vormen. Het is dat combinatorische element dat het programma zijn Hyena-naam geeft.

Ook:Toekomstige versies van ChatGPT kunnen volgens Ben Goertzel een meerderheid van het werk dat mensen vandaag de dag doen vervangen

De papieren bijdragende auteurs omvatten grootheden uit de wereld van AI, zoals Yoshua Bengio, wetenschappelijk directeur van MILA, die de Turing Award 2019 heeft ontvangen, de equivalent van de Nobelprijs in de informatica. Bengio wordt algemeen erkend als de ontwikkelaar van het aandachtsmechanisme lang voordat Vaswani en zijn team het hebben aangepast voor de Transformer.

Ook onder de auteurs bevindt zich Christopher Ré, universitair hoofddocent computerwetenschappen aan de Stanford Universiteit, die in de afgelopen jaren heeft bijgedragen aan de ontwikkeling van het idee van AI als "software 2.0".

Om een sub-kwadratische alternatief voor aandacht te vinden, gingen Poli en het team aan de slag met het bestuderen van hoe het aandachtsmechanisme doet wat het doet, om te zien of dat werk efficiënter gedaan kan worden.

Een recente praktijk in AI-wetenschap, bekend als mechanistische interpretatie, levert inzichten op over wat er zich diep binnenin een neurale netwerk afspeelt, binnen de computationele "circuits" van aandacht. Je kunt het vergelijken met het uit elkaar halen van software, zoals je dat zou doen bij een klok of een pc, om de onderdelen te bekijken en te achterhalen hoe het werkt.

Ook:Ik heb ChatGPT gebruikt om dezelfde routine te schrijven in 12 top programmeertalen. Hier is hoe het ging

Een door Poli en zijn team geciteerd werk is een reeks experimenten van onderzoeker Nelson Elhage van AI-startup Anthropic. Die experimenten halen de Transformer-programma's uit elkaar om te zien wat aandacht doet.

In wezen ontdekte Elhage en zijn team dat aandacht op zijn meest basale niveau werkt door middel van zeer eenvoudige computertaken, zoals het kopiëren van een woord uit recente invoer en plakken in de uitvoer.

Bijvoorbeeld, als iemand begint met typen in een groot taalmodelprogramma zoals ChatGPT een zin uit Harry Potter en de Steen der Wijzen, zoals "Meneer Dursley was de directeur van een bedrijf genaamd Grunnings...", zou het alleen typen van "D-u-r-s", het begin van de naam, voldoende kunnen zijn om het programma de naam "Dursley" af te laten maken omdat het de naam eerder heeft gezien in een voorgaande zin van Steen der Wijzen. Het systeem kan vanuit het geheugen de reeks karakters "l-e-y" kopiëren om de zin automatisch aan te vullen.

Ook: Volgens futurist is ChatGPT meer een 'alien intelligence' dan een menselijk brein

Echter, de aandachtsoperatie loopt tegen het probleem van de kwadratische complexiteit aan naarmate het aantal woorden groeit en groeit. Meer woorden vereisen meer van wat bekend staat als "gewichten" of parameters, om de aandachtsoperatie uit te voeren.

Zoals de auteurs schrijven: "Het Transformer-blok is een krachtige tool voor sequentiemodellering, maar het heeft ook zijn beperkingen. Een van de meest opvallende is de berekeningskosten, die snel toenemen naarmate de lengte van de invoersequentie toeneemt."

Hoewel de technische details van ChatGPT en GPT-4 nog niet zijn vrijgegeven door OpenAI, wordt vermoed dat ze mogelijk een biljoen of meer van zulke parameters hebben. Het draaien van die parameters vereist meer GPU-chips van Nvidia, waardoor de berekeningskosten stijgen.

Om die kwadratische rekenkosten te verminderen, vervangt Poli en het team de aandachtsoperatie door wat een "convolutie" wordt genoemd, een van de oudste bewerkingen in AI-programma's, verfijnd in de jaren 1980. Een convolutie is gewoon een filter die items in gegevens kan selecteren, hetzij de pixels in een digitale foto of de woorden in een zin.

Ook:ChatGPT's succes zou kunnen leiden tot een gevaarlijke neiging naar geheimhouding in AI, zegt AI-pionier Bengio

Poli en het team doen een soort mash-up: ze nemen het werk dat is gedaan door de onderzoeker Daniel Y. Fu en zijn team van Stanford om convolutionele filters toe te passen op sequenties van woorden, en ze combineren dat met het werk van wetenschapper David Romero en zijn collega's aan de Vrije Universiteit Amsterdam, waardoor het programma de filtergrootte dynamisch kan aanpassen. Deze flexibele aanpassingsmogelijkheid vermindert het aantal kostbare parameters of gewichten die het programma nodig heeft.

Het resultaat van de mash-up is dat een convolutie kan worden toegepast op een onbeperkte hoeveelheid tekst zonder dat er steeds meer parameters nodig zijn om steeds meer gegevens te kopiëren. Het is een "aandachtsvrije" aanpak, zoals de auteurs het verwoorden.

"Hyena-operators zijn in staat om het kwaliteitsverschil met aandacht op grote schaal aanzienlijk te verkleinen," schrijven Poli en het team, "door een vergelijkbare perplexiteit en prestaties op downstream te bereiken met een kleiner computationeel budget." Perplexiteit is een technische term die verwijst naar hoe geavanceerd het antwoord is dat wordt gegenereerd door een programma zoals ChatGPT.

Om het vermogen van Hyena te demonstreren, testen de auteurs het programma tegen een reeks benchmarks die bepalen hoe goed een taalprogramma is in verschillende AI-taken.

Ook: 'Er gebeuren vreemde nieuwe dingen in software,' zegt Chris Ré, AI-professor aan Stanford

Een test is De Stapel, een verzameling van 825 gigabyte aan teksten samengesteld in 2020 door Eleuther.ai, een non-profit AI-onderzoeksinstituut. De teksten zijn verzameld uit "kwalitatief hoogwaardige" bronnen zoals PubMed, arXiv, GitHub, het Amerikaanse Octrooibureau en andere, zodat de bronnen een meer rigoureuze vorm hebben dan alleen Reddit-discussies, bijvoorbeeld.

De belangrijkste uitdaging voor het programma was om het volgende woord te produceren wanneer een reeks nieuwe zinnen als invoer werd gegeven. Het Hyena-programma slaagde erin een score te behalen die gelijkwaardig is aan het oorspronkelijke GPT-programma van OpenAI uit 2018, met 20% minder rekenoperaties. "De eerste aandachtsvrije, convolutie-architectuur die de kwaliteit van GPT evenaart" met minder operaties, schrijven de onderzoekers.

Vervolgens hebben de auteurs het programma getest op redeneertaken die bekend staan als SuperGLUE en in 2019 zijn geïntroduceerd door wetenschappers aan de Universiteit van New York, Facebook AI-onderzoek, Google's DeepMind-eenheid en de Universiteit van Washington.

Bijvoorbeeld, wanneer de zin gegeven is: "Mijn lichaam wierp een schaduw op het gras", en er twee alternatieven zijn voor de oorzaak, "de zon kwam op" of "het gras was gemaaid", en men gevraagd wordt om één van beide te kiezen, moet het programma "de zon kwam op" als de juiste uitvoer genereren.

In meerdere taken behaalde het Hyena-programma scores die vergelijkbaar waren met die van een versie van GPT, terwijl het getraind was met minder dan de helft van de trainingsdata.

En ook: Hoe gebruik je de nieuwe Bing (en hoe verschilt het van ChatGPT)

Nog interessanter is wat er gebeurde toen de auteurs de lengte van de zinnen verhoogden die als input werden gebruikt: meer woorden resulteerden in een betere verbetering van de prestaties. Bij 2.048 "tokens", die je kunt beschouwen als woorden, heeft Hyena minder tijd nodig om een taak in een taal te voltooien dan de aandachtsbenadering.

Bij 64.000 tokens melden de auteurs: "Hyena-snelheidsverbeteringen bereiken 100x" - een verbetering van de prestaties met een factor honderd.

Poli en zijn team stellen dat ze niet alleen een andere aanpak hebben geprobeerd met Hyena, ze hebben de "kwadratische barrière doorbroken", wat zorgt voor een kwalitatieve verandering in hoe moeilijk het is voor een programma om resultaten te berekenen.

Ze suggereren dat er ook mogelijk belangrijke verschuivingen in kwaliteit zijn verderop de weg: "Het doorbreken van de kwadratische barrière is een belangrijke stap richting nieuwe mogelijkheden voor diep leren, zoals het gebruiken van hele leerboeken als context, het genereren van muziek van lange vorm of het verwerken van afbeeldingen op gigapixelschaal," schrijven ze.

De mogelijkheid voor de Hyena om een filter te gebruiken dat veel efficiënter over duizenden en duizenden woorden kan strekken, schrijven de auteurs, betekent dat er praktisch geen grens is aan de "context" van een vraag aan een taalprogramma. Het zou in feite elementen van teksten of eerdere gesprekken kunnen onthouden die ver verwijderd zijn van de huidige gespreksdraad - net als hyena's die mijlenver jagen.

Ook: De beste AI-chatbots: ChatGPT en andere leuke alternatieven om uit te proberen

"Hyena-operators hebben onbegrensde context," schrijven ze. "Namelijk, ze worden niet kunstmatig beperkt door bijvoorbeeld nabijheid, en kunnen langetermijnafhankelijkheden leren tussen elk van de elementen van [input]."

Bovendien kan het programma niet alleen worden toegepast op woorden, maar ook op gegevens van verschillende modaliteiten, zoals afbeeldingen en mogelijk video en geluiden.

Het is belangrijk om op te merken dat het Hyena-programma dat in het artikel wordt getoond qua omvang klein is in vergelijking met GPT-4 of zelfs GPT-3. Terwijl GPT-3 175 miljard parameters of gewichten heeft, heeft de grootste versie van Hyena slechts 1,3 miljard parameters. Het is dan ook nog de vraag hoe goed Hyena het zal doen in een volledige rechtstreekse vergelijking met GPT-3 of 4.

Maar als de behaalde efficiëntie ook geldt voor grotere versies van het Hyena-programma, zou het een nieuw paradigma kunnen zijn dat net zo alomtegenwoordig is als aandacht is geweest in het afgelopen decennium.

Zoals Poli en het team concluderen: "Eenvoudigere subkwadratische ontwerpen zoals Hyena, gebaseerd op een set eenvoudige richtlijnen en evaluatie op mechanistische interpreteerbaarheidsbenchmarks, kunnen de basis vormen voor efficiënte grote modellen."

Deze nieuwe technologie kan GPT-4 en alles wat daarop lijkt omver blazen

Gerelateerde Artikelen