OpenAI GPT-4 komt medio maart 2023 aan

gpt-4-640b66db8c60d-sej-1520x800.jpg

Microsoft Duitsland CTO, Andreas Braun, heeft bevestigd dat GPT-4 binnen een week na 9 maart 2023 zal uitkomen en dat het multimodaal zal zijn. Multimodale AI betekent dat het in staat zal zijn om te werken met verschillende soorten invoer, zoals video, afbeeldingen en geluid.

Bijgewerkt: GPT-4 vrijgegeven op 14 maart 2023

OpenAI heeft GPT-4 uitgebracht op 14 maart 2023. Het is een multimodaal model dat afbeeldings- en tekstprompts accepteert.

Modal is een term die wordt gebruikt in machine learning om vormen van invoer aan te geven, zoals tekst maar ook zintuigen zoals geluid, visueel, geur, etc.

De aankondiging van OpenAI beschreef de omvang van de vooruitgangen van GPT-4:

"… hoewel minder bekwaam dan mensen in veel realistische situaties, vertoont het mensniveau prestaties op verschillende professionele en academische benchmarks.

Bijvoorbeeld, het slaagt voor een gesimuleerd bar-examen met een score die rond de top 10% van de afnemers ligt; in tegenstelling tot GPT-3.5, waarvan de score rond de onderste 10% lag."

"We hebben 6 maanden besteed aan het iteratief afstemmen van GPT-4 met behulp van lessen uit ons tegenwoordige testprogramma, evenals ChatGPT, wat heeft geresulteerd in onze beste resultaten ooit (hoewel verre van perfect) op het gebied van feitelijkheid, stuurbaarheid en het weigeren om buiten de spoorrails te gaan."

Multimodale Grote Taalmodellen

Het belangrijkste punt uit de aankondiging is dat GPT-4 multimodaal is (SEJ voorspelde in januari 2023 GPT-4 is multimodaal).

Modaliteit verwijst naar het invoertype waar een groot taalmodel (in dit geval) mee omgaat.

Multimodaal kan tekst, spraak, afbeeldingen en video omvatten.

GPT-3 en GPT-3.5 werkten alleen in één modaliteit, tekst.

Volgens het Duitse nieuwsbericht kan GPT-4 mogelijk werken in ten minste vier modaliteiten: beelden, geluid (auditief), tekst en video.

Dr. Andreas Braun, CTO Microsoft Germany wordt geciteerd:

"Volgende week introduceren wij GPT-4. Daar zullen we multimodale modellen hebben die volledig verschillende mogelijkheden bieden - bijvoorbeeld video's..."

De rapportage ontbrak specifieke informatie voor GPT-4, dus het is onduidelijk of wat werd gedeeld over multimodaliteit specifiek was voor GPT-4 of gewoon in het algemeen.

Microsoft Director Business Strategy Holger Kenn legde multimodaliteiten uit, maar het verslag was onduidelijk of hij verwees naar GPT-4 multimodaliteit of multimodaliteit in het algemeen.

Ik geloof dat zijn verwijzingen naar multimodaliteit specifiek waren voor GPT-4.

Het nieuwsbericht deelde:

"Kenn legde uit waar multimodale AI over gaat, wat tekst niet alleen adequaat kan vertalen naar afbeeldingen, maar ook naar muziek en video."

Nog een interessant feit is dat Microsoft werkt aan "betrouwbaarheidsindicatoren" om hun AI te onderbouwen met feiten en het betrouwbaarder te maken.

Microsoft Kosmos-1

Iets wat blijkbaar onderbelicht is gebleven in de Verenigde Staten, is dat Microsoft begin maart 2023 een multimodaal taalmodel genaamd Kosmos-1 heeft uitgebracht.

Volgens het rapport van de Duitse nieuwssite, Heise.de:

“...het team onderwierp het vooraf getrainde model aan verschillende tests, met goede resultaten bij het classificeren van afbeeldingen, het beantwoorden van vragen over afbeeldingsinhoud, geautomatiseerd labelen van afbeeldingen, optische tekstherkenning en spraakgeneratietaken.

...Visueel redeneren, oftewel conclusies trekken over afbeeldingen zonder taal als tussenstap te gebruiken, lijkt hier een sleutel te zijn...

Kosmos-1 is een multimodale modus die de modaliteiten van tekst en afbeeldingen integreert.

GPT-4 gaat verder dan Kosmos-1 omdat het een derde modaliteit toevoegt, namelijk video, en het lijkt ook de modaliteit van geluid te omvatten.

Werkt in meerdere talen

GPT-4 lijkt te werken in alle talen. Het wordt beschreven als in staat om een vraag te ontvangen in het Duits en te antwoorden in het Italiaans.

Dat is eigenlijk een vreemd voorbeeld, want wie zou er nu een vraag stellen in het Duits en een antwoord willen krijgen in het Italiaans?

Dit is wat werd bevestigd:

"...de technologie is zover gekomen dat het in feite "werkt in alle talen": je kunt een vraag stellen in het Duits en een antwoord krijgen in het Italiaans."

Met multimodaliteit zal Microsoft(-OpenAI) 'de modellen uitgebreid maken'."

Ik geloof dat het punt van de doorbraak is dat het model taal overstijgt met zijn vermogen om kennis uit verschillende talen te halen. Dus als het antwoord in het Italiaans is, zal het dit weten en in staat zijn om het antwoord te geven in de taal waarin de vraag werd gesteld.

Dit zou het vergelijkbaar maken met het doel van Google's multimodale AI genaamd MUM. MUM wordt gezegd om antwoorden te kunnen bieden in het Engels waarvoor de gegevens alleen beschikbaar zijn in een andere taal, zoals Japans.

Toepassingen van GPT-4

Er is momenteel geen aankondiging van waar GPT-4 zal verschijnen. Maar Azure-OpenAI werd specifiek genoemd.

Google heeft moeite om Microsoft bij te benen door een concurrerende technologie in zijn eigen zoekmachine te integreren. Deze ontwikkeling verergert verder de perceptie dat Google achterloopt en leiderschap mist op het gebied van AI voor consumenten.

Google integreert al AI in meerdere producten zoals Google Lens, Google Maps en andere gebieden waarmee consumenten interactie hebben met Google. Deze benadering is bedoeld om AI te gebruiken als ondersteunende technologie, om mensen te helpen bij kleine taken.

De manier waarop Microsoft het implementeert is meer zichtbaar en trekt daardoor alle aandacht, waardoor het beeld van Google als struggelend en achteropkomend wordt versterkt.

Lees hier de officiële aankondiging van de release van OpenAI GPT-4.

Lees het originele Duitse verslag hier:

GPT-4 komt volgende week - en het zal multimodaal zijn, zegt Microsoft Duitsland

Gerelateerde Artikelen

Bekijk meer >>

Ontgrendel de kracht van AI met HIX.AI!