Hoe het ChatGPT-watermerk werkt en waarom het kan worden verslagen

OpenAI's ChatGPT introduceerde een manier om automatisch inhoud te creëren, maar plannen om een watermerkfunctie te introduceren om het gemakkelijk te kunnen detecteren, maken sommige mensen nerveus. Dit is hoe ChatGPT-watermerken werken en waarom er misschien een manier is om het te omzeilen.

ChatGPT is een ongelooflijke tool waar online uitgevers, gelieerde ondernemingen en SEO's tegelijkertijd van houden en tegenop zien.

Sommige marketeers zijn er dol op omdat ze nieuwe manieren ontdekken om het te gebruiken om korte inhoudsopgaven, overzichten en complexe artikelen te genereren.

Online uitgevers zijn bang voor het vooruitzicht dat AI-inhoud de zoekresultaten overspoelt en deskundige artikelen die door mensen zijn geschreven, verdringt.

Bijgevolg wordt ook met angst en hoop geanticipeerd op nieuws over een watermerkfunctie die detectie van door ChatGPT geschreven inhoud ontgrendelt.

Cryptografisch watermerk

Een watermerk is een semi-transparante markering (een logo of tekst) die is ingesloten in een afbeelding. Het watermerk geeft aan wie de oorspronkelijke auteur van het werk is.

Het is grotendeels te zien op foto's en steeds vaker in video's.

Het watermerken van tekst in ChatGPT omvat cryptografie in de vorm van het inbedden van een patroon van woorden, letters en interpunctie in de vorm van een geheime code.

Scott Aaronson en ChatGPT Watermerken

Een invloedrijke computerwetenschapper genaamd Scott Aaronson werd in juni 2022 ingehuurd door OpenAI om te werken aan AI Safety and Alignment.

AI Safety is een onderzoeksgebied dat zich bezighoudt met het bestuderen van manieren waarop AI schadelijk kan zijn voor mensen en het creëren van manieren om dat soort negatieve verstoringen te voorkomen.

Het wetenschappelijke tijdschrift Distill, met auteurs die zijn aangesloten bij OpenAI, definieert AI Safety als volgt:

"Het doel van langdurige kunstmatige intelligentie (AI) veiligheid is ervoor te zorgen dat geavanceerde AI-systemen op betrouwbare wijze zijn afgestemd op menselijke waarden - dat ze op betrouwbare wijze dingen doen die mensen willen dat ze doen."

AI Alignment is het gebied van kunstmatige intelligentie dat ervoor zorgt dat de AI is afgestemd op de beoogde doelen.

Een groot taalmodel (LLM) zoals ChatGPT kan worden gebruikt op een manier die in strijd kan zijn met de doelen van AI Alignment zoals gedefinieerd door OpenAI, namelijk het creëren van AI die de mensheid ten goede komt.

Dienovereenkomstig is de reden voor watermerken het voorkomen van misbruik van AI op een manier die de mensheid schaadt.

Aaronson legde de reden uit voor het watermerken van ChatGPT-uitvoer:

"Dit kan natuurlijk nuttig zijn om academisch plagiaat te voorkomen, maar bijvoorbeeld ook om massale propaganda te genereren ..."

Hoe werkt ChatGPT-watermerken?

ChatGPT-watermerken is een systeem dat een statistisch patroon, een code, insluit in de keuze van woorden en zelfs leestekens.

Inhoud gemaakt door kunstmatige intelligentie wordt gegenereerd met een redelijk voorspelbaar patroon van woordkeuze.

De woorden geschreven door mensen en AI volgen een statistisch patroon.

Het wijzigen van het patroon van de woorden die in gegenereerde inhoud worden gebruikt, is een manier om de tekst van een "watermerk" te voorzien, zodat een systeem gemakkelijk kan detecteren of deze het product was van een AI-tekstgenerator.

De truc die het watermerken van AI-inhoud ondetecteerbaar maakt, is dat de distributie van woorden nog steeds een willekeurig uiterlijk heeft, vergelijkbaar met normale door AI gegenereerde tekst.

Dit wordt een pseudowillekeurige verdeling van woorden genoemd.

Pseudowillekeur is een statistisch willekeurige reeks woorden of getallen die niet echt willekeurig zijn.

ChatGPT-watermerken worden momenteel niet gebruikt. Scott Aaronson van OpenAI heeft echter verklaard dat het gepland is.

Op dit moment bevindt ChatGPT zich in previews, waardoor OpenAI "verkeerde uitlijning" kan ontdekken door gebruik in de echte wereld.

Vermoedelijk kan watermerken worden geïntroduceerd in een definitieve versie van ChatGPT of eerder.

Scott Aaronson schreef over hoe watermerken werken:

“Mijn belangrijkste project tot nu toe was een tool voor het statistisch watermerken van de output van een tekstmodel zoals GPT.
Kortom, wanneer GPT een lange tekst genereert, willen we dat er een anderszins onmerkbaar geheim signaal in de woordkeuze zit, dat u later kunt gebruiken om te bewijzen dat, ja, dit afkomstig was van GPT.

Aaronson legde verder uit hoe ChatGPT-watermerken werken. Maar eerst is het belangrijk om het concept van tokenisatie te begrijpen.

Tokenisatie is een stap die plaatsvindt bij de verwerking van natuurlijke taal, waarbij de machine de woorden in een document neemt en ze opsplitst in semantische eenheden zoals woorden en zinnen.

Tokenisatie verandert tekst in een gestructureerde vorm die kan worden gebruikt in machine learning.

Het proces van het genereren van tekst is de machine die raadt welk token het volgende is op basis van het vorige token.

Dit wordt gedaan met een wiskundige functie die de waarschijnlijkheid bepaalt van wat het volgende token zal zijn, wat een kansverdeling wordt genoemd.

Welk woord het volgende is, wordt voorspeld, maar het is willekeurig.

Het watermerk zelf is wat Aaron omschrijft als pseudo-willekeurig, in die zin dat er een wiskundige reden is voor een bepaald woord of leesteken, maar het is nog steeds statistisch willekeurig.

Hier is de technische uitleg van GPT-watermerken:

"Voor GPT is elke invoer en uitvoer een reeks tokens, die woorden kunnen zijn, maar ook leestekens, delen van woorden of meer - er zijn in totaal ongeveer 100.000 tokens.
In de kern genereert GPT constant een kansverdeling over het volgende te genereren token, afhankelijk van de reeks eerdere tokens.
Nadat het neurale net de distributie heeft gegenereerd, bemonstert de OpenAI-server in feite een token volgens die distributie, of een gewijzigde versie van de distributie, afhankelijk van een parameter die 'temperatuur' wordt genoemd.
Zolang de temperatuur echter niet nul is, zal er meestal wat willekeur zijn bij de keuze van het volgende token: je zou keer op keer dezelfde prompt kunnen herhalen en elke keer een andere voltooiing krijgen (d.w.z. een reeks uitvoertokens). .
Dus om het volgende token van een watermerk te voorzien, in plaats van willekeurig het volgende token te selecteren, zal het idee zijn om het pseudowillekeurig te selecteren, met behulp van een cryptografische pseudowillekeurige functie, waarvan de sleutel alleen bekend is bij OpenAI.

Het watermerk ziet er volkomen natuurlijk uit voor degenen die de tekst lezen, omdat de woordkeuze de willekeur van alle andere woorden nabootst.

Dit is de technische uitleg:

“Ter illustratie: in het speciale geval dat GPT een aantal mogelijke tokens had die even waarschijnlijk werden geacht, kon je gewoon kiezen welk token g maximaliseerde. De keuze zou uniform willekeurig lijken voor iemand die de sleutel niet kende, maar iemand die de sleutel wel kende, zou later alle n-grammen kunnen optellen en zien dat het abnormaal groot was.

Watermerken is een oplossing waarbij privacy voorop staat

Ik heb discussies gezien op sociale media waar sommige mensen suggereerden dat OpenAI elke output die het genereert zou kunnen bijhouden en dat zou kunnen gebruiken voor detectie.

Scott Aaronson bevestigt dat OpenAI dat zou kunnen doen, maar dat dit een privacyprobleem oplevert. De mogelijke uitzondering is voor wetshandhavingssituaties, waar hij niet verder op inging.

Hoe ChatGPT of GPT-watermerken te detecteren

Iets interessants dat nog niet goed bekend lijkt te zijn, is dat Scott Aaronson opmerkte dat er een manier is om het watermerk te omzeilen.

Hij zei niet dat het mogelijk is om het watermerk te verslaan, hij zei dat het te verslaan is.

“Nu kan dit allemaal worden verslagen met voldoende inspanning.
Als je bijvoorbeeld een andere AI hebt gebruikt om de uitvoer van GPT te parafraseren, dan kunnen we dat niet detecteren.'

Het lijkt erop dat het watermerk kan worden verslagen, althans vanaf november, toen de bovenstaande uitspraken werden gedaan.

Er zijn geen aanwijzingen dat het watermerk momenteel in gebruik is. Maar wanneer het in gebruik komt, kan het onbekend zijn of deze maas in de wet is gesloten.

Citaat

Lees hier de blogpost van Scott Aaronson.