ChatGPT kan code schrijven. Nu zeggen onderzoekers dat het ook goed is in het oplossen van bugs

De ChatGPT-chatbot van OpenAI kan softwarefouten zeer goed oplossen, maar zijn belangrijkste voordeel ten opzichte van andere methoden en AI-modellen is zijn unieke vermogen om met mensen in dialoog te gaan, wat het mogelijk maakt om de juistheid van een antwoord te verbeteren.

Onderzoekers van de Johannes Gutenberg Universiteit Mainz en University College London zetten OpenAI's ChatGPT tegenover "standaard geautomatiseerde programma reparatietechnieken" en twee deep-learning benaderingen voor programma reparaties: CoCoNut, ontwikkeld door onderzoekers aan de Universiteit van Waterloo, Canada; en Codex, het op GPT-3 gebaseerde model van OpenAI dat de basis vormt voor de Copilot-samenwerkingsdienst voor automatische code-aanvulling van GitHub.

Ook: Hoe aan de slag te gaan met ChatGPT

"We ontdekken dat de bugfix-prestaties van ChatGPT concurrerend zijn met de gangbare deep learning-aanpakken CoCoNut en Codex, en opmerkelijk beter dan de resultaten die worden gerapporteerd voor de standaard-programmareparatie-aanpakken," schrijven de onderzoekers in een nieuw arXiv-artikel, voor het eerst opgemerkt door New Scientist.

De beste AI-chatbots: ChatGPT en andere interessante alternatieven om uit te proberen

AI chatbots en schrijvers kunnen je werklast verlichten door e-mails en essays te schrijven en zelfs wiskunde te doen. Ze gebruiken kunstmatige intelligentie om tekst te genereren of vragen te beantwoorden op basis van gebruikersinvoer. ChatGPT is één populair voorbeeld, maar er zijn ook andere opmerkelijke chatbots.

Lees nu

Het is niet nieuw dat ChatGPT gebruikt kan worden om coderingsproblemen op te lossen, maar de onderzoekers benadrukken dat zijn unieke vermogen om in dialoog te gaan met mensen het een potentieel voordeel geeft ten opzichte van andere benaderingen en modellen.

De onderzoekers hebben de prestaties van ChatGPT getest met behulp van de QuixBugs bug-fixing benchmark. Het lijkt erop dat de geautomatiseerde programma reparatiesystemen (APR-systemen) in het nadeel zijn omdat ze ontwikkeld zijn vóór 2018.

ChatGPT is gebaseerd op de transformer-architectuur, die deze week werd benadrukt door Yann LeCun, de AI-chef van Meta, dat is ontwikkeld door Google. Codex, CodeBERT van Microsoft Research en zijn voorganger BERT van Google zijn allemaal gebaseerd op Google's transformer-methode.

OpenAI benadrukt de dialoogmogelijkheid van ChatGPT in voorbeelden voor het debuggen van code, waarbij het kan vragen om verduidelijking en hints kan ontvangen van een persoon om tot een beter antwoord te komen. Het heeft de grote taalmodellen achter ChatGPT (GPT-3 en GPT 3.5) getraind met behulp van Versterkend Leren van Menselijke Feedback (RLHF).

Terwijl de mogelijkheid van ChatGPT om te discussiëren kan helpen bij het vinden van een meer correct antwoord, blijft de kwaliteit van de suggesties onduidelijk, merken de onderzoekers op. Daarom wilden ze de bugfix-prestaties van ChatGPT evalueren.

De onderzoekers hebben ChatGPT getest op 40 Python-only problemen van QuixBugs, en vervolgens handmatig gecontroleerd of de voorgestelde oplossing correct was of niet. Ze herhaalden de query vier keer omdat er wat willekeurigheid is in de betrouwbaarheid van de antwoorden van ChatGPT, zoals een professor van Wharton ontdekte na de chatbot een MBA-achtig examen te hebben laten afleggen.

ChatGPT heeft 19 van de 40 Python-bugs opgelost, waardoor het vergelijkbaar is met CoCoNut (19) en Codex (21). Maar standaard APR-methoden hebben slechts zeven van de problemen opgelost.

De onderzoekers ontdekten dat het succespercentage van ChatGPT bij opvolgingsinteracties op 77,5% uitkwam.

De implicaties voor ontwikkelaars op het gebied van inspanning en productiviteit zijn echter dubbelzinnig. Stack Overflow heeft onlangs ChatGPT-generieerde antwoorden verboden omdat ze van lage kwaliteit waren maar plausibel klonken. De professor van Wharton ontdekte dat ChatGPT een geweldige metgezel kan zijn voor MBA-studenten, omdat het een "slimme consultant" kan spelen - iemand die elegante maar vaak onjuiste antwoorden produceert - en kritisch denken bevordert.

"Dit toont aan dat menselijke input van grote hulp kan zijn voor een geautomatiseerd APR-systeem, waarbij ChatGPT de middelen biedt om dat te doen," schrijven de onderzoekers.

"Ondanks de uitstekende prestaties rijst de vraag of de mentale kosten die nodig zijn om de antwoorden van ChatGPT te verifiëren opwegen tegen de voordelen die ChatGPT met zich meebrengt."

ChatGPT kan code schrijven. Nu zeggen onderzoekers dat het ook goed is in het oplossen van bugs.

De beste AI-chatbots: ChatGPT en andere interessante alternatieven om uit te proberen

Gerelateerde Artikelen