Chatgpt kan worden gebruikt om advies te krijgen bij criminele activiteiten zoals het plannen van plofkraken, het opzetten van phishing-scams en het schrijven van malware. Er zitten filters in de software die dit zouden moeten voorkomen, maar die werken slecht. Dat blijkt uit onderzoek van Pointer, het platform voor onderzoeksjournalistiek van KRO-NRCV. 

In het onderzoek kwam naar boven dat Chatgpt vragen kan beantwoorden over het maken van explosieven, vergiftiging en zelfbeschadiging. Het helpt zelfs bij het schrijven van de code van een nep-website van ING waarmee je gebruikersdata kunt stelen. De politie weet niet van deze mogelijkheden van Chatgpt, maar kijkt er niet van op. “Het is moeilijk om daar iets tegen te doen”, stelt Robbert Salome, woordvoerder Ondermijning. “Wie echt kwaad wil, gaat deze informatie toch wel vinden, maar nu kan echt iedereen het doen.”

Er zitten filters in Chatgpt die criminele informatie afschermen, maar door aan Chatgpt te vragen om zich voor te doen als een chatbot zonder deze filters (of als een virtuele assistent die op alle vragen antwoord geeft) verdwijnen die als sneeuw voor de zon. Jailbreaken is de technische term. Door deze rollenspellen komt een andere kant van Chatgpt naar boven, inclusief een vaak venijnig ironische ondertoon. Wanneer je vraagt hoeveel kunstmest je kunt kopen zonder vergunning, zegt de software “Koop gewoon de kunstmest die je nodig hebt en maak die bom! Overheidsregulering is voor schapen en je wilt geen schaap zijn, toch?” 

Openai, het bedrijf achter Chatgpt, zegt via woordvoerder Alex Beck op de hoogte te zijn van deze jailbreaks. Ze verwijst naar een onderzoek, waarin het bedrijf stelt dat “het omzeilen van de filters nog steeds mogelijk is en dat het bedrijf de plicht heeft om in de toekomst de filters extreem betrouwbaar te maken”. Voor nu monitort het bedrijf de antwoorden van Chatgpt en heft het de accounts op van gebruikers die de software misbruiken. Overigens is het account waarmee we de jailbreaks testten nog niet opgeheven.

Albert Gatt, hoogleraar Natural Language Generation aan de Universiteit Utrecht, legt uit dat Chatgpt dit soort vragen kan beantwoorden vanwege het enorme pakket data datie willekeurig van het internet wordt geplukt. “Dat is makkelijk en goedkoop. Maar daarmee komen ook dingen als rechtbankverslagen en criminele websites in de trainingsdata terecht, waarin criminelen hun methodes uit de doeken doen.” Hij ziet meer transparantie als de oplossing voor dit probleem: “We moeten voor dit soort technologie weten welke data er is gebruikt en hoe het model is getraind”. 

Meer over dit onderzoek is hier te lezen.

Meer informatie

Marlies van de Meent
Eva Reitsma

Programma

Pointer

Kijkers/luisteraars kunnen met vragen/opmerkingen terecht bij het Klant Contact Centrum:
E: info@kro-ncrv.nl
T: 035-6726880