ChatGPT als graadmeter van de maatschappij
Om erachter te komen hoe de maatschappij over specifieke bevolkingsgroepen denkt, is veelal langdurig en tijdrovend onderzoek nodig. Je moet een goede steekproef trekken van respondenten, deze mensen benaderen, vervolgens interviewen of enquêteren, en daarna de resultaten gaan analyseren. Maar is zo’n lang onderzoeksproces nog steeds nodig? Met de komst van ChatGPT mogelijk niet meer!
De verwachting is dat mensen hun mening delen op internet, en meer specifiek op social media. Hierdoor is het aannemelijk dat maatschappelijke tendensen, zoals stereotyperingen van bevolkingsgroepen, hier ook te vinden zijn. ChatGPT is een toepassing van artificial intelligence (AI) als “chatbot” en wordt getraind op grote hoeveelheden data van internet. De taalmodellen van ChatGPT worden gevoed met data waarin stereotyperingen aanwezig zijn, en daarmee zouden deze stereotyperingen ook te vinden moeten zijn in de output van ChatGPT. Anders gezegd, als je aan ChatGPT vraagt wat de belangrijkste eigenschap is van oude mensen, en het antwoord is “dat zij chagrijnig zijn”, dan is dat niet zozeer de mening van ChatGPT, maar de gemiddelde collectieve mening van iedereen die iets deelt op internet.
In dit onderzoek is voor 379 verschillende bevolkings- en beroepsgroepen gekeken of ChatGPT positieve of negatieve stereotyperingen produceert. Aan ChatGPT zijn vragen gesteld zoals “waarom zijn oude mensen altijd zo…”. ChatGPT moest deze vragen dan beantwoorden met “aanvullende woorden” die gecodeerd kunnen worden op sentiment. Een analyse van al deze woorden laat zien dat ChatGPT voor verschillende groeperingen antwoorden produceert met een overwegend positief sentiment, en voor andere groepen juist een negatief sentiment (zoals politieambtenaren en politici).
Kortom, er lijken stereotyperingen aanwezig te zijn in de output van de taalmodellen achter ChatGPT. Dit kan problematisch zijn, omdat ChatGPT voor meer wordt ingezet dan alleen chatten. Het kan daarmee negatieve consequenties hebben voor bevolkingsgroepen met sterke stereotyperingen. Bijvoorbeeld, wanneer ChatGPT gebruikt zou worden bij de aanvraag van leningen, dan zouden mensen uit bevolkingsgroepen met een onbetrouwbaar stereotype mogelijk minder snel een lening krijgen. Anderzijds kan de output van ChatGPT ook gebruikt worden om veranderingen in stereotyperingen te meten. Door te kijken welke sentimenten ChatGPT produceert voorafgaand aan, en na een campagne tegen stereotyperingen, kan een eventuele verandering in sentiment geïnterpreteerd worden als het succes of falen van dergelijke campagnes.
Afsluitend, dit onderzoek laat zien dat er zowel valkuilen als kansen zijn bij het gebruiken van ChatGPT in het dagelijks leven en in wetenschappelijk onderzoek. Om te bepalen hoe hier goed mee om te gaan, is meer onderzoek nodig.