April 20, 2023
Hoe weet je of een kennisbron als ChatGPT deugt?
De werkwijze van AI-kennissystemen (zoals ChatGPT) moet transparant en controleerbaar zijn. Dit is cruciaal voor de betrouwbaarheid van dit soort kennisbronnen, waar steeds meer burgers en overheden uit putten.
Vorige week deed Adrian Joseph, chief technology van BT Group, een opmerkelijke oproep: de Britse overheid moet investeren in ‘BritGPT’, een tekstgenerator (Large Language Model) voor de training van enorme bergen data. De ontwikkeling van dit soort AI-systemen komt razendsnel in handen van enkele bedrijven, met name Microsoft en Google. In de toekomst vormen ze waarschijnlijk een noodzakelijke basisinfrastructuur voor specialistische kennisbots. Zoals waterzuiveringsinstallaties, energiegeneratoren en rioolsystemen nodig zijn voor het functioneren van bedrijven, scholen en huishoudens, zo zijn deze modellen straks nutsvoorzieningen voor alle AI-gedreven sectoren.
En daarom moeten ze open en publiek blijven — en dat is niet hetzelfde. ‘Open’ betekent dat deze modellen vrij toegankelijk zijn voor controle. ‘Publiek’ betekent dat kennis een openbaar en gemeenschappelijk goed is. De zelflerende systemen GPT (Generative Pre-trained Transformer, eigendom van OpenAI en Microsoft) en PaLM (Pathways Language Model, in bezit van Alphabet-Google) worden getraind met miljarden data uit miljoenen, merendeels open bronnen, van Wikipedia tot programmeercode op GitHub.
Zo is GPT-3.5 het resultaat van een trainingsprocedure met wel 175 miljard parameters. Zowel input als proces vormen een zwarte doos die meestal dicht blijft voor buitenstaanders. AI-wetenschappers zouden ten minste inzicht moeten krijgen in de samenstelling van de data waarop zo’n generatief model getraind is, maar die toegang verschaffen ligt in de macht van de eigenaren.
Van belastinggeld
Het is niet de eerste keer dat de verwerking van openbare data tot publieke wetenschap gefrustreerd wordt. Zo lanceerde DeepMind (een AI-tak van Alphabet/Google) in 2021 AlphaFold2, een model waarmee 3D-structuren van aminozuren kunnen worden voorspeld, belangrijk voor de ontwikkeling van medicijnen. Als trainingsdata gebruikte DeepMind 170.000 proteïnestructuren van de Protein Data Bank, die minutieus wordt geïnventariseerd door onderzoeksgroepen uit de hele wereld. Het product op basis van deze noeste wetenschappelijke arbeid, betaald met belastinggeld, werd door DeepMind geclaimd als ‘hun’ wetenschappelijke doorbraak.
Met behulp van AI-systemen zoals GPT en PaLM wordt open, publieke data dus getransformeerd tot besloten, geprivatiseerde kennis. Omdat dit proces ontoegankelijk is voor wetenschappers, kunnen zij niet controleren of de onderliggende modellen deugen. Dit laatste is essentieel voor een betrouwbare kennismaatschappij. Kennis is geen verhandelbaar product, maar een dynamisch gemeenschappelijk goed, opgebouwd uit historische data en verwerkt met behulp van verifieerbare methoden. Niet alleen voor wetenschappers zijn de zwarte dozen van GPT en PaLM problematisch, ook voor rechters, journalisten en onderwijzers. Immers, we willen feiten en cijfers kunnen verifiëren, we willen controleren of bronnen betrouwbaar zijn of origineel. Ook willen we weten of data niet gemanipuleerd zijn of vervuild door vooroordelen.
“Niet alleen voor wetenschappers zijn de zwarte dozen van GPT en PaLM problematisch, ook voor rechters, journalisten en onderwijzers”
De vraag is wat de beste remedie is om de AI-infrastructuur open en publiek te houden. Zien we AImodellen als een technologische wedloop die gaat over nationale soevereiniteit, dan moeten we publieke kennis veiligstellen door bijvoorbeeld in te zetten op BritGPT, zoals Adrian Joseph wil, of door te investeren in OpenGPT-X, een Europees-Duits initiatief verwant aan Gaia-X. Beschouwen we deze modellen als een kennisinfrastructuur, dan moeten we ook investeren in technologieën die zorgen dat de onderliggende datasets van AI-modellen herkenbaar en verifieerbaar blijven, zoals ‘watermarking’ en traceertechnologie.
Europese actie
Het wettelijk reguleren van AI-modellen en hun toegankelijkheid is vooral een taak voor de Europese Unie. De European Data Act, de Artificial Intelligence Act en de Data Governance Act die momenteel in de maak zijn, zetten sterk in op Europese standaarden voor transparant datagebruik. Bovendien maken ze een onderscheid tussen de data van publieke organisaties, bedrijven en privépersonen. Om de toegang tot tekstgeneratoren te kunnen reguleren moeten we ze ‘uitlegbaar’ maken: de makers moeten aangeven op basis van welke (publieke) waarden bepaalde filtertechnieken zijn gekozen. Handhaving kan door interdisciplinaire teams die een officiële audit uitvoeren.
Inderdaad, grote tekstgeneratoren en zelflerende systemen zijn complex, maar dat mag geen reden zijn om producten als ChatGPT gesloten te houden voor wetenschappers en toezichthouders. Van de bankencrisis hebben we geleerd: hoe ingewikkelder en ondoorzichtig het ‘product’, hoe urgenter het is om uitlegbaarheid af te dwingen bij bedrijven.
Misschien is de belangrijkste remedie daarom wel een educatieve: het verbeteren van AIgeletterdheid. Overheden en burgers moeten leren dat AI-bots geen Delphi-orakels zijn die onweerlegbare waarheden uitspuwen, maar technologieën die om kritische ontleding vragen. Ze vormen schakeltjes in de kennisketen die mensen samen met machines ontwikkelen. Open kennis gedijt het beste als publiek goed.
This opinion article was originally published in the Financieele Dagblad (FD, The Financial Daily Newspaper) on 9 March 2023