Het trainen van ai-systemen met gebruikersdata ligt onder vuur. Openbare posts, foto’s en reacties worden vaak zonder expliciete toestemming gebruikt. Dat kan leiden tot het verlies van controle over persoonlijke gegevens. Er zijn grote privacybezwaren en wetgeving is aangescherpt. Maar wat zijn de alternatieven? We zetten ze op een rij.
Onlangs waarschuwde de Autoriteit Persoonsgegevens gebruikers van Instagram en Facebook voor moederbedrijf Meta dat artificiële intelligence (ai) wil trainen met gegevens uit sociale-media-posts. Willen gebruikers dat niet, dan hebben ze tot 27 mei 2025 om bezwaar te maken. In dat geval gebruikt Meta niet automatisch gebruikersgegevens voor het trainen van Meta AI.
In Europa is er vaak discussie over de naleving van de Algemene Verordening Gegevensbescherming (AVG). Sommige bedrijven, zoals Meta, gebruiken een opt-out-model, waarbij gebruikers actief bezwaar moeten maken. Dit wordt als problematisch gezien omdat expliciete toestemming (opt-in) vaak vereist is. Het is voor gebruikers sowieso vaak onduidelijk hoe hun data worden gebruikt of wat de gevolgen zijn. Dit gebrek aan transparantie voedt vaak het wantrouwen.
In plaats van echte gebruikersdata kunnen bedrijven synthetische data gebruiken, die worden gegenereerd door algoritmes die patronen en eigenschappen van echte datasets nabootsen, zonder dat er persoonlijke of gevoelige informatie wordt gebruikt. Zo worden dit soort data gebruikt voor statistische modellen. Deze modellen analyseren de relaties en patronen in echte datasets en gebruiken die om vergelijkbare gegevens te creëren. Bijvoorbeeld, een dataset met demografische gegevens kan worden gesimuleerd door statistische distributies te gebruiken.
Ook voor simulaties wordt vaak gebruik gemaakt van synthetische data. Hierbij worden scenario’s gesimuleerd om data te genereren die bepaalde omstandigheden nabootsen. Een voorbeeld is de simulatie van verkeersstromen om gegevens te creëren voor stadsplanning. Er zijn open source-tools beschikbaar zoals BlueGen.ai en Substra die synthetische data genereren voor specifieke toepassingen, zoals gezondheidszorg en financiële analyses. Synthetische data bieden voordelen zoals verbeterde privacy en toegankelijkheid, maar het vereist een zorgvuldige implementatie om de kwaliteit en betrouwbaarheid ervan te waarborgen. Een partij die veel werkt met synthetische data is het CBS.
Een ander alternatief voor het trainen van ai-systemen met gebruikersdata is ‘federated learning’. Dat is een gedecentraliseerde en privacyvriendelijke vorm van machine learning. In plaats van data naar een centrale server te sturen, wordt het machine learning-model naar de data gebracht. Dit betekent dat gevoelige gegevens lokaal blijven en niet worden gedeeld, terwijl alleen geanonimiseerde resultaten worden uitgewisseld. Deze aanpak beschermt de privacy van gebruikers en voldoet aan strenge regelgeving zoals de AVG.
Het ai-model wordt lokaal getraind met de data van een organisatie. Alleen de geanonimiseerde tussenresultaten worden gedeeld met andere organisaties of een centrale server. Gevoelige gegevens blijven lokaal en worden niet blootgesteld aan risico’s zoals datalekken, wat de privacybescherming moet verbeteren. Federated learning wordt gebruikt in sectoren zoals gezondheidszorg, waar het helpt bij het analyseren van medische gegevens zonder de privacy van patiënten te schenden. Bijvoorbeeld bij kankeronderzoek, waarbij ziekenhuizen data analyseren over behandelmethodes zonder patiëntgegevens te delen. Maar ook Google gebruikt federated learning in zijn Android-platform. Het wordt gebruikt voor gepersonaliseerde aanbevelingen op mobiele apparaten, waarbij de data lokaal blijven. Een voorbeeld is het verbeteren van voorspellende tekst op smartphones. Je kunt meer lezen over federated learning op de websites van TNO en Active Collective.
In Nederland worden openbare datasets vaak gebruikt als alternatief voor gebruikersdata bij het trainen van ai-modellen. Een voorbeeld is de dataset StatLine van het CBS. Dat is een uitgebreide verzameling van openbare data over onderwerpen zoals demografie, economie en gezondheid. Ai-modellen worden getraind om trends te analyseren, zoals bevolkingsgroei of economische ontwikkelingen. Ook het Kadaster beschikt met zijn Grootschalige topografische kaart (Basisregistratie Adressen en Gebouwen) over een interessante dataset. Training van ai-systemen met die data wordt gebruikt voor geografische analyses, zoals het plannen van infrastructuurprojecten.
Ook gezondheidsdata, zoals gegevens over infectieziekten en milieufactoren van het RIVM, zijn een openbare databron die gebruikt kan worden om ai-modellen te trainen om gezondheidsrisico’s te voorspellen en preventieve maatregelen te ontwikkelen. Vektis biedt een dataset over zorgkosten per postcode. Ai wordt ingezet om patronen in zorggebruik te analyseren en beleid te verbeteren. Deze datasets bieden een waardevolle bron voor ai-ontwikkeling zonder dat persoonlijke gegevens worden gebruikt.
Bedrijven die toch ai-systemen willen trainen met gebruikersdata moeten aan strenge regels voldoen en expliciete toestemming vragen. Zij kunnen gebruikers duidelijk informeren en toestemming vragen voordat data worden gebruikt, bijvoorbeeld via pop-ups of instellingen in apps. Bedrijven die expliciete toestemming gebruiken voor het trainen van ai-modellen met gebruikersdata doen dit vaak om te voldoen aan privacywetgeving zoals de AVG en om vertrouwen op te bouwen bij hun gebruikers.
Hier zijn enkele voorbeelden: Meta vraagt expliciete toestemming van gebruikers in de Europese Unie om openbare berichten, reacties en chatbot-interacties te gebruiken voor het trainen van hun ai-modellen. Dit gebeurt via meldingen in de app en per e-mail, waarbij gebruikers actief bezwaar kunnen maken. Het trainen van ai-modellen wordt door Meta onder meer ingezet om Europese talen en cultuur beter te begrijpen en hierop te reageren.
En Google vraagt expliciete toestemming voor het gebruik van gegevens in toepassingen zoals Google Assistant en gepersonaliseerde advertenties. Gebruikers kunnen hun instellingen aanpassen om te bepalen welke data worden gebruikt. Toepassingen zijn het verbeteren van spraakherkenning en gepersonaliseerde aanbevelingen.
Titel: Computable Security Artikelen
Link: https://www.computable.nl/2025/04/25/3-alternatieven-voor-trainen-van-ai-zonder-gebruikersdata/
2Staff B.V.
Europalaan 2
5232 BV 's-Hertogenbosch
T 030- 600 5000
F 030- 600 5001
E info@2staff.nl