Bevooroordeel beeldverwerking: de digitale beeldenstorm

Original Vrij Nederland article can be found here

Zoals de dood van George Floyd leidde tot wereldwijde protesten, zo deed de vooringenomen beeldverwerkingstechnologie PULSE dat in de wetenschappelijke wereld. Neuro-informaticus Sennay Ghebreab vraagt zich af of een digitale beeldenstorm het probleem oplost.

De wereld kwam dit jaar plots stil te staan door de coronapandemie. Net zo plotseling kwam ze weer in beweging door de dood van de zwarte Amerikaan George Floyd, die stierf nadat een witte politieagent hem bij een arrestatie met zijn knie tegen de grond hield en hierbij minutenlang op zijn nek drukte. Dit was de druppel. Na decennia van raciale ongelijkheid en politiegeweld kwamen zwarte en witte Amerikanen massaal in opstand. Ook in de rest van de wereld protesteerden mensen tegen institutioneel racisme. Witte helden van weleer werden van hun sokkel gehaald.

In de schaduw hiervan ontstond ook een digitale beeldenstorm in de wetenschap. Datasets van beelden die overal ter wereld worden gebruikt door wetenschappers en techneuten om beeldtechnologie te ontwikkelen, werden verwijderd. Zo heeft het gerenommeerde MIT in de VS in juni 2020 ‘80 Million Tiny Images’ offline gehaald. In een publieke verklaring erkende MIT dat de dataset te eenzijdig was en allerlei vooringenomenheden bevatte die bepaalde bevolkingsgroepen stigmatiseerden en benadeelden. Dit ‘druist in tegen de waarden die we nastreven’ en ‘schaadt de inspanningen om een cultuur van inclusiviteit te bevorderen’, aldus MIT.

Witte representaties van zwarte mensen

Directe aanleiding voor deze digitale beeldenstorm was de wetenschappelijke publicatie van beeldverwerkingstechnologie PULSE. Deze technologie, ontwikkeld door wetenschappers van Duke University in de VS, maakt het mogelijk een realistische foto in hoge resolutie te genereren van iemand op basis van een korrelige foto van diezelfde persoon. Gebruikers kunnen het systeem bijvoorbeeld toepassen om foto’s scherp te krijgen die gemaakt zijn met oude lage resolutie camera’s.

Om het model te ontwikkelen, gebruikten de wetenschappers van Duke ‘Flickr Face HQ’. Dat is een dataset met vooral foto’s van witte mensen. PULSE werkt daarom goed voor korrelige foto’s waarop witte mensen zijn afgebeeld. Maar van korrelige foto’s van zwarte mensen genereert het witte representaties van die zwarte mensen. Zo liet een gebruiker zien hoe korrelige foto’s van president Obama, acteur Samuel L. Jackson en bokser Muhammad Ali resulteerden in witte op hen lijkende mannen.

PULSE heeft geleid tot een hevig debat tussen twee vooraanstaande wetenschappers: Timnit Gebru, een zwarte AI-wetenschapper en AI Ethics lead bij Google, en de Franse AI-pionneer, hoogleraar en winnaar van de Turing Award (de ‘Nobelprijs voor informatica’) Yann LeCun, die nu hoofd AI is bij Facebook. In reactie op Gebru, die de Obama-foto een voorbeeld noemde van de gevaren van AI-bias, beweerde LeCun op Twitter dat AI-systemen ‘bevooroordeeld zijn wanneer data bevooroordeeld zijn’, en dat bevooroordeelde datasets ‘niet het probleem zijn van AI-wetenschappers maar van AI-engineers’. Hiermee schoof LeCun het probleem van vooringenomen kunstmatige intelligentie van de wetenschappelijk tafel. Het gevolg: een twitterrel die zo hevig was dat LeCun zijn twitteraccount sloot.

Maar zoals de dood van Floyd de druppel was, zo is PULSE dat ook. Want zorgen over en problemen met bevoordeelde datasets en bevoordeelde AI-technologie worden al geruime tijd onder de aandacht van AI-wetenschappers, overheid, bedrijven en publiek gebracht.

Hoe heeft het zo ver kunnen komen? En los je het probleem van vooringenomen AI-technologie op met een digitale beeldenstorm?

Is het dezelfde persoon?

Gezichtsherkenningstechnologie wordt al bijna twee decennia lang ontwikkeld en gebruikt. De technologie maakt gebruik van algoritmen die onderscheidende biometrisch gezichtskenmerken, bijvoorbeeld de afstand tussen de ogen of de lengte en vorm van de lippen, leren herkennen op basis van voorbeeldplaatjes of video’s van gezichten. Eigenlijk net zoals de Franse criminoloog Alphonse Bertillon dat deed aan het einde van de negentiende eeuw om criminelen te herkennen op basis van foto’s. Maar algoritmen extraheren duizenden verschillende gezichtskenmerken uit miljoenen gezichtsvoorbeelden om heel nauwkeurig een gezicht te onderscheiden van andere gezichten.

Onderscheidende gezichtskenmerken worden vervolgens omgezet in een computerrepresentatie van een gezicht dat gebruikt wordt voor verschillende toepassingen. Bijvoorbeeld voor automatische detectie van een gezicht in een foto of video. Dit maakt het mogelijk om heel snel te bepalen of een foto of video een persoon bevat. Of om twee gezichten te vergelijken. Is het dezelfde persoon? Hiermee kan iemand bijvoorbeeld via verschillende camera’s in de stad getraceerd worden zonder te weten wie het is. Daarnaast is het mogelijk gezichten te vergelijken met andere gezichten in een database voor identificatie of verificatie van een persoon. De politie gebruikt deze toepassing bijvoorbeeld om te proberen een onbekende te identificeren. En nu dus ook om scherpe foto’s te maken op basis van korrelige foto’s.

Rem op gezichtsherkenningstechnologie

De ontwikkeling van gezichtsherkenningstechnologie nam een hoge vlucht na de aanslagen van 11 september 2001 in New York. Kort daarna installeerde de stad duizenden camera’s in de publieke ruimte om potentiële terroristen op te sporen. Andere steden zoals Chicago en San Francisco volgden. Al snel konden data-analisten de immense hoeveelheid beelddata die deze steden genereerden niet meer verwerken. Dus werden de camera’s enkele jaren later gekoppeld aan videobewakingstechnologie die automatisch gezichten herkent en personen volgt. Zo ontwikkelde de stad New York in samenwerking met Microsoft het ‘Domain Awareness System’, dat negenduizend camera’s in verschillende wijken van de stad aan elkaar koppelt om verdachte personen te kunnen volgen of opsporen. In heel Amerika houden inmiddels tientallen miljoenen slimme camera’s toezicht op nietsvermoedende burgers.

Maar in mei 2019 verbood San Francisco als eerste het gebruik van automatische gezichtsherkenning in het publieke domein. De naburige stad Oakland volgde al snel, net als Somerville en Brookline in de staat Massachusetts. In december 2019 schortte ook San Diego haar gezichtsherkenningsprogramma op, net voordat een nieuwe wet over de gehele staat van kracht werd die automatische gezichtsherkenning in het publieke domain onwettig verklaarde. Andere Amerikaanse steden of staten hebben automatische gezichtsherkenning nog niet verbannen, maar staan op het punt dat te doen of het gebruik ervan sterk te reguleren via wetgeving.

En nu institutioneel racisme tot het publieke bewustzijn is doorgedrongen, hebben zelfs de Amerikaanse tech-giganten Amazon, IBM en Microsoft de rem gezet op de ontwikkeling van gezichtsherkenningstechnologie. Amazon wil haar controversiële Rekognition-technologie, die door de grootste politiekorpsen in de VS wordt gebruikt, een jaar lang niet beschikbaar stellen aan politiediensten. IBM stopt er zelfs helemaal mee.

Ook in Europa worden allerlei maatregelen genomen tegen de inzet van automatische gezichtsherkenning door bedrijven en overheden. Volgens AlgorithmWatch, een non-profit organisatie die onderzoek doet naar algoritmische besluitvormingsprocessen in het publieke domein, hebben minstens tien van de vijfentwintig Europese lidstaten, waaronder Nederland, politiemachten die gebruik maken van automatische gezichtsherkenning. Acht staten zijn van plan om het in de komende jaren in te voeren.

De Europese Commissie heeft begin 2020 overwogen om, in navolging van Amerikaanse steden en staten, het gebruik van gezichtsherkenning in de openbare ruimte te verbieden. Het verbod zou tot doel hebben politici in Europa tijd te geven om maatregelen te ontwikkelen om de potentiële risico’s van die technologie te beperken. Maar de commissie heeft er uiteindelijk voor gekozen zich te richten op het ontwikkelen van richtlijnen, normen en voorschriften voor positief, verantwoord en eerlijke gebruik van gezichtsherkenningstechnologie.

Foute identificatie

Aan de groeiende maatregelen tegen gezichtsherkenning liggen twee verschillende zorgen ten grondslag. Allereerst de zorg dat deze technologie niet goed en niet eerlijk werkt, maar daarnaast ook de angst dat deze technologie juist té goed en té eerlijk zou werken.

De eerste zorg komt voort uit het groeiende aantal gevallen van foute identificatie van mensen op basis van gezichtsherkenningstechnologie. Zo zette de politie van South Wales automatische gezichtsherkenning in tijdens de Champions League-finale tussen Real Madrid en Juventus in een poging meer criminelen op te pakken. Tweeduizend mensen werden ten onrechte als potentiële criminelen geïdentificeerd door de technologie. De politie van South Wales gaf toe dat ‘geen enkel gezichtsherkenningssysteem 100% nauwkeurig is’, en benadrukte dat de technologie sinds de introductie tot meer dan 450 arrestaties heeft geleid. Maar het is onbekend of er mensen ten onrechte zijn gearresteerd, veroordeeld en opgesloten, zoals dat gebeurde met de Amerikaan Steve Talley. Die werd aangezien voor een bankovervaller en gearresteerd op basis van gezichtsherkenningtechnologie.

Nog kwalijker is dat keer op keer blijkt dat gezichtsherkenningstechnologie de ene bevolkingsgroep meer benadeelt dan de ander. De fouten die gezichtsherkenningstechnologieën maken, zijn om te beginnen niet gelijk verdeeld over bevolkingsgroepen. Zo constateerde het National Institute of Standards and Technology (NIST) recent nog dat algoritmen Afro-Amerikaanse en Aziatische gezichten tot honderd keer vaker mis-identificeren dan witte gezichten, mede omdat de datasets waarmee de algoritmen worden getraind niet representatief zijn. Daarnaast wordt gezichtsherkenningstechnologie vooral in de VS met name ingezet op die bevolkingsgroepen waarbij gezichtsherkenningtechnologie de meeste fouten maakt, zoals de zwarte Amerikanen. De EFF, een Amerikaanse non-profit organisatie die zich bezighoudt met burgerrechten in de digitale samenleving, concludeerde onlangs dat deze twee feiten − oneerlijke technologie en oneerlijke inzet van die technologie − mensen van kleur dubbel benadelen.

Hyperzichtbaar

De tweede zorg is dat gezichtsherkenningtechnologie te goed en te eerlijk werkt. Dit bleek vooral nadat het Amerikaanse bedrijf Clearview A.I. zijn gezichtsherkenningsalgoritme trainde op miljarden gezichtsfoto’s die van sociale-mediaplatforms als Facebook en Instagram waren geplukt. Het bedrijf claimde dat zijn technologie iedereen kon herkennen, ongeacht afkomst. Iedereen was opeens even herkenbaar: man, vrouw, zwart wit, arm, rijk.

Zwarte Amerikaanse mannen waren altijd al ‘hypervisible’, zoals de Amerikaanse rechtsgeleerde Patricia Williams het noemt. Volgens haar zijn zwarte Amerikanen al eeuwenlang ‘trapped between regimes of invisibility and hypervisibilty’ (‘gevangen in regimes van onzichtbaarheid en hyperzichtbaarheid’). Met ‘invisibility’ refereert zij aan de arme zwarten die systematisch werden buitengesloten door beleid en uitvoering, de ‘hypervisibles’ zijn de zwarte Amerikaanse mannen die onder voortdurende controle leven in grote steden als New York, Chicago en San Francisco.

Met ClearView AI werd iedereen opeens ‘hypervisible’. Zelfs mensen die altijd buiten beeld hadden weten te blijven omdat zij rijk en machtig waren of simpelweg tot de geprivilegieerde groep behoren die nooit of nauwelijks verdacht wordt. Voor die mensen is de technologie van ClearView AI ‘overeerlijk’.

Hersenscans

Oneerlijke en ‘overeerlijke’ gezichtsherkenningstechnologieën zijn in de afgelopen twintig jaar mainstream technologieën geworden die het publieke bewustzijn hebben bereikt. Met als gevolg publieke verontwaardiging en een roep om een verbod op automatische gezichtsherkenning. Maar is verwijdering van datasets of een verbod op gezichtsherkenningstechnologie geen schijnoplossing? Of zelfs een collectieve afleiding, zodat andere AI-technologieën in de luwte verder ontwikkeld kunnen worden? Terwijl ook andere AI-technologieën mogelijk gebaseerd zijn op datasets die niet representatief zijn. Denk aan de algoritmen voor werving en selectie die vrouwen benadelen, zoals Amazons recruitment-algoritme. Of denk aan nanotechnologie, biotechnologie en neurotechnologie, technologieën die al jaren worden ontwikkeld en toegepast.

Neem neurotechnologie. In 2006 deed ik namens de Universiteit van Amsterdam mee aan de eerste internationale brain reading-competitie ter wereld, georganiseerd door een interdisciplinair team van vooraanstaande wetenschappers uit de neurowetenschappen en artificiële intelligentie om te achterhalen in hoeverre het mogelijk is om met behulp van kunstmatige intelligentie gedachtes van mensen te reconstrueren op basis van hersenscans. Met andere woorden: of de gedachten van mensen uitgelezen kunnen worden.

Daartoe scanden de organisatoren met behulp van fMRI de hersenactiviteit van drie mensen terwijl ze naar drie afleveringen keken van de toen nog populaire Amerikaanse sitcom Home Improvement. Alle hersenscans werden beschikbaar gesteld aan de deelnemers aan de competitie. Daarnaast kregen de deelnemers twee van de drie Home Improvement-afleveringen, met volledig annotatie door drie verschillende mensen. De annotaties bestonden uit dertig algemene kenmerken die per frame werden gemeten: is er een gezicht in beeld, is het een binnen- of buitenscène, is er muziek op de achtergrond, enzovoort. Tot slot kregen de deelnemers enkele getailleerde kenmerken, zoals waar een scène zich afspeelt (woonkamer, tuin, wc) en wie er in beeld is. Persoonsidentificatie dus.

Meer dan veertig wetenschappelijke groepen van over de hele wereld namen deel aan de competitie. In de categorie ‘algemene kenmerken’ bleken AI-modellen uitermate goede uitspraken te doen over wat zich afspeelde in de derde en onbekende episode. Onderzoeksgroepen van Stanford University en Princeton University bleken met hoge nauwkeurigheid te kunnen constateren of er beweging is in een scène, muziek op de achtergrond speelt, een persoon in beeld komt, enzovoort. In de categorie ‘gedetailleerde kenmerken’, waarvan velen dachten dat die onmogelijk zouden zijn vast te stellen, wonnen wij met de Universiteit van Amsterdam. Wij waren in staat met hoge nauwkeurigheid de identiteit van de acteur te bepalen op basis van de hersenactiviteit van de persoon die naar de sitcom keek.

Veroordeling op basis van brain reading

De resultaten waren zo indrukwekkend dat het gerenommeerde wetenschappelijke tijdschrift Nature er in 2006 een editorial over schreef. Kort na publicatie van die editorial ontvingen de organisatoren en deelnemers van de competitie een e-mail uit India:

Hi, My name is Sridhar Putta and am writing from a place called kakinada, Andhrapradesh, India. I am certain that the research you are doing (brain scan-reading peoples intention etc) is being tested or used on me. I dont know or am incapable to find out other research people involved in this type of research. Please inquire and ask them to stop it immediately as I am not interested in participating in this type of trials. best regards, Sridhar.

Geen van de organisatoren en deelnemers nam de e-mail serieus. Er heerste een gedeelde overtuiging dat de ontwikkelde en gepresenteerde neurotechnologieën nog lang niet in de praktijk toegepast konden en zouden worden.

Maar een jaar later, in augustus 2008, ontving de Amerikaanse bio-ethicus Hank Greely een e-mail van een correspondent van de International Herald Tribune in Mumbai, die op zoek was naar het perspectief van een bio-ethicus op een ongewone moordzaak in India: een vrouw was veroordeeld voor het vermoorden van haar ex-verloofde met arseen. Het indirecte bewijs tegen haar omvatte een hersenscantest waaruit zou blijken dat ze een herinnering had van het plegen van de misdaad.

Dit was het eerste bekende geval van een veroordeling op basis van brain reading. Het trok vrij veel aandacht in de internationale media. Zo schreefAnand Giridharadas van de New York Times: ‘Psychologen en neurowetenschappers in de VS (…) noemen de Indiase toepassing van de technologie in verschillende rechtszaken ‘fascinerend’, ‘belachelijk’, ‘huiveringwekkend’ en ‘gewetenloos (…).’

Er waren verassend weinig AI-wetenschappers en technologie-ontwikkelaars die zich uitspraken over deze veroordeling, ondanks het feit dat velen de overtuiging hadden dat neurotechnologie nog in de kinderschoenen staat en dat het niet verantwoord was die technologie in te zetten, alleen al omdat de brain reading-modellen getraind werden op de hersenscans van een beperkt aantal mensen en dus niet representatief waren. Ze vonden dat het niet aan hen was om zich bezig te houden met de mogelijke medische, sociale of juridische implicaties van de technieken die ze ontwikkelen.

Maar nu AI-technologie doordringt tot de bloedvaten van de mens en de haarvaten van de maatschappij, zouden AI-wetenschappers en technologie-ontwikkelaars zich niet moeten onttrekken aan de sociale implicaties van de technologie die zij ontwikkelen. Ze horen hun eigen discipline te ontstijgen en interdisciplinair en sociaal-bewust te werk te gaan. Niet vooringenomen datasets verwijderen en de rem zetten op de ontwikkeling van AI-technologie, maar investeren in een cultuur van sociaal-inclusieve technologieontwikkeling en -toepassing. Als zij dit niet doen en sociale diversiteit en rechtvaardigheid veronachtzamen, komt ze dat vroeg of laat duur te staan.

Bevooroordeel beeldverwerking: de digitale beeldenstorm

Recent Posts

Contact