Linnet Taylor over big data: ‘Blijkbaar gelden er andere regels wanneer het over mensen hier of over mensen daar gaat’

Big data. Waar we hier vooral bezorgd en zelfs bang zijn over wat de NSA, Facebook en Google allemaal van ons weten, zien we het als een interessante nieuwe mogelijkheid om meer over ontwikkelingslanden en de mensen die daar wonen te weten te komen. Vorige week sprak ik met onderzoeker Linnet Taylor over het verschil tussen open data en big data en de problemen en ethische kwesties die opdoemen in het gebruik voor ontwikkeling.

Linnet Taylor is onderzoeker in hart en nieren. Eerder was ze werkzaam als onderzoeker bij de Rockefeller Foundation en behaalde ze een PhD in internationale ontwikkeling. Nu houdt ze zich bezig met postdoctoraal onderzoek naar het gebruik van nieuwe soorten digitale data in onderzoek en beleidsvorming in internationale ontwikkeling aan de Universiteit van Amsterdam (UvA).

Waar gaat je onderzoek over?

‘Mijn onderzoek gaat over het gebruik van big data in internationale ontwikkeling. Ik kijk naar de netwerken die zich ontvouwen rondom het gebruik van big data in ontwikkelingsbeleid, en probeer er achter te komen of big data  ons een vollediger beeld geeft van de bevolking van ontwikkelingslanden en hoe het ontwikkelingssamenwerking verandert.’

Waarom is dit zo belangrijk?

‘Traditioneel is er een groot probleem met het  verkrijgen van statistieken over ontwikkelingslanden, vaak omdat er in deze landen weinig mogelijkheden zijn om data te verzamelen. Die behoefte is duidelijk aanwezig, op het moment dat mensen in ontwikkelingslandenlanden mobiele telefonie en internet begonnen te gebruiken werden ontwikkelingsmedewerkers enthousiast door de mogelijkheden die deze data biedt om bestaande data aan te vullen, of om missende of slechte statistieken te vervangen. Hier zien we het verzamelen van dit soort data als een schending van onze privacy, daar wordt het gezien als een goede methode om informatie te verzamelen over de armen.’

Nu praten we over big data, maar in het debat gaat het vaak over open data. Hoe zit dat nu precies?

‘Big data en open data zijn compleet verschillend, al worden ze vaak op een hoop gegooid. Open data zijn al bestaande, verzamelde gegevens waarover beslist is om ze openbaar beschikbaar te stellen. Deze gegevens zijn op de ouderwetse manier verzameld met vragenlijsten of overheidsstatistieken. Het is een politieke definitie, de informatie is gecontroleerd en als veilig bestempeld en openbaar gemaakt. Vervolgens kan iedereen er mee doen wat ze wil.’

Dit blijkt dus iets heel anders te zijn dan big data, het onderwerp van Taylor’s onderzoek. ‘Big data is hetgeen de NSA geïnteresseerd in is, de sporen die we achterlaten door het gebruik van technologie in het dagelijks leven. Big data zijn onze telefoniegeschiedenis, de GPS coördinaten die onze telefoon 10 keer per seconde verzend als we door de stad bewegen of onze internetzoekgeschiedenis.

We hebben allemaal een ‘dataschaduw’ door ons gebruik van technologie, en die is niet publiekelijk, ook niet toegankelijk voor overheden. Het is eigendom van de bedrijven die hun diensten beschikbaar stellen in ruil voor onze informatie. Open data gaat over ons als burgers en ons recht om te participeren, big data is juist onder debat omdat het over ons als consumenten gaat.’

Waarom gebruiken we dan niet gewoon open data als we gegevens over ontwikkelingslanden nodig hebben?

‘In arme landen is de vraag naar data zo mogelijk nog groter, maar de open data beweging staat daar nog in zijn kinderschoenen. Met de vraag of informatie openbaar gemaakt mag worden wordt in verschillende landen anders omgegaan. Veel open data komt uit landen als Nederland, Engeland, de VS, of van internationale instituties als de Wereldbank. Gegevens over ontwikkelingslanden worden meestal door instituties verzameld en niet door landen zelf. De gezondheidsenquêtes van USAaid of Unicef kunnen bijvoorbeeld veel inzicht geven in conflict en geweld, het is dus heel interessant wanneer deze openbaar gemaakt worden.

Het proces rondom het openbaren van data is lastig. India is momenteel bezig met een gigantisch open data programma, ze willen alle geldstromen door het gehele overheidssysteem in kaart brengen. Dat betekent dat alle 6.4 miljoen Indiase ambtenaren alles wat ze doen moet bijhouden, digitaliseren en naar buiten brengen. Dat is makkelijker gezegd dan gedaan. Als iemand corrupt is of gewoon niet zo goed in zijn baan wordt dat toegankelijk voor iedereen. Het is logisch dat mensen zich hier ongemakkelijk bij voelen en dat ze dingen achter proberen te houden. Zelfs als ze hun werk gewoon goed doen zijn ze bang dat iets gevonden waaruit blijkt dat ze iets fout doen.

Het is niet alleen maar een technisch proces, het gaat ook over menselijke contacten, over macht. Om het verzet tegen open data te overwinnen is een nationale dialoog nodig over het belang ervan. India loopt hierin voorop, maar in heel veel andere ontwikkelingslanden is de overheid echter helemaal niet in staat om zo iets uit te voeren en is het scenario van open data nog heel ver weg.’

Dus bij gebrek aan open data wordt big data belangrijk?

‘Veel mensen in arme landen beschikken tegenwoordig over een mobieltje, zelfs in de bijvoorbeeld grensgebieden van Chaad, Congo en Noord-Oost-Nigeria. Ze gebruiken mobieltjes terwijl ze door de woestijn rondtrekken. Zelfs op afgelegen plekken hebben mensen toegang tot deze technologieën en stellen ze dus ook gegevens beschikbaar. Ook zijn er drones boven het oost van de DRC, die in opdracht van de VN de bewegingen van troepen, geweld en potentieel gevaarlijke situaties in de gaten houden. De gegevens die deze drones verzamelen vormt een grote bron van informatie over die mensen, hun activiteiten, behoeftes en gevaren.

Er bestaat een groot verschil is tussen de processen rondom open data en big data voor ontwikkeling. Er is een beweging van de Wereldbank en andere organisaties van de Open Knowledge Foundation om de discussie rondom open data in ontwikkelingslanden aan te wakkeren. Big data bestaat al en is eigendom van bedrijven. Ontwikkelingsactoren, zoals de VN of de Wereldbank, proberen nu die data in handen te krijgen om meer over de bevolking te weten te komen zodat ze betere interventies kunnen ontwikkelen.’

Wat kunnen dit soort nieuwe gegevens ons allemaal vertellen?

‘Een paar weken geleden steeg het BBP van Nigeria van de ene op de andere dag van 3.5 naar 5.5 miljard dollar. Het IMF, de Wereldbank, maar ook landen zelf baseren de jaarlijkse schatting van hun bbp op een begrip van economie van 1980, maar er zijn sindsdien allerlei sectoren als internet en mobiele telefonie ontstaan. Op het moment dat Nigeria zelf aan de slag ging om de grootte van haar economie uit te rekenen en deze sectoren wel meenam werd het land in één nacht de belangrijkste economie van Afrika.

Data laat altijd maar een deel van het hele plaatje zien. Op basis van de gegevens die we gebruikten dachten we dat Nigeria’s economie slechts de helft van zijn werkelijke grootte was. In die zin is open data geen betere data, het is enkel verplaatst van stoffige archieven naar websites. Het idee achter big data is dat ook deze herberekening niet het volledige plaatje over het Nigeriaanse bbp toont en we Nigeria niet zomaar op hun woord moeten geloven. Door telefoonverkeer te bestuderen kun je handelsconnecties, communicatielijnen en reisgedrag inzichtelijk maken en kun je pas werkelijk iets zeggen over de grootte van de economie van Nigeria.

De herberekening van Nigeria’s economie is meer dan een rekenfoutje en blijkt behoorlijke gevolgen te hebben. Dit is ook een soevereiniteitsprobleem; deze landen zijn zich niet bewust van de grootte van hun economieën zijn. De groei van lage naar middeninkomensland verandert hun schuldenstatus, hun recht op schuldenverlichting, wat hun relaties tot de IMF en de VN beïnvloed en ook de relatie tot hun buurlanden veranderd.’

Welke problemen voorzie je in het gebruik van big data verzameld in ontwikkelingslanden?

‘Er ontwikkelen zich veel nieuwe vragen rondom de dilemma’s veiligheid versus vrijheid versus ontwikkeling. Er wordt altijd beloofd dat data geanonimiseerd wordt, maar jouw specifieke reisgedrag of belgedrag is uniek als een handtekening. Jouw provider weet het gelijk wanneer je je telefoon aan mij zou uitlenen. Bovendien hebben we geen zicht op nieuwe gegevens, nieuwe datasets, die in de toekomst zullen worden vrijgegeven. Wanneer een dataset van jouw belgedrag gecombineerd wordt met ov-chipkaartgegevens, de gps-gegevens van je telefoon ontstaat een uniek profiel dat alleen tot jouw persoon te herleiden valt. Het samenvoegen en koppelen van datasets wordt de echte uitdaging.

Dit is hetzelfde voor mensen in Burkina Faso als voor ons. In Europa praten we over databescherming door de EU, maar wat als er geen afdwingbare wetten zijn? Er wordt vaak gedacht dat mensen in Afrika niets om hun privacy geven, maar het feit dat ze ons niet kunnen aanklagen betekent niet dat het ze niets kan schelen.

Dan is er nog een ander probleem. Wanneer data eenmaal digitaal en openbaar is kun je niet meer terug en we zullen nooit weten hoe de toekomst loopt. Er is dit beroemde voorbeeld van een Amsterdamse ambtenaar die een gedetailleerde kaart van de stad maakte in 1941 met alle bevolkingsgroepen erop uitgetekend. Die stadskaart werd een instrument van genocide toen de Duitsers binnenvielen.’

Het lijkt me dat openbare gegevens over bevolkingsgroepen en religieuze achtergronden grote risico’s opleveren wanneer een conflict uitbreekt. In ontwikkelingslanden moeten we dus zo mogelijk nog voorzichtiger zijn met het opbaren van gegevens?

‘Sterker nog, er zijn nu al problemen. In projecten geven telefoonproviders datasets aan onderzoekers. Tot nu toe ontbreekt een duidelijk vastgesteld ethisch kader hoe we met data om moeten gaan. Gegevens over wie met wie in contact staat in ontwikkelingslanden bestaan en worden ook gewoon gepubliceerd.

Dit gebeurde in Cote d’Ivoire met het telefonienetwerk van Orange. Wereldwijd hebben 200 teams van onderzoekers 5 miljard opgenomen gesprekken uit 2011, een jaar van burgeroorlog onderzocht, wat informatie verschafte over ieders communicatienetwerk en bewegingspatronen. Hieruit konden ze bijvoorbeeld de economische status en politieke overtuiging van mensen achterhalen. In de onderzoekspapers publiceerden ze gedetailleerde informatie over het land en de bevolkingsgroepen. In Europa zou zoiets nooit gebeurden. Er lijken grote verschillen te zijn in de regels wanneer het over mensen hier of over mensen daar gaat.

Bovendien waren de onderzoekers academici die hun resultaten in wetenschappelijke tijdsschriften publiceerden en niet terugkoppelden naar Cote d’Ivoire zelf. Het resulteerde daardoor niet in nieuwe verbeterde interventies door ngo’s. Wanneer het project zou worden uitgevoerd door een ngo zou die terugkoppeling juist essentieel zijn. Deze ontwikkeling, dat er nieuwe actoren in ontwikkelingslanden actief worden met heel andere doelstellingen, vind ik zorgelijk.’

In hoeverre maakt ontwikkelingssector zelf al gebruik van big data?

‘Big data is eigendom van bedrijven, dus de enige manier om er toegang toe te krijgen is via persoonlijke contacten of vanuit een machtspositie. Grote internationale  instituties  hebben hier veel gemakkelijker toegang toe dan ngo’s. Bovendien moet je ook datawetenschappers tot je beschikking hebben, wiskundigen en natuurkundigen die dit kunnen analyseren. De gemiddelde ngo werker is daar absoluut niet voor opgeleid.

Global Pulse van de VN heeft zich de afgelopen vijf jaar bezig gehouden met ontfutselen van big data van grote bedrijven om ontwikkelingslanden te kunnen onderzoeken. Dit is fantastisch werk, maar er zijn zoveel struikelblokken en hindernissen dat ik kan me niet voorstellen dat het gewone ontwikkelingshulporganisaties lukt toegang te krijgen. In dit opzicht is juist het debat rondom open data belangrijk, want deze gegevens zullen voor ontwikkelingsorganisaties wél toegankelijk zijn.’

Op 27 mei organiseren Coolpolitics, Lokaalmondiaal, Vice Versa en Utrecht Data School een conferentie over open data en de ontwikkelingssector waarbij Linnet Taylor als spreker haar verhaal zal doen.