
Zes uitdagingen bij het evalueren volgens Howard White
Het veld van evalueren is enorm geëvolueerd, zegt de Britse evaluatiegoeroe Howard White. Desalniettemin blijven er nog heel wat uitdagingen bestaan. Hij noemt er zes.
Sinds het jaar 2000 wordt er in toenemende mate onderzoek gedaan naar de effectiviteit van programma’s en of ze hun gestelde doelen bereiken: de impactevaluatie. Dat gebeurt niet alleen in de ontwikkelingssector, maar ook in ontwikkelde landen op het gebied van gezondheidszorg, sociale welzijnsprogramma’s, of onderwijs. Howard White, oprichter van International Initiative for Impact Evaluations (3ie) en momenteel voorzitter van de Campbell Foundation, is verheugd met deze ontwikkeling.
Zelf deed hij in de jaren negentig onderzoek aan het Haagse Institute of Social Studies, en de beleidsaanbevelingen die hij en andere onderzoekers toen deden waren naar zijn gevoel ‘puur gebaseerd op speculaties en giswerk en onze eigen eerdere veronderstellingen – niet gebaseerd op bewijs’, zegt White. Dat er nu rigoureus onderzoek wordt gedaan naar de effectiviteit van ontwikkelings-en beleidsinterventies, is volgens hem een enorme stap vooruit.
Dat betekent niet dat er geen uitdagingen zijn, en White noemt ze een voor een op.
- ‘Research Capture’
Veel onderzoekers doen onderzoek naar onderwerpen die zijzelf interessant vinden, niet om beleid in het veld uit te testen, ondervindt White. ‘Ze proberen er dan een twist aan te geven zodat het in een goed academisch tijdschrift gepubliceerd kan worden, maar dat is niet altijd relevant voor beleidsmakers’, zegt hij. ‘Dus je hebt altijd iemand binnen een organisatie nodig die verstand heeft van impactevaluaties en bij kan sturen waar nodig.
‘DFID heeft dat heel erg geïnstutionaliseerd, maar bijvoorbeeld Buitenlandse Zaken in Nederland doen die evaluaties meer ad hoc waardoor ze meer gevoelig zijn voor die ‘research capture’.’
Meer gebruik maken van lokale evaluatie-instituties (zie punt vier), is eveneens een manier om die ‘research capture’ te omzeilen.
- De ‘waarom’-vraag
De tweede uitdaging is dat er niet genoeg aandacht wordt besteed aan de ‘waarom’-vraag. White: ‘Je wil de onderliggende mechanismes begrijpen over hoe interventies zouden moeten werken en de onderliggende aannames die er moeten zijn om die causale keten te laten werken. Als we eens bij het begin beginnen: de aanname dat iedereen wel aan een programma mee wil doen. We denken dat mensen wel wachten om te worden ontwikkeld, maar dat is meestal niet zo – ze zijn meestal vrij druk. Of ze zijn wantrouwend, saboteren een programma zelfs. En evaluaties ontcijferen dit soort mechanismes vaak niet.’
Steeds meer organisaties werken tegenwoordig echter met een ‘Theory of Change’, die hen in staat stelt wèl die causale verbanden uiteen te rafelen. ‘Veel ontwikkelingsprogramma’s moeten een Theory of Change hebben, maar vervolgens worden die nauwelijks rigoureus getest.’ Tegenwoordig ziet White wel dat het gebruik van de Theory of Change methode steeds meer in de mode raakt in de wereld van impactevaluaties. Zo is het bijvoorbeeld ook de focus van het nieuw opgerichte instituut Centre of Excellence for Development Impact and Learning (CEDIL), ondersteund door DFID.
Rigoureuze methodes, dus Randomized Control Trials – waar mogelijk – is volgens White een uitgelezen methode om causale verbanden te testen. Bij een RCT krijgt bijvoorbeeld één groep dorpen een hulpinterventie, en de andere groep niet. Het toeval bepaalt welke groep de behandeling krijgt. Als het sample groot genoeg is, ontstaan er twee vrijwel identieke groepen (dezelfde grootte, etnische samenstelling, genderverhoudingen, et cetera) en die kunnen goed met elkaar worden vergeleken. In de dorpen wordt vervolgens de situatie onderzocht vóórdat het hulpproject van start gaat en enkele jaren daarna. De verandering die tussen de dorpen waarneembaar is, kan toegeschreven worden aan de hulpinterventie.
RCT’s worden niet overal met open armen ontvangen. Zo zouden ze niet geschikt zijn voor heel complexe hulpinterventies, maar White gelooft er niet in dat interventies te complex zouden zijn om te meten. ‘Dat wordt slechts gebruikt als een rookgordijn om je eraan te onttrekken. Natuurlijk moet je het op zo’n manier ontwerpen dat je ook onbedoelde gevolgen meeneemt. Maar uiteindelijk kun je de hele causale keten meten. Ook voor meer ongrijpbare resultaten zoals emancipatie of sociale cohesie zijn methodes.’
- De leercultuur
Een andere uitdaging is om een leercultuur in ontwikkelingsorganisaties in te brengen. Dat kan door kleinschalige impactevaluaties al in het design van je programma in te bouwen. ‘Zo kun je gedurende je programma je design aanpassen aan wat het beste werkt’, legt White uit. ‘De private sector doet dit voortdurend. Als je je email opent, naar de supermarkt gaat, surft op Google – je bent voortdurend blootgesteld aan RCT’s zonder dat je het weet. Die leercultuur kennen we in de ontwikkelingssector niet. Het gebeurt nu steeds meer, bijvoorbeeld bij de Wereldbank en de Gates Foundation, maar veel zie je het nog niet gebeuren.’
Dat komt, volgens Whites’ spijt, ook deels doordat veel evaluaties eerder voortkomen uit de noodzaak om verantwoording af te leggen aan donoren dan uit de behoefte om te leren. ‘De Amerikaanse Millennium Challenge Corporation (MCC) en Oxfam zagen dat er een trade-off was tussen verantwoording afleggen en leren, en hebben besloten om de focus te verleggen naar leren. Met een benadering gericht op leren kun je meerdere evaluatie selecteren – niet alleen die waar de donor om vraagt – en stel je zowel de vraag wat er werkt als waarom dat al dan niet werkt.’
- Eigenaarschap
Ten vierde houdt White een pleidooi voor meer eigenaarschap van de evaluatieagenda in de ontwikkelingsagenda. De evaluatiebeweging is zelfs in Latijns-Amerika ontstaan: de vroegste impactevaluaties waren in Mexico, weet White te vertellen. Deze werden weliswaar ondersteund door de Wereldbank en DFID, maar het was puur een initiatief van de regering. Veel Latijns-Amerikaanse regeringen hebben evaluatiedepartementen en zelfs wetten ontwikkeld voor evaluaties. ‘In Afrika en Azië worden deze inmiddels ook ontwikkeld, maar ze worden voortdurend ondermijnd door donoren’, ziet White. ‘Die geven nog altijd hun subsidie aan instituties uit ontwikkelde landen. Bij 3ie zorgden we ervoor dat ontwikkelde landen de subsidie kregen zodat zij de leiding hadden over het onderzoek. Maar dat is echt een uitzondering.
‘Neem Oeganda. Zij hebben een sterke M&E afdeling, een evaluatiecommittee en een lijst impactevaluaties die ze graag gedaan willen hebben. 3ie en de Oegandese regering vroegen de donoren om met dat committee samen te werken, maar behalve DFID was niemand daartoe bereid. Donoren geloven nog altijd dat als een programma bijvoorbeeld door Nederland wordt gefinancierd, het tot Nederland toebehoort, niet de regering van Oeganda.’
Maar is er in het Zuiden genoeg capaciteit om te evalueren? ‘Als je ze blijft omzeilen, zal die ook niet worden opgebouwd’, kaatst White de baal terug. ‘Laatst was ik op een conferentie in Kenia en daar werd het onderzoek gepresenteerd waarbij lokale onderzoekers de leiding hadden. Dat was kwalitatief echt heel goed onderzoek. En omdat het veel meer geworteld is in het lokale veld, krijg je ook meer beleidsrelevante vragen.’
- Wetenschappelijke ‘bias’
Een ietwat open deur in onderzoek, maar toch altijd alom aanwezig: ‘bias’, oftewel verstoringen in onderzoek waardoor de data niet betrouwbaar zijn. Bij kwantitatieve methodes worden die met een heleboel berekeningen er wel uitgefilterd, maar vooral bij kwalitatieve methodes komt White ze nog veel tegen, met name doordat de interviewer bepaalde verwachtingen heeft van het onderzoek. White: ‘Als je denkt dat een programma werkt op een bepaalde manier, dan hoor je de informatie die dat bevestigt, en niet de informatie die dat tegenspreekt. Neem bijvoorbeeld een community driven ontwikkelingsprogramma in India, waar geld op werd gehaald via het management van het bos en de gemeenschap besliste wat er vervolgens met het geld zou gebeuren. Ze kochten er gemeenschappelijke serviezen voor om te gebruiken op bruiloften. De onderzoeker vond dat maar dom, want het zou niet ontwikkelingsrelevant zijn. Maar het was juist heel slim, want families steken zichzelf diep in de schulden om een bruiloft te kunnen betalen. Dus een gemeenschappelijk servies was in feite een heel goed idee’, grinnikt White.
Ook in participatieve evaluaties, die eveneens kwalitatief zijn, is het belangrijk beducht te zijn op die bias. Onderlinge machtsverhoudingen kunnen antwoorden beïnvloeden.
Bias is te vermijden door systematische interviewschema’s te volgen en de data te te coderen. Via nummers, kernzinnen of -woorden wordt daarmee data gecategoriseerd waardoor het geanalyseerd kan worden. Weliswaar is het een algemene methode in de wetenschap, maar White ziet maar al te vaak dat mensen er toch onwetend over zijn.
- Systeemverandering meten
Je kunt interventies doen op kleine schaal, maar uiteindelijk hoop je dat je programma ook z’n effect op grotere schaal, zoals overheidsbeleid. Maar hoe meet je dat? De systeemverandering zelf is te meten, zegt White. ‘De meeste zaken manifesteren zichzelf in de ervaringen van mensen. Dus kun je ze vragen, bij een programma voor beter lokaal bestuur, naar hun ervaringen met dat bestuur. Transparancy International vraagt individuen naar hoe vaak ze koopsommen moeten betalen om toegang te krijgen tot diensten. Uiteindelijk gaat het meeste wat we doen in ontwikkeling over hoe mensen in hun levens worden geraakt.’
De vraag is echter: kun je het vergelijken en controleren met een controlegroep? White: ‘Als je iets met nationaal beleid doet, kun je dat niet randomiseren. Na een positieve evaluatie van een pre-school programma in Mozambique, schaalde de regering dat op van 60 naar 600 dorpen en incorporeerde pre-school in hun schoolsysteem. De minister noemde de positieve evaluatie als reden hiervoor. Maar je kunt dat nooit precies meten, want je weet niet of dat programma er ook was gekomen zonder die evaluatie.
‘Hetzelfde geldt voor programma’s op nationaal niveau voor vrouwenemancipatie. Je kunt als evaluator zeggen: “Ik ben van het ISS, ik doe een evaluatie naar onze ondersteuning van het vrouwenemancipatieprogramma en of dit beleid en wetgeving heeft beïnvloed. Dan zegt zo iemand al snel “ja”. Heel veel evaluaties worden letterlijk zo gedaan. Dus moet je een manier vinden om dat met een omweg te vragen. Je zegt: “We zijn hier om vrouwenrechten en gender in dit land te onderzoeken, en we zijn benieuwd naar de historische ontwikkeling daarvan, de belangrijke spelers, et cetera. Laat ze erover praten. Als ze dan niet het Nederlandse ontwikkelingsprogramma noemen, maar wel andere programma’s, dan weet je dat het waarschijnlijk niet een grote rol heeft gespeeld. Of je kunt er zijdelings naar vragen, of ze van dat programma hebben gehoord.’
Als laatste nog even terug naar de constatering aan het begin van dit artikel, over het gegroeide aantal impactevaluaties. Want als er zoveel meer impactevaluaties zijn, zou je ook verwachten dat programma’s beter zijn geworden. Maar dat is minder het geval dan White had gehoopt. Het beste voorbeeld is de wereldwijde trend van cash transfers, die een resultaat van de vele positieve evaluaties die daarnaar zijn gedaan. ‘Bij 3ie is de helft van de programma’s veranderd in lijn met de studie die we hebben gedaan. Maar dat is niet representatief, gezien 3ie echt stuurt op beleid. Veel andere instituten, zoals J-PAL bijvoorbeeld (bekend van Esther Duflo en Abdul Latif Jameel van het boek Arm en Kansrijk, red.) zijn pessimistischer over de opvolging – maar zij zijn dan ook minder gericht op beleidsbeïnvloeding gezien zij als academici in wetenschappelijke tijdschriften moeten publiceren.’
Dit artikel is geschreven in het kader van de bijeenkomst ‘Leren van Evalueren’ op 29 september. Kijk hier voor meer informatie.
Foto: CIFOR. De meeste evaluaties worden vaak nog ontworpen en uitgevoerd door organisaties uit het westerse landen.