Resultaatmeting in ontwikkelingssamenwerking

Kunnen resultaten van ontwikkelingssamenwerking gemeten worden? Volgens Ruerd Ruben, directeur van het IOB, wel. Hij kaart een paar wijdverbreide misverstanden aan rondom de resultaatmeting en laat zien dat meten wel degelijk helpt.

Op gezette tijden klinkt in de bijdragen van Vice Versa de toon door dat ‘de resultaten van ontwikkelingssamenwerking niet meetbaar zijn’ (Marc Broere), terwijl aan de andere kant ook eenvoudig wordt gesteld dat ‘het effect van de Nederlandse ontwikkelingshulp zeer beperkt is’ (Wiet Jansen). Los van het feit dat beide beweringen nogal tegenstrijdig lijken, dragen zij niet bij aan de toch niet onbelangrijke maatschappelijke discussie rondom de vraag ‘helpt hulp?’.

Het is daarom nuttig om een aantal wijdverbreide misverstanden rondom de resultaatmeting te benoemen en de discussie daarmee in een iets minder dogmatisch vaarwater te brengen.

1.         Ontwikkelingssamenwerking wordt té veel geëvalueerd?

Veelvuldig wordt de stelling naar voren gebracht dat ‘er geen sector is waar zoveel wordt geëvalueerd als in de ontwikkelingssamenwerking’. Dat is helaas verre bezijden de waarheid.

Sectoren als onderwijs en gezondheidszorg kennen veel meer reguliere evaluaties en effecten­onderzoek, al dan niet gefinancierd door de betrokken ministeries. Bovendien doen ook organisaties als het CPB en SCP geregeld onderzoek naar de effecten van maatregelen in deze sectoren. Het WODC verricht voor het ministerie van Justitie zowel evaluatieonderzoek als ook research. Daar komt nog iets anders bij. Bij onderwijs en gezondheidszorg gaat het – ondanks alle stelselwijzigingen – vooral om toezicht op de uitvoering van reguliere taken. Het onderzoek naar de uitvoering loopt daar dan ook via (veel intensievere) inspecties, die ook gerechtigd zijn om boetes uit te delen indien de uitvoering tekortschiet. Bij ontwikkelings­samenwerking gaat het vaker om activiteiten met grote onzekerheden. Daarbij past een grotere aandacht voor evaluatie en is traditionele inspectie een minder geëigend instrument.

Een recente OECD studie toont aan dat de evaluatieuitgaven van ontwikkelingssamenwerking gemiddeld 0,47 % van het ODA budget bedragen.[1] De ontwikkelingsbanken besteden met 1,5-2% budget nog het meeste aandacht aan evaluaties. Het IOB evaluatiebudget bedraagt nauwelijks 0,1% van de Nederlandse ODA. De Nederlandse medefinancieringsorganisaties besteden thans 0,8 % van het programmabudget aan evaluaties. In het MFS-II wordt 0,7 % gereserveerd voor externe evaluaties. Dat zijn voorwaar niet al te grote investeringen voor een sector die grote invloed kan hebben op het alledaagse leven van zeer vele mensen (en waar dus op z’n minst het ‘do no harm’ principe gehandhaafd zou moeten worden) en waarvan ook het maatschap­pelijk vertrouwen aan erosie onderhevig is.

Een achterliggende vraag is natuurlijk ‘hoeveel’ evaluatie-inzet als noodzakelijk en zinvol moet worden beschouwd. Het is onmiskenbaar dat informatie uit o.m. evaluaties bijdraagt aan kennis over ontwikkelingssamenwerking, maar dat vertaalt zich uiteraard niet één-op-één door in groter vertrouwen in de sector. Er wordt in dit verband wel eens gesproken over de mogelijkheid om (naar analogie van het TNF-NIPO donateurspanel en de nationale goededoelentest.nl) het CBF-keurmerk op te rekken zodat hierin niet alleen naar beheersmatige criteria wordt gekeken, maar ook een indicatie wordt gegeven van de doeltreffendheid van organisaties. Voor individue­le organisaties zou moeten gelden dat zij door goede evaluaties een zekere reputatie opbouwen waardoor de intensiteit van het evaluatiewerk in de toekomst kan afnemen.

2.         Evaluaties zijn er alleen om van te leren?

De gedachte dat resultaatmeting alleen geschiedt om ‘lessen te trekken’ wordt veel gehanteerd om te voorkomen dat er over de resultaten zelf wordt gesproken. Het is echter onmogelijk om zinvolle lessen op te doen zonder dat er voldoende zicht is op de bereikte resultaten. Er wordt nog te veel uitgegaan van een tegenstelling tussen ‘leren’ en ‘verantwoorden’ , terwijl het leerproces juist behoort te beginnen bij een reflectie over waarom de beoogde resultaten al dan niet zijn behaald. Procesevaluaties zonder resultaatmeting kunnen we beter achterwege laten.

Een resultaatgerichte houding staat het ook toe om mislukte projecten en programma’s expliciet te benoemen, en daaruit lering te trekking voor nieuwe activiteiten. Risico’s zijn intrinsiek aan ontwikkelingssamenwerking, en het is verstandig deze onzekerheden ook als zodanig te erkennen. Het centrale dilemma bestaat eruit dat – zoals sommigen [overigens zonder enige empirische onderbouwing] beweren – misschien wel ‘de helft van de programma’s mislukken’, maar dat zoiets impliceert dat er ook altijd nog de andere helft slaagt (en dat is een aanmerkelijk hoger succespercentage dan dat van startende ondernemingen in Nederland), maar dat we helaas niet vooraf kunnen voospellen welke helft succesvol zal zijn.

Het is verstandig om aandacht te besteden aan de mislukkingen en de oorzaken daarvan zorgvuldig te analyseren, zonder dat dit hoeft te leiden tot onzindelijke verwijten naar de sector als geheel. Er gaat ook een opvoedende werking van uit om te verklaren waarom dergelijke mislukkingen zich kunnen voordoen, zodat het wijdere publiek begrip kan krijgen voor de risico’s en onzekerheden die intrinsiek zijn aan ontwikkelingssamenwerking.

3.         Meer evaluatie draagt bij aan betere kwaliteit?

Veel evaluaties worden in de praktijk ingezet als een soort ‘mid-term review’ om informatie te verschaffen over de wenselijkheid tot continuering van de activiteiten.[2] Ze worden uitgevoerd door onderzoekers die nauw betrokken zijn bij de donor en/of uitvoerder, en beogen snel inzicht te verschaffen in de voortgang van het betreffende programma. In de praktijk dienen ze eerder om schone handen te houden dan dat ze werkelijk een beeld geven van het resultaatbereik.

Het gevolg hiervan is dat een belangrijk deel van de evaluaties niet aan minimum kwaliteitseisen voldoet. Een slechte evaluatie kan uiteraard niets zinvols zeggen over de kwaliteit van het programma en zou beter achterwege gelaten kunnen worden. Indien minimum kwaliteitseisen voor de ‘eigen’ (d.w.z. door organisaties of directies) uitgezette evaluaties worden gehanteerd, voldoet een substantieel gedeelte daarvan niet aan de criteria van objectiviteit en transparantie, en kunnen er bijgevolg geen valide uitspraken worden gedaan over de doelmatigheid en doel­treffendheid van de uitgevoerde activiteiten. Dergelijke evaluaties verdwijnen in de prullenbak.

We zouden er dus goed aan doen om wat minder te evalueren, maar dan wel de kwaliteit van de uitgevoerde evaluaties beter te waarborgen. Evalueren is een vak (waarvoor overigens in Nederland nauwelijks goede opleidingen bestaan) en deze deskundigheid kan het beste zuinig en selectief worden ingezet.

4.         Evaluaties komen veelal te laat?

Een veel gehoorde kritiek op evaluaties is dat ze ‘mosterd na de maaltijd’ zijn. Een goede evaluatie vereist grondig onderzoek, bezoeken aan het veld, data­verzameling, en tenslotte het nodige rekenwerk om netto resultaten vast te kunnen stellen. Evaluaties studies komen per definitie pas na verloop van tijd beschikbaar: de effecten van investeringen zijn vaak pas na enige tijd zichtbaar en niet zelden worden dan alweer andere accenten gelegd. Tot op zekere hoogte is het juist dat hierdoor de eindrapportage van evaluatiestudies pas na verloop van tijd beschikbaar komt. Soms worden vertragingen veroorzaakt doordat er eerst wel wat gebeurd moet zijn voordat het zinvol is om te gaan evalueren. Anderzijds kunnen veel lessen ook al worden getrokken gedurende het evaluatieproces als resultaten tijdig worden gedeeld.

De belangrijkste oorzaak van late oplevering van evaluaties is – paradoxaal genoeg – dat ze te laat beginnen. Het is een wijdverbreide misvatting dat resultaatmeting ‘achteraf plaatsvindt’, terwijl het eigenlijk ‘vooraf’ moet beginnen met een scherpe definitie van de doelstellingen en verwachte resultaten, en een meting van de uitgangssituatie. Als dergelijke zaken ontbreken, heeft resultaatmeting achteraf geen enkele zin. Evaluatie is daarom niet het sluitstuk van internationale samenwerking, maar behoort aan de voorkant een rol te spelen.[3]

5.         Ontwikkelingssamenwerking is te complex om resultaten te kunnen meten?

De laatste jaren is er aanmerkelijke vooruitgang geboekt met de ontwikkeling van (weten­schappelijke) methoden om de effecten van interventies vast te stellen. Daarbij wordt gebruik gemaakt van twee (of meer) metingen in de tijd – een nulmeting bij het begin en een vervolg­meting na 2-3 jaar – en waarbij ook wordt gekeken bij een vergelijkbare controlegroep hoe deze zich ontwikkeld heeft zonder deel te nemen in het programma (de zgn. counterfactual).[4]

De toepassing van deze aanpak van resultaatmeting is allesbehalve eenvoudig en vereist een zorgvuldig steekproefkader en de identificatie van relevante indicatoren voor het doelbereik. Daarmee heeft deze methode – die nu vrij algemeen wordt toegepast door de meeste bilaterale en multilaterale donoren – vele nieuwe inzichten opgeleverd over de effectiviteit van interventies. Deze impactanalyses laten bijvoorbeeld zien dat veel microfinancieringsprogramma’s zich richten op de betere cliënten die ook zonder steun wel de boogde resultaten hadden bereikt (selectie bias), terwijl in andere gevallen de inzet van hulp gekoppeld aan een eigen bijdrage van de deelnemers de effectiviteit juist ten goede komt. Dergelijke uitkomsten zijn uitermate nuttig om te leren over de wijze waarop ontwikkelingsprogramma’s beter kunnen worden opgezet.

Ten onrechte wordt impactmeting vereenzelvigd met lineair denken. De nadruk ligt op het vaststellen van causaliteit tussen interventies en uitkomsten, maar in veel gevallen verloopt dat proces in vele stappen en soms zijn externe effecten belangrijker dan de directe uitkomsten. Dat wil overigens niet zeggen dat er geen valide uitspraken gedaan kunnen worden over de effecten van ontwikkelingssamenwerking op micro-niveau. Veel programma’s gericht op scholing, betere gezondheidszorg, wegenaanleg en capaciteitsopbouw zijn gebaseerd op een heldere interventie­theorie en kunnen daardoor ook prima worden geëvalueerd.[5] Het is een te simpele uitweg om – met een beroep op ‘complexiteit’ – te ontsnappen aan een zinvolle discussie over het resultaatbereik. Een groot deel van de ontwikkelingssamenwerking is inmiddels redelijk ‘standaard’ en daarvan mag verwacht worden dat de beoogde resultaten vooraf te benoemen zijn. Het behoort tot de verantwoordelijkheid van uitvoerende organisaties – van FMO tot Oxfam-Novib en de 1%Club – om hun inzet ‘evalueerbaar’ te maken.

Wellicht bestaat er vrees bij gevestigde ontwikkelingsorganisaties dat zij worden beoordeeld – en onderling vergeleken – op basis van hun effectiviteit en doelmatigheid. Een ander risico is dat organisaties alleen nog maar programma’s gaan uitvoeren waarvan het succes verzekerd is en dus sterk risicomijdend gedrag gaan vertonen. Dat kan mogelijk vermeden worden door vooraf expliciet te benoemen of de financiering is bedoeld als ‘experiment’ (op zoek naar een nieuwe interventie­theorie), of dat het gaat om meer grootschalige ‘uitvoering’ (van een al bekende en gevalideerde interventiestrategie). De eis moet niet zijn dat een project succesvol is, maar dat het al zo veel mogelijk gebruik maakt van bestaande inzichten en dat men er van leert. Dat laatste  vereist een goede evaluatie. Goede evaluaties kunnen ook eraan bijdragen dat al te simpele campagnes (‘een kind naar school voor 10 cent per dag’) van de buis verdwijnen.

6.         De Nederlandse hulp is te klein om zelfstandig te evalueren?

De Nederlandse officiële ontwikkelingssamenwerking (ODA) omvat ca. 5% van de wereldwijde hulpstroom en dat moet aanleiding geven tot bescheidenheid. Bovendien vormt ontwikkelings­hulp een afnemend deel van de totale financiële stromen naar ontwikkelingslanden, en nemen de geldoverboekingen van migranten en de directe investeringen van bedrijven thans het merendeel van de externe financiering voor hun rekening. Dat noopt tot een zekere terughoudendheid als het gaat om effectmeting.

De erkenning van een beperkte rol voor ontwikkelingssamenwerking betekent niet dat evaluaties geheel en al in de ijskast kunnen worden gezet. Er worden in toenemende mate brede evaluaties uitgevoerd waarin meerdere (bilaterale en multilaterale) donoren die betrokken zijn bij bepaalde programma’s gezamenlijk de resultaten meten, en evaluaties van bijvoorbeeld begrotingssteun of sectorsteun worden veelal samen met het ontvangende land uitgevoerd. Op belangrijke terreinen als basisonderwijs, water en sanitatie, gezondheidszorg en energie is Nederland als lead donor hierbij betrokken.

De andere kant van dit verhaal is echter, dat de vraagstelling van evaluaties verschuift van ‘aid effectiveness’ naar ‘development effectiveness’, oftewel dat er meer aandacht komt voor de bredere ontwikkelingseffecten die (mede) uit ontwikkelingssamenwerking voortkomen. Dit impliceert ook dat er (opnieuw) aandacht komt voor de katalyserende werking van hulp, de samenhang tussen buitenlandse hulp en binnenlandse overheidsbestedingen (en de rol van belastingheffing). Daarnaast zouden ook de mogelijkheden voor grotere complementariteit tussen bilaterale hulp en de activiteiten van NGOs meer aandacht verdienen. De vraag naar effectiviteit verschuift hiermee in de richting van de optimale modaliteiten-mix die er aan bijdraagt dat partners in staat worden gesteld om hun zelfredzaam­heid te versterken. Op termijn is dan het beoogde resultaat dat lokale organisaties zich ook lokaal financieren, en dat de bijdrage vanuit ontwikkelingssamenwerking structureel kan verminderen.

7.         Er wordt te weinig met evaluaties gedaan?

Het gebruik van inzichten uit evaluaties zou beter gebruikt moeten worden bij de indiening en beoordeling van nieuwe ontwikkelingsprogramma’s. Veel voorstellen zijn nog steeds erg input (aanbod)gericht en de omslag naar resultaatgericht denken is nog maar zeer beperkt gemaakt. Nieuwe beleidsvoorstellen zijn zelden gebaseerd op een grondige analyse van de ‘resultaten uit het verleden’. Het uiteindelijke doel van evidence-based policy-making ligt nog ver weg en is vermoedelijk ook nooit volledig haalbaar vanwege de vele andere (politieke) motieven die aan ontwikkelingsbeleid ten grondslag liggen. Dat laat echter onverlet dat van professionals in het veld verwacht mag worden dat zij gefundeerde keuzes maken over de inzet van OS middelen aangepast aan de specifieke lokale condities.

Er zijn de laatste jaren vele pogingen gedaan om de kloof tussen evaluatie en beleid te dichten. Een belangrijke ontwikkeling is de toepassing van Randomized Control Trials (RCTs) in lopende ontwikkelingsprogramma’s, waarbij specifieke diensten (bv. schoolvoeding, muskieten­netten, microkrediet) aan willekeurig gekozen deelnemers worden verschaft – soms onder verschillende voorwaarden – zodat achteraf inzicht wordt verworven in de wijze waarop mensen deze activiteiten al dan niet inpassen in hun eigen bestaan[6]. Hiermee kunnen belangrijke lessen worden getrokken over de manier waarop interventies aansluiten bij de eigen dynamiek van arme huishoudens. Een meer op experimenteren geënt systeem van ontwikkelingssamenwerking kan een belangrijke bijdrage leveren aan de verbetering van de kwaliteit van de hulp.

Een andere manier om het gebruik van evaluaties te versterken is om de toegankelijkheid van evaluatieresultaten te vergroten. Op bijna alle beleidsterreinen zijn inmiddels wel evaluaties verricht (het OECD-DAC Evaluation Resource Centre DERec omvat al zo’n 1500 studies[7]), en er bestaat grote behoefte aan meer syntheses waarin de ‘geleerde lessen’ op systematische wijze worden samengebracht. In internationaal verband werken 3ie (International Initiative on Impact Evaluation[8]) en NONIE (Network of Networks on Impact Evaluation[9]) hard in deze richting.

Waarheen zal dit ons brengen? Na decennialange discussie over de vraag ‘helpt hulp?’ wordt het steeds duidelijker dat de bijdrage van hulp bescheiden is en op z’n best over een langere periode zichtbaar wordt. Veel belangrijker voor nu is echter de vraag ‘welke hulp helpt? (en waar?)’ en daarmee gaat de discussie steeds meer over de keuzes tussen hulpkanalen, de samenhang tussen hulpvormen en de combinatie van binnenlandse en externe middelen die bijdragen aan de hoofddoelstellingen van het beleid (i.c. armoedebestrijding en zelfredzaamheid).

Ruerd Ruben

Directeur, Inspectie Ontwikkelingssamenwerking & Beleidsevaluatie (IOB)

Ministerie van Buitenlandse Zaken

 

 

[1] OECD-DAC Evalnet (2010). Better Aid: Evaluation in Development Agencies. Paris: OECD.

[2] Zie ook: L.Pritchett (2002). It pays to be ignorant: A simple political economy of rigorous program evaluation. The Journal of Policy Reform 5 (4):  251-269. Hierin wordt gewezen op de systematische onder­investering in (rigoureus) effectenonderzoek omdat daarmee de politieke speelruimte van beleids­makers beperkt zou worden.

[3] F.L. Leeuw & G.H.C. van Gils (2010). Leren van Evalueren. Onderzoek naar het gebruik van evaluatieonderzoek bij het ministerie van Buitenlandse Zaken. Den Haag: MinBuza.

[4] M. Ravallion (2001). The Mystery of the Vanishing Benefits: An Introduction to Impact Evaluation. World Bank Economic Review 15 (1): 115-140.

[5] Zie bv.: IOB impactevaluaties ‘Water & Sanitation’ (IOB # 305 en #315), Primary Education in Uganda (IOB # 311), Primary Education in Zambia (IOB # 312), downloadable www.minbuza.nl/iob.

[6] A. Banerjee & E. Duflo (2011). Poor Economics: A Radical Rethinking of the Way to Fight Global Poverty. New York: Public Affairs.

[7]

[8]

[9]