
De Middag van het Evalueren: route naar verbetering
VERSLAG – Beslagen ramen, een +25 graden gevoelstemperatuur en verhitte gezichten. Niet meteen het eerste wat je denkt aan te treffen wanneer het hoe en waarom van impactevaluaties onder de loep wordt genomen. Door alle twistgesprekken, columns en workshops werd de Middag van het Evalueren inspirerend en verdiepend. De meer dan 150 professionals die samenkwamen in het LEI in Den Haag op woensdag 9 december 2015 ondervonden dat aan den lijve.
Op zoek naar een nieuwe kaart
Voordat de Middag van start ging, lanceerde oud-minister Jan Pronk in het LEI zijn nieuwste boek: ‘Op zoek naar een nieuwe kaart: Verspreide aantekeningen over ontwikkeling en ontwikkelingssamenwerking’. Een bundel van aantekeningen, columns, memoires en zelfs een kort toneelstuk allemaal door hemzelf geredigeerd om een kompas te bieden voor ieder die wil nadenken over ontwikkelingssamenwerking. Tijdens de Middag van het Evalueren wilden we ook op zoek gaan naar een nieuwe kaart: hoe staat het ervoor met impactevaluaties binnen de ontwikkelingssector in Nederland? Wat is de route naar verbetering?
‘Golden opportunity’ of ‘pain in the ass’?
De Middag openden met twee twistgesprekken om de aanwezigen op scherp te zetten. Dagvoorzitters Marc Broere (Vice Versa) en Ellen Mangnus (KIT) begeleidden de eerste korte discussie tussen Dave Boselie (IDH) en Bart Romijn (Partos). Deze bracht meteen meerdere interessante stellingen voort. Ten eerste wilde Romijn er niet aan dat impactevaluatie óf een ‘golden opportunity’ óf een ‘pain in the ass’ zijn. Romijn: ‘De grootste uitdaging met impactevaluaties is hoe je het zo zinvol mogelijk maakt. Er zijn nu veel te veel eindmetingen waar niets mee wordt gedaan, terwijl evaluaties gebruikt zouden moeten worden om bij te sturen, om interventies te verbeteren. En nog belangrijker: we zouden de impact moeten evalueren van andere beleidsterreinen op ontwikkelingssamenwerking in plaats van ontwikkelingssamenwerking zelf.’
Boselie vult aan: ‘Onze projecten zijn niet geënt op lange termijn evaluaties. Wij kunnen heel goed op kortere termijnen onze prestaties meten maar de impact op lange termijn is zeer moeilijk meetbaar meetbaar voor ons door de funding cycles. Betekent dat we dan niet kunnen inzien of we succesvol zijn of niet?’
Mangnus vraagt zich af of de huidige evaluaties dan wel gebruikt worden. Staan de kosten nog wel in verhouding met de waarde van de evaluaties? Romijn: ‘Alleen als de kwaliteit van de evaluaties goed is. We moeten intelligenter omgaan met methoden en niet alleen maar steunen op randomized controlled trials. De eindproducten zijn niet altijd relevant namelijk.’ ‘En,’ stelt Boselie, ‘we worden soms geleid door donor-accountability waardoor we vaak geen nuttige evaluaties kunnen doen, omdat dit ons beperkingen oplegt.’
Wetenschappers aan het woord
Romijn en Boselie raakten ook nog aan een onderwerp waar dr. Kellie Liket en dr. Gonne Beekman in het tweede twistgesprek op door wilden gaan: de (soms niet bestaande) samenwerking tussen consultants en wetenschappers. Volgens Romijn snappen wetenschappers het werk in de praktijk niet ‘zoals pragmatici dat wel kunnen’. Een prikkelende stelling die Liket en Beekman, allebei wetenschappers, gelijk oppakken. Beekman: ‘Ik denk dat er een betere verdeling nodig is van de verschillende rollen van wetenschappers en consultants, maar beiden kunnen elkaar aanvullen. ‘Maar’, verdedigt Liket, ‘consultants zijn vaak niet op de hoogte van het totale spectrum aan methoden zoals wetenschappers dat wel zijn, waardoor ze niet altijd de juiste methode aan de juiste vraag kunnen koppelen.’
Het lijkt er dus op dat consultants en wetenschappers beter moeten gaan samenwerken. Dit was ook nodig geweest in de MFS II evaluatie waar veel kritiek op is. Beekman: ‘Het was de eerste evaluatie op zo’n grote schaal en een eerste poging tot zo’n meta-analyse. Maar er zijn absoluut veel lessen uit te halen. De selectiecriteria van de projecten waren bijvoorbeeld niet goed bepaald, omdat de beslisregel representativiteit was. Niet alle interventies zijn op een specifieke manier meetbaar, en bestaande kennis moet meegenomen worden in de keuze waar nog meer evaluaties nodig zijn.’
Het debat knetterde daarna nog even door. Slaan we bijvoorbeeld niet teveel door in het meten? Het leren, volgens Liket en Beekman, zou centraal moeten staan.
Jan Pronks onderzoeksagenda
Jan Pronk is het hier roerend mee eens. Maar dan wel het leren over de juiste dingen: in zijn gesproken column verbaast hij zich erover dat men het vooral wil hebben over het hoe en het wie van evalueren. Het zou volgens hem juist moeten gaan over wát er geëvalueerd moet worden: niet de hulp, maar het incoherente beleid van Nederland. Hij deed dertien aanbevelingen voor een nieuwe evaluatie agenda waar het publiek vurig voor klapte.
Zo stipte Pronk een vraag aan die nog niet aan bod was gekomen: Praten we wel over de juiste dingen wanneer we het evalueren zelf onder de loep nemen? De professionals uit het werkveld discussieerden er nog even over door terwijl ze naar de eerste workshopsessies liepen.
De belangrijkste conclusies van de workshops
Voor de pauze waren er drie workshops te volgen. Alle raakten aan het methodologische vlak: hoe meet je impact en wat voor uitdagingen komen daarbij kijken? Simavi en de Erasmus Universiteit spraken over de evidence-based benadering. Dat houdt in dat NGOs in hun selectie van projecten meenemen wat we al weten vanuit gedegen impact evaluaties. ‘Maar hoe relevant zijn die evaluaties voor de specifieke projecten van een NGO, die op andere plekken plaatsvinden onder andere omstandigheden?’, vraagt het publiek meteen. Simavi en Erasmus geven aan te geloven dat een hele set aan studies naar een en hetzelfde project een goede indruk geven of iets waarschijnlijk werkt – ook in andere contexten. Helaas worden NGOs in de praktijk beperkt om evidence-based te werken door bijvoorbeeld de al eerder genoemde donor-accountability.
SOS Kinderdorpen, Resultante en Avance presenteerden hun realist-benadering die inzicht geeft in hoe, waarom, wanneer en voor wie interventies werken. De leereffecten van de evaluatie zijn daardoor erg groot omdat het verder gaat dan meten alleen; de data wordt ook gelijk verklaard. Verschillende deelnemers van de workshop hadden wel graag dieper willen doorgaan op hoe de realist-benadering omgaat met de verschillen in context.
De IOB sprak over de methodologische problemen waarmee de recente beleidsdoorlichting (2015) Gender sense & sensitivity werd geconfronteerd. Ze concludeerden ten eerste dat er gebrekkige kennis bestond van outcome en impact levels. Er waren te weinig sekse-specifieke indicatoren gebruikt door de overheid om te kunnen meten hoe hun beleid zijn weerslag had op vrouwen. Tegelijkertijd was er soms teveel aandacht voor vrouwen in het beleid waardoor gendergelijkheid niet effectief kon worden bevorderd: mannen moeten daar immers ook in mee worden genomen. Daar vielen dus enkele belangrijke lessen voor de toekomst uit te halen.
Na de koffiepauze gingen we door met drie andere workshops. ICCO en Wageningen UR spraken over de lessen die konden worden gehaald uit de grootschalige MFS II evaluatie en commodity impact evaluaties. Hoe kan evaluatie zinvol worden ingezet voor (ontwikkelings)organisaties? Wanneer is een evaluatieproces ‘goed genoeg’ vanuit een gebruiksperspectief? De deelnemers voelden vooral de MFS-II evaluatie kritisch aan de tand. De workshopleiders stelden dat utility centraal zou moeten staan in alle verschillende facetten van het impact-evaluatieproces. Zo kan het beste geléérd worden in tegenstelling tot alleen gemeten. Dit gebruiks-perspectief zou ook de relaties tussen evaluatoren en geëvalueerde partijen ten goede kunnen komen.
Fred Zaal (KIT) sprak samen met Jouwert van Geene (the Hunger Project) over het gebruik van PADev bij de evaluatie van een ‘The Hunger Project epicentre’ in Benin. PADev is een methode om ontwikkeling en verandering te meten waarbij alle lagen van de bevolking gehoord worden. De methode is daardoor inclusief, maar zoals sommige deelnemers aangaven, is het daarbij belangrijk om een heldere selectie te maken vanuit die bevolking zodat alle relevante visies aan bod komen. KIT en The Hunger Project hadden daarvoor gezorgd zodat er een ‘inter-subjectief beeld’ ontstond van de interventies. Duidelijk werd dat PADev een bruikbare methode is om de vragen ‘voor wie, hoe, en waarom’ te kunnen beantwoorden die in surveys vaak onderbelicht blijven
Als laatste presenteerde Partos hun bevindingen over waarom het gebruik van monitoring data wordt onderbenut. Wouter Rijneveld ondervond in zijn onderzoek dat ten eerste voor veel potentiele gebruikers de monitoring data onvoldoende relevant lijken. Ten tweede hebben organisaties vaak niet de capaciteit om een goede analyse van de data te maken. Tijdens de workshop kwamen nog meer factoren naar voren die het gebruik van monitoring data in de weg staan, waaronder het ontbreken van digitale systemen die gebruik gemakkelijker maken. Lydeke Schakel presenteerde daarna verschillende cases van slimme en veelbelovende oplossingen om die barrières te overwinnen. Paul Kosterink van GPPAC gaf als laatste aan hoe zij een systeem gebruiken waarbij monitoring en evaluatie meer geïntegreerd worden.
Onderzoek moet onafhankelijk worden uitgevoerd
Bart de Steenhuijsen Piters van het KIT wilde graag bijdragen aan de Middag van het Evalueren, maar kon niet aanwezig zijn. Hij stuurde daarom een videocolumn op met een vlammend betoog over de eroderende status van onafhankelijk onderzoek. Volgens De Steenhuijsen Piters kregen verschillende belangen een steeds grotere invloed op de resultaten en de procedures van het onderzoek, en dat is een ‘kwalijke zaak’. ‘Impact evaluaties zijn big business geworden: consultancy’s en bedrijven voeren ze steeds vaker uit maar hebben daar zo hun eigen financiële belangen bij. Hoe kun je dan ooit onafhankelijk onderzoek afleveren?!’
‘Maar hoe kwalijk is dat eigenlijk?’, vragen sommige professionals zich af. ‘Natuurlijk, resultaten zo framen dat het bedrijf er beter uit komt doet af aan de kwaliteit van het onderzoek. Maar onderzoek doen in samenwerking met belanghebbenden, wat dus in strijd is met de onafhankelijkheid, kan een impactevaluaties alleen maar ten goede komen.’ We zijn benieuwd wat De Steenhuijsen Piters daarop te zeggen heeft.
Slotdebat
De stemming voor een prikkelend debat zat er dus al goed in. Wendy Asbeek (directeur IOB), Allert van den Ham (directeur SNV), Elisabeth van der Steenhoven (directeur WO=MEN) en Ruerd Ruben (hoogleraar impactanalyse Wageningen UR & onderzoekscoördinator LEI Wageningen UR) gingen onder leiding van Kellie Liket in gesprek over de toekomst van impactevaluaties. Ruben opent verrassend: ‘Evaluaties zouden eigenlijk vooraf moeten gebeuren. Het beleid kan zo veel beter inspelen op de situatie omdat de context duidelijk is’. Volgens Asbeek is dat een van goede dingen van de MFS II – evaluatie: het gebruik van Theories of Change, waardoor van tevoren veel beter bepaald wordt wanneer een interventie succesvol is en hoe veronderstelde mechanismes werken, is veel meer in zwang geraakt door die grootschalige evaluaties.
Het is wel belangrijk, geeft het voltallige panel aan, dat er een beweging wordt ingezet van kwantiteit naar kwaliteit, en dat we realistisch zijn over de tijdsduur. Er wordt veel naar de donoren gewezen: zij moeten de ruimte creëren om strategischer om te gaan met evaluaties. Bestaande kennis moet meegenomen worden. Liever een paar goede evaluaties dan heel veel rommel. De volgende Middag van het Evalueren moet voor donoren georganiseerd worden, lacht het panel. Van der Ham: ‘Daarnaast moeten we ook de eigen performance van onze medewerkers beter evalueren zodat ze meer incentive voelen om projecten te evalueren en verbeteren. Van der Steenhoven: ‘We hebben ook meer externe blikken nodig. Noorwegen liet laatst hun ontwikkelingsbeleid evalueren door landen uit het Zuiden. We moeten ons falen ook kunnen toegeven.’ Ruben wil daar nog aan toevoegen dat de grootste winst zit in het stellen van goede vragen. ‘We moeten geen tenders meer doen maar meerdere evaluatoren laten samenwerken. De vraag ontstaat dan uit wederzijds gesprek.’
Interessante, verfrissende stellingen die stuwing gaven aan de discussies tijdens de borrel na afloop. We kijken terug op een geslaagde dag met een gevarieerde en prikkelende inhoud! Als u meer informatie wilt over de workshops, kunt u terecht bij info[a]viceversaonline.nl.
De Middag van het Evalueren werd georganiseerd door de Inspectie Ontwikkelingssamenwerking en Beleidsevaluatie (IOB), het Koninklijk Instituut voor de Tropen (KIT), de Erasmus Universiteit, de Wageningen University and Research Centre (WUR) en Vice Versa.