In dit artiekel willen we graag enkele van onze meest gestelde vragen bespreken over steekproeven en haalbaarheid voor projecten: Welke steekproefgrootte is representatief? Hoeveel interviews worden aanbevolen om representatieve resultaten te verkrijgen? Zijn de panels groot genoeg voor de vereiste steekproefgrootte?
Laten we beginnen met een verhaal dat eigenlijk de grondleggende mythe van marktonderzoek is geworden. Een eeuw geleden begon het Amerikaanse tijdschrift The Literary Digest opiniepeilingente houden onder hun tien miljoen lezers om de uitslagen van de presidentsverkiezingen te voorspellen. In vijf opeenvolgende verkiezingen waren hun voorspellingen absoluut juist, totdat ze in 1936 massaal faalden, ondanks het feit dat ze ongeveer 2,4 miljoen interviews hielden onder hun lezers. Tot hun verbazing was George Gallup in staat om de uitslag van deze verkiezingen correct te voorspellen met “slechts” 50.000 interviews.
Wat is er gebeurd? De steekproef van The Literary Digest mislukte, omdat hun lezers niet representatief waren voor de algemene bevolking. Ze hadden een andere leeftijdsopbouw, een ander gemiddeld inkomen – en blijkbaar andere politieke voorkeuren. Integendeel, Gallup begreep dat representativiteit niet zozeer afhangt van de steekproefgrootte, maar van de juiste samenstelling van de steekproef. Hij zorgde er eenvoudigweg voor dat elke groep mensen correct vertegenwoordigd was in zijn steekproef. Deze ontdekking was het beginpunt voor markt- en opinieonderzoek zoals we dat vandaag kennen.
Voor representativiteit is niet de grootte van belang, maar de juiste samenstelling. Maar is dat aannemelijk? In de jaren 1960 gaf A.C. Nielsen Jr. een interessant antwoord aan degenen die geloofden dat een grotere steekproefgrootte de representativiteit zou verhogen.
“Als je niet gelooft in willekeurige steekproeven, vertel dan de volgende keer dat je een bloedtest hebt aan de dokter om alles te nemen.” – A.C. Nielsen Jr.
Ondanks het onmiskenbare sarcasme biedt dit citaat ons een zeer begrijpelijke analogie. Het maakt niet uit of je een druppel bloed analyseert of een hele liter: de analyseresultaten zullen altijd hetzelfde zijn. Eén druppel bloed vertegenwoordigt alles.
Het is duidelijk dat de steekproefgrootte nog steeds belangrijk is. Maar waarom maakt dat eigenlijk uit? Wanneer je een representatieve steekproef hebt, kunnen sommige van de doelvariabelen toevallig over- of ondervertegenwoordigd zijn in je steekproef. Helaas betekent “toevallig” dat je er echt niets aan kunt doen als je de data verzamelt.
Statistische berekeningen kunnen je tenminste helpen om de waarschijnlijkheid in te schatten dat je fout binnen een bepaalde marge ligt, bijvoorbeeld dat zulke afwijkingen van de werkelijke waarde minder dan x% zijn bij een betrouwbaarheidsniveau van 95%.
Als je de foutmarge wilt verkleinen (gegeven een bepaald betrouwbaarheidsniveau), heb je in principe maar één keuze: je moet de steekproefomvang vergroten.
Om je steekproefgrootte te bepalen, is het vaak nodig om bij het einde te beginnen en terug te werken naar het begin. Maar voor de duidelijkheid, zullen we je kort door het interviewproces leiden in de juiste volgorde en de uiteindelijke statussen uitleggen die een respondent kan krijgen.
Het begint allemaal met het versturen van uitnodigingen naar onze panelleden. Van alle genodigden zal slechts een deel daadwerkelijk op de link klikken en de enquête starten. Dat is wat we beschrijven met de responspercentage (het percentage reacties ten opzichte van het totale aantal uitnodigingen om deel te nemen). Bovendien hebben we aan het begin van een enquête meestal een aantal screeningsvragen om de gewenste doelgroep te identificeren. Het percentage respondenten dat in dit stadium in aanmerking komt, wordt weerspiegeld in de incidentiegraad (het percentage personen in een doelpopulatie dat voldoet aan specifieke criteria voor een onderzoek). Nadat we ervoor hebben gezorgd dat we de juiste doelgroep hebben, zullen we mogelijke quota beoordelen en het interview beëindigen voor die respondenten wiens quota al zijn ingevuld. Quota’s worden meestal beoordeeld na het screeningsproces om ervoor te zorgen dat we de juiste incidentiegraad kunnen meten zonder de invloed van quota’s. Als respondenten passen binnen een open quota, kunnen ze deelnemen aan de hoofdenquêt Toch kan het gebeuren dat sommigen tijdens het interview afhaken en nooit de eindpagina bereiken. Tot slot worden degenen die het einde van de enquête hebben bereikt, meegeteld als voltooide interviews.
Zoals eerder vermeld, begint het proces voor het bepalen van de haalbaarheid met het vereiste aantal voltooide interviews en werkt dan terug om het benodigde aantal uitnodigingen te berekenen. Laten we zeggen dat we een onderzoek uitvoeren waarvoor in totaal 1000 interviews nodig zijn. De eerste stap is het schatten van het aantal afbrekers tijdens het hoofdinterview (ook wel “uitvallers”, “gedeeltelijke deelnemers” of “afbrekers” genoemd).
Dus wat is een redelijke aanname voor het percentage afbrekingen? Het hangt vooral af van de enquête zelf. Als de enquête lang is, zich herhaalt of over een onderwerp gaat dat niet al te relevant is voor de respondenten, kunnen meer afbrekingen worden verwacht. Maar ook technologie speelt een belangrijke rol. Als de enquête vertrouwt op verouderde technologie (bijvoorbeeld Flash) of niet geschikt is voor mobiele apparaten (bijvoorbeeld niet responsief), kunnen gebruikers moeite hebben om de enquête in te vullen. Onze ervaren projectmanagers helpen je graag je enquête te optimaliseren om het aantal afbrekingen zo laag mogelijk te houden!
Laten we uitgaan van een uitvalpercentage van 2% in ons voorbeeld, dat betekent dat we 1.020 respondenten nodig hebben voor het hoofdinterview.
De volgende stap is het inschatten van de hoeveelheid quota’s die niet gehaald worden, wat vaak de meest uitdagende taak is en een ervaren projectmanager vereist.
Quota-definities kunnen behoorlijk complex zijn. Ze kunnen talrijke variabelen bevatten, ze kunnen onderling verbonden of niet-onderling verbonden zijn, en soms worden respondenten zelfs willekeurig aan hen toegewezen (denk aan monadische tests). In theorie zouden de beschikbare variabelen van de profielen van onze panelleden ons moeten helpen om alleen de juiste deelnemers uit te nodigen en eventuele quota-mislukkingen te vermijden. In de praktijk is dit echter niet altijd mogelijk. We hebben niet altijd toegang tot alle vereiste profielen en als de veldperiode te kort is, hebben we misschien niet de kans om geleidelijk en nauwgezet aan de verschillende quota’s te voldoen.
Samenvattend zijn quotafouten in de meeste gevallen bijna onvermijdelijk. De mate waarin hangt sterk af van de specificaties van het onderzoek (d.w.z. quotaplan, veldperiode), maar ook van de ervaring van de projectmanager. Het succesvol voldoen aan alle quota binnen de gestelde tijdspanne, terwijl het panel wordt behouden, kan een aanzienlijke uitdaging vormen, en het onderscheidt ervaren steekproeftrekkers van onervarenen.
Laten we aannemen dat in ons voorbeeld 20% van de quota mislukt, dus hebben we 1.276 gescreende respondenten nodig, inclusief de afvallers.
Het schatten van het aantal afwijzingen is relatief eenvoudig, omdat de incidentie meestal deel uitmaakt van het voorstel. Dit incidentiepercentage zou idealiter gelijk moeten zijn aan het deel van de respondenten dat door de screening komt en is meestal onafhankelijk van andere factoren.
Laten we voor ons voorbeeld uitgaan van een incidentiepercentage van 50%, dan hebben we een vereiste hoeveelheid van 2.552 starters.
De laatste stap in onze berekening is een antwoord op de vraag hoeveel leden we moeten uitnodigen om 2.552 starters te krijgen. Het responspercentage hangt enigszins af van externe factoren (zoals het tijdstip van de dag, de dag van de week, het weer, vakantieseizoen, enzovoort). Bovendien speelt ook de kwaliteit van het panel een rol, en, last but not least, de parameters van de studie zelf: als de enquête geschikt is voor mobiele apparaten, kunnen we de uitnodiging naar onze panel-app sturen en daarmee de responspercentages verhogen.
Als we zeggen dat het 45% is voor ons voorbeeld, dan zouden we een totale steekproefgrootte van 5.669 nodig hebben. Dat is het minimale vereiste om aan de specificaties van deze voorbeeldstudie te voldoen. Maar zoals je in ons panelboek kunt zien, is zelfs ons kleinste online panel groot genoeg om dit soort onderzoek uit te voeren.
En dit brengt ons bij een zeer belangrijke bedrijfsvraag: Hoe goed is goed genoeg? Er is zeker geen algemeen antwoord op, maar we willen graag drie scenario’s bespreken om mogelijke denkwijzen te illustreren.
Uiteindelijk is het de kunst om genoeg interviews te hebben waarmee je betrouwbare conclusies kunt trekken en toch redelijk om te gaan met de totale kosten van het veldwerk.
Dus hoeveel interviews worden aanbevolen om representatieve resultaten te verkrijgen? Deze vraag kan gewoon niet eenvoudig beantwoord worden. Je kunt kleine steekproeven hebben die zeer representatief zijn en grote steekproeven die helemaal niet representatief zijn (heel vaak: “Big Data”).