Welke steekproefgrootte is representatief?

Wat maakt een steekproef representatief?

Laten we beginnen met een verhaal dat eigenlijk de grondleggende mythe van marktonderzoek is geworden. Een eeuw geleden begon het Amerikaanse tijdschrift The Literary Digest opiniepeilingente houden onder hun tien miljoen lezers om de uitslagen van de presidentsverkiezingen te voorspellen. In vijf opeenvolgende verkiezingen waren hun voorspellingen absoluut juist, totdat ze in 1936 massaal faalden, ondanks het feit dat ze ongeveer 2,4 miljoen interviews hielden onder hun lezers. Tot hun verbazing was George Gallup in staat om de uitslag van deze verkiezingen correct te voorspellen met “slechts” 50.000 interviews.

Wat is er gebeurd? De steekproef van The Literary Digest mislukte, omdat hun lezers niet representatief waren voor de algemene bevolking. Ze hadden een andere leeftijdsopbouw, een ander gemiddeld inkomen – en blijkbaar andere politieke voorkeuren. Integendeel, Gallup begreep dat representativiteit niet zozeer afhangt van de steekproefgrootte, maar van de juiste samenstelling van de steekproef. Hij zorgde er eenvoudigweg voor dat elke groep mensen correct vertegenwoordigd was in zijn steekproef. Deze ontdekking was het beginpunt voor markt- en opinieonderzoek zoals we dat vandaag kennen.

Voor representativiteit is niet de grootte van belang, maar de juiste samenstelling. Maar is dat aannemelijk? In de jaren 1960 gaf A.C. Nielsen Jr. een interessant antwoord aan degenen die geloofden dat een grotere steekproefgrootte de representativiteit zou verhogen.

“Als je niet gelooft in willekeurige steekproeven, vertel dan de volgende keer dat je een bloedtest hebt aan de dokter om alles te nemen.” – A.C. Nielsen Jr.

Ondanks het onmiskenbare sarcasme biedt dit citaat ons een zeer begrijpelijke analogie. Het maakt niet uit of je een druppel bloed analyseert of een hele liter: de analyseresultaten zullen altijd hetzelfde zijn. Eén druppel bloed vertegenwoordigt alles.

Waarom is de steekproefgrootte belangrijk?

Het is duidelijk dat de steekproefgrootte nog steeds belangrijk is. Maar waarom maakt dat eigenlijk uit? Wanneer je een representatieve steekproef hebt, kunnen sommige van de doelvariabelen toevallig over- of ondervertegenwoordigd zijn in je steekproef. Helaas betekent “toevallig” dat je er echt niets aan kunt doen als je de data verzamelt.

Statistische berekeningen kunnen je tenminste helpen om de waarschijnlijkheid in te schatten dat je fout binnen een bepaalde marge ligt, bijvoorbeeld dat zulke afwijkingen van de werkelijke waarde minder dan x% zijn bij een betrouwbaarheidsniveau van 95%.

Voor opinieonderzoekers is een betrouwbaarheidsniveau van 95% de meest gebruikelijke optie. Hier is je risico minder dan 5% dat de echte waarde buiten de overeenkomstige foutmarge valt. In andere disciplines kan een betrouwbaarheidsniveau van 99% echter de norm zijn (bijvoorbeeld in de farmaceutische industrie, omdat statistische fouten een kwestie van leven of dood kunnen zijn).
Gezien het betrouwbaarheidsniveau kun je de foutmarge berekenen voor elke waarde van een verdeling. Stel dat je enquête-resultaat je een marktaandeel van 50% geeft en je overeenkomstige foutmarge is 3% (bij een betrouwbaarheidsniveau van 95%), dan is uw risico minder dan 5% dat het werkelijke marktaandeel lager is dan 47% of hoger dan 53%.

Als je de foutmarge wilt verkleinen (gegeven een bepaald betrouwbaarheidsniveau), heb je in principe maar één keuze: je moet de steekproefomvang vergroten.

Hoe bepaal je de grootte van je steekproef?

Om je steekproefgrootte te bepalen, is het vaak nodig om bij het einde te beginnen en terug te werken naar het begin. Maar voor de duidelijkheid, zullen we je kort door het interviewproces leiden in de juiste volgorde en de uiteindelijke statussen uitleggen die een respondent kan krijgen.

De uiteindelijke statussen die een respondent kan krijgen zijn: van uitnodiging tot non-respons, tot afwijzing, tot quota-falen, tot onderbreking, tot voltooiing.

Het begint allemaal met het versturen van uitnodigingen naar onze panelleden. Van alle genodigden zal slechts een deel daadwerkelijk op de link klikken en de enquête starten. Dat is wat we beschrijven met de responspercentage (het percentage reacties ten opzichte van het totale aantal uitnodigingen om deel te nemen). Bovendien hebben we aan het begin van een enquête meestal een aantal screeningsvragen om de gewenste doelgroep te identificeren. Het percentage respondenten dat in dit stadium in aanmerking komt, wordt weerspiegeld in de incidentiegraad (het percentage personen in een doelpopulatie dat voldoet aan specifieke criteria voor een onderzoek). Nadat we ervoor hebben gezorgd dat we de juiste doelgroep hebben, zullen we mogelijke quota beoordelen en het interview beëindigen voor die respondenten wiens quota al zijn ingevuld. Quota’s worden meestal beoordeeld na het screeningsproces om ervoor te zorgen dat we de juiste incidentiegraad kunnen meten zonder de invloed van quota’s. Als respondenten passen binnen een open quota, kunnen ze deelnemen aan de hoofdenquêt Toch kan het gebeuren dat sommigen tijdens het interview afhaken en nooit de eindpagina bereiken. Tot slot worden degenen die het einde van de enquête hebben bereikt, meegeteld als voltooide interviews.

Afbrekers

Zoals eerder vermeld, begint het proces voor het bepalen van de haalbaarheid met het vereiste aantal voltooide interviews en werkt dan terug om het benodigde aantal uitnodigingen te berekenen. Laten we zeggen dat we een onderzoek uitvoeren waarvoor in totaal 1000 interviews nodig zijn. De eerste stap is het schatten van het aantal afbrekers tijdens het hoofdinterview (ook wel “uitvallers”, “gedeeltelijke deelnemers” of “afbrekers” genoemd).

Dus wat is een redelijke aanname voor het percentage afbrekingen? Het hangt vooral af van de enquête zelf. Als de enquête lang is, zich herhaalt of over een onderwerp gaat dat niet al te relevant is voor de respondenten, kunnen meer afbrekingen worden verwacht. Maar ook technologie speelt een belangrijke rol. Als de enquête vertrouwt op verouderde technologie (bijvoorbeeld Flash) of niet geschikt is voor mobiele apparaten (bijvoorbeeld niet responsief), kunnen gebruikers moeite hebben om de enquête in te vullen. Onze ervaren projectmanagers helpen je graag je enquête te optimaliseren om het aantal afbrekingen zo laag mogelijk te houden!

Laten we uitgaan van een uitvalpercentage van 2% in ons voorbeeld, dat betekent dat we 1.020 respondenten nodig hebben voor het hoofdinterview.

Quota-mislukkingen

De volgende stap is het inschatten van de hoeveelheid quota’s die niet gehaald worden, wat vaak de meest uitdagende taak is en een ervaren projectmanager vereist.

Quota-definities kunnen behoorlijk complex zijn. Ze kunnen talrijke variabelen bevatten, ze kunnen onderling verbonden of niet-onderling verbonden zijn, en soms worden respondenten zelfs willekeurig aan hen toegewezen (denk aan monadische tests). In theorie zouden de beschikbare variabelen van de profielen van onze panelleden ons moeten helpen om alleen de juiste deelnemers uit te nodigen en eventuele quota-mislukkingen te vermijden. In de praktijk is dit echter niet altijd mogelijk. We hebben niet altijd toegang tot alle vereiste profielen en als de veldperiode te kort is, hebben we misschien niet de kans om geleidelijk en nauwgezet aan de verschillende quota’s te voldoen.

Samenvattend zijn quotafouten in de meeste gevallen bijna onvermijdelijk. De mate waarin hangt sterk af van de specificaties van het onderzoek (d.w.z. quotaplan, veldperiode), maar ook van de ervaring van de projectmanager. Het succesvol voldoen aan alle quota binnen de gestelde tijdspanne, terwijl het panel wordt behouden, kan een aanzienlijke uitdaging vormen, en het onderscheidt ervaren steekproeftrekkers van onervarenen.

Laten we aannemen dat in ons voorbeeld 20% van de quota mislukt, dus hebben we 1.276 gescreende respondenten nodig, inclusief de afvallers.

Afwijzingen

Het schatten van het aantal afwijzingen is relatief eenvoudig, omdat de incidentie meestal deel uitmaakt van het voorstel. Dit incidentiepercentage zou idealiter gelijk moeten zijn aan het deel van de respondenten dat door de screening komt en is meestal onafhankelijk van andere factoren.

Laten we voor ons voorbeeld uitgaan van een incidentiepercentage van 50%, dan hebben we een vereiste hoeveelheid van 2.552 starters.

Responspercentage

De laatste stap in onze berekening is een antwoord op de vraag hoeveel leden we moeten uitnodigen om 2.552 starters te krijgen. Het responspercentage hangt enigszins af van externe factoren (zoals het tijdstip van de dag, de dag van de week, het weer, vakantieseizoen, enzovoort). Bovendien speelt ook de kwaliteit van het panel een rol, en, last but not least, de parameters van de studie zelf: als de enquête geschikt is voor mobiele apparaten, kunnen we de uitnodiging naar onze panel-app sturen en daarmee de responspercentages verhogen.

Als we zeggen dat het 45% is voor ons voorbeeld, dan zouden we een totale steekproefgrootte van 5.669 nodig hebben. Dat is het minimale vereiste om aan de specificaties van deze voorbeeldstudie te voldoen. Maar zoals je in ons panelboek kunt zien, is zelfs ons kleinste online panel groot genoeg om dit soort onderzoek uit te voeren.

Hoe goed is goed genoeg?

En dit brengt ons bij een zeer belangrijke bedrijfsvraag: Hoe goed is goed genoeg? Er is zeker geen algemeen antwoord op, maar we willen graag drie scenario’s bespreken om mogelijke denkwijzen te illustreren.

Concepttest: Laten we aannemen dat een bedrijf twee alternatieven heeft voor een reclamecampagne. Maar welke werkt beter? Je zou alleen de winnaar hoeven te identificeren en ermee doorgaan! Ervan uitgaande dat de uitkomst niet te krap is, kunnen ongeveer 500 interviews voldoende zijn (wat overeenkomt met een marge van 4,3% op een niveau van 95% – dus de beste optie moet leiden met ten minste 9%).
Verkiezingsonderzoek: Bij het voorspellen van de populariteit van politieke partijen bij verkiezingen ben je waarschijnlijk geïnteresseerd in meer dan individuele beoordelingen. Je zult je afvragen welke partijen een coalitie kunnen vormen om een meerderheid te behalen. Als je twee partijen hebt met elk een foutmarge van 3%, wordt het vrij moeilijk om te voorspellen, vooral als de uitslag naar verwachting krap zal zijn. In dit geval moet je de steekproefgrootte vergroten om de foutmarge te verkleinen.
Subgroepen: Heel vaak wil je naast algemene statistieken ook subgroepen van je steekproef analyseren: Wie zijn deze zware gebruikers precies? Waarin verschillen mannen van vrouwen? Wat voor soort producten geven de voorkeur aan lezers van een bepaald tijdschrift? Als je slechts een kleinere subset van je hoofdsteekproef gebruikt, zal het beschikbare aantal interviews voor je latere analyse ook kleiner zijn. In dit geval moet je ook met een grotere steekproefgrootte werken.

Uiteindelijk is het de kunst om genoeg interviews te hebben waarmee je betrouwbare conclusies kunt trekken en toch redelijk om te gaan met de totale kosten van het veldwerk.

Samenvatting

Dus hoeveel interviews worden aanbevolen om representatieve resultaten te verkrijgen? Deze vraag kan gewoon niet eenvoudig beantwoord worden. Je kunt kleine steekproeven hebben die zeer representatief zijn en grote steekproeven die helemaal niet representatief zijn (heel vaak: “Big Data”).

Representativiteit gaat over de juiste samenstelling van je steekproef. Het geeft aan of je steekproef je het juiste beeld geeft van de werkelijkheid. Als het een beetje vaag is, zal het je toch in staat stellen om het totaalbeeld correct te krijgen.
De grootte van een steekproef bepaalt hoe duidelijk je kunt zien. Als je steekproef niet representatief is, zal een grote omvang je in staat stellen om heel duidelijk te zien – maar het zal een vals beeld zijn, een vertekening van de waarheid.

English

Dansk

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska