Welke steekproefgrootte is representatief?

Wat maakt een steekproef representatief?

Laten we beginnen met een verhaal dat eigenlijk de basis van marktonderzoek is geworden. Een eeuw geleden begon het Amerikaanse tijdschrift The Literary Digest opiniepeilingen te houden onder hun tien miljoen lezers om de resultaten van de presidentsverkiezingen te voorspellen. In vijf opeenvolgende verkiezingen waren hun voorspellingen absoluut juist, totdat ze in 1936 massaal faalden, ondanks het feit dat ze ongeveer 2,4 miljoen interviews hielden onder hun lezers. Tot hun verbazing was George Gallup in staat om de uitslag van deze verkiezingen correct te voorspellen met “slechts” 50.000 interviews.

Wat is er gebeurd? De steekproef van The Literary Digest mislukte, omdat hun lezers niet representatief waren voor de algemene bevolking. Ze hadden een andere leeftijdsopbouw, een ander gemiddeld inkomen – en blijkbaar ook andere politieke voorkeuren. Gallup deerentegen begreep dat representativiteit niet zozeer afhangt van de steekproefgrootte, maar van de juiste samenstelling van de steekproef. Hij gebruikte gewoon quota om ervoor te zorgen dat elke groep mensen correct vertegenwoordigd was in zijn steekproef. Deze baanbrekende ontdekking was het startpunt voor markt- en opinieonderzoek zoals we dat vandaag de dag kennen.

Voor representativiteit is niet de grootte van belang, maar de juiste samenstelling. Maar is dat aannemelijk? In de jaren 1960 gaf A.C. Nielsen Jr. een interessant antwoord aan diegenen die geloofden dat een grotere steekproefomvang de representativiteit zou verhogen.

“Als je niet gelooft in willekeurige steekproeven, zeg dan de volgende keer dat je een bloedtest laat doen tegen de dokter dat hij alles moet afnemen.” – A.C. Nielsen Jr.

Ondanks het onmiskenbare sarcasme biedt dit citaat ons een zeer begrijpelijke analogie. Het maakt niet uit of je een druppel bloed analyseert of een hele liter: de analyseresultaten zullen altijd hetzelfde zijn. Eén druppel bloed vertegenwoordigt alles.

Waarom is de steekproefgrootte belangrijk?

Het is duidelijk dat de steekproefgrootte nog steeds belangrijk is. Maar waarom maakt dat eigenlijk uit? Wanneer je een representatieve steekproef voor een populatie hebt, kunnen sommige doelvariabelen toevallig over- of ondervertegenwoordigd zijn in je steekproef. Helaas betekent “toevallig” dat je er echt niets aan kunt doen als je de data verzamelt.

Statistische berekeningen kunnen je tenminste helpen om de waarschijnlijkheid in te schatten dat je fout binnen een bepaalde marge ligt, bijvoorbeeld dat zulke afwijkingen van de werkelijke waarde minder dan x% zijn bij een betrouwbaarheidsniveau van 95%.

Voor opinieonderzoekers is een betrouwbaarheidsniveau van 95% de meest gebruikelijke optie. Hier is je risico minder dan 5% dat de echte waarde buiten de overeenkomstige foutmarge valt. In andere disciplines kan een betrouwbaarheidsniveau van 99% echter de norm zijn (bijvoorbeeld in de farmaceutische industrie, omdat statistische fouten een kwestie van leven of dood kunnen zijn).
Gegeven het betrouwbaarheidsniveau kun je de foutmarge voor elke waarde van een verdeling berekenen. Stel dat het resultaat van je onderzoek je een marktaandeel van 50% geeft en je overeenkomstige foutmarge is 3% (op een niveau van 95%), dan is je risico minder dan 5% dat het echte marktaandeel lager is dan 47% of hoger dan 53%.

Als je de foutmarge wilt verkleinen (gegeven een bepaald betrouwbaarheidsniveau), heb je in principe maar één keuze: je moet de steekproefomvang vergroten.

Hoe bepaal je de grootte van je steekproef?

Om je steekproefgrootte te bepalen, is het vaak nodig om bij het einde te beginnen en terug te werken naar het begin. Voor de duidelijkheid zullen we je echter kort in de juiste volgorde door het interviewproces leiden en de uiteindelijke statussen uitleggen die een respondent kan krijgen.

De uiteindelijke statussen die een respondent kan krijgen van uitnodiging naar non-respons, naar screen out, naar quotum mislukt, naar afbreken, naar voltooien

Het begint allemaal met het versturen van uitnodigingen naar onze panelleden. Van alle genodigden zal slechts een deel daadwerkelijk op de link klikken en de enquête starten. Dat beschrijven we met het responspercentage (het percentage reacties ten opzichte van het totale aantal uitnodigingen om deel te nemen). Bovendien hebben we aan het begin van een enquête meestal een aantal screeningsvragen om de gewenste doelgroep te identificeren. Het percentage respondenten dat in dit stadium in aanmerking komt, wordt weerspiegeld in de incidentiegraad (het percentage personen in een doelpopulatie dat voldoet aan specifieke criteria voor een onderzoek). Nadat we er zeker van zijn dat we de juiste doelgroep hebben, beoordelen we mogelijke quota en beëindigen we het interview voor de respondenten van wie de quota al ingevuld zijn. Quota worden meestal beoordeeld na de screener om er zeker van te zijn dat we de juiste incidentie kunnen meten zonder tussenkomst van quota. Als respondenten in een open quotum passen, kunnen ze deelnemen aan de hoofdenquête. Toch kan het gebeuren dat sommigen tijdens het interview afhaken en nooit de eindpagina bereiken. Tot slot worden degenen die het einde van de enquête hebben bereikt, meegeteld als voltooide interviews.

Afbreken

Zoals eerder vermeld, begint het proces voor het bepalen van de haalbaarheid met het vereiste aantal voltooide interviews en werkt dan terug om het benodigde aantal uitnodigingen te berekenen. Laten we zeggen dat we een onderzoek uitvoeren waarvoor in totaal 1000 interviews nodig zijn. De eerste stap is het schatten van het aantal afbrekingen tijdens het hoofdinterview (ook wel “drop outs”, “partials” of “abandonments” genoemd).

Dus wat is een redelijke aanname voor het percentage afbrekingen? Het hangt vooral af van de enquête zelf. Als de vragenlijst lang is, zich herhaalt of over een onderwerp gaat dat niet al te relevant is voor de respondenten, kunnen meer afbrekingen worden verwacht. Maar ook technologie speelt een belangrijke rol. Als de enquête gebaseerd is op verouderde technologie (bv. Flash) of niet mobielvriendelijk is (bv. responsive), kunnen gebruikers moeite hebben om de enquête in te vullen. Onze ervaren projectmanagers helpen je graag je vragenlijst te optimaliseren om het aantal afbrekingen zo laag mogelijk te houden!

Laten we uitgaan van een uitvalpercentage van 2% in ons voorbeeld, dat betekent dat we 1.020 respondenten nodig hebben voor het hoofdinterview.

Quota mislukt

De volgende stap is het inschatten van de hoeveelheid quota die niet gehaald worden, wat vaak de meest uitdagende taak is en een ervaren projectmanager vereist.

Quota definities kunnen vrij complex zijn. Ze kunnen tal van variabelen bevatten, ze kunnen al dan niet in elkaar grijpen en soms worden respondenten er zelfs toevallig aan toegewezen (denk aan monadische tests). In theorie zouden de beschikbare variabelen van de profielen van onze panelleden ons moeten helpen om alleen de juiste deelnemers uit te nodigen en te voorkomen dat quota mislukken. In de praktijk is dit echter niet altijd mogelijk. We hebben niet altijd toegang tot alle vereiste profielen en als de veldperiode te kort is, hebben we misschien niet de kans om geleidelijk en nauwgezet aan de verschillende quota’s te voldoen.

Samenvattend zijn quotafouten in de meeste gevallen bijna onvermijdelijk. De mate waarin hangt sterk af van de specificaties van het onderzoek (d.w.z. quotaplan, veldperiode), maar ook van de ervaring van de projectmanager. Het kan een grote uitdaging zijn om alle offertes binnen de tijd te halen en tegelijkertijd het panel te behouden.

Laten we aannemen dat in ons voorbeeld 20% van de quota mislukt, dus hebben we 1.276 gescreende respondenten nodig, inclusief de afvallers.

Screen outs

Het schatten van het aantal screen outs is relatief eenvoudig, omdat de incidentie meestal deel uitmaakt van het voorstel. Deze incidentie zou idealiter gelijk moeten zijn aan het aandeel respondenten dat door de screener komt en is meestal onafhankelijk van andere factoren.

Laten we voor ons voorbeeld uitgaan van een incidentiepercentage van 50%, dan hebben we een vereiste hoeveelheid van 2.552 starters.

Respons rate

De laatste stap in onze berekening is een antwoord op de vraag hoeveel leden we moeten uitnodigen om 2.552 starters te krijgen. De respons is enigszins afhankelijk van externe factoren (zoals dag, weekdag, weer, vakantieseizoen, enz.). Daarnaast speelt ook de kwaliteit van het panel een rol en, last but not least, de parameters van het onderzoek zelf: als de enquête geschikt is voor mobiele apparaten, kunnen we de uitnodiging naar onze panel-app pushen en zo de respons verhogen.

Als we zeggen dat het 45% is voor ons voorbeeld, dan zouden we een totale steekproefgrootte van 5.669 nodig hebben. Dat is de minimale hoeveelheid die nodig is om te voldoen aan de specificaties van deze voorbeeldige studie. Maar zoals je in ons panelboek kunt zien, is zelfs ons kleinste online panel groot genoeg om dit soort onderzoek uit te voeren.

Hoe goed is goed genoeg?

En dit brengt ons bij een zeer belangrijke bedrijfsvraag: Hoe goed is goed genoeg? Er is zeker geen algemeen antwoord op, maar we willen graag drie scenario’s bespreken om mogelijke manieren om erover na te denken te illustreren:

Concepttest: Laten we aannemen dat een bedrijf twee alternatieven heeft voor een reclamecampagne. Maar welke werkt beter? Je zou gewoon de winnaar moeten aanwijzen en ermee doorgaan! Ervan uitgaande dat de uitkomst niet te krap is, kunnen ongeveer 500 interviews voldoende zijn (wat overeenkomt met een marge van 4,3% op een niveau van 95% – dus de beste optie moet leiden met ten minste 9%).
Verkiezingsonderzoek: Bij het voorspellen van de populariteit van politieke partijen bij verkiezingen ben je waarschijnlijk geïnteresseerd in meer dan individuele ratings. Je zult je afvragen welke partijen een coalitie kunnen vormen om een meerderheid te behalen. Als je twee partijen hebt met elk een foutmarge van 3%, wordt het vrij moeilijk om te voorspellen, vooral als de uitslag naar verwachting krap zal zijn. In dit geval moet je de steekproefgrootte vergroten om de foutmarge te verkleinen.
Subgroepen: Heel vaak wil je naast algemene statistieken ook subgroepen van je steekproef analyseren: Wie zijn deze heavy users precies? Waarin verschillen mannen van vrouwen? Wat voor soort producten geven de voorkeur aan lezers van een bepaald tijdschrift? Als je slechts een kleinere subset van je hoofdsteekproef gebruikt, zal het beschikbare aantal interviews voor je latere analyse ook kleiner zijn. In dit geval moet je ook met een grotere steekproefgrootte werken.

Uiteindelijk is het de kunst om genoeg interviews te hebben waarmee je betrouwbare conclusies kunt trekken en toch redelijk om te gaan met de totale kosten van het veldwerk.

Samenvatting

Dus hoeveel interviews worden aanbevolen om representatieve resultaten te verkrijgen? Deze vraag kan eenvoudigweg niet worden beantwoord. Je kunt kleine steekproeven hebben die zeer representatief zijn en grote steekproeven die helemaal niet representatief zijn (heel vaak: “Big Data”).

Representativiteit gaat over de juiste samenstelling van je steekproef. Het geeft aan of je steekproef je het juiste beeld geeft van de werkelijkheid. Als het een beetje wazig is, kun je nog steeds het grote geheel goed zien.
De grootte van een steekproef bepaalt hoe duidelijk je kunt zien. Als je steekproef niet representatief is, zal een grote omvang je in staat stellen om heel duidelijk te zien – maar het zal een vals beeld zijn, een verkeerde voorstelling van de waarheid.

English

Dansk

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska