Hvilken stikprøvestørrelse er repræsentativ?

I dette indlæg vil vi gerne diskutere nogle af vores hyppigste spørgsmål vedrørende stikprøver og gennemførlighed for projekter: Hvilken stikprøvestørrelse er repræsentativ? Hvor mange interviews anbefales for at opnå repræsentative resultater? Er panelerne store nok til at dække den nødvendige stikprøvestørrelse?

Hvad gør en stikprøve repræsentativ?

Lad os starte med en historie, som faktisk er blevet den grundlæggende myte inden for markedsundersøgelser. For 100 år siden begyndte det amerikanske tidsskrift The Literary Digest at lave meningsmålinger blandt deres 10 millioner læsere for at forudsige resultatet af præsidentvalget. I fem på hinanden følgende valg ramte deres forudsigelser helt rigtigt, indtil de slog massivt fejl i 1936, selv om de gennemførte omkring 2,4 millioner interviews blandt deres læsere. Til deres overraskelse var George Gallup i stand til at forudsige resultatet af dette valg korrekt med “kun” 50.000 interviews.

Hvad skete der så? Literary Digests stikprøve mislykkedes, fordi deres læsere ikke var repræsentative for den generelle befolkning. De havde en anden aldersstruktur, en anden gennemsnitsindkomst – og tilsyneladende også andre politiske præferencer. Tværtimod forstod Gallup, at repræsentativitet ikke så meget handler om stikprøvens størrelse, men afhænger af den rigtige sammensætning af stikprøven. Han brugte simpelthen kvoter til at sikre, at alle grupper af mennesker var korrekt repræsenteret i hans stikprøve. Denne banebrydende opdagelse var udgangspunktet for markeds- og opinionsundersøgelser, som vi kender dem i dag.

For repræsentativitet er det ikke størrelsen, der betyder noget, men den rigtige sammensætning. Men er det plausibelt? I 1960’erne gav A.C. Nielsen Jr. et interessant svar til dem, der mente, at en større stikprøve ville øge dens repræsentativitet.

“Hvis du ikke tror på tilfældig prøvetagning, så bed lægen om at tage det hele, næste gang du får taget en blodprøve.” – A.C. Nielsen Jr.

På trods af sin ubestridelige sarkasme giver dette citat os en meget forståelig analogi. Det er ligegyldigt, om du analyserer en dråbe blod, eller om du tager en hel liter af det: analyseresultaterne vil altid være de samme. En dråbe blod repræsenterer perfekt det hele.

Hvorfor er stikprøvestørrelsen vigtig?

Det er klart, at stikprøvestørrelsen stadig er vigtig. Men hvorfor er det egentlig vigtigt? Når du har en repræsentativ stikprøve for en population, kan nogle af målvariablerne tilfældigvis være over- eller underrepræsenteret i din stikprøve. Desværre betyder “tilfældigt”, at der ikke er noget, man kan gøre ved det, når man indsamler data.

I det mindste kan statistiske beregninger hjælpe dig med at estimere sandsynligheden for, at din fejl ligger inden for en vis margin, f.eks. at sådanne afvigelser fra den reelle værdi er mindre end x% ved et konfidensniveau på 95%.

  • For opinionsforskere er et konfidensniveau på 95% den mest almindelige mulighed. Her er din risiko mindre end 5% for, at den reelle værdi ligger uden for den tilsvarende fejlmargin. I andre discipliner kan et konfidensniveau på 99% dog være standarden (f.eks. i medicinalindustrien, hvor statistiske fejl kan være et spørgsmål om liv og død).
  • Ud fra konfidensniveauet kan man beregne fejlmarginen for hver værdi i en fordeling. Lad os sige, at dit undersøgelsesresultat giver dig en markedsandel på 50%, og at din tilsvarende fejlmargin er 3% (på et 95%-niveau), så er din risiko mindre end 5% for, at den reelle markedsandel er lavere end 47% eller højere end 53%.

Hvis man ønsker at reducere fejlmarginen (givet et bestemt konfidensniveau), har man stort set kun ét valg: Man er nødt til at øge stikprøvestørrelsen.

Hvordan bestemmer man størrelsen på sin stikprøve?

For at bestemme din stikprøvestørrelse er det ofte nødvendigt at starte fra slutningen og arbejde sig baglæns til begyndelsen. Men for overskuelighedens skyld vil vi kort gennemgå interviewprocessen i den rigtige rækkefølge og forklare de endelige statusser, en respondent kan få.

De endelige statusser, en respondent kan få fra invitation til non-response, til screen out, til quota fail, til break off, til complete

Det hele starter med, at vi sender invitationer til vores panelmedlemmer. Ud af alle de inviterede er det kun en del, der rent faktisk klikker på linket og starter undersøgelsen. Det er det, vi beskriver med svarprocenten (procentdelen af svar i forhold til det samlede antal invitationer til at deltage). Desuden har vi typisk nogle screeningsspørgsmål i begyndelsen af en undersøgelse for at identificere den ønskede målgruppe. Procentdelen af kvalificerede respondenter på dette stadie afspejles i incidensraten (procentdelen af individer i en målpopulation, der opfylder et specifikt kriterium for en undersøgelse). Når vi har sikret os, at vi har den rigtige målgruppe, vil vi vurdere mulige kvoter og afslutte interviewet for de respondenter, hvis kvoter allerede er fyldt. Kvoter vurderes normalt efter screeningen for at sikre, at vi kan måle den rigtige incidensrate uden indblanding af kvoter. Hvis respondenterne passer ind i en åben kvote, kan de deltage i hovedundersøgelsen. Ikke desto mindre kan nogle bryde af under interviewet og aldrig nå slutsiden. Endelig vil de, der når til slutningen af undersøgelsen, blive talt med som gennemførte interviews.

Afbrydelser

Som tidligere nævnt begynder processen med at bestemme gennemførlighed med det krævede antal gennemførte interviews og involverer derefter at arbejde baglæns for at beregne det nødvendige antal invitationer. Så lad os sige, at vi gennemfører en undersøgelse, der kræver i alt 1.000 interviews. Det første trin er at estimere antallet af afbrydelser under hovedinterviewet (også kaldet “drop outs”, “partials” eller “abandonments”).

Så hvad er en rimelig antagelse for afbrudsprocenten? Det afhænger hovedsageligt af selve undersøgelsen. Hvis spørgeskemaet er langt, gentager sig selv eller handler om et emne, der ikke er så relevant for respondenterne, kan man forvente flere afbrud. Men også teknologien spiller en vigtig rolle. Hvis undersøgelsen er baseret på forældet teknologi (f.eks. Flash) eller ikke er mobilvenlig (f.eks. responsiv), kan brugerne have svært ved at gennemføre undersøgelsen. Vores erfarne projektledere hjælper dig gerne med at optimere dit spørgeskema, så antallet af afbrydelser bliver så lavt som muligt!

Lad os antage, at frafaldet er 2 % i vores eksempel, det betyder, at vi skal bruge 1.020 respondenter til at starte hovedinterviewet.

Kvote mislykkes

Det næste skridt er at estimere, hvor mange kvoter der ikke bliver til noget, hvilket ofte er den mest udfordrende opgave og kræver en erfaren projektleder.

Kvotadefinitioner kan være ret komplekse. De kan omfatte adskillige variabler, de kan være sammenkoblede eller ikke sammenkoblede, og nogle gange bliver respondenterne endda tildelt dem ved en tilfældighed (tænk på monadiske tests). I teorien skulle de tilgængelige variabler i vores panelmedlemmers profiler hjælpe os med kun at invitere de rigtige deltagere og undgå kvotefejl. Men det er ikke altid muligt i praksis. Vi har måske ikke altid adgang til alle de nødvendige profiler, og hvis feltperioden er for kort, har vi måske ikke mulighed for gradvist og omhyggeligt at opfylde de forskellige kvoter.

Sammenfattende er kvotefejl næsten uundgåelige i de fleste tilfælde. Deres omfang afhænger meget af undersøgelsens specifikationer (dvs. kvoteplan, feltperiode), men også af projektlederens erfaring. Det kan være en stor udfordring at opfylde alle tilbud inden for tidsrammen og samtidig bevare panelet, og det adskiller erfarne prøvetagere fra uerfarne.

Lad os antage, at 20 % af kvoten mislykkes i vores eksempel, så vi har brug for 1.276 screenede respondenter, inklusive de frafaldne.

Skærm ud

Det er relativt nemt at estimere mængden af screen outs, da incidensraten normalt er en del af forslaget. Denne incidensrate bør ideelt set svare til andelen af respondenter, der kommer igennem screeningen, og er typisk uafhængig af andre faktorer.

Lad os antage en incidensrate på 50% i vores eksempel, det vil give os et påkrævet beløb på 2.552 startere.

Svarprocent

Det sidste trin i vores beregning er et svar på spørgsmålet om, hvor mange medlemmer vi skal invitere for at få 2.552 startere. Svarprocenten afhænger lidt af eksterne faktorer (såsom dagtimer, ugedage, vejr, feriesæson osv.). Derudover spiller panelets kvalitet også en rolle, og sidst men ikke mindst parametrene for selve undersøgelsen: Hvis undersøgelsen er egnet til mobile enheder, kan vi skubbe invitationen til vores panel-app og derved udnytte svarprocenterne.

Hvis vi siger, at det er 45 % i vores eksempel, skal vi bruge en samlet stikprøvestørrelse på 5.669. Det er den mindste mængde, der kræves for at opfylde specifikationerne i dette eksemplariske studie. Men som du kan se i vores panelbog, er selv vores mindste onlinepanel stort nok til at udføre denne slags undersøgelser.

Hvor godt er godt nok?

Og det fører os til et meget vigtigt forretningsspørgsmål: Hvor godt er godt nok? Der er bestemt ikke noget generelt svar på det, men vi vil gerne diskutere tre scenarier for at illustrere mulige måder at tænke over det på:

  • Test af koncept: Lad os antage, at en virksomhed har to alternativer til en reklamekampagne. Men hvilken fungerer bedst? Du skal bare identificere vinderen og gå videre med det! Hvis man antager, at resultatet ikke er for tæt, kan omkring 500 interviews være tilstrækkeligt (hvilket svarer til en margin på 4,3% på et 95%-niveau – så den bedste løsning bør føre med mindst 9%).
  • Valgforskning: Når man skal forudsige politiske partiers popularitet ved valg, er man sandsynligvis interesseret i mere end individuelle vurderinger. Du vil spekulere på, hvilke partier der kan danne en koalition for at få flertal. Hvis du har to partier med en fejlmargin på 3% hver, bliver det ret svært at forudsige det, især hvis resultatet forventes at blive tæt. I dette tilfælde bør du øge stikprøvestørrelsen for at reducere fejlmarginen.
  • Undergrupper: Ud over de overordnede statistikker ønsker man ofte at analysere undergrupper i sin stikprøve: Hvem er disse heavy users helt præcist? Hvordan adskiller mænd sig fra kvinder? Hvilken slags produkter foretrækker læsere af et bestemt magasin? Hvis du kun bruger en mindre delmængde af din hovedstikprøve, vil det tilgængelige antal interviews til din efterfølgende analyse også blive reduceret. I dette tilfælde bør du også arbejde med en større stikprøvestørrelse.

Når alt kommer til alt, består kunsten i at få nok interviews, så man kan drage pålidelige konklusioner, og stadig være rimelig med de samlede omkostninger ved feltarbejdet.

Resumé

Så hvor mange interviews anbefales for at opnå repræsentative resultater? Dette spørgsmål kan simpelthen ikke besvares. Man kan have små stikprøver, der er meget repræsentative, og store stikprøver, der slet ikke er repræsentative (meget ofte: “Big Data”).

  • Repræsentativitet handler om den rigtige sammensætning af din stikprøve. Det indikerer, om din prøve giver dig det rigtige billede af virkeligheden. Hvis det er en smule sløret, vil det stadig give dig mulighed for at få det store billede korrekt.
  • Størrelsen af en prøve definerer, hvor klart du kan se. Hvis din stikprøve ikke er repræsentativ, vil en stor størrelse gøre det muligt for dig at se meget klart – men det vil være et falsk billede, en misrepræsentation af sandheden.

Skal du indsamle data til et markedsforskningsprojekt?

Vi ser frem til at bidrage positivt til netop jeres projekt.

Kom godt i gang