I dette indlæg vil vi gerne diskutere nogle af vores hyppigste spørgsmål vedrørende stikprøver og gennemførlighed for projekter: Hvilken stikprøvestørrelse er repræsentativ? Hvor mange interviews anbefales for at opnå repræsentative resultater? Er panelerne store nok til at dække den nødvendige stikprøvestørrelse?
Lad os starte med en historie, som faktisk er blevet den grundlæggende myte inden for markedsundersøgelser. For 100 år siden begyndte det amerikanske tidsskrift The Literary Digest at lave meningsmålinger blandt deres 10 millioner læsere for at forudsige resultatet af præsidentvalget. I fem på hinanden følgende valg ramte deres forudsigelser helt rigtigt, indtil de slog massivt fejl i 1936, selv om de gennemførte omkring 2,4 millioner interviews blandt deres læsere. Til deres overraskelse var George Gallup i stand til at forudsige resultatet af dette valg korrekt med “kun” 50.000 interviews.
Hvad skete der så? Literary Digests stikprøve mislykkedes, fordi deres læsere ikke var repræsentative for den generelle befolkning. De havde en anden aldersstruktur, en anden gennemsnitsindkomst – og tilsyneladende også andre politiske præferencer. Tværtimod forstod Gallup, at repræsentativitet ikke så meget handler om stikprøvens størrelse, men afhænger af den rigtige sammensætning af stikprøven. Han brugte simpelthen kvoter til at sikre, at alle grupper af mennesker var korrekt repræsenteret i hans stikprøve. Denne banebrydende opdagelse var udgangspunktet for markeds- og opinionsundersøgelser, som vi kender dem i dag.
For repræsentativitet er det ikke størrelsen, der betyder noget, men den rigtige sammensætning. Men er det plausibelt? I 1960’erne gav A.C. Nielsen Jr. et interessant svar til dem, der mente, at en større stikprøve ville øge dens repræsentativitet.
“Hvis du ikke tror på tilfældig prøvetagning, så bed lægen om at tage det hele, næste gang du får taget en blodprøve.” – A.C. Nielsen Jr.
På trods af sin ubestridelige sarkasme giver dette citat os en meget forståelig analogi. Det er ligegyldigt, om du analyserer en dråbe blod, eller om du tager en hel liter af det: analyseresultaterne vil altid være de samme. En dråbe blod repræsenterer perfekt det hele.
Det er klart, at stikprøvestørrelsen stadig er vigtig. Men hvorfor er det egentlig vigtigt? Når du har en repræsentativ stikprøve for en population, kan nogle af målvariablerne tilfældigvis være over- eller underrepræsenteret i din stikprøve. Desværre betyder “tilfældigt”, at der ikke er noget, man kan gøre ved det, når man indsamler data.
I det mindste kan statistiske beregninger hjælpe dig med at estimere sandsynligheden for, at din fejl ligger inden for en vis margin, f.eks. at sådanne afvigelser fra den reelle værdi er mindre end x% ved et konfidensniveau på 95%.
Hvis man ønsker at reducere fejlmarginen (givet et bestemt konfidensniveau), har man stort set kun ét valg: Man er nødt til at øge stikprøvestørrelsen.
For at bestemme din stikprøvestørrelse er det ofte nødvendigt at starte fra slutningen og arbejde sig baglæns til begyndelsen. Men for overskuelighedens skyld vil vi kort gennemgå interviewprocessen i den rigtige rækkefølge og forklare de endelige statusser, en respondent kan få.
Det hele starter med, at vi sender invitationer til vores panelmedlemmer. Ud af alle de inviterede er det kun en del, der rent faktisk klikker på linket og starter undersøgelsen. Det er det, vi beskriver med svarprocenten (procentdelen af svar i forhold til det samlede antal invitationer til at deltage). Desuden har vi typisk nogle screeningsspørgsmål i begyndelsen af en undersøgelse for at identificere den ønskede målgruppe. Procentdelen af kvalificerede respondenter på dette stadie afspejles i incidensraten (procentdelen af individer i en målpopulation, der opfylder et specifikt kriterium for en undersøgelse). Når vi har sikret os, at vi har den rigtige målgruppe, vurderer vi mulige kvoter og afslutter interviewet for de respondenter, hvis kvoter allerede er opfyldt. Kvoter vurderes normalt efter screeningen for at sikre, at vi kan måle den rigtige incidensrate uden indblanding fra kvoter. Hvis respondenterne passer ind i en åben kvote, kan de deltage i hovedundersøgelsen. Ikke desto mindre kan nogle bryde af under interviewet og aldrig nå slutsiden. Endelig vil de, der når til slutningen af undersøgelsen, blive talt med som gennemførte interviews.
Som tidligere nævnt begynder processen med at bestemme gennemførlighed med det krævede antal gennemførte interviews og involverer derefter at arbejde baglæns for at beregne det nødvendige antal invitationer. Så lad os sige, at vi gennemfører en undersøgelse, der kræver i alt 1.000 interviews. Det første trin er at estimere antallet af afbrydelser under hovedinterviewet (også kaldet “drop outs”, “partials” eller “abandonments”).
Så hvad er en rimelig antagelse for afbrudsprocenten? Det afhænger hovedsageligt af selve undersøgelsen. Hvis spørgeskemaet er langt, gentager sig selv eller handler om et emne, der ikke er så relevant for respondenterne, kan man forvente flere afbrud. Men også teknologien spiller en vigtig rolle. Hvis undersøgelsen er baseret på forældet teknologi (f.eks. Flash) eller ikke er mobilvenlig (f.eks. responsiv), kan brugerne have svært ved at gennemføre undersøgelsen. Vores erfarne projektledere hjælper dig gerne med at optimere dit spørgeskema, så antallet af afbrydelser bliver så lavt som muligt!
Lad os antage, at frafaldet er 2 % i vores eksempel, det betyder, at vi skal bruge 1.020 respondenter til at starte hovedinterviewet.
Det næste skridt er at estimere, hvor mange kvoter der ikke bliver til noget, hvilket ofte er den mest udfordrende opgave og kræver en erfaren projektleder.
Kvotadefinitioner kan være ret komplekse. De kan omfatte adskillige variabler, de kan være sammenkoblede eller ikke sammenkoblede, og nogle gange bliver respondenterne endda tildelt dem ved en tilfældighed (tænk på monadiske tests). I teorien skulle de tilgængelige variabler i vores panelmedlemmers profiler hjælpe os med kun at invitere de rigtige deltagere og undgå kvotefejl. Men det er ikke altid muligt i praksis. Vi har måske ikke altid adgang til alle de nødvendige profiler, og hvis feltperioden er for kort, har vi måske ikke mulighed for gradvist og omhyggeligt at opfylde de forskellige kvoter.
Sammenfattende er kvotefejl næsten uundgåelige i de fleste tilfælde. Deres omfang afhænger meget af undersøgelsens specifikationer (dvs. kvoteplan, feltperiode), men også af projektlederens erfaring. Det kan være en stor udfordring at opfylde alle tilbud inden for tidsrammen og samtidig bevare panelet, og det adskiller erfarne prøvetagere fra uerfarne.
Lad os antage, at 20 % af kvoten mislykkes i vores eksempel, så vi har brug for 1.276 screenede respondenter, inklusive de frafaldne.
Det er relativt nemt at estimere mængden af screen outs, da incidensraten normalt er en del af forslaget. Denne incidensrate bør ideelt set svare til andelen af respondenter, der kommer igennem screeningen, og er typisk uafhængig af andre faktorer.
Lad os antage en incidensrate på 50% i vores eksempel, det vil give os et påkrævet beløb på 2.552 startere.
Det sidste trin i vores beregning er et svar på spørgsmålet om, hvor mange medlemmer vi skal invitere for at få 2.552 startere. Svarprocenten afhænger lidt af eksterne faktorer (såsom dagtimer, ugedage, vejr, feriesæson osv.). Derudover spiller panelets kvalitet også en rolle, og sidst men ikke mindst parametrene for selve undersøgelsen: Hvis undersøgelsen er egnet til mobile enheder, kan vi skubbe invitationen til vores panel-app og derved udnytte svarprocenterne.
Hvis vi siger, at det er 45 % i vores eksempel, skal vi bruge en samlet stikprøvestørrelse på 5.669. Det er den mindste mængde, der kræves for at opfylde specifikationerne i dette eksemplariske studie. Men som du kan se i vores panelbog, er selv vores mindste onlinepanel stort nok til at udføre denne slags undersøgelser.
Og det fører os til et meget vigtigt forretningsspørgsmål: Hvor godt er godt nok? Der er bestemt ikke noget generelt svar på det, men vi vil gerne diskutere tre scenarier for at illustrere mulige måder at tænke over det på:
Når alt kommer til alt, består kunsten i at få nok interviews, så man kan drage pålidelige konklusioner, og stadig være rimelig med de samlede omkostninger ved feltarbejdet.
Så hvor mange interviews anbefales for at opnå repræsentative resultater? Dette spørgsmål kan simpelthen ikke besvares. Man kan have små stikprøver, der er meget repræsentative, og store stikprøver, der slet ikke er repræsentative (meget ofte: “Big Data”).