Hvilken utvalgsstørrelse er representativ?

Hva gjør et utvalg representativt?

La oss starte med en historie som faktisk har blitt den grunnleggende myten om markedsundersøkelser. For et århundre siden begynte det amerikanske tidsskriftet The Literary Digest å gjennomføre meningsmålinger blant sine ti millioner lesere for å forutsi resultatene av presidentvalget. I fem påfølgende valg var spådommene deres helt riktige inntil de mislyktes massivt i 1936, selv om de gjennomførte rundt 2,4 millioner intervjuer blant leserne. Til deres overraskelse var George Gallup i stand til å forutsi resultatet av dette valget riktig med “bare” 50 000 intervjuer.

Så hva skjedde? The Literary Digests utvalg mislyktes, fordi leserne deres ikke var representative for befolkningen generelt. De hadde en annen aldersstruktur, en annen gjennomsnittsinntekt – og tilsynelatende forskjellige politiske preferanser. Tvert imot, forsto Gallup, at representativitet ikke så mye handler om utvalgets størrelse, men avhengig av riktig sammensetning av utvalget. Han brukte ganske enkelt kvoter for å sikre at hver gruppe mennesker var riktig representert i utvalget hans. Denne banebrytende oppdagelsen var utgangspunktet for markeds- og meningsforskning slik vi kjenner den i dag.

For representativitet er det ikke størrelsen som betyr noe, men riktig komposisjon . Men er det plausibelt? På 1960-tallet ga AC Nielsen Jr. et interessant svar til de som mente at en høyere utvalgsstørrelse ville øke representativiteten.

“Hvis du ikke tror på stikkprøver, neste gang du tar en blodprøve, si til legen om å ta alt.” – AC Nielsen Jr.

Til tross for sin ubestridelige sarkasme, gir dette sitatet oss en veldig forståelig analogi. Det spiller ingen rolle om du analyserer en dråpe blod eller om du tar en hel liter av den: analysefunnene vil alltid være de samme. En dråpe blod representerer det hele perfekt.

Hvorfor har prøvestørrelsen betydning?

Det er klart at prøvestørrelsen fortsatt er viktig. Men hvorfor betyr det egentlig noe? Når du har et representativt utvalg for en populasjon, kan noen av målvariablene ved en tilfeldighet være over- eller underrepresentert i utvalget ditt. Dessverre betyr “ved en tilfeldighet” at det egentlig ikke er noe du kan gjøre med det når du samler inn data.

Statistiske beregninger kan i det minste hjelpe deg med å estimere sannsynligheten for at feilen din er innenfor en viss margin, for eksempel at slike avvik fra den reelle verdien er mindre enn x % ved et konfidensnivå på 95 %.

For opinionsforskere er et konfidensnivå på 95 % det vanligste alternativet. Her er risikoen din mindre enn 5 % for at den reelle verdien er utenfor den tilsvarende feilmarginen. I andre fagområder kan imidlertid et konfidensnivå på 99 % være standarden (f.eks. i farmasøytisk industri, da statistiske feil kan være et spørsmål om liv og død).
Gitt konfidensnivået kan du beregne feilmarginen for hver verdi av en fordeling. La oss si at undersøkelsesresultatet ditt gir deg en markedsandel på 50 % og den tilsvarende feilmarginen er 3 % (på et 95 %-nivå), da er risikoen din mindre enn 5 % for at den reelle markedsandelen er lavere enn 47 % eller høyere enn 53 %.

Hvis du vil redusere feilmarginen (gitt et visst konfidensnivå), har du i utgangspunktet bare ett valg: du må øke utvalgsstørrelsen.

Hvordan bestemmer du prøvestørrelsen din?

For å bestemme prøvestørrelsen din, er det ofte nødvendig å starte fra slutten og jobbe oss bakover til begynnelsen. Men for klarhetens skyld vil vi kort lede deg gjennom intervjuprosessen i riktig rekkefølge og forklare de endelige statusene en respondent kan få.

De endelige statusene en respondent kan få fra invitasjon til ikke-svar, å sile ut, til kvotefeil, å bryte av, å fullføre

Det hele starter med å sende invitasjoner til panelmedlemmene våre. Av alle de inviterte vil bare en del faktisk klikke på lenken og starte undersøkelsen. Det er det vi beskriver med svarprosenten (prosentandelen av svar i forhold til totalt antall invitasjoner til å delta). Videre har vi i starten av en spørreundersøkelse typisk noen screeningsspørsmål for å identifisere ønsket målgruppe. Prosentandelen av kvalifiserte respondenter på dette stadiet gjenspeiles i insidensraten (prosentandelen av individer i en målpopulasjon som oppfyller et spesifikt kriterium som kreves for en studie). Etter at vi har forsikret oss om at vi har den rette målgruppen, vurderer vi mulige kvoter og avslutter intervjuet for de respondentene som allerede har fylt kvotene sine. Kvoter vurderes vanligvis etter screeningen for å sikre at vi kan måle riktig forekomst uten forstyrrelser fra kvoter. Hvis respondentene passer inn i en åpen kvote, kan de delta i hovedundersøkelsen. Ikke desto mindre kan noen bryte av under intervjuet og aldri når sluttsiden. Til slutt vil de som når slutten av undersøkelsen bli regnet som gjennomførte intervjuer.

Avbrudd

Som nevnt tidligere, begynner prosessen med å bestemme gjennomførbarheten med det nødvendige antallet gjennomførte intervjuer og involverer deretter å jobbe baklengs for å beregne nødvendig antall invitasjoner. Så la oss si at vi gjennomfører en studie som krever totalt 1000 intervjuer. Det første trinnet er å estimere mengden av pauser under hovedintervjuet (også referert til som “frafall”, “delvis” eller “avbrudd”).

Så, hva er en rimelig antakelse for bruddfrekvensen? Det avhenger hovedsakelig av selve undersøkelsen. Dersom spørreskjemaet er langt, repeterende eller om et tema som ikke er for relevant for respondentene, kan det forventes flere pauser. Men også teknologi spiller en viktig rolle. Hvis undersøkelsen er avhengig av utdatert teknologi (f.eks. Flash) eller ikke er mobilvennlig (f.eks. responsiv), kan brukerne ha vanskelig for å fullføre undersøkelsen. Våre erfarne prosjektledere hjelper deg gjerne med å optimalisere spørreskjemaet ditt for å holde antallet pauser så lavt som mulig!

La oss nå anta en frafallsrate på 2 % i vårt eksempel, det betyr at vi trenger 1 020 respondenter som starter hovedintervjuet.

Kvoten mislykkes

Det neste trinnet innebærer å estimere mengden kvotesvikt, som ofte er den mest utfordrende oppgaven og krever en erfaren prosjektleder.

Kvotedefinisjoner kan være ganske komplekse. De kan inkludere mange variabler, de kan være sammenlåsende eller ikke-låsende, og noen ganger blir respondentene til og med tildelt dem ved en tilfeldighet (tenk på monadiske tester). I teorien skulle de tilgjengelige variablene for panelmedlemmenes profiler hjelpe oss med å invitere bare de riktige deltakerne og unngå kvotesvikt. Dette er imidlertid ikke alltid mulig i praksis. Vi har kanskje ikke alltid tilgang til alle de nødvendige profilene, og hvis feltperioden er for kort, har vi kanskje ikke mulighet til å oppfylle de ulike kvotene gradvis og omhyggelig.

Oppsummert er kvotesvikt nesten uunngåelig i de fleste tilfeller. Omfanget avhenger mye av studiens spesifikasjoner (dvs. kvoteplan, feltperiode), men også av prosjektlederens erfaring. Å lykkes med å møte alle sitater innenfor tidsrammen og samtidig opprettholde panelet kan utgjøre en betydelig utfordring, og det skiller erfarne samplere fra uerfarne.

La oss anta at 20 % kvote mislykkes i vårt eksempel, så vi trenger 1276 screenede respondenter, inkludert avbruddene.

Skjerm utganger

Det er relativt enkelt å estimere mengden skjermbilder, siden forekomsten vanligvis er en del av forslaget. Denne insidensraten bør ideelt sett tilsvare andelen respondenter som kommer seg gjennom screeneren og er vanligvis uavhengig av andre faktorer.

La oss anta en insidensrate på 50 % for vårt eksempel, som vil gi oss et nødvendig antall på 2552 startere.

Svarprosent

Det siste trinnet i vår beregning er et svar på spørsmålet om hvor mange medlemmer vi må invitere, for å få 2552 startende. Svarprosenten avhenger litt av eksterne faktorer (som dagtid, ukedag, vær, høytider osv.). I tillegg spiller også kvaliteten på panelet en rolle, og sist, men ikke minst, parametrene for selve studien: hvis undersøkelsen passer for mobile enheter, kan vi sende invitasjonen til panelappen vår og dermed utnytte responsen priser.

Hvis vi sier at det er 45 % for vårt eksempel, trenger vi en total prøvestørrelse på 5 669. Det er minimumsbeløpet som kreves for å oppfylle spesifikasjonene til denne eksemplariske studien. Men som du ser i panelboken vår, er selv vårt minste nettpanel stort nok til å gjennomføre denne typen undersøkelser.

Hvor god er god nok?

Og dette leder oss til et veldig viktig forretningsspørsmål: Hvor bra er godt nok? Det er definitivt ikke noe generelt svar på det, men vi vil gjerne diskutere tre scenarier for å illustrere mulige måter å tenke på det på:

Konsepttest: La oss anta at en bedrift har to alternativer for en annonsekampanje. Men hvilken fungerer best? Du trenger bare å identifisere vinneren og gå med den! Forutsatt at resultatet ikke blir for stramt, kan ca. 500 intervjuer være tilstrekkelig (som tilsvarer en margin på 4,3 % på 95 % nivå – så det beste alternativet bør lede med minst 9 %).
Valgundersøkelser: Når du forutsier populariteten til politiske partier ved valg, er du sannsynligvis interessert i mer enn individuelle rangeringer. Du vil lure på hvilke partier som kan danne en koalisjon for å få flertall. Hvis du har to parter med 3 % feilmargin hver, vil det bli ganske vanskelig å forutsi det, spesielt hvis utfallet forventes å være stramt. I dette tilfellet bør du øke prøvestørrelsen for å redusere feilmarginen.
Undergrupper: I tillegg til generell statistikk vil du ofte analysere undergrupper av utvalget ditt: Hvem er disse tunge brukerne nøyaktig? Hvordan skiller menn seg fra kvinner? Hva slags produkter foretrekker lesere av et bestemt magasin? Hvis du bare bruker en mindre delmengde av hovedutvalget ditt, vil det tilgjengelige antallet intervjuer for den påfølgende analysen også reduseres. I dette tilfellet bør du også jobbe med en økt prøvestørrelse.

På slutten av dagen består kunsten i å ha nok intervjuer som lar deg trekke pålitelige konklusjoner og fortsatt være rimelig med de totale kostnadene ved feltarbeid.

Sammendrag

Så hvor mange intervjuer anbefales for å få representative resultater? Dette spørsmålet kan rett og slett ikke besvares. Du kan ha små utvalg som er veldig representative og store utvalg som ikke er representative i det hele tatt (veldig ofte: “Big Data”).

Representativitet handler om riktig sammensetning av prøven din. Den indikerer om prøven gir deg det riktige bildet av virkeligheten. Hvis det er litt uskarpt, vil det fortsatt tillate deg å få det store bildet riktig.
Størrelsen på en prøve definerer hvor tydelig du kan se. Hvis utvalget ditt ikke er representativt, vil en stor størrelse gjøre det mulig for deg å se veldig tydelig – men det vil være et falskt bilde, en feilaktig fremstilling av sannheten.

English

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Polski

Svenska