Jaka wielkość próby jest reprezentatywna?

Co sprawia, że próbka jest reprezentatywna?

Zacznijmy od historii, która stała się mitem założycielskim badań rynkowych. Sto lat temu amerykańskie czasopismo The Literary Digest zaczęło przeprowadzać sondaże wśród swoich dziesięciu milionów czytelników, aby przewidzieć wyniki wyborów prezydenckich. W pięciu kolejnych wyborach ich przewidywania były absolutnie trafne, aż do masowej porażki w 1936 roku, mimo że przeprowadzili około 2,4 miliona wywiadów wśród swoich czytelników. Ku ich zaskoczeniu, George Gallup był w stanie poprawnie przewidzieć wynik tych wyborów przy “zaledwie” 50 000 wywiadów.

Co się stało? Próba Literary Digest nie powiodła się, ponieważ ich czytelnicy nie byli reprezentatywni dla ogółu populacji. Mieli inną strukturę wiekową, inny średni dochód – i najwyraźniej inne preferencje polityczne. Wręcz przeciwnie, Gallup zrozumiał, że reprezentatywność zależy nie tyle od wielkości próby, co od jej właściwego składu. Po prostu użył kwot, aby upewnić się, że każda grupa ludzi była prawidłowo reprezentowana w jego próbie. To przełomowe odkrycie było punktem wyjścia dla badań rynku i opinii, jakie znamy dzisiaj.

Dla reprezentatywności nie liczy się rozmiar, ale odpowiednia kompozycja. Ale czy jest to prawdopodobne? W latach 60. ubiegłego wieku A.C. Nielsen Jr. udzielił interesującej odpowiedzi tym, którzy wierzyli, że większy rozmiar próby zwiększy jej reprezentatywność.

“Jeśli nie wierzysz w losowe pobieranie próbek, następnym razem, gdy będziesz miał badanie krwi, powiedz lekarzowi, żeby pobrał całą próbkę”. – A.C. Nielsen Jr.

Pomimo niezaprzeczalnego sarkazmu, cytat ten dostarcza nam bardzo zrozumiałej analogii. Nie ma znaczenia, czy analizowana jest kropla krwi, czy cały jej litr: wyniki analizy zawsze będą takie same. Jedna kropla krwi doskonale reprezentuje to wszystko.

Dlaczego wielkość próby ma znaczenie?

Oczywiście wielkość próby jest nadal ważna. Ale dlaczego dokładnie ma to znaczenie? Za każdym razem, gdy masz reprezentatywną próbę dla populacji, przypadkowo niektóre zmienne docelowe mogą być nadreprezentowane lub niedoreprezentowane w próbie. Niestety, “przypadek” oznacza, że tak naprawdę nic nie można na to poradzić podczas zbierania danych.

Przynajmniej obliczenia statystyczne mogą pomóc oszacować prawdopodobieństwo, że błąd mieści się w pewnym marginesie, np. że takie odchylenia od rzeczywistej wartości są mniejsze niż x% przy poziomie ufności 95%.

Dla badaczy opinii publicznej poziom ufności 95% jest najbardziej powszechną opcją. W tym przypadku ryzyko jest mniejsze niż 5%, że rzeczywista wartość jest poza odpowiednim marginesem błędu. Jednak w innych dyscyplinach poziom ufności 99% może być standardem (np. w przemyśle farmaceutycznym, ponieważ błędy statystyczne mogą być kwestią życia i śmierci).
Biorąc pod uwagę poziom ufności, można obliczyć margines błędu dla każdej wartości rozkładu. Załóżmy, że wynik ankiety daje udział w rynku na poziomie 50%, a odpowiadający mu margines błędu wynosi 3% (na poziomie 95%), wówczas ryzyko jest mniejsze niż 5%, że rzeczywisty udział w rynku jest niższy niż 47% lub wyższy niż 53%.

Jeśli chcesz zmniejszyć margines błędu (przy określonym poziomie ufności), masz w zasadzie tylko jeden wybór: musisz zwiększyć wielkość próby.

Jak określić wielkość próby?

Aby określić wielkość próby, często konieczne jest rozpoczęcie od końca i cofnięcie się do początku. Jednak dla jasności przeprowadzimy Cię przez proces rozmowy kwalifikacyjnej w odpowiedniej kolejności i wyjaśnimy ostateczne statusy, jakie może uzyskać respondent.

Ostateczne statusy, które respondent może uzyskać od zaproszenia do braku odpowiedzi, do odrzucenia, do braku limitu, do przerwania, do ukończenia

Wszystko zaczyna się od wysłania zaproszeń do członków panelu. Spośród wszystkich zaproszonych, tylko część faktycznie kliknie w link i rozpocznie ankietę. To właśnie opisujemy za pomocą wskaźnika odpowiedzi (procent odpowiedzi w stosunku do całkowitej liczby zaproszeń do udziału). Co więcej, na początku ankiety zazwyczaj zadajemy kilka pytań przesiewowych, aby zidentyfikować pożądaną grupę docelową. Odsetek kwalifikujących się respondentów na tym etapie jest odzwierciedlony we wskaźniku częstości (odsetek osób w populacji docelowej, które spełniają określone kryteria wymagane do badania). Po upewnieniu się, że mamy odpowiednią grupę docelową, ocenimy możliwe limity i zakończymy wywiad z tymi respondentami, których limity zostały już wypełnione. Kwoty są zwykle oceniane po selektorze, aby upewnić się, że możemy zmierzyć właściwy wskaźnik zachorowalności bez ingerencji kwot. Jeśli respondenci mieszczą się w otwartym limicie, mogą wziąć udział w głównej ankiecie. Niemniej jednak, niektórzy mogą przerwać w trakcie rozmowy i nigdy nie dotrzeć do strony końcowej. Wreszcie, ci, którzy dotrą do końca ankiety, zostaną policzeni jako ukończone wywiady.

Przerwane ankiety

Jak wspomniano wcześniej, proces określania wykonalności rozpoczyna się od wymaganej liczby ukończonych wywiadów, a następnie obejmuje pracę wstecz w celu obliczenia niezbędnej liczby zaproszeń. Załóżmy więc, że przeprowadzamy badanie wymagające łącznie 1000 wywiadów. Pierwszym krokiem jest oszacowanie liczby przerwanych w trakcie wywiadów (określanych również jako “drop outs”, “partials” lub “abandonments”).

Jakie jest zatem rozsądne założenie dotyczące wskaźnika przerwanych wywiadów? Zależy to głównie od samej ankiety. Jeśli kwestionariusz jest długi, powtarzalny lub dotyczy tematu, który nie jest zbyt istotny dla respondentów, można spodziewać się większej liczby przerwanych ankiet. Ważną rolę odgrywa również technologia. Jeśli ankieta opiera się na przestarzałej technologii (np. Flash) lub nie jest przyjazna dla urządzeń mobilnych (np. responsywna), użytkownicy mogą mieć trudności z jej wypełnieniem. Nasi doświadczeni kierownicy projektów z przyjemnością pomogą zoptymalizować kwestionariusz, aby ograniczyć liczbę przerwanych ankiet do minimum!

Załóżmy teraz, że w naszym przykładzie wskaźnik rezygnacji wynosi 2%, co oznacza, że będziemy potrzebować 1020 respondentów rozpoczynających główny wywiad.

Niepowodzenie w kwotowaniu

Kolejnym krokiem jest oszacowanie liczby niepowodzeń w kwotach, co często jest najtrudniejszym zadaniem i wymaga doświadczonego kierownika projektu.

Definicje kwot mogą być dość złożone. Mogą one obejmować wiele zmiennych, mogą być ze sobą powiązane lub niepowiązane, a czasami respondenci są nawet przypisywani do nich przypadkowo (pomyśl o testach monadycznych). Teoretycznie, dostępne zmienne w profilach członków naszego panelu powinny pomóc nam zaprosić tylko odpowiednich uczestników i uniknąć niepowodzeń związanych z kwotami. Jednak w praktyce nie zawsze jest to możliwe. Nie zawsze możemy mieć dostęp do wszystkich wymaganych profili, a jeśli okres trwania badania jest zbyt krótki, możemy nie mieć możliwości stopniowego i skrupulatnego spełniania różnych kwot.

Podsumowując, braki w kwotach są prawie nieuniknione w większości przypadków. Ich zakres zależy w dużej mierze od specyfikacji badania (tj. planu kwotowego, okresu badania), ale także od doświadczenia kierownika projektu. Pomyślne spełnienie wszystkich wymagań w ramach czasowych przy jednoczesnym utrzymaniu panelu może stanowić poważne wyzwanie i odróżnia doświadczonych samplerów od tych niedoświadczonych.

Załóżmy, że w naszym przykładzie 20% kwoty nie powiedzie się, więc będziemy potrzebować 1276 przebadanych respondentów, wliczając w to osoby, które przerwały badanie.

Odsiewanie

Oszacowanie ilości odsianych ankiet jest stosunkowo łatwe, ponieważ wskaźnik częstości jest zwykle częścią wniosku. Wskaźnik częstości powinien być idealnie równy odsetkowi respondentów, którzy przeszli przez filtr i jest zazwyczaj niezależny od jakichkolwiek innych czynników.

Przyjmijmy wskaźnik częstości na poziomie 50% dla naszego przykładu, co da nam wymaganą kwotę 2 552 starterów.

Wskaźnik odpowiedzi

Ostatnim krokiem w naszych obliczeniach jest odpowiedź na pytanie, ilu członków będziemy musieli zaprosić, aby uzyskać 2552 starterów. Wskaźnik odpowiedzi w niewielkim stopniu zależy od czynników zewnętrznych (takich jak pora dnia, dzień tygodnia, pogoda, sezon wakacyjny itp.) Ponadto, ważną rolę odgrywa również jakość panelu, a także, co nie mniej ważne, parametry samego badania: jeśli ankieta jest odpowiednia dla urządzeń mobilnych, możemy wysłać zaproszenie do naszej aplikacji panelowej, a tym samym zwiększyć wskaźniki odpowiedzi.

Jeśli powiemy, że w naszym przykładzie jest to 45%, będziemy potrzebować próby o łącznej wielkości 5 669. To minimalna kwota wymagana do spełnienia specyfikacji tego przykładowego badania. Ale jak widać w naszym panelu, nawet nasz najmniejszy panel online jest wystarczająco duży, aby przeprowadzić tego rodzaju badanie.

Jak dobry jest wystarczająco dobry?

To prowadzi nas do bardzo ważnego pytania biznesowego: Jak dobre jest wystarczająco dobre? Zdecydowanie nie ma na to ogólnej odpowiedzi, ale chcielibyśmy omówić trzy scenariusze, aby zilustrować możliwe sposoby myślenia o tym:

Test koncepcji: Załóżmy, że firma ma dwie alternatywy dla kampanii reklamowej. Ale który z nich działa lepiej? Wystarczy wskazać zwycięzcę i podążać za nim! Zakładając, że wynik nie będzie zbyt ścisły, wystarczy około 500 wywiadów (co odpowiada marży 4,3% przy poziomie 95% – zatem najlepsza opcja powinna prowadzić z co najmniej 9%).
Badania wyborcze: Prognozując popularność partii politycznych podczas wyborów, prawdopodobnie interesuje Cię coś więcej niż indywidualne oceny. Zastanawiasz się, które partie mogłyby utworzyć koalicję, aby uzyskać większość. Jeśli masz dwie partie z 3% marginesem błędu każda, będzie to dość trudne do przewidzenia, zwłaszcza jeśli oczekuje się, że wynik będzie napięty. W takim przypadku należy zwiększyć wielkość próby, aby zmniejszyć margines błędu.
Podgrupy: Bardzo często, oprócz ogólnych statystyk, chcesz przeanalizować podgrupy swojej próby: Kim dokładnie są ci heavy userzy? Czym mężczyźni różnią się od kobiet? Jakie produkty preferują czytelnicy danego magazynu? Jeśli użyjesz tylko mniejszego podzbioru głównej próby, dostępna liczba wywiadów do późniejszej analizy również zostanie zmniejszona. W tym przypadku należy również pracować ze zwiększoną wielkością próby.

W ostatecznym rozrachunku sztuka polega na przeprowadzeniu wystarczającej liczby wywiadów, które pozwolą na wyciągnięcie wiarygodnych wniosków, przy jednoczesnym zachowaniu rozsądnych ogólnych kosztów pracy w trakcie okresu badania.

Podsumowanie

Ile wywiadów jest zalecanych, aby uzyskać reprezentatywne wyniki? Na to pytanie po prostu nie można odpowiedzieć. Możesz mieć małe próbki, które są bardzo reprezentatywne i duże próbki, które w ogóle nie są reprezentatywne (bardzo często: “Big Data”).

Reprezentatywność dotyczy właściwego składu próbki. Wskazuje, czy próbka daje właściwy obraz rzeczywistości. Jeśli jest nieco rozmazany, nadal pozwoli ci poprawnie uzyskać poprawny obraz.
Rozmiar próbki określa, jak wyraźny jest obraz. Jeśli próbka nie jest reprezentatywna, duży rozmiar pozwoli ci zobaczyć bardzo wyraźnie wnioski – ale będzie to fałszywy obraz, przeinaczenie prawdy.

English

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Svenska