Welche Stichprobengröße ist repräsentativ?

Was macht eine Stichprobe repräsentativ?

Beginnen wir mit einer Geschichte, die tatsächlich zum Gründungsmythos der Marktforschung geworden ist. Vor einem Jahrhundert begann die amerikanische Zeitschrift The Literary Digest, Meinungsumfragen unter ihren zehn Millionen Lesern durchzuführen, um die Ergebnisse der Präsidentschaftswahlen vorherzusagen. Bei fünf aufeinanderfolgenden Wahlen lagen sie mit ihren Vorhersagen absolut richtig, bis sie 1936 massiv scheiterten, obwohl sie rund 2,4 Millionen Interviews unter ihren Lesern durchführten. Zu ihrer Überraschung war George Gallup in der Lage, das Ergebnis dieser Wahl mit “nur” 50.000 Interviews richtig vorherzusagen.

Was ist also passiert? Die Stichprobe des Literary Digest ist gescheitert, weil ihre Leser nicht repräsentativ für die allgemeine Bevölkerung waren. Sie hatten eine andere Altersstruktur, ein anderes Durchschnittseinkommen – und offenbar auch andere politische Präferenzen. Im Gegenteil, Gallup hat verstanden, dass die Repräsentativität nicht so sehr von der Stichprobengröße abhängt, sondern von der richtigen Zusammensetzung der Stichprobe. Er verwendete einfach Quoten, um sicherzustellen, dass jede Personengruppe in seiner Stichprobe korrekt vertreten war. Diese bahnbrechende Entdeckung war der Ausgangspunkt für die Markt- und Meinungsforschung, wie wir sie heute kennen.

Für die Repräsentativität kommt es nicht auf die Größe, sondern auf die richtige Zusammensetzung an. Aber ist das plausibel? In den 1960er Jahren gab A.C. Nielsen Jr. denjenigen eine interessante Antwort, die glaubten, dass eine größere Stichprobe ihre Repräsentativität erhöhen würde.

“Wenn Sie nicht an Zufallsstichproben glauben, sagen Sie dem Arzt bei der nächsten Blutuntersuchung, er soll alles nehmen. – A.C. Nielsen Jr.

Trotz seines unbestreitbaren Sarkasmus bietet dieses Zitat eine sehr verständliche Analogie. Es spielt keine Rolle, ob Sie einen Tropfen Blut analysieren oder einen ganzen Liter: Das Ergebnis der Analyse ist immer dasselbe. Ein Blutstropfen steht stellvertretend für alles.

Warum ist der Stichprobenumfang wichtig?

Natürlich ist die Stichprobengröße immer noch wichtig. Aber warum genau ist das wichtig? Immer wenn Sie eine repräsentative Stichprobe für eine Grundgesamtheit haben, können zufällig einige der Zielvariablen in Ihrer Stichprobe über- oder unterrepräsentiert sein. Leider bedeutet “zufällig”, dass man bei der Datenerhebung nichts dagegen tun kann.

Zumindest können Sie mit Hilfe statistischer Berechnungen die Wahrscheinlichkeit abschätzen, dass Ihr Fehler innerhalb einer bestimmten Spanne liegt, z. B. dass die Abweichungen vom tatsächlichen Wert bei einem Konfidenzniveau von 95 % weniger als x % betragen.

Für Meinungsforscher ist ein Konfidenzniveau von 95 % die häufigste Option. Hier liegt Ihr Risiko bei weniger als 5 %, dass der tatsächliche Wert außerhalb der entsprechenden Fehlermarge liegt. In anderen Disziplinen kann jedoch ein Konfidenzniveau von 99 % der Standard sein (z. B. in der pharmazeutischen Industrie, wo statistische Fehler eine Frage von Leben und Tod sein können).
Anhand des Konfidenzniveaus können Sie die Fehlerspanne für jeden Wert einer Verteilung berechnen. Angenommen, das Ergebnis Ihrer Umfrage ergibt einen Marktanteil von 50 % und Ihre entsprechende Fehlermarge beträgt 3 % (bei einem Niveau von 95 %), dann liegt Ihr Risiko bei weniger als 5 %, dass der tatsächliche Marktanteil niedriger als 47 % oder höher als 53 % ist.

Wenn Sie die Fehlermarge (bei einem bestimmten Konfidenzniveau) verringern wollen, haben Sie im Grunde nur eine Möglichkeit: Sie müssen den Stichprobenumfang erhöhen.

Wie wird der Stichprobenumfang festgelegt?

Um die Stichprobengröße zu bestimmen, muss man oft vom Ende der Stichprobe ausgehen und sich rückwärts zum Anfang vorarbeiten. Der Klarheit halber werden wir Sie jedoch kurz in der richtigen Reihenfolge durch den Befragungsprozess führen und erklären, welchen Endstatus ein Befragter erhalten kann.

Die Endstatus, die ein Befragter erreichen kann, reichen von der Einladung über die Nichtbeantwortung, das Herausfiltern, das Nichtbestehen der Quote, den Abbruch bis hin zum Abschluss

Alles beginnt mit dem Versand von Einladungen an unsere Panelmitglieder. Von allen Eingeladenen wird nur ein Teil tatsächlich auf den Link klicken und die Umfrage starten. Das beschreiben wir mit der Rücklaufquote (der Prozentsatz der Antworten im Verhältnis zur Gesamtzahl der Einladungen zur Teilnahme). Außerdem stellen wir zu Beginn einer Umfrage in der Regel einige Screening-Fragen, um die gewünschte Zielgruppe zu ermitteln. Der Prozentsatz der in Frage kommenden Befragten in dieser Phase spiegelt sich in der Inzidenzrate wider (der Prozentsatz der Personen in einer Zielpopulation, die ein bestimmtes, für eine Studie erforderliches Kriterium erfüllen). Nachdem wir uns vergewissert haben, dass wir die richtige Zielgruppe haben, bewerten wir mögliche Quoten und beenden das Interview für die Befragten, deren Quoten bereits erfüllt sind. Die Quoten werden in der Regel nach dem Screening bewertet, um sicherzustellen, dass wir die richtige Inzidenzrate ohne die Beeinträchtigung durch Quoten messen können. Wenn die Befragten in eine offene Quote passen, können sie an der Haupterhebung teilnehmen. Manche brechen jedoch während des Gesprächs ab und erreichen nie die letzte Seite. Schließlich werden diejenigen, die das Ende der Umfrage erreichen, als abgeschlossene Interviews gezählt.

Abbrüche

Wie bereits erwähnt, beginnt der Prozess der Ermittlung der Durchführbarkeit mit der erforderlichen Anzahl der abgeschlossenen Befragungen und umfasst dann eine Rückwärtsbewegung, um die erforderliche Anzahl der Einladungen zu berechnen. Nehmen wir also an, wir führen eine Studie durch, für die insgesamt 1.000 Interviews erforderlich sind. Der erste Schritt ist die Schätzung der Anzahl der Abbrüche während des Hauptinterviews (auch als “drop outs”, “partials” oder “abandonments” bezeichnet).

Was ist also eine vernünftige Annahme für die Abbruchrate? Das hängt vor allem von der Umfrage selbst ab. Wenn der Fragebogen lang ist, sich wiederholt oder ein Thema behandelt, das für die Befragten nicht besonders relevant ist, ist mit mehr Abbrüchen zu rechnen. Aber auch die Technik spielt eine wichtige Rolle. Wenn die Umfrage auf veralteter Technologie beruht (z. B. Flash) oder nicht mobilfreundlich ist (z. B. responsive), kann es für die Nutzer schwierig sein, die Umfrage auszufüllen. Unsere erfahrenen Projektmanager helfen Ihnen gerne bei der Optimierung Ihres Fragebogens, um die Anzahl der Abbrüche so gering wie möglich zu halten!

Gehen wir in unserem Beispiel von einer Abbruchquote von 2 % aus, so benötigen wir 1.020 Befragte für die Hauptbefragung.

Quote scheitert

Der nächste Schritt besteht darin, die Höhe der fehlgeschlagenen Quoten zu schätzen, was oft die schwierigste Aufgabe ist und einen erfahrenen Projektmanager erfordert.

Quotendefinitionen können recht komplex sein. Sie können zahlreiche Variablen enthalten, sie können ineinandergreifen oder nicht ineinandergreifen, und manchmal werden die Befragten ihnen sogar zufällig zugeordnet (man denke an monadische Tests). Theoretisch sollten uns die verfügbaren Variablen in den Profilen unserer Panelmitglieder dabei helfen, nur die richtigen Teilnehmer einzuladen und Quotenfehler zu vermeiden. In der Praxis ist dies jedoch nicht immer möglich. Es kann sein, dass wir nicht immer Zugang zu allen erforderlichen Profilen haben, und wenn der Feldzeitraum zu kurz ist, haben wir möglicherweise nicht die Möglichkeit, die verschiedenen Quoten schrittweise und sorgfältig zu erfüllen.

Zusammenfassend lässt sich sagen, dass Quotenmisserfolge in den meisten Fällen fast unvermeidlich sind. Ihr Umfang hängt stark von den Vorgaben der Studie (z. B. Quotenplan, Feldzeit), aber auch von der Erfahrung des Projektleiters ab. Die erfolgreiche Erfüllung aller Angebote innerhalb des Zeitrahmens bei gleichzeitiger Beibehaltung des Panels kann eine große Herausforderung darstellen, die erfahrene Probenehmer von unerfahrenen unterscheidet.

Gehen wir davon aus, dass die Quote in unserem Beispiel bei 20 % liegt, so benötigen wir 1.276 kontrollierte Befragte, einschließlich der Abbruchteilnehmer.

Bildschirmausschnitte

Die Schätzung des Umfangs der Ausblendungen ist relativ einfach, da die Inzidenzrate normalerweise Teil des Vorschlags ist. Diese Inzidenzrate sollte idealerweise dem Anteil der Befragten entsprechen, die den Screener durchlaufen, und ist in der Regel unabhängig von anderen Faktoren.

Nehmen wir für unser Beispiel eine Inzidenzrate von 50 % an, so ergibt sich eine erforderliche Anzahl von 2.552 Startern.

Antwortquote

Der letzte Schritt in unserer Berechnung ist die Antwort auf die Frage, wie viele Mitglieder wir einladen müssen, um auf 2.552 Starter zu kommen. Die Rücklaufquote hängt geringfügig von externen Faktoren ab (z. B. Tageszeit, Wochentag, Wetter, Ferienzeit usw.). Darüber hinaus spielt auch die Qualität des Panels eine Rolle und nicht zuletzt die Parameter der Studie selbst: Wenn die Umfrage für mobile Geräte geeignet ist, können wir die Einladung auf unsere Panel-App pushen und so die Rücklaufquoten steigern.

Wenn wir für unser Beispiel von 45 % ausgehen, bräuchten wir eine Gesamtstichprobengröße von 5 669. Das ist die Mindestmenge, die erforderlich ist, um die Vorgaben dieser beispielhaften Studie zu erfüllen. Aber wie Sie in unserem Panelbuch sehen werden, ist selbst unser kleinstes Online-Panel groß genug, um diese Art von Studie durchzuführen.

Wie gut ist gut genug?

Und das führt uns zu einer sehr wichtigen geschäftlichen Frage: Wie gut ist gut genug? Darauf gibt es definitiv keine allgemeine Antwort, aber wir möchten drei Szenarien erörtern, um mögliche Denkansätze zu veranschaulichen:

Konzepttest: Nehmen wir an, ein Unternehmen hat zwei Alternativen für eine Werbekampagne. Aber welche funktioniert besser? Sie müssen nur den Gewinner ermitteln und sich ihm anschließen! Unter der Annahme, dass das Ergebnis nicht zu knapp ausfällt, können etwa 500 Interviews ausreichen (was einer Marge von 4,3 % auf einem 95 %-Niveau entspricht – die beste Option sollte also mit mindestens 9 % führen).
Wahlforschung: Wenn Sie die Popularität politischer Parteien bei Wahlen vorhersagen wollen, sind Sie wahrscheinlich an mehr als nur an einzelnen Bewertungen interessiert. Sie werden sich fragen, welche Parteien eine Koalition bilden könnten, um eine Mehrheit zu erlangen. Bei zwei Parteien mit einer Fehlermarge von jeweils 3 % wird es ziemlich schwierig, eine Vorhersage zu treffen, vor allem, wenn das Ergebnis voraussichtlich knapp ausfallen wird. In diesem Fall sollten Sie den Stichprobenumfang erhöhen, um die Fehlermarge zu verringern.
Untergruppen: Sehr oft möchten Sie zusätzlich zu den Gesamtstatistiken auch Untergruppen Ihrer Stichprobe analysieren: Wer sind diese Heavy User genau? Wie unterscheiden sich Männer von Frauen? Welche Art von Produkten bevorzugen die Leser einer bestimmten Zeitschrift? Wenn Sie nur eine kleinere Teilmenge Ihrer Hauptstichprobe verwenden, verringert sich auch die Anzahl der Interviews, die für Ihre spätere Analyse zur Verfügung stehen. In diesem Fall sollten Sie ebenfalls mit einem größeren Stichprobenumfang arbeiten.

Letztendlich besteht die Kunst darin, genügend Interviews zu führen, die verlässliche Schlussfolgerungen zulassen, und dabei die Gesamtkosten der Feldarbeit im Rahmen zu halten.

Zusammenfassung

Wie viele Befragungen werden also empfohlen, um repräsentative Ergebnisse zu erhalten? Diese Frage kann einfach nicht beantwortet werden. Man kann kleine Stichproben haben, die sehr repräsentativ sind, und große Stichproben, die überhaupt nicht repräsentativ sind (sehr häufig: “Big Data”).

Bei der Repräsentativität geht es um die richtige Zusammensetzung der Stichprobe. Sie zeigt an, ob Ihre Stichprobe ein richtiges Bild der Realität vermittelt. Auch wenn es etwas unscharf ist, können Sie das Gesamtbild richtig erfassen.
Die Größe einer Probe bestimmt, wie deutlich man sehen kann. Wenn Ihre Stichprobe nicht repräsentativ ist, können Sie mit einer großen Stichprobe sehr deutlich sehen – aber es wird ein falsches Bild sein, eine falsche Darstellung der Wahrheit.

English

Dansk

Nederlands

Eesti

Suomi

Français

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska