In diesem Beitrag möchten wir einige der am häufigsten gestellten Fragen zu Stichproben und zur Durchführbarkeit von Projekten erörtern: Welche Stichprobengröße ist repräsentativ? Wie viele Interviews werden empfohlen, um repräsentative Ergebnisse zu erhalten? Sind die Panels groß genug, um den erforderlichen Stichprobenumfang abzudecken?
Beginnen wir mit einer Geschichte, die tatsächlich zum Gründungsmythos der Marktforschung geworden ist. Vor einem Jahrhundert begann die amerikanische Zeitschrift The Literary Digest, Meinungsumfragen unter ihren zehn Millionen Lesern durchzuführen, um die Ergebnisse der Präsidentschaftswahlen vorherzusagen. Bei fünf aufeinanderfolgenden Wahlen lagen sie mit ihren Vorhersagen absolut richtig, bis sie 1936 massiv scheiterten, obwohl sie rund 2,4 Millionen Interviews unter ihren Lesern durchführten. Zu ihrer Überraschung war George Gallup in der Lage, das Ergebnis dieser Wahl mit “nur” 50.000 Interviews richtig vorherzusagen.
Was ist also passiert? Die Stichprobe des Literary Digest ist gescheitert, weil ihre Leser nicht repräsentativ für die allgemeine Bevölkerung waren. Sie hatten eine andere Altersstruktur, ein anderes Durchschnittseinkommen – und offenbar auch andere politische Präferenzen. Im Gegenteil, Gallup hat verstanden, dass die Repräsentativität nicht so sehr von der Stichprobengröße abhängt, sondern von der richtigen Zusammensetzung der Stichprobe. Er verwendete einfach Quoten, um sicherzustellen, dass jede Personengruppe in seiner Stichprobe korrekt vertreten war. Diese bahnbrechende Entdeckung war der Ausgangspunkt für die Markt- und Meinungsforschung, wie wir sie heute kennen.
Für die Repräsentativität kommt es nicht auf die Größe, sondern auf die richtige Zusammensetzung an. Aber ist das plausibel? In den 1960er Jahren gab A.C. Nielsen Jr. denjenigen eine interessante Antwort, die glaubten, dass eine größere Stichprobe ihre Repräsentativität erhöhen würde.
“Wenn Sie nicht an Zufallsstichproben glauben, sagen Sie dem Arzt bei der nächsten Blutuntersuchung, er soll alles nehmen. – A.C. Nielsen Jr.
Trotz seines unbestreitbaren Sarkasmus bietet dieses Zitat eine sehr verständliche Analogie. Es spielt keine Rolle, ob Sie einen Tropfen Blut analysieren oder einen ganzen Liter: Das Ergebnis der Analyse ist immer dasselbe. Ein Blutstropfen steht stellvertretend für alles.
Natürlich ist die Stichprobengröße immer noch wichtig. Aber warum genau ist das wichtig? Immer wenn Sie eine repräsentative Stichprobe für eine Grundgesamtheit haben, können zufällig einige der Zielvariablen in Ihrer Stichprobe über- oder unterrepräsentiert sein. Leider bedeutet “zufällig”, dass man bei der Datenerhebung nichts dagegen tun kann.
Zumindest können Sie mit Hilfe statistischer Berechnungen die Wahrscheinlichkeit abschätzen, dass Ihr Fehler innerhalb einer bestimmten Spanne liegt, z. B. dass die Abweichungen vom tatsächlichen Wert bei einem Konfidenzniveau von 95 % weniger als x % betragen.
Wenn Sie die Fehlermarge (bei einem bestimmten Konfidenzniveau) verringern wollen, haben Sie im Grunde nur eine Möglichkeit: Sie müssen den Stichprobenumfang erhöhen.
Um die Stichprobengröße zu bestimmen, muss man oft vom Ende der Stichprobe ausgehen und sich rückwärts zum Anfang vorarbeiten. Der Klarheit halber werden wir Sie jedoch kurz in der richtigen Reihenfolge durch den Befragungsprozess führen und erklären, welchen Endstatus ein Befragter erhalten kann.
Alles beginnt mit dem Versand von Einladungen an unsere Panelmitglieder. Von allen Eingeladenen wird nur ein Teil tatsächlich auf den Link klicken und die Umfrage starten. Das beschreiben wir mit der Rücklaufquote (der Prozentsatz der Antworten im Verhältnis zur Gesamtzahl der Einladungen zur Teilnahme). Außerdem stellen wir zu Beginn einer Umfrage in der Regel einige Screening-Fragen, um die gewünschte Zielgruppe zu ermitteln. Der Prozentsatz der in Frage kommenden Befragten in dieser Phase spiegelt sich in der Inzidenzrate wider (der Prozentsatz der Personen in einer Zielpopulation, die ein bestimmtes, für eine Studie erforderliches Kriterium erfüllen). Nachdem wir uns vergewissert haben, dass wir die richtige Zielgruppe haben, bewerten wir mögliche Quoten und beenden das Interview für die Befragten, deren Quoten bereits erfüllt sind. Die Quoten werden in der Regel nach dem Screening bewertet, um sicherzustellen, dass wir die richtige Inzidenzrate ohne die Beeinträchtigung durch Quoten messen können. Wenn die Befragten in eine offene Quote passen, können sie an der Haupterhebung teilnehmen. Manche brechen jedoch während des Gesprächs ab und erreichen nie die letzte Seite. Schließlich werden diejenigen, die das Ende der Umfrage erreichen, als abgeschlossene Interviews gezählt.
Wie bereits erwähnt, beginnt der Prozess der Ermittlung der Durchführbarkeit mit der erforderlichen Anzahl der abgeschlossenen Befragungen und umfasst dann eine Rückwärtsbewegung, um die erforderliche Anzahl der Einladungen zu berechnen. Nehmen wir also an, wir führen eine Studie durch, für die insgesamt 1.000 Interviews erforderlich sind. Der erste Schritt ist die Schätzung der Anzahl der Abbrüche während des Hauptinterviews (auch als “drop outs”, “partials” oder “abandonments” bezeichnet).
Was ist also eine vernünftige Annahme für die Abbruchrate? Das hängt vor allem von der Umfrage selbst ab. Wenn der Fragebogen lang ist, sich wiederholt oder ein Thema behandelt, das für die Befragten nicht besonders relevant ist, ist mit mehr Abbrüchen zu rechnen. Aber auch die Technik spielt eine wichtige Rolle. Wenn die Umfrage auf veralteter Technologie beruht (z. B. Flash) oder nicht mobilfreundlich ist (z. B. responsive), kann es für die Nutzer schwierig sein, die Umfrage auszufüllen. Unsere erfahrenen Projektmanager helfen Ihnen gerne bei der Optimierung Ihres Fragebogens, um die Anzahl der Abbrüche so gering wie möglich zu halten!
Gehen wir in unserem Beispiel von einer Abbruchquote von 2 % aus, so benötigen wir 1.020 Befragte für die Hauptbefragung.
Der nächste Schritt besteht darin, die Höhe der fehlgeschlagenen Quoten zu schätzen, was oft die schwierigste Aufgabe ist und einen erfahrenen Projektmanager erfordert.
Quotendefinitionen können recht komplex sein. Sie können zahlreiche Variablen enthalten, sie können ineinandergreifen oder nicht ineinandergreifen, und manchmal werden die Befragten ihnen sogar zufällig zugeordnet (man denke an monadische Tests). Theoretisch sollten uns die verfügbaren Variablen in den Profilen unserer Panelmitglieder dabei helfen, nur die richtigen Teilnehmer einzuladen und Quotenfehler zu vermeiden. In der Praxis ist dies jedoch nicht immer möglich. Es kann sein, dass wir nicht immer Zugang zu allen erforderlichen Profilen haben, und wenn der Feldzeitraum zu kurz ist, haben wir möglicherweise nicht die Möglichkeit, die verschiedenen Quoten schrittweise und sorgfältig zu erfüllen.
Zusammenfassend lässt sich sagen, dass Quotenmisserfolge in den meisten Fällen fast unvermeidlich sind. Ihr Umfang hängt stark von den Vorgaben der Studie (z. B. Quotenplan, Feldzeit), aber auch von der Erfahrung des Projektleiters ab. Die erfolgreiche Erfüllung aller Angebote innerhalb des Zeitrahmens bei gleichzeitiger Beibehaltung des Panels kann eine große Herausforderung darstellen, die erfahrene Probenehmer von unerfahrenen unterscheidet.
Gehen wir davon aus, dass die Quote in unserem Beispiel bei 20 % liegt, so benötigen wir 1.276 kontrollierte Befragte, einschließlich der Abbruchteilnehmer.
Die Schätzung des Umfangs der Ausblendungen ist relativ einfach, da die Inzidenzrate normalerweise Teil des Vorschlags ist. Diese Inzidenzrate sollte idealerweise dem Anteil der Befragten entsprechen, die den Screener durchlaufen, und ist in der Regel unabhängig von anderen Faktoren.
Nehmen wir für unser Beispiel eine Inzidenzrate von 50 % an, so ergibt sich eine erforderliche Anzahl von 2.552 Startern.
Der letzte Schritt in unserer Berechnung ist die Antwort auf die Frage, wie viele Mitglieder wir einladen müssen, um auf 2.552 Starter zu kommen. Die Rücklaufquote hängt geringfügig von externen Faktoren ab (z. B. Tageszeit, Wochentag, Wetter, Ferienzeit usw.). Darüber hinaus spielt auch die Qualität des Panels eine Rolle und nicht zuletzt die Parameter der Studie selbst: Wenn die Umfrage für mobile Geräte geeignet ist, können wir die Einladung auf unsere Panel-App pushen und so die Rücklaufquoten steigern.
Wenn wir für unser Beispiel von 45 % ausgehen, bräuchten wir eine Gesamtstichprobengröße von 5 669. Das ist die Mindestmenge, die erforderlich ist, um die Vorgaben dieser beispielhaften Studie zu erfüllen. Aber wie Sie in unserem Panelbuch sehen werden, ist selbst unser kleinstes Online-Panel groß genug, um diese Art von Studie durchzuführen.
Und das führt uns zu einer sehr wichtigen geschäftlichen Frage: Wie gut ist gut genug? Darauf gibt es definitiv keine allgemeine Antwort, aber wir möchten drei Szenarien erörtern, um mögliche Denkansätze zu veranschaulichen:
Letztendlich besteht die Kunst darin, genügend Interviews zu führen, die verlässliche Schlussfolgerungen zulassen, und dabei die Gesamtkosten der Feldarbeit im Rahmen zu halten.
Wie viele Befragungen werden also empfohlen, um repräsentative Ergebnisse zu erhalten? Diese Frage kann einfach nicht beantwortet werden. Man kann kleine Stichproben haben, die sehr repräsentativ sind, und große Stichproben, die überhaupt nicht repräsentativ sind (sehr häufig: “Big Data”).