Wie können uns Algorithmen helfen, die Datenqualität zu verbessern?

Qualität der Algorithmen = Qualität der Daten

Einsicht sollte unser Handeln leiten, indem wir ihm eine Struktur geben. Und die Erkenntnisse folgen der Struktur der zugrunde liegenden Daten. Per Definition sind Strukturen stabil und widerstehen Störungen. Das ist genau der Grund, warum wir an den Wert einer hohen Datenqualität glauben. Wenn Sie stabile Geschäftsroutinen einführen, die auf fehlerhaften Daten oder Erkenntnissen beruhen, wird sich die schlechte Qualität in Ihrem Handeln fortsetzen. Daten haben eine lange Lebensdauer, und ihre Qualität sollte daher als ein Vermögenswert betrachtet werden, der sich auch in Zukunft auszahlt.

Ein sehr gutes Beispiel für die Langlebigkeit von Daten sind Trainingsmuster für Algorithmen. Jede Verzerrung in den Trainingsdaten wird immer wieder reproduziert und möglicherweise durch den Algorithmus noch verstärkt. Wir haben in der Vergangenheit viele erschreckende Beispiele für solche maschinellen Verzerrungen gesehen und fangen gerade erst an, die Auswirkungen zu verstehen (haben Sie übrigens schon einmal darüber nachgedacht, mit einem Datensammler wie Norstat über Trainingsstichproben für Ihre Machine Learning Projekte zu sprechen?)

Wir wollen damit sagen, dass alle Algorithmen selbst eine hohe Qualität aufweisen müssen, wenn sie die Datenqualität verbessern sollen. Umgekehrt kann die Datenqualität noch schlechter werden, wenn die Algorithmen fehlerhaft sind. Und unabhängig davon, wie gut Algorithmen eines Tages funktionieren werden, werden sie uns nur dabei helfen können, den Qualitätsverlust bei der Verarbeitung zu verringern, aber sie werden niemals in der Lage sein, einen schlechten Input in einen hochwertigen Output zu verwandeln.

Dies vorausgeschickt, lassen Sie uns in einige Bereiche eintauchen, in denen solche Algorithmen eines Tages in der Umfrageforschung eingesetzt werden könnten.

Panel-Rekrutierung

Die Rekrutierung für ein Online-Zugangspanel sollte als erste Stufe des Stichprobenverfahrens für Ihr Projekt betrachtet werden. Wenn Sie das Gremium nicht mit den höchsten Standards rekrutieren, werden Sie am Ende eine voreingenommene Quelle für die Erstellung von Projektmustern haben. Es bedarf keiner weiteren Erklärung, dass man keine unverzerrte Stichprobe aus einem verzerrten Panel ziehen kann. Aus diesem Grund sind wir bei der Rekrutierung von Panels so sorgfältig. Aber wie können uns Algorithmen dabei helfen, die Qualität der Rekrutierung zu verbessern?

Um eine Platte in Form zu halten, müssen sehr komplexe Entscheidungen getroffen werden, die Kompromisse zwischen verschiedenen Parametern beinhalten können. Zum Beispiel müssen wir die Zusammensetzung des Panels im Auge behalten und Abmeldungen ersetzen. Gleichzeitig müssen wir die erforderlichen Plattengrößen prognostizieren, um allen Anfragen in naher Zukunft gerecht zu werden. Und wir sind durch das verfügbare Budget und das mögliche Rekrutierungsvolumen innerhalb eines bestimmten Zeitraums eingeschränkt. Wie sollten wir also unsere Ressourcen aufteilen? Algorithmen können uns bei unseren Überlegungen unterstützen, indem sie uns auf die wichtigsten demografischen Merkmale und Rekrutierungskanäle hinweisen, auf die wir uns jetzt konzentrieren sollten, und uns helfen, mit weniger Aufwand ein ausgewogenes Panel aufzubauen.
Sobald sich Personen für das Panel angemeldet haben, muss ihre Identität überprüft werden, denn wir müssen sicherstellen, dass diese Personen die sind, für die sie sich ausgeben. Wenn wir sie per Telefon anwerben, können wir ziemlich sicher sein, dass wir tatsächlich mit einem echten Menschen sprechen. Auch wenn es nicht so einfach ist, wie es am Telefon scheint, ist die Überprüfung der Identität von Online-Nutzern definitiv etwas, das man nicht beim ersten Kontakt abschließen kann. Stattdessen muss es als ein Prozess betrachtet werden, bei dem man immer mehr Vertrauen in die Identität eines Mitglieds gewinnt, nachdem man sichergestellt hat, dass einige grundlegende Anforderungen gleich zu Beginn erfüllt sind. Algorithmen können uns helfen, diesen Prozess zu beschleunigen, indem sie mehr Datenpunkte in eine viel komplexere Analyse einbeziehen. Solche Algorithmen können auch aufdecken, ob zwei verschiedene Personen dieselbe E-Mail-Adresse, denselben Computer oder dasselbe Panel-Konto benutzen.
Die Überprüfung der Benutzer geht Hand in Hand mit der Überprüfung auf Duplikate. Auf einer sehr oberflächlichen Ebene geschieht dies durch den Vergleich persönlich identifizierbarer Informationen verschiedener Mitglieder, wie Namen, E-Mail- oder IP-Adressen. Aber es lohnt sich immer, einen genaueren Blick auf ähnliche Profile, ähnliche Antwortmuster und mögliche Verbindungen zwischen verdächtigen Profilen oder Geräten zu werfen. Da die Suche nach der Nadel im Heu sehr zeitaufwendig und komplex sein kann, kann die Automatisierung die Häufigkeit und den Schwierigkeitsgrad solcher Qualitätsprüfungen erhöhen.

In jüngster Zeit wurde über professionelle Umfragebetriebe berichtet, bei denen falsche Mitglieder in Panels aufgenommen werden, um in großem Umfang Anreize zu erhalten. Dieses Phänomen deckt sich mit unserer Erfahrung, dass Online-Panels immer wieder zur Zielscheibe für Betrüger werden. Wir möchten keine Details preisgeben, aber wir haben automatisierte algorithmische Routinen eingerichtet, die betrügerische Abonnements in unserem Panel verhindern, Anomalien im Verhalten unserer Nutzer aufzeigen und verdächtige Versuche melden, Prämien einzulösen.

Panel-Profilierung

Viele unserer Jurymitglieder sind seit über zehn Jahren dabei, und ihr Leben hat sich in all den Jahren natürlich verändert. Sie werden alle älter geworden sein. Einige haben geheiratet, andere wurden geschieden. Einige haben Kinder bekommen, während die Kinder der anderen die Familie vielleicht schon verlassen haben. Einige wurden befördert, andere gingen in den Ruhestand. Einige zogen in eine neue Wohnung, in manchen Fällen sogar in eine andere Stadt. Sie haben vielleicht neue Autos und neue Haushaltsgeräte gekauft. Sie haben vielleicht ihre Bank, ihre Versicherung und ihren Telefonanbieter gewechselt. Unabhängig davon, was im Leben unserer Panelisten passiert ist, können wir dank aktueller Profilinformationen genauere Stichproben ziehen.

Wir fordern unsere Panelmitglieder bereits auf, alle ihre Profilvariablen regelmäßig zu aktualisieren, so dass hier kein ausgefeilterer Algorithmus erforderlich ist. Bei mehr als 500 Datenpunkten für die meisten unserer Panelisten sind jedoch einige der Informationen möglicherweise immer noch nicht genau, und wir müssen grundsätzlich nach Ausreißern suchen. Während die univariate Methode recht einfach ist (“zeige mir alle Mitglieder, deren Alter höher als 120 Jahre ist”), sind multivariate Ansätze statistisch viel komplexer (“zeige mir alle Mitglieder, deren Kombination verschiedener Variablen ungewöhnlich ist”). Wenn Sie beispielsweise eine 16-jährige Person mit einem Jahreseinkommen von 50.000 Euro haben, liegen Alter und Einkommen wahrscheinlich im Bereich der normalen Werte. Die Kombination wird jedoch ein sichtbarer Ausreißer im Streudiagramm sein. Algorithmen können helfen, diese Ausreißer zu identifizieren und zu kennzeichnen.

Algorithmen können auch bei der Schätzung der Wahrscheinlichkeit bestimmter fehlender Werte helfen. Wenn wir beispielsweise für eine Studie gezielt Panelteilnehmer mit einem hohen Einkommen ansprechen möchten, aber auf eine große Anzahl von Panelteilnehmern stoßen, die diese Profilfrage nicht beantwortet haben, müssen wir ihr Einkommen auf der Grundlage anderer Fragen schätzen. Wir können zum Beispiel diejenigen einladen, die ein Haus besitzen, mehr als ein Auto in ihrem Haushalt haben oder sehr oft reisen. Analog dazu könnte man die Wahrscheinlichkeit jeder anderen fehlenden Variable berechnen, wenn man die bekannten Korrelationen mit den vorhandenen Daten berücksichtigt. Dies würde es uns ermöglichen, unsere Stichproben genauer zu ziehen.

Aber Vorsicht! Dies ist einer der Fälle, die wir im Hinterkopf hatten, als wir unseren Haftungsausschluss in der Einleitung verfassten. Wir müssen sicherstellen, dass der Algorithmus die allgemeine Qualität unserer Stichprobe nicht beeinträchtigt. Wenn wir zum Beispiel tatsächlich Vielreisende statt Personen mit hohem Einkommen einladen, könnten wir feststellen, dass unsere Stichprobe verzerrt ist: Überraschenderweise reisen die meisten unserer Befragten mit hohem Einkommen häufig. Deshalb müssen wir sicherstellen, dass die Qualität unseres Vorhersagemodells gut genug ist, um die Gesamtqualität unserer Forschung zu verbessern.

Wartung der Schalttafel

Wir sind überzeugt, dass es einen engen Zusammenhang zwischen der Motivation unserer Panelmitglieder und der Qualität ihrer Antworten gibt. In unseren nächsten Beispielen unterstützen Algorithmen unsere Bemühungen, den Panelisten ein besseres Mitgliedschaftserlebnis zu bieten, und leisten so einen Beitrag zur Datenqualität.

Der Zweck der Teilnahme an einem Panel ist die Teilnahme an Umfragen. Alles, was die Bereitschaft zur Teilnahme an Umfragen erhöht, trägt auch irgendwie zu einer positiven Mitgliedschaftserfahrung bei. Ein wichtiger Faktor zur Steigerung der Rücklaufquote ist der richtige Zeitpunkt für den Versand der Einladungen. An einem Montagmorgen, wenn Ihr E-Mail-Posteingang überquillt, würden Sie wahrscheinlich lieber eine Umfrageeinladung ignorieren, um sich um die dringenden Dinge zu kümmern. Nach dem Mittagessen hingegen haben Sie vielleicht noch Lust auf eine Pause, so dass eine Abwechslung sehr willkommen sein kann. Generell könnten uns Algorithmen dabei helfen, den richtigen Zeitpunkt für jeden Diskussionsteilnehmer zu ermitteln und Benachrichtigungen auf Zeitpunkte zu verschieben, an denen sie wahrscheinlich mehr Aufmerksamkeit erhalten.

Diese Technik kann weit über die bloße Nutzung der Tageszeit hinausgehen und auch andere Daten einbeziehen, wie z. B. die Nutzungsmuster der Panel-App (z. B. Geolokalisierung, Gyroskop). Wenn Panelmitglieder beispielsweise zu Hause zufällig ihr Handy in der Hand halten, erleben sie möglicherweise eine Auszeit und reagieren in diesem Moment mit höherer Wahrscheinlichkeit auf Push-Benachrichtigungen.

Probenahme

Eng damit verbunden ist die Automatisierung der Probenahme. Es gibt kaum etwas Frustrierenderes für Panelisten, als zu einer Umfrage eingeladen zu werden, die bereits geschlossen wurde, entweder teilweise für eine bestimmte Quote oder vollständig. Aus diesem Grund sendet man in der Regel immer kleinere Stichproben, während das Feld fortschreitet, um sich der gewünschten Anzahl von Ausfüllungen zu nähern, ohne dass die Quoten überlaufen. Aus offensichtlichen Gründen ist dies recht arbeitsintensiv und kann auch recht komplex werden, je mehr Quoten Sie haben. Automatisierte Stichproben können dazu beitragen, den Verlust von Stichproben zu minimieren, indem Einladungen zu Umfragen in kleineren und häufigeren Chargen verschickt werden, als dies ein menschlicher Probenehmer tun könnte. Dies ist eine Technik, die wir bereits bei nicht allzu komplexen Musterdefinitionen anwenden. Darüber hinaus können in Zukunft statistisch geschätzte Profilinformationen verwendet werden, solange solche Algorithmen nicht zu einer neuen Quelle für Fehler werden (siehe oben).

Eine weitere Technik zur Verringerung der negativen Erfahrung von Screenouts und Quotenfehlern ist das Routing. Es gibt zwei grundsätzliche Möglichkeiten, dies zu tun. Eine dumme Methode, die wir wahrscheinlich alle schon einmal erlebt haben, besteht darin, die Befragten so lange in einem endlosen Strom von Umfrageteilnehmern zu halten, bis sie sich qualifizieren. Wenn Sie die Endseite einer Umfrage erreicht haben, erhalten Sie sofort die Möglichkeit, sich für einen weiteren Fragebogen zu qualifizieren. Wir stehen diesem Ansatz recht skeptisch gegenüber, da er die Motivation der Befragten beeinträchtigen und Geschwindigkeitsübertretungen und anderes befriedigendes Antwortverhalten fördern könnte.

Es gibt jedoch eine klügere Art, über das Routing nachzudenken. Sie laden die Panelteilnehmer auf altmodische Weise ein und teilen ihnen mit, dass eine neue Umfrage für sie zur Verfügung steht. Sobald sie auf den Link in der Einladung klicken, werden sie zu einer offenen Umfrage weitergeleitet, die ihrem Profil am besten entspricht. Auch wenn die Studie, der sie ursprünglich zugewiesen wurden, abgeschlossen ist, können sie an einer weiteren Umfrage teilnehmen. Bei dieser Methode der Weiterleitung ist das Risiko einer Beeinträchtigung der Probenqualität wesentlich geringer, da nur ein kleiner Überlauf (von der automatischen Probenahme) umgeleitet wird. Darüber hinaus werden die Befragten nicht mit endlosen Reihen von Umfrage-Screenern konfrontiert, sondern beantworten jeweils nur eine Umfrage. In jedem Fall müssen Sie über einen intelligenten Algorithmus verfügen, der alle Mitgliederprofile, die noch nicht geantwortet haben, sowie alle Zielgruppendefinitionen der verfügbaren Studien im Auge behält und schließlich einen perfekten Abgleich vornimmt. Auf diese Weise würden Sie die Motivation der Diskussionsteilnehmer zur Teilnahme erhöhen.

Während des Interviews

Jede Studie ist einzigartig. Dies macht es sehr schwer, allgemeine Maßnahmen zur Qualitätskontrolle zu definieren, die für alle Fälle gelten. Algorithmen können jedoch dabei helfen, die Antwortqualität eines Interviews mit allen vorherigen Interviews zu vergleichen. Geht ein Befragter deutlich schneller durch den Fragebogen als andere? Sind die Antworten in Textfeldern kürzer oder enthalten sie Unsinn? Und wie sieht es mit der Varianz bei den Rasterfragen aus? All diese Indikatoren können ein Gesamtbild ergeben und verschiedene Maßnahmen auslösen, wenn ein bestimmter Schwellenwert erreicht wird. Sie können den Algorithmus das Interview für eine manuelle Überprüfung kennzeichnen lassen, dem Befragten eine Warnung anzeigen, eine Ablenkungsfrage einfügen, um unaufmerksame Befragte auszusieben, oder das gesamte Interview sofort aus der Datenbank entfernen.

Eine weitere Technik ist das absichtliche Priming der Befragten, um ihre Antwortqualität unbewusst zu steigern. Hier wird vor den relevanten Fragen eine Zwischenseite mit Snack-Inhalten präsentiert, um den Befragten auf die bevorstehende Aufgabe einzustimmen. Da diese Technik nicht für alle Befragten gleichermaßen effektiv ist, sondern die Dauer eines Interviews in die Länge ziehen kann, können Algorithmen dabei helfen, die richtigen Füller nur den richtigen Personen zum richtigen Zeitpunkt zu präsentieren. Auch diese Techniken müssen im Hinblick auf die Gesamtqualität sorgfältig angewendet werden, da sie auch Schaden anrichten können.

Bis jetzt haben wir nur über die Online-Recherche gesprochen, die keiner weiteren Erklärung bedarf. Aber auch andere Methoden der Datenerfassung sind von der Digitalisierung betroffen und können von Algorithmen profitieren. Denken Sie zum Beispiel an Telefoninterviews. Algorithmen könnten die Stimme des Befragten analysieren und eine Stimmungsanalyse während des Interviews durchführen. Diese Informationen können nicht nur hilfreich sein, um die Informationen bei der anschließenden Analyse der Daten in den richtigen Kontext zu setzen, sondern auch dem Interviewer wertvolles Feedback geben, während er mit dem Befragten spricht. Wie bereits erwähnt, ist es jedoch sehr schwierig, Maßnahmen zu definieren, die für jede Studie geeignet sind.

Datenverarbeitung

Nachdem alle Daten gesammelt wurden, müssen in der Regel noch einige Schritte unternommen werden, bevor sie analysiert werden können. Der erste Schritt besteht darin, die Daten zu bereinigen, d. h. Fälle zu entfernen, die nicht für die Analyse verwendet werden können. In Anbetracht der oben genannten Schritte sollte dies nicht mehr allzu viel Zeit und Mühe kosten. Der nächste Schritt ist die Codierung aller unstrukturierten Daten, insbesondere der offenen Antworten aus Textfeldern. Die Algorithmen können erkennen, ob ein bestehender Codeplan anwendbar ist (z. B. eine Liste von Marken in einer bestimmten Kategorie), oder sie werden darauf trainiert, einen neuen Codeplan zu lernen und anzuwenden. Verschiedene Sprachen können automatisch erkannt und übersetzt werden. Schließlich können alle Daten gewichtet werden, um kleinere Diskrepanzen in der Zusammensetzung auszugleichen oder sie an verschiedene Einheiten der Basis anzupassen (z. B. ob die Rückmeldung für alle Einwohner oder alle Haushalte repräsentativ ist).

Na und?

Einige der in diesem Artikel beschriebenen Techniken sind bereits im Einsatz, andere müssen noch entwickelt werden. Und neben diesen “tief hängenden Früchten” gibt es noch viele andere Anwendungsbereiche, in denen Algorithmen die Arbeit mit Daten erleichtern können.

Bei allem, was wir tun, streben wir nach der bestmöglichen Qualität und zögern, Methoden anzuwenden, die unsere hohen Standards beeinträchtigen könnten. Wir würden uns freuen, von Ihnen zu hören, wenn Sie mehr erfahren möchten oder eine Frage haben.

English

Dansk

Nederlands

Eesti

Suomi

Français

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska