Was ist Datenqualität?

Wenn wir in unserer Branche über Datenqualität sprechen oder schreiben, scheint die Diskussion sehr oft oberflächlich und ohne Tiefgang zu sein. Es gibt viel Raum für Missverständnisse, die die gesamte Diskussion obsolet machen. Dieser Beitrag soll dazu beitragen, die Argumente in der Qualitätsdiskussion einzuordnen und zu vertiefen.

Die fünf Dimensionen der Qualität

Beginnen wir mit einem allgemeinen Qualitätsrahmen, um Argumente in ihrem semantischen Feld zu lokalisieren. Nach David Garmin (1984) gibt es fünf Hauptansätze für Qualität.

Transzendenter Ansatz

Nach dem transzendenten Ansatz wird Qualität als eine angeborene Vorzüglichkeit definiert, die absolut und universell ist. “Hochwertige Daten müssen perfekt und fehlerfrei sein. Ein allgemeines Problem besteht darin, dass es ziemlich schwierig ist, zu sagen, wie “perfekte Daten” aussehen und wie man sie erreichen kann. Dieser Ansatz ist jedoch in der Forschung recht verbreitet. Validität als “transzendentes Ziel” führt zum Beispiel sehr oft zu dem Problem, einen guten Kompromiss zwischen interner und externer Validität zu finden.

Produktbasierter Ansatz

Der produktbasierte Ansatz betrachtet Qualität als Ergebnis der richtigen Zutaten und Eigenschaften des Produkts – in unserem Fall der Daten. “Hochwertige Daten haben sorgfältig ausgewählte Befragte in der Stichprobe, die viel in offene Textfelder schreiben.” Hier ist die Datenqualität ganz greifbar und kann genau gemessen werden. Dieses Verständnis von Qualität ist jedoch sehr formalistisch und daher zu oberflächlich.

Benutzerbasierter Ansatz

Der benutzerbasierte Ansatz geht von der Prämisse aus, dass verschiedene Benutzer unterschiedliche Wünsche und Anforderungen haben können. Hier ist die höchste Datenqualität das, was diesen Anforderungen am besten gerecht wird. Daher ist die Datenqualität sehr individuell und subjektiv: Eine hohe Qualität für einen Nutzer kann für einen anderen eine durchschnittliche oder schlechte Datenqualität sein.

Fertigungsorientierter Ansatz

Die produktionsbasierte Definition konzentriert sich auf den Prozess der Datenerstellung – oder in der Forschungsterminologie: Sie konzentriert sich auf die Methodik. “Gute Daten werden unter Einhaltung der wissenschaftlichen Standards und der besten Praktiken unserer Branche erhoben”. Dieser Ansatz macht die Daten zwar in hohem Maße vergleichbar, ist aber manchmal nicht für die Aufgabe des Forschers geeignet.

Wertorientierter Ansatz

Nicht zuletzt gibt es einen wertorientierten Ansatz, der Qualität als positiven Return on Investment (oder genauer: Return On Insight) betrachtet. In diesem Fall haben die Daten eine hohe Qualität, wenn die Kosten für ihre Erhebung minimal sind und der Nutzen aus ihrer Nutzung maximal ist. Auf den ersten Blick scheint dieser Ansatz legitim zu sein, aber er hat auch seine Schattenseiten. Dieser Ansatz sagt nicht viel über die Dateneigenschaften selbst aus, sondern eher über den Informationsbedarf des Nutzers.

Die fünf Dimensionen der Datenqualität: Innate Excellence, Methodik und Prozess, Return on Insight, Dateneigenschaften und Benutzeranforderungen

Konkurrierende Ansichten über Qualität

All diese Ansätze führen sehr oft zu konkurrierenden Ansichten über Qualität. Datenerfasser achten beispielsweise auf die Methodik und die Datenformate, während Forschungseinkäufer sich eher auf ihre individuellen Bedürfnisse und den Return on Insight konzentrieren. Und selbst innerhalb von Unternehmen kann es unterschiedliche Sichtweisen geben. Mitglieder der Vertriebs- oder Marketingabteilung sehen die Perspektive der Kunden als vorrangig an, während Projektmanager Qualität als klar definierte Spezifikationen und Prozesse sehen. Die Kenntnis dieser unterschiedlichen Ansichten kann dazu beitragen, die Kommunikation über Qualität zu verbessern und damit auch die Qualität selbst.

Aber selbst wenn alle Beteiligten auf derselben Seite stehen, kann es schwierig sein, den richtigen Ansatz zu finden. Nehmen wir als Beispiel die Beobachtungsdaten. Diese Methode kann die beste Wahl zur Beantwortung Ihrer Forschungsfragen sein, aber Sie können auch auf das Problem komplexer Datenformate, fehlender Werte oder Ausreißer stoßen. Auch dies kann sich auf den Erkenntnisgewinn auswirken und erfordert einen anderen Ansatz.

Um es kurz zu machen: Es ist nicht leicht zu sagen, was Datenqualität eigentlich ist. Jeder behauptet, es zu haben, aber bei näherer Betrachtung fällt auf, dass die entsprechenden Argumente sehr oft in sich zusammenfallen. Wahrscheinlich wäre es naiv, lediglich eine ganzheitlichere Sichtweise zu fordern, denn die verschiedenen Ansätze stehen in einem inneren Spannungsverhältnis. Das bedeutet nicht, dass Datenqualität nur eine Illusion oder willkürlich ist, aber es erinnert uns daran, dass Datenqualität einige Anstrengungen erfordert und sich nicht von selbst einstellt. In jedem Fall beginnt die Datenqualität mit einer guten Kommunikation der Erwartungen.

Menschen, die diskutieren

Im vorigen Abschnitt haben wir einen theoretischen Rahmen für die Kategorisierung von Argumenten im Zusammenhang mit der Datenqualität untersucht, der ein grundlegendes Verständnis der verschiedenen Perspektiven in dieser Diskussion vermittelt. Mit dieser breiteren Perspektive werden wir uns nun den praktischen Aspekten der Datenqualität zuwenden und uns darauf konzentrieren, was am wichtigsten ist und wie wir es erreichen können

Der empirische Ansatz

Richard Wang und Diane Strong führten in den 1990er Jahren eine sehr interessante Forschungsarbeit durch. In einem ersten Schritt baten sie die Datenkonsumenten, alle Attribute aufzulisten, die ihnen in den Sinn kommen, wenn sie an Datenqualität denken. In einem zweiten Schritt wurden diese Attribute nach ihrer Wichtigkeit geordnet. Eine Faktorenanalyse konsolidierte die ursprünglichen 179 Attribute zu einem kleineren Satz von Datenqualitätsdimensionen in vier Hauptkategorien.

Intrinsische Datenqualität

Zur eigentlichen Datenqualität gehören “Genauigkeit” und “Objektivität”, d. h. die Daten müssen korrekt und unparteiisch sein. Während diese beiden Dimensionen ziemlich selbsterklärend zu sein scheinen, sind “Glaubwürdigkeit” und “Reputation” nicht so offensichtlich. Interessant ist, dass sie sich nicht auf die Daten selbst beziehen, sondern auf die Datenquelle, d. h. entweder auf die Befragten oder auf den Feldforschungsanbieter: Die Befragten müssen echt und authentisch sein, während der Feldforschungsanbieter vertrauenswürdig und seriös sein sollte.

Kontextbezogene Datenqualität

Kontextbezogene Datenqualität bedeutet, dass einige Aspekte der Datenqualität nur vor dem Hintergrund der jeweiligen Aufgabe beurteilt werden können. Da dieser Kontext sehr unterschiedlich sein kann, ist es nicht immer einfach, eine hohe kontextuelle Datenqualität zu erreichen. Die meisten der kontextbezogenen Dimensionen (Mehrwert, Relevanz, Aktualität, Vollständigkeit, angemessene Datenmenge) erfordern eine gründliche Planung vor der Einrichtung und Durchführung der Untersuchung. Umgekehrt ist es sehr schwierig, die Qualität der einmal erhobenen kontextbezogenen Daten zu verbessern (z. B. durch Erinnerungen zur Verbesserung der Vollständigkeit).

Repräsentative Datenqualität

Die Qualität der Datendarstellung bezieht sich auf die Art und Weise, wie die Daten formatiert sind (prägnant und konsistent), und auf das Ausmaß, in dem sich aus ihnen eine Bedeutung ableiten lässt (Interpretierbarkeit und Verständlichkeit). Stellen Sie sich einfach die Datenvalidierungsroutinen für eine Online-Umfrage vor. Wenn Sie zum Beispiel nach dem Alter der Befragten fragen, sollten Sie darauf achten, dass alle (durchgängig) das Alter in ganzen Jahren angeben (prägnant) oder sogar innerhalb der Altersgruppen, an denen Sie besonders interessiert sind (leichte Verständlichkeit). In jedem Fall wird der Befragte daran gehindert, fehlerhafte oder extreme Werte anzugeben (Interpretierbarkeit).

Zugänglichkeit Datenqualität

Die beiden Dimensionen innerhalb dieser Kategorie können gegensätzlich sein und erfordern daher ein gutes Gleichgewicht. Bei der Zugänglichkeit geht es darum, wie einfach und mühelos Daten abgerufen werden können, während es bei der Zugriffssicherheit darum geht, wie der Zugriff eingeschränkt und kontrolliert werden kann. Diese Aspekte haben in den letzten Jahren zunehmend an Bedeutung gewonnen – z.B. Online-Dashboards oder Data Warehouses.

Für eine hervorragende Datenqualität

Wie Sie sehen, hängt die “Intrinsische Datenqualität” vor allem von der Auswahl der richtigen Datenquelle ab, die “Kontextuelle Datenqualität” von der gründlichen Planung der Studie, die “Repräsentative Datenqualität” von der richtigen Erhebung der Daten und die “Zugänglichkeitsdatenqualität” von der korrekten Berichterstattung über die Daten. Oder, allgemeiner ausgedrückt, in jeder Phase des Forschungsprozesses müssen wir uns mit unterschiedlichen Aufgaben und Herausforderungen auseinandersetzen, um das bestmögliche Ergebnis zu erzielen.

Im ersten Abschnitt haben wir erörtert, wie unterschiedliche Perspektiven auf die Datenqualität manchmal miteinander konkurrieren können. Es gilt zwar nach wie vor, dass die Anforderungen aller Beteiligten in erster Linie berücksichtigt werden müssen, doch ist es möglicherweise noch wichtiger, dass jedes Glied in der Wertschöpfungskette bei der Erfassung und Verarbeitung der Daten zur Gesamtqualität beiträgt. Da die Forschung zu einem komplexen Prozess mit geteilten Zuständigkeiten geworden ist, müssen wir sicherstellen, dass die Qualitätsstandards während des gesamten Prozesses eingehalten werden.

Verwandte Seiten

Lesen Sie mehr über Datenqualität mit Daten von Norstat

Datenqualität mit dem Norstat-Panel

Um relevante und nützliche Daten zu erhalten, ist es entscheidend, die richtigen Teilnehmer für Ihre einzigartige Studie zu finden. Auf der Grundlage unseres umfangreichen Netzwerks von Befragten in Europa stellen wir sicher, dass Sie Zugang zu den Verbrauchern erhalten, die Sie suchen.

Siehe unsere Panels

Qualität des Panels

Bei der Suche nach zuverlässigen Daten als Grundlage für wichtige Entscheidungen kann die Bedeutung eines hochwertigen Panels gar nicht hoch genug eingeschätzt werden. Doch was genau macht die Qualität von Panels aus, und wie können wir sie erhalten?

Weiterlesen

Verbesserung der Datenqualität durch Algorithmen

Einsicht sollte unser Handeln leiten, indem wir ihm eine Struktur geben. Und die Erkenntnisse folgen der Struktur der zugrunde liegenden Daten. Per Definition sind Strukturen stabil und widerstehen Störungen. Daten haben eine lange Lebensdauer, und ihre Qualität sollte daher als ein Vermögenswert betrachtet werden, der sich auch in Zukunft auszahlt.

Weiterlesen