Im vorigen Abschnitt haben wir einen theoretischen Rahmen für die Kategorisierung von Argumenten im Zusammenhang mit der Datenqualität untersucht, der ein grundlegendes Verständnis der verschiedenen Perspektiven in dieser Diskussion vermittelt. Mit dieser breiteren Perspektive werden wir uns nun den praktischen Aspekten der Datenqualität zuwenden und uns darauf konzentrieren, was am wichtigsten ist und wie wir es erreichen können
Der empirische Ansatz
Richard Wang und Diane Strong führten in den 1990er Jahren eine sehr interessante Forschungsarbeit durch. In einem ersten Schritt baten sie die Datenkonsumenten, alle Attribute aufzulisten, die ihnen in den Sinn kommen, wenn sie an Datenqualität denken. In einem zweiten Schritt wurden diese Attribute nach ihrer Wichtigkeit geordnet. Eine Faktorenanalyse konsolidierte die ursprünglichen 179 Attribute zu einem kleineren Satz von Datenqualitätsdimensionen in vier Hauptkategorien.
Intrinsische Datenqualität
Zur eigentlichen Datenqualität gehören “Genauigkeit” und “Objektivität”, d. h. die Daten müssen korrekt und unparteiisch sein. Während diese beiden Dimensionen ziemlich selbsterklärend zu sein scheinen, sind “Glaubwürdigkeit” und “Reputation” nicht so offensichtlich. Interessant ist, dass sie sich nicht auf die Daten selbst beziehen, sondern auf die Datenquelle, d. h. entweder auf die Befragten oder auf den Feldforschungsanbieter: Die Befragten müssen echt und authentisch sein, während der Feldforschungsanbieter vertrauenswürdig und seriös sein sollte.
Kontextbezogene Datenqualität
Kontextbezogene Datenqualität bedeutet, dass einige Aspekte der Datenqualität nur vor dem Hintergrund der jeweiligen Aufgabe beurteilt werden können. Da dieser Kontext sehr unterschiedlich sein kann, ist es nicht immer einfach, eine hohe kontextuelle Datenqualität zu erreichen. Die meisten der kontextbezogenen Dimensionen (Mehrwert, Relevanz, Aktualität, Vollständigkeit, angemessene Datenmenge) erfordern eine gründliche Planung vor der Einrichtung und Durchführung der Untersuchung. Umgekehrt ist es sehr schwierig, die Qualität der einmal erhobenen kontextbezogenen Daten zu verbessern (z. B. durch Erinnerungen zur Verbesserung der Vollständigkeit).
Repräsentative Datenqualität
Die Qualität der Datendarstellung bezieht sich auf die Art und Weise, wie die Daten formatiert sind (prägnant und konsistent), und auf das Ausmaß, in dem sich aus ihnen eine Bedeutung ableiten lässt (Interpretierbarkeit und Verständlichkeit). Stellen Sie sich einfach die Datenvalidierungsroutinen für eine Online-Umfrage vor. Wenn Sie zum Beispiel nach dem Alter der Befragten fragen, sollten Sie darauf achten, dass alle (durchgängig) das Alter in ganzen Jahren angeben (prägnant) oder sogar innerhalb der Altersgruppen, an denen Sie besonders interessiert sind (leichte Verständlichkeit). In jedem Fall wird der Befragte daran gehindert, fehlerhafte oder extreme Werte anzugeben (Interpretierbarkeit).
Zugänglichkeit Datenqualität
Die beiden Dimensionen innerhalb dieser Kategorie können gegensätzlich sein und erfordern daher ein gutes Gleichgewicht. Bei der Zugänglichkeit geht es darum, wie einfach und mühelos Daten abgerufen werden können, während es bei der Zugriffssicherheit darum geht, wie der Zugriff eingeschränkt und kontrolliert werden kann. Diese Aspekte haben in den letzten Jahren zunehmend an Bedeutung gewonnen – z.B. Online-Dashboards oder Data Warehouses.