Dans la section précédente, nous avons exploré un cadre théorique permettant de catégoriser les arguments liés à la qualité des données, ce qui nous a permis de comprendre les différentes perspectives de cette discussion. Dans cette perspective plus large, nous allons maintenant nous pencher sur les aspects pratiques de la qualité des données, en nous concentrant sur ce qui est le plus pertinent et sur la manière dont nous pouvons y parvenir
L’approche empirique
Richard Wang et Diane Strong ont mené une recherche très intéressante dans les années 1990. Dans un premier temps, ils ont demandé aux consommateurs de données de dresser la liste de tous les attributs qui leur viennent à l’esprit lorsqu’ils pensent à la qualité des données. Dans un deuxième temps, ces attributs ont été classés par ordre d’importance. Une analyse factorielle a consolidé les 179 attributs initiaux en un ensemble plus restreint de dimensions de la qualité des données réparties en quatre catégories principales.
Qualité intrinsèque des données
La qualité intrinsèque des données comprend l'”exactitude” et l'”objectivité”, ce qui signifie que les données doivent être correctes et sans parti pris. Si ces deux dimensions semblent assez explicites, la “crédibilité” et la “réputation” ne sont pas aussi évidentes. Il est intéressant de noter qu’elles ne concernent pas les données elles-mêmes, mais la source des données, soit les répondants, soit le prestataire de travail sur le terrain : les répondants doivent être réels et authentiques, tandis que le prestataire de travail sur le terrain doit être digne de confiance et sérieux.
Qualité des données contextuelles
La qualité contextuelle des données signifie que certains aspects de la qualité des données ne peuvent être évalués qu’à la lumière de la tâche correspondante. Comme ce contexte peut varier considérablement, il n’est pas toujours facile d’obtenir une qualité élevée des données contextuelles. La plupart des dimensions contextuelles (valeur ajoutée, pertinence, actualité, exhaustivité, quantité appropriée de données) nécessitent une planification minutieuse avant de mettre en place et de mener la recherche. Inversement, il est très difficile d’améliorer la qualité des données contextuelles une fois qu’elles ont été collectées (par exemple, des rappels pour améliorer l’exhaustivité).
Qualité des données représentationnelles
La qualité de la représentation des données fait référence à la manière dont les données sont formatées (concises et cohérentes) et à la mesure dans laquelle vous pouvez en tirer un sens (interprétabilité et facilité de compréhension). Imaginez simplement les routines de validation des données pour une enquête en ligne. Lorsque l’on demande l’âge des répondants, par exemple, il faut s’assurer que tout le monde (de manière cohérente) indique l’âge en années entières (de manière concise) ou même dans les groupes d’âge qui vous intéressent particulièrement (pour faciliter la compréhension). Dans tous les cas, le répondant sera empêché de soumettre des valeurs erronées ou extrêmes (interprétabilité).
Accessibilité Qualité des données
Les deux dimensions de cette catégorie peuvent être opposées et nécessitent donc un bon équilibre. L’accessibilité concerne la facilité avec laquelle les données peuvent être récupérées, tandis que la sécurité d’accès concerne la manière dont l’accès peut être limité et contrôlé. Ces aspects ont fait l’objet d’une attention croissante au cours des dernières années – par exemple, les tableaux de bord en ligne ou les entrepôts de données.