Qu’est-ce que la qualité des données ?

Très souvent, lorsque nous parlons ou écrivons sur la qualité des données dans notre secteur, la discussion semble être superficielle et manquer de profondeur. Il y a beaucoup de place pour les malentendus, ce qui rend la discussion dans son ensemble obsolète. Ce billet devrait permettre de classer les arguments dans le débat sur la qualité et de l’approfondir.

Les cinq dimensions de la qualité

Commençons par un cadre général de qualité pour situer les arguments dans leur champ sémantique. Selon David Garmin (1984), il existe cinq approches principales de la qualité.

Approche transcendante

Selon l’approche transcendante, la qualité est définie comme une excellence innée, absolue et universelle. “Les données de haute qualité doivent être parfaites et irréprochables. Le problème général est qu’il est en fait assez difficile de savoir à quoi ressemblent des “données parfaites” et comment y parvenir. Toutefois, cette approche est assez courante dans le domaine de la recherche. La validité en tant qu'”objectif transcendant”, par exemple, conduit très souvent à la difficulté de trouver un bon compromis entre la validité interne et la validité externe.

Approche par produit

L’approche basée sur le produit considère la qualité comme le résultat des bons ingrédients et attributs du produit, dans notre cas les données. “Des données de haute qualité ont été soigneusement sélectionnées dans l’échantillon des répondants qui écrivent beaucoup de mots dans des champs de texte ouverts. Dans ce cas, la qualité des données est tout à fait tangible et peut être mesurée avec précision. Toutefois, cette conception de la qualité est très formaliste et donc trop superficielle.

Approche basée sur l’utilisateur

L’approche basée sur l’utilisateur part du principe que des utilisateurs différents peuvent avoir des besoins et des exigences différents. Dans ce cas, la meilleure qualité de données est celle qui répond le mieux à ces besoins. La qualité des données est donc très individuelle et subjective : une qualité élevée pour un utilisateur peut être une qualité moyenne ou médiocre pour un autre.

Approche fondée sur la fabrication

La définition basée sur la fabrication se concentre sur le processus de production des données ou, dans la terminologie de la recherche, sur la méthodologie. “De bonnes données sont collectées dans le respect des normes scientifiques et des meilleures pratiques de notre industrie”. Bien que cette approche rende les données très comparables, elle n’est parfois pas adaptée à la tâche du chercheur.

Approche fondée sur la valeur

Enfin, il existe une approche fondée sur la valeur, qui considère la qualité comme un retour sur investissement positif (ou plus précisément : un retour sur investissement). Dans ce cas, les données sont de grande qualité si les coûts de leur collecte sont minimes alors que le bénéfice de leur utilisation est maximal. À première vue, cette approche semble légitime, mais elle présente aussi des inconvénients. Cette approche n’en dit pas beaucoup sur les propriétés des données elles-mêmes, mais plutôt sur les besoins d’information de l’utilisateur.

Les cinq dimensions de la qualité des données : l'excellence innée, la méthodologie et le processus, le retour sur investissement, les propriétés des données et les exigences des utilisateurs.

Des points de vue divergents sur la qualité

Toutes ces approches conduisent très souvent à des points de vue divergents sur la qualité. Les collecteurs de données, par exemple, peuvent prêter attention à la méthodologie et aux formats de données, tandis que les acheteurs d’études se concentrent plutôt sur leurs besoins individuels et sur le retour sur investissement. Et même au sein des entreprises, il peut y avoir des perspectives différentes. Les membres du département des ventes ou du marketing peuvent considérer que les perspectives des clients sont primordiales, tandis que les gestionnaires de projets considèrent que la qualité est synonyme de spécifications et de processus bien définis. La connaissance de ces différents points de vue peut contribuer à améliorer la communication sur la qualité et, par conséquent, la qualité elle-même.

Mais même si tout le monde est sur la même longueur d’onde, il se peut que vous ayez des difficultés à trouver la bonne approche. Prenons l’exemple des données d’observation. Cette méthode peut être le meilleur choix pour répondre à vos questions de recherche, mais vous pouvez également rencontrer des problèmes de formats de données complexes, de valeurs manquantes ou de valeurs aberrantes. Là encore, cela peut avoir un impact sur le retour sur investissement et nécessiter une approche différente.

Pour faire court, il n’est pas facile de savoir ce qu’est la qualité des données. Tout le monde s’en réclame, mais en y regardant de plus près, on s’aperçoit que les arguments correspondants tombent très souvent à l’eau. Il serait probablement naïf de se contenter d’appeler à une perspective plus holistique, car les différentes approches sont dans une tension innée. Cela ne signifie pas que la qualité des données n’est qu’une illusion ou qu’elle est arbitraire, mais cela nous rappelle que la qualité des données nécessite un certain effort et qu’elle ne se met pas en place toute seule. Dans tous les cas, la qualité des données commence par une bonne communication de ce qui est attendu.

Les gens discutent

Dans la section précédente, nous avons exploré un cadre théorique permettant de catégoriser les arguments liés à la qualité des données, ce qui nous a permis de comprendre les différentes perspectives de cette discussion. Dans cette perspective plus large, nous allons maintenant nous pencher sur les aspects pratiques de la qualité des données, en nous concentrant sur ce qui est le plus pertinent et sur la manière dont nous pouvons y parvenir

L’approche empirique

Richard Wang et Diane Strong ont mené une recherche très intéressante dans les années 1990. Dans un premier temps, ils ont demandé aux consommateurs de données de dresser la liste de tous les attributs qui leur viennent à l’esprit lorsqu’ils pensent à la qualité des données. Dans un deuxième temps, ces attributs ont été classés par ordre d’importance. Une analyse factorielle a consolidé les 179 attributs initiaux en un ensemble plus restreint de dimensions de la qualité des données réparties en quatre catégories principales.

Qualité intrinsèque des données

La qualité intrinsèque des données comprend l'”exactitude” et l'”objectivité”, ce qui signifie que les données doivent être correctes et sans parti pris. Si ces deux dimensions semblent assez explicites, la “crédibilité” et la “réputation” ne sont pas aussi évidentes. Il est intéressant de noter qu’elles ne concernent pas les données elles-mêmes, mais la source des données, soit les répondants, soit le prestataire de travail sur le terrain : les répondants doivent être réels et authentiques, tandis que le prestataire de travail sur le terrain doit être digne de confiance et sérieux.

Qualité des données contextuelles

La qualité contextuelle des données signifie que certains aspects de la qualité des données ne peuvent être évalués qu’à la lumière de la tâche correspondante. Comme ce contexte peut varier considérablement, il n’est pas toujours facile d’obtenir une qualité élevée des données contextuelles. La plupart des dimensions contextuelles (valeur ajoutée, pertinence, actualité, exhaustivité, quantité appropriée de données) nécessitent une planification minutieuse avant de mettre en place et de mener la recherche. Inversement, il est très difficile d’améliorer la qualité des données contextuelles une fois qu’elles ont été collectées (par exemple, des rappels pour améliorer l’exhaustivité).

Qualité des données représentationnelles

La qualité de la représentation des données fait référence à la manière dont les données sont formatées (concises et cohérentes) et à la mesure dans laquelle vous pouvez en tirer un sens (interprétabilité et facilité de compréhension). Imaginez simplement les routines de validation des données pour une enquête en ligne. Lorsque l’on demande l’âge des répondants, par exemple, il faut s’assurer que tout le monde (de manière cohérente) indique l’âge en années entières (de manière concise) ou même dans les groupes d’âge qui vous intéressent particulièrement (pour faciliter la compréhension). Dans tous les cas, le répondant sera empêché de soumettre des valeurs erronées ou extrêmes (interprétabilité).

Accessibilité Qualité des données

Les deux dimensions de cette catégorie peuvent être opposées et nécessitent donc un bon équilibre. L’accessibilité concerne la facilité avec laquelle les données peuvent être récupérées, tandis que la sécurité d’accès concerne la manière dont l’accès peut être limité et contrôlé. Ces aspects ont fait l’objet d’une attention croissante au cours des dernières années – par exemple, les tableaux de bord en ligne ou les entrepôts de données.

Vers une excellente qualité des données

Comme vous pouvez le constater, la “qualité intrinsèque des données” dépend principalement de la sélection de la bonne source de données, la “qualité contextuelle des données” de la planification minutieuse de l’étude, la “qualité de la représentation des données” de la collecte des données de la bonne manière et la “qualité de l’accessibilité des données” de la communication correcte des données. Ou, plus généralement, à chaque étape du processus de recherche, nous devons faire face à des tâches et à des défis différents afin d’obtenir le meilleur résultat possible.

Dans la première section, nous avons vu comment différentes perspectives sur la qualité des données peuvent parfois se concurrencer. S’il est toujours vrai que les exigences de toutes les parties prenantes doivent être prises en compte en premier lieu, il est peut-être encore plus important que chaque maillon de la chaîne de valeur contribue à la qualité globale lors de la collecte et du traitement des données. La recherche étant devenue un processus complexe avec des responsabilités divisées, nous devons nous assurer que les normes de qualité sont respectées tout au long du processus.

Pages connexes

En savoir plus sur la qualité des données grâce aux données de Norstat

Qualité des données avec le panel Norstat

Il est essentiel de trouver les bons participants pour votre étude unique afin d’obtenir des données pertinentes et utiles. Grâce à notre vaste réseau de répondants en Europe, nous nous assurons que vous avez accès aux consommateurs que vous recherchez.

Voir nos panels

Qualité des panneaux

L’importance d’un panel de qualité ne peut être surestimée dans la quête de données fiables pour la prise de décisions cruciales. Mais qu’est-ce qui définit exactement la qualité d’un panel et comment la maintenir ?

En savoir plus

Améliorer la qualité des données grâce aux algorithmes

La perspicacité doit guider nos actions en leur donnant une structure. Et les idées suivent la structure des données sous-jacentes. Par définition, les structures sont stables et résistent aux perturbations. Les données ont une grande longévité et leur qualité doit donc être considérée comme un actif qui continuera à porter ses fruits à l’avenir.

En savoir plus