Hva er datakvalitet?

Svært ofte, når vi snakker eller skriver om datakvalitet i vår bransje, ser diskusjonen ut til å være overfladisk og mangler dybde. Det er mye rom for misforståelser som gjør diskusjonen som helhet foreldet. Dette innlegget skal bidra til å klassifisere argumenter i kvalitetsdiskusjonen og bringe mer dybde inn i den.

The five dimensions of quality

Let’s start with a general framework of quality to locate arguments in their semantic field. According to David Garmin (1984) there are five principal approaches to quality.

Transcendent Approach

According to the transcendent approach quality is defined as an innate excellence that is absolute and universal. “High quality data needs to be perfect and flawless”. A general problem is that it’s actually pretty hard to tell what “perfect data” looks like and how to achieve it. However, this approach is fairly common in research. Validity as a “transcendent goal” for example very often leads to the trouble of finding a good trade-off between internal and external validity.

Product-based Approach

The product-based approach views quality as a result of the right ingredients and attributes of the product, – in our case data. “High quality data has carefully selected respondents in the sample, who write a lot of word into open text fields.” Here, data quality is quite tangible and can be measured precisely. However, this understanding of quality is very formalistic and, therefore, too superficial.

User-based Approach

The user-based approach starts from the premise that different users may have different wants and requirements. Here, the highest data quality is what best satisfies these needs. Hence, data quality is highly individual and subjective: high quality for one user can be average or poor data quality for another.

Manufacturing-based Approach

The manufacturing-based definition focuses on the process of producing data, – or in research terminology: they focus on methodology. “Good data is collected in adherence to the scientific standards and the best-practices of our industry”. While this approach makes data highly comparable, it sometimes doesn’t fit to the researcher’s task at hand.

Value-based Approach

Last but not least, there is a value-based approach, that sees quality as a positive return on investment (or more specific: Return On Insight). Here, data has a high quality if the costs of collecting it are minimal while the benefit from using it is maximum. At first sight, this approach seems legit, but it also has its downsides. This approach doesn’t tell much about the data properties itself, but more about the information needs of the user.

The five dimensions of data quality : Innate excellence, methodology & process, return on insight. data properties, and user requirements

Konkurrerende syn på kvalitet

Alle disse tilnærmingene fører veldig ofte til konkurrerende syn på kvalitet. Datainnsamlere kan for eksempel ta hensyn til metodikk og dataformater, mens forskningskjøpere heller fokuserer på deres individuelle behov og Return on Insight. Og selv innenfor bedrifter kan det være ulike perspektiver. Medlemmer av salgs- eller markedsavdelingen kan se kundenes perspektiver som overordnet, mens prosjektledere ser kvalitet som veldefinerte spesifikasjoner og prosesser. Å være bevisst på disse ulike synspunktene kan bidra til å forbedre kommunikasjonen om kvalitet, og følgelig forbedre kvaliteten i seg selv.

Men selv om du har alle på samme side, kan du ha problemer med å finne den rette tilnærmingen. La oss ta observasjonsdata som et eksempel. Denne metoden kan være det beste valget for å svare på forskningsspørsmålene dine, men du kan også støte på problemet med komplekse dataformater, manglende verdier eller uteliggere. Dette kan igjen ha innvirkning på avkastningen på innsikt og kreve en annen tilnærming.

For å holde det kort, er det ikke lett å si hva datakvalitet faktisk er. Alle hevder å ha det, men en nærmere titt avslører at de tilsvarende argumentene veldig ofte faller fra hverandre. Sannsynligvis ville det være naivt å bare etterlyse et mer helhetlig perspektiv, ettersom de ulike tilnærmingene er i en medfødt spenning. Det betyr ikke at datakvalitet bare er en illusjon eller vilkårlig, men det minner oss om at datakvalitet krever litt innsats og ikke faller på plass av seg selv. Datakvalitet starter uansett med god kommunikasjon av hva som forventes.

People discussing

In the previous section, we explored a theoretical framework for categorizing arguments related to data quality, providing a foundational understanding of the various perspectives in this discussion. With this broader perspective, we will now delve into the practical aspects of data quality, focusing on what is most relevant and how we can achieve it

The Empirical Approach

Richard Wang and Diane Strong conducted a very interesting piece of research in the 1990’s. In the first step, they asked data consumers to list all attributes that come to their mind when thinking about data quality. In the second step, these attributes were ranked by importance. A factor analysis consolidated the initial 179 attributes to a smaller set of data quality dimensions in four major categories.

Intrinsic Data Quality

Intrinsic Data Quality includes “Accuracy” and “Objectivity”, meaning the data needs to be correct and without partiality. While these two dimensions seem to be pretty self-explanatory, “Believability” and “Reputation” are not so obvious. It’s quite interesting that they are not about the data itself but they refer to the source of data, either the respondents or the fieldwork provider: respondents need to be real and authentic, while the fieldwork provider should be trustworthy and serious.

Contextual Data Quality

Contextual Data Quality means, that some aspects of data quality can only be assessed in the light of the corresponding task at hand. As this context can vary a lot, attaining a high contextual data quality is not always easy. Most of the contextual dimensions (Value-added, Relevancy, Timeliness, Completeness, Appropriate amount of data) require thorough planning before setting up and conducting the research. Conversely, it is really hard to improve contextual data quality once it has been collected (e.g. reminders to improve completeness).

Representational Data Quality

Representational data quality refers to the way, data is formatted (concise and consistent) and the degree to which you can derive meaning from it (interpretability and ease of understanding). Simply imagine the data validation routines for an online survey. When asking for the respondents’ age for example, you would make sure everyone (consistently) enters the age in whole years (concisely) or even within the age groups you’re particularly interested in (ease of understanding). In any case, the respondent will be hindered from submitting erroneous or extreme values (interpretability).

Accessibility Data Quality

The two dimension within this category can be opposed, and, therefore, require a good balance. Accessibility is about how easy and effortless data can be retrieved, while Access Security is about how the access can be limited and controlled. These aspects have received an increasing attention during the last years – e.g. online dashboards or data warehouses.

Mot utmerket datakvalitet

Som du kan se, avhenger “Intrinsic Data Quality” hovedsakelig av å velge riktig datakilde, “Contextual Data Quality” på å planlegge studien grundig, “Representational Data Quality” på å samle inn dataene på riktig måte og “Accessibility Data Quality” på rapportere dataene riktig. Eller mer generelt, på hvert trinn i forskningsprosessen må vi forholde oss til ulike oppgaver og utfordringer for å oppnå best mulig resultat.

I den første delen diskuterte vi hvordan ulike perspektiver på datakvalitet noen ganger kan konkurrere. Selv om det fortsatt er gyldig at kravene til alle interessenter må ivaretas i utgangspunktet, er det muligens enda viktigere at alle koblinger i verdikjeden bidrar til den generelle kvaliteten ved innsamling og behandling av data. Ettersom forskning har blitt en kompleks prosess med delt ansvar, må vi sørge for at kvalitetsstandarder oppfylles gjennom hele prosessen.

Relaterte sider

Les mer om datakvalitet med data fra Norstat

Datakvalitet med Norstat-panelet

Å finne de riktige deltakerne til din unike studie er avgjørende for å oppnå relevante og nyttige data. Basert på vårt omfattende nettverk av respondenter i Europa, sørger vi for at du får tilgang til forbrukerne du leter etter.

Se våre paneler

Panelkvalitet

I jakten på pålitelige data som underbygger avgjørende beslutningstaking, kan ikke viktigheten av et panel av høy kvalitet overvurderes. Men hva er det egentlig som definerer panelkvalitet, og hvordan opprettholder vi den?

Les mer

Forbedre datakvaliteten med algoritmer

Innsikt bør lede handlingene våre ved å gi dem en struktur. Og innsikt følger strukturen til de underliggende dataene. Per definisjon er strukturer stabile og tåler forstyrrelser. Data har lang levetid, og derfor bør kvaliteten betraktes som en ressurs som fortsetter å lønne seg i fremtiden.

Les mer