Vad är datakvalitet?

När vi pratar eller skriver om datakvalitet i vår bransch verkar diskussionen ofta vara ytlig och sakna djup. Det finns ett stort utrymme för missförstånd som gör diskussionen som helhet föråldrad. Detta inlägg bör bidra till att klassificera argument i kvalitetsdiskussionen och ge den mer djup.

De fem dimensionerna av kvalitet

Vi börjar med ett allmänt kvalitetsramverk för att lokalisera argument i deras semantiska fält. Enligt David Garmin (1984) finns det fem huvudsakliga sätt att se på kvalitet.

Transcendenta tillvägagångssätt

Enligt det transcendenta synsättet definieras kvalitet som en medfödd förträfflighet som är absolut och universell. “Data av hög kvalitet måste vara perfekta och felfria”. Ett generellt problem är att det faktiskt är ganska svårt att säga hur “perfekta data” ser ut och hur man uppnår det. Detta tillvägagångssätt är dock ganska vanligt inom forskningen. Validitet som ett “transcendent mål” leder till exempel ofta till problem med att hitta en bra avvägning mellan intern och extern validitet.

Produktbaserat tillvägagångssätt

Det produktbaserade synsättet ser kvalitet som ett resultat av de rätta ingredienserna och egenskaperna hos produkten, i vårt fall data. “Data av hög kvalitet har noggrant utvalda respondenter i urvalet, som skriver många ord i öppna textfält.” Här är datakvaliteten mycket konkret och kan mätas exakt. Denna syn på kvalitet är dock mycket formalistisk och därför alltför ytlig.

Användarbaserad metod

Det användarbaserade tillvägagångssättet utgår från att olika användare kan ha olika önskemål och krav. Här är den högsta datakvaliteten det som bäst uppfyller dessa behov. Därför är datakvaliteten mycket individuell och subjektiv: hög kvalitet för en användare kan vara genomsnittlig eller dålig datakvalitet för en annan.

Tillverkningsbaserad metod

Den tillverkningsbaserade definitionen fokuserar på processen att producera data, – eller med forskningsterminologi: de fokuserar på metodik. “Bra data samlas in i enlighet med de vetenskapliga standarderna och de bästa metoderna i vår bransch”. Även om detta tillvägagångssätt gör data mycket jämförbara, passar det ibland inte för forskarens aktuella uppgift.

Värdebaserad strategi

Sist men inte minst finns det ett värdebaserat synsätt, där kvalitet ses som en positiv avkastning på investeringen (eller mer specifikt: avkastning på insikt). Här har data hög kvalitet om kostnaderna för att samla in dem är minimala samtidigt som nyttan av att använda dem är maximal. Vid första anblicken verkar detta tillvägagångssätt legitimt, men det har också sina nackdelar. Detta tillvägagångssätt säger inte så mycket om själva dataegenskaperna, utan mer om användarens informationsbehov.

De fem dimensionerna av datakvalitet: Medfödd kompetens, metodik och process, avkastning på insikt. dataegenskaper och användarkrav

Konkurrerande uppfattningar om kvalitet

Alla dessa tillvägagångssätt leder ofta till konkurrerande uppfattningar om kvalitet. Datainsamlare kan till exempel vara uppmärksamma på metodik och dataformat, medan köpare av undersökningar snarare fokuserar på sina individuella behov och Return on Insight. Och även inom företag kan det finnas olika perspektiv. Medlemmar i försäljnings- eller marknadsavdelningen kan se kundernas perspektiv som det viktigaste, medan projektledare ser kvalitet som väldefinierade specifikationer och processer. Att vara medveten om dessa olika synsätt kan bidra till att förbättra kommunikationen om kvalitet, och följaktligen förbättra kvaliteten i sig.

Men även om alla är överens kan det vara svårt att hitta rätt tillvägagångssätt. Vi tar observationsdata som exempel. Denna metod kan vara det bästa valet för att besvara dina frågor, men du kan också stöta på problem med komplexa dataformat, saknade värden eller extremvärden. Även detta kan påverka avkastningen på insikterna och kräva en annan strategi.

För att hålla det kort är det inte lätt att säga vad datakvalitet egentligen är. Alla påstår sig ha det, men en närmare titt visar att motsvarande argument mycket ofta faller sönder. Förmodligen skulle det vara naivt att bara efterlysa ett mer holistiskt perspektiv, eftersom de olika infallsvinklarna står i ett naturligt motsatsförhållande. Det betyder inte att datakvalitet bara är en illusion eller godtyckligt, men det påminner oss om att datakvalitet kräver lite ansträngning och inte faller på plats av sig självt. I vilket fall som helst börjar datakvalitet med bra kommunikation av vad som förväntas.

Diskuterande människor

I föregående avsnitt undersökte vi ett teoretiskt ramverk för att kategorisera argument relaterade till datakvalitet, vilket ger en grundläggande förståelse för de olika perspektiven i denna diskussion. Med detta bredare perspektiv kommer vi nu att fördjupa oss i de praktiska aspekterna av datakvalitet, med fokus på vad som är mest relevant och hur vi kan uppnå det

Det empiriska tillvägagångssättet

Richard Wang och Diane Strong genomförde ett mycket intressant forskningsarbete på 1990-talet. I det första steget bad de datakonsumenterna att lista alla attribut som de kommer att tänka på när de tänker på datakvalitet. I det andra steget rangordnades dessa attribut efter betydelse. En faktoranalys konsoliderade de ursprungliga 179 attributen till en mindre uppsättning datakvalitetsdimensioner i fyra huvudkategorier.

Inre datakvalitet

Inre datakvalitet omfattar “noggrannhet” och “objektivitet”, vilket innebär att uppgifterna måste vara korrekta och opartiska. Medan dessa två dimensioner verkar vara ganska självförklarande, är “Trovärdighet” och “Rykte” inte lika uppenbara. Det är ganska intressant att de inte handlar om själva uppgifterna utan om källan till uppgifterna, antingen respondenterna eller den som utför fältarbetet: respondenterna måste vara verkliga och autentiska, medan den som utför fältarbetet måste vara pålitlig och seriös.

Kontextuell datakvalitet

Kontextuell datakvalitet innebär att vissa aspekter av datakvalitet endast kan bedömas mot bakgrund av den aktuella uppgiften. Eftersom denna kontext kan variera mycket är det inte alltid lätt att uppnå en hög kontextuell datakvalitet. De flesta av de kontextuella dimensionerna (mervärde, relevans, aktualitet, fullständighet, lämplig mängd data) kräver noggrann planering innan forskningen sätts igång och genomförs. Omvänt är det mycket svårt att förbättra kvaliteten på kontextuella data när de väl har samlats in (t.ex. påminnelser om att förbättra fullständigheten).

Representativ datakvalitet

Kvalitet på representativa data avser hur data är formaterade (kortfattade och konsekventa) och i vilken grad du kan härleda mening från dem (tolkningsbarhet och lättförståelighet). Tänk dig bara datavalideringsrutinerna för en onlineundersökning. När du till exempel frågar efter respondenternas ålder bör du se till att alla (konsekvent) anger åldern i hela år (kortfattat) eller till och med inom de åldersgrupper som du är särskilt intresserad av (lättförståeligt). I vilket fall som helst kommer respondenten att hindras från att lämna felaktiga eller extrema värden (tolkningsbarhet).

Tillgänglighet Datakvalitet

De två dimensionerna inom denna kategori kan vara motsatta och kräver därför en bra balans. Tillgänglighet handlar om hur enkelt och smidigt data kan hämtas, medan åtkomstsäkerhet handlar om hur åtkomsten kan begränsas och kontrolleras. Dessa aspekter har fått allt större uppmärksamhet under de senaste åren – t.ex. online dashboards eller data warehouses.

Mot utmärkt datakvalitet

Som du kan se beror “Inre datakvalitet” främst på att välja rätt datakälla, “kontextuell datakvalitet” på att planera studien noggrant, “representativ datakvalitet” på att samla in data på rätt sätt och “tillgänglighet datakvalitet” på att rapportera data korrekt. Eller, mer generellt, i varje steg av forskningsprocessen måste vi hantera olika uppgifter och utmaningar för att uppnå bästa möjliga resultat.

I det första avsnittet diskuterade vi hur olika perspektiv på datakvalitet ibland kan konkurrera med varandra. Även om det fortfarande är giltigt att kraven från alla intressenter måste tillgodoses i första hand, är det kanske ännu viktigare att varje länk i värdekedjan bidrar till den övergripande kvaliteten när data samlas in och bearbetas. Eftersom undersökning har blivit en komplex process med delat ansvar måste vi se till att kvalitetsnormerna uppfylls genom hela processen.

Relaterade sidor

Läs mer om datakvalitet med data från Norstat

Datakvalitet med Norstatpanelen

Att hitta rätt deltagare till din unika studie är avgörande för att få fram relevanta och användbara data. Baserat på vårt omfattande nätverk av respondenter i Europa ser vi till att du får tillgång till de konsumenter du letar efter.

Se våra paneler

Panelens kvalitet

I jakten på tillförlitliga data som kan ligga till grund för viktiga beslut kan betydelsen av en högkvalitativ panel inte överskattas. Men vad är det egentligen som definierar panelkvalitet, och hur upprätthåller vi den?

Läs mer

Förbättrad datakvalitet med algoritmer

Insikt bör leda våra handlingar genom att ge dem en struktur. Och insikterna följer strukturen i de underliggande data. Per definition är strukturer stabila och tål störningar. Data har en lång livslängd, och därför bör dess kvalitet betraktas som en tillgång som fortsätter att betala sig i framtiden.

Läs mer