W poprzedniej sekcji zbadaliśmy teoretyczne ramy kategoryzacji argumentów związanych z jakością danych, zapewniając fundamentalne zrozumienie różnych perspektyw w tej dyskusji. Mając tę szerszą perspektywę, zagłębimy się teraz w praktyczne aspekty jakości danych, koncentrując się na tym, co jest najbardziej istotne i jak możemy to osiągnąć
Podejście empiryczne
Richard Wang i Diane Strong przeprowadzili bardzo interesujące badania w latach 90-tych. W pierwszym kroku poprosili konsumentów danych o wymienienie wszystkich atrybutów, które przychodzą im na myśl, gdy myślą o jakości danych. W drugim kroku atrybuty te zostały uszeregowane według ważności. Analiza czynnikowa skonsolidowała początkowe 179 atrybutów do mniejszego zestawu wymiarów jakości danych w czterech głównych kategoriach.
Wewnętrzna jakość danych
Wewnętrzna jakość danych obejmuje “dokładność” i “obiektywność”, co oznacza, że dane muszą być poprawne i pozbawione stronniczości. Podczas gdy te dwa wymiary wydają się oczywiste, “wiarygodność” i “reputacja” nie są tak oczywiste. Dość interesujące jest to, że nie dotyczą one samych danych, ale odnoszą się do źródła danych, zarówno respondentów, jak i dostawcy badań terenowych: respondenci muszą być prawdziwi i autentyczni, podczas gdy dostawca badań terenowych powinien być godny zaufania i poważny.
Jakość danych kontekstowych
Kontekstowa jakość danych oznacza, że niektóre aspekty jakości danych można ocenić tylko w świetle odpowiedniego zadania. Ponieważ kontekst ten może się znacznie różnić, osiągnięcie wysokiej jakości danych kontekstowych nie zawsze jest łatwe. Większość wymiarów kontekstowych (wartość dodana, trafność, terminowość, kompletność, odpowiednia ilość danych) wymaga dokładnego zaplanowania przed rozpoczęciem i przeprowadzeniem badań. I odwrotnie, naprawdę trudno jest poprawić jakość danych kontekstowych po ich zebraniu (np. przypomnienia w celu poprawy kompletności).
Reprezentacyjna jakość danych
Reprezentacyjna jakość danych odnosi się do sposobu formatowania danych (zwięzłość i spójność) oraz stopnia, w jakim można z nich wywnioskować znaczenie (interpretowalność i łatwość zrozumienia). Wystarczy wyobrazić sobie procedury walidacji danych dla ankiety online. Pytając na przykład o wiek respondentów, należy upewnić się, że wszyscy (konsekwentnie) podają wiek w pełnych latach (zwięźle) lub nawet w ramach grup wiekowych, które szczególnie nas interesują (łatwość zrozumienia). W każdym przypadku respondent będzie miał utrudnione zadanie podawania błędnych lub skrajnych wartości (interpretowalność).
Dostępność Jakość danych
Dwa wymiary w tej kategorii mogą być przeciwstawne i dlatego wymagają odpowiedniej równowagi. Dostępność dotyczy łatwości i łatwości pobierania danych, podczas gdy bezpieczeństwo dostępu dotyczy sposobu ograniczania i kontrolowania dostępu. Aspekty te zyskały coraz większą uwagę w ostatnich latach – np. pulpity nawigacyjne online lub hurtownie danych.