Czym jest jakość danych?

Bardzo często, gdy mówimy lub piszemy o jakości danych w naszej branży, dyskusja wydaje się być powierzchowna i pozbawiona głębi. Istnieje wiele miejsca na nieporozumienia, które sprawiają, że cała dyskusja staje się nieaktualna. Ten post powinien pomóc sklasyfikować argumenty w dyskusji na temat jakości i nadać jej więcej głębi.

Pięć wymiarów jakości

Zacznijmy od ogólnych ram jakości, aby zlokalizować argumenty w ich polu semantycznym. Według Davida Garmina (1984) istnieje pięć głównych podejść do jakości.

Podejście transcendentalne

Zgodnie z podejściem transcendentalnym jakość definiowana jest jako wrodzona doskonałość, która jest absolutna i uniwersalna. “Dane wysokiej jakości muszą być doskonałe i bezbłędne”. Ogólny problem polega na tym, że w rzeczywistości dość trudno jest określić, jak wyglądają “idealne dane” i jak je osiągnąć. Takie podejście jest jednak dość powszechne w badaniach. Ważność jako “transcendentny cel” na przykład bardzo często prowadzi do kłopotów ze znalezieniem dobrego kompromisu między ważnością wewnętrzną i zewnętrzną.

Podejście oparte na produktach

Podejście oparte na produkcie postrzega jakość jako wynik odpowiednich składników i atrybutów produktu – w naszym przypadku danych. “Wysokiej jakości dane mają starannie dobranych respondentów w próbie, którzy wpisują wiele słów w otwarte pola tekstowe”. W tym przypadku jakość danych jest dość namacalna i można ją precyzyjnie zmierzyć. Takie rozumienie jakości jest jednak bardzo formalistyczne, a przez to zbyt powierzchowne.

Podejście oparte na użytkownikach

Podejście oparte na użytkownikach wychodzi z założenia, że różni użytkownicy mogą mieć różne potrzeby i wymagania. W tym przypadku najwyższa jakość danych jest tym, co najlepiej zaspokaja te potrzeby. W związku z tym jakość danych jest bardzo indywidualna i subiektywna: wysoka jakość dla jednego użytkownika może być średnią lub niską jakością danych dla innego.

Podejście oparte na produkcji

Definicja oparta na produkcji koncentruje się na procesie tworzenia danych – lub w terminologii badawczej: koncentruje się na metodologii. “Dobre dane są gromadzone zgodnie ze standardami naukowymi i najlepszymi praktykami w naszej branży”. Chociaż podejście to sprawia, że dane są wysoce porównywalne, czasami nie pasuje do zadania badacza.

Podejście oparte na wartości

Wreszcie, istnieje podejście oparte na wartości, które postrzega jakość jako pozytywny zwrot z inwestycji (lub bardziej szczegółowo: Return On Insight). W tym przypadku dane mają wysoką jakość, jeśli koszty ich gromadzenia są minimalne, a korzyści z ich wykorzystania są maksymalne. Na pierwszy rzut oka takie podejście wydaje się uzasadnione, ale ma też swoje wady. Takie podejście nie mówi zbyt wiele o samych właściwościach danych, ale bardziej o potrzebach informacyjnych użytkownika.

Pięć wymiarów jakości danych: wrodzona doskonałość, metodologia i proces, zwrot z analizy, właściwości danych i wymagania użytkownika.

Konkurencyjne poglądy na jakość

Wszystkie te podejścia bardzo często prowadzą do konkurujących ze sobą poglądów na temat jakości. Zbieracze danych mogą na przykład zwracać uwagę na metodologię i formaty danych, podczas gdy nabywcy badań koncentrują się raczej na swoich indywidualnych potrzebach i zwrocie z analizy. Nawet wewnątrz firm mogą istnieć różne perspektywy. Członkowie działu sprzedaży lub marketingu mogą postrzegać perspektywy klientów jako najważniejsze, podczas gdy kierownicy projektów postrzegają jakość jako dobrze zdefiniowane specyfikacje i procesy. Świadomość tych różnych poglądów może pomóc poprawić komunikację na temat jakości, a w konsekwencji poprawić samą jakość.

Ale nawet jeśli wszyscy są po tej samej stronie, możesz mieć trudności ze znalezieniem właściwego podejścia. Jako przykład weźmy dane obserwacyjne. Metoda ta może być najlepszym wyborem, aby odpowiedzieć na pytania badawcze, ale może również napotkać problem złożonych formatów danych, brakujących wartości lub wartości odstających. To również może mieć wpływ na zwrot z insightu i wymagać innego podejścia.

Krótko mówiąc, nie jest łatwo określić, czym właściwie jest jakość danych. Wszyscy twierdzą, że ją mają, ale bliższe spojrzenie pokazuje, że odpowiednie argumenty bardzo często się rozpadają. Naiwnością byłoby jedynie nawoływanie do bardziej holistycznej perspektywy, ponieważ pomiędzy różnymi podejściami panuje wrodzone napięcie.. Nie oznacza to, że jakość danych jest tylko iluzją lub arbitralnością, ale przypomina nam, że jakość danych wymaga pewnego wysiłku i nie pojawia się sama. W każdym przypadku jakość danych zaczyna się od dobrej komunikacji tego, czego się oczekuje.

Ludzie dyskutujący

W poprzedniej sekcji zbadaliśmy teoretyczne ramy kategoryzacji argumentów związanych z jakością danych, zapewniając fundamentalne zrozumienie różnych perspektyw w tej dyskusji. Mając tę szerszą perspektywę, zagłębimy się teraz w praktyczne aspekty jakości danych, koncentrując się na tym, co jest najbardziej istotne i jak możemy to osiągnąć

Podejście empiryczne

Richard Wang i Diane Strong przeprowadzili bardzo interesujące badania w latach 90-tych. W pierwszym kroku poprosili konsumentów danych o wymienienie wszystkich atrybutów, które przychodzą im na myśl, gdy myślą o jakości danych. W drugim kroku atrybuty te zostały uszeregowane według ważności. Analiza czynnikowa skonsolidowała początkowe 179 atrybutów do mniejszego zestawu wymiarów jakości danych w czterech głównych kategoriach.

Wewnętrzna jakość danych

Wewnętrzna jakość danych obejmuje “dokładność” i “obiektywność”, co oznacza, że dane muszą być poprawne i pozbawione stronniczości. Podczas gdy te dwa wymiary wydają się oczywiste, “wiarygodność” i “reputacja” nie są tak oczywiste. Dość interesujące jest to, że nie dotyczą one samych danych, ale odnoszą się do źródła danych, zarówno respondentów, jak i dostawcy badań terenowych: respondenci muszą być prawdziwi i autentyczni, podczas gdy dostawca badań terenowych powinien być godny zaufania i poważny.

Jakość danych kontekstowych

Kontekstowa jakość danych oznacza, że niektóre aspekty jakości danych można ocenić tylko w świetle odpowiedniego zadania. Ponieważ kontekst ten może się znacznie różnić, osiągnięcie wysokiej jakości danych kontekstowych nie zawsze jest łatwe. Większość wymiarów kontekstowych (wartość dodana, trafność, terminowość, kompletność, odpowiednia ilość danych) wymaga dokładnego zaplanowania przed rozpoczęciem i przeprowadzeniem badań. I odwrotnie, naprawdę trudno jest poprawić jakość danych kontekstowych po ich zebraniu (np. przypomnienia w celu poprawy kompletności).

Reprezentacyjna jakość danych

Reprezentacyjna jakość danych odnosi się do sposobu formatowania danych (zwięzłość i spójność) oraz stopnia, w jakim można z nich wywnioskować znaczenie (interpretowalność i łatwość zrozumienia). Wystarczy wyobrazić sobie procedury walidacji danych dla ankiety online. Pytając na przykład o wiek respondentów, należy upewnić się, że wszyscy (konsekwentnie) podają wiek w pełnych latach (zwięźle) lub nawet w ramach grup wiekowych, które szczególnie nas interesują (łatwość zrozumienia). W każdym przypadku respondent będzie miał utrudnione zadanie podawania błędnych lub skrajnych wartości (interpretowalność).

Dostępność Jakość danych

Dwa wymiary w tej kategorii mogą być przeciwstawne i dlatego wymagają odpowiedniej równowagi. Dostępność dotyczy łatwości i łatwości pobierania danych, podczas gdy bezpieczeństwo dostępu dotyczy sposobu ograniczania i kontrolowania dostępu. Aspekty te zyskały coraz większą uwagę w ostatnich latach – np. pulpity nawigacyjne online lub hurtownie danych.

W kierunku doskonałej jakości danych

Jak widać, “Wewnętrzna jakość danych” zależy głównie od wyboru właściwego źródła danych, “Kontekstowa jakość danych” od dokładnego zaplanowania badania, “Reprezentacyjna jakość danych” od gromadzenia danych we właściwy sposób, a “Dostępność jakości danych” od prawidłowego raportowania danych. Lub, bardziej ogólnie, na każdym etapie procesu badawczego musimy radzić sobie z różnymi zadaniami i wyzwaniami, aby osiągnąć jak najlepszy wynik.

W pierwszej sekcji omówiliśmy, w jaki sposób różne perspektywy jakości danych mogą czasami ze sobą konkurować. Chociaż nadal ważne jest, aby w pierwszej kolejności spełnić wymagania wszystkich interesariuszy, być może jeszcze ważniejsze jest, aby każdy element łańcucha wartości przyczyniał się do ogólnej jakości podczas gromadzenia i przetwarzania danych. Ponieważ badania stały się złożonym procesem z podzielonymi obowiązkami, musimy upewnić się, że standardy jakości są spełnione w całym procesie.

Powiązane strony

Dowiedz się więcej o jakości danych dzięki danym z Norstat

Jakość danych z panelu Norstat

Znalezienie odpowiednich uczestników do unikalnego badania ma kluczowe znaczenie dla uzyskania odpowiednich i przydatnych danych. Opierając się na naszej rozległej sieci respondentów w Europie, zapewniamy dostęp do konsumentów, których szukasz.

Zobacz nasze panele

Jakość panelu

W poszukiwaniu wiarygodnych danych, które stanowią podstawę podejmowania kluczowych decyzji, nie można przecenić znaczenia wysokiej jakości panelu. Ale co dokładnie definiuje jakość panelu i jak ją utrzymać?

Czytaj więcej

Poprawa jakości danych za pomocą algorytmów

Spostrzeżenia powinny kierować naszymi działaniami, nadając im strukturę. A spostrzeżenia podążają za strukturą danych bazowych. Z definicji struktury są stabilne i odporne na perturbacje. Dane mają długą żywotność, dlatego ich jakość powinna być traktowana jako zasób, który będzie procentował w przyszłości.

Czytaj więcej