The data quality concept of accuracy in the context of publicly shared data sets

Nicht-referierte Aufsätze

Carsten Kuchler, Martin Spieß

In: AStA Wirtschafts- und Sozialstatistisches Archiv 3 (2009), 1, 67-80

Abstract

Along with other data quality dimensions, the concept of accuracy is often used to describe the quality of a particular data set. However, its basic definition refers to the statistical properties of estimators, which can hardly be proved by means of just a single survey. This ambiguity can be resolved by assigning “accuracy” to survey processes that are known to affect these properties. In this contribution, we consider the sub-process of imputation as one important step in setting up a data set and argue that criteria like the so called “hit-rate” criterion, which is intended to measure the accuracy of a data set by some distance function of “true” but unobserved and imputed values, is neither required nor desirable. In contrast, the so-called “inference” criterion allows statements on the validity of inferences based on a suitably completed data set under rather general conditions. The underlying theoretical concepts are illustrated by means of a simulation study. It is emphasised that the same arguments apply to other survey processes that introduce uncertainty into an edited data set.

Zur Beschreibung der Qualität eines Datensatzes wird regelmäßig der Begriff der Genauigkeit herangezogen. Alle Definitionen dieses Begriffs beziehen sich jedoch auf die Eigenschaften von Schätzern und sind nicht auf der Basis des konkreten Datensatzes rekonstruierbar. Dieser Widerspruch kann überwunden werden, indem der Begriff der Genauigkeit auf die Prozesse angewandt wird, die der Erzeugung eines Datensatzes zugrunde liegen und die die entsprechenden Eigenschaften von Schätzern beeinflussen. Im vorliegenden Beitrag betrachten wir den Teilprozess der Imputation als einen wichtigen Schritt bei der Bereitstellung eines Survey-Datensatzes und argumentieren, dass „Hit-Rate“-Kriterien, die die Genauigkeit eines Datensatzes mit Hilfe einer Distanzfunktion auf „wahren“ aber unbeobachteten und imputierten Werten erfassen wollen, weder sinnvoll noch notwendig sind. Im Gegensatz dazu erlaubt das „Inferenz“-Kriterium unter recht allgemeinen Bedingungen Aussagen über die Validität von Inferenzen, die auf einem geeignet ergänzten Datensatz basieren. Die zugrunde liegenden theoretischen Konzepte werden mit Hilfe einer Simulationsstudie illustriert. Es wird betont, dass dieselben Argumente auf andere mit Unsicherheit behaftete Survey-Prozesse zutreffen.

Themen: Surveymethodologie und Data-Science

Keywords: Survey quality, Survey processes, Accuracy, Assessment of imputation methods, Multiple imputation
Externer Link:
http://www.diw.de/documents/publikationen/73/diw_01.c.44325.de/dp586.pdf

DOI:
https://doi.org/10.1007/s11943-009-0056-0

SOEP-Core

SOEP-IS

Weiteres Angebot

Abstract