Direkt zum Inhalt

A Pilot Study for "Linked Open Research Data" (LORDpilot): A LOD-based Concept Registry for Social Science Research Data: Joint Final Report to the Project (Public Part)

Externe Monographien

Andreas Daniel, Jan Goebel, Dagmar Kern, Daniel Klein, Antonia May, Fakhri Momeni, Jana Nebelin, Claudia Saalbach, Pascal Siegers, Knut Wenzig, Benjamin Zapilko

2023, 11 S.

Abstract

Die Nachnutzung von Forschungsdaten ist ein wichtiger Bestandteil der Forschungspraxis in den Sozial- und Wirtschaftswissenschaften. Um geeignete Daten zu finden, brauchen Forschende funktionierende Suchangebote. Eine übergreifende Suche nach Daten wird jedoch durch eine uneinheitliche oder fehlende semantische Erschließung erschwert, weil verschiedene Erhebungsprogramme jeweils eigene Terminologien für die Dokumentation verwenden. Meist fehlt auch eine Verknüpfung der gemessenen theoretischen Konzepte mit den Variablen. Aus Sicht der Nutzenden behindert die Fragmentierung in der Datendokumentation die Daten- suche und schränkt deshalb das Forschungspotential existierender Bestände ein. Die Herausforderung liegt deshalb in der konzeptorientierten Erschließung von Daten. Weil eine semantische Modellbildung für die inhaltliche Erschließung bislang fehlt, werden ein Prozess und eine Technologie für eine einheitliche, semantische Indexierung der Forschungsdaten benötigt. Die LORD-Infrastruktur soll diese Lücke schließen. Ziel des Projektes ‚LORDpilot‘ war es, die Machbarkeit einer Concept Registry für die Sozialwissenschaften zu prüfen. Dazu wurden im Pilotprojekt ein Datenmodell und eine benutzer- freundliche Eingabemaske (AnnoTool) entwickelt, mit deren Hilfe für eine Auswahl von Messinstrumenten aus drei großen Umfragen (ALLBUS, nacaps, SOEP) Fragen bzw. Variablen mit theoretischen Konzepten verknüpft (d.h. annotiert) wurden. Für die technische Umsetzung wurden Standards des Semantic Web verwendet. Durch die Verknüpfung der Konzepte mit 3 Deskriptoren aus dem SCOS-konformen „Thesaurus Sozialwissenschaften“ (TheSoz) wird die Suche in der Konzeptdatenbank unterstützt und das Konzeptvokabular direkt in die Linked Open Data (LOD) Cloud integriert. Die Verknüpfungen wurden in Form von RDF-Triples erstellt und in einem Triple-Store mit SPARQL-Endpunkt zugänglich gemacht. Für die Evaluation des Verfahrens wurden die ausgewählten Messinstrumente der drei Befragungen von jedem der beteiligten Projektpartner annotiert (d.h. Fragen und Variablen mit Konzepten beschrieben) und anschließend die Passung von Frage und Konzept von Fachexperten bewertet. Die Auswertung dieser Testannotationen zeigt, dass (1) die Annotationen verschiedener Annotatoren eine hohe Übereinstimmung aufweisen, (2) die Konzepte von den Fachexperten überwiegend als zur Messintention passend bewertet werden und (3) über die vergebenen Konzepte konzeptionelle Zusammenhänge über die Datensätze hinweg sichtbar wer- den. Allerdings zeigt die Auswertung auch, dass die Verwendung marginal unterschiedlicher Konzeptbegriffe irrelevante Heterogenität im Konzeptvokabular erzeugt. Die Pilotstudie hat gezeigt, dass die im Antrag skizzierte Infrastruktur realisierbar ist, wenn die Redundanz im Konzeptvokabular begrenzt wird, z.B. indem durch algorithmische Unterstützung bei der Annotation passende Begrifflichkeiten vorgeschlagen werden.

Reusing research data is an important part of research practice in the social and economic sciences. To find suitable data, researchers need functional search options. However, a com- prehensive search for data is hampered by inconsistent or missing semantic indexing because different survey programs use their own terminology for documentation. In most cases, there is no link between the measured theoretical concepts and the variables. From the user's perspective, the fragmentation of data documentation hampers data retrieval and thus limits the research potential of existing data. The challenge, therefore, lies in the concept-oriented indexing of data. Since semantic modelling for content indexing is still lacking, a process and a technology for a uniform semantic indexing of research data are needed. The LORD infrastructure aims to close this gap. The LORDpilot project aimed to test the feasibility of a concept registry for the social sciences. To this end, the pilot project developed a data model and a user-friendly interface to link (i.e., annotate) questions and variables with theoretical concepts for a selection of measurement instruments from three large surveys (ALLBUS, Nacaps, SOEP). We used Semantic Web standards for the technical implementation. By linking the concepts with descriptors from the SKOS-compliant "Thesaurus Social Sciences" (TheSoz), the search in the concept database is supported, and the concept vocabulary is linked to the Linked Open Data (LOD) Cloud. The links were created as RDF triples and made available in a triple store with a SPARQL endpoint. To evaluate our approach, selected measurement instruments of the three surveys were an- notated (i.e., questions and variables were described with concepts) by each of the project partners involved, and then the fit between the measurement and the concept was assessed by domain experts. The evaluation of these test annotations shows that (1) the annotations of different annotators show a high degree of agreement, (2) the topical experts predominantly rate the concepts as matching the measurement intention, and (3) conceptual correlations across the data sets become visible via the assigned concepts. However, the analysis also shows non-substantive heterogeneity in the concept vocabulary across annotators. The pilot study has shown that the infrastructure outlined in the application is feasible if the redundancy in the concept vocabulary is limited, e.g. by suggesting appropriate existing terms through algorithmic support during annotation.

Claudia Saalbach

Research Associate in the German Socio-Economic Panel study Department

Jana Nebelin

Member of Research Infrastructure in the German Socio-Economic Panel study Department

Knut Wenzig

Research Associate in the German Socio-Economic Panel study Department

Jan Goebel

Board of Directors SOEP and Division Head Data Operation and Research Data Center in the German Socio-Economic Panel study Department

keyboard_arrow_up