KonsortSWD - Konsortium für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften in der Nationalen Forschungsdateninfrastruktur (NFDI)

Aktuelles Projekt

Projektleitung

Christof Wolf, GESIS (Sprecher)
Vertreter des SOEP:
Stefan Liebig (ab 2021)
Jürgen Schupp (bis 2020)
Jan Goebel

Projektzeitraum

1. Oktober 2020 - 30. September 2025

Zuwendungsgeber

Deutsche Forschungsgemeinschaft (DFG)

Kooperationspartner

GESIS – Leibniz Institut für Sozialwissenschaften
DIPF – Leibniz-Institut für Bildungsforschung und Bildungsinformation
DZHW - Deutsches Zentrum für Hochschul- und Wissenschaftsforschung
LIfBi – Leibniz-Institut für Bildungsverläufe
SOFI – Soziologisches Forschungsinstitut Göttingen an der Georg-August-Universität
Universität Bremen – FDZ Qualiservice
Universität Duisburg-Essen – Professur für Public Policy und Landespolitik
WZB – Wissenschaftszentrum Berlin für
Sozialforschung
ZBW – Leibniz-Informationszentrum Wirtschaft
ZPID – Leibniz-Zentrum für Psychologische Information und Dokumentation

Forschende der Sozial-, Bildungs-, Verhaltens- und Wirtschaftswissenschaften arbeiten mit verschiedenen Datentypen, die häufig aufgrund rechtlicher oder ethischer Beschränkungen besonders sensibel sind und oftmals nicht originär für wissenschaftliche Zwecke erhoben wurden.
Das Projekt KonsortSWD hat zum Ziel, Forschenden, die zunehmend in multi- und interdisziplinären Projekten zusammenarbeiten, Unterstützung bei ihrem Forschungsdatenmanagement (FDM) anzubieten. Die an KonsortSWD beteiligten Einrichtungen bringen dabei ihre Erfahrungen im Betrieb von nutzungsorientierten Forschungsdateninfrastrukturen in die Nationale Forschungsdateninfrastruktur (NFDI) ein, um die Forschungsdateninfrastruktur zur Beforschung der Gesellschaft zu stärken, zu erweitern und zu vertiefen. Sie soll nutzungsorientiert ausgestaltet sein und die Bedürfnisse der Forschungscommunities berücksichtigen. Die FDM-Strategie von KonsortSWD zielt darauf ab, Forschende und Forschungsdatenzentren technisch und inhaltlich bei Verwaltung und Nachnutzung (neuer) sensibler und nicht sensibler Daten in Übereinstimmung mit den FAIR-Prinzipien zu unterstützen. Dazu gehört neben einem nachhaltigen FDM über den Forschungsdatenlebenszyklus hinweg auch die Sicherstellung des Datenzugangs unter Berücksichtigung ethischer und rechtlicher Aspekte.

Das SOEP koordiniert die Task Area 3 "Data Production" und bearbeitet die Einzelbausteine TA2.M2 (RDCnet) und TA3.M5 (Open Data Format).

DIW Team

Leitung: Stefan Liebig
Koordination: Janina Britzke

TA3.M1: Harmonised Variables
TA3.M2: Qualitative Research Data Management (RDM)
TA3.M3: Textual Data
TA3.M4: Open Response Coding 
TA3.M5: Open Data Format 

In den 5 Unterprojekten geht es vor allem um die Bereitstellung und Bearbeitung folgender Services sowie Schwerpunkte:

  • die Interoperabilität und Wiederverwendbarkeit von Umfragedaten durch ex-ante/ex-post Harmonisierung
  • die Standards für das Forschungsdatenmanagement (FDM) qualitativer Daten
  • die Nutzung unstrukturierter Textdaten und deren Verknüpfung mit standardisierten Umfragedaten
  • die Effizienz und Qualität der Kodierung für (halb-)offene Antwortformate
  • nicht-proprietäre Datenformate und Langzeitarchivierung

Als Mehrwert für die Community sollen in den kommenden Jahren für Datenproduzierende die Standards und Werkzeuge des Forschungsdatenmanagements vereinheitlicht und dauerhaft gemacht sowie die Langzeitarchivierung verbessert werden. Für die Datennutzenden soll das Datenangebot innerhalb und über die Datenarten hinweg verbreitert werden, indem die Verlinkung (data linkage) über Datenarten ermöglicht wird und neue Nutzungsmöglichkeiten bestehender Daten eröffnet werden.

Projektverantwortung: Jan Goebel
Mitarbeitende: Neil Murray, N.N.

Um optimale Rahmenbedingungen für die empirische Forschung zu schaffen, ist ein unkomplizierter und zugleich sicherer Datenzugang notwendig. Zwar können anonymisierte Mikrodatensätze in der Regel nach Vertragsabschluss mit dem anbietenden Forschungsdatenzentrum direkt genutzt werden, jedoch sind detaillierte und schwach anonymisierte Daten nur an Gastwissenschaftler*innenarbeitsplätzen (GWAP) des jeweiligen Instituts vor Ort zugänglich und verursachen für den Forschenden somit einem hohen Zeit- und Kostenaufwand. Eine Verbesserung des Zugangs zu sensiblen Daten stellt somit ein wichtiges Kriterium dar, um Forschungspotenzial vollständig auszuschöpfen.

Measure TA2.M2 des KonsortSWD dient dazu, diese Lücke zu schließen. Durch die Implementierung eines Forschungsdateninfrastruktur-Netzwerks (RDCnet), werden bestehende Gastwissenschaftler*innenarbeitsplätze der teilnehmenden Forschungsdatenzentren in einem Netzwerk von gesicherten Datenzugangsstellen vereint. Somit können Forschende auf sensible Daten zugreifen - unabhängig davon, an welchem GWAP sie arbeiten. Durch den erleichterten Zugang kann die Anzahl der Datennutzenden erhöht werden, wobei die Kontrolle über die letztendliche Distribution der Datensätze weiterhin den Datenanbietenden obliegt, um somit auch individuelle Standards der Datensicherheit gewährleisten zu können.

Projektverantwortung: Knut Wenzig
Mitarbeitende: Xiaoyao Han, Claudia Saalbach

Die Prinzipien guter wissenschaftlicher Praxis fordern, dass die Arbeitsschritte des Forschungsprozesses sowie die verwendeten oder produzierten Materialien nachvollziehbar dokumentiert und für eine Nachnutzung zugänglich gemacht werden. Während eines Forschungsdaten-Lebenszyklus werden zahlreiche Dokumente erstellt, die den Forschungsprozess dokumentieren (z. B. Beschreibung der Studienkonzeption, Fragebogen, Codebook, Deskriptive Zusammenfassung, Replikationscode der Datenanalyse). Im Idealfall ist jedes dieser Dokumente findbar, zugänglich, interoperabel und nachnutzbar. Ein Verfahren zu Erfüllung dieser Kriterien ist der Einsatz von Metadaten bei der Organisation des Forschungsprozesses. Zum aktuellen Zeitpunkt nutzen Sozialwissenschaftler*innen für die Analyse ihrer Daten unterschiedliche und zum Teil proprietäre Software, die Metadaten auf unterschiedliche Art und Weise verarbeitet. Zudem ist ein Teil der Metadaten nicht über die Daten-Datei selbst zugänglich, sondern über pdf Dokumente und Webseiten. Verschiedene Datenformate statistischer Softwarepakete, die nur teilweise kompatibel sind, stellen ein Hindernis für Replikationsstudien dar. Insbesondere proprietäre Datenformate gefährden die in den FAIR-Prinzipien verankerte Anforderung der Interoperabilität.

Ziel des Projektes ist die (A) Entwicklung eines offenen, nicht-proprietären, mehrsprachigen mit Metadaten angereicherten Datenformates, das mit den (B) gängigen Statistik-Programmen genutzt werden kann und gleichzeitig Zugang zu den Metadaten ermöglicht. Die Datenprodukte werden direkt durch Metadaten beschrieben, sind leichter zugänglich, interoperabel und die upstream-Metadaten werden wiederverwendet. Andere Communities, die ebenfalls Metadaten verwenden, sollten angesprochen werden, um ihre Anforderungen in Bezug auf Software oder Metadaten-Schema zu berücksichtigen. Dadurch wird die Benutzerbasis für das neue Datenformat integriert und erweitert. Spezifikation und Software, einschließlich des Quellcodes, werden als FLOSS-Software unter Lizenz (z. B. CC, MIT, LGPL) bereitgestellt, wodurch die Produkte in verschiedenen Kontexten leicht verwendbar sind.

Folgende Ergebnisse sollen erarbeitet werden:

  1. Spezifikation und Dokumentation eines einheitlichen Metadaten-Schemas (KonsortSWD Metadaten Schema) in Absprache mit den FDZs des KonsortSWD
  2. Technische Integration des Metadaten-Schemas
    a) Entwicklung eines Konvertierungsfilters mit dem individuelle Metadatenstrukturen in das KonsortSWD Metadaten-Schema konvertiert werden können.
    b) Entwicklung von Importfiltern für die gängigen Statistik-Programme, so dass das KonsortSWD Metadaten-Schema für die Beschriftung von Datensätzen und das Datenmanagement genutzt werden kann.

Kontakt

Janina Britzke

Mitarbeiterin der Infrastruktureinrichtung in der Infrastruktureinrichtung Sozio-oekonomisches Panel

keyboard_arrow_up