Direkt zum Inhalt

KonsortSWD - Konsortium für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften in der Nationalen Forschungsdateninfrastruktur (NFDI)

Aktuelles Projekt

Projektleitung

Christof Wolf, GESIS (Sprecher)
Vertreter des SOEP:
Stefan Liebig (bis Sept. 2022)
Jürgen Schupp (bis 2020)
Jan Goebel (ab Okt. 2022)

Projektzeitraum

1. Oktober 2020 - 30. September 2025

Zuwendungsgeber

Deutsche Forschungsgemeinschaft (DFG)

Kooperationspartner

GESIS – Leibniz Institut für Sozialwissenschaften
DIPF – Leibniz-Institut für Bildungsforschung und Bildungsinformation
DZHW - Deutsches Zentrum für Hochschul- und Wissenschaftsforschung
LIfBi – Leibniz-Institut für Bildungsverläufe
SOFI – Soziologisches Forschungsinstitut Göttingen an der Georg-August-Universität
Universität Bremen – FDZ Qualiservice
Universität Duisburg-Essen – Professur für Public Policy und Landespolitik
WZB – Wissenschaftszentrum Berlin für
Sozialforschung
ZBW – Leibniz-Informationszentrum Wirtschaft
ZPID – Leibniz-Zentrum für Psychologische Information und Dokumentation

Forschende der Sozial-, Bildungs-, Verhaltens- und Wirtschaftswissenschaften arbeiten mit verschiedenen Datentypen, die häufig aufgrund rechtlicher oder ethischer Beschränkungen besonders sensibel sind und oftmals nicht originär für wissenschaftliche Zwecke erhoben wurden.
Das Projekt KonsortSWD hat zum Ziel, Forschenden, die zunehmend in multi- und interdisziplinären Projekten zusammenarbeiten, Unterstützung bei ihrem Forschungsdatenmanagement (FDM) anzubieten. Die an KonsortSWD beteiligten Einrichtungen bringen dabei ihre Erfahrungen im Betrieb von nutzungsorientierten Forschungsdateninfrastrukturen in die Nationale Forschungsdateninfrastruktur (NFDI) ein, um die Forschungsdateninfrastruktur zur Beforschung der Gesellschaft zu stärken, zu erweitern und zu vertiefen. Sie soll nutzungsorientiert ausgestaltet sein und die Bedürfnisse der Forschungscommunities berücksichtigen. Die FDM-Strategie von KonsortSWD zielt darauf ab, Forschende und Forschungsdatenzentren technisch und inhaltlich bei Verwaltung und Nachnutzung (neuer) sensibler und nicht sensibler Daten in Übereinstimmung mit den FAIR-Prinzipien zu unterstützen. Dazu gehört neben einem nachhaltigen FDM über den Forschungsdatenlebenszyklus hinweg auch die Sicherstellung des Datenzugangs unter Berücksichtigung ethischer und rechtlicher Aspekte. Auf der fachübergreifenden Zenodo-Instanz des Konsortiums stehen alle (aktuellen) Veröffentlichungen zu Services, Daten sowie Postern und Präsentationen von Tagungen und Workshops für die Öffentlichkeit zur freien Verfügung.

Das SOEP koordiniert die Task Area 3 "Data Production" und bearbeitet die Einzelbausteine TA2.M2 (RDCnet) und TA3.M5 (Open Data Format).

DIW Team

Leitung: Stefan Liebig
Koordination: Janina Britzke

TA3.M1: Harmonised Variables – Umfragedaten leichter kombinieren durch standardisierte und harmonisierte Variablen
TA3.M2: FDM-Unterstützung in der qualitativen Sozialforschung
TA3.M3: Linking Textual Data - Verknüpfung von Textdaten mit anderen Datenarten
TA3.M4: CODI – Automatische Kodierung offener Angaben
TA3.M5: Open Data Format - Offenes, nicht-proprietäres Format für den Austausch von Forschungsdaten und Metadaten für den Einsatz mit den gängigen Statistikprogrammen

Als Mehrwert für die Community sollen in den kommenden Jahren für Datenproduzierende die Standards und Werkzeuge des Forschungsdatenmanagements vereinheitlicht und dauerhaft gemacht sowie die Langzeitarchivierung verbessert werden. Für die Datennutzenden soll das Datenangebot innerhalb und über die Datenarten hinweg verbreitert werden, indem die Verlinkung (data linkage) über Datenarten ermöglicht wird und neue Nutzungsmöglichkeiten bestehender Daten eröffnet werden.

Measure TA2.M2 (Creating single points of access for sensitive data in RDCs)

Projektverantwortung: Jan Goebel
Mitarbeitende: Neil Murray, Kenny Predique

Um optimale Rahmenbedingungen für die empirische Forschung zu schaffen, ist ein unkomplizierter und zugleich sicherer Datenzugang notwendig. Zwar können anonymisierte Mikrodatensätze in der Regel nach Vertragsabschluss mit dem anbietenden Forschungsdatenzentrum direkt genutzt werden, jedoch sind detaillierte und schwach anonymisierte Daten nur an Gastwissenschaftler*innenarbeitsplätzen (GWAP) des jeweiligen Instituts vor Ort zugänglich und verursachen für den Forschenden somit einem hohen Zeit- und Kostenaufwand. Eine Verbesserung des Zugangs zu sensiblen Daten stellt somit ein wichtiges Kriterium dar, um Forschungspotenzial vollständig auszuschöpfen.

Measure TA2.M2 des KonsortSWD dient dazu, diese Lücke zu schließen. Durch die Implementierung eines Forschungsdateninfrastruktur-Netzwerks (RDCnet), werden bestehende Gastwissenschaftler*innenarbeitsplätze der teilnehmenden Forschungsdatenzentren in einem Netzwerk von gesicherten Datenzugangsstellen vereint. Somit können Forschende auf sensible Daten zugreifen - unabhängig davon, an welchem GWAP sie arbeiten. Durch den erleichterten Zugang kann die Anzahl der Datennutzenden erhöht werden, wobei die Kontrolle über die letztendliche Distribution der Datensätze weiterhin den Datenanbietenden obliegt, um somit auch individuelle Standards der Datensicherheit gewährleisten zu können.

Weitere Informationen finden Sie auf der Webseite des Konsortiums. Erste Veröffentlichungen des Measures stehen auf dem fachübergreifenden Repositorium Zenodo zur Verfügung.

Measure TA3.M5 (Open, metadata-enriched, non-proprietary data format for data dissemination)

Projektverantwortung: Knut Wenzig
Mitarbeitende: Xiaoyao Han, Claudia Saalbach

Die Prinzipien guter wissenschaftlicher Praxis fordern, dass die Arbeitsschritte des Forschungsprozesses sowie die verwendeten oder produzierten Materialien nachvollziehbar dokumentiert und für eine Nachnutzung zugänglich gemacht werden. Während eines Forschungsdaten-Lebenszyklus werden zahlreiche Dokumente erstellt, die den Forschungsprozess dokumentieren (z. B. Beschreibung der Studienkonzeption, Fragebogen, Codebook, Deskriptive Zusammenfassung, Replikationscode der Datenanalyse). Im Idealfall ist jedes dieser Dokumente findbar, zugänglich, interoperabel und nachnutzbar. Ein Verfahren zu Erfüllung dieser Kriterien ist der Einsatz von Metadaten bei der Organisation des Forschungsprozesses. Zum aktuellen Zeitpunkt nutzen Sozialwissenschaftler*innen für die Analyse ihrer Daten unterschiedliche und zum Teil proprietäre Software, die Metadaten auf unterschiedliche Art und Weise verarbeitet. Zudem ist ein Teil der Metadaten nicht über die Daten-Datei selbst zugänglich, sondern über pdf Dokumente und Webseiten. Verschiedene Datenformate statistischer Softwarepakete, die nur teilweise kompatibel sind, stellen ein Hindernis für Replikationsstudien dar. Insbesondere proprietäre Datenformate gefährden die in den FAIR-Prinzipien verankerte Anforderung der Interoperabilität.

Ziel des Projektes ist die (A) Entwicklung eines offenen, nicht-proprietären, mehrsprachigen mit Metadaten angereicherten Datenformates, das mit den (B) gängigen Statistik-Programmen genutzt werden kann und gleichzeitig Zugang zu den Metadaten ermöglicht. Die Datenprodukte werden direkt durch Metadaten beschrieben, sind leichter zugänglich, interoperabel und die upstream-Metadaten werden wiederverwendet. Andere Communities, die ebenfalls Metadaten verwenden, sollten angesprochen werden, um ihre Anforderungen in Bezug auf Software oder Metadaten-Schema zu berücksichtigen. Dadurch wird die Benutzerbasis für das neue Datenformat integriert und erweitert. Spezifikation und Software, einschließlich des Quellcodes, werden als FLOSS-Software unter Lizenz (z. B. CC, MIT, LGPL) bereitgestellt, wodurch die Produkte in verschiedenen Kontexten leicht verwendbar sind.

Folgende Ergebnisse sollen erarbeitet werden:

  1. Spezifikation und Dokumentation eines einheitlichen Metadaten-Schemas (KonsortSWD Metadaten Schema) in Absprache mit den FDZs des KonsortSWD
  2. Technische Integration des Metadaten-Schemas
    a) Entwicklung eines Konvertierungsfilters mit dem individuelle Metadatenstrukturen in das KonsortSWD Metadaten-Schema konvertiert werden können.
    b) Entwicklung von Importfiltern für die gängigen Statistik-Programme, so dass das KonsortSWD Metadaten-Schema für die Beschriftung von Datensätzen und das Datenmanagement genutzt werden kann.

Weitere Informationen finden Sie auf der Webseite des Konsortiums. Bisherige Veröffentlichungen des Measures stehen auf dem fachübergreifenden Repositorium Zenodo zur Verfügung.

Kontakt

Janina Britzke
Janina Britzke

Mitarbeiterin im Bereich Wissenstransfer in der Infrastruktureinrichtung Sozio-oekonomisches Panel

keyboard_arrow_up