Aktuelles Projekt
KonsortSWD - Konsortium für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften in der Nationalen Forschungsdateninfrastruktur (NFDI)
Forschende der Sozial-, Bildungs-, Verhaltens- und Wirtschaftswissenschaften arbeiten mit verschiedenen Datentypen, die häufig aufgrund rechtlicher oder ethischer Beschränkungen besonders sensibel sind und oftmals nicht originär für wissenschaftliche Zwecke erhoben wurden.
Das Projekt KonsortSWD hat zum Ziel, Forschenden, die zunehmend in multi- und interdisziplinären Projekten zusammenarbeiten, Unterstützung bei ihrem Forschungsdatenmanagement (FDM) anzubieten. Die 14 an KonsortSWD beteiligten Einrichtungen bringen dabei ihre Erfahrungen im Betrieb von nutzungsorientierten Forschungsdateninfrastrukturen in die Nationale Forschungsdateninfrastruktur (NFDI) ein, um die Forschungsdateninfrastruktur zur Beforschung der Gesellschaft zu stärken, zu erweitern und zu vertiefen. Sie soll nutzungsorientiert ausgestaltet sein und die Bedürfnisse der Forschungscommunities berücksichtigen. Die FDM-Strategie von KonsortSWD zielt darauf ab, Forschende und Forschungsdatenzentren technisch und inhaltlich bei Verwaltung und Nachnutzung (neuer) sensibler und nicht sensibler Daten in Übereinstimmung mit den FAIR-Prinzipien zu unterstützen. Dazu gehört neben einem nachhaltigen FDM über den Forschungsdatenlebenszyklus hinweg auch die Sicherstellung des Datenzugangs unter Berücksichtigung ethischer und rechtlicher Aspekte. Auf der fachübergreifenden Zenodo-Instanz des Konsortiums stehen alle (aktuellen) Veröffentlichungen zu Services, Daten sowie Postern und Präsentationen von Tagungen und Workshops für die Öffentlichkeit zur freien Verfügung.
KonsortSWD gliedert sich in fünf Aufgabenbereiche oder Task Areas: Beteiligung der Communities (verantwortet im Wesentlichen die RatSWD-Geschäftsstelle), Datenzugang, Datenproduktion, Technische Lösungen und Sekretariat. In den Task Areas werden im Rahmen von einzelnen Unterprojekten – sogenannten Measures – verschiedene Dienste für Forschende und Forschungsdatenzentren entwickelt und angeboten. Das SOEP koordiniert die Task Area 3 "Data Production" und bearbeitet die Einzelbausteine TA2.M2 (RDCnet) und TA3.M5 (Open Data Format).
Leitung: Jan Goebel
Koordination: Janina Britzke
TA3.M01 | Harmonisierte Variablen - Umfragedaten leichter kombinieren durch standardisierte und harmonisierte Variablen | 2020-2023 |
TA3.M02 | FDM-Unterstützung in der qualitativen Sozialforschung | 2020-2025 |
TA3.M03 | Linking Textual Data - Verknüpfung von Textdaten mit anderen Datenarten | 2020-2025 |
TA3.M04 | CODI – Automatisierte Kodierung offener Angaben | 2020-2023 |
TA3.M05 | Offenes, nicht-proprietäres Datenaustauschformat | 2020-2025 |
TA3.M09 | Dateninfrastrukturen zur Erforschung gesellschaftlicher Krisenphänomene | 2024-2025 |
TA3.M10 | ForSynData -Standardisierung der Dokumentation von Forschungssynthesen | 2024-2025 |
Als Mehrwert für die Community sollen in den kommenden Jahren für Datenproduzierende die Standards und Werkzeuge des Forschungsdatenmanagements vereinheitlicht und dauerhaft gemacht sowie die Langzeitarchivierung verbessert werden. Für die Datennutzenden soll das Datenangebot innerhalb und über die Datenarten hinweg verbreitert werden, indem die Verlinkung (data linkage) über Datenarten ermöglicht wird und neue Nutzungsmöglichkeiten bestehender Daten eröffnet werden.
Projektverantwortung: Jan Goebel
Mitarbeitende: Neil Murray, Kenny Pedrique
Um optimale Rahmenbedingungen für die empirische Forschung zu schaffen, ist ein unkomplizierter und zugleich sicherer Datenzugang notwendig. Zwar können anonymisierte Mikrodatensätze in der Regel nach Vertragsabschluss mit dem anbietenden Forschungsdatenzentrum direkt genutzt werden, jedoch sind detaillierte und schwach anonymisierte Daten nur an Gastwissenschaftler*innenarbeitsplätzen (GWAP) des jeweiligen Instituts vor Ort zugänglich und verursachen für den Forschenden somit einem hohen Zeit- und Kostenaufwand. Eine Verbesserung des Zugangs zu sensiblen Daten stellt somit ein wichtiges Kriterium dar, um Forschungspotenzial vollständig auszuschöpfen.
Measure TA2.M2 des KonsortSWD dient dazu, diese Lücke zu schließen. Durch die Implementierung eines Forschungsdateninfrastruktur-Netzwerks (RDCnet), werden bestehende Gastwissenschaftler*innenarbeitsplätze der teilnehmenden Forschungsdatenzentren in einem Netzwerk von gesicherten Datenzugangsstellen vereint. Somit können Forschende auf sensible Daten zugreifen - unabhängig davon, an welchem GWAP sie arbeiten. Durch den erleichterten Zugang kann die Anzahl der Datennutzenden erhöht werden, wobei die Kontrolle über die letztendliche Distribution der Datensätze weiterhin den Datenanbietenden obliegt, um somit auch individuelle Standards der Datensicherheit gewährleisten zu können.
Weitere Informationen finden Sie auf der Webseite des Konsortiums. Erste Veröffentlichungen des Measures stehen auf dem fachübergreifenden Repositorium Zenodo zur Verfügung.
Projektverantwortung: Knut Wenzig
Mitarbeitende: Xiaoyao Han, Tom Hartl
Die Prinzipien guter wissenschaftlicher Praxis fordern, dass die Arbeitsschritte des Forschungsprozesses sowie die verwendeten oder produzierten Materialien nachvollziehbar dokumentiert und für eine Nachnutzung zugänglich gemacht werden. Während eines Forschungsdaten-Lebenszyklus werden zahlreiche Dokumente erstellt, die den Forschungsprozess dokumentieren (z. B. Beschreibung der Studienkonzeption, Fragebogen, Codebook, Deskriptive Zusammenfassung, Replikationscode der Datenanalyse). Im Idealfall ist jedes dieser Dokumente findbar, zugänglich, interoperabel und nachnutzbar. Ein Verfahren zu Erfüllung dieser Kriterien ist der Einsatz von Metadaten bei der Organisation des Forschungsprozesses. Zum aktuellen Zeitpunkt nutzen Sozialwissenschaftler*innen für die Analyse ihrer Daten unterschiedliche und zum Teil proprietäre Software, die Metadaten auf unterschiedliche Art und Weise verarbeitet. Zudem ist ein Teil der Metadaten nicht über die Daten-Datei selbst zugänglich, sondern über pdf Dokumente und Webseiten. Verschiedene Datenformate statistischer Softwarepakete, die nur teilweise kompatibel sind, stellen ein Hindernis für Replikationsstudien dar. Insbesondere proprietäre Datenformate gefährden die in den FAIR-Prinzipien verankerte Anforderung der Interoperabilität.
Ziel des Projektes ist die (A) Entwicklung eines offenen, nicht-proprietären, mehrsprachigen mit Metadaten angereicherten Datenformates, das mit den (B) gängigen Statistik-Programmen genutzt werden kann und gleichzeitig Zugang zu den Metadaten ermöglicht. Die Datenprodukte werden direkt durch Metadaten beschrieben, sind leichter zugänglich, interoperabel und die upstream-Metadaten werden wiederverwendet. Andere Communities, die ebenfalls Metadaten verwenden, sollten angesprochen werden, um ihre Anforderungen in Bezug auf Software oder Metadaten-Schema zu berücksichtigen. Dadurch wird die Benutzerbasis für das neue Datenformat integriert und erweitert. Spezifikation und Software, einschließlich des Quellcodes, werden als FLOSS-Software unter Lizenz (z. B. CC, MIT, LGPL) bereitgestellt, wodurch die Produkte in verschiedenen Kontexten leicht verwendbar sind.
Folgende Ergebnisse sollen erarbeitet werden:
Weitere Informationen finden Sie auf der Webseite des Konsortiums. Bisherige Veröffentlichungen des Measures stehen auf dem fachübergreifenden Repositorium Zenodo zur Verfügung.