Direkt zum Inhalt

SOEPlong und Dokumentation

Bericht vom 20. Dezember 2013

Mit der diesjährigen Datenlieferung SOEP v29 werden die SOEP-Daten nun wiederum neben der herkömmlichen Form auch im Long-Format (SOEP v29) ausgeliefert. SOEPlong bezeichnet eine sehr komprimierte, analysefreundlich aufbereitete und damit einfacher zu nutzende Form der SOEP-Daten. Die Daten werden dabei nicht mehr wellenspezifisch als Einzelfiles bereitgestellt, sondern gepoolt über alle verfügbaren Jahre (im Long-Format).

Hierbei werden Variablen gegebenenfalls über die Zeit harmonisiert. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent abbilden zu können: So werden beispielsweise bis 2001 erfolgende Einkommensangaben durchgehend in Euro ausgewiesen oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die Nutzer erkennbar und nachvollziehbar dargestellt. Bei Rekodierungen oder bei Integration von Daten (z. Bsp. bei ost- oder ausländerspezifischen Datensätzen) wird dies automatisiert dokumentiert und zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt.

SOEPlong fasst also die Variablen und Daten über die Zeit in dokumentierter und konsistenter Weise zusammen. Damit reduziert sich sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich. Auch unsere zentralen Strukturdatensätze $PFAD und $PHRF werden in einer zusammengeführten Long-Variante bereitgestellt - d.h. die Hochrechnungsfaktoren sind bereits in PPFADL und HPFADL integriert. In PPFADL wird auch erstmalig eine Betaversion von sogenannten enumerated weights [phrfe] bereitgestellt, insbesondere zur Analyse von Haushaltsmerkmalen auf Personenebene.

Weitere im Long-Format des PFAD Datensatzes aufgenommenen Variablen sind:

  • Die Variable IYEAR (Interview-Jahr) - entspricht der Variable DATUMY in HBRUTTO - zur Kennzeichnung des faktischen Interview-Jahres in Ergänzung zur Variable SYEAR (SurveyYear kennzeichnet im Unterschied dazu das Referenzjahr, auf das sich die Erhebungsinstrumente beziehen).
  • Zudem wurden die generierten Partner-Ids (PARID, PARTNER) auch in PPFADL mit aufgenommen (diese erlauben so ergänzend zu den entsprechenden PGEN-Variablen auch die Partnerzuweisung in Haushalten, wenn einer der Partner nicht realisiert wurde).

Eine weitere Ergänzung im Long-Format der SOEP-Daten ist die Bereitstellung der kumulierten Ursprungsdaten aus den Biographiefragebögen im Datensatz BIO.

Die Aufbereitungen im Long-Format umfassen alle Datensätze, die regelmäßig als Querschnittsfiles ausgeliefert werden. Bei der Generierung von Personen- und Haushaltsdaten im Long-Format aus den originalen Befragungsdaten werden aus den querschnittsbezogenen Variablen zudem umfassende Informationen erstellt, die die Herkunft der jeweiligen Longvariable über die Zeit dokumentieren. Dadurch kann jeder Nutzer die Vergleichbarkeit und die notwendigen Anpassungen der Variablen über die Zeit nachvollziehen

Die Daten im Long-Format werden wie üblich in den passenden Formaten für Stata, SPSS oder SAS ausgeliefert (oder auch im ungelabelten ASCII-Format), zusätzlich wird es in diesem Jahr aber auch eine englische Sprachfassung aller Datensätze geben.

Dokumentation

Die Dokumentation des SOEPlong-Formats erfolgt in Englisch als erster Anwendungsfall in unserer in der Entwicklung befindlichen Nachfolgeversion von SOEPinfo (siehe „DDI on Rails" im SOEPnewsletter 102 (PDF, 2.51 MB)). Die Long-Daten werden dort erstmalig auch vollständig mit Hilfe von Grafiken dokumentiert.

Sie erreichen SOEPinfo v.2 beta unter https://data.soep.de.

Wir freuen uns auf Ihr Feedback!

keyboard_arrow_up