Bericht vom 6. Juni 2016
Ab sofort werden die SOEP-Daten (SOEP v31.1) auch im Long-Format ausgeliefert.
Registrierte Datennutzer*innen können die Daten sofort online bestellen und erhalten dann in Kürze einen personalisierten Downloadlink, unter dem die Daten komplett verschlüsselt übertragen werden.
Andere Interessierte informieren sich bitte auf unseren Webseiten oder bei der SOEP-Hotline über die Nutzungsbedingungen und -voraussetzungen.
SOEPlong bezeichnet eine sehr komprimierte, analysefreundlich aufbereitete und damit einfacher zu nutzende Form der SOEP-Daten. Die Daten werden dabei nicht mehr wellenspezifisch als Einzelfiles bereitgestellt, sondern gepoolt über alle verfügbaren Jahre (im Long-Format).
Hierbei werden Variablen gegebenenfalls über die Zeit harmonisiert. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent abbilden zu können: So werden beispielsweise bis 2001 erfolgende Einkommensangaben durchgehend in Euro ausgewiesen oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die Nutzer erkennbar und nachvollziehbar dargestellt. Bei Rekodierungen oder bei Integration von Daten (z. Bsp. bei ost- oder ausländerspezifischen Datensätzen) wird dies automatisiert dokumentiert und zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt.
SOEPlong fasst also die Variablen und Daten über die Zeit in dokumentierter und konsistenter Weise zusammen. Damit reduziert sich sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich. Auch unsere zentralen Strukturdatensätze $PFAD und $PHRF werden in einer zusammengeführten Long-Variante bereitgestellt - d.h. die Hochrechnungsfaktoren sind bereits in PPFADL und HPFADL integriert. In PPFADL wird auch erstmalig eine Betaversion von sogenannten enumerated weights [phrfe] bereitgestellt, insbesondere zur Analyse von Haushaltsmerkmalen auf Personenebene.
Weitere im Long-Format des PFAD Datensatzes aufgenommenen Variablen sind:
Eine weitere Ergänzung im Long-Format der SOEP-Daten ist die Bereitstellung der kumulierten Ursprungsdaten aus den Biographiefragebögen im Datensatz BIO.
Die Aufbereitungen im Long-Format umfassen alle Datensätze, die regelmäßig als Querschnittfiles ausgeliefert werden. Bei der Generierung von Personen- und Haushaltsdaten im Long-Format aus den originalen Befragungsdaten werden aus den querschnittsbezogenen Variablen zudem umfassende Informationen erstellt, die die Herkunft der jeweiligen Longvariable über die Zeit dokumentieren. Dadurch kann jeder Nutzer die Vergleichbarkeit und die notwendigen Anpassungen der Variablen über die Zeit nachvollziehen
Die Daten im Long-Format werden wie üblich in den passenden Formaten für Stata, SPSS oder SAS ausgeliefert (oder auch im ungelabelten ASCII-Format), zusätzlich wird es in diesem Jahr aber auch eine englische Sprachfassung aller Datensätze geben.
Dokumentation
Zur Dokumentation können wir zunächst eine Excel-Datei (XLSX, 15.6 MB) anbieten, in Kürze wird der Datensatz auch in unserem Informationssystem paneldata.org dokumentiert sein.