Direkt zum Inhalt

SOEP-Core v25 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

Die Datenweitergabe 2009 mit den Daten von 1984-2008 (Welle 1-25) enthält weitgehende Verbesserungen, Ergänzungen und Änderungen. Neben den üblichen wellenspezifischen Datensätzen YPBRUTTO, YP, YPKAL, YPGEN, YHBRUTTO, YH, YHGEN, YKIND und XPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten Änderungen:

Das SOEP gibt ab sofort - in einer Beta-Version - die Daten in dem einem nutzerfreundlicheren Format, genannt 'SOEPlong' weiter. Wir haben darüber bereits im SOEPnewsletter 80/2008 berichtet und danken allen, die an diesem Projekt mitgewirkt haben.
Diese neue und vorläufige Version der SOEP-Daten im long-Format geben wir gerne auf Anfrage weiter. Wir empfehlen nur jedoch nur 'Power Usern' mit entsprechenden Vorkenntnissen der Paneldatenanalyse im allgemeinen und dem SOEP im Besonderen die Bestellung dieser Version. Sie sind herzlich eingeladen mit uns an der Verbesserung und Weiterentwicklung des Datenmanagements zu arbeiten.
Diese Version enthält alle Daten und kann deswegen im Wesentlichen schon für endgültige Analysen genutzt werden. Sie ist nichts desto trotz eine vorläufige. Wir möchten unerfahrenen Nutzerinnen und Nutzern daher vorläufig von der Verwendung dieser Version abraten. Falls Sie als 'SOEP-Neuling' mit diesem neuen Format arbeiten wollen, sollten Sie zumindest Erfahrungen mit anderen Panel-Datensätzen gesammelt haben.

A Neue und umbenannte Datensätze

A.1. Datensatz BIOAGE06
Die aktuelle Datenweitergabeversion enthält den neuen Datensatz BIOAGE06. Er stellt die 2008 das erste Mal erhobenen Daten aus dem speziellen Mutter-Kind-Fragebogen zur Verfügung, der von Müttern von 5- bis 6-jährigen Vorschulkindern ausgefüllt wurde. Die Daten ergänzen das Wissen über eine Geburtskohorte, die das erste Mal 2002/2003 mit dem gesonderten Neugeborenen-Fragebogen 'befragt' wurde.
Die neuen Daten über die Vorschulkinder erheben Gewicht und Größe der Kinder, Informationen über ihren Gesundheitszustand, die Betreuungssituation, ihre Aktivitäten mit und ohne die Mutter und ihren Medienkonsum. Insbesondere die Betreuungssituation wird detailliert erhoben. Darüber hinaus wurden zum ersten Mal valide Informationen über die Persönlichkeit des Kindes (basierend auf dem 'Big Five' Persönlichkeitsmerkmalen, die auch im Peronenfragebogen für Erwachsene erfragt werden) und über ihr sozio-emotionales Verhalten gesammelt (beobachtet mit einer modifizierten Version des „Strength-and-Difficulities Questionnaire" (SDQ) nach Goodman (1997)).

A.2 Datensatz MOVEDIST
In diesem Datensatz stellen wir Informationen zum Wohnsitzwechsel zur Verfügung. Basierend auf den Geo-Koordinaten auf Block-Ebene erhalten Sie die Daten über die Entfernung (in Metern) zwischen dem früheren und dem gegenwärtigen Wohnsitz. Allerdings gibt es diese Informationen nur für Umzüge seit 2000.

Diese Daten sind NICHT auf der Standard-Datenweitergabe-DVD enthalten, sondern wir geben diese Informationen nur im Zusammenhang mit den Raumordnungsregionen auf einer gesonderten CD-ROM weiter. Sie benötigen also einen erweiterten Datenweitergabevertrag, der ein Datenschutzkonzept beinhaltet, wenn Sie diese Daten nutzen wollen. Nach Abschluss der Vertragserweiterung erhalten Sie diese Daten auf einer (kostenlosen) CD-ROM. Bei entsprechendem Interesse wenden Sie sich bitte an SOEPmail@diw.de.

B. Neue Variablen

B.1 Datensatz PPFAD

  • MIGBACK / MIGINFO: Zwei neue Variablen zur Bestimmung des Migrationshintergrunds. MIGBACK enthält die zeitunabhängige Information über den Migrationshintergrund einer Person, die sich aus den eigenen und den Angaben der Eltern ergibt. Um eine größtmögliche Transparenz bezüglich der Generierung von MIGBACK zu gewährleisten, enthält die Variable MIGINFO Angaben zu den zugrunde liegenden Quellvariablen. Die genaue Beschreibung finden Sie in der ausführlichen Dokumentation der Biografiedaten (im Kapitel 2.3) oder in der Dokumentation von PPFAD.

B.2 Datensatz PFLEGE

    • PAY und STUFE: Zwei neue Variablen über bezahlte Pflege (PAY) und die Pflegestufe (STUFE)

 

B.3 Datensatz PBIOSPE

    • Der Prozess der Datengenerierung von PBIOSPE wurde komplett überarbeitet, ohne die grundlegenden Prinzipien zu verändern. Daraus resultieren nur wenige, kaum wahrnehmbare Abweichungen in den Hauptvariablen, die den Konsistenzchecks der Daten geschuldet sind. Es lassen sich aber einige sichtbare Änderungen in Form von zusätzlichen Variablen oder zusätzlichen Werten bei bereits bestehenden Variablen beobachten. Die detaillierte Beschreibung finden Sie in unserer Dokumentation der Biografiedaten.

 

B.4 Datensatz BIOPAREN

  • In BIOPAREN gibt es sowohl einige neue Variablen über das Alter der Eltern zum Zeitpunkt der Biographiedatenerhebung als auch Überarbeitungen bestehender Variablen.
  • BIO: Informationsvariable, die angibt, aus welchem Datensatz die Informationen zu den Eltern stammen ($LELA oder $JUGEND)
  • ALTER / VALTER / MALTER: Alter der Befragungsperson / des Vaters / der Mutter jeweils zum Zeitpunkt des Biografie-Interviews
  • VNAT / MNAT: Neuerungen in den Variablen über die Nationalität der Eltern

  • Achtung: Bei der Datengenerierung ist erst nach der Herstellung der DVD ein Fehler entdeckt worden, der die Religionszugehörigkeit der Eltern betrifft.
    nähere Informationen

C. Überarbeitete Variablen

C.1 Datensatz PWEALTH und HWEALTH

Im Jahr 2007 wurden alle Personen, die 17 Jahre oder älter waren, über ihr Vermögen befragt, eine Wiederholung der Befragung von 2002. Diese 'Rohdaten' waren bereits mit der Welle 24 weitergegeben worden. Mit der aktuellen Datenweitergabe wurden sie nun zusammen mit den Daten von 2002 im long-Format aufbereitet und in den Datensätzen PWEALTH (für Personendaten) und HWEALTH (für Haushalte aggregierte Daten) zusammengefasst.
Fehlende Werte, die aufgrund von Antwortverweigerung bei einzelnen Fragen (item non-response) oder Nicht-Teilnahme einzelner Personen (partial unit non-response, hier: fehlende Interviews in ansonsten befragten Haushalten) entstanden sind, wurden in komplexen Prozessen multipel imputiert, unter Zuhilfenahme längsschnittlicher Informationen. Eine ausführliche Dokumentation ist in Vorbereitung. Erste Analysen wurden vorgenommen und in einem DIW Wochenbericht veröffentlicht (Joachim R. Frick und Markus M. Grabka: Gestiegene Vermögensungleichheit in Deutschland, DIW-Wochenbericht 04/2009)

C.2 Datensatz $PEQUIV

C.3 Datensatz HHRF/PHRF

  • $HHRF/$PHRF:Die jährlichen SOEP Gewichts- und Hochrechnungsfaktoren für Querschnitte wurden umfassend überarbeitet und neu randangepasst; dabei erfolgte auch eine bessere regionale Kalibrierung der Gewichte.
    Kurzdokumentation (englisch)

C.4 Datensatz $PGEN

  • EMPLST$$: Dieser Erwerbsstatus-Variablen wurde eine neue Kategorie hinzugefügt. Seit 1998 enthalten die SOEP-Daten Informationen über die Beschäftigung in einer beschützenden Werkstätte. Da die betroffenen Personen nicht angeben, ob sie Vollzeit, Teilzeit oder unregelmäßig arbeiten, wurde die neue Kategorie "beschützende Werkstätte" eingeführt.

C.5 Datensatz $HGEN

  • Die wohnungsbezogenen Variablen im wellenspezifischen $HGEN-Datensatz wurden komplett überarbeitet. Ergänzungen betreffen die vollständige Imputation fehlender Werte (bei item-non-response) für die wohnbezogenen Variablen zu  'Zahl der Wohnräume', 'Heizkosten in Euro', 'Nettomiete ohne Heiz-/Warmwasserkosten in Euro' sowie die neu generierte Variable 'kalte Betriebskosten in Euro'. Schließlich zeigen ggf. 'Flagvariablen' den Imputationsstatus an.
  • Hinweis für erfahrene SOEP-Nutzerinnen und -Nutzer: Die meisten Variablennamen in $HGEN wurden verändert.

C.6 Datensatz PPFAD

    • TODJAHR und TODINFO: Um Panelmortalität von demografischen Gründen des Ausscheidens aus der SOEP-Studie unterscheiden zu können, hat TNS Infratest verschiedene Studien zum gegenwärtigen Aufenthalt von Panelausfällen, d.h. früheren Teilnehmerinnen und Teilnehmern der Studie, durchgeführt. Infolgedessen wurden 17.195 Personen lokalisiert. In 981 Fällen waren die früheren Befragten verstorben. Insgesamt können im SOEP bis 2008 3.781 Verstorbene identifiziert werden (vgl. auch die Dokumentation der Variablen in der PPFAD-Dokumentation). Weitere Informationen finden Sie in dem Methodenbericht von TNS Infratest: Wiederbefragung von Panelausfällen (2006).



keyboard_arrow_up