Direkt zum Inhalt

SOEP-Core v26 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

Die Datenweitergabe 2010 mit den Daten von 1984-2009 (v26) enthält weitgehende Verbesserungen, Ergänzungen und änderungen. Neben den üblichen wellenspezifischen Datensätzen ZPBRUTTO, ZP, ZPKAL, ZPGEN, ZPAGE17, ZHBRUTTO, ZH, ZHGEN, ZKIND and YPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten änderungen

1. Beta Version des 'long'-Formats

Die SOEP-Daten werden dieses Jahr erstmalig in der Standard-Datenweitergabe in diesem nutzerfreundlicheren Format, genannt 'SOEPlong' weitergegeben - in einer Beta-Version. SOEPlong ist eine Art komprimierte Version der SOEP-Daten: Statt der Weitergabe als einzelne wellenspezifische Datensätze werden alle Jahre und Kohorten im 'long format' zusammengefasst weitergegeben.

2. Neues Sample I
Als Beitrag zu den laufenden SOEP-Innovationen begann im Herbst 2009 die Feldarbeit für eine neue Stichprobe I. Sie wurde genutzt, um den Effekt unterschiedlicher Incentivierungsstrategien auf die Beteiligungsquote zu testen und wird Teil eines umfassenderen Innovationssamples werden. Im SOEPnewsletter 89 hatten wir unsere Pläne in dieser Richtung beschrieben.

In vier zufällig ausgewählten Gruppen wurden folgende Anreizstrategien genutzt:

  1. SOEP Standard-Incentive (ein Lotterie-Los pro Antwortperson),
  2. die Wahl zwischen einem Lotterie-Los und fünf Euro pro Personeninterview,
  3. fünf Euro pro Personeninterview,
  4. zehn Euro pro Personeninterview.

Die Daten der neuen Stichprobe I sind in der aktuellen Datenweitergabe (SOEP, v26) enthalten, aber aufgrund der spezifischen Merkmale des Samples konnte kein gemeinsames Gewichtungsschema mit den anderen SOEP-Stichproben zur Verfügung gestellt werden: In Stichprobe I wurden alle Antwortverweigerer der vier Gruppen noch einmal schriftlich befragt. Die Biografie-Informationen für die TeilnehmerInnen von Stichprobe I konnten noch nicht in die Biografiedatensätze integriert werden, da diese standardmäßig erst in der 2. Welle erhoben werden. Dasselbe gilt für Biografie-Informationen im Datensatz PPFAD, so ist z.B. die Variable MIGBACK für diese Stichprobe komplett auf -2 gesetzt.

Darüber hinaus wurden folgende Ergänzungen und änderungen vorgenommen:

3. Neue und umbenannte Datensätze

  • Daten der Kognitionstests (COGDJ)
    Erstmalig sind alle vorhandenen Daten des Kognitionstests für junge Leute ("Denksport Jugend", DJ) in dieser Datenweitergabe enthalten. Seit 2006 wird dieser Test allen jungen Erstbefragten (im Alter von 16) vorgelegt.

4. Neue Variablen

4.1 Datensatz $HGEN
Es gibt zwei neue Variablen, die die Qualität einer Wohnung beschreiben :

  • EQPLIF$$: "Aufzug / Fahrstuhl im Haus"
  • EQPNRJ$$: "alternative Energiequelle"

4.2 Datensatz $PEQUIV:

  • Es gibt eine neue Variable für zusätzliche monetäre Leistungen für Kinder, zusammen mit einer Flag-Variable, die eine Imputation anzeigt (ADCHB$$ und FADCHB$$).

4.3 Datensatz $HBRUTTO - Kalenderjahr des Interviews

  • In dieser Datenweitergabe findet sich zum ersten Mal eine Variable (ZDATUMY), die das Kalenderjahr des Interviews angibt. Nötig geworden ist dies aufgrund der längeren Feldarbeit im Zusammenhang mit der Stichprobe I. Dies führte dazu, dass in einigen Fällen ein Interview erst 2010 realisiert werden konnte.

5. überarbeitete Variablen

5.1 Datensatz $HGEN  

  • Die Variablen zum Haushaltstyp TYP1HH$$ und TYP2HH$$ wurden komplett überarbeitet und auf intertemporale Konsistenz geprüft.

5.2 Datensätze $KIND – KIDLONG

  • Die Variablen wurden ebenfalls komplett überarbeitet und liegen jetzt sowohl in längsschnittlicher Form (KIDLONG) als auch weiterhin im Querschnittformat in $KIND vor. Zu beachten ist, dass die Variablennamen in KIDLONG zum Teil geändert werden mussten, um über die Zeit konsistent zu bleiben.

5.3 Datensätze BIOMARSM/BIOMARSY  

  • Die Spelldaten zum Familienstatus wurden überarbeitet.

5.4 Datensatz BIOTWIN

Der Datensatz BIOTWIN enthält ab dieser Welle Z 100 Fälle mehr. Dieser beachtliche Anstieg der Fallzahl ist das Ergebnis einer Anpassung im Datengenerierungsprozess: Im Gegensatz zum bisherigen Verfahren werden jetzt zusätzlich alle Geschwister mit identischem Geburtsjahr, bei denen die Angabe zum Geburtsmonat fehlt, als Zwillinge angesehen. Diese weniger restriktive Datengenerierung ist der Annahme geschuldet, dass zwei separate Geburten in einem einzigen Kalenderjahr extrem selten vorkommen. Da jedoch trotzdem die Gefahr besteht, dass durch fälschlicherweise als Zwillinge bezeichnete Personen aus der Gruppe mit den fehlenden Geburtsmonaten die Durchschnittswerte in BIOTWIN verzerrt werden, haben wir ein neues Label in die Variable INFOTWIN eingeführt. Dadurch kann diese besondere Gruppe der Zwillinge identifiziert werden (Code "6": Erfassung seit 2007, übereinstimmung Geburtsjahr, fehlender -monat; im Gegensatz dazu "5": Erfassung seit 2007, übereinstimmung Geburtsjahr und -monat).
In der aktuellen Datenweitergabeversion (Welle Z, besser: v26) umfasst der Datensatz BIOTWIN 250 Zwillings- und 5 Drillingspaare.

labels infotwin: 
[1] Zwillinge - nicht in 2006 (gen.)
[2] Zwillinge - 2006 (Antwort nicht verifizierbar)
[3] Zwillinge - 2006 (Antwort verweigert)
[4] Zwillinge - 2006 (Antwort validiert)
[5] Zwillinge - seit 2007 (gen.)
[6] Zwillinge - seit 2007 (gen.)

 

5.5 Kleinere Überarbeitungen

  • Korrektur in MONTH08
  • Korrektur einiger weniger Fälle im IMMIYEAR
  • Austausch der Variablennamen für die Fragen 25 und 26 in YH und ZH
keyboard_arrow_up