Direkt zum Inhalt

SOEP-Core v35 (2018) - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

1. Neue Stichprobe in SOEP-Core

Als neue Auffrischungsstichprobe umfasst Sample O ca. 1.000 neue Haushalte. Diese wurden in Kooperation mit dem BBSR mit Hilfe eines neuen, auf Regionaldaten basierenden Stichprobendesign in Gebieten des Städtebauförderprogramms „Sozialen Stadt“ gezogen. Auf Basis der digital vorliegenden Daten zu den Grenzen der Soziale Stadt-Gebiete konnte rückwirkend ab dem Jahr 2000 eine neue Variable erstellt wurde, die kennzeichnet, ob die Wohnadresse des Haushaltes innerhalb eines solchen Fördergebiets liegt oder nicht (siehe auch die Variablenbeschreibung unten unter 4.4.)

2. Anpassungen in unserem neuen Hauptformat SOEPlong

Es gab folgende wichtige Veränderungen über die normalen jährlichen Aktualisierungen hinaus:

  • PKAL: Integration der $PKALOST-Datensätze
  • PL/PKAL: Einheitlich sind die Kalendarienstrings jetzt alle in PL und die monatlichen Variablen in PKAL enthalten 
  • PLUECKEL: Einführung von RYEAR und Korrektur von SYEAR, was bis jetzt RYEAR war
  • PBRUTTO: Wenn eine Variable nicht im jahrsspezifischen Brutto-Datensatz enthalten war, ist der Missing-Code jetzt von -2 auf -8 geändert worden
  • VPL: Die Fallzahl für vergangene Jahre hat sich erhöht, da Fälle ohne SOEP-Auskunftsperson nicht mehr gelöscht werden
  • KIDLONG: Das Harmonisierungskonzept wurde an das der anderen Datensätze angepasst und mehr Variablen aus $KIND-Datensätzen wurden aufgenommen (nähere Informationen unter 5.4)

3. Neuerungen in SOEPhelp

  • In SOEPhelp wurde die Verknüpfung von Topics und Variablen aus den Metadaten mit aufgenommen. In der Datensatzübersicht (Befehl: soephelp (ohne  Variable)) werden alle Topics des Datensatzes und welche Variablen zu welchem Topic gehören aufgelistet.
  • In der Variablenübersicht (Befehl: soephelp [variable]) werden die Topics dieser Variable aufgelistet (und die Beziehung der Topics/Untertopics zueinander). Die Topiclabel sind mit Paneldata.org verknüpft.
  • SOEPhelp hat eine Suchfunktion bekommen! Mit dem Befehl: soephelp, search (SUCHWORT) [verbose] werden alle Variablen aufgelistet, in deren Frage- oder Antworttext das SUCHWORT auftaucht. Die Variablen werden als Liste ausgegeben und in r (für returns) gespeichert. Die Option "verbose" listet die Variablen im Detail auf.
  • Hier noch einmal mehr  Informationen zu SOEPhelp

4. Neue Datensätze und Variablen

4.1 Frühe Kindheit

  • Neuer Datensatz BCBFK „Frühe Kindheit“ mit detaillierten geografischen Informationen über die Orte, an denen die Befragten aufgewachsen sind. Aufgrund der kleinteiligen Regionaldaten ist der Datensatz lediglich lokal im FDZ SOEP nutzbar. Der zugehörige Methodenbericht inkl. Fragebogen ist als SOEP Survey Paper 766 erschienen.

4.2. Ihr Leben in der DDR 

  • Neuer Datensatz DDR18 „Leben in der DDR“, der zugehörige Fragebogen ist als SOEP Survey Paper 676 verfügbar.

4.3 Biografie-Nacherhebung

  • Die Variablen aus der Biographie-Nacherhebung zum Migrationsstatus wurden in den Datensatz BILELA bzw. BIOL integriert.

4.4 Neue Variable SOCURBAN im Datensatz HBRUTTO

  • SOCURBAN: Wohnadresse des Haushaltes liegt in einem Gebiet, das zum Städtebauförderprogramm "Soziale Stadt" (Stand 07/2017) gehört (Ja/nein)

4.5. Neue Variablen im Datensatz EQUIV

  • ILIB1$$: Renten/Pensionen für freie Berufe
  • ILIB2$$: Witwen-/Waisenrenten für freie Berufe

4.6. Neue Variablen im Datensatz BIOJOB

  • 2018 wurden bei Befragten neue Job-Klassifikationen und Prestige Scores erhoben. Diese Informationen sind in den folgenden neuen Variablen abgelegt: STBA10, ISCO08, EGP08, ISEI08, MPS08 und SIOPS08. Die entsprechenden Variablen in den älteren BIOJOB-Versionen STBA, EGP, ISEI, MPS und SIOPS wurden umbenannt in STBA92, EGP88, ISEI88, MPS92 und SIOPS88.

5.5. Änderungen an Datensätzen oder einzelnen Variablen

5.1. Die Gewichtungsvariable PHRF im Datensatz PPATHL

  • Die Gewichte ab 2013 wurden rückwirkend geändert in Bezug auf die Randanpassung. Die Änderungen beziehen sich auf das Zuwanderungsjahr. Zuvor wurden Personen, die vor 1955 zugewandert sind, als MigrantInnen geführt. Jetzt bilden sie - zusammen mit den neu Zugewanderten und in Deutschland Geborenen eine eigene Kategorie. Grund hierfür ist, dass Abgrenzung von AussiedlerInnen in Mikrozensus und SOEP nicht einheitlich abgebildet werden kann.

5.2. Variablen zur Vercodung von Berufsbezeichnungen

  • Seit 2013 wurden offene Berufsbezeichnungen nach ISCO-08 und KldB 2010 vercoded. In diesem Jahr sind die alten Klassifikationen nach ISCO-88 und KldB 92 erstmalig nicht mehr erhältlich. Wir haben deswegen neue Prestige-Scores eingeführt, die auf den neuen Klassifikationen beruhen, und führen die die alten nicht mehr weiter.
  • Kalendarienstrings sind von $PKAL nach $P verschoben bzw. vereinheitlicht worden.

5.3. Bildungsvariablen

  • Bis zur Version soep.v34 wurden die grundlegenden generierten Bildungsvariablen jährlich generiert und so über die Zeit kumuliert. Mit der Einführung von SOEPlong haben wir das Verfahren für generierte Variablen gründlich überarbeitet, um immer alle Bildungsvariablen für jedes Jahr zu berücksichtigen. Zusätzlich zur Tatsache, dass jetzt alle Variablen grundsätzlich aus den SOEPlong-Dateien generiert werden, haben wir noch zwei weitere Modifikationen vorgenommen:
  • Die wichtigsten Bildungsvariablen berücksichtigen jetzt Inkonsistenzen über die Zeit, im Unterschied zu den Bildungsvariablen in PGEN vor soep.v34.
  • Die Variable "Dauer der Ausbildung" ($$BILZEIT) wurde leicht verändert. Um berufliche Ausbildungen ohne Hochschulabschluss besser zu berücksichtigen, haben wir die Bildungsjahre für "Beamte" und "Andere" leicht verändert.

5.4. Datensatz KIDLONG

  • Fehler bei der Integration von Variablen wurden korrigiert, einzeln als versionierte Variablen abgelegt und harmonisierte Variablen erzeugt: Dadurch hat sich die Anzahl erhöht: von 110 Variablen in v.34 auf 267 Variablen in v.35.
  • Fehlende Variablen aus den $KIND Datensätzen wurden in KIDLONG aufgenommen.
  • Die korrigierte Version von BHKIND wurde in KIDLONG aufgenommen.
  • KIDLONG entspricht jetzt dem klassischen Harmonisierungskonzept (siehe  classic harmonization concept).

5.5. Dataset BHKIND

  • Es wurde eine Flag-Variable (BHKFLAG) zur Identifizierung von nicht realisierten Kinderfragebögen hinzugefügt.
  • Fehlende Beobachtungen wurden hinzugefügt: Erhöhung von 15.032 (v.34) auf 15.504 (v.35).
  • Fehler in der Integration von Variablen wurden korrigiert und fehlenden Variablen in BHKIND aufgenommen: Erhöhung von 85 (v.34) auf 129 Variablen (v.35).
  • Alle Variablen wurden umbenannt und entsprechen nun dem SOEP-Namenskonzept (siehe SOEP naming conventions).

5.6. Dataset BIKIND

  • Es wurde eine Flag-Variable (BIKFLAG) zur Identifizierung von nicht realisierten Kinderfragebögen hinzugefügt.
  • Alle Variablen wurden umbenannt und entsprechen nun dem SOEP-Namenskonzept (siehe SOEP naming conventions).

5.7. Variable PARID im Datensatz PPATHL

  • Partnerschaften von Befragten mit Nettocodes zwischen 40 und 49 wurden aufgelöst und erhalten künftig -2 "trifft nicht zu".

5.8. Variable HGOWNER im Datensatz HGEN

  • In den Stichproben M3-M5 in 2017 wurden in der Variable HGOWNER einige fehlende Werte durch die Information ersetzt, dass sich der Haushalt in einer Unterkunft für Geflüchtete befindet.

5.9. Datensatz INTERVIEWER

  • Das Jahr 2016 beinhaltet nun auch Informationen der Samples L2-M4.
  • Die Variable zur Länge der Interviews (LENGTHINT) wurde gestrichen und durch drei Variablen ersetzt, die jeweils die durchschnittliche Interviewlänge nur eines Instruments angeben (LENGTHINT- H / P / J).
  • Die bis dato in die Anzahl der Interviews auf Personenebene (AMOUNTINTP) einfließenden Jugendbefragungen haben eine eigene Variable bekommen (AMOUNTINTJ).

5.10. Datensatz BIOAGE17

  • Bisher enthielt BIOAGE17 die Identifier für die Mutter (BYMNR) und den Vater (BYVNR) der/des Befragten. BIOPAREN enthält die Identifier der Eltern als MNR und VNR und kann so leicht mit BIOAGE17 gemerged werden.
  • Wunschberufsvariablen ISCO88 wird von ISCO08 abgelöst. Gleiches gilt für BYKLAS: Die alte Version von 1992 wird durch die Version von 2010 abgelöst.

5.11. Datensatz BIOAGEL

  • Die interne Trennung in BIOAGE 8a und 8b bzw. 81 und 82 wurde aufgehoben, daher enthält der Datensatz BIOAGEL jetzt für die Fragebögen über die 7-8-jährigen Kinder eine Zeile pro Kind und Befragungsperson. Das heißt, wenn beide Eltern je einen Fragebogen ausgefüllt haben, dann gibt es für das entsprechende Kind in diesem Jahr zwei Zeilen (eine Zeile pro Elternteil), die sich aber durch die unterschiedliche PIDE (PID der Befragungsperson) identifizieren lassen.

keyboard_arrow_up