Direkt zum Inhalt

SOEP-Core v33 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

SOEP-Core soep.v33

Die neue Datendistribution (1984–2016) "SOEP v33" bietet für den aktuellsten Erhebungszeitraum des Jahres 2016 die üblichen wellenspezifischen Variablen in BGPBRUTTO, BGP, BGPKAL, BGPGEN, BGHBRUTTO, BGH, BGHGEN, BGKIND, BGP_MIG und BFPLUECKE sowie die aktualisierten Variablen/Datensätze mit längsschnittlichen Komponenten (PFAD-Dateien, Biografie-Dateien, Spelldaten und Gewichtungsfaktoren). Die Besonderheiten zusätzlicher neuer Stichproben, Datensätze oder Variablen sowie Veränderungen in der Aufbereitung älterer sind hier aufgeführt.

1 Neue Stichproben aus der IAB-BAMF-SOEP-Befragung von Geflüchteten (Samples M3/M4)

Mit der Version 33 der SOEP Daten werden auch die integrierten Daten der IAB-BAMF-SOEP-Befragung von Geflüchteten 2016 in Deutschland als zwei Ergänzungsstichproben des SOEP weitergegeben. Die Stichproben stützen sich auf die Grundgesamtheit der Geflüchteten unabhängig von ihrem Aufenthaltsstatus, die vom 1. Januar 2013 bis 31. Januar 2016 nach Deutschland eingereist sind. Die Samples wurden durch eine zusätzliche Finanzierung durch BA/IAB/BMAS im Fall von M3 realisiert und durch das BMBF im Fall von M4. In Stichprobe M4 wurden besonders viele geflüchtete Familien gezogen, in denen Kinder und Jugendliche leben.

Die Datengrundlage für die Ziehung der Stichprobe bildete das Ausländerzentralregister (AZR). Es wurden im Rahmen dieser Stichprobe im Jahr 2016 4.816 erwachsene Personen in 3.554 Haushalten interviewt sowie Basisangaben von in diesen Haushalten lebenden 5.717 Minderjährigen erhoben. Zur Durchführung der Befragung wurde der Fragebogen in sieben Sprachen übersetzt, teilweise wurden SprachmittlerInnen eingesetzt. Um den besonderen Bedingungen der Zielgruppe Rechnung zu tragen, wurden darüber hinaus audiounterstützte Erhebungsinstrumente entwickelt.

Die Befragung setzt sich aus einem integrierten Personen-Lebenslauffragebogen und einem Haushaltsfragebogen sowie einem Fragebogen für InterviewerInnen zusammen. Wie schon bei den Samples M1 und M2 (IAB-SOEP-Migrationsstichproben) wurden die TeilnehmerInnen nach ihrer Zustimmung gefragt, die Befragungsdaten mit den Integrierten Erwerbsbiografien des IAB zu verknüpfen. Die verknüpften Daten werden über das Forschungsdatenzentren der BA am IAB für interessierte Forscherinnen und Forscher voraussichtlich ab Frühjahr 2018 zur Verfügung stehen.

Eine ausführlichere Beschreibung des Studiendesign in: Martin Kroh et al. 2016. Das Studiendesign der IAB-BAMF-SOEP-Befragung von Geflüchteten. SOEP Survey Papers 365: Series C. Berlin: DIW Berlin / SOEP.

 

1.1 Integration ins SOEP und die Originaldaten (BGP und BGP_REF)

Die Originaldaten der Befragungsinstrumente, die in den Stichproben M3 und M4 genutzt wurden, sind im Datensatz BGP_REF abgelegt, hier sind Personen- und Biografiedaten wie im Fragebogen kombiniert. Die Variablen sind darüber hinaus aber auch in anderen Standard- oder generierten Datensätzen abgelegt:

  • Variablen, die so auch in Personenfragebögen anderer Stichproben vorkommen, wurden in den Datensatz BGP integriert. Ebenso wurden in BGP alle diejenigen Variablen integriert, die zwar spezifisch für den Geflüchteten-Fragebogen sind, aber auch in den künftigen Wellen vorkommen werden.
  • Variablen, die so auch in den Biografiefragebögen anderer Stichproben vorkommen, wurden in die jeweiligen Biografie-Datensätze integriert (z.B. BIOMARSM).
  • Die vollständige Migrationsbiografie wurde in dem neuen Datensatz REFUGSPELL aufbereitet.

2 Neue Datensätze und Variablen

2.1 Datensätze, die auf einem Erhebungsinstrument basieren (z.B. $P und $H)

2.1.1 $PINSTRUMENT und $HINSTRUMENT

Mit der Integration der neuen Migrationsstichproben seit 2013 enthalten die $P- und $H-Datensätze die Daten aus mehr als einem Erhebungsinstrument. Basis ist nach wie vor der Papierfragebogen der Stichproben A-L1, er wird aber mit Daten aus den samplespezifischen Erhebungsinstrumenten aufgefüllt. Damit dies für die NutzerInnen einfach nachvollziehbar ist, gibt es ab der Welle BD (2013) jetzt in $H und $P jeweils eine Variable, die für jeden Fall das jeweilige Instrument identifiziert.

2.1.2. Zusätzliche Variablen bei den Berufcodes

Es gibt jetzt deutlich mehr Variablen, die kodierte Berufsinformationen in den verschiedenen fragebogenbasierenden Datensätzen ($P, $JUGEND, $LUECKE, außerdem $P_MIG und $P_REFUGEES) enthalten. Die Variablen können mit Hilfe der Suffixe identifiziert werden, welche die genutzte Klassifikation kennzeichnet. Für alle Berufe sind ISCO-88 und KldB92 verfügbar, ältere  $P-Datensätze beinhalten auch ISCO-68 und bei neueren Datensätzen sind  ISCO-08 und KldB2010 verfügbar.

2.1.3. $JUGEND

Seit 2000 (Welle Q) erhalten Erstbefragte zwischen 16 und 17 Jahren einen separaten Biographiefragebogen, mit zusätzlichen jugendspezifischen Fragen wie beispielsweise dem Verhältnis zu ihren Eltern oder zu ihrem Freizeitverhalten. Bis jetzt wurden die hieraus gewonnen Daten nur teilweise und in aufbereiteter Form durch den Datensatz BIOAGE17 zur Verfügung gestellt. Ab dieser Version werden die kompletten Daten in einzelnen $JUGEND-Datensätzen zur Verfügung stehen.

2.2. Neue Variablen in PPFAD

2.2.1. SEXOR

Die Variable SEXOR verbindet Informationen der sexuellen Orientierung von Befragten aus verschiedenen Quellen innerhalb des SOEP. Im Jahr 2016 (Welle BG) wurde zum ersten Mal im SOEP eine direkte Frage zum Thema sexueller Orientierung gestellt.

2.2.2. Geburtsregion

Die Variable gibt das Bundesland des Geburtsortes an und zwar für Personen, die nach 2012 befragt und innerhalb des Gebietes der jetzigen Bundesrepublik geboren wurden. Detailliertere Informationen zum Geburtsort bis auf die Ebene der Gemeinde kann im Rahmen eines Gastaufenthaltes am FDZ SOEP genutzt werden (hierzu bitte Email kontaktieren).

2.3. BIOAGEL

BIOAGEL beinhaltet jetzt Informationen des neuen Fragebogens für 13-14-Jährige, der 2016 (v33) eingeführt wurde. Der Fragebogen beinhaltet Variablen zu Persönlichkeit, Freizeitaktivitäten, persönlichen Kontakten, Bildungsziele und Familienleben und wird von den jungen Befragten selbst beantwortet. Viele der Fragen stammen aus dem Fragebogen für 11-12-Jährige, der im Jahr 2014 (v31) im SOEP eingeführt wurde. Für die Befragten, die diesen Fragebogen bereits ausgefüllt haben, stellen wir nun erstmals die längsschnittlichen Informationen über die Entwicklung in vielen Bereichen, beispielsweise Persönlichkeit und Bildungsziele, zur Verfügung.

2.4. REFUGSPELL

Für die Migrationsbiografien der Geflüchteten-Befragung  wurde der Spell-Datensatz REFUGSPELL erstellt. Die Variablen in MIGSPELL und REFUGSPELL wurden von verschiedenen Instrumenten abgeleitet und überschneiden sich nur teilweise. Die Datenstruktur erlaubt es, die beidenDatensätze, falls gewünscht,  miteinander zu verbinden. Eine detaillierte Dokumentation finden Sie in der Biografie-Datendokumentation des SOEP.

2.5. Neue Variablen in $PGEN

$P_RELIGION (Religious affiliation)

    Eine integrierte Version der Religionszugehörigkeit für alle in 2016 befragten Personen, da es in der Befragung der Migrationsstichproben zusätzliche Differenzierungen gibt.

PICORIG[A-C]$$ (Partei-Identifikation im Herkunftsland)

  • PICORIGA16 - Partei-Identifikation im Herkunftsland
  • PICORIGB16 - Parteien im Herkunftsland, mit der die Identifikation besteht
  • PICORIGC16 - Partei-Familie, zu der die Partei gehört

2.6 Neue Variablen in $PEQUIV

  • KIDY$$ Einkommen der Kinder im Haushalt
  • FKIDY$$ Imputationsflagge für das Einkommen von Kindern im Haushalt
  • IWITH$$ Gewinnentnahme
  • FWITH$$ Imputationsflagge für Gewinnentnahme

2.7. Greifkraft-Daten für 2016

GRIPSTR Update: Die Greifkraft-Daten der Befragung 2016 sind jetzt im GRIPSTR-Datensatz integriert.

3. Berichtigungen geänderte Datensätze oder Variablen

3.1. Variablen in PPFAD

3.1.1. GERMBORN, CORIGIN und IMMIYEAR:

Die Informationen des Geburtslandes (GERMBORN, CORIGIN) und das Jahr der Immigration (IMMIYEAR) werden nicht mehr mit den Vojahresangaben in PPFAD verglichen und entsprechend den Vorjahresangaben in PPFAD vercoded. Stattdessen sind alle verfügbaren Informationen der Befragten im SOEP gesammelt und verglichen worden, um die Variablen zu codieren. Es wurde sich bemüht (1) über alle Befragten Informationen bereitzustellen,  was zu einer erheblichen Reduzierung der fehlenden Werte und (2) Gruppenkategorien für Geburtsländer wie Osteuropa (jetzt z.B. Polen) zu vermeiden. Drei neue Variablen, GERMBORNINFO, CORIGININFO, und IMMIYEARINFO werden in v33 eingeführtt, um auf die Qualität der Informationen in GERMBORN, CORIGIN, und IMMIYEAR hinzuweisen.

3.1.2. MIGBACK und MIGINFO:

Die Änderungen in GERMBORN haben Einfluss auf MIGBACK und MIGINFO, resultierend aus einigen Werteänderungen und einem stärkeren Fokus auf die Verfügbarkeit von elterlichen Informationen in MIGINFO.

3.1.3. LOC1989:

Es wurden verschiedene Proxies genutzt, um den Wohnsitz der Befragten im Jahr 1989 zu vercoden (Variable HCLOC1989) was eine Veränderung einiger Werte zur Folge hat. Eine neue Variable LOCINFO wird in v33 eingeführt, die auf die Qualität der Informationen in der Variable HLOC1989 hinweist. 

3.2. BIOIMMIG

Die Zielpopulation und die Stichprobengröße des BIOIMMIG-Datensatzes hat sich geändert. Der Datensatz ist nicht länger bechränkt auf die Befragten, die im Ausland geboren wurden und keine deutsche Staatsbürgerschaft besitzen. Außerdem sind Fälle ohne valide BIOIMMIG-Informationen irgendeiner Welle oder Fälle, die nur valide Informationen über BISCGCF enthalten, nicht länger im Datensatz.

3.3. Update von PWEALTH und HWEALTH

Bislang waren für 2012 die ehemaligen FiD-Samples nicht integriert, obwohl diese auch den Vermögensfragebogen erhalten hatten. Mit der jetzigen Datenweitergabe sind auch diese Fälle integriert.

3.4. BIOPAREN

BIOPAREN wurde ganz neu aufgebaut. Es wurden redundante Variablen entfernt und Variablennamen einheitlich ins Englische übersetzt (das bedeutet z.B. dass VNR jetzt FNR ist, weil „Vater“ jetzt „father“ wurde). Bitte schauen Sie sich die Dokumentation an, für eine ausführliche Liste der Änderungen und eine aktualisierte Übersicht der Variablennamen.

3.5. $PGEN

Bei den Variablen DEGREE$$, FIELD$$, TRAIN[A-D]$$ ergeben sich bei einigen Personen in der Retrospektive Abweichungen. Die Systematik wurde bei inkonsistenten Mehrfachnennungen verbessert. Zudem wurde der Umsteigeschlüssel der Berufsangaben nach Klassifikation ISCO-88 zu KldB92 für TRAIN[A-D]$$ von zwei auf vier Stellen erweitert und der Umsteigeschlüssel selbst überarbeitet.

3.6. $HGEN

In der Welle BF gab es eine größere Änderung bei der Abfrage der Miete. So wurden die Mietnebenkosten in detaillierter Weise als bisher abgefragt. Ex post stellte sich heraus, dass diese Form der Befragung für einige Befragte zu komplex war und die Umstellung zu einem leichten Bruch in der Zeitreihe führte. Infolgedessen sind die Durchschnittsmieten laut SOEP – wie auch in Vergleichsstatistiken – über die Zeit systematisch angestiegen, allerdings nicht mehr in 2014 und 2015. Dieser Bruch ist über die veränderte Abfrage zu erklären. Mit der Welle BG erfolgte daher wieder eine Abfrage der Miete wie in Welle BD. Mit der Welle BG sind zudem die Geflüchtetenstichproben M3 und M4 Teil des SOEP. Da diese nicht zu Nebenkosten befragt wurden, wurde für diese keine Mietvariable generiert.

keyboard_arrow_up