SOEP-Core v33.1 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

SOEP-Core soep.v33.1

1 Löschung nicht korrekt durchgeführter Interviews in der IAB-BAMF-SOEP Befragung Geflüchteter

Im Zuge der Vorbereitung der Wiederholungsbefragung wurde vom Befragungsinstitut festgestellt, dass ein Interviewer / eine Interviewerin die Befragungen nicht ordnungsgemäß durchgeführt hat. Betroffen sind sechs Prozent der realisierten Haushaltsinterviews dieses Subsamples. Die betroffenen Haushalte wurden aus dem Datensatz entfernt, stehen aber an einem Gastarbeitsplatz im SOEP-RDC auf Nachfrage für survey-methodologische Analysen zu Verfügung. Neben der Löschung der entsprechenden Zeilen in allen betroffenen Datensätzen erfolgten noch die folgenden Anpassungen:

  • Aufgrund der Löschung der Haushalts- und Personen-Interviews war ein Update der Gewichte notwendig (Datensatz HHRF und PHRF), das nunmehr der leicht verminderten Fallzahl im Befragungsjahr 2016 Rechnung trägt.
  • Aktualisierung bzw Übernahme der neuen Gewichte im Datensatz BGPEQUIV
  • Aktualisierung der Imputation des monatlichen Haushaltsnettoeinkommen (I[1-5]HINC16) für diese Stichprobe in BGHGEN und im Datensatz MIHINC.

2 Update INTID in BG files

In den Datensätzen der aktuellen Welle BG waren zum Teil fehlerhaft zugewiesene Interviewer-IDs enthalten, diese wurde korrigiert.

3 Korrigierte Anzahl an Einträgen in $$KIND (2014-2016)

In einem Abgleich der zentralen Variablen zur Populationszugehörigkeit in PPFAD und den $$KIND-Datensätzen wurden Inkonsistenzen behoben. In den $$KIND-Datensätzen der Jahre 2014 bis 2016 gab es einen Fehler bezügich der Abgrenzung der Zielpopulation um ein Jahr. Teilweise fehlten hierdurch die folgenden Geburtsjahrgänge in den Kinderfiles:

  •   bekgjahr: 1998 für alle Stichproben
  •   bfkgjahr: 1999 für alle Stichproben
  •  bgkgjahr: 1999 nur die Stichproben M3 und M4 in 2016

Diese Korrekturen haben ebenfalls Einfluss auf die Fallzahl im File KIDLONG, der dementsprechend ebenfalls aktualisiert wurde.

3.1 Änderung der $$NETTO-Codes in 96 Fällen (Kinder) in den Jahren 2014-2016

Gleichzeitig kam es im Rahmen der Datenprüfung zum Abgleich und Korrektur der $$NETTO-Codes in PPFAD. In den Befragungsjahren 2014 bis 2016 wurden fälschlich 96 Kinder auf der Variable $$NETTO im Datensatz PPFAD der Code "20" statt "30" zugewiesen. Dieser Fehler ist in der Korrektur der Variablen $$NETTO in v33.1 behoben. Das Update hat jedoch auch eine Korrektur der Personengewichte in den betroffenen Befragungsjahren notwendig gemacht (Datensatz PHRF), da sich die Abgrenzung der Personen in realisierten Haushalten, die ein gültiges Gewicht erhalten, an der Variablen $$NETTO orientiert. Auch das Update der Gewichtung ist in v33.1 enthalten.

4 Update BIOPAREN

In BIOAPREN konnten einige Werte bei den Flag-Variablen für die (Berufs-)Ausbildung der Eltern und ggf. deren Todesjahre ergänzt werden.

5 Update MIGSPELL

Der Algorithmus zur Imputation fehlender Datumsangaben in den Spells wurde optimiert. Daher haben sich in v33.1 die imputierten Variablen sowie die aus diesen abgeleiteten Variablen verändert. Im Einzelnen: alle Variablen mit dem Zusatz _imp sowie staytime. Die Änderungen betrafen insgesamt 349 von 15.640 Spells.

6 Update AUSB16 in BGPGEN

In der Variablen AUSB16 („erforderliche Ausbildung im Beruf“) in BGPGEN wurden die fehlenden Angaben [Missings -1] für Befragte ohne Jobwechsel anhand der Information aus dem Vorjahr aufgefüllt. Sie enthält jetzt deutlich weniger Missings.

SOEP-Core soep.v33

Die neue Datendistribution (1984–2016) "SOEP v33" bietet für den aktuellsten Erhebungszeitraum des Jahres 2016 die üblichen wellenspezifischen Variablen in BGPBRUTTO, BGP, BGPKAL, BGPGEN, BGHBRUTTO, BGH, BGHGEN, BGKIND, BGP_MIG und BFPLUECKE sowie die aktualisierten Variablen/Datensätze mit längsschnittlichen Komponenten (PFAD-Dateien, Biografie-Dateien, Spelldaten und Gewichtungsfaktoren). Die Besonderheiten zusätzlicher neuer Stichproben, Datensätze oder Variablen sowie Veränderungen in der Aufbereitung älterer sind hier aufgeführt.

1 Neue Stichproben aus der IAB-BAMF-SOEP-Befragung von Geflüchteten (Samples M3/M4)

Mit der Version 33 der SOEP Daten werden auch die integrierten Daten der IAB-BAMF-SOEP-Befragung von Geflüchteten 2016 in Deutschland als zwei Ergänzungsstichproben des SOEP weitergegeben. Die Stichproben stützen sich auf die Grundgesamtheit der Geflüchteten unabhängig von ihrem Aufenthaltsstatus, die vom 1. Januar 2013 bis 31. Januar 2016 nach Deutschland eingereist sind. Die Samples wurden durch eine zusätzliche Finanzierung durch BA/IAB/BMAS im Fall von M3 realisiert und durch das BMBF im Fall von M4. In Stichprobe M4 wurden besonders viele geflüchtete Familien gezogen, in denen Kinder und Jugendliche leben.

Die Datengrundlage für die Ziehung der Stichprobe bildete das Ausländerzentralregister (AZR). Es wurden im Rahmen dieser Stichprobe im Jahr 2016 4.816 erwachsene Personen in 3.554 Haushalten interviewt sowie Basisangaben von in diesen Haushalten lebenden 5.717 Minderjährigen erhoben. Zur Durchführung der Befragung wurde der Fragebogen in sieben Sprachen übersetzt, teilweise wurden SprachmittlerInnen eingesetzt. Um den besonderen Bedingungen der Zielgruppe Rechnung zu tragen, wurden darüber hinaus audiounterstützte Erhebungsinstrumente entwickelt.

Die Befragung setzt sich aus einem integrierten Personen-Lebenslauffragebogen und einem Haushaltsfragebogen sowie einem Fragebogen für InterviewerInnen zusammen. Wie schon bei den Samples M1 und M2 (IAB-SOEP-Migrationsstichproben) wurden die TeilnehmerInnen nach ihrer Zustimmung gefragt, die Befragungsdaten mit den Integrierten Erwerbsbiografien des IAB zu verknüpfen. Die verknüpften Daten werden über das Forschungsdatenzentren der BA am IAB für interessierte Forscherinnen und Forscher voraussichtlich ab Frühjahr 2018 zur Verfügung stehen.

Eine ausführlichere Beschreibung des Studiendesign in: Martin Kroh et al. 2016. Das Studiendesign der IAB-BAMF-SOEP-Befragung von Geflüchteten. SOEP Survey Papers 365: Series C. Berlin: DIW Berlin / SOEP.

 

1.1 Integration ins SOEP und die Originaldaten (BGP und BGP_REF)

Die Originaldaten der Befragungsinstrumente, die in den Stichproben M3 und M4 genutzt wurden, sind im Datensatz BGP_REF abgelegt, hier sind Personen- und Biografiedaten wie im Fragebogen kombiniert. Die Variablen sind darüber hinaus aber auch in anderen Standard- oder generierten Datensätzen abgelegt:

  • Variablen, die so auch in Personenfragebögen anderer Stichproben vorkommen, wurden in den Datensatz BGP integriert. Ebenso wurden in BGP alle diejenigen Variablen integriert, die zwar spezifisch für den Geflüchteten-Fragebogen sind, aber auch in den künftigen Wellen vorkommen werden.
  • Variablen, die so auch in den Biografiefragebögen anderer Stichproben vorkommen, wurden in die jeweiligen Biografie-Datensätze integriert (z.B. BIOMARSM).
  • Die vollständige Migrationsbiografie wurde in dem neuen Datensatz REFUGSPELL aufbereitet.

2 Neue Datensätze und Variablen

2.1 Datensätze, die auf einem Erhebungsinstrument basieren (z.B. $P und $H)

2.1.1 $PINSTRUMENT und $HINSTRUMENT

Mit der Integration der neuen Migrationsstichproben seit 2013 enthalten die $P- und $H-Datensätze die Daten aus mehr als einem Erhebungsinstrument. Basis ist nach wie vor der Papierfragebogen der Stichproben A-L1, er wird aber mit Daten aus den samplespezifischen Erhebungsinstrumenten aufgefüllt. Damit dies für die NutzerInnen einfach nachvollziehbar ist, gibt es ab der Welle BD (2013) jetzt in $H und $P jeweils eine Variable, die für jeden Fall das jeweilige Instrument identifiziert.

2.1.2. Zusätzliche Variablen bei den Berufcodes

Es gibt jetzt deutlich mehr Variablen, die kodierte Berufsinformationen in den verschiedenen fragebogenbasierenden Datensätzen ($P, $JUGEND, $LUECKE, außerdem $P_MIG und $P_REFUGEES) enthalten. Die Variablen können mit Hilfe der Suffixe identifiziert werden, welche die genutzte Klassifikation kennzeichnet. Für alle Berufe sind ISCO-88 und KldB92 verfügbar, ältere  $P-Datensätze beinhalten auch ISCO-68 und bei neueren Datensätzen sind  ISCO-08 und KldB2010 verfügbar.

2.1.3. $JUGEND

Seit 2000 (Welle Q) erhalten Erstbefragte zwischen 16 und 17 Jahren einen separaten Biographiefragebogen, mit zusätzlichen jugendspezifischen Fragen wie beispielsweise dem Verhältnis zu ihren Eltern oder zu ihrem Freizeitverhalten. Bis jetzt wurden die hieraus gewonnen Daten nur teilweise und in aufbereiteter Form durch den Datensatz BIOAGE17 zur Verfügung gestellt. Ab dieser Version werden die kompletten Daten in einzelnen $JUGEND-Datensätzen zur Verfügung stehen.

2.2. Neue Variablen in PPFAD

2.2.1. SEXOR

Die Variable SEXOR verbindet Informationen der sexuellen Orientierung von Befragten aus verschiedenen Quellen innerhalb des SOEP. Im Jahr 2016 (Welle BG) wurde zum ersten Mal im SOEP eine direkte Frage zum Thema sexueller Orientierung gestellt.

2.2.2. Geburtsregion

Die Variable gibt das Bundesland des Geburtsortes an und zwar für Personen, die nach 2012 befragt und innerhalb des Gebietes der jetzigen Bundesrepublik geboren wurden. Detailliertere Informationen zum Geburtsort bis auf die Ebene der Gemeinde kann im Rahmen eines Gastaufenthaltes am FDZ SOEP genutzt werden (hierzu bitte Email kontaktieren).

2.3. BIOAGEL

BIOAGEL beinhaltet jetzt Informationen des neuen Fragebogens für 13-14-Jährige, der 2016 (v33) eingeführt wurde. Der Fragebogen beinhaltet Variablen zu Persönlichkeit, Freizeitaktivitäten, persönlichen Kontakten, Bildungsziele und Familienleben und wird von den jungen Befragten selbst beantwortet. Viele der Fragen stammen aus dem Fragebogen für 11-12-Jährige, der im Jahr 2014 (v31) im SOEP eingeführt wurde. Für die Befragten, die diesen Fragebogen bereits ausgefüllt haben, stellen wir nun erstmals die längsschnittlichen Informationen über die Entwicklung in vielen Bereichen, beispielsweise Persönlichkeit und Bildungsziele, zur Verfügung.

2.4. REFUGSPELL

Für die Migrationsbiografien der Geflüchteten-Befragung  wurde der Spell-Datensatz REFUGSPELL erstellt. Die Variablen in MIGSPELL und REFUGSPELL wurden von verschiedenen Instrumenten abgeleitet und überschneiden sich nur teilweise. Die Datenstruktur erlaubt es, die beidenDatensätze, falls gewünscht,  miteinander zu verbinden. Eine detaillierte Dokumentation finden Sie in der Biografie-Datendokumentation des SOEP.

2.5. Neue Variablen in $PGEN

$P_RELIGION (Religious affiliation)

    Eine integrierte Version der Religionszugehörigkeit für alle in 2016 befragten Personen, da es in der Befragung der Migrationsstichproben zusätzliche Differenzierungen gibt.

PICORIG[A-C]$$ (Partei-Identifikation im Herkunftsland)

  • PICORIGA16 - Partei-Identifikation im Herkunftsland
  • PICORIGB16 - Parteien im Herkunftsland, mit der die Identifikation besteht
  • PICORIGC16 - Partei-Familie, zu der die Partei gehört

2.6 Neue Variablen in $PEQUIV

  • KIDY$$ Einkommen der Kinder im Haushalt
  • FKIDY$$ Imputationsflagge für das Einkommen von Kindern im Haushalt
  • IWITH$$ Gewinnentnahme
  • FWITH$$ Imputationsflagge für Gewinnentnahme

2.7. Greifkraft-Daten für 2016

GRIPSTR Update: Die Greifkraft-Daten der Befragung 2016 sind jetzt im GRIPSTR-Datensatz integriert.

3. Berichtigungen geänderte Datensätze oder Variablen

3.1. Variablen in PPFAD

3.1.1. GERMBORN, CORIGIN und IMMIYEAR:

Die Informationen des Geburtslandes (GERMBORN, CORIGIN) und das Jahr der Immigration (IMMIYEAR) werden nicht mehr mit den Vojahresangaben in PPFAD verglichen und entsprechend den Vorjahresangaben in PPFAD vercoded. Stattdessen sind alle verfügbaren Informationen der Befragten im SOEP gesammelt und verglichen worden, um die Variablen zu codieren. Es wurde sich bemüht (1) über alle Befragten Informationen bereitzustellen,  was zu einer erheblichen Reduzierung der fehlenden Werte und (2) Gruppenkategorien für Geburtsländer wie Osteuropa (jetzt z.B. Polen) zu vermeiden. Drei neue Variablen, GERMBORNINFO, CORIGININFO, und IMMIYEARINFO werden in v33 eingeführtt, um auf die Qualität der Informationen in GERMBORN, CORIGIN, und IMMIYEAR hinzuweisen.

3.1.2. MIGBACK und MIGINFO:

Die Änderungen in GERMBORN haben Einfluss auf MIGBACK und MIGINFO, resultierend aus einigen Werteänderungen und einem stärkeren Fokus auf die Verfügbarkeit von elterlichen Informationen in MIGINFO.

3.1.3. LOC1989:

Es wurden verschiedene Proxies genutzt, um den Wohnsitz der Befragten im Jahr 1989 zu vercoden (Variable HCLOC1989) was eine Veränderung einiger Werte zur Folge hat. Eine neue Variable LOCINFO wird in v33 eingeführt, die auf die Qualität der Informationen in der Variable HLOC1989 hinweist. 

3.2. BIOIMMIG

Die Zielpopulation und die Stichprobengröße des BIOIMMIG-Datensatzes hat sich geändert. Der Datensatz ist nicht länger bechränkt auf die Befragten, die im Ausland geboren wurden und keine deutsche Staatsbürgerschaft besitzen. Außerdem sind Fälle ohne valide BIOIMMIG-Informationen irgendeiner Welle oder Fälle, die nur valide Informationen über BISCGCF enthalten, nicht länger im Datensatz.

3.3. Update von PWEALTH und HWEALTH

Bislang waren für 2012 die ehemaligen FiD-Samples nicht integriert, obwohl diese auch den Vermögensfragebogen erhalten hatten. Mit der jetzigen Datenweitergabe sind auch diese Fälle integriert.

3.4. BIOPAREN

BIOPAREN wurde ganz neu aufgebaut. Es wurden redundante Variablen entfernt und Variablennamen einheitlich ins Englische übersetzt (das bedeutet z.B. dass VNR jetzt FNR ist, weil „Vater“ jetzt „father“ wurde). Bitte schauen Sie sich die Dokumentation an, für eine ausführliche Liste der Änderungen und eine aktualisierte Übersicht der Variablennamen.

3.5. $PGEN

Bei den Variablen DEGREE$$, FIELD$$, TRAIN[A-D]$$ ergeben sich bei einigen Personen in der Retrospektive Abweichungen. Die Systematik wurde bei inkonsistenten Mehrfachnennungen verbessert. Zudem wurde der Umsteigeschlüssel der Berufsangaben nach Klassifikation ISCO-88 zu KldB92 für TRAIN[A-D]$$ von zwei auf vier Stellen erweitert und der Umsteigeschlüssel selbst überarbeitet.

3.6. $HGEN

In der Welle BF gab es eine größere Änderung bei der Abfrage der Miete. So wurden die Mietnebenkosten in detaillierter Weise als bisher abgefragt. Ex post stellte sich heraus, dass diese Form der Befragung für einige Befragte zu komplex war und die Umstellung zu einem leichten Bruch in der Zeitreihe führte. Infolgedessen sind die Durchschnittsmieten laut SOEP – wie auch in Vergleichsstatistiken – über die Zeit systematisch angestiegen, allerdings nicht mehr in 2014 und 2015. Dieser Bruch ist über die veränderte Abfrage zu erklären. Mit der Welle BG erfolgte daher wieder eine Abfrage der Miete wie in Welle BD. Mit der Welle BG sind zudem die Geflüchtetenstichproben M3 und M4 Teil des SOEP. Da diese nicht zu Nebenkosten befragt wurden, wurde für diese keine Mietvariable generiert.

keyboard_arrow_up