Direkt zum Inhalt

SOEP-Core v34 (2017) - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

SOEP-Core soep.v34

1. Neues, nutzerfreundlich integriertes Datenformat

Mit der neuen Welle der SOEP-Haupterhebung (SOEP-Core) führen wir die beiden bisher getrennt übermittelten Formate (wide und long) zusammen. Dadurch wollen wir Unklarheiten vermeiden, was in welchem Format vorliegt und die Nutzung der Daten insgesamt erleichtern. Nachdem wir bereits einige Jahre lang SOEPlong als ein nutzerfreundliches ergänzendes Angebot – sowohl für EinsteigerInnen als auch für langjährige NutzerInnen – getestet haben, soll nun die Weitergabe der SOEP-Daten standardmäßig auch alle Datensätze im long-Format enthalten. Das bedeutet, dass das ausgelieferte Datenfile folgende unterschiedlichen Formate der SOEP-Daten enthält, die zum Teil in unterschiedlichen Verzeichnissen gespeichert sind.

Bitte achten Sie daher darauf, dass Sie beim Entpacken auch die Verzeichnisstruktur mit entpacken.

1.1. SOEP im „long“ -Format auf der obersten Ebene

Im obersten Verzeichnis (oder dem Root-Verzeichnis) liegen alle bisher mit SOEPlong ausgelieferten Datensätze (also PL, PPFADL etc.) sowie die bisher nur im wide-Format ausgelieferten Datensätze (z.B. die Biografie- oder spellbezogenen Datensätze, wie BIOPAREN, ARTKALEN usw.). Damit ist der komplette Datenumfang der SOEP-Haupterhebung mit den im obersten Verzeichnis liegenden Datensätzen abgedeckt.

Nachdem wir bereits seit einigen Jahren das long-Format als ein nutzerfreundliches ergänzendes Angebot bereitstellen, sind wir überzeugt, dass dieses Format insbesondere für EinsteigerInnen eine sehr viel komfortablere Nutzung der Daten ermöglicht. Deswegen haben wir entschieden, jetzt und in Zukunft dieses Format bevorzugt weiterzugeben.

Die einzelnen jahresspezifisch vorliegenden Datensätze werden dabei gepoolt über alle Jahre in einem Datensatz zusammengefasst. (z.B. werden alle $P-Datensätze in einen PL-Datensatz integriert. Hierbei müssen Variablen gegebenenfalls über die Zeit harmonisiert werden. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent in einer Variable abbilden zu können: So werden beispielsweise auch die Einkommensangaben, die vor 2001 erfolgten, durchgehend in Euro und nicht in DM ausgewiesen, oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die NutzerInnen erkennbar und nachvollziehbar dargestellt, zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt. (siehe unten:  _v*-variables).  SOEPlong reduziert damit sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich.

Eine detailliertere Beschreibung dieses neuen Formats der SOEP-Core-Datenweitergabe finden Sie in unserem neuen SOEPcompanion.

1.1.1. Die wichtigsten Änderungen zu v34 im long-Format

  • Die folgenden Datensätze wurden hinzugefügt:
    • HBRUTT: HBRUTT$$-Datensätze im long-Format
    • PLUECKEL: $PLUECKE-Datensätze im long-Format
    • VPL: $VP Datensätze im long-Format 
    • PL und PL2 werden wieder in einem gemeinsamen Datensatz (PL) ausgeliefert
    Das Variablenschema mit c-Variablen (crossectional) und l-Variablen (longitudinal) wurde folgendermaßen abgewandelt:
    • Wenn sich für eine Variable im long-Format die zu Grunde liegenden Variablen im Querschnitt änderten, dann wird für jede Version eine entsprechende _v*-Variable erzeugt. Gleichzeitig wird eine harmonisierte _h-Variable bereitgestellt. Hierzu gibt es weitere Informationen im SOEPcompanion (Allgemeine Erklärung, Beispiele)
  • In allen aus verschiedenen querschnittlichen Datensätzen generierten long-Datensätzen gibt es die neue Variable : INPUTDATASET.
  • Das neue gemeinsame Weitergabeformat führt dazu, dass einige Datensätze mit long-spezifischen Namen nicht mehr in der Datenlieferung enthalten sind: CDESIGN, CSAMP, CSAMPFID, KIDL, PBREXIT.
  • Die folgenden Datensätze wurden umbenannt, damit es nicht zu einem Namenskonflikt mit den Daten im raw-Verzeichnis kommt:
    • PPATH ersetzt PPFAD
    • PPATHL ersetzt PPFADL
    • HPATH ersetzt HPFAD
    • HPATHL ersetzt HPFADL

1.2. Klassisches Format im Unterverzeichnis raw

Weil wir uns bewusst sind, dass viele Skripte auf dem Original-Datenformat beruhen und um den Prozess der Generierung der long-Daten nachvollziehbar zu machen, finden Sie alle Datensätze im originalen SOEP-Format im Verzeichnis raw.

NutzerInnen, die weiterhin das alte Format nutzen wollen, brauchen nur ins Unterverzeichnis raw zu wechseln und die Datensätze zu nutzen, die dort liegen.

Der einzige Unterschied zu vorher ist, dass es jetzt in allen Datensätzen im raw-Verzeichnis zusätzliche Identifikatoren mit den Namen im long-Format gibt (PID und PERSNR oder HID und $HHNRAKT) sowie die Variable für das Befragungsjahr (SYEAR), so dass die Nutzenden ganz einfach Variablen aus beiden Datenformate mergen können.

1.3. Neuer EU-SILC-Klon im Unterverzeichnis eu-silc-clone

Vielen NutzerInnen ist sicher bekannt, dass das SOEP länderübergreifende Analysen mit Hilfe des CNEF durch den Datensatz PEQUIV unterstützt. Wir haben nun ein Datenprodukt entwickelt, das es Ihnen ermöglicht, die SOEP-Daten für vergleichenden Analysen zusammen mit den Daten von EU-SILC (European Union Statistics on Income and Living Conditions) zu nutzen. EU-SILC, das von Eurostat auf Anfrage zur Verfügung gestellt wird, bietet Querschnitt- und Längsschnittinformationen für viele europäische Länder. Für für Deutschland lagen bisher allerdings nur Querschnittinformationen vor. Der EU-SILC-Klon bietet nun Längsschnittinformationen über private Haushalte in Deutschland auf der Grundlage der SOEP-Daten. Alle darin enthaltenen Informationen sind direkt mit den EU-SILC-Längsschnittinformationen anderer europäischer Länder vergleichbar.

Der EU-SILC-Klon ist in die Standard-SOEP-Datenweitergabe (im Unterverzeichnis eu-silc clone) integriert.

Die Dokumentation des EU-SILC-Klons 2005-2016 finden Sie hier.

2. Neue Sample in der SOEP-Hauptstudie

Die neue SOEP-Core-Datenweitergabe (v34) ist die erste, die Daten aus der IAB-BAMF-SOEP-Befragung von Geflüchteten in Deutschland als Sample M5, sowie die Fortsetzung der PIAAC-L-Befragung als Sample N enthält.

2.1. IAB-BAMF-SOEP Befragung von Geflüchteten (M5)

In Zusammenarbeit mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB) und dem Bundesamt für Migration und Flüchtlinge (BAMF) ist es dem SOEP gelungen, eine dritte Stichprobe von Haushalten Geflüchteter (M5) in die SOEP-Studie zu integrieren. Diese Stichprobe wurde 2017 erstmals befragt. Die Grundgesamtheit von M5 besteht aus erwachsenen Geflüchteten, die seit dem 1. Januar 2013 in Deutschland Asyl beantragt haben und derzeit in Deutschland leben. SOEP-Core wurde mit M5 so um 1.519 Haushalte von Geflüchteten, die seit 2013 nach Deutschland gekommen sind, erweitert.

2.2. Integration der Befragungspersonen aus PIAAC-L als Teilstichprobe N

2017 wurden 2.314 Haushalte ehemaliger TeilnehmerInnen der Studie „Program for the International Assessment of Adult Competencies“ (PIAAC und PIAAC-L) erstmals als SOEP-Haushalte befragt und sind jetzt als Stichprobe N integriert. Dies ist die jüngste Ergänzung zu den SOEP-Core-Samples.
Die Feldarbeit für Sample N wurde zwischen Mitte März und Mitte August und damit etwas später als für die Samples A-L1 durchgeführt.
Weitere Informationen zum PIAAC-L-Projekt finden Sie auf der Projekthomepage.

3. Übersetzungsfehler in einigen Fragebogensprachen

In der IAB-BAMF-SOEP-Befragung Geflüchteter g (M3-M5) gab es in einigen Fragen zu Einkommenskomponenten in übersetzten Versionen des Haushaltsfragebogens Übersetzungsfehler. Die Antworten auf diese Variablen sind daher nicht mit anderen Antworten vergleichbar. Die entsprechenden Variablen wurden auf -3 gesetzt.

4. Löschung von Interviews, die nicht nach den Standards der IAB-BAMF-SOEP-Gruppe in der IAB-BAMF-SOEP-Befragung von Geflüchteten (M3/M4) durchgeführt wurden

Im Rahmen der Datenaufbereitung wurden drei InterviewerInnen identifiziert, die die Erhebung nicht nach den Standards der IAB-BAMF-SOEP-Gruppe durchgeführt haben (weitere Informationen hier). Die identifizierten InterviewerInnen waren 2016 für 88 Haushalte und 2017 für 112 Haushalte verantwortlich. Die in der ersten Welle der Umfrage (2016) betroffenen Haushalte wurden vollständig aus dem Datensatz entfernt. Die 2017 betroffenen Haushalte, die zum zweiten Mal befragt werden sollten, wurden für 2017 gelöscht, aber im Datensatz für 2016 belassen. Es gibt keine Hinweise darauf, dass die ersten Interviews (die von einer anderen Person durchgeführt worden waren) nicht nach den Standards des IAB-BAMF-SOEP durchgeführt wurden. Die aus der Datenweitergabe gelöschten Interviews und Fälle können auf Anfrage an einem Gastarbeitsplatz im SOEP-FDZ für surveymethodologische Analysen zur Verfügung gestellt werden.
Nach den vorgenommenen Löschungen aus allen Datensätzen wurden folgende Anpassungen vorgenommen:

  • Die Löschung der Haushalts- und Einzelinterviews erforderte eine Aktualisierung der Gewichte (Datensatz HHRF und PHRF), die nun die leicht reduzierten Fallzahlen in den Erhebungsjahren 2016 und 2017 berücksichtigen.
  • Aktualisierung / Aufnahme der neuen Gewichte in die Datensätze BGPEQUIV und BHPEQUIV.

5. Erweiterte Namenskonventionen für Variablen

Die erweiterte Namenskonvention für Variablen wird nur auf Datensätze ab Welle BH angewendet und gilt nur für die Datensätze $P, $H, $H, $KIND. Wir haben jeweils Unterstriche zwischen den Identifikatoren für die Analyseeinheit, die Frage und das Item hinzugefügt, um Analyseeinheit, Frage und Item visuell klar zu trennen. Zusätzlich wurde eine Fragebogenkennung eingeführt, die ebenfalls durch einen Unterstrich vom Item getrennt ist. Diese neue Version der Namensvariablen wird nur verwendet, wenn sich der Fragebogen vom "ursprünglichen" SOEP-Core-Fragebogen unterscheidet.

Wegen der unterschiedlichen Stichproben im SOEP gibt es einige Befragte, die stichprobenspezifische Fragen erhalten, wie z.B. in der Stichprobe von Geflüchteten, die 2016 begann. Für diese spezielle Gruppe gibt es einen erweiterten Personenfragebogen mit einigen spezifischen Fragen, die über die Standardfragen des SOEP, die jedes Jahr gestellt werden, hinausgehen. Für die spezifischen Fragen können Sie die Instrumentvariable (INSTRUMENT) verwenden, um die Quelle der Variablen anzuzeigen..

Beispiele und detailliertere Beschreibungen finden Sie im Kapitel zu diesem Thema im SOEPcompanion.

6. Änderungen bestimmter Variablen

  • Neue Variablen für das Interviewjahr: HIYEAR in HGEN und HPATHL sowiePIYEAR in PGEN und PPATHL. Diese neuen Variablen geben für alle Erhebungsjahre die Haushalts- und Einzelinterviews an, die nach (oder vor) dem Erhebungsjahr abgeschlossen wurden (Variable SYEAR), welches das Bezugsjahr für die Fragebögen und die Datenerhebung ist.


6.1. Datensatz PPATH / PPATHL (in raw: PPFAD)

6.1.1. SEXOR

  • Die vorherige Datenlieferung war die erste, die die Variablen SEXOR (sexuelle Orientierung) und SEXORINFO (Informationsquelle zur sexuellen Orientierung) enthielt. Der Wert -1 „unzureichende Informationen" wurde in 2 „unzureichende Informationen" geändert.

6.1.2 PARINFO

  • Der Wert -1 „keine Angabe” wurde in den korrekten Wert 5 „unklar” geändert.

6.1.3 Informationen zu Migration

  • Die Codierung von GERMBORN, CORIGIN, IMMIYEAR und MIGBACK wurde auf Grund von inkonsistenten Fällen geändert (mehr Informationen erhalten Sie in der PPATH/PPFAD Dokumentation)

6.1.4. Asylsuchende und Geflüchtete

  • Die Variablen für Asylsuchende und Geflüchtete  [AREBACK, AREFINFO] wurden umbenannt (in v33: REFBACK, REFINFO) und überarbeitet. Die Variable AREFINFO erlaubt nun auch die Identifikation von bestimmten Untergruppen (mehr Informationen dazu finden Sie in der Dokumentation).

6.2. Datensatz PGEN

6.2.1 Partnerzeiger

  • Für die Variable PGPARTZ (PARTZ$), wurde der Wert -1 (“kein Angabe”) durch den korrekten Wert 5 (“unklar”) ersetzt.

Ab Welle BH wurden neue Prüfprozesse für die Generierung der Partnerzeiger implementiert, die die Qualität der Daten auch für vergangene Wellen rückwirkend verbessern:

  • widersprüchliche Partnerschaftsangaben zwischen zwei Partnern werden identifiziert und behandelt
  • Partnerschaften mit unterschiedlichen Partnerzeigern (1 „Ehepartner“ oder 2 „Lebenspartner“) innerhalb einer Partnerschaft wurden identifiziert und behandelt.
  • Fehler beim Vergeben der Werte für PARTZ (1 „Ehepartner“ und 2 „Lebenspartner“) durch unterschiedliche Filterführung der verschiedenen Erhebungsinstrumente wurde korrigiert. Beim Personenbiofragebogen der Samples J+K und beim Personenfragebogen der Samples A-I wurden Ehen unterschiedlich erhoben. Entscheidend für die Korrektur war hierbei das Ausgliedern der Samples J und K, da diese durch eine andere Filterführung Fehler hervorgerufen haben.
  • Partnerschaften mit kürzlich verstorbenen Personen wurden identifiziert und aufgelöst
  • Angaben der Befragten zu Scheidung, Trennung oder demTod des Lebenspartners/der Lebenspartnerin innerhalb des letzten Jahres wurden im Generierungsprozess erstmalig berücksichtigt
  • Für die Partnerschaften von Geflüchteten (Samples M3-M5) wurden erstmals zusätzlich Familienstatus, Partnerstatus, Vorname des Partners/der Partnerin (laufende Partnernummer) und Aufenthaltsort des Partners/ der Partnerin berücksichtigt. Im Vorjahr wurden die Partnerschaften nur über die Interviewerangaben (stell Variable) identifiziert.

6.2.2. Freiwilligendienst und Nebenjob

  • Die PGEN (raw: $$PGEN) Dateien enthalten neun neue Variablen. Im Jahr 2017 hat das SOEP die Befragung von Nebenjobs grundsätzlich überarbeitet. Jetzt können die Befragten zum ersten Mal Antworten auf drei verschiedene Nebenjobs geben. Sie können nun auch die Art der Nebentätigkeit unterscheiden, ob sie ehrenamtlich tätig sind (Variablen HONOR1, HONOR2, HONOR3) und ob sie für einen Arbeitgeber oder freiberuflich tätig sind. (SNDTYP1, SNDTYP2, SNDTYP3). Die Beträge der zusätzlichen Bruttoeinkommen aus Nebenjobs werden als kalkulatorische Informationen bereitgestellt (SNDJOB1, SNDJOB2, SNDJOB3).

    • SNDTYP117: Erste Nebentätigkeit Berufliche Stellung
    • SNDTYP217: Zweite Nebentätigkeit Berufliche Stellung
    • SNDTYP317: Dritte Nebentätigkeit Berufliche Stellung
    • SNDJOB117: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • SNDJOB217: Akt. Bruttoverdienst Nebentätigkeit 2 (gen.) in Euro
    • SNDJOB317: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • HONOR117: Ehrenamtliche Tätigkeit 1
    • HONOR217: Ehrenamtliche Tätigkeit 2
    • HONOR317: Ehrenamtliche Tätigkeit 3

6.2.3. Bildungsabschlüsse

  • In v34 basieren CASMIN und ISCED auf zusätzlichen Informationen über im Ausland erworbene Bildungsabschlüsse. Daher weisen einige Personen mit ausländischen Abschlüssen in v33 höhere Ränge auf als in v34.
  • Der Fehler in der Variablen CASMIN in v33 ist behoben: In v33 wurden Personen mit 2c_voc (Berufsreifezeugnis) fälschlicherweise als 2c_gen (allgemeines Reifezeugnis) eingestuft.

6.2.4. AUTONO

  • Die Variable AUTONO wurde 2017 nicht mehr generiert, da es schwierig ist, diese Variable mit den üblichen Modellen der Autonomie zu vergleichen. Derzeit wird daran gearbeitet, vergleichbare Definitionen von Autonomie zu erstellen.t.

6.3 Datensatz PEQUIV

  • Der PEQUIV (raw: $$PEQUIV) Datensatz enthält sechs neue Variablen. Diese sind:
    • IAUS117 : Altersversorgung ons from another country
    • AUS217 : Witwen-/Waisenrente aus einem anderen Land
    • ASYL17 : Leistung nach Asylbewerberleistungsgesetz
    • FASYL17 : Imputation flag: Leistung nach Asylbewerberleistungsgesetz
    • EDUPAC17 : Leistungen aus dem Bildungspaket
    • FEDUPAC17 : Imputation flag: Leistungen aus dem Bildungspaket
    Weitere Informationen finden Sie im SOEP Survey Paper: Codebook for the $PEQUIV File 1984-2017.

6.4. Datensatz BIOAGEL und BIOPUPIL

  • Die Variablen aus den Fragebögen für 12- bzw. 14-Jährige werden nun im BIOPUPIL-Datensatz bereitgestellt, um die Unterschiede im Erhebungsmodus widerzuspiegeln (Eltern werden zu ihren Kindern befragt vs. Kinder werden direkt befragt.
  • Variablen aus zusätzlichen Fragen bei den Geflüchteten-Stichproben (M3-M5) wurden in BIOAGEL und BIOPUPIL integriert.

6.5. Datensatz HGEN

In den letzten Jahren wurden einige Änderungen bei den Fragen zur Wohnungsmiete vorgenommen. Die erste Änderung fand im Haushaltsfragebogen der Welle BF (2014) statt. Die Frage nach den Mietnebenkosten wurde so detailliert gestellt, dass die Befragten nicht in der Lage waren, korrekte Antworten zu geben. Dies führte zu einer Unterschätzung sowohl der Grundmiete als auch der Nebenkosten.
Es zeigte sich, dass dies zu einem leichten Bruch der Zeitreihe führte: Die Miete ist im Laufe der Jahre seit 1984 kontinuierlich gestiegen. In den Jahren 2014 und 2015 sanken die Mietkosten jedoch und sind seit 2016 wieder stark gestiegen. Diese Unterbrechung lässt sich durch die Änderung des Fragebogens erklären.

Ab Welle BH werden die Befragten wieder auf die gleiche Weise wie in Welle BG (2016) und in Welle BD (2013) nach der Miete befragt, um die langfristige Vergleichbarkeit zu gewährleisten.

Darüber hinaus sind mit der Welle BH die neue Migrationsstichprobe M5 und die neue Auffrischungsstichprobe N Teil des SOEP. Da die Stichprobe M5 nicht in vergleichbarer Weise zu den Nebenkosten befragt wurde und viele dieser Befragten wahrscheinlich in Gruppenwohnungen leben oder Zuschüsse zur Deckung der Lebenshaltungskosten erhalten, wurde keine Mietvariable für diese Stichprobe generiert .

v33 - Miete

v34 - Miete

2010: 486.25

2010: 486.21

2011: 484.93

2011: 485.64

2012: 491.01

2012: 490.75

2013: 505.00

2013: 505.59

2014: 470.95

2014: 473.74

2015: 507.06

2015: 508.57

2016: 545.53

2016: 541.90

 

2017: 550.67

6.6. Datensatz BIOIMMIG

  • Die Population ist auf Grund einer Kodierung in BIIMGPR gesunken (Nähere Informationen in der Dokumentation BIOIMMIG).
     

6.7. Datensatz HHRF/PHRF

  • Neue Variablen in HHRF: BHHHRF, BHHBLEIB, BHHHRFAM4, BHHHRFM5, BHHHRFN
  • Neue Variablen in PHRF (und ENUMHRF, erhältlich auf Nachfraget): BHPHRF, BHPBLEIB, BHPHRFAM4, BHPHRFM5, BHPHRFN
  • Bitte beachten Sie, dass Sie mit unserem neuen integrierten Datenformat alle Gewichtungsvariablen jetzt direkt in PPATHL oder HPATHL finden.
  • Auf Nachfrage stellen wir gern Gewichtungsvariablen für die getrennte Gewichtung der Geflüchtetenstichproben M3, M4 und M5 zur Verfügung (BHPHRFM35, BHHHRFM35).

6.7.1. Revisionen und Fehlerbehebungen

  • Wegen einer Verwechslungen der Ländercodes für Iran und Russland im Ziehungsrahmen (Zentralregister der Ausländer, AZR) mussten die Designgewichte für die Samples M3 und M4 sowie deren Querschnittsgewichte für die Welle BG aktualisiert werden.
  • IIn Welle BG hatten wir als Grundgesamtheit der Stichproben M3 und M4 die Geflüchteten angesehen, die zwischen Januar 2013 und Januar 2016 in Deutschland angekommen sind.  Tatsächlich sind nur die Geflüchteten, deren Eintragung in das Zentrale Ausländerregister (AZR) bis April 2016 erfolgte, in diese Stichproben aufgenommen worden.  In Stichprobe M5 wurden unter anderem diejenigen Geflüchteten befragt, die zwar im gleichen Zeitraum zugewandert waren, aber später registriert wurden. Aus diesem Grund wurde die Summe für die Nachschichtung der zweiten Welle von M3 und M4 um die Anzahl der Geflüchteten mit einem späteren Registrierungsdatum reduziert.



keyboard_arrow_up