SOEP-Core v34 (2017) - Datensatzinformation

Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 25.000 Personen aus rund 16.000 Haushalten von Kantar Public befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden. Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95, 2013 und 2015 wurden Migrations-Stichproben sowie 2016 zwei Flüchtlings-Stichproben implementiert. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006, 2009, 2010, 2011 und 2012 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst. Die internationale Version enthält 95% des Stichprobenumfangs (siehe 10.5684/soep.v34i).

Datensatzinformation

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2017

DOI: 10.5684/soep.v34
Erhebungszeitraum: 1984-2017
Veröffentlichungsdatum: 05.03.2019
PrimärforscherInnen: Stefan Liebig, Jan Goebel, Martin Kroh, Carsten Schröder, Jürgen Schupp, Charlotte Bartels, Alexandra Fedorets, Andreas Franken, Marco Giesselmann, Markus Grabka, Jannes Jacobsen, Selin Kara, Peter Krause, Hannes Kröger, Maria Metzing, Janine Napieraj, Jana Nebelin, David Richter, Diana Schacht, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Rainer Siegers, Knut Wenzig, Stefan Zimmermann

Datenerhebung: Kantar Public Deutschland

Population: Personen in Privathaushalten in der Bundesrepulik Deutschland.

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht. 

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre alt oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

 Veröffentlichungen:

  • Jan Goebel, Markus M. Grabka, Stefan Liebig, Martin Kroh, David Richter, Carsten Schröder, Jürgen Schupp (2019): The German Socio-Economic Panel Study (SOEP), Jahrbücher für Nationalökonomie und Statistik / Journal of Economics and Statistics 239 (2), 345-360 (download)
  • Schupp, Jürgen (2009): 25 Jahre Sozio-oekonomisches Panel - Ein Infrastrukturprojekt der empirischen Sozial- und Wirtschaftsforschung in Deutschland, Zeitschrift für Soziologie 38 (5),  350-357 (download).
  • Gert G. Wagner, Jan Göbel, Peter Krause, Rainer Pischner, and Ingo Sieber (2008) Das Sozio-oekonomische Panel (SOEP): Multidisziplinäres Haushaltspanel und Kohortenstudie für Deutschland - Eine Einführung (für neue Datennutzer) mit einem Ausblick (für erfahrene Anwender), AStA Wirtschafts- und Sozialstatistisches Archiv 2 (4), 301-328 (download).
  • Gert G. Wagner, Joachim R. Frick, and Jürgen Schupp (2007) The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements, Schmollers Jahrbuch (Journal of Applied Social Science Studies), 127 (1), 139-169 (download).

In Publikationen, die diese Datei verwenden, soll auf die oben genannte DOI infoZur Erklärung von DOI und dessen Verwendung gibt es hier Informationen . verwiesen und eine der folgende Referenzen zitiert werden:

  • Goebel, Jan, Markus M. Grabka, Stefan Liebig, Martin Kroh, David Richter, Carsten Schröder, and Jürgen Schupp. 2019. The German Socio-Economic Panel (SOEP). Jahrbücher für Nationalökonomie und Statistik 239 (2), 345-360. (https://doi.org/10.1515/jbnst-2018-0022)
  • Giesselmann, Marco, Sandra Bohmann, Jan Goebel, Peter Krause, Elisabeth Liebau, David Richter, Diana Schacht, Carsten Schröder, Jürgen Schupp, and Stefan Liebig. 2019. The Individual in Context(s): Research Potentials of the Socio-Economic Panel Study (SOEP) in Sociology. European Sociological Review 35 (5), 738-755. (https://doi.org/10.1093/esr/jcz029)

Für die SOEP-Daten 1984-2017 (v34) - Wellen a bis BH - stehen folgende Datensätze zur Verfügung

soep.v34

soep.v34i (International Scientific Use Version, 95%)

In der aktuellen Datenweitergabe komplett enthalten, auf spezielle Anfrage auch als Einzeldatensatz erhältlich:

soep.iab-soep-mig.2017 (Migrationsstichproben)

soep.iab-bamf-soep-mig.2017 (Geflüchtetenstichproben)

SOEP-Core soep.v34

1. Neues, nutzerfreundlich integriertes Datenformat

Mit der neuen Welle der SOEP-Haupterhebung (SOEP-Core) führen wir die beiden bisher getrennt übermittelten Formate (wide und long) zusammen. Dadurch wollen wir Unklarheiten vermeiden, was in welchem Format vorliegt und die Nutzung der Daten insgesamt erleichtern. Nachdem wir bereits einige Jahre lang SOEPlong als ein nutzerfreundliches ergänzendes Angebot – sowohl für EinsteigerInnen als auch für langjährige NutzerInnen – getestet haben, soll nun die Weitergabe der SOEP-Daten standardmäßig auch alle Datensätze im long-Format enthalten. Das bedeutet, dass das ausgelieferte Datenfile folgende unterschiedlichen Formate der SOEP-Daten enthält, die zum Teil in unterschiedlichen Verzeichnissen gespeichert sind.

Bitte achten Sie daher darauf, dass Sie beim Entpacken auch die Verzeichnisstruktur mit entpacken.

1.1. SOEP im „long“ -Format auf der obersten Ebene

Im obersten Verzeichnis (oder dem Root-Verzeichnis) liegen alle bisher mit SOEPlong ausgelieferten Datensätze (also PL, PPFADL etc.) sowie die bisher nur im wide-Format ausgelieferten Datensätze (z.B. die Biografie- oder spellbezogenen Datensätze, wie BIOPAREN, ARTKALEN usw.). Damit ist der komplette Datenumfang der SOEP-Haupterhebung mit den im obersten Verzeichnis liegenden Datensätzen abgedeckt.

Nachdem wir bereits seit einigen Jahren das long-Format als ein nutzerfreundliches ergänzendes Angebot bereitstellen, sind wir überzeugt, dass dieses Format insbesondere für EinsteigerInnen eine sehr viel komfortablere Nutzung der Daten ermöglicht. Deswegen haben wir entschieden, jetzt und in Zukunft dieses Format bevorzugt weiterzugeben.

Die einzelnen jahresspezifisch vorliegenden Datensätze werden dabei gepoolt über alle Jahre in einem Datensatz zusammengefasst. (z.B. werden alle $P-Datensätze in einen PL-Datensatz integriert. Hierbei müssen Variablen gegebenenfalls über die Zeit harmonisiert werden. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent in einer Variable abbilden zu können: So werden beispielsweise auch die Einkommensangaben, die vor 2001 erfolgten, durchgehend in Euro und nicht in DM ausgewiesen, oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die NutzerInnen erkennbar und nachvollziehbar dargestellt, zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt. (siehe unten:  _v*-variables).  SOEPlong reduziert damit sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich.

Eine detailliertere Beschreibung dieses neuen Formats der SOEP-Core-Datenweitergabe finden Sie in unserem neuen SOEPcompanion.

1.1.1. Die wichtigsten Änderungen zu v34 im long-Format

  • Die folgenden Datensätze wurden hinzugefügt:
    • HBRUTT: HBRUTT$$-Datensätze im long-Format
    • PLUECKEL: $PLUECKE-Datensätze im long-Format
    • VPL: $VP Datensätze im long-Format 
    • PL und PL2 werden wieder in einem gemeinsamen Datensatz (PL) ausgeliefert
    Das Variablenschema mit c-Variablen (crossectional) und l-Variablen (longitudinal) wurde folgendermaßen abgewandelt:
    • Wenn sich für eine Variable im long-Format die zu Grunde liegenden Variablen im Querschnitt änderten, dann wird für jede Version eine entsprechende _v*-Variable erzeugt. Gleichzeitig wird eine harmonisierte _h-Variable bereitgestellt. Hierzu gibt es weitere Informationen im SOEPcompanion (Allgemeine Erklärung, Beispiele)
  • In allen aus verschiedenen querschnittlichen Datensätzen generierten long-Datensätzen gibt es die neue Variable : INPUTDATASET.
  • Das neue gemeinsame Weitergabeformat führt dazu, dass einige Datensätze mit long-spezifischen Namen nicht mehr in der Datenlieferung enthalten sind: CDESIGN, CSAMP, CSAMPFID, KIDL, PBREXIT.
  • Die folgenden Datensätze wurden umbenannt, damit es nicht zu einem Namenskonflikt mit den Daten im raw-Verzeichnis kommt:
    • PPATH ersetzt PPFAD
    • PPATHL ersetzt PPFADL
    • HPATH ersetzt HPFAD
    • HPATHL ersetzt HPFADL

1.2. Klassisches Format im Unterverzeichnis raw

Weil wir uns bewusst sind, dass viele Skripte auf dem Original-Datenformat beruhen und um den Prozess der Generierung der long-Daten nachvollziehbar zu machen, finden Sie alle Datensätze im originalen SOEP-Format im Verzeichnis raw.

NutzerInnen, die weiterhin das alte Format nutzen wollen, brauchen nur ins Unterverzeichnis raw zu wechseln und die Datensätze zu nutzen, die dort liegen.

Der einzige Unterschied zu vorher ist, dass es jetzt in allen Datensätzen im raw-Verzeichnis zusätzliche Identifikatoren mit den Namen im long-Format gibt (PID und PERSNR oder HID und $HHNRAKT) sowie die Variable für das Befragungsjahr (SYEAR), so dass die Nutzenden ganz einfach Variablen aus beiden Datenformate mergen können.

1.3. Neuer EU-SILC-Klon im Unterverzeichnis eu-silc-clone

Vielen NutzerInnen ist sicher bekannt, dass das SOEP länderübergreifende Analysen mit Hilfe des CNEF durch den Datensatz PEQUIV unterstützt. Wir haben nun ein Datenprodukt entwickelt, das es Ihnen ermöglicht, die SOEP-Daten für vergleichenden Analysen zusammen mit den Daten von EU-SILC (European Union Statistics on Income and Living Conditions) zu nutzen. EU-SILC, das von Eurostat auf Anfrage zur Verfügung gestellt wird, bietet Querschnitt- und Längsschnittinformationen für viele europäische Länder. Für für Deutschland lagen bisher allerdings nur Querschnittinformationen vor. Der EU-SILC-Klon bietet nun Längsschnittinformationen über private Haushalte in Deutschland auf der Grundlage der SOEP-Daten. Alle darin enthaltenen Informationen sind direkt mit den EU-SILC-Längsschnittinformationen anderer europäischer Länder vergleichbar.

Der EU-SILC-Klon ist in die Standard-SOEP-Datenweitergabe (im Unterverzeichnis eu-silc clone) integriert.

Die Dokumentation des EU-SILC-Klons 2005-2016 finden Sie hier (PDF, 3.01 MB).

2. Neue Sample in der SOEP-Hauptstudie

Die neue SOEP-Core-Datenweitergabe (v34) ist die erste, die Daten aus der IAB-BAMF-SOEP-Befragung von Geflüchteten in Deutschland als Sample M5, sowie die Fortsetzung der PIAAC-L-Befragung als Sample N enthält.

2.1. IAB-BAMF-SOEP Befragung von Geflüchteten (M5)

In Zusammenarbeit mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB) und dem Bundesamt für Migration und Flüchtlinge (BAMF) ist es dem SOEP gelungen, eine dritte Stichprobe von Haushalten Geflüchteter (M5) in die SOEP-Studie zu integrieren. Diese Stichprobe wurde 2017 erstmals befragt. Die Grundgesamtheit von M5 besteht aus erwachsenen Geflüchteten, die seit dem 1. Januar 2013 in Deutschland Asyl beantragt haben und derzeit in Deutschland leben. SOEP-Core wurde mit M5 so um 1.519 Haushalte von Geflüchteten, die seit 2013 nach Deutschland gekommen sind, erweitert.

2.2. Integration der Befragungspersonen aus PIAAC-L als Teilstichprobe N

2017 wurden 2.314 Haushalte ehemaliger TeilnehmerInnen der Studie „Program for the International Assessment of Adult Competencies“ (PIAAC und PIAAC-L) erstmals als SOEP-Haushalte befragt und sind jetzt als Stichprobe N integriert. Dies ist die jüngste Ergänzung zu den SOEP-Core-Samples.
Die Feldarbeit für Sample N wurde zwischen Mitte März und Mitte August und damit etwas später als für die Samples A-L1 durchgeführt.
Weitere Informationen zum PIAAC-L-Projekt finden Sie auf der Projekthomepage.

3. Übersetzungsfehler in einigen Fragebogensprachen

In der IAB-BAMF-SOEP-Befragung Geflüchteter g (M3-M5) gab es in einigen Fragen zu Einkommenskomponenten in übersetzten Versionen des Haushaltsfragebogens Übersetzungsfehler. Die Antworten auf diese Variablen sind daher nicht mit anderen Antworten vergleichbar. Die entsprechenden Variablen wurden auf -3 gesetzt.

4. Löschung von Interviews, die nicht nach den Standards der IAB-BAMF-SOEP-Gruppe in der IAB-BAMF-SOEP-Befragung von Geflüchteten (M3/M4) durchgeführt wurden

Im Rahmen der Datenaufbereitung wurden drei InterviewerInnen identifiziert, die die Erhebung nicht nach den Standards der IAB-BAMF-SOEP-Gruppe durchgeführt haben (weitere Informationen hier). Die identifizierten InterviewerInnen waren 2016 für 88 Haushalte und 2017 für 112 Haushalte verantwortlich. Die in der ersten Welle der Umfrage (2016) betroffenen Haushalte wurden vollständig aus dem Datensatz entfernt. Die 2017 betroffenen Haushalte, die zum zweiten Mal befragt werden sollten, wurden für 2017 gelöscht, aber im Datensatz für 2016 belassen. Es gibt keine Hinweise darauf, dass die ersten Interviews (die von einer anderen Person durchgeführt worden waren) nicht nach den Standards des IAB-BAMF-SOEP durchgeführt wurden. Die aus der Datenweitergabe gelöschten Interviews und Fälle können auf Anfrage an einem Gastarbeitsplatz im SOEP-FDZ für surveymethodologische Analysen zur Verfügung gestellt werden.
Nach den vorgenommenen Löschungen aus allen Datensätzen wurden folgende Anpassungen vorgenommen:

  • Die Löschung der Haushalts- und Einzelinterviews erforderte eine Aktualisierung der Gewichte (Datensatz HHRF und PHRF), die nun die leicht reduzierten Fallzahlen in den Erhebungsjahren 2016 und 2017 berücksichtigen.
  • Aktualisierung / Aufnahme der neuen Gewichte in die Datensätze BGPEQUIV und BHPEQUIV.

5. Erweiterte Namenskonventionen für Variablen

Die erweiterte Namenskonvention für Variablen wird nur auf Datensätze ab Welle BH angewendet und gilt nur für die Datensätze $P, $H, $H, $KIND. Wir haben jeweils Unterstriche zwischen den Identifikatoren für die Analyseeinheit, die Frage und das Item hinzugefügt, um Analyseeinheit, Frage und Item visuell klar zu trennen. Zusätzlich wurde eine Fragebogenkennung eingeführt, die ebenfalls durch einen Unterstrich vom Item getrennt ist. Diese neue Version der Namensvariablen wird nur verwendet, wenn sich der Fragebogen vom "ursprünglichen" SOEP-Core-Fragebogen unterscheidet.

Wegen der unterschiedlichen Stichproben im SOEP gibt es einige Befragte, die stichprobenspezifische Fragen erhalten, wie z.B. in der Stichprobe von Geflüchteten, die 2016 begann. Für diese spezielle Gruppe gibt es einen erweiterten Personenfragebogen mit einigen spezifischen Fragen, die über die Standardfragen des SOEP, die jedes Jahr gestellt werden, hinausgehen. Für die spezifischen Fragen können Sie die Instrumentvariable (INSTRUMENT) verwenden, um die Quelle der Variablen anzuzeigen..

Beispiele und detailliertere Beschreibungen finden Sie im Kapitel zu diesem Thema im SOEPcompanion.

6. Änderungen bestimmter Variablen

  • Neue Variablen für das Interviewjahr: HIYEAR in HGEN und HPATHL sowiePIYEAR in PGEN und PPATHL. Diese neuen Variablen geben für alle Erhebungsjahre die Haushalts- und Einzelinterviews an, die nach (oder vor) dem Erhebungsjahr abgeschlossen wurden (Variable SYEAR), welches das Bezugsjahr für die Fragebögen und die Datenerhebung ist.


6.1. Datensatz PPATH / PPATHL (in raw: PPFAD)

6.1.1. SEXOR

  • Die vorherige Datenlieferung war die erste, die die Variablen SEXOR (sexuelle Orientierung) und SEXORINFO (Informationsquelle zur sexuellen Orientierung) enthielt. Der Wert -1 „unzureichende Informationen" wurde in 2 „unzureichende Informationen" geändert.

6.1.2 PARINFO

  • Der Wert -1 „keine Angabe” wurde in den korrekten Wert 5 „unklar” geändert.

6.1.3 Informationen zu Migration

  • Die Codierung von GERMBORN, CORIGIN, IMMIYEAR und MIGBACK wurde auf Grund von inkonsistenten Fällen geändert (mehr Informationen erhalten Sie in der PPATH/PPFAD Dokumentation)

6.1.4. Asylsuchende und Geflüchtete

  • Die Variablen für Asylsuchende und Geflüchtete  [AREBACK, AREFINFO] wurden umbenannt (in v33: REFBACK, REFINFO) und überarbeitet. Die Variable AREFINFO erlaubt nun auch die Identifikation von bestimmten Untergruppen (mehr Informationen dazu finden Sie in der Dokumentation).

6.2. Datensatz PGEN

6.2.1 Partnerzeiger

  • Für die Variable PGPARTZ (PARTZ$), wurde der Wert -1 (“kein Angabe”) durch den korrekten Wert 5 (“unklar”) ersetzt.

Ab Welle BH wurden neue Prüfprozesse für die Generierung der Partnerzeiger implementiert, die die Qualität der Daten auch für vergangene Wellen rückwirkend verbessern:

  • widersprüchliche Partnerschaftsangaben zwischen zwei Partnern werden identifiziert und behandelt
  • Partnerschaften mit unterschiedlichen Partnerzeigern (1 „Ehepartner“ oder 2 „Lebenspartner“) innerhalb einer Partnerschaft wurden identifiziert und behandelt.
  • Fehler beim Vergeben der Werte für PARTZ (1 „Ehepartner“ und 2 „Lebenspartner“) durch unterschiedliche Filterführung der verschiedenen Erhebungsinstrumente wurde korrigiert. Beim Personenbiofragebogen der Samples J+K und beim Personenfragebogen der Samples A-I wurden Ehen unterschiedlich erhoben. Entscheidend für die Korrektur war hierbei das Ausgliedern der Samples J und K, da diese durch eine andere Filterführung Fehler hervorgerufen haben.
  • Partnerschaften mit kürzlich verstorbenen Personen wurden identifiziert und aufgelöst
  • Angaben der Befragten zu Scheidung, Trennung oder demTod des Lebenspartners/der Lebenspartnerin innerhalb des letzten Jahres wurden im Generierungsprozess erstmalig berücksichtigt
  • Für die Partnerschaften von Geflüchteten (Samples M3-M5) wurden erstmals zusätzlich Familienstatus, Partnerstatus, Vorname des Partners/der Partnerin (laufende Partnernummer) und Aufenthaltsort des Partners/ der Partnerin berücksichtigt. Im Vorjahr wurden die Partnerschaften nur über die Interviewerangaben (stell Variable) identifiziert.

6.2.2. Freiwilligendienst und Nebenjob

  • Die PGEN (raw: $$PGEN) Dateien enthalten neun neue Variablen. Im Jahr 2017 hat das SOEP die Befragung von Nebenjobs grundsätzlich überarbeitet. Jetzt können die Befragten zum ersten Mal Antworten auf drei verschiedene Nebenjobs geben. Sie können nun auch die Art der Nebentätigkeit unterscheiden, ob sie ehrenamtlich tätig sind (Variablen HONOR1, HONOR2, HONOR3) und ob sie für einen Arbeitgeber oder freiberuflich tätig sind. (SNDTYP1, SNDTYP2, SNDTYP3). Die Beträge der zusätzlichen Bruttoeinkommen aus Nebenjobs werden als kalkulatorische Informationen bereitgestellt (SNDJOB1, SNDJOB2, SNDJOB3).

    • SNDTYP117: Erste Nebentätigkeit Berufliche Stellung
    • SNDTYP217: Zweite Nebentätigkeit Berufliche Stellung
    • SNDTYP317: Dritte Nebentätigkeit Berufliche Stellung
    • SNDJOB117: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • SNDJOB217: Akt. Bruttoverdienst Nebentätigkeit 2 (gen.) in Euro
    • SNDJOB317: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • HONOR117: Ehrenamtliche Tätigkeit 1
    • HONOR217: Ehrenamtliche Tätigkeit 2
    • HONOR317: Ehrenamtliche Tätigkeit 3

6.2.3. Bildungsabschlüsse

  • In v34 basieren CASMIN und ISCED auf zusätzlichen Informationen über im Ausland erworbene Bildungsabschlüsse. Daher weisen einige Personen mit ausländischen Abschlüssen in v33 höhere Ränge auf als in v34.
  • Der Fehler in der Variablen CASMIN in v33 ist behoben: In v33 wurden Personen mit 2c_voc (Berufsreifezeugnis) fälschlicherweise als 2c_gen (allgemeines Reifezeugnis) eingestuft.

6.2.4. AUTONO

  • Die Variable AUTONO wurde 2017 nicht mehr generiert, da es schwierig ist, diese Variable mit den üblichen Modellen der Autonomie zu vergleichen. Derzeit wird daran gearbeitet, vergleichbare Definitionen von Autonomie zu erstellen.t.

6.3 Datensatz PEQUIV

  • Der PEQUIV (raw: $$PEQUIV) Datensatz enthält sechs neue Variablen. Diese sind:
    • IAUS117 : Altersversorgung ons from another country
    • AUS217 : Witwen-/Waisenrente aus einem anderen Land
    • ASYL17 : Leistung nach Asylbewerberleistungsgesetz
    • FASYL17 : Imputation flag: Leistung nach Asylbewerberleistungsgesetz
    • EDUPAC17 : Leistungen aus dem Bildungspaket
    • FEDUPAC17 : Imputation flag: Leistungen aus dem Bildungspaket
    Weitere Informationen finden Sie im SOEP Survey Paper: Codebook for the $PEQUIV File 1984-2017.

6.4. Datensatz BIOAGEL und BIOPUPIL

  • Die Variablen aus den Fragebögen für 12- bzw. 14-Jährige werden nun im BIOPUPIL-Datensatz bereitgestellt, um die Unterschiede im Erhebungsmodus widerzuspiegeln (Eltern werden zu ihren Kindern befragt vs. Kinder werden direkt befragt.
  • Variablen aus zusätzlichen Fragen bei den Geflüchteten-Stichproben (M3-M5) wurden in BIOAGEL und BIOPUPIL integriert.

6.5. Datensatz HGEN

In den letzten Jahren wurden einige Änderungen bei den Fragen zur Wohnungsmiete vorgenommen. Die erste Änderung fand im Haushaltsfragebogen der Welle BF (2014) statt. Die Frage nach den Mietnebenkosten wurde so detailliert gestellt, dass die Befragten nicht in der Lage waren, korrekte Antworten zu geben. Dies führte zu einer Unterschätzung sowohl der Grundmiete als auch der Nebenkosten.
Es zeigte sich, dass dies zu einem leichten Bruch der Zeitreihe führte: Die Miete ist im Laufe der Jahre seit 1984 kontinuierlich gestiegen. In den Jahren 2014 und 2015 sanken die Mietkosten jedoch und sind seit 2016 wieder stark gestiegen. Diese Unterbrechung lässt sich durch die Änderung des Fragebogens erklären.

Ab Welle BH werden die Befragten wieder auf die gleiche Weise wie in Welle BG (2016) und in Welle BD (2013) nach der Miete befragt, um die langfristige Vergleichbarkeit zu gewährleisten.

Darüber hinaus sind mit der Welle BH die neue Migrationsstichprobe M5 und die neue Auffrischungsstichprobe N Teil des SOEP. Da die Stichprobe M5 nicht in vergleichbarer Weise zu den Nebenkosten befragt wurde und viele dieser Befragten wahrscheinlich in Gruppenwohnungen leben oder Zuschüsse zur Deckung der Lebenshaltungskosten erhalten, wurde keine Mietvariable für diese Stichprobe generiert .

v33 - Miete

v34 - Miete

2010: 486.25

2010: 486.21

2011: 484.93

2011: 485.64

2012: 491.01

2012: 490.75

2013: 505.00

2013: 505.59

2014: 470.95

2014: 473.74

2015: 507.06

2015: 508.57

2016: 545.53

2016: 541.90

 

2017: 550.67

6.6. Datensatz BIOIMMIG

  • Die Population ist auf Grund einer Kodierung in BIIMGPR gesunken (Nähere Informationen in der Dokumentation BIOIMMIG).
     

6.7. Datensatz HHRF/PHRF

  • Neue Variablen in HHRF: BHHHRF, BHHBLEIB, BHHHRFAM4, BHHHRFM5, BHHHRFN
  • Neue Variablen in PHRF (und ENUMHRF, erhältlich auf Nachfraget): BHPHRF, BHPBLEIB, BHPHRFAM4, BHPHRFM5, BHPHRFN
  • Bitte beachten Sie, dass Sie mit unserem neuen integrierten Datenformat alle Gewichtungsvariablen jetzt direkt in PPATHL oder HPATHL finden.
  • Auf Nachfrage stellen wir gern Gewichtungsvariablen für die getrennte Gewichtung der Geflüchtetenstichproben M3, M4 und M5 zur Verfügung (BHPHRFM35, BHHHRFM35).

6.7.1. Revisionen und Fehlerbehebungen

  • Wegen einer Verwechslungen der Ländercodes für Iran und Russland im Ziehungsrahmen (Zentralregister der Ausländer, AZR) mussten die Designgewichte für die Samples M3 und M4 sowie deren Querschnittsgewichte für die Welle BG aktualisiert werden.
  • IIn Welle BG hatten wir als Grundgesamtheit der Stichproben M3 und M4 die Geflüchteten angesehen, die zwischen Januar 2013 und Januar 2016 in Deutschland angekommen sind.  Tatsächlich sind nur die Geflüchteten, deren Eintragung in das Zentrale Ausländerregister (AZR) bis April 2016 erfolgte, in diese Stichproben aufgenommen worden.  In Stichprobe M5 wurden unter anderem diejenigen Geflüchteten befragt, die zwar im gleichen Zeitraum zugewandert waren, aber später registriert wurden. Aus diesem Grund wurde die Summe für die Nachschichtung der zweiten Welle von M3 und M4 um die Anzahl der Geflüchteten mit einem späteren Registrierungsdatum reduziert.



1984-2017 (Welle BH)

Übersicht:

  1. Datensatz: pl; Variablen: plb0186_v2, plb0186_h

    Die Variablen plb0186_v2 und plb0186_h haben für das Ostsample im Jahr 1990 um den Faktor 10 zu kleine Werte.

  2. Datensatz: bhh; Variablen: bhh_37_01, bhh_37_02

    Der Variablenname der Raw-Variablen bhh_37_01 „Stromkosten in Mietpreis enthalten“ und bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“ entspricht nicht dem gängigen Namenskonzept des SOEP. Die beiden Variablen werden in der nächsten Version umbenannt.

  3. Datensatz: migspell

    Beim Datensatz migspell wurde fälschlicherweise die Version aus der vorherigen Datenweitergabe ausgeliefert.

  4. Datensatz: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege; Variablen: pid, hid, cid

    Die neuen Identifier wurde nicht befüllt und müssen aus den alten Identifiern befüllt werden.

Details:

1. Datensatz: pl
Variablen: plb0186_v2, plb0186_h

Die Variablen plb0186_v2 „Tatsächliche Arbeitszeit mit Überstunden (1990-2017)“ und plb0186_h „Tatsächliche Arbeitszeit mit Überstunden (harmonisiert)“ haben für das Ostsample im Jahr 1990 falsche Werte.

Die Variable plb0186_h setzt sich aus den Variablen plb0186_v1 (1984-1989) und plb0186_v2 (1990-2017) zusammen. Hierfür wurden alle Werte von plb0186_v1 direkt übernommen und die gültigen Werte der plb0186_v2 wurden durch 10 geteilt. Der Harmonisierungsprozess muss erfolgen, weil für das Erhebungsjahr 1990 zwei Raw-Variablen genutzt werden, die unterschiedlich geliefert wurden.

gpost: gp3601e (zweistellig ohne Komma)
gp: gp39 (dreistellig ohne Komma)

Die Raw-Variable gp3601e aus gpost wurde der Variable plb0186_v2 zugewiesen, obwohl sie nicht durch 10 geteilt werden muss. So wurden alle Werte der Ostdeutschen-Population für das Jahr 1990 fälschlicherweise durch 10 geteilt. Der einfachste Weg dieses Problem zu lösen ist es, wenn Sie die gültigen Werte der Ostpopulation mit 10 multiplizieren. 

cd "Datenpfad"
use "pl.dta"
tabstat plb0186_*,by(syear)
clonevar rep_plb0186_h=plb0186_h
replace rep_plb0186_h = rep_plb0186_h*10 if inputdataset == "gpost" & rep_plb0186_h > 0

Genauere Informationen zum allgemeinen Harmonisierungsprozess von Variablen finden Sie hier:

Versionierung und Harmonisierung

Das Arbeiten mit harmonisierten Variablen

2. Datensatz: bhh
Variablen: bhh_37_01, bhh_37_02

Der  Variablenname der Raw-Variablen bhh_37_01 „Stromkosten in Mietpreis enthalten“ und bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“ entspricht nicht dem gängigem Namenskonzept des SOEP. Die beiden Variablen müssten umbenannt werden:

bhh_37_01 „Stromkosten in Mietpreis enthalten“  -> bhh_33
bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“  -> bhh_37

Wie Raw-Variablen im SOEP benannt werden, können Sie im SOEPcompanion nachlesen:

Namensschema von Variablen und Datensätzen

3. Datensatz: migspell

Beim Datensatz migspell wurde fälschlicherweise die Version aus der vorherigen Datenweitergabe ausgeliefert. Interessenten des Datensatzes können sich telefonisch an die SOEPhotline wenden oder eine Mail an soepinfo schreiben, um die aktuelle Version zu erhalten.

4. Datensätze: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege
Variablen: pid, cid, hid

Im Zuge der "Zusammenlegung" von SOEP-Long und SOEP-Core sollten alle SOEPlong-ID-Variablen (pid, hid, cid) auch in die Raw-Datensätze geschrieben werden, damit das Mergen für die Nutzenden vereinfacht wird. Bei einigen Datensätzen wurden nur die ID-Variablen angelegt, aber nicht mit den entsprechenden IDs gefüllt.

Leere pid: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege
Leere hid: bioimmig, bioresid, biosoc
Leere cid: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege

Benutzen Sie bei diesen Datensätzen bitte weiterhin persnr, hhnrakt, hhnr, bzw. kopieren Sie den Inhalt in die entsprechende neue ID-Variable.

clonevar pid = persnr
clonevar hid = hhnrakt
clonevar cid = hhnr

Genauere Informationen zu den SOEP-Identifiern finden Sie hier:

Datensatz Identifier


Individual (PAPI) 2017: Field-de,en Var-de Var-en
Household (PAPI) 2017: Field-de,en Var-de Var-en
Biography (PAPI) 2017: Field-de Var-de Var-en
Catch-up Individual (PAPI) 2017: Field-de Var-de Var-en
Youth (16-17-year-olds, PAPI) 2017: Field-de Var-de Var-en
Early Youth (13-14-year-olds, PAPI) 2017: Field-de Var-de Var-en
Pre-teen (11-12-year-olds, PAPI) 2017: Field-de Var-de Var-en
Mother and Child (Newborns, PAPI) 2017: Field-de Var-de Var-en
Mother and Child (2-3-year-olds, PAPI) 2017: Field-de Var-de Var-en
Mother and Child (5-6-year-olds, PAPI) 2017: Field-de Var-de Var-en
Parents and Child (7-8-year-olds, PAPI) 2017: Field-de Var-de Var-en
Mother and Child (9-10-year-olds, PAPI) 2017: Field-de Var-de Var-en
Deceased Individual (PAPI) 2017: Field-de Var-de Var-en

Alle Sample-spezifischen Fragebögen dieses Jahres und alle Fragebögen der vorherigen Befragungsjahre finden Sie auf dieser Seite

1) Supplementary of the IAB-BAMF-SOEP Survey of Refugees in Germany (M5) 2017

2) SOEP-Core v34 – Documentation of Sample Sizes and Panel Attrition in the German Socio-Economic Panel (SOEP) (1984 until 2017)

3) SOEP-Core v34 – Biographical Information in the Meta File PPATH (Month of Birth, Immigration Variables, Living in East or West Germany in 1989)

4) SOEP-Core v34 – PPATHL: Person-Related Meta-Dataset

5) SOEP-Core v34 – HPATHL: Household-Related Meta-Dataset

6) SOEP-Core v34 – PBRUTTO: Person-Related Gross File

7) SOEP-Core v34 – HBRUTTO: Household-Related Gross File

8) SOEP-Core v34 – PGEN: Person-Related Status and Generated Variables

9) SOEP-Core v34 – HGEN: Household-Related Status and Generated Variables

10) SOEP-Core v34 – Codebook for the $PEQUIV File 1984-2017 : CNEF Variables with Extended Income Information for the SOEP

11) SOEP-Core v34 – BIOIMMIG: Generated variables for foreign nationals, immigrants, and their descendants in the SOEP

12) SOEP-Core v34 – HEALTH

13) SOEP-Core v34 – BIOPAREN: Biography Information for the Parents of SOEP-Respondents

14) SOEP-Core v34 – BIOAGEL & BIOPUPIL: Generated Variables from the “Mother & Child”, “Parent”, “Pre-Teen”, and “Early Youth” Questionnaires

15) SOEP-Core v34 – BIOSIB: Information on siblings in the SOEP

16) SOEP-Core v34 – The couple history files BIOCOUPLM and BIOCOUPLY, and marital history files BIOMARSM and BIOMARSY

17) SOEP-Core v34 – BIOAGE17: The Youth Questionnaire

18) SOEP-Core v34 – BIOSOC: Retrospective Data on Youth and Socialization

19) SOEP-Core v34 – BIOJOB: Detailed Information on First and Last Job

20) SOEP-Core v34 – BIOEDU: Data on educational participation and transitions

21) SOEP-Core v34 – BIORESID: Variables on Occupancy and Second Residence

22) SOEP-Core v34 – BIOBIRTH: A Data Set on the Birth Biography of Male and Female Respondents

23) SOEP-Core v34 – BIOTWIN: TWINS in the SOEP

24) SOEP-Core v34 – LIFESPELL: Information on the Pre- and Post-Survey History of SOEP-Respondents

25) SOEP-Core v34 – MIGSPELL and REFUGSPELL: The Migration-Biographies

26) SOEP-Core v34 – Activity Biography in the Files PBIOSPE and ARTKALEN

1) Handgreifkraftmessung im Sozio-oekonomischen Panel (SOEP) 2006 und 2008

2) Documentation on ISCED Generation Using the CAMCES Tool in the IAB-SOEP Migration Samples M1/M2

3) The new IAB-SOEP Migration Sample: an introduction into the methodology and the contents

4) The Request for Record Linkage in the IAB-SOEP Migration Sample

5) Flowcharts for the Integrated Individual-Biography Questionnaire of the IAB-SOEP Migration Sample 2013

6) SOEP 2007 – Editing und multiple Imputation der Vermögensinformation 2002 und 2007 im SOEP

7) The Measurement of Labor Market Entries with SOEP Data: Introduction to the Variable EINSTIEG_ARTK

8) Job submission instructions for the SOEPremote System at DIW Berlin – Update 2014

9) SOEP 2015 – Informationen zu den SOEP-Geocodes in SOEP v32

10) Editing and Multiple Imputation of Item Non-response in the Wealth Module of the German Socio-Economic Panel

11) Die Vercodung der offenen Angaben zu den Ausbildungsberufen im Sozio-Oekonomischen Panel

12) Das Studiendesign der IAB-BAMF-SOEP Befragung von Geflüchteten

13) Scales Manual IAB-BAMF-SOEP Survey of Refugees in Germany – revised version

14) SOEP 2010 – Preparation of data from the new SOEP consumption module: Editing, imputation, and smoothing

15) SOEP Scales Manual (updated for SOEP-Core v32.1)

16) Kognitionspotenziale Jugendlicher - Ergänzung zum Jugendfragebogen der Längsschnittstudie Sozio-oekonomisches Panel (SOEP)

17) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der International Standard Classification of Occupations 2008 (ISCO08) - Direktvercodung - Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

18) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der Klassifikation der Berufe 2010 (KldB 2010): Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

19) Multi-Itemskalen im SOEP Jugendfragebogen

20) Zur Erhebung des adaptiven Verhaltens von zwei- und dreijährigen Kindern im Sozio-oekonomischen Panel (SOEP)

21) Missing Income Data in the German SOEP: Incidence, Imputation and its Impact on the Income Distribution

22) SOEP 2013 – Documentation of Generated Person-Level Long-Term Care Variables in PFLEGE

23) SOEP-Core v34 – PFLEGE: Documentation of Generated Person-level Long-term Care Variables

24) SOEP 2006 – TIMEPREF: Dataset on the Economic Behavior Experiment on Time Preferences in the 2006 SOEP Survey

25) SOEP-Core v34: Codebook for the EU-SILC-Like Panel for Germany Based on the SOEP

26) Assessing the distributional impact of "imputed rent" and "non-cash employee income" in microdata : Case studies based on EU-SILC (2004) and SOEP (2002)

Alle Dokumentationen zum Filtern finden Sie auf dieser Seite