SOEP-Core-Daten

Die Studie

Das Sozio-oekonomische Panel (SOEP) ist eine breit angelegte, repräsentative Längsschnittstudie privater Haushalte in Deutschland, die 1984 gestartet und am DIW Berlin angesiedelt ist. In der Hauptstudie SOEP-Core werden zur Zeit jährlich fast 15.000 Haushalte und mehr als 30.000 Personen von der Feldarbeitsorganisation Kantar Public Deutschland (bis 2017 TNS Infratest Sozialforschung) befragt.

Von Beginn an ist das zentrale Ziel die Erhebung und Bereitstellung repräsentativer Mikrodaten zur Messung von Stabilität und Veränderungen von Lebensbedingungen. Ausgangspunkt ist ein mikroökonomischer Ansatz, der durch soziologische und politikwissenschaftliche Variablen ergänzt wird, die dem Konzept zur Messung "Sozialer Indikatoren" entnommen sind. Die Daten geben Auskunft über alle Mitglieder eines in Deutschland ansässigen Haushalts, unabhängig von Staatsangehörigkeit, Geburtsort und Alter. Die Studie erfasst unter anderem die Haushaltszusammensetzung sowie Berufsbiographie, Beschäftigung, Einkommen, Gesundheits- und Zufriedenheitsindikatoren der befragten Personen.

Bereits im Juni 1990 - noch vor der Wirtschafts-, Sozial- und Währungsunion - wurde SOEP-Core auf das Staatsgebiet der ehemaligen DDR ausgeweitet und nutzte damit die seltene Gelegenheit, den Wandel einer ganzen Gesellschaft zu beobachten. In den Jahren 1994/95, 2013, 2015 und 2016 wurde die Befragung um Zugewanderten- und Geflüchtetenstichproben ergänzt, um dem gesellschaftlichen Wandel in der deutschen Gesellschaft gerecht zu werden. Weitere neue Stichproben ergänzten das SOEP 1998, 2000, 2002, 2006, 2009, 2011 und 2012. Die Umfrage wird also laufend an die aktuellen gesellschaftlichen Entwicklungen angepasst und weiterentwickelt.

Seit der Version 31 (10.5684/soep.v31) enthält SOEP-Core die vollständigen Daten von "Familien in Deutschland" (FiD), die rückwirkend integriert wurden. Die FiD-Studie wurde parallel zum SOEP als sogenannte "SOEP-Related Study" von 2010 bis 2013 durchgeführt.
Die internationale Version von SOEP-Core enthält 95% aller befragten Fälle.

Fehlerupdate für Welle BH (1984-2017):

Bitte beachten Sie, dass das Update nicht in der aktuellen Datenweitergabe vorgenommen wurde, sondern von Ihnen manuell durchgeführt werden muss!

Übersicht:

  1. Datensatz: pl; Variablen: plb0186_v2, plb0186_h

    Die Variablen plb0186_v2 und plb0186_h haben für das Ostsample im Jahr 1990 um den Faktor 10 zu kleine Werte.

  2. Datensatz: bhh; Variablen: bhh_37_01, bhh_37_02

    Der Variablenname der Raw-Variablen bhh_37_01 „Stromkosten in Mietpreis enthalten“ und bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“ entspricht nicht dem gängigem Namenskonzept des SOEP. Die beiden Variablen werden in der nächsten Version umbenannt.

  3. Datensatz: migspell

    Beim Datensatz migspell wurde fälschlicherweise die Version aus der vorherigen Datenweitergabe ausgeliefert.

  4. Datensatz: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege; Variablen: pid, hid, cid

    Die neuen Identifier wurde nicht befüllt und müssen aus den alten Identifiern befüllt werden.

Details:

1. Datensatz: pl
Variablen: plb0186_v2, plb0186_h

Die Variablen plb0186_v2 „Tatsächliche Arbeitszeit mit Überstunden (1990-2017)“ und plb0186_h „Tatsächliche Arbeitszeit mit Überstunden (harmonisiert)“ haben für das Ostsample im Jahr 1990 falsche Werte.

Die Variable plb0186_h setzt sich aus den Variablen plb0186_v1 (1984-1989) und plb0186_v2 (1990-2017) zusammen. Hierfür wurden alle Werte von plb0186_v1 direkt übernommen und die gültigen Werte der plb0186_v2 wurden durch 10 geteilt. Der Harmonisierungsprozess muss erfolgen, weil für das Erhebungsjahr 1990 zwei Raw-Variablen genutzt werden, die unterschiedlich geliefert wurden.

gpost: gp3601e (zweistellig ohne Komma)
gp: gp39 (dreistellig ohne Komma)

Die Raw-Variable gp3601e aus gpost wurde der Variable plb0186_v2 zugewiesen, obwohl sie nicht durch 10 geteilt werden muss. So wurden alle Werte der Ostdeutschen-Population für das Jahr 1990 fälschlicherweise durch 10 geteilt. Der einfachste Weg dieses Problem zu lösen ist es, wenn Sie die gültigen Werte der Ostpopulation mit 10 multiplizieren. 

cd "Datenpfad"
use "pl.dta"
tabstat plb0186_*,by(syear)
clonevar rep_plb0186_h=plb0186_h
replace rep_plb0186_h = rep_plb0186_h*10 if inputdataset == "gpost" & rep_plb0186_h > 0

Genauere Informationen zum allgemeinen Harmonisierungsprozess von Variablen finden Sie hier:

Versionierung und Harmonisierung

Das Arbeiten mit harmonisierten Variablen

2. Datensatz: bhh
Variablen: bhh_37_01, bhh_37_02

Der  Variablenname der Raw-Variablen bhh_37_01 „Stromkosten in Mietpreis enthalten“ und bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“ entspricht nicht dem gängigem Namenskonzept des SOEP. Die beiden Variablen müssten umbenannt werden:

bhh_37_01 „Stromkosten in Mietpreis enthalten“  -> bhh_33
bhh_37_02 „Beurteilung Belastung durch Wohnkosten (Miete und Nebenkosten)“  -> bhh_37

Wie Raw-Variablen im SOEP benannt werden, können Sie im SOEPcompanion nachlesen:

Namensschema von Variablen und Datensätzen

3. Datensatz: migspell

Beim Datensatz migspell wurde fälschlicherweise die Version aus der vorherigen Datenweitergabe ausgeliefert. Interessenten des Datensatzes können sich telefonsich an die SOEPhotline wenden oder eine Mail an soepinfo schreiben, um die aktuelle Version zu erhalten.

4. Datensätze: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege
Variablen: pid, cid, hid

Im Zuge der "Zusammenlegung" von SOEP-Long und SOEP-Core sollten alle SOEPlong-ID-Variablen (pid, hid, cid) auch in die Raw-Datensätze geschrieben werden, damit das Mergen für die Nutzenden vereinfacht wird. Bei einigen Datensätzen wurden nur die ID-Variablen angelegt, aber nicht mit den entsprechenden IDs gefüllt.

Leere pid: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege
Leere hid: bioimmig, bioresid, biosoc
Leere cid: biobirth, bioimmig, biojob, bioparen, bioresid, biosib, biosoc, biotwin, pflege

Benutzen Sie bei diesen Datensätzen bitte weiterhin persnr, hhnrakt, hhnr, bzw. kopieren Sie den Inhalt in die entsprechende neue ID-Variable.

clonevar pid = persnr
clonevar hid = hhnrakt
clonevar cid = hhnr

Genauere Informationen zu den SOEP-Identifiern finden Sie hier:

Datensatz Identifier

Folgende Änderungen am Datensatz wurden für die aktuelle Datenweitergabe 2017 vorgenommen:

1. Neues, nutzerfreundlich integriertes Datenformat

Mit der neuen Welle der SOEP-Haupterhebung (SOEP-Core) führen wir die beiden bisher getrennt übermittelten Formate (wide und long) zusammen. Dadurch wollen wir Unklarheiten vermeiden, was in welchem Format vorliegt und die Nutzung der Daten insgesamt erleichtern. Nachdem wir bereits einige Jahre lang SOEPlong als ein nutzerfreundliches ergänzendes Angebot – sowohl für EinsteigerInnen als auch für langjährige NutzerInnen – getestet haben, soll nun die Weitergabe der SOEP-Daten standardmäßig auch alle Datensätze im long-Format enthalten. Das bedeutet, dass das ausgelieferte Datenfile folgende unterschiedlichen Formate der SOEP-Daten enthält, die zum Teil in unterschiedlichen Verzeichnissen gespeichert sind.

Bitte achten Sie daher darauf, dass Sie beim Entpacken auch die Verzeichnisstruktur mit entpacken.

1.1. SOEP im „long“ -Format auf der obersten Ebene

Im obersten Verzeichnis (oder dem Root-Verzeichnis) liegen alle bisher mit SOEPlong ausgelieferten Datensätze (also PL, PPFADL etc.) sowie die bisher nur im wide-Format ausgelieferten Datensätze (z.B. die Biografie- oder spellbezogenen Datensätze, wie BIOPAREN, ARTKALEN usw.). Damit ist der komplette Datenumfang der SOEP-Haupterhebung mit den im obersten Verzeichnis liegenden Datensätzen abgedeckt.

Nachdem wir bereits seit einigen Jahren das long-Format als ein nutzerfreundliches ergänzendes Angebot bereitstellen, sind wir überzeugt, dass dieses Format insbesondere für EinsteigerInnen eine sehr viel komfortablere Nutzung der Daten ermöglicht. Deswegen haben wir entschieden, jetzt und in Zukunft dieses Format bevorzugt weiterzugeben.

Die einzelnen jahresspezifisch vorliegenden Datensätze werden dabei gepoolt über alle Jahre in einem Datensatz zusammengefasst. (z.B. werden alle $P-Datensätze in einen PL-Datensatz integriert. Hierbei müssen Variablen gegebenenfalls über die Zeit harmonisiert werden. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent in einer Variable abbilden zu können: So werden beispielsweise auch die Einkommensangaben, die vor 2001 erfolgten, durchgehend in Euro und nicht in DM ausgewiesen, oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die NutzerInnen erkennbar und nachvollziehbar dargestellt, zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt. (siehe unten:  _v*-variables).  SOEPlong reduziert damit sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich.

Eine detailliertere Beschreibung dieses neuen Formats der SOEP-Core-Datenweitergabe finden Sie in unserem neuen SOEPcompanion.

1.1.1. Die wichtigsten Änderungen zu v34 im long-Format

  • Die folgenden Datensätze wurden hinzugefügt:
    • HBRUTT: HBRUTT$$-Datensätze im long-Format
    • PLUECKEL: $PLUECKE-Datensätze im long-Format
    • VPL: $VP Datensätze im long-Format 
    • PL und PL2 werden wieder in einem gemeinsamen Datensatz (PL) ausgeliefert
    Das Variablenschema mit c-Variablen (crossectional) und l-Variablen (longitudinal) wurde folgendermaßen abgewandelt:
    • Wenn sich für eine Variable im long-Format die zu Grunde liegenden Variablen im Querschnitt änderten, dann wird für jede Version eine entsprechende _v*-Variable erzeugt. Gleichzeitig wird eine harmonisierte _h-Variable bereitgestellt. Hierzu gibt es weitere Informationen im SOEPcompanion (Allgemeine Erklärung, Beispiele)
  • In allen aus verschiedenen querschnittlichen Datensätzen generierten long-Datensätzen gibt es die neue Variable : INPUTDATASET.
  • Das neue gemeinsame Weitergabeformat führt dazu, dass einige Datensätze mit long-spezifischen Namen nicht mehr in der Datenlieferung enthalten sind: CDESIGN, CSAMP, CSAMPFID, KIDL, PBREXIT.
  • Die folgenden Datensätze wurden umbenannt, damit es nicht zu einem Namenskonflikt mit den Daten im raw-Verzeichnis kommt:
    • PPATH ersetzt PPFAD
    • PPATHL ersetzt PPFADL
    • HPATH ersetzt HPFAD
    • HPATHL ersetzt HPFADL

1.2. Klassisches Format im Unterverzeichnis raw

Weil wir uns bewusst sind, dass viele Skripte auf dem Original-Datenformat beruhen und um den Prozess der Generierung der long-Daten nachvollziehbar zu machen, finden Sie alle Datensätze im originalen SOEP-Format im Verzeichnis raw.

NutzerInnen, die weiterhin das alte Format nutzen wollen, brauchen nur ins Unterverzeichnis raw zu wechseln und die Datensätze zu nutzen, die dort liegen.

Der einzige Unterschied zu vorher ist, dass es jetzt in allen Datensätzen im raw-Verzeichnis zusätzliche Identifikatoren mit den Namen im long-Format gibt (PID und PERSNR oder HID und $HHNRAKT) sowie die Variable für das Befragungsjahr (SYEAR), so dass die Nutzenden ganz einfach Variablen aus beiden Datenformate mergen können.

1.3. Neuer EU-SILC-Klon im Unterverzeichnis eu-silc-clone

Vielen NutzerInnen ist sicher bekannt, dass das SOEP länderübergreifende Analysen mit Hilfe des CNEF durch den Datensatz PEQUIV unterstützt. Wir haben nun ein Datenprodukt entwickelt, das es Ihnen ermöglicht, die SOEP-Daten für vergleichenden Analysen zusammen mit den Daten von EU-SILC (European Union Statistics on Income and Living Conditions) zu nutzen. EU-SILC, das von Eurostat auf Anfrage zur Verfügung gestellt wird, bietet Querschnitt- und Längsschnittinformationen für viele europäische Länder. Für für Deutschland lagen bisher allerdings nur Querschnittinformationen vor. Der EU-SILC-Klon bietet nun Längsschnittinformationen über private Haushalte in Deutschland auf der Grundlage der SOEP-Daten. Alle darin enthaltenen Informationen sind direkt mit den EU-SILC-Längsschnittinformationen anderer europäischer Länder vergleichbar.

Der EU-SILC-Klon ist in die Standard-SOEP-Datenweitergabe (im Unterverzeichnis eu-silc clone) integriert.

Die Dokumentation des EU-SILC-Klons 2005-2016 finden Sie hier (PDF, 3.01 MB).

2. Neue Sample in der SOEP-Hauptstudie

Die neue SOEP-Core-Datenweitergabe (v34) ist die erste, die Daten aus der IAB-BAMF-SOEP-Befragung von Geflüchteten in Deutschland als Sample M5, sowie die Fortsetzung der PIAAC-L-Befragung als Sample N enthält.

2.1. IAB-BAMF-SOEP Befragung von Geflüchteten (M5)

In Zusammenarbeit mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB) und dem Bundesamt für Migration und Flüchtlinge (BAMF) ist es dem SOEP gelungen, eine dritte Stichprobe von Haushalten Geflüchteter (M5) in die SOEP-Studie zu integrieren. Diese Stichprobe wurde 2017 erstmals befragt. Die Grundgesamtheit von M5 besteht aus erwachsenen Geflüchteten, die seit dem 1. Januar 2013 in Deutschland Asyl beantragt haben und derzeit in Deutschland leben. SOEP-Core wurde mit M5 so um 1.519 Haushalte von Geflüchteten, die seit 2013 nach Deutschland gekommen sind, erweitert.

2.2. Integration der Befragungspersonen aus PIAAC-L als Teilstichprobe N

2017 wurden 2.314 Haushalte ehemaliger TeilnehmerInnen der Studie „Program for the International Assessment of Adult Competencies“ (PIAAC und PIAAC-L) erstmals als SOEP-Haushalte befragt und sind jetzt als Stichprobe N integriert. Dies ist die jüngste Ergänzung zu den SOEP-Core-Samples.
Die Feldarbeit für Sample N wurde zwischen Mitte März und Mitte August und damit etwas später als für die Samples A-L1 durchgeführt.
Weitere Informationen zum PIAAC-L-Projekt finden Sie auf der Projekthomepage.

3. Übersetzungsfehler in einigen Fragebogensprachen

In der IAB-BAMF-SOEP-Befragung Geflüchteter g (M3-M5) gab es in einigen Fragen zu Einkommenskomponenten in übersetzten Versionen des Haushaltsfragebogens Übersetzungsfehler. Die Antworten auf diese Variablen sind daher nicht mit anderen Antworten vergleichbar. Die entsprechenden Variablen wurden auf -3 gesetzt.

4. Löschung von Interviews, die nicht nach den Standards der IAB-BAMF-SOEP-Gruppe in der IAB-BAMF-SOEP-Befragung von Geflüchteten (M3/M4) durchgeführt wurden

Im Rahmen der Datenaufbereitung wurden drei InterviewerInnen identifiziert, die die Erhebung nicht nach den Standards der IAB-BAMF-SOEP-Gruppe durchgeführt haben (weitere Informationen hier). Die identifizierten InterviewerInnen waren 2016 für 88 Haushalte und 2017 für 112 Haushalte verantwortlich. Die in der ersten Welle der Umfrage (2016) betroffenen Haushalte wurden vollständig aus dem Datensatz entfernt. Die 2017 betroffenen Haushalte, die zum zweiten Mal befragt werden sollten, wurden für 2017 gelöscht, aber im Datensatz für 2016 belassen. Es gibt keine Hinweise darauf, dass die ersten Interviews (die von einer anderen Person durchgeführt worden waren) nicht nach den Standards des IAB-BAMF-SOEP durchgeführt wurden. Die aus der Datenweitergabe gelöschten Interviews und Fälle können auf Anfrage an einem Gastarbeitsplatz im SOEP-FDZ für surveymethodologische Analysen zur Verfügung gestellt werden.
Nach den vorgenommenen Löschungen aus allen Datensätzen wurden folgende Anpassungen vorgenommen:

  • Die Löschung der Haushalts- und Einzelinterviews erforderte eine Aktualisierung der Gewichte (Datensatz HHRF und PHRF), die nun die leicht reduzierten Fallzahlen in den Erhebungsjahren 2016 und 2017 berücksichtigen.
  • Aktualisierung / Aufnahme der neuen Gewichte in die Datensätze BGPEQUIV und BHPEQUIV.

5. Erweiterte Namenskonventionen für Variablen

Die erweiterte Namenskonvention für Variablen wird nur auf Datensätze ab Welle BH angewendet und gilt nur für die Datensätze $P, $H, $H, $KIND. Wir haben jeweils Unterstriche zwischen den Identifikatoren für die Analyseeinheit, die Frage und das Item hinzugefügt, um Analyseeinheit, Frage und Item visuell klar zu trennen. Zusätzlich wurde eine Fragebogenkennung eingeführt, die ebenfalls durch einen Unterstrich vom Item getrennt ist. Diese neue Version der Namensvariablen wird nur verwendet, wenn sich der Fragebogen vom "ursprünglichen" SOEP-Core-Fragebogen unterscheidet.

Wegen der unterschiedlichen Stichproben im SOEP gibt es einige Befragte, die stichprobenspezifische Fragen erhalten, wie z.B. in der Stichprobe von Geflüchteten, die 2016 begann. Für diese spezielle Gruppe gibt es einen erweiterten Personenfragebogen mit einigen spezifischen Fragen, die über die Standardfragen des SOEP, die jedes Jahr gestellt werden, hinausgehen. Für die spezifischen Fragen können Sie die Instrumentvariable (INSTRUMENT) verwenden, um die Quelle der Variablen anzuzeigen..

Beispiele und detailliertere Beschreibungen finden Sie im Kapitel zu diesem Thema im SOEPcompanion.

6. Änderungen bestimmter Variablen

  • Neue Variablen für das Interviewjahr: HIYEAR in HGEN und HPATHL sowiePIYEAR in PGEN und PPATHL. Diese neuen Variablen geben für alle Erhebungsjahre die Haushalts- und Einzelinterviews an, die nach (oder vor) dem Erhebungsjahr abgeschlossen wurden (Variable SYEAR), welches das Bezugsjahr für die Fragebögen und die Datenerhebung ist.


6.1. Datensatz PPATH / PPATHL (in raw: PPFAD)

6.1.1. SEXOR

  • Die vorherige Datenlieferung war die erste, die die Variablen SEXOR (sexuelle Orientierung) und SEXORINFO (Informationsquelle zur sexuellen Orientierung) enthielt. Der Wert -1 „unzureichende Informationen" wurde in 2 „unzureichende Informationen" geändert.

6.1.2 PARINFO

  • Der Wert -1 „keine Angabe” wurde in den korrekten Wert 5 „unklar” geändert.

6.1.3 Informationen zu Migration

  • Die Codierung von GERMBORN, CORIGIN, IMMIYEAR und MIGBACK wurde auf Grund von inkonsistenten Fällen geändert (mehr Informationen erhalten Sie in der PPATH/PPFAD Dokumentation)

6.1.4. Asylsuchende und Geflüchtete

  • Die Variablen für Asylsuchende und Geflüchtete  [AREBACK, AREFINFO] wurden umbenannt (in v33: REFBACK, REFINFO) und überarbeitet. Die Variable AREFINFO erlaubt nun auch die Identifikation von bestimmten Untergruppen (mehr Informationen dazu finden Sie in der Dokumentation).

6.2. Datensatz PGEN

6.2.1 Partnerzeiger

  • Für die Variable PGPARTZ (PARTZ$), wurde der Wert -1 (“kein Angabe”) durch den korrekten Wert 5 (“unklar”) ersetzt.

Ab Welle BH wurden neue Prüfprozesse für die Generierung der Partnerzeiger implementiert, die die Qualität der Daten auch für vergangene Wellen rückwirkend verbessern:

  • widersprüchliche Partnerschaftsangaben zwischen zwei Partnern werden identifiziert und behandelt
  • Partnerschaften mit unterschiedlichen Partnerzeigern (1 „Ehepartner“ oder 2 „Lebenspartner“) innerhalb einer Partnerschaft wurden identifiziert und behandelt.
  • Fehler beim Vergeben der Werte für PARTZ (1 „Ehepartner“ und 2 „Lebenspartner“) durch unterschiedliche Filterführung der verschiedenen Erhebungsinstrumente wurde korrigiert. Beim Personenbiofragebogen der Samples J+K und beim Personenfragebogen der Samples A-I wurden Ehen unterschiedlich erhoben. Entscheidend für die Korrektur war hierbei das Ausgliedern der Samples J und K, da diese durch eine andere Filterführung Fehler hervorgerufen haben.
  • Partnerschaften mit kürzlich verstorbenen Personen wurden identifiziert und aufgelöst
  • Angaben der Befragten zu Scheidung, Trennung oder demTod des Lebenspartners/der Lebenspartnerin innerhalb des letzten Jahres wurden im Generierungsprozess erstmalig berücksichtigt
  • Für die Partnerschaften von Geflüchteten (Samples M3-M5) wurden erstmals zusätzlich Familienstatus, Partnerstatus, Vorname des Partners/der Partnerin (laufende Partnernummer) und Aufenthaltsort des Partners/ der Partnerin berücksichtigt. Im Vorjahr wurden die Partnerschaften nur über die Interviewerangaben (stell Variable) identifiziert.

6.2.2. Freiwilligendienst und Nebenjob

  • Die PGEN (raw: $$PGEN) Dateien enthalten neun neue Variablen. Im Jahr 2017 hat das SOEP die Befragung von Nebenjobs grundsätzlich überarbeitet. Jetzt können die Befragten zum ersten Mal Antworten auf drei verschiedene Nebenjobs geben. Sie können nun auch die Art der Nebentätigkeit unterscheiden, ob sie ehrenamtlich tätig sind (Variablen HONOR1, HONOR2, HONOR3) und ob sie für einen Arbeitgeber oder freiberuflich tätig sind. (SNDTYP1, SNDTYP2, SNDTYP3). Die Beträge der zusätzlichen Bruttoeinkommen aus Nebenjobs werden als kalkulatorische Informationen bereitgestellt (SNDJOB1, SNDJOB2, SNDJOB3).

    • SNDTYP117: Erste Nebentätigkeit Berufliche Stellung
    • SNDTYP217: Zweite Nebentätigkeit Berufliche Stellung
    • SNDTYP317: Dritte Nebentätigkeit Berufliche Stellung
    • SNDJOB117: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • SNDJOB217: Akt. Bruttoverdienst Nebentätigkeit 2 (gen.) in Euro
    • SNDJOB317: Akt. Bruttoverdienst Nebentätigkeit 1 (gen.) in Euro
    • HONOR117: Ehrenamtliche Tätigkeit 1
    • HONOR217: Ehrenamtliche Tätigkeit 2
    • HONOR317: Ehrenamtliche Tätigkeit 3

6.2.3. Bildungsabschlüsse

  • In v34 basieren CASMIN und ISCED auf zusätzlichen Informationen über im Ausland erworbene Bildungsabschlüsse. Daher weisen einige Personen mit ausländischen Abschlüssen in v33 höhere Ränge auf als in v34.
  • Der Fehler in der Variablen CASMIN in v33 ist behoben: In v33 wurden Personen mit 2c_voc (Berufsreifezeugnis) fälschlicherweise als 2c_gen (allgemeines Reifezeugnis) eingestuft.

6.2.4. AUTONO

  • Die Variable AUTONO wurde 2017 nicht mehr generiert, da es schwierig ist, diese Variable mit den üblichen Modellen der Autonomie zu vergleichen. Derzeit wird daran gearbeitet, vergleichbare Definitionen von Autonomie zu erstellen.t.

6.3 Datensatz PEQUIV

  • Der PEQUIV (raw: $$PEQUIV) Datensatz enthält sechs neue Variablen. Diese sind:
    • IAUS117 : Altersversorgung ons from another country
    • AUS217 : Witwen-/Waisenrente aus einem anderen Land
    • ASYL17 : Leistung nach Asylbewerberleistungsgesetz
    • FASYL17 : Imputation flag: Leistung nach Asylbewerberleistungsgesetz
    • EDUPAC17 : Leistungen aus dem Bildungspaket
    • FEDUPAC17 : Imputation flag: Leistungen aus dem Bildungspaket
    Weitere Informationen finden Sie im SOEP Survey Paper: Codebook for the $PEQUIV File 1984-2017.

6.4. Datensatz BIOAGEL und BIOPUPIL

  • Die Variablen aus den Fragebögen für 12- bzw. 14-Jährige werden nun im BIOPUPIL-Datensatz bereitgestellt, um die Unterschiede im Erhebungsmodus widerzuspiegeln (Eltern werden zu ihren Kindern befragt vs. Kinder werden direkt befragt.
  • Variablen aus zusätzlichen Fragen bei den Geflüchteten-Stichproben (M3-M5) wurden in BIOAGEL und BIOPUPIL integriert.

6.5. Datensatz HGEN

In den letzten Jahren wurden einige Änderungen bei den Fragen zur Wohnungsmiete vorgenommen. Die erste Änderung fand im Haushaltsfragebogen der Welle BF (2014) statt. Die Frage nach den Mietnebenkosten wurde so detailliert gestellt, dass die Befragten nicht in der Lage waren, korrekte Antworten zu geben. Dies führte zu einer Unterschätzung sowohl der Grundmiete als auch der Nebenkosten.
Es zeigte sich, dass dies zu einem leichten Bruch der Zeitreihe führte: Die Miete ist im Laufe der Jahre seit 1984 kontinuierlich gestiegen. In den Jahren 2014 und 2015 sanken die Mietkosten jedoch und sind seit 2016 wieder stark gestiegen. Diese Unterbrechung lässt sich durch die Änderung des Fragebogens erklären.

Ab Welle BH werden die Befragten wieder auf die gleiche Weise wie in Welle BG (2016) und in Welle BD (2013) nach der Miete befragt, um die langfristige Vergleichbarkeit zu gewährleisten.

Darüber hinaus sind mit der Welle BH die neue Migrationsstichprobe M5 und die neue Auffrischungsstichprobe N Teil des SOEP. Da die Stichprobe M5 nicht in vergleichbarer Weise zu den Nebenkosten befragt wurde und viele dieser Befragten wahrscheinlich in Gruppenwohnungen leben oder Zuschüsse zur Deckung der Lebenshaltungskosten erhalten, wurde keine Mietvariable für diese Stichprobe generiert .

v33 - Miete

v34 - Miete

2010: 486.25

2010: 486.21

2011: 484.93

2011: 485.64

2012: 491.01

2012: 490.75

2013: 505.00

2013: 505.59

2014: 470.95

2014: 473.74

2015: 507.06

2015: 508.57

2016: 545.53

2016: 541.90

 

2017: 550.67

6.6. Datensatz BIOIMMIG

  • Die Population ist auf Grund einer Kodierung in BIIMGPR gesunken (Nähere Informationen in der Dokumentation BIOIMMIG).
     

6.7. Datensatz HHRF/PHRF

  • Neue Variablen in HHRF: BHHHRF, BHHBLEIB, BHHHRFAM4, BHHHRFM5, BHHHRFN
  • Neue Variablen in PHRF (und ENUMHRF, erhältlich auf Nachfraget): BHPHRF, BHPBLEIB, BHPHRFAM4, BHPHRFM5, BHPHRFN
  • Bitte beachten Sie, dass Sie mit unserem neuen integrierten Datenformat alle Gewichtungsvariablen jetzt direkt in PPATHL oder HPATHL finden.
  • Auf Nachfrage stellen wir gern Gewichtungsvariablen für die getrennte Gewichtung der Geflüchtetenstichproben M3, M4 und M5 zur Verfügung (BHPHRFM35, BHHHRFM35).

6.7.1. Revisionen und Fehlerbehebungen

  • Wegen einer Verwechslungen der Ländercodes für Iran und Russland im Ziehungsrahmen (Zentralregister der Ausländer, AZR) mussten die Designgewichte für die Samples M3 und M4 sowie deren Querschnittsgewichte für die Welle BG aktualisiert werden.
  • IIn Welle BG hatten wir als Grundgesamtheit der Stichproben M3 und M4 die Geflüchteten angesehen, die zwischen Januar 2013 und Januar 2016 in Deutschland angekommen sind.  Tatsächlich sind nur die Geflüchteten, deren Eintragung in das Zentrale Ausländerregister (AZR) bis April 2016 erfolgte, in diese Stichproben aufgenommen worden.  In Stichprobe M5 wurden unter anderem diejenigen Geflüchteten befragt, die zwar im gleichen Zeitraum zugewandert waren, aber später registriert wurden. Aus diesem Grund wurde die Summe für die Nachschichtung der zweiten Welle von M3 und M4 um die Anzahl der Geflüchteten mit einem späteren Registrierungsdatum reduziert.

DOI: 10.5684/soep.v34
Erhebungszeitraum: 1984-2017
Veröffentlichungsdatum: 05.03.2019
Primärforscher: Stefan Liebig, Jan Goebel, Martin Kroh, Carsten Schröder, Jürgen Schupp, Charlotte Bartels, Alexandra Fedorets, Andreas Franken, Marco Giesselmann, Markus Grabka, Jannes Jacobsen, Selin Kara, Peter Krause, Hannes Kröger, Maria Metzing, Janine Napieraj, Jana Nebelin, David Richter, Diana Schacht, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Rainer Siegers, Knut Wenzig, Stefan Zimmermann

Datenerhebung: Kantar Public Deutschland
Population: Personen in Privathaushalten in der Bundesrepulik Deutschland
Datensatzinformationen:
Datenformat: STATA, SPSS, SAS, CSV

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre alt oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

Außerhalb der EWR-Staaten darf auf Grund der Datensatzbestimmungen nur mit einem reduzierten Datensatz (Scientific Use File) gearbeitet werden.
Die vollständigen Informationen hierzu erhalten Sie unter der DOI https://doi.org/10.5684/soep.v34i

1. Verweis auf die Datenquelle

Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen lauten:

Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW Berlin), bereitgestellt.

2. Kenntlichmachung der Datenversion

Weil präzise Verweise auf die Datenquellen im Forschungszusammenhang immer wichtiger werden, empfiehlt die SOEP-Gruppe die SOEP-Daten in folgender Weise zu zitieren.

Hier ein Beispiel:

Englisch:
Socio-Economic Panel (SOEP), data for years 1984-2019, Version 34, SOEP, 2019, doi:10.5684/soep.v4.

Deutsch:
Sozio-oekonomisches Panel (SOEP), Daten für die Jahre 1984-2019, Version 34, SOEP, 2019, doi:10.5684/soep.v34.

Kurzversion:
SOEP v34.

3. Literaturhinweis

Bitte verweisen Sie in Ihrem Literaturverzeichnis auf eine der folgenden Veröffentlichungen:    

Wenn Sie eine Publikation benötigen, die das Public Use File des SOEP, also die international vertriebene 95%-Version, beschreibt, nutzen Sie bitte:

Bei der Nutzung von PanelWhiz, einer Sammlung von Stata/SE® Add-On-Programmen, die automatisch Daten aus großen Paneldatensätzen, unter anderen dem SOEP, extrahieren, bitten wir um die folgende Zitation:

Um mehr Informationen über die Zitation der verschiedenen SOEP-Versionen zu erhalten, klicken Sie hier.

MD5 fingerprintsinfoMit den MD5 fingerprints (auch Prüfsumme oder Quersumme) können Sie überprüfen, ob Ihr Datendownload ohne Fehler geklappt hat: Da die Prüfsumme aus allen vorhandenen Daten einer Datei errechnet wird, gibt es bei der kleinsten Abweichung eine andere Prüfsumme. Den MD5- fingerprint Ihres Downloads können Sie in Windows entweder mit einem kleinen Programm errechnen lassen, die Funktion ist aber auch in einige Dateimanager integriert.

 

Weitergabeformat zip-Datei Einzeldatensätze
Stata zweisprachig dfe399ba3879874dbdd0096b58cbd90f   (TXT, 19.29 KB)
Stata deutsch 9cbe419645ee17bdb5265df5a5662802   (TXT, 19.29 KB)
Stata englisch 3a195c128e21b732d8b1f0ff64316b35   (TXT, 19.29 KB)
SPSS deutsch 33763b1f68c54f790d9826b4923ac276   (TXT, 19.29 KB)
SPSS englisch 0454017269b9f5601d3fe30ace13211f   (TXT, 19.29 KB)
SAS deutsch 84c5124b696a552340b1d7bca79c8c15   (TXT, 21.53 KB)
SAS englisch e6cb205a9d2abec3a37872f1dbf2a6e8   (TXT, 21.53 KB)
CSV df524ba26e46b42ff77dd6991046485d   (TXT, 19.29 KB)
GGKBOU 1fd60d2f3f1a405d508cf472ff916cc9   (TXT, 140 Byte)
GGKBOU englisch 67c43e2e72aab736e6c6dafb75da57f5   (TXT, 140 Byte)
Lehrversionen
Stata deutsch 3ecf547c653dfac561cb618c306972c8
Stata englisch 598ba143e4d7115fcc183dd1517af0d1
SPSS deutsch 0f6ffcfcbdf0982afe48582603e20f97
SPSS englisch 96adf7fef897ddb346253598a9e93242
SAS deutsch 16a66eacf4032b2ba8fe55f5e242bc3f
SAS englisch d921f61ee31459a4b54ea74d0dda9d10

Das SOEP bietet Nutzerinnen und Nutzern die Möglichkeit, eine Vielzahl anderer Studien mit unserer Hauptstudie zu verknüpfen. So können z.B. raum-und regionalbezogen Analysen durchgeführt werden oder kleinräumige Indikatoren des Micromarketings rangespielt werden. Eine ausführlichere Beschreibung und weitere Möglichkeiten der Datenverknüpfung finden Sie hier.