SOEP-Core v27 - Datensatzinformation

Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 20.000 Personen aus rund 11.000 Haushalten von TNS Infratest Sozialforschung befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden.
Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006 und zuletzt 2009 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst.

Datensatzinformation

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2010

DOI: 10.5684/soep.v27
Erhebungszeitraum: 1984-2010
Veröffentlichungsdatum: 21.10.2010
Primärforscher: Gert. G. Wagner, Joachim R. Frick, Jürgen Schupp, Silke Anger, Marco Giesselmann, Jan Goebel, Markus M. Grabka, Elke Holst, Peter Krause, Martin Kroh, Elisabeth Liebau, Henning Lohmann, David Richter, Christian Schmitt, Daniel Schnitzlein, C. Katharina Spieß

Datenerhebung: TNS Infratest Sozialforschung GmbH

Population: Personen in Privathaushalten in der Bundesrepulik Deutschland

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

 Datensatzinformationen:

 Anzahl der Einheiten  66.813
 Anzahl der Variablen 45.536 in 339 Datensätzen
 Datenformat  STATA, SPSS, SAS, CSV
 MD5 fingerprints der einzelnen Dateien

Stata deutsch
Stata englisch
Stata deutsch+engl.
SPSS deutsch
SPSS englisch
SAS deutsch
SAS englisch
CSV
bioedu

 Veröffentlichungen:

  • Jan Goebel, Markus M. Grabka, Stefan Liebig, Martin Kroh, David Richter, Carsten Schröder, Jürgen Schupp. 2018. The German Socio-Economic Panel Study (SOEP). Jahrbücher für Nationalökonomie und Statistik / Journal of Economics and Statistics (online first), doi: 10.1515/jbnst-2018-0022
  • Schupp, Jürgen (2009): 25 Jahre Sozio-oekonomisches Panel - Ein Infrastrukturprojekt der empirischen Sozial- und Wirtschaftsforschung in Deutschland, Zeitschrift für Soziologie 38(5), pp. 35-3570.
  • Gert G. Wagner, Jan Göbel, Peter Krause, Rainer Pischner, and Ingo Sieber (2008) Das Sozio-oekonomische Panel (SOEP): Multidisziplinäres Haushaltspanel und Kohortenstudie für Deutschland - Eine Einführung (für neue Datennutzer) mit einem Ausblick (für erfahrene Anwender), AStA Wirtschafts- und Sozialstatistisches Archiv 2 (2008), No. 4, 301-328 (download)

In Publikationen, die diese Datei verwenden, soll auf die oben genannte DOI infoZur Erklärung von DOI und dessen Verwendung gibt es hier Informationen . verwiesen und eine der folgende Referenzen zitiert werden:

  • Goebel, Jan, Markus M. Grabka, Stefan Liebig, Martin Kroh, David Richter, Carsten Schröder, and Jürgen Schupp. 2019. The German Socio-Economic Panel (SOEP). Jahrbücher für Nationalökonomie und Statistik 239 (2), 345-360. (https://doi.org/10.1515/jbnst-2018-0022)
  • Giesselmann, Marco, Sandra Bohmann, Jan Goebel, Peter Krause, Elisabeth Liebau, David Richter, Diana Schacht, Carsten Schröder, Jürgen Schupp, and Stefan Liebig. 2019. The Individual in Context(s): Research Potentials of the Socio-Economic Panel Study (SOEP) in Sociology. European Sociological Review 35 (5), 738-755. (https://doi.org/10.1093/esr/jcz029)

SOEP v27 (Originaldatensatz)

SOEP v27.1 (Fehlerupdate Jan. 2012)

SOEP v27.2 (Fehlerupdate März 2012)

Die Weitergabe der SOEP-Daten 1984-2010 (Wellen A-BA) wird die üblichen jahresspezifischen Datensätze (BAP, BAH, BAPGEN, BAHGEN, BAPKAL, BAPBRUTTO, BAHBRUTTO, BAKIND und ZPLUECKE) sowie die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD, Biografie-Datensätze, SPELL-Daten und Gewichtungsfaktoren) enthalten. Für die Teilnehmer/innen von Sample I (Incentivierungs-Sample) liegen mit dieser Datenweitergabe die Biografie-Daten aus dem entsprechenden Fragebogen vor.
Aufgrund von Änderungen auch an älteren Datensätzen, empfehlen wir wie immer eine Neuinstallation aller Datensätze von der aktuellen DVD.

1. Erstmalig zwei Buchstaben als Präfix (BA)

In der diesjährige Datenweitergabe (v27) werden wir das erste Mal in der 27-jährigen Geschichte des SOEP zwei statt einen Buchstaben als wellenspezifischen Präfix nutzen. Nachdem wir bei der letztjährigen Datenweitergabe mit dem Buchstaben Z an das Ende des lateinischen Alphabets gekommen sind, haben wir uns jetzt für die Wellenkennzeichnung BA für die Querschnittdaten entschieden. 

2. Aktualisierung der Beta-Version im „long-Format" 

Die SOEP-Daten sind auch dieses Jahr wieder in einem „Long-Format" erhältlich. Diese Beta-Version von SOEPlong ist eine für längsschnittliche Analysen optimierte Form der Datenweitergabe: Statt in wellenspezifischen Einzeldatensätzen sind hier alle verfügbaren Jahre und Kohorten gepoolt (long format). Dieser Datensatz befindet sich auf der zweiten DVD. Eine genauere Beschreibung finden Sie im SOEPnewsletter Nr. 90/2010 (PDF, 3.53 MB) oder direkt auf der zweiten DVD. 

3. Entfernung von Fälschungen

Nach Konsistenzprüfungen der 2. Welle von Sample I, wurden 36 Haushalte als Fälschungen identifiziert. Diese Fälle sind in der aktuellen Datenweitergabe nicht mehr enthalten.

4. Neue und umbenannte Datensätze

4.1 BIOAGE08[A|B]

Der Datensatz BIOAGE08 enthält die Antworten auf die Befragung mit dem neuen „Elternfragebogen", den Mütter und Väter von sieben- bis achtjährigen Kindern ausfüllen. Damit sind jetzt die Daten der Geburtskohorte 2002/2003 erhältlich, die als Erste mit dem „Neugeborenen-Fragebogen" befragt wurden. Den neuen „Elternfragebogen" füllen sowohl die Mütter als auch die Väter aus, es gibt damit also zwei Beobachtungen zu vielen dieser Kinder im Sample. Aus diesem Grund ist der Datensatz nach Geschlecht des antwortenden Elternteils getrennt (und nach Haushaltstyp in dem die Befragten leben): BIOAGE08A enthält ausschließlich Daten der Mütter und einiger Väter, wenn keine Auskünfte der Mütter zu erhalten waren. BIOAGE08B enthält nur Daten der Väter. Die Dokumentation dieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.2 LIFESPELL

Der Datensatz LIFESPELL enthält Daten der Verbleibstudien von Befragungsausfällen (1992, 2001, 2006 und 2008), die bisher noch nicht in der regulären Datenweitergabe enthalten waren. Die Verbleibstudien, die auf Informationen der Einwohnermeldeämter beruhen, dienen dazu, den aktuellen Aufenthaltsort von ehemaligen SOEP-Teilnehmer/inne/n aufzufinden. Diese Daten ermöglichen Analysen zur Lebenserwartung und Auswanderungsentscheidungen, selbst wenn die Personen schon lange aus der Studie ausgeschieden sind. Die Dokumentationdieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.3 BIOEDU (beta version)

Der Datensatz BIOEDU, der dieses Jahr in einer vorläufigen Form weitergegeben wird, enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung. Nutzer/innen, die mit diesen Daten arbeiten, werden gebeten, uns ihre Erfahrungen (insbesondere auftretende Probleme) mitzuteilen, damit wir für das nächste Jahr eine endgültige Version erstellen können. Der Datensatz ist in der DIW Data Documentation 58 (PDF, 383.03 KB) ausführlich dokumentiert.
Wegen seiner provisorischen Form ist dieser Datensatz nicht Bestandteil der normalen Datenweitergabe und deswegen auf der DVD in einem eigenen Archiv zu finden (Bitte nutzen Sie den link in der NEWS-Datei auf der DVD).

5. Neue Variablen

5.1 Datensatz $PEQUIV

In den $PEQUIV-Dateien ist eine neue Variable zu den Unterstützungs-Zahlungen aufgenommen. Mit dem 2010er Fragebogen wurden zwei Kategorien bei den „Unterstützungszahlungen" unterschieden. Die erste bezeichnet „Gesetzlichen Ehegattenunterhalt, Kindesunterhalt, Betreuungsunterhalt" (ALIM$$), während die zweite „Unterhaltszahlung aus Unterhaltsvorschusskassen" (IACHM$$) abfragt. Mehr Informationen über den Datensatz $PEQUIV und die neuen Variablen in der DIW Data Documentation 57 (PDF, 0.54 MB).

5.2 Datensatz PFLEGE

Im PFLEGE-Datensatz finden sich jetzt zwei zusätzliche Variablen. „FURTHER" gibt die Anzahl weiterer pflegebedürftiger Personen in einem Haushalt an. Diese Zahl wird seit 2009 erhoben. „CARECOST" gibt die regulären monatlichen Kosten an, die ein Haushalt normalerweise für Pflege aufwendet. Diese Frage wird seit 2010 gestellt.

5.3 Datensatz $PGEN

Mit dieser Datenweitergabe geben wir detaillierte Auskünfte über Bildungsabschlüsse und Weiterbildungsqualifikationen vor Eintritt in die Panelbefragung weiter: Seit 2001 wird im Lebenslauffragebogen nach der Berufsausbildung, dem Hochschulabschluss (z.B. Diplom) und dem Studienfach der Hochschulabsolventen gefragt. Diese offenen Antworten wurden bisher jedoch nicht vercodet und daher auch nicht weitergegeben. Für die jetzt erfolgte Vercodung wurde die Klassifikation aus dem Personenfragebogen genutzt. Im Zuge der jetzt erfolgten Revision ergaben sich nur leichte Veränderungen. Eine genaue Beschreibung ist in der PGEN- Dokumentation zu finden, die neuen Variablen sind:

FIELD$$  Fach der Universitätsausbildung
DEGREE$$  Art des Universitätsabschlusses
TRAINA$$  Ausbildung - zweistelliger Berufscode KldB92
TRAINB$$  Berufsfachschule - zweistelliger Berufscode KldB92
TRAINC$$  Fachschule - zweistelliger Berufscode KldB92
TRAIND$$  Beamtenausbildung - zweistelliger Berufscode
 FDT_F$$  Datenquelle FIELD, DEGREE, TRAIN

 

6. Überarbeitete Variablen

6.1 Datensatz $P

Die Variablen zu den Berufstätigkeits- und Branchenklassifikationen in den $P-Dateien wurden umbenannt. Die entsprechenden Variablen aus den Personenfragebogen werden abwechselnd von allen Befragten oder nur von denjenigen erhoben, die ihre Berufstätigkeit gewechselt haben. Gleichzeitig generieren wir diese Informationen über alle Jahre und alle Individuen und stellen diese Variablen in den $PGEN-Datensätzen zur Verfügung. Um die generierten klarer von den original erhobenen Variablen zu unterscheiden und um eine eindeutige Verbindung zur Fragenummer im jeweiligen Fragebogen herzustellen, haben wir die Variablen nach folgendem System umbenannt:

Bisheriger Variablenname Neuer Name
$IS88 $pXX_IS88
$KLAS $pXX_KLAS
$BACE $pXX_NACE
$IS88 $pXX_IS88
$KLAS $pXX_KLAS


So ist zum Beispiel ZIS88 jetzt umbenannt in ZP29_IS88. Die entsprechenden Variablen aller Datensätze aus dem Personenfragebogen ($P) wurden umbenannt, nicht jedoch die für die Nutzung empfohlenen Variablen in den generierten Datensätzen ($PGEN, so zum Beispiel IS8809 aus ZP).

6.2 Datensatz $HBRUTTO

Die Vercodung derjenigen Variablen, die das Bundesland abfragen, in dem sich ein Haushalt befindet, ($BULA, Bundesland) wurde der Vercodung der offiziellen Statistik angepasst.

$bula (alte Kodierung) $bula (neue Kodierung)
0 Berlin  
1 Schleswig - Holstein 1 Schleswig-Holstein
2 Hamburg 2 Hamburg
3 Niedersachsen 3 Niedersachsen
4 Bremen 4 Bremen
5 Nordrhein-Westfalen 5 Nordrhein-Westfalen
6 Hessen 6 Hessen
7 Rheinl.-Pfalz, Saarl. 7 Rheinland-Pfalz
8 Baden-Württemberg 8 Baden-Württemberg
9 Bayern 9 Bayern
  10 Saarland
11 Berlin (Ost) 11 Berlin
12 Mecklenburg-Vorpommern  12 Brandenburg
13 Brandenburg  13 Mecklenburg-Vorpommern
14 Sachsen-Anhalt 14 Sachsen
15 Thüringen 15 Sachsen-Anhalt
16 Sachsen 16 Thüringen

 

Eine Unterscheidung von Ost- und West-Berlin ist nach wie vor möglich mit eine Kombination der Bundesland-Variable und der Variable zur Ziehungsregion ($SAMPREG in PPFAD).

6.3. Kleinere Fehlerkorrekturen

  • Im Datensatz BIOAGE17 wurde in der Datenweitergabe v26 bei der Klassifizierung der gewünschten Jobs aus dem Jugendfragebogen (byklas, bymps, byisco88, byegp, byisei, bysiops) fehlerhaft vercodet und enthalten deswegen zu viele fehlende Angaben. Dieser Fehler wurde in der Datenweitergabe v27 behoben.
  • Einige Haushalte in Berlin (nur 2006) wurden bezüglich des Siedlungstyps ($GTYP) im Datensatz GGKBOU falsch eingeordnet. Dieser Fehler wurde ebenfalls korrigiert.

30. März 2012

BIOAGE03
Das Alter der Kinder war nicht korrekt und musste neu berechnet werden. Zudem hatten einige fehlende Werte für das Gewicht und die Größe der Kinder den falschen Wert "0" und mussten rekodiert werden. Und schließlich war versehentlich die Zahl der Arztbesuche in den Befragungsjahren 2005 und 2006 auf "0" gesetzt worden. Auch hier sind die richtigen Werte nachgetragen worden.

BIOAGE06
Die fehlenden Geburtsmonate für 14 Kinder, die aus früheren Befragungen bekannt waren, wurden nachgetragen. Darüber hinaus wurden eine falsche Personennummer und eine falsche Haushaltsnummer korrigiert.

BIOAGE08
Das Alter der Kinder war falsch berechnet worden und ist jetzt korrigiert.

LIFESPELL
Im Update des Datensatzes LIFESPELL werden für den Zeitraum 2006-2010 etwa 100 Emigrations-Fälle rekodiert, die in der Datenlieferungs-Version v27 fälschlicherweise als Inlands-Spell geführt wurden. In dem revidierten LIFESPELL-Datensatz werden zusätzlich neue Informationen über das Todesjahr für eine kleine Anzahl an Personen bereitgestellt. Nähere Informationen erhalten Sie bei Hannes Neiss (hneiss@diw.de).

Die korrigierten Datensätze werden mit personalisiertem link zum Download bereitgestellt. Bitte wenden Sie sich bei Bedarf an soepmail@diw.de.

Bitte beachten Sie: Bei der Nutzung einer dieser korrigierten Datensätze sollten Sie den Datensatz wie folgt zitieren:
Englisch:
Socio-Economic Panel (SOEP), data for years 1984-2010, version 27.2, SOEP, 2012.
Deutsch:
Sozio-oekonomisches Panel (SOEP), Daten für die Jahre 1984-2010, Version 27.2, SOEP, 2012.
Kurzversion:
SOEP v27.2.

2. Jan. 2012

COGDJ
Im File COGDJ waren in der ausgelieferten Datenversion die Daten für 2010 noch nicht aktualisiert. 

Englische Labels
In den Datensätzen ZHBRUTTO und BAHBRUTTO sind leider Teile der englischen Labels in ihrer Zuordnung verrutscht und müssen neu definiert werden. Dies betrifft die folgenden Variablen:

  • ZHBRUTTO
  • BAHBRUTTO
  • SAMPLE1
  • ZBULA
  • ZDATUMMO
  • ZHAND
  • ZHERGS
  • ZHTYP
  • ZSAMPREG
  • BAHTYP

In den $PGEN-Datensätzen wurden für die neuen Variablen zu Studienrichtung, -Abschluss und Ausbildungsabschlüssen vor dem Eintritt ins Panel keine englischen Value-Labels generiert. Dies betrifft die englischen Labels der folgenden Variablen:
FIELD$$, DEGREE$$ und TRAINA$$–TRAIND$$.

PPFADL in SOEPlong
Für die folgenden beiden Variablen fehlen auf der Datenweitergabe-DVD SOEP v27 die Werte für 2010:

HID - Haushaltsidentifikator
NETT1 - Kurzversion der Tracking-Variable NETTO

Die korrigierten Datensätze werden in unterschiedlichen Dateien mit personalisiertem link zum Download bereitgestellt. Bitte wenden Sie sich bei Bedarf an soepmail@diw.de.

Bitte beachten Sie: Bei der Nutzung einer dieser korrigierten Datensätze sollten Sie den Datensatz wie folgt zitieren:

Englisch:
Socio-Economic Panel (SOEP), data for years 1984-2010, version 27.1, SOEP, 2012.
Deutsch:
Sozio-oekonomisches Panel (SOEP), Daten für die Jahre 1984-2010, Version 27.1, SOEP, 2012.
Kurzversion:
SOEP v27.1.


Survey Instruments 2010: Field-de

Alle Sample-spezifischen Fragebögen dieses Jahres und alle Fragebögen der vorherigen Befragungsjahre finden Sie auf dieser Seite

1) Handgreifkraftmessung im Sozio-oekonomischen Panel (SOEP) 2006 und 2008

2) Documentation on ISCED Generation Using the CAMCES Tool in the IAB-SOEP Migration Samples M1/M2

3) The new IAB-SOEP Migration Sample: an introduction into the methodology and the contents

4) The Request for Record Linkage in the IAB-SOEP Migration Sample

5) Flowcharts for the Integrated Individual-Biography Questionnaire of the IAB-SOEP Migration Sample 2013

6) The Measurement of Labor Market Entries with SOEP Data: Introduction to the Variable EINSTIEG_ARTK

7) Job submission instructions for the SOEPremote System at DIW Berlin – Update 2014

8) SOEP 2015 – Informationen zu den SOEP-Geocodes in SOEP v32

9) Editing and Multiple Imputation of Item Non-response in the Wealth Module of the German Socio-Economic Panel

10) Die Vercodung der offenen Angaben zu den Ausbildungsberufen im Sozio-Oekonomischen Panel

11) Das Studiendesign der IAB-BAMF-SOEP Befragung von Geflüchteten

12) Scales Manual IAB-BAMF-SOEP Survey of Refugees in Germany – revised version

13) SOEP 2010 – Preparation of data from the new SOEP consumption module: Editing, imputation, and smoothing

14) SOEP Scales Manual (updated for SOEP-Core v32.1)

15) Kognitionspotenziale Jugendlicher - Ergänzung zum Jugendfragebogen der Längsschnittstudie Sozio-oekonomisches Panel (SOEP)

16) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der International Standard Classification of Occupations 2008 (ISCO08) - Direktvercodung - Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

17) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der Klassifikation der Berufe 2010 (KldB 2010): Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

18) Multi-Itemskalen im SOEP Jugendfragebogen

19) Zur Erhebung des adaptiven Verhaltens von zwei- und dreijährigen Kindern im Sozio-oekonomischen Panel (SOEP)

20) Documentation of ISCED Generation Based on the CAMCES Tool in the IAB-SOEP Migration Samples M1/M2 and IAB-BAMF-SOEP Survey of Refugees M3/M4 until 2017

21) Missing Income Data in the German SOEP: Incidence, Imputation and its Impact on the Income Distribution

22) SOEP 2013 – Documentation of Generated Person-Level Long-Term Care Variables in PFLEGE

23) SOEP-Core v34 – PFLEGE: Documentation of Generated Person-level Long-term Care Variables

24) SOEP 2006 – TIMEPREF: Dataset on the Economic Behavior Experiment on Time Preferences in the 2006 SOEP Survey

25) SOEP-Core v34: Codebook for the EU-SILC-Like Panel for Germany Based on the SOEP

26) Assessing the distributional impact of "imputed rent" and "non-cash employee income" in microdata : Case studies based on EU-SILC (2004) and SOEP (2002)

Alle Dokumentationen zum Filtern finden Sie auf dieser Seite