SOEP-Core v31 - Datensatzinformation

Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 20.000 Personen aus rund 11.000 Haushalten von TNS Infratest Sozialforschung befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden. Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006, 2009, 2011, 2012 und zuletzt 2013 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst. Die internationale Version enthält 95% des Stichprobenumfangs.

Datensatzinformation

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2014

DOI: 10.5684/soep.v31
Erhebungszeitraum: 1984-2014
Veröffentlichungsdatum: 15.11.2015
Primärforscher: Jürgen Schupp, Jan Goebel, Martin Kroh, Carsten Schröder, Klaudia Erhardt, Alexandra Fedorets, Marco Giesselmann, Markus Grabka, Peter Krause, Simon Kühne, Maximilian Priem, David Richter, Rainer Siegers, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Ingrid Tucci, Knut Wenzig

Datenerhebung: TNS Infratest Sozialforschung GmbH.

Population: Personen in Privathaushalten in der Bundesrepulik Deutschland.

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre alt oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

Datensatzinformationen:

 Anzahl der Einheiten 109.911
 Anzahl der Variablen 51.203 in 365 Datensätzen
 Datenformat STATA, SPSS, SAS, CSV

MD5 fingerprints

Weitergabeformat zip-Datei Einzeldatensätze
Stata zweisprachig d2941d8149afa7a8810e8003c59771ad  
Stata deutsch 814032bdcdd2c8b0602f32cff045b294  
Stata englisch d1a2d2b5ba69105f7cf7cc6a2c6ca229  
SPSS deutsch 732e9dd01798f9ddf0d2f6435cdfb818  
SPSS englisch b240383e2c45247d0ededff519484438  
SAS deutsch 3915948e00494a59df0a77f4d99cd400  
SAS englisch fb13d618ced783384d4796f0e8dc6d2d  
CSV 54cc73b250804d362f1d1c86f21eddc2  
GGKBOU 2ba2f7ab801dc6dd6d1000b3603d1ecc  
GGKBOU englisch c680879d0e382f60cb4f0f65092c4d1a  
Lehrversionen
Stata deutsch (Lehre) 6f820e78e0bd16d47aa79de97e615f78  
Stata englisch (Lehre) debcfe71b12527962f3f3db41ae091ee  
SPSS deutsch (Lehre) 61daf2301a20c5b354ef0d18732339c8  
SPSS englisch (Lehre) 987ba29cda3169842a2bd093c2cf19fa  
SAS deutsch (Lehre) 44b8bd0c351f811650d44595b61752c4  
SAS englisch (Lehre) 4fb88bd0a304719699a98c3a9fd9f8b6  

 Veröffentlichungen:

  • Schupp, Jürgen (2009): 25 Jahre Sozio-oekonomisches Panel - Ein Infrastrukturprojekt der empirischen Sozial- und Wirtschaftsforschung in Deutschland, Zeitschrift für Soziologie 38 (5),  350-357 (download).
  • Gert G. Wagner, Jan Göbel, Peter Krause, Rainer Pischner, and Ingo Sieber (2008) Das Sozio-oekonomische Panel (SOEP): Multidisziplinäres Haushaltspanel und Kohortenstudie für Deutschland - Eine Einführung (für neue Datennutzer) mit einem Ausblick (für erfahrene Anwender), AStA Wirtschafts- und Sozialstatistisches Archiv 2 (4), 301-328 (download).
  • Gert G. Wagner, Joachim R. Frick, and Jürgen Schupp (2007) The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements, Schmollers Jahrbuch (Journal of Applied Social Science Studies), 127 (1), 139-169 (download).

In Publikationen, die diese Datei verwenden, soll auf die oben genannte DOI infoZur Erklärung von DOI und dessen Verwendung gibt es hier Informationen . verwiesen und eine der folgende Referenzen zitiert werden:

  • Goebel, Jan, Markus M. Grabka, Stefan Liebig, Martin Kroh, David Richter, Carsten Schröder, and Jürgen Schupp. 2019. The German Socio-Economic Panel (SOEP). Jahrbücher für Nationalökonomie und Statistik 239 (2), 345-360. (https://doi.org/10.1515/jbnst-2018-0022)
  • Giesselmann, Marco, Sandra Bohmann, Jan Goebel, Peter Krause, Elisabeth Liebau, David Richter, Diana Schacht, Carsten Schröder, Jürgen Schupp, and Stefan Liebig. 2019. The Individual in Context(s): Research Potentials of the Socio-Economic Panel Study (SOEP) in Sociology. European Sociological Review 35 (5), 738-755. (https://doi.org/10.1093/esr/jcz029)

SOEP v31 (Oiginal Datensatz)

SOEP v31i (internationale Version)

SOEP v31.1 (Update)

SOEP v31.1i (Update internationale Version)

1. Integration der FiD-Befragung (Daten seit 2010)

Wir freuen uns mitteilen zu können, dass die Datenweitergabe v31 auch die Daten von  „Familien in Deutschland” (FiD) enthält, die rückwirkend in SOEP-Core integriert wurden und damit in einer nutzungsfreundlichen Form allen SOEP-Nutzer*innen zur Verfügung steht. Die FiD-Befragung wurde parallel zum SOEP als sogenannte SOEP Related Study von 2010 bis 2013 durchgeführt.

Die ursprüngliche FiD-Studie als SOEP Related Study

„Familien in Deutschland” hatte zum Ziel, das Gesamttableau ehe- und familienpolitischer Leistungen in Deutschland zu evaluierenim Auftrag des Bundesministeriums für Familie, Senioren, Frauen und Jugend (BMFSFJ) und des Bundesministeriums der Finanzen (BMF). Die bis dahin erhältlichen Datensätze - einschließlich des SOEP - hatten sich als nicht ausreichend für erwiesen für eine differenzierte Analyse der Bevölkerungsteile, auf die diese Leistungen zielen sollten. Insbesondere die Gruppen der allein erziehenden Eltern, der Mehrkindfamilien und der Familien im niedrigen Einkommensbereich sowie Familien mit sehr jungen Kindern sind anteilsmäßig in der Bevölkerung so klein, dass sie in repräsentativen Haushalts- und Personenstichproben zwar vertreten sind, die Zahl der Beobachtungen aber keine statistisch belastbaren und verallgemeinerbaren Analysen zulässt.

Unter dem Namen „Familien in Deutschland” (FiD) erhebt deswegen die forschungsbasierte Infrastruktureinrichtung SOEP am DIW Berlin seit 2010 zusammen mit TNS Infratest Sozialforschung Daten von mehr als 4.500 Haushalten. Die folgenden vier Zusatzstichproben werden jährlich wiederbefragt und bilden damit ein Panel:

  1. eine Stichprobe von Familien im „kritischen Einkommensbereich”
  2. eine Stichprobe von „Alleinerziehenden”
  3. eine Stichprobe von „Mehrkindfamilien” und
  4. eine „Kohortenstichprobe” der Geburtsjahrgänge 2007, 2008, 2009 und 2010 (erstes Quartal).

Eine Beschreibung der ursprünglichen FiD-Studie ist veröffentlicht unter dem Titel  „Familien in Deutschland – FiD” von Mathis Schröder, Rainer Siegers, and C. Katharina Spieß, Schmollers Jahrbuch 133 (4), 2013, 595-606. (http://dx.doi.org/10.3790/schm.133.4.595). (Vorveröffentlichung 2013: SOEPpapers 556 | PDF, 160.15 KB (PDF, 160.15 KB). Berlin: DIW Berlin).

Integration in SOEP-Core

Mit der nun vorliegenden Version 31 ist die FiD-Stichprobe vollständig in die SOEP-Core-Daten integriert worden – und zwar im Prinzip so, als wären 2010 und 2011 jeweils neue Stichproben für SOEP-Core gezogen worden. Die Integration der FiD-Stichproben erhöht damit signifikant die Fallzahlen in SOEP-Core um fast ein Drittel. Die Grafik zeigt den Einfluss der neuen FiD-Stichproben L1 bis L3 auf die querschnittliche Stichprobengröße ab 2010. Aufgrund der rückwirkenden Integration musste auch die sample -Variablen angepasst werden, da ja seit 2010 auch andere Aufwuchsstichproben zu SOEP-Core hinzukamen (zu den Einzelheiten der Stichproben-Bezeichnungen siehe unten).

Stichprobenentwicklung

Insgesamt wurden 14.166 Variablen aus 64 Datensätzen in die jeweiligen SOEP-Datensätze integriert und entsprechende generierte Datensätze oder Variablen angepasst. Variablen im FiD-Erhebungsprogramm, die nicht im entsprechenden SOEP-Befragungsprogramm enthalten waren, wurden in den jeweiligen Datensätzen als zusätzlichen Variablen angehängt (mit den Original-FiD-Variablennamen, die mit "fyy" beginnen, wobei "yy" der 2-stellige Jahres-Identifier ist). Die folgende Tabelle gibt einen Überblick über die Anzahl der Variablen in den beiden Hauptfragebögen, die integriert werden konnten.

Jahr Personenfragebogen (–p)
Zahl der integrierten Variablen
Haushaltsfragebogen (–h)
Zahl der integrierten Variablen
2010 314 274
2011 472 172
2012 350 188
2013 363 169

SOEP-Nutzer*innen haben somit quasi automatisch mehr Fälle in ihrer Untersuchungspopulation ab 2010, ohne dass Skripte angepasst werden müssen. Aber natürlich kann es passieren, dass bestimmte Variablen in FiD nicht abgefragt wurden und daher für diese Fälle nicht besetzt sind. Hier sei noch einmal an unsere Missing-Konventionen erinnert, mit der dies leicht auf der Variablenebene ersichtlich wird:

Code Bedeutung
-1 keine Antwort / weiß nicht
-2 trifft nicht zu
-3 unplausibler Wert
-4 unzulässige Mehrfachantwort
-5 in Fragebogenversion nicht enthalten
-6 Fragebogenversion mit geänderter Filterführung
-8 Frage nicht Teil des Befragungsprogramms in diesem Jahr*

*Nur in Datensätzen im long-Format anwendbar.

2. Querschnittsgewichte 2014

Das Statistische Bundesamt hat die schon weitergegebenen Mikrozensus-Daten von 2011 und 2012 nachträglich den 2011 erhobenen Zensus-Daten angepasst. Das hat zur Folge, dass in dieser SOEP Datenweitergabe (v31) die Gewichte für die Wellen BB und BC ebenfalls an die Zensus-Daten von 2011 angepasst werden.

Weil v31 Daten der FiD-Studie enthält, erhöht die Integration der FiD-Haushalte die Fallzahlen im SOEP um ca. ein Drittel, dies hat auch Auswirkungen auf die integrierten Gewichtungsvariablen. Sowohl aufgrund der zusätzlichen Haushalte als auf wegen der Einbeziehung der differenzierten Informationen zu den Familientypen sind Anpassungen nötig. Um den Nutzer*innen die Möglichkeit zu geben zu testen, wie eine neue SOEP-Stichprobe möglicherweise ihre Forschungsergebnisse beeinflusst, stellen wir auch diesmal - wie immer in dem Jahr, in dem eine Auffrisch-Stichprobe integriert wird - die Gewichte sowohl integriert als auch getrennt für die alten und neuen Stichproben zur Verfügung.

3. Weitere Änderungen

3.1 Anpassung der sample Variablen

Auf Grund der rückwirkenden Integration der FiD-Stichprobe musste die psample Variable in ppfad und die entsprechende hsample Variable in hpfad angepasst werden.

sample Variablen

Wert Alte Bezeichnung (v30) Neue Bezeichnung (v31)
1 A German West A Original Sample (DE-West)
2 B Foreigner West B Migration (up to 1983, DE-West)
3 C German East C Original Sample (DE-East)
4 D 84-93 Immigrant (West) D 1994/5 Migration (1984-92/94 DE-West)
5 E Refreshment 1998 E 1998 Refreshment
6 F ISOEP 2000 F 2000 Refreshment
7 G High-Income Test 2002 G 2002 High-Income
8 H Refreshment 2006 H 2006 Refreshment
9 I Incentives 2009 I 2009 Incentivization
10 J Refreshment 2011 J 2011 Refreshment
11 K Refreshment 2012 K 2012 Refreshment
12 L1 2010 Birth Cohorts (2007-2009)
13 M Migration 2013 L2 2010 Family Types
14 L3 2011 Family Types
15 M1 2013 Migration (1995-2010)




3.2. Biographische Datensätze
Die folgenden Datensätze mit biographischen Informationen wurden zusammengefasst, damit die Anzahl an lebenslaufbezogenen Datensätze nicht immer größer wird und die Übersicht gewahrt bleibt:

biobirth und biobirthm -> biobirth
Die Geburtsbiographien von Frauen (biobirth) und Männern (biobirthm) werden ab v31 zusammen im Datensatz biobirth stehen, natürlich inklusive eine Variable zum Geschlecht.

bioage01 bis bioage12 -> bioagel
Beginnend mit der Datenweitergabe v31 werden die altersspezifischen Daten aus den Mutter-/Eltern-Kind-Fragebögen ausschließlich in einem nutzerfreundlichen „long”-Format weitergegeben: Statt bisher in einzelnen altersspezifischen Datensätzen (z.B. bioage01, bioage03, ...) sind alle Mutter-Kind- und Eltern-Kind-Fragebögen jetzt im bioagel Datensatz zusammengefasst. Dies hat zur Konsequenz, dass alle Informationen über Kinder jetzt einfach in einem einzigen Datensatz gefunden werden können. Die Dokumentation der Biographie-Daten wird Informationen darüber enthalten, wie der neue bioagel-Datensatz im long-Format effizient mit SPSS und Stata genutzt werden kann, und außerdem eine Syntax , mit der die altersspezifischen Einzel-Dateien von denjenigen, die sie brauchen, wieder rekontruiert werden können.

Der altersspezifische Datensatz bioage17, der die Daten des Jugendfragebogens enthält, ist nicht Bestandteil des bioagel-Datensatzes.

3.3 Änderungen in $HGEN

Ab der Version v31.1 enthält der Datensatz HGEN jetzt die Variable gas$$, die ab 2014 die Gaskosten eines Haushaltes ausweist. Die Variablen $$eqplif und $$eqpnrj wurden von den beiden vorherigen Jahren fortgeschrieben, wenn ein Haushalt in einem Befragungsjahr keine Antwort gegeben hat.

3.4 Weitere Änderungen in SOEP v31.1

Die weiteren Änderungen in v31.1 betreffen lediglich die Werte verschiedener Variablen. Informationen im einzelnen finden Sie unter der DOI  soep.v31.1.

1984-2014 (Welle BE)

06. Juni 2016 Im generierten Längsschnittdatensatz KIDLONG in SOEP-Core v31.1 mussten wir noch eine Korrektur vornehmen: Einige wenige Daten, die nur in der FiD-Studie erhoben wurden, sind nicht korrekt mit berücksichtigt worden.
Dies betrifft die Variablen KA06$$ (Aktivitäten der Kinder unter 6 Jahren) und KA16$$ (Aktivitäten der Kinder zwischen 6 und 16 Jahren).
Wenn Sie diese Variablen analysieren, haben Sie drei Möglichkeiten, die vollständigen Daten zu nutzen:
  1. Sie nutzen die Originaldaten aus SOEP-Core (in den Datensätzen $$KIND).
  2. Sie nutzen den Datensatz KIDL in SOEPlong (dort sind die Daten korrekt integriert)
  3. Sie können über unserer Hotline (soepmail@diw.de) den korrigierten Datensatz KIDLONG v31.1 anfordern. Wir stellen dann eine individualisierte Downloadmöglichkeit zur Verfügung.
18. März 2016 Umfangreiche Änderungen, die auf der Seite der Version soep.v31.1 beschrieben sind


Individual (PAPI) 2014: Field-de
Household (PAPI) 2014: Field-de
Biography (PAPI) 2014: Field-de
Youth (16-17 year-olds) 2014: Field-de
Pre-Teen (11-12 year-olds) 2015: Field-de
Mother and Child (Newborns) 2014: Field-de
Mother and Child (2-3-year-olds) 2014: Field-de
Mother and Child (5-6-year-olds) 2014: Field-de
Parents and Child (7-8-year-olds) 2014: Field-de
Mother and Child (9-10-year-olds) 2014: Field-de
Deceased Individual 2014: Field-de

Alle Sample-spezifischen Fragebögen dieses Jahres und alle Fragebögen der vorherigen Befragungsjahre finden Sie auf dieser Seite

1) SOEP 2014 – Documentation on Biography and Life History Data for SOEP v31 and v31.1

2) Documentation of Sample Sizes and Panel Attrition in the German Socio Economic Panel (SOEP) (1984 until 2014)

3) SOEP 2014 – Documentation of the Person-Related Meta-Dataset PPFAD for SOEP v31

4) SOEP 2014 – Documentation of the Person-related Meta-dataset PPFAD for SOEP v31.1

5) SOEP 2014 – Documentation of the Household-Related Meta-Dataset HPFAD for SOEP v31

6) SOEP 2014 – Documentation of the Household-related Meta-dataset HPFAD for SOEP v31.1

7) SOEP 2014 – Documentation of Person-Related Status and Generated Variables in PGEN for SOEP v31

8) SOEP 2014 – Documentation of Person-related Status and Generated Variables in $PGEN for SOEP v31.1

9) SOEP 2014 – Documentation of Household-Related Status and Generated Variables in HGEN for SOEP v31

10) SOEP 2014 – Documentation of Household-related Status and Generated Variables in $HGEN for SOEP v31.1

11) SOEP 2014 – Codebook for the $PEQUIV File 1984-2014: CNEF Variables with Extended Income Information for the SOEP

12) SOEP 2014 – Documentation of the Person-Related Meta-Dataset HEALTH for SOEP v31

13) SOEP 2014 – Documentation of the Person-related Meta-dataset HEALTH for SOEP v31.1

14) SOEP 2014 – Documentation of Person-related Variables on Children in BEKIND for SOEP v31.1

15) SOEP 2014 – Documentation of the Pooled Dataset on Children in KIDLONG for SOEP v31.1

16) SOEP 2014 – Documentation of the Dataset INTERVIEWER: Detailed Information on SOEP Interviewers for SOEP v31

1) Handgreifkraftmessung im Sozio-oekonomischen Panel (SOEP) 2006 und 2008

2) Documentation on ISCED Generation Using the CAMCES Tool in the IAB-SOEP Migration Samples M1/M2

3) The new IAB-SOEP Migration Sample: an introduction into the methodology and the contents

4) The Request for Record Linkage in the IAB-SOEP Migration Sample

5) Flowcharts for the Integrated Individual-Biography Questionnaire of the IAB-SOEP Migration Sample 2013

6) SOEP 2007 – Editing und multiple Imputation der Vermögensinformation 2002 und 2007 im SOEP

7) The Measurement of Labor Market Entries with SOEP Data: Introduction to the Variable EINSTIEG_ARTK

8) Job submission instructions for the SOEPremote System at DIW Berlin – Update 2014

9) SOEP 2015 – Informationen zu den SOEP-Geocodes in SOEP v32

10) Editing and Multiple Imputation of Item Non-response in the Wealth Module of the German Socio-Economic Panel

11) Die Vercodung der offenen Angaben zu den Ausbildungsberufen im Sozio-Oekonomischen Panel

12) Das Studiendesign der IAB-BAMF-SOEP Befragung von Geflüchteten

13) Scales Manual IAB-BAMF-SOEP Survey of Refugees in Germany – revised version

14) SOEP 2010 – Preparation of data from the new SOEP consumption module: Editing, imputation, and smoothing

15) SOEP Scales Manual (updated for SOEP-Core v32.1)

16) Kognitionspotenziale Jugendlicher - Ergänzung zum Jugendfragebogen der Längsschnittstudie Sozio-oekonomisches Panel (SOEP)

17) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der International Standard Classification of Occupations 2008 (ISCO08) - Direktvercodung - Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

18) Die Vercodung der offenen Angaben zur beruflichen Tätigkeit nach der Klassifikation der Berufe 2010 (KldB 2010): Vorgehensweise und Entscheidungsregeln bei nicht eindeutigen Angaben

19) Multi-Itemskalen im SOEP Jugendfragebogen

20) Zur Erhebung des adaptiven Verhaltens von zwei- und dreijährigen Kindern im Sozio-oekonomischen Panel (SOEP)

21) Missing Income Data in the German SOEP: Incidence, Imputation and its Impact on the Income Distribution

22) SOEP 2013 – Documentation of Generated Person-Level Long-Term Care Variables in PFLEGE

23) SOEP-Core v34 – PFLEGE: Documentation of Generated Person-level Long-term Care Variables

24) SOEP 2006 – TIMEPREF: Dataset on the Economic Behavior Experiment on Time Preferences in the 2006 SOEP Survey

25) SOEP-Core v34: Codebook for the EU-SILC-Like Panel for Germany Based on the SOEP

26) Assessing the distributional impact of "imputed rent" and "non-cash employee income" in microdata : Case studies based on EU-SILC (2004) and SOEP (2002)

Alle Dokumentationen zum Filtern finden Sie auf dieser Seite