Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 20.000 Personen aus rund 11.000 Haushalten von TNS Infratest Sozialforschung befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden.
Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006 und zuletzt 2009 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst.
Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2010
DOI: 10.5684/soep.v27
Erhebungszeitraum: 1984-2010
Veröffentlichungsdatum: 21.10.2010
Primärforscher: Gert. G. Wagner, Joachim R. Frick, Jürgen Schupp, Silke Anger, Marco Giesselmann, Jan Goebel, Markus M. Grabka, Elke Holst, Peter Krause, Martin Kroh, Elisabeth Liebau, Henning Lohmann, David Richter, Christian Schmitt, Daniel Schnitzlein, C. Katharina Spieß
Datenerhebung: TNS Infratest Sozialforschung GmbH
Population: Personen in Privathaushalten in der Bundesrepulik Deutschland
Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.
Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).
Datensatzinformationen:
Anzahl der Einheiten | 66.813 |
Anzahl der Variablen | 45.536 in 339 Datensätzen |
Datenformat | STATA, SPSS, SAS, CSV |
MD5 fingerprints der einzelnen Dateien |
Stata deutsch |
Veröffentlichungen:
In Publikationen, die diese Datei verwenden, soll auf die oben genannte DOI Zur Erklärung von DOI und dessen Verwendung gibt es hier Informationen . verwiesen und folgende Referenzen zitiert werden:
Wenn Sie bei Ihrer Analyse nicht die Fälle der Migrations-Stichproben ausschliessen, dann zitieren Sie bitte auch:
Wenn Sie bei Ihrer Analyse nicht die Fälle der Geflüchteten-Stichproben ausschliessen, dann zitieren Sie bitte auch: IAB-BAMF-SOEP-Befragung Geflüchteter (M3-M5), Daten der Jahre 2016-2021,
Wenn Sie bei Ihrer Analyse die Daten der SOEP-LEE2 Befragungen nutzen, dann zitieren Sie bitte auch:
Wenn Sie bei Ihrer Analyse noch fachspezifischer referieren möchten, dann zitieren Sie bitte auch:
SOEP v27 (Originaldatensatz)
SOEP v27.1 (Fehlerupdate Jan. 2012)
SOEP v27.2 (Fehlerupdate März 2012)
Die Weitergabe der SOEP-Daten 1984-2010 (Wellen A-BA) wird die üblichen jahresspezifischen Datensätze (BAP, BAH, BAPGEN, BAHGEN, BAPKAL, BAPBRUTTO, BAHBRUTTO, BAKIND und ZPLUECKE) sowie die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD, Biografie-Datensätze, SPELL-Daten und Gewichtungsfaktoren) enthalten. Für die Teilnehmer/innen von Sample I (Incentivierungs-Sample) liegen mit dieser Datenweitergabe die Biografie-Daten aus dem entsprechenden Fragebogen vor.
Aufgrund von Änderungen auch an älteren Datensätzen, empfehlen wir wie immer eine Neuinstallation aller Datensätze von der aktuellen DVD.
1. Erstmalig zwei Buchstaben als Präfix (BA)
In der diesjährige Datenweitergabe (v27) werden wir das erste Mal in der 27-jährigen Geschichte des SOEP zwei statt einen Buchstaben als wellenspezifischen Präfix nutzen. Nachdem wir bei der letztjährigen Datenweitergabe mit dem Buchstaben Z an das Ende des lateinischen Alphabets gekommen sind, haben wir uns jetzt für die Wellenkennzeichnung BA für die Querschnittdaten entschieden.
2. Aktualisierung der Beta-Version im „long-Format"
Die SOEP-Daten sind auch dieses Jahr wieder in einem „Long-Format" erhältlich. Diese Beta-Version von SOEPlong ist eine für längsschnittliche Analysen optimierte Form der Datenweitergabe: Statt in wellenspezifischen Einzeldatensätzen sind hier alle verfügbaren Jahre und Kohorten gepoolt (long format). Dieser Datensatz befindet sich auf der zweiten DVD. Eine genauere Beschreibung finden Sie im SOEPnewsletter Nr. 90/2010 (PDF, 3.53 MB) oder direkt auf der zweiten DVD.
3. Entfernung von Fälschungen
Nach Konsistenzprüfungen der 2. Welle von Sample I, wurden 36 Haushalte als Fälschungen identifiziert. Diese Fälle sind in der aktuellen Datenweitergabe nicht mehr enthalten.
4. Neue und umbenannte Datensätze
4.1 BIOAGE08[A|B]
Der Datensatz BIOAGE08 enthält die Antworten auf die Befragung mit dem neuen „Elternfragebogen", den Mütter und Väter von sieben- bis achtjährigen Kindern ausfüllen. Damit sind jetzt die Daten der Geburtskohorte 2002/2003 erhältlich, die als Erste mit dem „Neugeborenen-Fragebogen" befragt wurden. Den neuen „Elternfragebogen" füllen sowohl die Mütter als auch die Väter aus, es gibt damit also zwei Beobachtungen zu vielen dieser Kinder im Sample. Aus diesem Grund ist der Datensatz nach Geschlecht des antwortenden Elternteils getrennt (und nach Haushaltstyp in dem die Befragten leben): BIOAGE08A enthält ausschließlich Daten der Mütter und einiger Väter, wenn keine Auskünfte der Mütter zu erhalten waren. BIOAGE08B enthält nur Daten der Väter. Die Dokumentation dieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.
4.2 LIFESPELL
Der Datensatz LIFESPELL enthält Daten der Verbleibstudien von Befragungsausfällen (1992, 2001, 2006 und 2008), die bisher noch nicht in der regulären Datenweitergabe enthalten waren. Die Verbleibstudien, die auf Informationen der Einwohnermeldeämter beruhen, dienen dazu, den aktuellen Aufenthaltsort von ehemaligen SOEP-Teilnehmer/inne/n aufzufinden. Diese Daten ermöglichen Analysen zur Lebenserwartung und Auswanderungsentscheidungen, selbst wenn die Personen schon lange aus der Studie ausgeschieden sind. Die Dokumentationdieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.
4.3 BIOEDU (beta version)
Der Datensatz BIOEDU, der dieses Jahr in einer vorläufigen Form weitergegeben wird, enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung. Nutzer/innen, die mit diesen Daten arbeiten, werden gebeten, uns ihre Erfahrungen (insbesondere auftretende Probleme) mitzuteilen, damit wir für das nächste Jahr eine endgültige Version erstellen können. Der Datensatz ist in der DIW Data Documentation 58 (PDF, 383.03 KB) ausführlich dokumentiert.
Wegen seiner provisorischen Form ist dieser Datensatz nicht Bestandteil der normalen Datenweitergabe und deswegen auf der DVD in einem eigenen Archiv zu finden (Bitte nutzen Sie den link in der NEWS-Datei auf der DVD).
5. Neue Variablen
5.1 Datensatz $PEQUIV
In den $PEQUIV-Dateien ist eine neue Variable zu den Unterstützungs-Zahlungen aufgenommen. Mit dem 2010er Fragebogen wurden zwei Kategorien bei den „Unterstützungszahlungen" unterschieden. Die erste bezeichnet „Gesetzlichen Ehegattenunterhalt, Kindesunterhalt, Betreuungsunterhalt" (ALIM$$), während die zweite „Unterhaltszahlung aus Unterhaltsvorschusskassen" (IACHM$$) abfragt. Mehr Informationen über den Datensatz $PEQUIV und die neuen Variablen in der DIW Data Documentation 57 (PDF, 0.54 MB).
5.2 Datensatz PFLEGE
Im PFLEGE-Datensatz finden sich jetzt zwei zusätzliche Variablen. „FURTHER" gibt die Anzahl weiterer pflegebedürftiger Personen in einem Haushalt an. Diese Zahl wird seit 2009 erhoben. „CARECOST" gibt die regulären monatlichen Kosten an, die ein Haushalt normalerweise für Pflege aufwendet. Diese Frage wird seit 2010 gestellt.
5.3 Datensatz $PGEN
Mit dieser Datenweitergabe geben wir detaillierte Auskünfte über Bildungsabschlüsse und Weiterbildungsqualifikationen vor Eintritt in die Panelbefragung weiter: Seit 2001 wird im Lebenslauffragebogen nach der Berufsausbildung, dem Hochschulabschluss (z.B. Diplom) und dem Studienfach der Hochschulabsolventen gefragt. Diese offenen Antworten wurden bisher jedoch nicht vercodet und daher auch nicht weitergegeben. Für die jetzt erfolgte Vercodung wurde die Klassifikation aus dem Personenfragebogen genutzt. Im Zuge der jetzt erfolgten Revision ergaben sich nur leichte Veränderungen. Eine genaue Beschreibung ist in der PGEN- Dokumentation zu finden, die neuen Variablen sind:
FIELD$$ | Fach der Universitätsausbildung |
DEGREE$$ | Art des Universitätsabschlusses |
TRAINA$$ | Ausbildung - zweistelliger Berufscode KldB92 |
TRAINB$$ | Berufsfachschule - zweistelliger Berufscode KldB92 |
TRAINC$$ | Fachschule - zweistelliger Berufscode KldB92 |
TRAIND$$ | Beamtenausbildung - zweistelliger Berufscode |
FDT_F$$ | Datenquelle FIELD, DEGREE, TRAIN |
6. Überarbeitete Variablen
6.1 Datensatz $P
Die Variablen zu den Berufstätigkeits- und Branchenklassifikationen in den $P-Dateien wurden umbenannt. Die entsprechenden Variablen aus den Personenfragebogen werden abwechselnd von allen Befragten oder nur von denjenigen erhoben, die ihre Berufstätigkeit gewechselt haben. Gleichzeitig generieren wir diese Informationen über alle Jahre und alle Individuen und stellen diese Variablen in den $PGEN-Datensätzen zur Verfügung. Um die generierten klarer von den original erhobenen Variablen zu unterscheiden und um eine eindeutige Verbindung zur Fragenummer im jeweiligen Fragebogen herzustellen, haben wir die Variablen nach folgendem System umbenannt:
Bisheriger Variablenname | Neuer Name |
$IS88 | $pXX_IS88 |
$KLAS | $pXX_KLAS |
$BACE | $pXX_NACE |
$IS88 | $pXX_IS88 |
$KLAS | $pXX_KLAS |
So ist zum Beispiel ZIS88 jetzt umbenannt in ZP29_IS88. Die entsprechenden Variablen aller Datensätze aus dem Personenfragebogen ($P) wurden umbenannt, nicht jedoch die für die Nutzung empfohlenen Variablen in den generierten Datensätzen ($PGEN, so zum Beispiel IS8809 aus ZP).
6.2 Datensatz $HBRUTTO
Die Vercodung derjenigen Variablen, die das Bundesland abfragen, in dem sich ein Haushalt befindet, ($BULA, Bundesland) wurde der Vercodung der offiziellen Statistik angepasst.
$bula (alte Kodierung) | $bula (neue Kodierung) |
0 Berlin | |
1 Schleswig - Holstein | 1 Schleswig-Holstein |
2 Hamburg | 2 Hamburg |
3 Niedersachsen | 3 Niedersachsen |
4 Bremen | 4 Bremen |
5 Nordrhein-Westfalen | 5 Nordrhein-Westfalen |
6 Hessen | 6 Hessen |
7 Rheinl.-Pfalz, Saarl. | 7 Rheinland-Pfalz |
8 Baden-Württemberg | 8 Baden-Württemberg |
9 Bayern | 9 Bayern |
10 Saarland | |
11 Berlin (Ost) | 11 Berlin |
12 Mecklenburg-Vorpommern | 12 Brandenburg |
13 Brandenburg | 13 Mecklenburg-Vorpommern |
14 Sachsen-Anhalt | 14 Sachsen |
15 Thüringen | 15 Sachsen-Anhalt |
16 Sachsen | 16 Thüringen |
Eine Unterscheidung von Ost- und West-Berlin ist nach wie vor möglich mit eine Kombination der Bundesland-Variable und der Variable zur Ziehungsregion ($SAMPREG in PPFAD).
6.3. Kleinere Fehlerkorrekturen
30. März 2012
BIOAGE03
Das Alter der Kinder war nicht korrekt und musste neu berechnet werden. Zudem hatten einige fehlende Werte für das Gewicht und die Größe der Kinder den falschen Wert "0" und mussten rekodiert werden. Und schließlich war versehentlich die Zahl der Arztbesuche in den Befragungsjahren 2005 und 2006 auf "0" gesetzt worden. Auch hier sind die richtigen Werte nachgetragen worden.
BIOAGE06
Die fehlenden Geburtsmonate für 14 Kinder, die aus früheren Befragungen bekannt waren, wurden nachgetragen. Darüber hinaus wurden eine falsche Personennummer und eine falsche Haushaltsnummer korrigiert.
BIOAGE08
Das Alter der Kinder war falsch berechnet worden und ist jetzt korrigiert.
LIFESPELL
Im Update des Datensatzes LIFESPELL werden für den Zeitraum 2006-2010 etwa 100 Emigrations-Fälle rekodiert, die in der Datenlieferungs-Version v27 fälschlicherweise als Inlands-Spell geführt wurden. In dem revidierten LIFESPELL-Datensatz werden zusätzlich neue Informationen über das Todesjahr für eine kleine Anzahl an Personen bereitgestellt. Nähere Informationen erhalten Sie bei Hannes Neiss (hneiss@diw.de).
Die korrigierten Datensätze werden mit personalisiertem link zum Download bereitgestellt. Bitte wenden Sie sich bei Bedarf an soepmail@diw.de.
Bitte beachten Sie: Bei der Nutzung einer dieser korrigierten Datensätze sollten Sie den Datensatz wie folgt zitieren:
Englisch:
Socio-Economic Panel (SOEP), data for years 1984-2010, version 27.2, SOEP, 2012.
Deutsch:
Sozio-oekonomisches Panel (SOEP), Daten für die Jahre 1984-2010, Version 27.2, SOEP, 2012.
Kurzversion:
SOEP v27.2.
2. Jan. 2012
COGDJ
Im File COGDJ waren in der ausgelieferten Datenversion die Daten für 2010 noch nicht aktualisiert.
Englische Labels
In den Datensätzen ZHBRUTTO und BAHBRUTTO sind leider Teile der englischen Labels in ihrer Zuordnung verrutscht und müssen neu definiert werden. Dies betrifft die folgenden Variablen:
In den $PGEN-Datensätzen wurden für die neuen Variablen zu Studienrichtung, -Abschluss und Ausbildungsabschlüssen vor dem Eintritt ins Panel keine englischen Value-Labels generiert. Dies betrifft die englischen Labels der folgenden Variablen:
FIELD$$, DEGREE$$ und TRAINA$$–TRAIND$$.
PPFADL in SOEPlong
Für die folgenden beiden Variablen fehlen auf der Datenweitergabe-DVD SOEP v27 die Werte für 2010:
HID - Haushaltsidentifikator
NETT1 - Kurzversion der Tracking-Variable NETTO
Die korrigierten Datensätze werden in unterschiedlichen Dateien mit personalisiertem link zum Download bereitgestellt. Bitte wenden Sie sich bei Bedarf an soepmail@diw.de.
Bitte beachten Sie: Bei der Nutzung einer dieser korrigierten Datensätze sollten Sie den Datensatz wie folgt zitieren:
Englisch:
Socio-Economic Panel (SOEP), data for years 1984-2010, version 27.1, SOEP, 2012.
Deutsch:
Sozio-oekonomisches Panel (SOEP), Daten für die Jahre 1984-2010, Version 27.1, SOEP, 2012.
Kurzversion:
SOEP v27.1.
Survey Instruments 2010: Field-de
Alle Sample-spezifischen Fragebögen dieses Jahres und alle Fragebögen der vorherigen Befragungsjahre finden Sie auf dieser Seite
1) Handgreifkraftmessung im Sozio-oekonomischen Panel (SOEP) 2006 und 2008
2) The new IAB-SOEP Migration Sample: an introduction into the methodology and the contents
3) The Request for Record Linkage in the IAB-SOEP Migration Sample
5) The Measurement of Labor Market Entries with SOEP Data: Introduction to the Variable EINSTIEG_ARTK
6) Job submission instructions for the SOEPremote System at DIW Berlin – Update 2014
7) SOEP 2015 – Informationen zu den SOEP-Geocodes in SOEP v32
9) Die Vercodung der offenen Angaben zu den Ausbildungsberufen im Sozio-Oekonomischen Panel
10) Das Studiendesign der IAB-BAMF-SOEP Befragung von Geflüchteten
11) Scales Manual IAB-BAMF-SOEP Survey of Refugees in Germany – revised version
13) SOEP Scales Manual (updated for SOEP-Core v32.1)
17) Multi-Itemskalen im SOEP Jugendfragebogen
20) SOEP-CoV: Project and Data Documentation
22) SOEP-Core v34 – PFLEGE: Documentation of Generated Person-level Long-term Care Variables
25) SOEP-Core v36: Codebook for the EU-SILC-like panel for Germany based on the SOEP
Alle Dokumentationen zum Filtern finden Sie auf dieser Seite