Direkt zum Inhalt

SOEP-Core v31 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

1. Integration der FiD-Befragung (Daten seit 2010)

Wir freuen uns mitteilen zu können, dass die Datenweitergabe v31 auch die Daten von  „Familien in Deutschland” (FiD) enthält, die rückwirkend in SOEP-Core integriert wurden und damit in einer nutzungsfreundlichen Form allen SOEP-Nutzer*innen zur Verfügung steht. Die FiD-Befragung wurde parallel zum SOEP als sogenannte SOEP Related Study von 2010 bis 2013 durchgeführt.

Die ursprüngliche FiD-Studie als SOEP Related Study

„Familien in Deutschland” hatte zum Ziel, das Gesamttableau ehe- und familienpolitischer Leistungen in Deutschland zu evaluierenim Auftrag des Bundesministeriums für Familie, Senioren, Frauen und Jugend (BMFSFJ) und des Bundesministeriums der Finanzen (BMF). Die bis dahin erhältlichen Datensätze - einschließlich des SOEP - hatten sich als nicht ausreichend für erwiesen für eine differenzierte Analyse der Bevölkerungsteile, auf die diese Leistungen zielen sollten. Insbesondere die Gruppen der allein erziehenden Eltern, der Mehrkindfamilien und der Familien im niedrigen Einkommensbereich sowie Familien mit sehr jungen Kindern sind anteilsmäßig in der Bevölkerung so klein, dass sie in repräsentativen Haushalts- und Personenstichproben zwar vertreten sind, die Zahl der Beobachtungen aber keine statistisch belastbaren und verallgemeinerbaren Analysen zulässt.

Unter dem Namen „Familien in Deutschland” (FiD) erhebt deswegen die forschungsbasierte Infrastruktureinrichtung SOEP am DIW Berlin seit 2010 zusammen mit TNS Infratest Sozialforschung Daten von mehr als 4.500 Haushalten. Die folgenden vier Zusatzstichproben werden jährlich wiederbefragt und bilden damit ein Panel:

  1. eine Stichprobe von Familien im „kritischen Einkommensbereich”
  2. eine Stichprobe von „Alleinerziehenden”
  3. eine Stichprobe von „Mehrkindfamilien” und
  4. eine „Kohortenstichprobe” der Geburtsjahrgänge 2007, 2008, 2009 und 2010 (erstes Quartal).

Eine Beschreibung der ursprünglichen FiD-Studie ist veröffentlicht unter dem Titel  „Familien in Deutschland – FiD” von Mathis Schröder, Rainer Siegers, and C. Katharina Spieß, Schmollers Jahrbuch 133 (4), 2013, 595-606. (http://dx.doi.org/10.3790/schm.133.4.595). (Vorveröffentlichung 2013: SOEPpapers 556 | PDF, 160.15 KB . Berlin: DIW Berlin).

Integration in SOEP-Core

Mit der nun vorliegenden Version 31 ist die FiD-Stichprobe vollständig in die SOEP-Core-Daten integriert worden – und zwar im Prinzip so, als wären 2010 und 2011 jeweils neue Stichproben für SOEP-Core gezogen worden. Die Integration der FiD-Stichproben erhöht damit signifikant die Fallzahlen in SOEP-Core um fast ein Drittel. Die Grafik zeigt den Einfluss der neuen FiD-Stichproben L1 bis L3 auf die querschnittliche Stichprobengröße ab 2010. Aufgrund der rückwirkenden Integration musste auch die sample -Variablen angepasst werden, da ja seit 2010 auch andere Aufwuchsstichproben zu SOEP-Core hinzukamen (zu den Einzelheiten der Stichproben-Bezeichnungen siehe unten).

Stichprobenentwicklung

Insgesamt wurden 14.166 Variablen aus 64 Datensätzen in die jeweiligen SOEP-Datensätze integriert und entsprechende generierte Datensätze oder Variablen angepasst. Variablen im FiD-Erhebungsprogramm, die nicht im entsprechenden SOEP-Befragungsprogramm enthalten waren, wurden in den jeweiligen Datensätzen als zusätzlichen Variablen angehängt (mit den Original-FiD-Variablennamen, die mit "fyy" beginnen, wobei "yy" der 2-stellige Jahres-Identifier ist). Die folgende Tabelle gibt einen Überblick über die Anzahl der Variablen in den beiden Hauptfragebögen, die integriert werden konnten.

Jahr Personenfragebogen (–p)
Zahl der integrierten Variablen
Haushaltsfragebogen (–h)
Zahl der integrierten Variablen
2010 314 274
2011 472 172
2012 350 188
2013 363 169

SOEP-Nutzer*innen haben somit quasi automatisch mehr Fälle in ihrer Untersuchungspopulation ab 2010, ohne dass Skripte angepasst werden müssen. Aber natürlich kann es passieren, dass bestimmte Variablen in FiD nicht abgefragt wurden und daher für diese Fälle nicht besetzt sind. Hier sei noch einmal an unsere Missing-Konventionen erinnert, mit der dies leicht auf der Variablenebene ersichtlich wird:

Code Bedeutung
-1 keine Antwort / weiß nicht
-2 trifft nicht zu
-3 unplausibler Wert
-4 unzulässige Mehrfachantwort
-5 in Fragebogenversion nicht enthalten
-6 Fragebogenversion mit geänderter Filterführung
-8 Frage nicht Teil des Befragungsprogramms in diesem Jahr*

*Nur in Datensätzen im long-Format anwendbar.

2. Querschnittsgewichte 2014

Das Statistische Bundesamt hat die schon weitergegebenen Mikrozensus-Daten von 2011 und 2012 nachträglich den 2011 erhobenen Zensus-Daten angepasst. Das hat zur Folge, dass in dieser SOEP Datenweitergabe (v31) die Gewichte für die Wellen BB und BC ebenfalls an die Zensus-Daten von 2011 angepasst werden.

Weil v31 Daten der FiD-Studie enthält, erhöht die Integration der FiD-Haushalte die Fallzahlen im SOEP um ca. ein Drittel, dies hat auch Auswirkungen auf die integrierten Gewichtungsvariablen. Sowohl aufgrund der zusätzlichen Haushalte als auf wegen der Einbeziehung der differenzierten Informationen zu den Familientypen sind Anpassungen nötig. Um den Nutzer*innen die Möglichkeit zu geben zu testen, wie eine neue SOEP-Stichprobe möglicherweise ihre Forschungsergebnisse beeinflusst, stellen wir auch diesmal - wie immer in dem Jahr, in dem eine Auffrisch-Stichprobe integriert wird - die Gewichte sowohl integriert als auch getrennt für die alten und neuen Stichproben zur Verfügung.

3. Weitere Änderungen

3.1 Anpassung der sample Variablen

Auf Grund der rückwirkenden Integration der FiD-Stichprobe musste die psample Variable in ppfad und die entsprechende hsample Variable in hpfad angepasst werden.

sample Variablen

Wert Alte Bezeichnung (v30) Neue Bezeichnung (v31)
1 A German West A Original Sample (DE-West)
2 B Foreigner West B Migration (up to 1983, DE-West)
3 C German East C Original Sample (DE-East)
4 D 84-93 Immigrant (West) D 1994/5 Migration (1984-92/94 DE-West)
5 E Refreshment 1998 E 1998 Refreshment
6 F ISOEP 2000 F 2000 Refreshment
7 G High-Income Test 2002 G 2002 High-Income
8 H Refreshment 2006 H 2006 Refreshment
9 I Incentives 2009 I 2009 Incentivization
10 J Refreshment 2011 J 2011 Refreshment
11 K Refreshment 2012 K 2012 Refreshment
12 L1 2010 Birth Cohorts (2007-2009)
13 M Migration 2013 L2 2010 Family Types
14 L3 2011 Family Types
15 M1 2013 Migration (1995-2010)




3.2. Biographische Datensätze
Die folgenden Datensätze mit biographischen Informationen wurden zusammengefasst, damit die Anzahl an lebenslaufbezogenen Datensätze nicht immer größer wird und die Übersicht gewahrt bleibt:

biobirth und biobirthm -> biobirth
Die Geburtsbiographien von Frauen (biobirth) und Männern (biobirthm) werden ab v31 zusammen im Datensatz biobirth stehen, natürlich inklusive eine Variable zum Geschlecht.

bioage01 bis bioage12 -> bioagel
Beginnend mit der Datenweitergabe v31 werden die altersspezifischen Daten aus den Mutter-/Eltern-Kind-Fragebögen ausschließlich in einem nutzerfreundlichen „long”-Format weitergegeben: Statt bisher in einzelnen altersspezifischen Datensätzen (z.B. bioage01, bioage03, ...) sind alle Mutter-Kind- und Eltern-Kind-Fragebögen jetzt im bioagel Datensatz zusammengefasst. Dies hat zur Konsequenz, dass alle Informationen über Kinder jetzt einfach in einem einzigen Datensatz gefunden werden können. Die Dokumentation der Biographie-Daten wird Informationen darüber enthalten, wie der neue bioagel-Datensatz im long-Format effizient mit SPSS und Stata genutzt werden kann, und außerdem eine Syntax , mit der die altersspezifischen Einzel-Dateien von denjenigen, die sie brauchen, wieder rekontruiert werden können.

Der altersspezifische Datensatz bioage17, der die Daten des Jugendfragebogens enthält, ist nicht Bestandteil des bioagel-Datensatzes.

3.3 Änderungen in $HGEN

Ab der Version v31.1 enthält der Datensatz HGEN jetzt die Variable gas$$, die ab 2014 die Gaskosten eines Haushaltes ausweist. Die Variablen $$eqplif und $$eqpnrj wurden von den beiden vorherigen Jahren fortgeschrieben, wenn ein Haushalt in einem Befragungsjahr keine Antwort gegeben hat.

3.4 Weitere Änderungen in SOEP v31.1

Die weiteren Änderungen in v31.1 betreffen lediglich die Werte verschiedener Variablen. Informationen im einzelnen finden Sie unter der DOI  soep.v31.1.

keyboard_arrow_up