Direkt zum Inhalt

SOEP-Core v27 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

Die Weitergabe der SOEP-Daten 1984-2010 (Wellen A-BA) wird die üblichen jahresspezifischen Datensätze (BAP, BAH, BAPGEN, BAHGEN, BAPKAL, BAPBRUTTO, BAHBRUTTO, BAKIND und ZPLUECKE) sowie die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD, Biografie-Datensätze, SPELL-Daten und Gewichtungsfaktoren) enthalten. Für die Teilnehmer/innen von Sample I (Incentivierungs-Sample) liegen mit dieser Datenweitergabe die Biografie-Daten aus dem entsprechenden Fragebogen vor.
Aufgrund von Änderungen auch an älteren Datensätzen, empfehlen wir wie immer eine Neuinstallation aller Datensätze von der aktuellen DVD.

1. Erstmalig zwei Buchstaben als Präfix (BA)

In der diesjährige Datenweitergabe (v27) werden wir das erste Mal in der 27-jährigen Geschichte des SOEP zwei statt einen Buchstaben als wellenspezifischen Präfix nutzen. Nachdem wir bei der letztjährigen Datenweitergabe mit dem Buchstaben Z an das Ende des lateinischen Alphabets gekommen sind, haben wir uns jetzt für die Wellenkennzeichnung BA für die Querschnittdaten entschieden. 

2. Aktualisierung der Beta-Version im „long-Format" 

Die SOEP-Daten sind auch dieses Jahr wieder in einem „Long-Format" erhältlich. Diese Beta-Version von SOEPlong ist eine für längsschnittliche Analysen optimierte Form der Datenweitergabe: Statt in wellenspezifischen Einzeldatensätzen sind hier alle verfügbaren Jahre und Kohorten gepoolt (long format). Dieser Datensatz befindet sich auf der zweiten DVD. Eine genauere Beschreibung finden Sie im SOEPnewsletter Nr. 90/2010 oder direkt auf der zweiten DVD. 

3. Entfernung von Fälschungen

Nach Konsistenzprüfungen der 2. Welle von Sample I, wurden 36 Haushalte als Fälschungen identifiziert. Diese Fälle sind in der aktuellen Datenweitergabe nicht mehr enthalten.

4. Neue und umbenannte Datensätze

4.1 BIOAGE08[A|B]

Der Datensatz BIOAGE08 enthält die Antworten auf die Befragung mit dem neuen „Elternfragebogen", den Mütter und Väter von sieben- bis achtjährigen Kindern ausfüllen. Damit sind jetzt die Daten der Geburtskohorte 2002/2003 erhältlich, die als Erste mit dem „Neugeborenen-Fragebogen" befragt wurden. Den neuen „Elternfragebogen" füllen sowohl die Mütter als auch die Väter aus, es gibt damit also zwei Beobachtungen zu vielen dieser Kinder im Sample. Aus diesem Grund ist der Datensatz nach Geschlecht des antwortenden Elternteils getrennt (und nach Haushaltstyp in dem die Befragten leben): BIOAGE08A enthält ausschließlich Daten der Mütter und einiger Väter, wenn keine Auskünfte der Mütter zu erhalten waren. BIOAGE08B enthält nur Daten der Väter. Die Dokumentation dieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.2 LIFESPELL

Der Datensatz LIFESPELL enthält Daten der Verbleibstudien von Befragungsausfällen (1992, 2001, 2006 und 2008), die bisher noch nicht in der regulären Datenweitergabe enthalten waren. Die Verbleibstudien, die auf Informationen der Einwohnermeldeämter beruhen, dienen dazu, den aktuellen Aufenthaltsort von ehemaligen SOEP-Teilnehmer/inne/n aufzufinden. Diese Daten ermöglichen Analysen zur Lebenserwartung und Auswanderungsentscheidungen, selbst wenn die Personen schon lange aus der Studie ausgeschieden sind. Die Dokumentationdieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.3 BIOEDU (beta version)

Der Datensatz BIOEDU, der dieses Jahr in einer vorläufigen Form weitergegeben wird, enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung. Nutzer/innen, die mit diesen Daten arbeiten, werden gebeten, uns ihre Erfahrungen (insbesondere auftretende Probleme) mitzuteilen, damit wir für das nächste Jahr eine endgültige Version erstellen können. Der Datensatz ist in der DIW Data Documentation 58 ausführlich dokumentiert.
Wegen seiner provisorischen Form ist dieser Datensatz nicht Bestandteil der normalen Datenweitergabe und deswegen auf der DVD in einem eigenen Archiv zu finden (Bitte nutzen Sie den link in der NEWS-Datei auf der DVD).

5. Neue Variablen

5.1 Datensatz $PEQUIV

In den $PEQUIV-Dateien ist eine neue Variable zu den Unterstützungs-Zahlungen aufgenommen. Mit dem 2010er Fragebogen wurden zwei Kategorien bei den „Unterstützungszahlungen" unterschieden. Die erste bezeichnet „Gesetzlichen Ehegattenunterhalt, Kindesunterhalt, Betreuungsunterhalt" (ALIM$$), während die zweite „Unterhaltszahlung aus Unterhaltsvorschusskassen" (IACHM$$) abfragt. Mehr Informationen über den Datensatz $PEQUIV und die neuen Variablen in der DIW Data Documentation 57.

5.2 Datensatz PFLEGE

Im PFLEGE-Datensatz finden sich jetzt zwei zusätzliche Variablen. „FURTHER" gibt die Anzahl weiterer pflegebedürftiger Personen in einem Haushalt an. Diese Zahl wird seit 2009 erhoben. „CARECOST" gibt die regulären monatlichen Kosten an, die ein Haushalt normalerweise für Pflege aufwendet. Diese Frage wird seit 2010 gestellt.

5.3 Datensatz $PGEN

Mit dieser Datenweitergabe geben wir detaillierte Auskünfte über Bildungsabschlüsse und Weiterbildungsqualifikationen vor Eintritt in die Panelbefragung weiter: Seit 2001 wird im Lebenslauffragebogen nach der Berufsausbildung, dem Hochschulabschluss (z.B. Diplom) und dem Studienfach der Hochschulabsolventen gefragt. Diese offenen Antworten wurden bisher jedoch nicht vercodet und daher auch nicht weitergegeben. Für die jetzt erfolgte Vercodung wurde die Klassifikation aus dem Personenfragebogen genutzt. Im Zuge der jetzt erfolgten Revision ergaben sich nur leichte Veränderungen. Eine genaue Beschreibung ist in der PGEN- Dokumentation zu finden, die neuen Variablen sind:

FIELD$$  Fach der Universitätsausbildung
DEGREE$$  Art des Universitätsabschlusses
TRAINA$$  Ausbildung - zweistelliger Berufscode KldB92
TRAINB$$  Berufsfachschule - zweistelliger Berufscode KldB92
TRAINC$$  Fachschule - zweistelliger Berufscode KldB92
TRAIND$$  Beamtenausbildung - zweistelliger Berufscode
 FDT_F$$  Datenquelle FIELD, DEGREE, TRAIN

 

6. Überarbeitete Variablen

6.1 Datensatz $P

Die Variablen zu den Berufstätigkeits- und Branchenklassifikationen in den $P-Dateien wurden umbenannt. Die entsprechenden Variablen aus den Personenfragebogen werden abwechselnd von allen Befragten oder nur von denjenigen erhoben, die ihre Berufstätigkeit gewechselt haben. Gleichzeitig generieren wir diese Informationen über alle Jahre und alle Individuen und stellen diese Variablen in den $PGEN-Datensätzen zur Verfügung. Um die generierten klarer von den original erhobenen Variablen zu unterscheiden und um eine eindeutige Verbindung zur Fragenummer im jeweiligen Fragebogen herzustellen, haben wir die Variablen nach folgendem System umbenannt:

Bisheriger Variablenname Neuer Name
$IS88 $pXX_IS88
$KLAS $pXX_KLAS
$BACE $pXX_NACE
$IS88 $pXX_IS88
$KLAS $pXX_KLAS


So ist zum Beispiel ZIS88 jetzt umbenannt in ZP29_IS88. Die entsprechenden Variablen aller Datensätze aus dem Personenfragebogen ($P) wurden umbenannt, nicht jedoch die für die Nutzung empfohlenen Variablen in den generierten Datensätzen ($PGEN, so zum Beispiel IS8809 aus ZP).

6.2 Datensatz $HBRUTTO

Die Vercodung derjenigen Variablen, die das Bundesland abfragen, in dem sich ein Haushalt befindet, ($BULA, Bundesland) wurde der Vercodung der offiziellen Statistik angepasst.

$bula (alte Kodierung) $bula (neue Kodierung)
0 Berlin  
1 Schleswig - Holstein 1 Schleswig-Holstein
2 Hamburg 2 Hamburg
3 Niedersachsen 3 Niedersachsen
4 Bremen 4 Bremen
5 Nordrhein-Westfalen 5 Nordrhein-Westfalen
6 Hessen 6 Hessen
7 Rheinl.-Pfalz, Saarl. 7 Rheinland-Pfalz
8 Baden-Württemberg 8 Baden-Württemberg
9 Bayern 9 Bayern
  10 Saarland
11 Berlin (Ost) 11 Berlin
12 Mecklenburg-Vorpommern  12 Brandenburg
13 Brandenburg  13 Mecklenburg-Vorpommern
14 Sachsen-Anhalt 14 Sachsen
15 Thüringen 15 Sachsen-Anhalt
16 Sachsen 16 Thüringen

 

Eine Unterscheidung von Ost- und West-Berlin ist nach wie vor möglich mit eine Kombination der Bundesland-Variable und der Variable zur Ziehungsregion ($SAMPREG in PPFAD).

6.3. Kleinere Fehlerkorrekturen

  • Im Datensatz BIOAGE17 wurde in der Datenweitergabe v26 bei der Klassifizierung der gewünschten Jobs aus dem Jugendfragebogen (byklas, bymps, byisco88, byegp, byisei, bysiops) fehlerhaft vercodet und enthalten deswegen zu viele fehlende Angaben. Dieser Fehler wurde in der Datenweitergabe v27 behoben.
  • Einige Haushalte in Berlin (nur 2006) wurden bezüglich des Siedlungstyps ($GTYP) im Datensatz GGKBOU falsch eingeordnet. Dieser Fehler wurde ebenfalls korrigiert.
keyboard_arrow_up