Direkt zum Inhalt

SOEP-Core - Änderungen am Datensatz (vor 2007)

Daten 1984-2006 (Welle W)

Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.

Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt B). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht.

Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant.

Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert.

Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen.

Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD.

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Neue und umbenannte Datensätze 2006

$PAGE17
Ab 2007 werden Personen, die das Erstbefragungsalter (17 Jahre) erreichen, nicht mehr mit dem normalen Personenfragebogen, sondern mit einem speziellen Jugendfragebogen befragt. Wellenspezifische Informationen, die nicht in den Biographie-Daten oder anderen generierten Datensätzen (wie $PGEN, HEALTH) vorliegen, werden im Datensatz $PAGE17 weitergegeben. Identifizierbar sind die Befragten des Jugendfragebogens mit Hilfe des neuen $NETTO-Codes "17" (siehe auch Änderung der $NETTO-Variablen in PPFAD).

DESIGN
Die Informationen zum Design der SOEP-Stichprobe, die zuvor im Datensatz VARIANZ (Spiess 2001) zusammengefasst waren, werden ab der Datenweitergabe 2007 in dem überarbeiteten und verbesserten File DESIGN zu finden sein. Nähere Informationen in dem Dokument designdoku.pdf (PDF, 57.99 KB) auf der SOEP-Dokumentationseite oder der DVD.

HEALTH
Der Gesundheitsschwerpunkt im Personenfragebogen wurde 2002 überarbeitet und seitdem im 2-Jahres-Rhythmus erhoben. Im HEALTH-File finden Sie nun die generierten SF12-Variablen (zur Messung der gesundheitsbezogenen Lebensqualität) und Variablen zu Größe und Gewicht mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte und einer nutzerfreundlichen, längsschnittgeprüften generierten Variablen des Body Mass Index (BMI). Die Dokumentation finden Sie in dem Dokument health.pdf (PDF, 110.01 KB) auf der SOEP-Dokumentationseite oder der DVD.

PWEALTH und HWEALTH
Die Vermögensdaten des Erhebungsjahres 2002 wurden vollständig überarbeitet und auf Inkonsistenzen geprüft. Die Daten sind jetzt in zwei Datensätzen (für Personen- und Haushaltsebene) vollständig (multiple) imputiert nutzbar, mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte. Die beiden Datensätze enthalten auch jeweils eine generierte Variable zum "Netto-Vermögen" (siehe SOEPpapers No. 18 (PDF, 0.76 MB)).

Interviewerbefragung
Der bis 2006 lediglich als "stand-alone" Version verfügbare Datensatz mit Angaben zu den InterviewerInnen ist jetzt unter dem Namen INTVIEW in die Standard-Datenweitergabe integriert und wird somit in den jeweiligen Software-Formaten (SAS, SPSS, STATA) standardmäßig abgelegt.

Querschnittshochrechnung 2006

Mit der Datenweitergabe für das Jahr 2006 ergeben sich für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die Neuerungen in der DIW Data Documentation 22

1. Typen der Hochrechnungsfaktoren neu definiert
Jedes Querschnittsgewicht wird mit $xHRFy bezeichnet. Dabei stellt $ das Wellenkennzeichen dar, x die Unterscheidung nach Haushalten (x = H) und Personen (x = P) und y eine Zusatzkennung, die den Typ des Hochrechnungsfaktors beschreibt.

  • $xHRF sind die von Beginn an üblichen Hochrechnungsfaktoren. Sie enthalten sämtliche Stichproben mit Ausnahme der Hocheinkommensstichprobe G.
  • $xHRF1 sind Standard-Hochrechnungsfaktoren, bei denen zusätzlich zur Nichtberücksichtigung von Sample G die Gewichte von neuen Teil-Stichproben, d.h. in der sample-spezifischen ersten Welle, auf Null gesetzt sind. Hintergrund: In den ersten Wellen weisen die Befragten bei komplexen Erhebungskonstrukten ein "schlechteres" Antwortverhalten auf als in späteren Wellen (z. B. bezüglich Lebenszufriedenheit und Jahreseinkommen). Eine Ausnahme bildet hier Stichprobe C. Da für Befragte in der DDR solche Effekte im Antwortverhalten des Jahres 1990 nicht nachweisbar waren, sind hier GxHRF und GxHRF1 identisch.
    Für Standard-Querschnittsanalysen empfehlen wir die Verwendung des Hochrechungs-Typs $xHRF1 als Standard-Hochrechnungsfaktor. Damit werden die Informationen aus den jeweils ersten Wellen der Teilstichproben automatisch nicht genutzt.
  • $xHRFALL umfassen sämtliche verfügbare Stichproben.
  • $xHRFD, $xHRFF und $xHRFG kennzeichnen die isolierten Gewichte für die Zuwanderer-Stichprobe D, für die Ergänzungsstichprobe F und für die Hocheinkommens-Stichprobe G.

2. Modifizierung Hochrechnungsrahmen
Seit dem Jahr 2005 weist das Statistische Bundesamt Angaben für das Land Berlin nicht mehr getrennt nach West und Ost aus. Dies führte zu leichten Modifizierungen des Hochrechnungsrahmens für Haushalte rückwirkend seit dem Erhebungsjahr 2005.

3. Neue Ergänzungsstichprobe H
Die neuen Haushalte der im Erhebungsjahr 2006 erstmals erhobenen Ergänzungsstichprobe H ("Refreshment Sample") wurden in die Hochrechnung integriert. Die Einbeziehung der Stichprobe H ist gegenwärtig noch vorläufig. Es wird geprüft, ob und wie die Stichprobe H an zusätzliche externe Ränder angepasst wird. Dieses Vorgehen ist allerdings nicht gravierend, da wir ohnehin empfehlen, für deskriptive (Zeitreihen-) Analysen die Hochrechnungsfaktoren WxHRF1 zu verwenden, die die Stichprobe H ausschließen.

4. Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005
Die Hochrechnungsfaktoren für das Jahr 2006 basieren auf Eckdaten des Mikrozensus von 2005; sie sind also bezüglich der unterstellten Anzahl von Haushalten und Personen in Deutschland vorläufig.

Neue und überarbeitete Variablen

1. BIOAGE01 2006
Es wurden vier neue Variablen zum Schwangerschaftsstatus generiert. Basis der Generierungen sind im Wesentlichen der Interviewmonat aus $P, Geburtsmonat und -jahr des Kindes sowie Dauer der Schwangerschaft in Wochen aus BIOAGE01.

BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?'
Value Labels:
2002 | Schwanger bei Personeninterview 2002
2003 | Schwanger bei Personeninterview 2003
2004 | Schwanger bei Personeninterview 2004
2005 | Schwanger bei Personeninterview 2005
2006 | Schwanger bei Personeninterview 2006
2007 | Schwanger bei Personeninterview 2007

BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)'
Value Labels:
1 | Erster Schwangerschaftsmonat
2 | Zweiter Schwangerschaftsmonat
3 | Dritter Schwangerschaftsmonat
4 | Vierte Schwangerschaftsmonat
5 | Fünfter Schwangerschaftsmonat
6 | Sechster Schwangerschaftsmonat
7 | Siebter Schwangerschaftsmonat
8 | Achter Schwangerschaftsmonat
9 | Neunter Schwangerschaftsmonat
10 | Letzter Monat schwanger oder nach Geburt

Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01.

PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'.

PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'.

2. BIOAGE17

Den Aufbau und Inhalt finden Sie ausführlich in der Dokumentation der Biografiedaten auf der SOEP-Homepage oder der DVD.

3. $HGEN 2006

NUTS1$$
Zusätzlich zur Bundesland-Variable ist ab diesem Jahr für alle Wellen auch die entsprechende NUTS (Nomenclature des unités territoriales statistiques) Level 1-Variable verfügbar. Die Variable ist weitgehend identisch mit $BULA in $HBRUTTO, allerdings ohne die Zusammenfassung von Rheinland-Pfalz/ Saarland (ab 2000) bzw. ohne eine Differenzierung zwischen Ost- und West-Berlin.

4. $PGEN 2006

JOBCH$$
In Ergänzung zu ERWTYP$$ (und langfristig zu deren Ersatz) wurde eine Variable zur Identifikation beruflicher Wechsel generiert. Die Kategorien dieser Variable sind unabhängig davon, ob eine Erst- oder Wiederholungsbefragung vorliegt. JOBCH$$ gibt für Personen mit Wiederholungsbefragung berufliche Wechsel seit dem letzten Interview an, für erstmals Befragte bezieht sie sich auf berufliche Wechsel, die seit Beginn des Vorjahres stattgefunden haben. Erstmals erwerbstätige Personen und erwerbstätige Personen mit beruflichem Wechsel werden hierbei getrennt ausgewiesen. Im Gegensatz zu ERWTYP$$ wurde JOBCH$$ einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle, wie beispielsweise Doppelnennungen eines beruflichen Wechsels in zwei aufeinander folgenden Interviews, wurden korrigiert.
Value Labels:
1 | Nicht erwerbstätig
2 | Erwerbstätig ohne Wechsel
3 | Erwerbstätig ohne Information, ob Wechsel
4 | Erwerbstätig mit Wechsel
5 | Erstmals erwerbstätig

GERWZEIT, HERWZEIT
Für die Jahre 1990 und 1991 werden nun auch für Sample C (Ost) Werte für die Dauer der Betriebszugehörigkeit bereitgestellt. Aufgrund der eventuell eingeschränkten Vergleichbarkeit im Zuge des ostdeutschen Transformationsprozesses sind diese Angaben jedoch mit besonderer Vorsicht zu behandeln.

$ERWZEIT
Die Dauer der Betriebszugehörigkeit wurde aufgrund bisher auftretender Inkonsistenten zwischen verschiedenen Interviewzeitpunkten einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle wurden anhand der folgenden Vorgehensweise korrigiert:

  1. Der Beschäftigungsbeginn beim derzeitigen Arbeitgeber, der zum frühesten Befragungszeitpunkt angegeben wird, ist grundsätzlich dominant und wird in den Folgejahren fortgeschrieben, falls kein Stellenwechsel und keine Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung vorliegt.
  2. Im Falle eines Stellenwechsels (Wechsel des Arbeitgebers/Wechsel in die Selbständigkeit) werden die aktuellen Angaben zum Zeitpunkt des Stellenwechsels verwendet und in den Folgejahren fortgeschrieben.
  3. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird vermutet, dass ein Arbeitnehmer zu seinem alten Arbeitgeber zurückgekehrt ist, wenn der aktuell angegebene Beschäftigungsbeginn vor dem letzten Befragungsjahr liegt. In diesem Fall wird nicht auf den aktuellen Beschäftigungsbeginn zurückgegriffen, sondern der Beschäftigungsbeginn, der bei der letzten Befragung erhoben wurde, fortgeschrieben. Liegt die aktuelle Angabe zum Beschäftigungsbeginn nach dem letzten Befragungsjahr, wird ein Arbeitgeberwechsel seit der letzten Befragung angenommen und die aktuelle Angabe zum Beschäftigungsbeginn fortgeschrieben.

Aus dem längsschnittkonsistenten Beschäftigungsbeginn beim derzeitigen Arbeitgeber wird die Dauer der Betriebszugehörigkeit ermittelt. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird für Arbeitnehmer, bei denen vermutet wird, dass sie zum alten Arbeitgeber zurückgekehrt sind, die komplette Betriebszugehörigkeitsdauer erfasst. Es erfolgt kein Abzug für die Dauer der Unterbrechung, insofern wird die implizite Messung von betriebsspezifischem Humankapital ggf. überschätzt. 

AUSB$$
Da bei der erforderlichen Ausbildung im Beruf seit 1999 zwischen Fachhochschul- und Hochschulstudium unterschieden wird, wurden für die Jahre vor 1999 und nach 1999 verschiedene Kategorien für die AUSB$$ 'erforderliche Ausbildung im Beruf' gebildet. In den aktuellen Jahren gibt es getrennte Kategorien, die explizit zwischen diesen beiden Abschlüssen unterschieden. Zudem werden Fachschule und Fachhochschule nun getrennt ausgewiesen.
Value Labels:
1 | Keine Ausbildung
2 | Einweisung
3 | Einarbeitung
4 | Kurse
5 | Berufsausbildung
6 | Fachschule, Ingenieurschule (Ost) 1990-1996
7 | (Fach-,) Hochschulstudium, bis 1998
8 | Fachhochschulstudium, ab 1999
9 | Hochschulstudium, ab 1999

MPS$$
Für die Wellen U,V und W wurden die Werte für die 'Magnitude Prestigeskala - Wegener' für Befragungspersonen ohne Haushaltsinterview ($NETTO=19) ergänzt.

ERWTYP$$
Die Variable Erwerbstypus wird mit der alten Kategorisierung beibehalten, jedoch wird aufgrund der gemeinsamen Ausprägung von erstmals Erwerbstätigen und erwerbstätigen Personen mit beruflichem Wechsel das Label dieser Kategorie geändert. Die Ausprägung 6 wird mit dem Label 'erwerbstätig mit Wechsel, auch erstmals erwerbstätig' versehen.

5. PPFAD 2006

Umstellung der $NETTO Codes

$NETTO
Mit der Welle W (23. Erhebungswelle) wurde im aktuellen Erhebungsjahr 2006 die Erfassung der Befragungspopulation grundlegend verändert. Bisher wurde immer bei allen Personen im Haushalt über 16 Jahren ein Personeninterview durchgeführt. Ab dem Erhebungsjahr 2006 werden reguläre Personeninterviews auf Basis des Standard-Erwachsenenfragebogens erst ein Jahr später - im Alter ab 18 Jahren - durchgeführt. Erstbefragte Jugendliche im Alter von 17 Jahren erhalten stattdessen erstmals einen erweiterten Jugendfragebogen (dies gilt für die Samples A-G; bei der neuen Stichprobe H wird der Jugendfragebogen erst im nachfolgenden Jahr erhoben, die entsprechenden 17-jährigen Jugendlichen erhielten als erstes - wie bisher - den regulären Personenfragebogen).
Die Befragungspersonen sind damit nicht mehr allein durch das Instrument des Personenfragebogens erfasst, sondern werden jetzt durch zwei Instrumente - Personen- und Jugendfragebogen - abgebildet. Zur konsistenten Abgrenzung im Zeitverlauf muss deshalb entweder die Jugendpopulation im aktuellen Jahr einbezogen werden oder die Altersabgrenzung für alle früheren Jahre erhöht werden.
Die neu überarbeitete $NETTO-Variable unterstützt beide Abgrenzungen rückwirkend für den gesamten Befragungszeitraum. Der Zusammenhang zwischen Erhebungspopulation und Befragungsinstrument wird über die Variable $NETTO in PPFAD beziehungsweise $HNETTO in HPFAD gesteuert. Infolge der Veränderung der Befragungspopulation sowie der Erweiterung der Erhebungsinstrumente zur detaillierten Erfassung biografischer Zusammenhänge wurde die entsprechende Variable $NETTO in PPFAD grundlegend überarbeitet und wird jetzt als zweistellige Variable bereitgestellt. Die bisherige - einstellige - Variable wird als Hilfestellung unter verändertem Namen $NETOLD weitergeführt; die Variable $HNETTO in HPFAD ist von dieser Umstellung nicht betroffen und bleibt unverändert.
Value Labels:
(10-19)'Befragte und Befragungspersonen mit realisierten Interviews'
10 | Befragungsperson mit realisiertem Interview
11 | Personenfragebogen ($P)
12 | Personenfragebogen und Lebenslauf
13 | Personenfragebogen und Jugendfragebogen
14 | Personenfragebogen und andere Fragebögen
15 | Personenfragebogen und Experimente, Tests
16 | Personenfragebogen, Erstbefragung, 17 Jahre
17 | Jugendfragebogen Erstbefragung, 17 Jahre
19 | Personenfragebogen ohne Haushaltsinterview

(20-29)'Kinder in realisierten Haushalten
20 | Kinder in realisierten Haushalten ($KIND)
21 | Kinder mit Mutter-Kind-Fragebogen I, 0-1 Jahr
22 | Kinder mit Mutter-Kind-Fragebogen II, 2-3 Jahre

(30-39)'Personen ohne Personen-Interview in Brutto-Haushalten'
30 | Personen in realisierten Haushalten ohne Personeninterview
31 | Realisierte Nacherhebung ($LUECKE)
32 | Realisierter Biografiefragebogen
33 | Realisierter Jugendfragebogen
34 | Realisierte Tests und Experimente

(60-69)'Nur Fragebogen ohne Personeninterview außerhalb der Brutto-Haushalte
60 | Nur Fragebogen ohne Personen- und Haushaltsinterview
61 | Nacherhobene Lücke ohne Haushaltsbezug
62 | Nacherhobene Lücke bei Ausfall
70 | Nur Teilnahme an Tests, Experimenten etc.

(80-89)'Personen ohne Austritt, aber ohne aktuelle Angabe im laufenden Jahr'
80 | Person ohne Austritt aus Panel-Population
81 | Vormals Befragte (ERSTBEF) ohne aktuellen Angaben
89 | RückkehrerInnen (zuvor Ausfälle)

(90-99)'Personenausfaelle und Austritte ($YPBRUTTO)'
90 | Personenausfälle ($YPBRUTTO)
91 | Wegzug ins Ausland
99 | Verstorben

$NETOLD
In der neuen Variable $NETOLD ist der alte $NETTO-Code weiterhin nutzbar. Personen im Alter von 17 Jahren, die entweder einen Jugendfragebogen (n=307) oder einen Personenfragebogen (Sample H, n=31) ausgefüllt haben, sind jeweils mit dem Wert 1 codiert. Somit ist die Abgrenzung (WNETTO == 1 | WNETTO == 5) nicht identisch ist mit der Population in WP.

6. $PEQUIV 2006

Neue Variablen:

ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II.
FALG2$$: Flag zur Identifikation von Imputationen des Arbeitslosengeld II (ALG2$$).
IDEMY$$: Betrag der im Vorjahr empfangenen Zahlungen aus Abfindungen (Indemnity).
FDEMY$$: Flag zur Identifikation von Imputationen von Abfindungszahlungen (IDEMY$$).
ITRAY$$: Betrag der im Vorjahr empfangenen Fahrtkostenzuschüsse (commuting and travel grants).
FTRAY$$: Flag zur Identifikation von Imputationen von Fahrtkostenzuschüssen (ITRAY$$).


Überarbeitete Variablen:


I11105$$

Die Variable (Mietwert selbstgenutzten Wohneigentums = Imputed Rent) wurde bisher nur für Personen in selbstgenutztem Wohneigentum generiert. Entsprechend aktueller Forschungsergebnisse und auch der Vorschläge der Europäischen Kommission zur Generierung von Imputed Rent in EU-SILC wird dieser fiktive Einkommensvorteil nun auch für Personen in Mieterhaushalten generiert, die angeben, keine marktgerechte Miete für ihren Wohnraum zu entrichten. Dies sind Personen in mietfreiem Wohnraum, Mieter in Wohnungen des sozialen Wohnungsbaus und Mieter mit verbilligt überlassenem Wohnraum (z.B. vom Arbeitgeber verbilligt überlassene Werkswohnung, von Verwandten oder sonstigen Dritten verbilligt überlassener Wohnraum).

W11101$$ und W11102$$
Aufgrund der Umstellung der Hochrechnungsfaktoren in den Files PHRF und HHRF beinhaltet die Variable W11101$$ nun den Personenhochrechnungsfaktor $PHRF1 (aus dem File PHRF) und die Variable W11102$$ den Haushaltshochrechnungsfaktor $HHRF1 (aus dem File HHRF). Befragte des SOEP weisen in ihrer ersten Befragungswelle einen signifikant höheren Anteil von Item-non-Response auf, der mittels Imputation nicht adäquat korrigiert werden kann. Daher vernachlässigen diese beiden Gewichte jeweils die erste Welle eines jeden neuen Subsamples des SOEP. Des Weiteren wird das Subsample G (Hocheinkommensbezieher) aus dem Gewichtungsschema ausgeschlossen, um Strukturbrüche in der Analyse von Einkommen im Vergleich zu Ergebnissen ohne Subsample G zu vermeiden. Diese beiden Gewichtungsvariablen sind daher besonders geeignet, eine konsistente Analyse einer Zeitreihe von Einkommen oder deren Verteilung zu unterstützen.

W11105$$
Die Variable W11105$$ beinhaltet nun den Personenhochrechnungsfaktor $PHRFALL (aus dem File PHRF). Diese Gewichtungsvariable berücksichtigt alle Subsamples des SOEP.

E11105$$
Der Inhalt der Variable E11105$$ besteht nun aus der Berufsklassifizierung nach dem internationalen Standard "ISCO88".

E11106$$ und E111076$$
Die Variablen E11106$$ und E11107$$ geben nun die Branchenzugehörigkeit in Form eines 1 bzw. 2-Stellers im internationalen Standard "NACE" wieder.

Daten 1984-2005 (Welle V)

Mit der Datenweitergabe 2006 (Daten 1984-2005) werden für das Beobachtungsjahr 2005 die üblichen wellenspezifischen Dateien VPBRUTTO, VP, VPKAL, VPGEN, VHBRUTTO, VH, VHGEN, VKIND und UPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.

Die erste CD-ROM enthält wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels.

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Neue und umbenannte Datensätze 2005

Mit der aktuellen Datenweitergabe werden SOEP-Dateien, die auf den altersspezifischen Biographiefragebögen (z.B. Mutter-und-Kind) basieren, in konsistenter Weise benannt. Alle Dateien sind im "long"-Format gespeichert, die Datei-Namen setzen sich zusammen aus dem Term BIOAGE und einem zweistelligen Suffix, der das maximale Alter der betroffenen Individuen angibt:

BIOAGE01:
Neuer Name des bisherigen Datensatzes BIOCHILD (Basis: Fragebogen für Mütter mit Neugeborenen im Alter von 0 bis 15 Monaten).

BIOAGE03:
Neuer Datensatz (Basis: Mutter-Kind Fragebogen für Mütter mit 2-3 jährigen Kindern; siehe Biographie Dokumentation).

BIOAGE17:
Neuer Name des bisherigen Datensatzes BIOYOUTH (Basis: Fragebogen für 16-17 jährige Jugendliche).

Hochrechnung 2005

Hochrechnung des Querschnitts für 2005 nur vorläufig - Update von VPHRF und VHHRF voraussichtlich im Herbst 2006

Die wellenspezifischen Hochrechnungs- und Gewichtungsfaktoren des SOEP werden jährlich an die jeweiligen Daten des Mikrozensus (MZ) angepasst, so dass die SOEP-spezifische Verteilung nach Region, Alter, Geschlecht, Haushaltsgröße und Nationalität derjenigen des MZ entspricht. Ab dem Jahr 2005 werden Angaben für das Land Berlin nicht mehr nach West und Ost getrennt ausgewiesen, sondern insgesamt den neuen Ländern zugeordnet. Diese Umstellung innerhalb der amtlichen Statistik führt leider auch dazu, dass die für die Querschnittshochrechnung der SOEP Daten 2005 (Welle 22) relevanten Informationen (Reihe "Haushalte und Familien", Hrsg. Statistischen Bundesamt) erst im Herbst 2006 zur Verfügung stehen werden.

Um eine entsprechende Verzögerung der Weitergabe der SOEP-Daten bis Welle V (2005) zu vermeiden, basieren die Hochrechnungsfaktoren VPHRF* und VHHRF* der auf CD verfügbaren SOEP-Daten auf dem in Welle U (2004) verwendeten Rahmen.

Erfahrungsgemäß wird die Abweichung dieser Eckdaten (mit Ausnahme der neuen Abgrenzung Berlins) nur gering sein. Wir bitten Sie in Ihren Analysen auf die Vorläufigkeit des Hochrechnungsrahmens zu achten und in Veröffentlichungen ggf. darauf hinzuweisen.

Wir werden Sie umgehend (via SOEP NEWSLETTER) informieren, wenn Sie die aktualisierten Hochrechnungsfaktoren auf Basis des 2005er MZ bei uns abrufen können.

Neue und überarbeitete Variablen

1. HGEN 2005

AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).

2. PGEN 2005

AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).

ALLBET$$ (neu)
Grobkategorie der Unternehmensgröße. Eine über alle Wellen konsistente Variable für die Unternehmensgröße (kleinster gemeinsamer Nenner der Variable BETR$$).

Kategorien:

  1. 'unter 20'
  2. '20 bis unter 200'
  3. '200 bis unter 2000'
  4. '2000 und mehr'
  5. 'Selbständig - ohne Mitarbeiter'

BETR$$ (geändert)
Die Variable BETR$$ hat nun 11 anstatt wie bisher 9 Kategorien. Der Grund dafür ist, dass die Unternehmensgröße ab Welle V detaillierter abgefragt wird: Die bisherige Kategorie '5 bis unter 20 Mitarbeiter' wurde in die zwei Kategorien '5 bis 10 Mitarbeiter' und '11 bis unter 20 Mitarbeiter' unterteilt.

Die neuen Kategorien sind:

  1. 'unter 5'
  2. '5 bis 10'
  3. '11 bis unter 20'
  4. 'bis 1990: unter 20'
  5. '1991-2004: 5 bis unter 20'
  6. '20 bis unter 100'
  7. '100 bis unter 200'
  8. 'bis 1998: 20 bis unter 200'
  9. '200 bis unter 2000'
  10. '2000 und mehr'
  11. 'Selbständig - ohne Mitarbeiter'

Hinweis: Mit der neuen Variable ALLBET$$ im Datensatz $PGEN steht zusätzlich eine gröbere Kategorisierung der Unternehmensgröße zur Verfügung, die über alle Wellen konsistent kodiert ist (kleinster gemeinsamer Nenner der Variable BETR$$).

EMPLST$$(neu)
Employment Status. Eine über alle Wellen konsistente Variable zur Differenzierung des Erwerbsumfangs (in Ergänzung zur Variablen LFS$$, die Nicht-Erwerbstätige differenziert).

Kategorien:

  1. 'Voll erwerbstätig'
  2. 'Teilzeitbeschäftigung'
  3. 'Ausbildung, Lehre'
  4. 'Unregelmässig, geringfügig erwerbstätig'
  5. 'Nicht erwerbstätig'

EXPFT$$(neu)
Arbeitsmarkterfahrung Vollzeit. Erfassung der gesamten Vollzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

EXPPT$$ (neu)
Arbeitsmarkterfahrung Teilzeit. Erfassung der gesamten Teilzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

EXPUE$$(neu)
Arbeitsmarkterfahrung Arbeitslos. Erfassung der gesamten Arbeitslosigkeitsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

Ansprechpartnerin für die o.g. Variablen: Silke Anger

3. $PEQUIV 2005

SSOLD$$
Social assistance for elderly (Grundsicherung im Alter).

FSSOLD$$
Imputation flag: Social assistance for elderly.

LOSSR$$
Losses from renting and leasing.

FLOSSR$$
Imputation flag: Losses from renting and leasing.

LOSSC$$
Losses from capital investment.

FLOSSC$$
Imputation flag: Losses from capital investment.

D11112LL
Race of individual.

D11110$$ gelöscht
Information bereits in der Variable M11124$$ enthalten.

D11111$$ gelöscht
Information bereits in der Variable M11125$$ enthalten.

Ansprechpartner: Markus Grabka

Fehlerupdate 2005

Berichtigung von [T-U]HPOP in HPFAD
Berichtigung der individuellen und haushaltsbezogenen Hochrechnungsfaktoren von 2003 bzw. 2004 (THHRF bzw. UPHRF und UHHRF).

Daten 1984-2004 (Welle U)

Mit der Datenweitergabe 2005 (Daten 1984-2004) werden für das Beobachtungsjahr 2004 die üblichen wellenspezifischen Dateien UPBRUTTO, UP, UPKAL, UPGEN, UHBRUTTO, UH, UHGEN, UKIND und TPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die Daten der ersten CD-ROM enthalten wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die Daten CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Neue und überarbeitete Variablen

1. PPFAD 2004

LOC1989
Die zentralen demographischen Informationen in PPFAD wurden um den Wohnort im Jahr 1989 erweitert (Wo lebte eine Person zur Zeit des Mauerfalls? Variable LOC1989). Unterschieden werden die Kategorien "Ostdeutschland", "Westdeutschland" und "Ausland". Die Information ist für alle Befragten und Kinder vorhanden (siehe weitere Dokumentation in der Dokumentation der Biographiedaten).
Ansprechpartner: Joachim R. Frick

2. PGEN 2004

LABGRO$$ und LABNET$$
Es wurden neue Variablen für alle Wellen (A-U) generiert, die den monatlichen Brutto- und Nettoarbeitslohn (LABGRO$$ und LABNET$$) beinhalten - durchgehend in EURO. Fehlende Werte auf Grund von Item-Nonresponse wurden imputiert und können mit Hilfe der zugehörigen Zeiger-Variablen IMPGRO$$ und IMPNET$$ identifiziert werden (weitere Informationen (PDF, 232.61 KB)).
Ansprechpartner: Markus M. Grabka

3. HGEN 2004

HINC$$
$HGEN beinhaltet nun auch das direkt erfragte monatliche Netto-Haushaltseinkommen (HINC$$) - durchgehend in EURO für alle Wellen (A-U).
Ansprechpartner:Jan Goebel oder Peter Krause.

AHINC$$
Eine weitere Variable wurde für die Wellen L-U (1995-2004) generiert, ebenfalls mit der Information zum monatlichen Netto-Haushaltseinkommen (in EURO), allerdings korrigiert für eine mögliche Unterschätzung durch die Auskunft gebende Person (AHINC$$). Eine derartige Unterschätzung wurde mit Hilfe der aktuellen persönlichen Einkünfte aller Personen im Haushalt korrigiert (weitere Informationen (PDF, 61.43 KB)).
Ansprechpartner: Jan Goebel oder Peter Krause

4. $PEQUIV bzw. SOEP-CNEF 2004

M11101$$-M11127$$

Die $PEQUIV-Dateien der Wellen A-U beinhalten nun auch international harmonisierte Variablen zur Gesundheit (M11101$$-M11127$$). Weitere Informationen gibt es im Codebook for the $PEQUIV File 1984 – 2004 (PDF, 0.55 MB).
Ansprechpartner: Markus Grabka

Daten 1984-2003 (Welle T)

Mit der Datenweitergabe 2004 (Daten 1984-2003) werden für das Beobachtungsjahr 2003 die üblichen wellenspezifischen Dateien TPBRUTTO, TP, TPKAL, TPGEN, THBRUTTO, TH, THGEN, TKIND und SPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten und Hochrechnungsfaktoren) weitergegeben.
Die in 2003 erstmals erhobenen Biographie-Informationen für Sample G ("Hocheinkommens-Stichprobe") wurden vollständig in die nutzungsfreundlichen Biographie-Datensätze integriert.
Die Daten-CD-Rom #2 enthält mit diesem Release erstmals auch alle SOEP-Daten mit englischsprachigen Variablennamen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV). 

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen

Hochrechung und Gewichtung 2003

Sample G "High Income Sample" (Start 2002)

Die Revision des sampling designs (Erhöhung der Einkommensschwelle) führt zu geringeren Fallzahlen in Welle 2.
Ansprechpartner: Jürgen Schupp

Neue und umbenannte Datensätze 2003

Es gibt jetzt weitere Dateien:
1) BIOCHILD Informationen aus dem Mutter-Kind-Fragebogen:
In diesem neuen File werden künftig jährlich Informationen über die im SOEP Neugeborenen abgelegt (siehe weitere Dokumentation in Biographiedaten). Ansprechpartner: Jürgen Schupp

2) BIORESID Informationen zum Zweitwohnsitz bei der Erstbefragung:
Im Datensatz BIORESID sind Angaben zur Wohndauer und zum Zweitwohnsitz abgelegt. Die Informationen stammen aus dem Biographie-Fragebogen, der seit 1994 konsistente Fragen hierzu enthält (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Thorsten Schneider

3) BIOBRTHM Geburtsbiographie für Männer - ab 2001:
Dieser neue Datensatz enthält geburtsbiographische Angaben für Männer, die seit 2001 mit dem diesbezüglich modifizierten Biographie-Fragebogen befragt werden. BIOBRTHM ist analog zu BIOBIRTH für Frauen aufgebaut (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt

4) BIOTWIN Datei zur Identifikation von "Mehrlingen":
BIOTWIN umfasst die Population aller im SOEP identifizierbaren Mehrlingsgeburten. Gespeichert sind die Identifikatoren (PERSNR) zu Mutter und Geschwistern (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp und Christian Schmitt

5) HBRUTT98:
Dieses neue File unterstützt Ausfall-Analysen für die Startwelle von Sample E, in dem die komplette Brutto-Population dieser Teilstichprobe zur Verfügung gestellt wird.
Ansprechpartner: Peter Krause

Neue und überarbeitete Variablen

1. BIOPAREN 2003

Variablen zur Nationalität der Eltern wurden korrigiert (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp

2. PGEN 2003

MODE$$ und MONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (MODE$$ bzw. MONTH$$, siehe auch zusätzliche Dokumentation (PDF, 0.66 MB)).
Ansprechpartner: Jürgen Schupp

$PSBIL
Die Variable $PSBIL wurde aktualisiert. Bei Ausländern musste für das Jahr 2000 die Kategorie "Ohne Abschluss verlassen" [Code 6] aktualisiert werden; hieraus ergab sich Aktualisierungsbedarf bei $BILZEIT, ISCED$$ und CASMIN$$.
AnsprechpartnerIn: Bettina Isengard und Peter Krause

$FAMSTD
Die Variable wurde aktualisiert.

3. HGEN 2003

HMODE$$ und HMONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (HMODE$$ bzw. HMONTH$$, siehe auch zusätzliche Dokumentation (PDF, 0.64 MB)).
Ansprechpartner: Jürgen Schupp

4. PPFAD 2003

GEBMONAT
Die zentralen demographischen Informationen in PPFAD wurden um den Geburtsmonat (Variable GEBMONAT) ergänzt. Diese Angabe wurde inzwischen von allen noch in der Stichprobe enthaltenen Befragungspersonen und Kindern erhoben (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt

Die Variablen EINTRITT, ERSTBEFR, AUSTRITT, LETZTBEF wurden aktualisiert. Zum Update siehe Dokumentation (PDF, 0.53 MB).
Ansprechpartner: Peter Krause

5. BIOBIRTH 2003

Die geburtsbiographischen Informationen für Frauen wurden ergänzt um Angaben aus dem Jugend-Fragebogen, den inzwischen 16-17jährige Erstbefragungspersonen anstelle des Standard-Biographiefragebogens erhalten (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt

6. BIOIMMIG 2003

Diese Daten wurden wegen einer fehlerhaften Vercodung in den zurückliegenden Jahren infolge einer Vertauschung der Itemreihenfolge korrigiert. Dies betrifft die Variablen BIEXPRLV, BIEXPRAC und BIEXPRAN (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jan Goebel

7. PFLEGE 2003

Für die Jahre ab 1999, also für die Wellen P bis T, gibt es eine neue Variable PNRCARE. PNRCARE ist eine unveränderliche Personennummer und bezeichnet die Person im Haushalt, die vornehmlich die Pflege übernimmt. In drei Fällen waren pflegende und zu pflegende Personen identisch. In diesen Fällen wurde PNRCARE auf -3 gesetzt (unplausibler Wert). Für die Wellen vor 1999 hat PNRCARE den Wert -2.

8. YPBRUTTO 2003

Überarbeitung von HHNRAKT und HHNROLD bei doppelt geführten Personen im alten Haushalt.
Ansprechpartner: Peter Krause

9. $PEQUIV bzw. SOEP-CNEF 2003

Alle Einkommensangaben seit 1984 sind in EURO vercodet.

In Ergänzung zu den bisher zur Verfügung gestellten jährlichen Einkommensaggregaten (Summe aller Einkommen die von allen HHMitgliedern bezogen wurden, Variablen I111xx$$) sind nun auch die individuellen Einkommensbestandteile mit wellenübergreifend konsistenten Variablennamen verfügbar.

Alle aufgrund von item-non-response fehlenden Angaben bei Einkommensvariablen wurden imputiert und sind mit Hilfe entsprechender Flag-Variablen identifizierbar.

Alle Einkommensvariablen sind auch für Sample G enthalten, jedoch wurden die Standard-Hochrechnungfaktoren auf Basis der Teilstichproben A-F verwendet.
Siehe auch die Dokumentation (PDF, 41.18 KB).
Ansprechpartner: Markus Grabka

Daten 1984-2002 (Welle S)

Neue und umbenannte Datensätze 2002

HBRUTT02
In Ergänzung zu den laufenden, wellenspezifischen Bruttoinformationen zum Feldverlauf (SPBRUTTO, SHBRUTTO) werden für die neue Stichprobe G in der Datei HBRUTT02 auch die Haushalte geführt, die nicht realisiert wurden. HBRUTT02 enthält daher alle Ziehungshaushalte der Stichprobe G; die realisierten Haushalte der Stichprobe G sind auch in dem laufenden Haushaltsbrutto SHBRUTTO enthalten. Dies entspricht derselben Vorgehensweise wie für die Samples A (HBRUTT84), E (HBRUTT98) und F (HBRUTT00).

BIOSOC
Der neue Datensatz BIOSOC enthält für alle Personen, die seit dem Jahr 2000 den Biographie-Fragebogen ausfüllen, Informationen zur Jugend wie z.B. Streit mit den Eltern, Freizeitaktivitäten, Schulnoten, Bundesland des letzten Schulbesuchs.
Nähere Informationen in der Biographiedokumentation.

Neue und überarbeitete Variablen

1. BIOJOB 2002

Der Datensatz BIOJOB enthält ausführliche Angaben zum Einstiegsberuf. Neu ist, das hierfür nun auch ISCO88-Angaben, Berufsskalen und Klassenschemata (ISEI, SIOPS, EGP, MPS) sowie Angaben zur Branche (NACE) vorliegen. Neuerdings werden auch Angaben zum letzten Job erhoben und in BIOJOB abgelegt.
Nähere Informationen in der Biographiedokumentation.

2. BIOPAREN 2002

Der Ansprechpartner für den Update des Prestige-Scores der Eltern ist Jürgen Schupp.

3. PGEN 2002

AUTONO$$
Diese neue Variable basiert auf den Angaben zur ‚Stellung im Beruf' und stellt den Autonomiegrad im Beruf dar.
Ansprechpartner: Jürgen Schupp

STIB$$
Die Variable vereinheitlicht die Angaben zur 'Stellung im Beruf' über alle Wellen.
Ansprechpartner: Jürgen Schupp

ISCED$$, CASMIN$$
Die wellenspezifischen Dateien $PGEN wurden - rückwirkend ab 1984 - um zwei weitere Bildungsvariablen ($ISCED und $CASMIN) ergänzt, die auf den internationalen Klassifikationsschemata ISCED (International Standard Classification of Education) bzw. CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) basieren und somit zur besseren Vergleichbarkeit bildungsbezogener Analysen auf Basis von SOEP-Daten beitragen.
Ansprechpartnerin: Bettina Isengard

4. $EQUIV 2002

Gegenüber der letzten Datenweitergabe haben sich grundlegende Veränderungen im Umgang mit Item-Nonresponse bei jahresbezogenen Einkommensvariablen und den aggregierten Einkommensangaben der $PEQUIV-Files ergeben. Das bewährte längsschnittbasierte Verfahren zur Imputation von Item-Nonresponse wurde um eine rein querschnittsbasierte Imputation aller Einkommensvariablen erweitert, die jedoch nur für solche Beobachtungen zum Einsatz kommt, für die keine individuellen Längsschnittinformationen vorliegen. Daraus resultiert nun eine vollständige Ersetzung aller fehlenden Einkommensangaben in den $PEQUIV-Files (für nähere Hinweise zum methodischen Vorgehen der zusätzlichen Imputation vgl. Frick, J.R. and Grabka, M. (2003): Missing Income Data in the GSOEP: Incidence, Imputation and it's Impact on the Income Distribution (PDF, 1.01 MB).

In diesem Zusammenhang wurden auch die sogenannten Imputationsflags überarbeitet. Diese geben nun den Anteil des imputierten Einkommens am jeweiligen Einkommensaggregat wieder, d.h. bei Vorliegen vollständiger Information ist der Wert 0 und bei Auftreten von Item-Nonresponse kann der Imputationsflag einen Wert bis zu 100 annehmen.

Darüber hinaus stehen nun auch für das neue Sample F vollständige Einkommensinformationen für die Jahre 2000 bis 2002 zur Verfügung.

Die Daten des CNEF stehen derzeit noch nicht für die erste Welle von Sample G zur Verfügung, da die beim SOEP angewandten methodisch anspruchsvollen Imputationsalgorithmen Längsschnittdaten erfordern.
Ansprechpartner: Markus Grabka

Hinweis zur DM - EURO Umstellung 2002

Die Einkommen in PEQUIV beziehen sich immer auf das Vorjahr; insofern sind die in 2002 erhobenen Daten für das Einkommensjahr 2001 noch in DM erhoben. Mit der nächsten Datenweitergabe wird es eine Umstellung aller PEQUIV-Informationen auf EURO geben. Ansonsten gilt das Prinzip, dass alle Angaben in den $P-Files der im Originalfragebogen erhobenen Information entsprechen, d.h. die im Jahre 2002 bereits in EURO erhobenen Einkommen bzw. für das Vorjahr 2001 noch in DM erhobenen Angaben sind entsprechend der in der jeweiligen Frageformulierung verwendeten Währung abgelegt.
Ansprechpartner: Peter Krause

Daten 1984-2001 (Welle R)

Hochrechnung und Gewichtung 2001

Die Querschnittsgewichtung ist für alle Wellen (1984-2001) überarbeitet worden. Die konzeptionellen Änderungen sind:
a) Für die Stichprobe F sind detailliertere Designgewichte als bisher zu Grunde gelegt worden.
b) Die Randanpassung an die Altersstruktur ist verfeinert worden.
c) Hochrechnungsfaktoren, die höher als das 10-fache ihres stichprobenspezifischen Medians betrugen, wurden gekappt.

Eine ausführliche Beschreibung finden Sie im Newsletter 60, April 2003.

Mehr Informationen zur Querschnittshochrechnung und der Integration neuer Stichproben finden Sie in unseren Dokumentationen oder auf der aktuellen CD (CD2) im Verzeichnis "\DOCS\HRF".

Neue Datensätze 2001

Es gibt jetzt weitere Dateien:

1) HBRUTT84
Dieses File enthält Brutto-Informationen für alle ausgewählten Haushalte der 1. Welle und schließt somit auch solche Haushalte ein, die nicht zu einem Interview bereit waren. Auf dieser Datengrundlage sind eigenständige Ausfallanalysen für die erste Welle 1984 möglich.
Ansprechpartner: Peter Krause

2) BIOYOUTH
Die Daten der Erhebung mit dem Jugendfragebogen (Pretest 2000 und Erhebung 2001) sind in diesem File abgelegt. Nähere Informationen finden Sie in der Biographiedokumentation.
Ansprechpartner: Thorsten Schneider

Neue und überarbeitete Variablen

1. BIOMARSY und BIOMARSM 2001

Die Ehestandsbiographien BIOMARSY und BIOMARSM sowie die generierten Familienstände $FAMSTD sind vollständig neu überarbeitet worden. Diese Datensätze sind jetzt zu 100% konsistent. Dies hat allerdings zur Konsequenz, dass sich Familienstandsangaben aus den Personenfragebogen nicht immer mit den generierten Daten decken.
Nähere Informationen in der Biographiedokumentation.

2. PPFAD 2001

Die neue Variable $POP gibt für jede Person an, ob sie in einem Privat- oder Anstaltshaushalt lebt und welche Nationalität ihr Haushaltsvorstand hat. Sie ist eine der Schlüsselvariablen für die Querschnittshochrechnung.

3. YBRUTTO 2001

Die Ergebnisse der Verbleibstudie 2001/02 (Panelausfälle der Jahre 1985 bis 1998 (PDF, 0.78 MB)) sind in YBRUTTO eingearbeitet. Bei mehr als 8 000 Bearbeitungsfällen liegen neue Auskünfte vor, die entweder das Sterbejahr oder das Jahr des Wegzugs ins Ausland oder den aktuellen Wohnort der Person beinhalten. Nähere Informationen finden Sie hier.

4. BIOPAREN 2001

Das aktuelle File enthält neu die Ergebnisse der Biographienacherhebung für die F-Stichprobe des Jahres 2001.

Weiterhin wurde nach den Ergebnissen der Verbleibstudie der Aufenthaltsort der Eltern im Jahr 2001 für alle aktuell befragten Personen dem Datensatz hinzugefügt als neue Variablen VAORT01 (Aufenthaltsort des Vaters 2001 - Befragungsschwerpunkt Familie) und MAORT01 (Aufenthaltsort der Mutter 2001 - Befragungsschwerpunkt Familie).

Die Neuvercodung der Berufsangaben des Vaters/der Mutter konnte noch nicht zum Abschluss gebracht werden. Diese Informationen können jedoch bis Sommer 2003 als Sonderlieferung direkt abgerufen werden (Anfragen bei Jürgen Schupp). Nähere Informationen in der Biographiedokumentation.

5. $PEQUIV-FILES 2001

Auch für die $PEQUIV-FILES wurden einige Änderungen durchgeführt. Ausführliche Informationen hierzu finden Sie in den englischsprachigen FAQ.

6. PGEN 2001

Betr$$
Bitte achten Sie bei der aktualisierten Version dieser Variable auf die Sondercodes 3 und 6! Diese Codes wurde aufgrund der seit 1992 sowie 1999 im Vergleich zu den jeweiligen Vorjahren differenzierteren Erfassung der Itemvorgabe im Bereich kleiner sowie mittlerer Unternehmen notwendig.

KLAS$$ Klassifikation der Berufe des Stat. Bundesamtes
Ziel der Variable ist die Bereitstellung der jährlich für alle Erwerbstätigen erfragten Informationen zur beruflichen Tätigkeit. Da diese Frage nicht jährlich an alle Erwerbstätigen sondern 1985, 1986, 1987, 1988, 1990(West), 1992(West), 1994, 1996 und 1999 sowie 2001 nur an Erwerbstätige mit beruflichem Wechsel geht, wird in IS88$$ für alle Personen ohne beruflichen Wechsel auch die verfügbare Vorjahresinformation bereitgestellt.

Im Fragebogen werden jeweils die Klartextangaben der Befragten eingetragen. Diese aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellte Information wurde im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 (PDF, 121.87 KB).

IS88$$
Sämtliche Klartextangaben der Befragten wurden im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 (PDF, 121.87 KB).

Die Datenlieferung SOEP 1984-2001 ersetzt bzgl. ISCO88-Vercodung deshalb ALLE früheren Datenlieferungen.
International Labour Office (ILO) (1990): ISCO-88; International Standard Classificaton of Occupation, Genf.

Nace$$
Um die internationale Vergleichbarkeit zu erleichtern, wurde das im SOEP angewandte Verfahren der Klartext-Codierung um die Generierung der Wirtschaftszweigklassifikation der Europäischen Union erweitert (Nomenclature des statistiques des Activités économiques de la Communauté Européenne). Die NACE Rev.1-Version korrespondiert zudem ISIC Rev. 3 Code (International Standard Classification of All Economic Activities). Mit der Datenlieferung 2001 erfolgte eine komplette Nachvercodung der früheren im SOEP bereitgestellten Branchencodes nach NACE. Bitte beachten, dass die Sondercodes 96-98 sowie 100 von Infratest für die Fälle erfolgte, in denen keine detailliertere Klartextangabe vorlag.

$PSBIL und $_PBBIL01,02,03
Generiert werden für alle Befragungspersonen in integrierter Form der Schulabschluss (_PSBIL) und der berufliche Abschluss (_PBBIL01,02,03). Ostspezifische und ausländerspezifische Abschlüsse werden zudem separat dokumentiert (Ab 2000 wird kein beruflicher Bildungsabschluss Ost mehr ausgewiesen).

Gegenüber der Lieferung der Daten für das Erhebungsjahr 2000 haben sich folgende Änderungen ergeben:

  • Rückwirkend werden von 1990 bis 1999 die ostspezifischen Abschlüsse "Ingenieur-, Fachschule" wieder der Kategorie "Fachschule" (statt: "Fachhochschule, Ingenieurschule") zugeordnet.
  • Ab 2000 werden nur noch Variablen auf der Grundlage der im Personenfragebogen neu erhobenen Informationen weitergeführt - diese wurden im Jahr 2000 noch unter dem Namen _EDU_ geführt (der Name EDU wird nicht mehr verwendet).


Gelöschte Variablen früherer Wellen in der Datenlieferung 2001

ISCOU$$, ISCO$$, ISCOH$$
Diese Variablen auf Basis des ISCO68 werden seit 2000 nicht mehr zur Verfügung gestellt. Stattdessen erfolgte eine Neuvercodung aller zurückliegenden Klartextangaben auf Basis des ISCO88-Verfahrens (s. neue Variable IS88$$); dieser hierarchisch aufgebaute Berufsschlüssel ersetzt die frühere Unterscheidung in 1-Steller, 2-Steller sowie 3-Steller bei der Berufsvercodung.
Die bis 2000 generierten Codes dieser Variablen können auf Nachfrage von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.

BRANCH$$
Diese Variable stellt das Ergebnis der Klartext-Vercodung der Wirtschaftszweige dar. Diese - aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellten - Texte wurden im Anschluss an die Befragung vom Zentrum für Umfragen und Analysen (ZUMA), Mannheim gemäß einer vom DIW erweiterten Branchenliste vercodet. Diese Liste basiert auf der sog. ZUMA-Standarddemographie-Liste, die bis Code 23 vollständig vergleichbar ist. Da die Klassifikation auf Basis von NACE internationale Vergleiche ermöglicht (s. neue Variable NACE$$), wurde auf die Vercodung auf Basis des früheren Branchenschemas verzichtet.

Die bis 2000 generierten Codes dieser Variable können auf Nachfrage (Ansprechpartner: Peter Krause) von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.

Daten 1984-2000 (Welle Q)

Neue Datensätze 2000

1. VARIANZ
Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1, STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen (z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR) gespeichert.
STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B "künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und unter der Bezeichnung STRAT2 abgelegt.
Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe A Stimmbezirke; in Teilstichprobe D nicht vorhanden).
Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine Identifikation regionaler Einheiten unmöglich zu machen.
Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in befragt wurden, identifizierbar sind.

2. HBRUTT00
Dieses File enthält - wie schon bei der Erhebung der Ergänzungsstichprobe 1998 (Sample E) - alle Bruttoinformationen der durch Random-Route-Verfahren neu gezogenen Haushalte der Ergänzungsstichprobe des Jahres 2000 (Sample F). Dabei spielt es keine Rolle, ob diese Haushalte erfolgreich befragt wurden oder nicht. Derartige Informationen können u.a. für methodische Untersuchungen über die Beteiligung von Haushalten an (SOEP-) Befragungen herangezogen werden.

3. QJUGEND
Im Jahr 2000 erfolgte erstmals anstelle des Biographiefragebogens die Erhebung eines Jugendfragebogens. Dieser richtet sich an alle "neuen" Personen, die aufgrund des erreichten Befragungsalters "16. Lebensjahr" erstmals an der SOEP-Befragung teilnehmen. Die nunmehr vorliegenden 232 Datensätze von Jugendlichen ergänzen die Informationen aus dem ebenfalls erstmals beantworteten Personenfragebogen, um retrospektive Angaben zum Bildungsverlauf sowie von Basisindikatoren zum Bildungserfolg zu erhalten. Da im Jahr 2001 eine gründliche Revision sowie Erweiterung der Indikatoren des Jugendfragebogens erfolgte und auch die Jugendlichen der neuen Stichprobe F erstmals im Jahr 2001 diesen neuen Fragebogen beantwortet haben, stellt der Datensatz QJUGEND sozusagen eine Art Pretest eines ab 2001 neuen zusätzlich im Rahmen der Datenweitergabe bereitgestellten Biographiedatensatzes BIOYOUTH dar.

Überarbeitung der Labels 2000

Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet. Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur einer Antwortkategorie). Ferner wurden auch die Labels semantisch im zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen.

Neue und überarbeitete Variablen

1. $PGEN 2000

Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr 2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet, fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten Sie dies bei Programmaktualisierungen zu berücksichtigen.
Ansprechpartner: Jürgen Schupp und Peter Krause

2. $PEQUIV-Files 2000

Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:

  • die Erweiterung der Population,
  • die Überarbeitung der Variable IMPUTED RENT (Einkommensvorteil aus selbstgenutztem Wohneigentum),
  • neue Variablen zur Generierung von Äquivalenzskalen
  • eine Überarbeitung der Variablen zu ANNUAL WORKING HOURS.

Daten 1984-1999 (Welle P)

Neuer Datensatz 1999

INTERVIEW
Bei dieser Datenweitergabe wurde erstmals ein Interviewerdatensatz mitgeliefert. Er enthält Informationen über Geschlecht, Alter, Bildung, Beruf und Familienstand von 1048 Interviewern, die die Befragungen der Stichproben A, B, C und D in den Wellen 1 bis 12 durchgeführt haben (Dokumentation (PDF, 75.75 KB)).

Daten 1984-1998 (Welle O)

Hochrechnung und Gewichtung 1998

Die Hochrechnung der SOEP-Daten wurde für die jüngste Datenauslieferung zweifach verbessert: Zum einen bieten wir jetzt reine »Designgewichte« an, in die die designbedingten Ziehungswahrscheinlichkeiten der (jeweiligen) ersten Welle eingehen. Diese Gewichte sollen nutzungsdefinierte (ökonometrische) Modellierungen des Ausfallprozesses im SOEP unterstützen. Die Dokumentation der Designgewichte befindet sich auf der CD-ROM; sie ist außerdem als DIW-Diskussionspapier (PDF, 223.29 KB) oder auch als Hardcopy bei unserer Dokumentationsstelle erhältlich.

Zum zweiten wurde die - insbesondere in deskriptiven Analysen häufig benutzte - Querschnittshochrechnung des SOEP überarbeitet. Intention ist es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die zentrale Randverteilungen des Mikrozensus wiedergeben. Aufbauend auf der unveränderten Längsschnittsgewichtung wurden die Querschnitts-Hochrechnungsfaktoren an nachfolgend aufgeführte Randverteilungen des Mikrozensus angepaßt (diese wurden auch zur Hochrechnung der ersten Welle der Stichprobe E genutzt).

Die Anpassung wurde getrennt nach alten und neuen Ländern für die Jahre 1990 bis 1998 durchgeführt. Stichprobe E wurde bei der Hochrechnung wie die Altstichproben behandelt.

Bei den Haushalten wurde die wohnberechtigte Bevölkerung in Privathaushalten auf Basis des Mikrozensus zugrunde gelegt. Die Anpassung erfolgte an die Haushaltsgröße (1-,2-,3-,4-Personen und Haushalte mit 5 und mehr Personen), Altersklassen (15 bis 69 Jahre, 70 Jahre und älter), Geschlecht (männlich) und Nationalität (nicht-deutsch).

Bei den Personen bildete die Bevölkerung in Privathaushalten am Hauptwohnsitz die Basis.

Die Gewichte für Anstaltshaushalte und Personen in Anstaltshaushalten blieben unverändert.

Die Randanpassungen auf Haushaltsebene wurden mit der DOS-Version des Programms ADJUST von Joachim Merz (Universität Lüneburg) vorgenommen.

Die für ADJUST erforderlichen Startgewichte berücksichtigten die Struktur der alten Hochrechnungsfaktoren, die geschätzten Bleibewahrscheinlichkeiten sowie Sonderfälle, die durch temporäre Ausfälle und Gründung von Neu-Haushalten auftraten.

Die alten Hochrechnungsfaktoren werden natürlich nicht gelöscht, sondern weiterhin für Vergleichszwecke in den Files PHRFOLD und HHRFOLD ausgeliefert.

Die auf den CD-ROMs mit ausgelieferte Version des »Equivalent Files« enthält bereits die neuen Hochrechnungsfaktoren (sowie einige geringfügige Verbesserungen der Einkommensvariablen), während die US-Version noch auf den alten Hochrechnungsfaktoren basiert.

Die Dokumentation der neuen Querschnittshochrechnung befindet sich auf der CD-ROM, und wird als Bestandteil des Desktop-Companions im Internet zu finden sein.

Die Ergänzungsstichprobe E ist nun voll in den SOEP-Datenbestand integriert. Das bedeutet auch eine gemeinsame Querschnittshochrechnung der Altstichproben A-D und der Stichprobe E. Zu diesem Zweck wurde eine »konvexe Gewichtung« gewählt, deren Dokumentation ebenfalls auf der CD-ROM zu finden und als DIW-Diskussionspapier (PDF, 214.5 KB) auf unserer Homepage bzw. als Hardcopy direkt bei der Projektgruppe abrufbar ist.

Die Konvexgewichte wurden so gewählt, daß die Varianz verschiedener Schätzer möglichst klein wird. Mit der angebotenen Lösung erhält die Stichprobe E ein gegenüber ihrer Fallzahl überproportionales Gewicht. Dies ist der Tatsache geschuldet, daß sich die Varianz der Schätzer in den Altstichproben A-D u.a. aufgrund der Panel-Attrition im Laufe der Zeit vergrößert hat.

Die ursprünglichen Hochrechnungsfaktoren (nach der neuen Randanpassung) werden (ab 1998) mit dem Faktor 0,8 multipliziert, die Hochrechnungsfaktoren der Stichprobe E werden mit dem Komplementärfaktor 0,2 gewichtet. Für getrennte Analysen ist die Umgewichtung der Altstichproben sowie die der Stichprobe E somit leicht rückgängig zu machen.

Die speziellen Hochrechnungsfaktoren OHHRFD und OPHRFD für Stichprobe D blieben unverändert.

Daten 1984-1997 (Welle N)

Neue Datensätze

SOZKALEN
Die neu generierte Datei enthält Sozialhilfespells (Laufende Hilfe zum Lebensunterhalt, Hilfe in besonderen Lebenslagen) von Haushalten auf Monatsbasis beginnend mit Januar 1991 (Erhebungsjahr 1992).

RBEINK
ist eine Zusammenfassung der von Roland Berntsen für Westdeutschland generierten Einkommensangaben der Erhebungsjahre 1984-1991. Diese Angaben waren bisher bei den generierten Personeninformationen (_PGEN) abgelegt; sie werden nicht weiter fortgeschrieben.

Wir empfehlen stattdessen die Nutzung der in Syracuse generierten Jahreseinkommen: Die Variablen des GSOEP-Equivalent-Files (_PEQUIV) wurden rückwirkend für alle Wellen (bis 1996) in der 100%-Version NEU aufgenommen (aus datenschutzrechtlichen Gründen können in der Scientific-Use-Version diese Daten nur als 95%-Version weitergegeben werden). Diese Dateien enthalten u.a. differenzierte Jahreseinkommen einschließlich Pre- and Postgovernment-Income sowie Angaben zu Sozialversicherungsabgaben und Steuern.

Ebenfalls NEU generiert und vereinheitlicht wurden die jährlich erhobenen Kalenderinformationen (_PKAL) zum monatlichen Erwerbs- und Einkommensverlauf (Einkommen nur bis 1995).

Neue und überarbeitete Variablen

1. BIOPAREN 1997

BIOPAREN umfaßt lediglich die SOEP-Population bis zum Jahre 1996. Diese Datei wurde jedoch um einige Variablen zur sozialen Herkunft erweitert.

2. EINKALEN kann - wie bereits erwähnt - aufgrund einer Umstellung in der Erhebung des Einkommenskonzeptes nicht mehr auf Monatsebene fortgeschrieben werden und wird demgemäß zum Stand von 1995 weitergegeben.

3. PGEN 1997

Erstmalig wird in NPGEN der ISCO-Code zusätzlich auch nach der 88er-Klassifikation abgelegt. Die Variablen TREIMAN__ und WEGEN__ wurden ebenso wie die Variablen _BILZEIT und _ERWZEIT rückwirkend in allen _PGEN-Dateien in der Originalversion (mit einer Nachkommastelle) ausgewiesen. Zudem wurden in allen _PGEN-Dateien drei neue Variablen nachgeladen: _TATZEIT (tatsächliche Arbeitszeit), _VEBZEIT (vereinbarte Arbeitszeit) und _UEBSTD (geleistete Überstunden); auch diese Variablen werden jeweils mit einer Nachkommastelle geführt. Darüberhinaus wurden vereinzelt rückwirkend einige Missing-Angaben in den Personenbrutto-Dateien (_PBRUTTO) aktualisiert. Koordinatoren der Datenaufbereitung sind Peter Krause und Joachim Frick.

Mit der neuen Auslieferung der Daten wurde auch die Variable $BILZEIT in $PGEN vereinheitlicht, d.h. die in den verschiedenen Jahren unterschiedlich skalierte Variable $BILZEIT wurde jetzt rückwirkend für alle Wellen in Jahren und (nicht wie früher teilweise in Zehnteln von Jahren) abgespeichert.
Sollten hierzu Fragen haben, wenden Sie sich bitte an Peter Krause.

4. PKAL 1997

In der Vergangenheit wurden die Kalendarien in unterschiedlicher Form weitergegeben. So wurde diese zum Beispiel in einigen Wellen (A bis F) als separate $PKAL-Files weitergegeben, in anderen Wellen im $P-File integriert. Auch unterschieden sich die String-Varibalen teilweise in ihrer Länge (zwölf oder 24 Spalten).

Mit der neuen Datenlieferung wurden die Kalendarien einheitlich in einem $PKAL-File pro Welle zusammengefaßt und die Strings auf 24 Spalten festgelegt. Zusätzlich wurden zwölf getrennte Monatsvariablen mitgeliefert. Hiermit hoffen wir, Anforderungen Ihrer Statistikpakete gerecht werden zu können.

Für Nachfragen steht Ihnen Peter Krause gerne zur Verfügung.

5. EQUIV 1997

Bislang wurden die in Syracuse erstellten Equivalent Files in zwei Files weitergegeben: das GSOEP File und das PSID File. Zum ersten Mal war es aus technischen Gründen erforderlich, daß in Syracuse die Files gesplittet weitergegeben werden mußten. Für jedes Jahr besteht nun ein eigenes, nach GSOEP und PSID getrenntes File. Diese neue Struktur wird Ihnen in der neuen Datenlieferung mitgeliefert.

Um Ihnen das Matchen mit dem SOEP Standard-File zu erleichtern, haben wir im GSOEP File die Matchstrukturen vereinheitlicht (HHNR, HHNRAKT, PERSNR). Sie können deshalb jetzt direkt das GSOEP File mit Informationen aus dem SOEP File anreichern; mit anderen Worten: die Files sind einfach wie andere Files im SOEP Datensatz verknüpfbar.

Darüber hinaus werden die GSOEP Equivalent Files direkt von SOEPINFO unterstützt. Dies ermöglicht Ihnen z.B. sich die Frequencies aus dem GSOEP File anzuschauen sowie Kommandofiles automatisch zu erstellen.

Sollten Sie hierzu inhaltliche Fragen haben, wenden Sie sich bitte an Joachim Frick, für technische Fragen im Zusammenhang mit SOEPINFO wenden Sie sich bitte an John Haisken-De New.

Hochrechnung und Gewichtung

Zufallseffekte in der Hochrechnung ‘97

Das SOEP ist eine Stichprobe, die unvermeidbar mit einem Stichprobenfehler behaftet ist. Deswegen weisen wir auch immer wieder darauf hin, daß bei deskriptiven Analysen Konfidenzintervalle ausgerechnet werden sollten (z. B. mit Hilfe des Random-Group-Ansatzes, vgl. dazu Exercise 5 in der SAS (Advanced) Retrievals-Section im Desktop Companion). Abweichungen von externen Randverteilungen signalisieren im allgemeinen kein Problem, sondern sind unvermeidbares Ergebnis einer Stichprobe.

Bei der 97er Welle, die in diesen Tagen ausgeliefert wird, ist allerdings ein feldbedingter Zufallseffekt zu beobachten, um den man bei deskriptiven Analysen, die auf Struktur bzw. Zahl der Haushaltstypen abstellen, wissen muss:

Mehrere Ein-Personen-Haushalte, die in den letzten Jahren nur noch mit Mühe zur Teilnahme zu bewegen waren, sind nun endgültig ausgefallen. Als mehrmalige "temporäre Ausfälle" hatten sie große Hochrechnungsfaktoren. Durch ihr Aussteigen sind c. p. hochgerechnet 1,7 Prozentpunkte der Ein-Personen-Haushalte verloren gegangen. Da unser derzeitiges - statistisch fundiertes - Hochrechnungsverfahren diesen Effekt nicht vollständig kompensieren kann, wird der Anteil dieser Haushalte - gemessen am Mikrozensus - nun deutlich unterschätzt.

Es ist davon auszugehen, daß durch die Dynamik des SOEP, der in der Modellierung der Ausfälle und der Hochrechnung sequentiell Rechnung getragen wird, sich der 97er Effekt in den nächsten Jahren "von selbst" auswachsen wird (da wieder neue Haushalte mit grossen Hochrechnungsfaktoren entstehen). Wir wollen deswegen nicht ad-hoc in die Hochrechnungsalgorithmen eingreifen und die statistische Fundierung unserer Hochrechnung zerstören. Gleichwohl sollten Sie bei bestimmten Fragestellungen nun darauf achten, daß es diesen Zufallsfehler gibt. Wer eine punktuell "bessere" Schätzung der Anteile von Ein-Personen-Haushalten benötigt (d. h. zum Beispiel eine Reproduktion des Anteils im Mikrozensus), sollte - je nach seiner Fragestellung - eine Kalibrierung der Querschnittshochrechnung vornehmen, indem sie/er z.B. schlicht an die Mikrozensus-Randverteilung anpaßt.

Derartige Zufallsausreißer können immer wieder mal vorkommen. Wir prüfen deswegen zur Zeit grundsätzlich, inwieweit z.B. durch die intensivere Nutzung von Längsschnittinformationen oder durch die Nutzung der gegebenen Verteilung der Hochrechnungsfaktoren die Robustheit des bewährten Hochrechnungsverfahrens gegenüber den oben skizzierten Zufallseffekten erhöht werden kann. Ad-hoc-Anpassungen der Standard-Hochrechnung sollen aber auf jeden Fall vermieden werden.

Daten 1984-1996 (Welle M)

Neue Datensätze

BIO-Files 1996

Die SOEP Gruppe bereitet derzeit einen Satz von Biographie Files vor, die alle in diesem Zusammenhang relevanten Informationen der SOEP-Befragten (soweit sie erhoben werden konnten) in nutzerInnenfreundlicher Form bereitstellt. Eine erste Version dieser Files wird jetzt zur Verfügung gestellt.

Befragungspersonen des SOEP beantworten in der Regel im Rahmen ihres ersten Interviews auch den seit 1995 für alle Teilstichproben (A bis D) voll integrierten Lebenslauf- bzw. Biographiefragebogen. Dieser beinhaltet neben der Erwerbsbiographie seit dem 15. Lebensjahr, die Ehe- und Familiengraphie, Informationen zur sozialen Herkunft, zum Berufseinstieg sowie zur "Immigrationsgeschichte" (für nach 1948 nach Deutschland "gewanderte" Personen).

Derzeit liegen die Biographie Daten noch uneinheitlich vor. Zum Teil können fehlende Informationen rekonstruiert werden (1), zum Teil sind Informationen für einige (wenige) Personengruppen unwiderruflich verloren (2). Zudem bestehen zum Teil erhebliche Probleme bei der Verknüpfung der Daten (3).

Zu (1): In der Regel beantworten alle Befragten einmal den Biographiefragen-Komplex (retrospektiv). Aufgrund des erhebungstechnischen Procederes (z.B. Befragungszeit) wurden aber zu Beginn der Befragung in Westdeutschland die Biographie-Informationen über drei Wellen verteilt erhoben, in Ostdeutschland wurden sie erstmals in der dritten Welle (1992) erfragt. Für Personen, die z.B. vor der Erhebung von Biographiedaten ausschieden (Tod, Emigration, Verweigerung) fehlen entsprechend zumindest Teile dieser Angaben.

Zu (2): Für Personen, die bei der Erstbefragung 16 bzw. 17 Jahre alt waren, wurde davon ausgegangen, daß die wenigen, sinnvoll zu erhebenden Biographie-Informationen aus den Daten der laufenden Befragung rekonstriert werden können (z.B. Ehe- und Familienbiographie, soziale Herkunft, Erwerbsbiographie seit dem 15. Lebensjahr).

Soweit fehlende Informationen nachbildbar sind, werden diese in die neuen Biographie Files eingespeist. Die Bereitstellung der Informationen wird dabei ohne Informationsverlust gegenüber den Originalvariablen geschehen.

Zu (3): Schwierigkeiten bei der Zusammenführung und wellenübergreifenden Speicherung der Biographie-Daten ergaben sich auch durch deren im Zeitverlauf unterschiedliche Verortung (in verschiedenen Befragungsinstrumenten) sowie durch Veränderungen in Umfang und Timing (Zeitpunkt der Befragung einzelner Personengruppen).

Ziel der nutzerInnenfreundlichen Biographie-Datenstruktur ist zum einen, die zeitunhängigen Variablen (z.B. Jahr der ersten Zuwanderung nach Deutschland, Berufseinstieg, Ort der Kindheit) für alle Befragungspersonen zu erfassen. Darüber hinaus wird sichergestellt, daß bei zeitabhängigen Variablen (z.B. Familienstand, Zahl der Geburten, Erwerbsbiographie) auch Veränderungen der im Rahmen der einmaligen Biographiebefragung erhobenen Informationen bis zum letzten realisierten Personeninterview aufbereitet und weitergegeben werden.

Die Biographiedaten befinden sich noch im Aufbau. Mit der nächsten Datenlieferung erhalten Sie die bislang fertiggestellten Informationen zu folgenden Themen:

File Inhalt

PPFAD   neue Variable: Zuzugsjahr nach Deutschland
BIOMARSM   Familienstand-Spells auf Monatsbasis seit frühestens Januar 1983
BIOMARSY   Familienstand-Spells auf Jahresbasis in individuellen Lebensaltersjahren
BIOBIRTH   Geburtsbiographie (nur Frauen) mit Zahl der pro Frau geborenen Kinder, deren Geburtsjahr, deren Geschlecht sowie ggf. PERSNR im SOEP
BIOPAREN   Informationen zu Eltern (Geburts- und ggf. Todesjahr, Schul- und Berufsausbildung, Religionszugehörigkeit, berufliche Stellung des Vaters als RespondentIn 15 Jahre alt war sowie ggf. PERSNR der Eltern im SOEP)

Darüber hinaus werden weiterhin die bereits in der Standarddatenweitergabe enthaltenen Dateien PBIOSPE (Erwerbsbiographie seit dem 15. Lebensjahr bis zum Zeitpunkt des letzten realisierten Personeninterviews in Spellform) sowie $PGEN (u.a. höchster Bildungsabschluß Schule und Beruf, Nationalität) zur Verfügung gestellt.


Koordinator für die Biographie-Files ist Joachim Frick.

Daten 1984-1995 (Welle L)

Hochrechnung und Gewichtung

Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept

Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:

Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen).

Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur).

Geänderte Variablen

KSAMPLE 1995

Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:

Warum diese Änderungen?

Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung:

KSAMPLE = 1:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand nicht türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 2:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 3:
Haushalte im Gebiet der DDR im Erhebungsjahr der 1. Welle Ost (1990), deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung DDR-BürgerIn war.

KSAMPLE = 4:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle der Zuwandererstichproben D1 und D2 (1994 bzw. 1995), die zwischen 1984 und 1993 zugewandert sind.

Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:

  1. KSAMPLE = 1 wird oft fälschlich als "Westdeutsche Haushalte bzw. Personen " interpretiert. Dies ist nur bedingt richtig. Tatsächlich sind in Teilstichprobe A aber über 80 AusländerInnen enthalten, die nicht in einem Haushalt mit türkischem, italienischem, jugoslawischem, griechischem oder spanischem Haushaltsvorstand leben. Umgekehrt leben über 220 Deutsche in einem Haushalt des Samples B (Stand 1995).
  2. Die Nationalität des Haushaltsvorstandes, die die Zuordnung zur Stichprobe definiert, muß nicht zwangsweise mit der der übrigen Personen im Haushalt übereinstimmen.
  3. KSAMPLE = 3 heißt nur, daß der Haushalt in der 1. Welle (Ost) auf dem Gebiet der damaligen DDR lebte. In den Folgewellen kann er durchaus in die alten Länder übergesiedelt sein (inzwischen etwa 7 % der C-Stichprobe). Umgekehrt gibt es Haushalte der Stichprobe A, die in die neuen Länder übergesiedelt sind. Diese Wanderungsbewegungen sind in den Variablen ySAMPREG (y = G,H,I,J,K,L) festgehalten, die auch in HPFAD und PPFAD zu finden sind.

Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden.

Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen.

Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,

  • CASE-ID 19 - 45543 KSAMPLE=1
  • 45551 - 59692 KSAMPLE=2
  • 500011 - 521795 KSAMPLE=3
  • 700010 - 724009 KSAMPLE=4.

keyboard_arrow_up