Website Archive
Änderungen im SOEP-Datensatz seit 1995
- Neue und umbenannte Datensätze 2006
- Querschnittshochrechnung 2006
- BIOAGE01 und BIOAGE17 2006
- $HGEN 2006
- $PGEN 2006
- PPFAD 2006
- $PEQUIV 2006
- BIOBIRTH; BIOBRTHM
- BIOTWIN
- EGP$$
- Neue und umbenannte Datensätze 2005
- Hochrechnung 2005
- HGEN 2005
- PGEN 2005
- $PEQUIV 2005
- Fehlerupdate 2005
Datenweitergabe 2006 (Welle W)
Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt B). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht.
Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant.
Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert.
Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen.
Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD.
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Neue und umbenannte Datensätze 2006
$PAGE17
Ab 2007 werden Personen, die das Erstbefragungsalter (17 Jahre)
erreichen, nicht mehr mit dem normalen Personenfragebogen, sondern mit
einem speziellen Jugendfragebogen befragt. Wellenspezifische
Informationen, die nicht in den Biographie-Daten oder anderen
generierten Datensätzen (wie $PGEN, HEALTH) vorliegen, werden im
Datensatz $PAGE17 weitergegeben. Identifizierbar sind die Befragten des
Jugendfragebogens mit Hilfe des neuen $NETTO-Codes "17" (siehe auch
Änderung der $NETTO-Variablen in PPFAD ).
DESIGN
Die Informationen zum Design der SOEP-Stichprobe, die zuvor im
Datensatz VARIANZ (Spiess 2001) zusammengefasst waren, werden ab der
Datenweitergabe 2007 in dem überarbeiteten und verbesserten File DESIGN
zu finden sein. Nähere Informationen in dem Dokument designdoku.pdf (
PDF-Dokument) auf der SOEP-Dokumentationseite
oder der DVD.
HEALTH
Der Gesundheitsschwerpunkt im Personenfragebogen wurde 2002
überarbeitet und seitdem im 2-Jahres-Rhythmus erhoben. Im HEALTH-File
finden Sie nun die generierten SF12-Variablen (zur Messung der
gesundheitsbezogenen Lebensqualität) und Variablen zu Größe und Gewicht
mit entsprechenden Flagvariablen zur Identifikation der imputierten
Werte und einer nutzerfreundlichen, längsschnittgeprüften generierten
Variablen des Body Mass Index (BMI). Die Dokumentation finden Sie in
dem Dokument health.pdf (
PDF-Dokument, 172 KB) auf der SOEP-Dokumentationseite
oder der DVD.
PWEALTH und HWEALTH
Die Vermögensdaten des Erhebungsjahres 2002 wurden vollständig
überarbeitet und auf Inkonsistenzen geprüft. Die Daten sind jetzt in
zwei Datensätzen (für Personen- und Haushaltsebene) vollständig
(multiple) imputiert nutzbar, mit entsprechenden Flagvariablen zur
Identifikation der imputierten Werte. Die beiden Datensätze enthalten
auch jeweils eine generierte Variable zum "Netto-Vermögen" (siehe SOEPpapers No. 18 (
PDF-Dokument))
Interviewerbefragung
Der bis 2006 lediglich als "stand-alone" Version verfügbare Datensatz
mit Angaben zu den InterviewerInnen ist jetzt unter dem Namen INTVIEW
in die Standard-Datenweitergabe integriert und wird somit in den
jeweiligen Software-Formaten (SAS, SPSS, STATA) standardmäßig abgelegt.
Querschnittshochrechnung 2006
Mit der Datenweitergabe für das Jahr 2006 ergeben sich
für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte
wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die
Neuerungen in der DIW Data Documentation 22 (
PDF-Dokument).
1. Typen der Hochrechnungsfaktoren neu definiert
Jedes Querschnittsgewicht wird mit $xHRFy bezeichnet. Dabei stellt $
das Wellenkennzeichen dar, x die Unterscheidung nach Haushalten (x = H)
und Personen (x = P) und y eine Zusatzkennung, die den Typ des
Hochrechnungsfaktors beschreibt.
- $xHRF sind die von Beginn an üblichen Hochrechnungsfaktoren. Sie enthalten sämtliche Stichproben mit Ausnahme der Hocheinkommensstichprobe G.
- $xHRF1 sind Standard-Hochrechnungsfaktoren, bei denen zusätzlich
zur Nichtberücksichtigung von Sample G die Gewichte von neuen
Teil-Stichproben, d.h. in der sample-spezifischen ersten Welle, auf
Null gesetzt sind. Hintergrund: In den ersten Wellen weisen die
Befragten bei komplexen Erhebungskonstrukten ein "schlechteres"
Antwortverhalten auf als in späteren Wellen (z. B. bezüglich
Lebenszufriedenheit und Jahreseinkommen). Eine Ausnahme bildet hier
Stichprobe C. Da für Befragte in der DDR solche Effekte im
Antwortverhalten des Jahres 1990 nicht nachweisbar waren, sind hier
GxHRF und GxHRF1 identisch.
Für Standard-Querschnittsanalysen empfehlen wir die Verwendung des Hochrechungs-Typs $xHRF1 als Standard-Hochrechnungsfaktor. Damit werden die Informationen aus den jeweils ersten Wellen der Teilstichproben automatisch nicht genutzt. - $xHRFALL umfassen sämtliche verfügbare Stichproben.
- $xHRFD, $xHRFF und $xHRFG kennzeichnen die isolierten Gewichte für die Zuwanderer-Stichprobe D, für die Ergänzungsstichprobe F und für die Hocheinkommens-Stichprobe G.
- Die Variable $PHRFXX in PHRF und HHRF wurde gelöscht
2. Modifizierung Hochrechnungsrahmen
Seit dem Jahr 2005 weist das Statistische Bundesamt Angaben für das
Land Berlin nicht mehr getrennt nach West und Ost aus. Dies führte zu
leichten Modifizierungen des Hochrechnungsrahmens für Haushalte
rückwirkend seit dem Erhebungsjahr 2005.
3. Neue Ergänzungsstichprobe H
Die neuen Haushalte der im Erhebungsjahr 2006 erstmals erhobenen
Ergänzungsstichprobe H ("Refreshment Sample") wurden in die
Hochrechnung integriert. Die Einbeziehung der Stichprobe H ist
gegenwärtig noch vorläufig. Es wird geprüft, ob und wie die Stichprobe
H an zusätzliche externe Ränder angepasst wird. Dieses Vorgehen ist
allerdings nicht gravierend, da wir ohnehin empfehlen, für deskriptive
(Zeitreihen-) Analysen die Hochrechnungsfaktoren WxHRF1 zu verwenden,
die die Stichprobe H ausschließen.
4. Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005
Die Hochrechnungsfaktoren für das Jahr 2006 basieren auf Eckdaten des
Mikrozensus von 2005; sie sind also bezüglich der unterstellten Anzahl
von Haushalten und Personen in Deutschland vorläufig.
Für Nachfragen zu den Hochrechnungsfaktoren steht Ihnen Rainer Pischner (rpischner@diw.de, -319) gerne zur Verfügung.
BIOAGE01 und BIOAGE17 2006
1. BIOAGE01
Es wurden vier neue Variablen zum Schwangerschaftsstatus generiert.
Basis der Generierungen sind im Wesentlichen der Interviewmonat aus $P,
Geburtsmonat und -jahr des Kindes sowie Dauer der Schwangerschaft in
Wochen aus
BIOAGE01.
BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?'
Value Labels:
2002 | Schwanger bei Personeninterview 2002
2003 | Schwanger bei Personeninterview 2003
2004 | Schwanger bei Personeninterview 2004
2005 | Schwanger bei Personeninterview 2005
2006 | Schwanger bei Personeninterview 2006
2007 | Schwanger bei Personeninterview 2007
BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)'
Value Labels:
1 | Erster Schwangerschaftsmonat
2 | Zweiter Schwangerschaftsmonat
3 | Dritter Schwangerschaftsmonat
4 | Vierte Schwangerschaftsmonat
5 | Fünfter Schwangerschaftsmonat
6 | Sechster Schwangerschaftsmonat
7 | Siebter Schwangerschaftsmonat
8 | Achter Schwangerschaftsmonat
9 | Neunter Schwangerschaftsmonat
10 | Letzter Monat schwanger oder nach Geburt
Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01.
PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'.
PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'.
Den Aufbau und Inhalt finden Sie ausführlich in der Dokumentation der Biografiedaten (
PDF-Dokument, 969 KB) auf der SOEP-Homepage
oder der DVD.
$HGEN 2006
1. Neue Variablen
NUTS1$$
Zusätzlich zur Bundesland-Variable ist ab diesem Jahr für alle Wellen
auch die entsprechende NUTS (Nomenclature des unités territoriales
statistiques) Level 1-Variable verfügbar. Die Variable ist weitgehend
identisch mit $BULA in $HBRUTTO, allerdings ohne die Zusammenfassung
von Rheinland-Pfalz/ Saarland (ab 2000) bzw. ohne eine Differenzierung
zwischen Ost- und West-Berlin.
$PGEN 2006
1. Neue Variablen
JOBCH$$
In Ergänzung zu ERWTYP$$ (und langfristig zu deren Ersatz) wurde eine
Variable zur Identifikation beruflicher Wechsel generiert. Die
Kategorien dieser Variable sind unabhängig davon, ob eine Erst- oder
Wiederholungsbefragung vorliegt. JOBCH$$ gibt für Personen mit
Wiederholungsbefragung berufliche Wechsel seit dem letzten Interview
an, für erstmals Befragte bezieht sie sich auf berufliche Wechsel, die
seit Beginn des Vorjahres stattgefunden haben. Erstmals erwerbstätige
Personen und erwerbstätige Personen mit beruflichem Wechsel werden
hierbei getrennt ausgewiesen. Im Gegensatz zu ERWTYP$$ wurde JOBCH$$
einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt
inkonsistente Fälle, wie beispielsweise Doppelnennungen eines
beruflichen Wechsels in zwei aufeinander folgenden Interviews, wurden
korrigiert.
Value Labels>
1 | Nicht erwerbstätig
2 | Erwerbstätig ohne Wechsel
3 | Erwerbstätig ohne Information, ob Wechsel
4 | Erwerbstätig mit Wechsel
5 | Erstmals erwerbstätig
2. Überarbeitete Variablen
GERWZEIT, HERWZEIT
Für die Jahre 1990 und 1991 werden nun auch für Sample C (Ost) Werte
für die Dauer der Betriebszugehörigkeit bereitgestellt. Aufgrund der
eventuell eingeschränkten Vergleichbarkeit im Zuge des ostdeutschen
Transformationsprozesses sind diese Angaben jedoch mit besonderer
Vorsicht zu behandeln.
$ERWZEIT
Die Dauer der Betriebszugehörigkeit wurde aufgrund bisher auftretender
Inkonsistenten zwischen verschiedenen Interviewzeitpunkten einer
Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente
Fälle wurden anhand der folgenden Vorgehensweise korrigiert:
- Der Beschäftigungsbeginn beim derzeitigen Arbeitgeber, der zum frühesten Befragungszeitpunkt angegeben wird, ist grundsätzlich dominant und wird in den Folgejahren fortgeschrieben, falls kein Stellenwechsel und keine Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung vorliegt.
- Im Falle eines Stellenwechsels (Wechsel des Arbeitgebers/Wechsel in die Selbständigkeit) werden die aktuellen Angaben zum Zeitpunkt des Stellenwechsels verwendet und in den Folgejahren fortgeschrieben.
- Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird vermutet, dass ein Arbeitnehmer zu seinem alten Arbeitgeber zurückgekehrt ist, wenn der aktuell angegebene Beschäftigungsbeginn vor dem letzten Befragungsjahr liegt. In diesem Fall wird nicht auf den aktuellen Beschäftigungsbeginn zurückgegriffen, sondern der Beschäftigungsbeginn, der bei der letzten Befragung erhoben wurde, fortgeschrieben. Liegt die aktuelle Angabe zum Beschäftigungsbeginn nach dem letzten Befragungsjahr, wird ein Arbeitgeberwechsel seit der letzten Befragung angenommen und die aktuelle Angabe zum Beschäftigungsbeginn fortgeschrieben.
AUSB$$
Da bei der erforderlichen Ausbildung im Beruf seit 1999 zwischen
Fachhochschul- und Hochschulstudium unterschieden wird, wurden für die
Jahre vor 1999 und nach 1999 verschiedene Kategorien für die AUSB$$
'erforderliche Ausbildung im Beruf' gebildet. In den aktuellen Jahren
gibt es getrennte Kategorien, die explizit zwischen diesen beiden
Abschlüssen unterschieden. Zudem werden Fachschule und Fachhochschule
nun getrennt ausgewiesen.
Value Labels:
1 | Keine Ausbildung
2 | Einweisung
3 | Einarbeitung
4 | Kurse
5 | Berufsausbildung
6 | Fachschule, Ingenieurschule (Ost) 1990-1996
7 | (Fach-,) Hochschulstudium, bis 1998
8 | Fachhochschulstudium, ab 1999
9 | Hochschulstudium, ab 1999
MPS$$
Für die Wellen U,V und W wurden die Werte für die 'Magnitude
Prestigeskala - Wegener' für Befragungspersonen ohne Haushaltsinterview
($NETTO=19) ergänzt.
ERWTYP$$
Die Variable Erwerbstypus wird mit der alten Kategorisierung
beibehalten, jedoch wird aufgrund der gemeinsamen Ausprägung von
erstmals Erwerbstätigen und erwerbstätigen Personen mit beruflichem
Wechsel das Label dieser Kategorie geändert. Die Ausprägung 6 wird mit
dem Label 'erwerbstätig mit Wechsel, auch erstmals erwerbstätig'
versehen.
Durch Nutzerhinweise konnte ein Fehler bei der Generierung der Bildungsvariablen in $PGEN aufgedeckt werden, der sich vor einiger Zeit bei der Nachgenerierung für die Jahre 2000 und 2001 eingeschlichen hat und seitdem fortgeschrieben wurde. Der Fehler umfasst die ausländischen Hochschulabschlüsse in der Variable $PBBIL02, die als zu hoch ausgewiesen wurden. Der Fehler kam bei der Integration der Variable $PBBILA und $PBBIL02 in diesen beiden Jahren zustande.
Deshalb wurden jetzt alle Bildungsabschlüsse rückwirkend für die Jahre 2000 bis 2006 nochmals neu generiert. Die daraus abgeleiteten Variablen $BILZEIT, ISCED$$ und CASMIN$$ wurden entsprechend ebenfalls rückwirkend ab 2000 aktualisiert.
PPFAD 2006
$NETTO
Mit der Welle W (23. Erhebungswelle) wurde im aktuellen Erhebungsjahr
2006 die Erfassung der Befragungspopulation grundlegend verändert.
Bisher wurde immer bei allen Personen im Haushalt über 16 Jahren ein
Personeninterview durchgeführt. Ab dem Erhebungsjahr 2006 werden
reguläre Personeninterviews auf Basis des
Standard-Erwachsenenfragebogens erst ein Jahr später - im Alter ab 18
Jahren - durchgeführt. Erstbefragte Jugendliche im Alter von 17 Jahren
erhalten stattdessen erstmals einen erweiterten Jugendfragebogen (dies
gilt für die Samples A-G; bei der neuen Stichprobe H wird der
Jugendfragebogen erst im nachfolgenden Jahr erhoben, die entsprechenden
17-jährigen Jugendlichen erhielten als erstes - wie bisher - den
regulären Personenfragebogen).
Die Befragungspersonen sind damit nicht mehr allein durch das
Instrument des Personenfragebogens erfasst, sondern werden jetzt durch
zwei Instrumente - Personen- und Jugendfragebogen - abgebildet. Zur
konsistenten Abgrenzung im Zeitverlauf muss deshalb entweder die
Jugendpopulation im aktuellen Jahr einbezogen werden oder die
Altersabgrenzung für alle früheren Jahre erhöht werden.
Die neu überarbeitete $NETTO-Variable unterstützt beide Abgrenzungen
rückwirkend für den gesamten Befragungszeitraum. Der Zusammenhang
zwischen Erhebungspopulation und Befragungsinstrument wird über die
Variable $NETTO in PPFAD beziehungsweise $HNETTO in HPFAD gesteuert.
Infolge der Veränderung der Befragungspopulation sowie der Erweiterung
der Erhebungsinstrumente zur detaillierten Erfassung biografischer
Zusammenhänge wurde die entsprechende Variable $NETTO in PPFAD
grundlegend überarbeitet und wird jetzt als zweistellige Variable
bereitgestellt. Die bisherige - einstellige - Variable wird als
Hilfestellung unter verändertem Namen $NETOLD weitergeführt; die
Variable $HNETTO in HPFAD ist von dieser Umstellung nicht betroffen und
bleibt unverändert.
Value Labels:
(10-19)'Befragte und Befragungspersonen mit realisierten Interviews'
10 | Befragungsperson mit realisiertem Interview
11 | Personenfragebogen ($P)
12 | Personenfragebogen und Lebenslauf
13 | Personenfragebogen und Jugendfragebogen
14 | Personenfragebogen und andere Fragebögen
15 | Personenfragebogen und Experimente, Tests
16 | Personenfragebogen, Erstbefragung, 17 Jahre
17 | Jugendfragebogen Erstbefragung, 17 Jahre
19 | Personenfragebogen ohne Haushaltsinterview
(20-29)'Kinder in realisierten Haushalten
20 | Kinder in realisierten Haushalten ($KIND)
21 | Kinder mit Mutter-Kind-Fragebogen I, 0-1 Jahr
22 | Kinder mit Mutter-Kind-Fragebogen II, 2-3 Jahre
(30-39)'Personen ohne Personen-Interview in Brutto-Haushalten'
30 | Personen in realisierten Haushalten ohne Personeninterview
31 | Realisierte Nacherhebung ($LUECKE)
32 | Realisierter Biografiefragebogen
33 | Realisierter Jugendfragebogen
34 | Realisierte Tests und Experimente
(60-69)'Nur Fragebogen ohne Personeninterview außerhalb der Brutto-Haushalte
60 | Nur Fragebogen ohne Personen- und Haushaltsinterview
61 | Nacherhobene Lücke ohne Haushaltsbezug
62 | Nacherhobene Lücke bei Ausfall
70 | Nur Teilnahme an Tests, Experimenten etc.
(80-89)'Personen ohne Austritt, aber ohne aktuelle Angabe im laufenden Jahr'
80 | Person ohne Austritt aus Panel-Population
81 | Vormals Befragte (ERSTBEF) ohne aktuellen Angaben
89 | RückkehrerInnen (zuvor Ausfälle)
(90-99)'Personenausfaelle und Austritte ($YPBRUTTO)'
90 | Personenausfälle ($YPBRUTTO)
91 | Wegzug ins Ausland
99 | Verstorben
$NETOLD
In der neuen Variable $NETOLD ist der alte $NETTO-Code weiterhin
nutzbar. Personen im Alter von 17 Jahren, die entweder einen
Jugendfragebogen (n=307) oder einen Personenfragebogen (Sample H, n=31)
ausgefüllt haben, sind jeweils mit dem Wert 1 codiert. Somit ist die
Abgrenzung (WNETTO == 1 | WNETTO == 5) nicht identisch ist mit der
Population in WP.
$PEQUIV 2006
1. Neue Variablen
ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II.
FALG2$$: Flag zur Identifikation von Imputationen des Arbeitslosengeld II (ALG2$$).
IDEMY$$: Betrag der im Vorjahr empfangenen Zahlungen aus Abfindungen (Indemnity).
FDEMY$$: Flag zur Identifikation von Imputationen von Abfindungszahlungen (IDEMY$$).
ITRAY$$: Betrag der im Vorjahr empfangenen Fahrtkostenzuschüsse (commuting and travel grants).
FTRAY$$: Flag zur Identifikation von Imputationen von Fahrtkostenzuschüssen (ITRAY$$).
2. Überarbeitete Variablen
I11105$$
Die Variable (Mietwert selbstgenutzten Wohneigentums = Imputed Rent)
wurde bisher nur für Personen in selbstgenutztem Wohneigentum
generiert. Entsprechend aktueller Forschungsergebnisse und auch der
Vorschläge der Europäischen Kommission zur Generierung von Imputed Rent
in EU-SILC wird dieser fiktive Einkommensvorteil nun auch für Personen
in Mieterhaushalten generiert, die angeben, keine marktgerechte Miete
für ihren Wohnraum zu entrichten. Dies sind Personen in mietfreiem
Wohnraum, Mieter in Wohnungen des sozialen Wohnungsbaus und Mieter mit
verbilligt überlassenem Wohnraum (z.B. vom Arbeitgeber verbilligt
überlassene Werkswohnung, von Verwandten oder sonstigen Dritten
verbilligt überlassener Wohnraum).
W11101$$ und W11102$$
Aufgrund der Umstellung der Hochrechnungsfaktoren in den Files PHRF und
HHRF beinhaltet die Variable W11101$$ nun den
Personenhochrechnungsfaktor $PHRF1 (aus dem File PHRF) und die Variable
W11102$$ den Haushaltshochrechnungsfaktor $HHRF1 (aus dem File HHRF).
Befragte des SOEP weisen in ihrer ersten Befragungswelle einen
signifikant höheren Anteil von Item-non-Response auf, der mittels
Imputation nicht adäquat korrigiert werden kann. Daher vernachlässigen
diese beiden Gewichte jeweils die erste Welle eines jeden neuen
Subsamples des SOEP. Des Weiteren wird das Subsample G
(Hocheinkommensbezieher) aus dem Gewichtungsschema ausgeschlossen, um
Strukturbrüche in der Analyse von Einkommen im Vergleich zu Ergebnissen
ohne Subsample G zu vermeiden. Diese beiden Gewichtungsvariablen sind
daher besonders geeignet, eine konsistente Analyse einer Zeitreihe von
Einkommen oder deren Verteilung zu unterstützen.
W11105$$
Die Variable W11105$$ beinhaltet nun den Personenhochrechnungsfaktor
$PHRFALL (aus dem File PHRF). Diese Gewichtungsvariable berücksichtigt
alle Subsamples des SOEP.
E11105$$
Der Inhalt der Variable E11105$$ besteht nun aus der Berufsklassifizierung nach dem internationalen Standard "ISCO88".
E11106$$ und E111076$$
Die Variablen E11106$$ und E11107$$ geben nun die Branchenzugehörigkeit
in Form eines 1 bzw. 2-Stellers im internationalen Standard "NACE"
wieder.
W11106$$ 'HH-Weight immigrant sample'
BIOBIRTH; BIOBRTHM
KIDMON[n] (überarbeitet)
Mit Welle W beinhaltet die Geburtsbiografie der Männer (BIOBRTHM) wie
der Frauen (BIOBIRTH) neben dem Geburtsjahr für jedes Kind (KIDGEB[n],
mit n = (1...15)) auch den Geburtsmonat für jedes Kind (KIDMON[n]).
Jener Geburtmonat deckt sich mit dem Geburtsmonat des jeweiligen Kindes
in PPFAD.
BIOTWIN
2006 wurde in allen Haushalten, in denen ein Zwillingspaar oder andere Mehrlinge leben, eine eigene Erhebung durchgeführt. Dieser Zwillings-Survey hatte das Ziel, die Zwillingsgruppen zu validieren und zusätzliche Informationen zu gewinnen. Folgende Variablen wurden in diesem Zusammenhang im Datensatz BIOTWIN geändert bzw. neu eingeführt:
BIOMONOZ
Die Variable BIOMONOZ beschreibt die Differenzierung zwischen ein- und
mehreiigen Zwillingen/Mehrlingen. Der Status, ob das Zwillingspaar ein-
oder mehreiig ist, wurde in der Erhebung eigens erfragt (bisher wurde
dieser Status aus dem gleichen bzw. verschieden Geschlecht der
Zwillinge abgeleitet). Neue Codes wurden in der Variable BIOMONOZ
eingeführt, um diese verbesserte Informationslage zu reflektieren. Die
Ausprägungen sind daher nicht mehr kompatibel mit jenen, die vor Welle
W im Datensatz BIOTWIN in der Variable BIOMONOZ enthalten waren.
INFOTWIN
Neu eingeführt wurde die Variable INFOTWIN. Sie gibt Auskunft darüber,
ob Informationen aus dem 2006 durchgeführten Zwillingssurvey vorliegen,
ob die Informationen aus existierenden SOEP-Daten abgeleitet wurden und
ob eine frühere Erfassung eines jeweiligen Zwillingspaares sich mit den
Ergebnissen des Zwillingssurveys deckt.
EGP$$
Die Variable ' Erikson and Goldthorpe Class Category" (internationaler
Index des beruflichen Status) wurde bezüglich der Zuordnung von
akademischen Freiberuflern korrigiert, welche bisher den Selbständigen
zugeordnet wurden (Ausprägung 5 oder 6). Bei der korrigierten
Generierung werden akademische Freiberufler der oberen Dienstklasse
zugewiesen, welche der Ausprägung 1 entspricht.
Datenweitergabe 2005 (Welle V)
Mit der Datenweitergabe 2006 (Daten 1984-2005) werden für das Beobachtungsjahr 2005 die üblichen wellenspezifischen Dateien VPBRUTTO, VP, VPKAL, VPGEN, VHBRUTTO, VH, VHGEN, VKIND und UPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die erste CD-ROM enthält wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels.
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Neue und umbenannte Datensätze 2005
Mit der aktuellen Datenweitergabe werden SOEP-Dateien, die auf den altersspezifischen Biographiefragebögen (z.B. Mutter-und-Kind) basieren, in konsistenter Weise benannt. Alle Dateien sind im "long"-Format gespeichert, die Datei-Namen setzen sich zusammen aus dem Term BIOAGE und einem zweistelligen Suffix, der das maximale Alter der betroffenen Individuen angibt:
BIOAGE01:
Neuer Name des bisherigen Datensatzes BIOCHILD (Basis: Fragebogen für Mütter mit Neugeborenen im Alter von 0 bis 15 Monaten).
BIOAGE03:
Neuer Datensatz (Basis: Mutter-Kind Fragebogen für Mütter mit 2-3 jährigen Kindern; siehe Biographie Dokumentation (
PDF-Dokument)).
BIOAGE17:
Neuer Name des bisherigen Datensatzes BIOYOUTH (Basis: Fragebogen für 16-17 jährige Jugendliche).
Hochrechnung 2005
Hochrechnung des Querschnitts für 2005 nur vorläufig - Update von VPHRF und VHHRF voraussichtlich im Herbst 2006
Die wellenspezifischen Hochrechnungs- und Gewichtungsfaktoren des SOEP werden jährlich an die jeweiligen Daten des Mikrozensus (MZ) angepasst, so dass die SOEP-spezifische Verteilung nach Region, Alter, Geschlecht, Haushaltsgröße und Nationalität derjenigen des MZ entspricht. Ab dem Jahr 2005 werden Angaben für das Land Berlin nicht mehr nach West und Ost getrennt ausgewiesen, sondern insgesamt den neuen Ländern zugeordnet. Diese Umstellung innerhalb der amtlichen Statistik führt leider auch dazu, dass die für die Querschnittshochrechnung der SOEP Daten 2005 (Welle 22) relevanten Informationen (Reihe "Haushalte und Familien", Hrsg. Statistischen Bundesamt) erst im Herbst 2006 zur Verfügung stehen werden.
Um eine entsprechende Verzögerung der Weitergabe der SOEP-Daten bis Welle V (2005) zu vermeiden, basieren die Hochrechnungsfaktoren VPHRF* und VHHRF* der auf CD verfügbaren SOEP-Daten auf dem in Welle U (2004) verwendeten Rahmen.
Erfahrungsgemäß wird die Abweichung dieser Eckdaten (mit Ausnahme der neuen Abgrenzung Berlins) nur gering sein. Wir bitten Sie in Ihren Analysen auf die Vorläufigkeit des Hochrechnungsrahmens zu achten und in Veröffentlichungen ggf. darauf hinzuweisen.
Wir werden Sie umgehend (via SOEP NEWSLETTER und Homepage) informieren, wenn Sie die aktualisierten Hochrechnungsfaktoren auf Basis des 2005er MZ bei uns abrufen können.
HGEN 2005
AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).
PGEN 2005
ALLBET$$ (neu)
Grobkategorie der Unternehmensgröße. Eine über alle Wellen konsistente
Variable für die Unternehmensgröße (kleinster gemeinsamer Nenner der
Variable BETR$$).
Kategorien:
- 'unter 20'
- '20 bis unter 200'
- '200 bis unter 2000'
- '2000 und mehr'
- 'Selbständig - ohne Mitarbeiter'
BETR$$ (geändert)
Die Variable BETR$$ hat nun 11 anstatt wie bisher 9 Kategorien. Der
Grund dafür ist, dass die Unternehmensgröße ab Welle V detaillierter
abgefragt wird: Die bisherige Kategorie '5 bis unter 20 Mitarbeiter'
wurde in die zwei Kategorien '5 bis 10 Mitarbeiter' und '11 bis unter
20 Mitarbeiter' unterteilt.
Die neuen Kategorien sind:
- 'unter 5'
- '5 bis 10'
- '11 bis unter 20'
- 'bis 1990: unter 20'
- '1991-2004: 5 bis unter 20'
- '20 bis unter 100'
- '100 bis unter 200'
- 'bis 1998: 20 bis unter 200'
- '200 bis unter 2000'
- '2000 und mehr'
- 'Selbständig - ohne Mitarbeiter'
Hinweis: Mit der neuen Variable ALLBET$$ im Datensatz $PGEN steht zusätzlich eine gröbere Kategorisierung der Unternehmensgröße zur Verfügung, die über alle Wellen konsistent kodiert ist (kleinster gemeinsamer Nenner der Variable BETR$$).
EMPLST$$(neu)
Employment Status. Eine über alle Wellen konsistente Variable zur
Differenzierung des Erwerbsumfangs (in Ergänzung zur Variablen LFS$$,
die Nicht-Erwerbstätige differenziert).
Kategorien:
- 'Voll erwerbstätig'
- 'Teilzeitbeschäftigung'
- 'Ausbildung, Lehre'
- 'Unregelmässig, geringfügig erwerbstätig'
- 'Nicht erwerbstätig'
EXPFT$$(neu)
Arbeitsmarkterfahrung Vollzeit. Erfassung der gesamten
Vollzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine
Nachkommastelle).
EXPPT$$ (neu)
Arbeitsmarkterfahrung Teilzeit. Erfassung der gesamten
Teilzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine
Nachkommastelle).
EXPUE$$(neu)
Arbeitsmarkterfahrung Arbeitslos. Erfassung der gesamten
Arbeitslosigkeitsdauer im bisherigen Erwerbsleben (in Jahren, eine
Nachkommastelle).
Ansprechpartnerin für die o.g. Variablen: Silke Anger
$PEQUIV 2005
SSOLD$$
Social assistance for elderly (Grundsicherung im Alter).
FSSOLD$$
Imputation flag: Social assistance for elderly.
LOSSR$$
Losses from renting and leasing.
FLOSSR$$
Imputation flag: Losses from renting and leasing.
LOSSC$$
Losses from capital investment.
FLOSSC$$
Imputation flag: Losses from capital investment.
D11112LL
Race of individual.
D11110$$ gelöscht
Information bereits in der Variable M11124$$ enthalten.
D11111$$ gelöscht
Information bereits in der Variable M11125$$ enthalten.
Ansprechpartner: Markus Grabka
Fehlerupdate 2005
Berichtigung von [T-U]HPOP in HPFAD
Berichtigung der individuellen und haushaltsbezogenen Hochrechnungsfaktoren von 2003 bzw. 2004 (THHRF bzw. UPHRF und UHHRF).
Datenweitergabe 2004 (Welle U)
Mit der Datenweitergabe 2005 (Daten 1984-2004) werden für das Beobachtungsjahr 2004 die üblichen wellenspezifischen Dateien UPBRUTTO, UP, UPKAL, UPGEN, UHBRUTTO, UH, UHGEN, UKIND und TPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die Daten der ersten CD-ROM enthalten wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die Daten CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
PPFAD 2004
LOC1989
Die zentralen demographischen Informationen in PPFAD wurden um den Wohnort im Jahr 1989 erweitert (Wo lebte eine Person zur Zeit des Mauerfalls? Variable LOC1989). Unterschieden werden die Kategorien "Ostdeutschland", "Westdeutschland" und "Ausland". Die Information ist für alle Befragten und Kinder vorhanden (siehe weitere Dokumentation in der Dokumentation der Biographiedaten).
Ansprechpartner: Joachim R. Frick.
PGEN 2004
LABGRO$$ und LABNET$$
Es wurden neue Variablen für alle Wellen (A-U) generiert, die den monatlichen Brutto- und Nettoarbeitslohn (LABGRO$$ und LABNET$$) beinhalten - durchgehend in EURO. Fehlende Werte auf Grund von Item-Nonresponse wurden imputiert und können mit Hilfe der zugehörigen Zeiger-Variablen IMPGRO$$ und IMPNET$$ identifiziert werden (weitere Informationen (
PDF-Dokument, 233 KB)).
Ansprechpartner: Markus M. Grabka.
HGEN 2004
HINC$$
$HGEN beinhaltet nun auch das direkt erfragte monatliche Netto-Haushaltseinkommen (HINC$$) - durchgehend in EURO für alle Wellen (A-U).
Ansprechpartner:Jan Goebel oder Peter Krause.
AHINC$$
Eine weitere Variable wurde für die Wellen L-U (1995-2004) generiert, ebenfalls mit der Information zum monatlichen Netto-Haushaltseinkommen (in EURO), allerdings korrigiert für eine mögliche Unterschätzung durch die Auskunft gebende Person (AHINC$$). Eine derartige Unterschätzung wurde mit Hilfe der aktuellen persönlichen Einkünfte aller Personen im Haushalt korrigiert (weitere Informationen (
PDF-Dokument)).
Ansprechpartner: Jan Goebel oder Peter Krause.
$PEQUIV bzw. SOEP-CNEF 2004
M11101$$-M11127$$
Die $PEQUIV-Dateien der Wellen A-U beinhalten nun auch international harmonisierte Variablen zur Gesundheit (M11101$$-M11127$$). Weitere Informationen gibt es im Codebook for the $PEQUIV File 1984 – 2004 (
PDF-Dokument).
Ansprechpartner: Markus Grabka
Datenweitergabe 2003 (Welle T)
Mit der Datenweitergabe 2004 werden für das Beobachtungsjahr 2003 die üblichen wellenspezifischen Dateien TPBRUTTO, TP, TPKAL, TPGEN, THBRUTTO, TH, THGEN, TKIND und SPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten und Hochrechnungsfaktoren) weitergegeben.
Die in 2003 erstmals erhobenen Biographie-Informationen für Sample G ("Hocheinkommens-Stichprobe") wurden vollständig in die nutzungsfreundlichen Biographie-Datensätze integriert.
Die Daten-CD-Rom #2 enthält mit diesem Release erstmals auch alle SOEP-Daten mit englischsprachigen Variablennamen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Sample G "High Income Sample" (Start 2002)
Die Revision des sampling designs (Erhöhung der Einkommensschwelle) führt zu geringeren Fallzahlen in Welle 2.
Ansprechpartner: Jürgen Schupp
Neue Rectypes 2003
Es gibt jetzt weitere Dateien:
1) BIOCHILD Informationen aus dem Mutter-Kind-Fragebogen:
In diesem neuen File werden künftig jährlich Informationen über die im SOEP Neugeborenen abgelegt (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:Jürgen Schupp
2) BIORESID Informationen zum Zweitwohnsitz bei der Erstbefragung:
Im Datensatz BIORESID sind Angaben zur Wohndauer und zum Zweitwohnsitz abgelegt. Die Informationen stammen aus dem Biographie-Fragebogen, der seit 1994 konsistente Fragen hierzu enthält (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:Thorsten Schneider
3) BIOBRTHM Geburtsbiographie für Männer - ab 2001:
Dieser neue Datensatz enthält geburtsbiographische Angaben für Männer, die seit 2001 mit dem diesbezüglich modifizierten Biographie-Fragebogen befragt werden. BIOBRTHM ist analog zu BIOBIRTH für Frauen aufgebaut (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
4) BIOTWIN Datei zur Identifikation von "Mehrlingen":
BIOTWIN umfasst die Population aller im SOEP identifizierbaren Mehrlingsgeburten. Gespeichert sind die Identifikatoren (PERSNR) zu Mutter und Geschwistern (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp und Christian Schmitt
5) HBRUTT98:
Dieses neue File unterstützt Ausfall-Analysen für die Startwelle von Sample E, in dem die komplette Brutto-Population dieser Teilstichprobe zur Verfügung gestellt wird.
Ansprechpartner: Peter Krause
BIOPAREN 2003
Variablen zur Nationalität der Eltern wurden korrigiert (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp
PGEN 2003
MODE$$und MONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (MODE$$ bzw. MONTH$$, siehe auch zusätzliche Dokumentation (
PDF-Dokument, 315 KB)).
Ansprechpartner: Jürgen Schupp.
$PSBIL
Die Variable $PSBIL wurde aktualisiert. Bei Ausländern musste für das Jahr 2000 die Kategorie "Ohne Abschluss verlassen" [Code 6] aktualisiert werden; hieraus ergab sich Aktualisierungsbedarf bei $BILZEIT, ISCED$$ und CASMIN$$.
AnsprechpartnerIn: Bettina Isengard und Peter Krause
$FAMSTD
Die Variable wurde aktualisiert
Ansprechpartner: Rainer Pischner
HGEN 2003
HMODE$$ und HMONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (HMODE$$ bzw. HMONTH$$, siehe auch zusätzliche Dokumentation (
PDF-Dokument, 241 KB)).
Ansprechpartner: Jürgen Schupp.
PPFAD 2003
GEBMONAT
Die zentralen demographischen Informationen in PPFAD wurden um den Geburtsmonat (Variable GEBMONAT) ergänzt. Diese Angabe wurde inzwischen von allen noch in der Stichprobe enthaltenen Befragungspersonen und Kindern erhoben (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
Die Variablen EINTRITT, ERSTBEFR, AUSTRITT, LETZTBEF wurden aktualisiert. Zum Update siehe Dokumentation (
PDF-Dokument, 263 KB).
Ansprechpartner: Peter Krause
BIOBIRTH 2003
Die geburtsbiographischen Informationen für Frauen wurden ergänzt um Angaben aus dem Jugend-Fragebogen, den inzwischen 16-17jährige Erstbefragungspersonen anstelle des Standard-Biographiefragebogens erhalten (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
BIOIMMIG 2003
Diese Daten wurden wegen einer fehlerhaften Vercodung in den
zurückliegenden Jahren infolge einer Vertauschung der Itemreihenfolge
korrigiert. Dies betrifft die Variablen BIEXPRLV, BIEXPRAC und
BIEXPRAN.(siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jan Goebel
PFLEGE 2003
Für die Jahre ab 1999, also für die Wellen P bis T, gibt es eine neue Variable PNRCARE. PNRCARE ist eine unveränderliche Personennummer und bezeichnet die Person im Haushalt, die vornehmlich die Pflege übernimmt. In drei Fällen waren pflegende und zu pflegende Personen identisch. In diesen Fällen wurde PNRCARE auf -3 gesetzt (unplausibler Wert). Für die Wellen vor 1999 hat PNRCARE den Wert -2.
Ansprechpartner: Rainer Pischner
YPBRUTTO 2003
Überarbeitung von HHNRAKT und HHNROLD bei doppelt geführten
Personen im alten Haushalt.
Ansprechpartner: Peter Krause
$PEQUIV bzw. SOEP-CNEF 2003
Alle Einkommensangaben seit 1984 sind in EURO vercodet.
In Ergänzung zu den bisher zur Verfügung gestellten jährlichen Einkommensaggregaten (Summe aller Einkommen die von allen HHMitgliedern bezogen wurden, Variablen I111xx$$) sind nun auch die individuellen Einkommensbestandteile mit wellenübergreifend konsistenten Variablennamen verfügbar.
Alle aufgrund von item-non-response fehlenden Angaben bei Einkommensvariablen wurden imputiert und sind mit Hilfe entsprechender Flag-Variablen identifizierbar.
Alle Einkommensvariablen sind auch für Sample G enthalten, jedoch
wurden die Standard-Hochrechnungfaktoren auf Basis der Teilstichproben
A-F verwendet.
Siehe auch die Dokumentation (
PDF-Dokument).
Ansprechpartner: Markus Grabka
Datenweitergabe 2002 (Welle T)
Neue Rectypes 2002
1) HBRUTT02
In Ergänzung zu den laufenden, wellenspezifischen Bruttoinformationen zum Feldverlauf (SPBRUTTO, SHBRUTTO) werden für die neue Stichprobe G in der Datei HBRUTT02 auch die Haushalte geführt, die nicht realisiert wurden. HBRUTT02 enthält daher alle Ziehungshaushalte der Stichprobe G; die realisierten Haushalte der Stichprobe G sind auch in dem laufenden Haushaltsbrutto SHBRUTTO enthalten. Dies entspricht derselben Vorgehensweise wie für die Samples A (HBRUTT84), E (HBRUTT98) und F (HBRUTT00).
2) BIOSOC
Der neue Datensatz BIOSOC enthält für alle Personen, die seit dem Jahr 2000 den
Biographie-Fragebogen ausfüllen, Informationen zur Jugend wie z.B. Streit mit den Eltern,
Freizeitaktivitäten, Schulnoten, Bundesland des letzten Schulbesuchs.
Nähere Informationen in der Biographiedokumentation.
BIOJOB 2002
Der Datensatz BIOJOB enthält ausführliche Angaben zum Einstiegsberuf. Neu ist, das hierfür nun auch ISCO88-Angaben, Berufsskalen und Klassenschemata (ISEI, SIOPS, EGP, MPS) sowie Angaben zur Branche (NACE) vorliegen. Neuerdings werden auch Angaben zum letzten Job erhoben und in BIOJOB abgelegt.
Nähere Informationen in der Biographiedokumentation.
BIOPAREN 2002
Der Ansprechpartner für den Update des Prestige-Scores der Eltern ist:
Jürgen Schupp
PGEN 2002
AUTONO$$ >Diese neue Variable basiert auf den Angaben zur ‚Stellung im Beruf' und stellt den Autonomiegrad im Beruf dar.
Ansprechpartner: Jürgen Schupp
STIB$$
Die Variable vereinheitlicht die Angaben zur 'Stellung im Beruf' über alle Wellen.
Ansprechpartner: Jürgen Schupp
ISCED$$, CASMIN$$
Die wellenspezifischen Dateien $PGEN wurden - rückwirkend ab 1984 - um zwei
weitere Bildungsvariablen ($ISCED und $CASMIN) ergänzt, die auf den internationalen
Klassifikationsschemata ISCED (International Standard Classification of Education) bzw.
CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) basieren und somit
zur besseren Vergleichbarkeit bildungsbezogener Analysen auf Basis von SOEP-Daten beitragen.
Ansprechpartnerin: Bettina Isengard
$EQUIV 2002
Gegenüber der letzten Datenweitergabe haben sich grundlegende Veränderungen im Umgang mit Item-Nonresponse bei jahresbezogenen Einkommensvariablen und den aggregierten Einkommensangaben der $PEQUIV-Files ergeben. Das bewährte längsschnittbasierte Verfahren zur Imputation von Item-Nonresponse wurde um eine rein querschnittsbasierte Imputation aller Einkommensvariablen erweitert, die jedoch nur für solche Beobachtungen zum Einsatz kommt, für die keine individuellen Längsschnittinformationen vorliegen. Daraus resultiert nun eine vollständige Ersetzung aller fehlenden Einkommensangaben in den $PEQUIV-Files (für nähere Hinweise zum methodischen Vorgehen der zusätzlichen Imputation vgl. Frick, J.R. and Grabka, M. (2003): Missing Income Data in the GSOEP: Incidence, Imputation and it's Impact on the Income Distribution (
PDF-Dokument, 471 KB).
In diesem Zusammenhang wurden auch die sogenannten Imputationsflags überarbeitet. Diese geben nun den Anteil des imputierten Einkommens am jeweiligen Einkommensaggregat wieder, d.h. bei Vorliegen vollständiger Information ist der Wert 0 und bei Auftreten von Item-Nonresponse kann der Imputationsflag einen Wert bis zu 100 annehmen.
Darüber hinaus stehen nun auch für das neue Sample F vollständige Einkommensinformationen für die Jahre 2000 bis 2002 zur Verfügung.
Die Daten des CNEF stehen derzeit noch nicht für die erste Welle von Sample G zur Verfügung, da die beim SOEP angewandten methodisch anspruchsvollen Imputationsalgorithmen Längsschnittdaten erfordern.
Ansprechpartner: Markus Grabka
Hinweis zur DM - EURO Umstellung 2002
Die Einkommen in PEQUIV beziehen sich immer auf das Vorjahr; insofern sind die in 2002 erhobenen Daten für das Einkommensjahr 2001 noch in DM erhoben. Mit der nächsten Datenweitergabe wird es eine Umstellung aller PEQUIV-Informationen auf EURO geben. Ansonsten gilt das Prinzip, dass alle Angaben in den $P-Files der im Originalfragebogen erhobenen Information entsprechen, d.h. die im Jahre 2002 bereits in EURO erhobenen Einkommen bzw. für das Vorjahr 2001 noch in DM erhobenen Angaben sind entsprechend der in der jeweiligen Frageformulierung verwendeten Währung abgelegt.
Ansprechpartner: Peter Krause
Datenweitergabe 2001 (Welle R)
Die Querschnittsgewichtung ist für alle Wellen (1984-2001) überarbeitet worden.
Die konzeptionellen Änderungen sind:
a) Für die Stichprobe F sind detailliertere Designgewichte als bisher zu
Grunde gelegt worden.
b) Die Randanpassung an die Altersstruktur ist verfeinert worden.
c) Hochrechnungsfaktoren, die höher als das 10-fache ihres
stichprobenspezifischen Medians betrugen, wurden gekappt.
Eine ausführliche Beschreibung finden Sie im Newsletter 60, April 2003.
Mehr Informationen zur Querschnittshochrechnung und der Integration neuer Stichproben finden Sie in unseren Dokumentationen oder auf der aktuellen CD (CD2) im Verzeichnis "\DOCS\HRF".
Ansprechpartner: Rainer Pischner
Neue Rectypes 2001
Es gibt jetzt weitere Dateien:
1) HBRUTT84
Dieses File enthält Brutto-Informationen für alle ausgewählten Haushalte der 1. Welle und schließt somit auch solche Haushalte ein, die nicht zu einem Interview bereit waren. Auf dieser Datengrundlage sind eigenständige Ausfallanalysen für die erste Welle 1984 möglich.
Ansprechpartner: Peter Krause
2) BIOYOUTH
Die Daten der Erhebung mit dem Jugendfragebogen (Pretest 2000 und Erhebung 2001) sind in diesem File abgelegt. Nähere Informationen finden Sie in der Biographiedokumentation.
Ansprechpartner: Thorsten Schneider
BIOMARSY und BIOMARSM 2001
Die Ehestandsbiographien BIOMARSY und BIOMARSM sowie die generierten
Familienstände $FAMSTD sind vollständig neu überarbeitet worden. Diese
Datensätze sind jetzt zu 100% konsistent. Dies hat allerdings zur Konsequenz,
dass sich Familienstandsangaben aus den Personenfragebogen nicht immer mit
den generierten Daten decken.
Nähere Informationen in der Biographiedokumentation
Ansprechpartner: Rainer Pischner
PPFAD 2001
Die neue Variable $POP gibt für jede Person an, ob sie in einem Privat-
oder Anstaltshaushalt lebt und welche Nationalität ihr Haushaltsvorstand hat.
Sie ist eine der Schlüsselvariablen für die Querschnittshochrechnung.
Ansprechpartner: Rainer Pischner
YBRUTTO 2001
Die Ergebnisse der Verbleibstudie 2001/02
(Panelausfälle der Jahre 1985 bis 1998 (
PDF-Dokument, 797 KB))
sind in YBRUTTO eingearbeitet. Bei mehr als 8 000 Bearbeitungsfällen
liegen neue Auskünfte vor, die entweder das Sterbejahr oder das Jahr des
Wegzugs ins Ausland oder den aktuellen Wohnort der Person beinhalten.
Nähere Informationen finden Sie hier.
BIOPAREN 2001
Das aktuelle File enthält neu die Ergebnisse der Biographienacherhebung für die F-Stichprobe des Jahres 2001.
Weiterhin wurde nach den Ergebnissen der Verbleibstudie der Aufenthaltsort der Eltern im Jahr 2001 für alle aktuell befragten Personen dem Datensatz hinzugefügt als neue Variablen VAORT01 (Aufenthaltsort des Vaters 2001 - Befragungsschwerpunkt Familie) und MAORT01 (Aufenthaltsort der Mutter 2001 - Befragungsschwerpunkt Familie).
Die Neuvercodung der Berufsangaben des Vaters/der Mutter konnte noch nicht zum Abschluss gebracht werden. Diese Informationen können jedoch bis Sommer 2003 als Sonderlieferung direkt abgerufen werden (Anfragen bei Jürgen Schupp). Nähere Informationen in der Biographiedokumentation
$PEQUIV-FILES 2001
Auch für die $PEQUIV-FILES wurden einige Änderungen durchgeführt. Ausführliche Informationen hierzu finden Sie in den englischsprachigen FAQ.
PGEN 2001
Betr$$
Bitte achten Sie bei der aktualisierten Version dieser Variable auf
die Sondercodes 3 und 6! Diese Codes wurde aufgrund der seit 1992
sowie 1999 im Vergleich zu den jeweiligen Vorjahren differenzierteren
Erfassung der Itemvorgabe im Bereich kleiner sowie mittlerer
Unternehmen notwendig.
KLAS$$ Klassifikation der Berufe des Stat. Bundesamtes
Ziel der Variable ist die Bereitstellung der jährlich für alle
Erwerbstätigen erfragten Informationen zur beruflichen Tätigkeit.
Da diese Frage nicht jährlich an alle Erwerbstätigen sondern 1985,
1986, 1987, 1988, 1990(West), 1992(West), 1994, 1996 und 1999 sowie
2001 nur an Erwerbstätige mit beruflichem Wechsel geht, wird in
IS88$$ für alle Personen ohne beruflichen Wechsel auch die
verfügbare Vorjahresinformation bereitgestellt.
Im Fragebogen werden jeweils die Klartextangaben der Befragten
eingetragen. Diese aus Datenschutzgründen nicht den Datennutzern
zur Verfügung gestellte Information wurde im Jahr 2002 durch
Infratest Sozialforschung komplett neu vercodet. Die durchgeführten
Arbeiten sind dokumentiert in
Hartmann/Schütz 2002 (
PDF-Dokument, 122 KB).
IS88$$
Sämtliche Klartextangaben der Befragten wurden im Jahr 2002 durch
Infratest Sozialforschung komplett neu vercodet. Die durchgeführten
Arbeiten sind dokumentiert in
Hartmann/Schütz 2002 (
PDF-Dokument, 122 KB).
Die Datenlieferung SOEP 1984-2001 ersetzt bzgl. ISCO88-Vercodung
deshalb ALLE früheren Datenlieferungen.
International Labour Office (ILO) (1990): ISCO-88; International
Standard Classificaton of Occupation, Genf.
Nace$$
Um die internationale Vergleichbarkeit zu erleichtern, wurde das
im SOEP angewandte Verfahren der Klartext-Codierung um die
Generierung der Wirtschaftszweigklassifikation der Europäischen
Union erweitert (Nomenclature des statistiques des Activités
économiques de la Communauté Européenne). Die NACE Rev.1-Version
korrespondiert zudem ISIC Rev. 3 Code (International Standard
Classification of All Economic Activities). Mit der
Datenlieferung 2001 erfolgte eine komplette Nachvercodung der
früheren im SOEP bereitgestellten Branchencodes nach NACE. Bitte
beachten, dass die Sondercodes 96-98 sowie 100 von Infratest für
die Fälle erfolgte, in denen keine detailliertere Klartextangabe
vorlag.
$PSBIL und $_PBBIL01,02,03
Generiert werden für alle Befragungspersonen in integrierter Form
der Schulabschluss (_PSBIL) und der berufliche Abschluss
(_PBBIL01,02,03). Ostspezifische und ausländerspezifische
Abschlüsse werden zudem separat dokumentiert (Ab 2000 wird kein
beruflicher Bildungsabschluss Ost mehr ausgewiesen).
Gegenüber der Lieferung der Daten für das Erhebungsjahr 2000 haben sich folgende Änderungen ergeben:
- Rückwirkend werden von 1990 bis 1999 die ostspezifischen Abschlüsse "Ingenieur-, Fachschule" wieder der Kategorie "Fachschule" (statt: "Fachhochschule, Ingenieurschule") zugeordnet.
- Ab 2000 werden nur noch Variablen auf der Grundlage der im Personenfragebogen neu erhobenen Informationen weitergeführt - diese wurden im Jahr 2000 noch unter dem Namen _EDU_ geführt (der Name EDU wird nicht mehr verwendet).
Achtung:
Gelöschte Variablen früherer Wellen in der Datenlieferung 2001
ISCOU$$, ISCO$$, ISCOH$$
Diese Variablen auf Basis des ISCO68 werden seit 2000 nicht mehr
zur Verfügung gestellt. Stattdessen erfolgte eine Neuvercodung
aller zurückliegenden Klartextangaben auf Basis des
ISCO88-Verfahrens (s. neue Variable IS88$$);
dieser hierarchisch aufgebaute Berufsschlüssel
ersetzt die frühere Unterscheidung in 1-Steller, 2-Steller
sowie 3-Steller bei der Berufsvercodung.
Die bis 2000 generierten Codes dieser Variablen können auf
Nachfrage von der SOEP-Gruppe angefordert werden. Seit 2001
sind die Variablen früherer Wellen gelöscht.
BRANCH$$
Diese Variable stellt das Ergebnis der Klartext-Vercodung der
Wirtschaftszweige dar. Diese - aus Datenschutzgründen nicht
den Datennutzern zur Verfügung gestellten - Texte wurden im
Anschluss an die Befragung vom Zentrum für Umfragen und
Analysen (ZUMA), Mannheim gemäß einer vom DIW erweiterten
Branchenliste vercodet. Diese Liste basiert auf der sog.
ZUMA-Standarddemographie-Liste, die bis Code 23 vollständig
vergleichbar ist. Da die Klassifikation auf Basis von NACE
internationale Vergleiche ermöglicht (s. neue Variable
NACE$$), wurde auf die Vercodung
auf Basis des früheren Branchenschemas verzichtet.
Die bis 2000 generierten Codes dieser Variable können auf Nachfrage (Ansprechpartner: Peter Krause) von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.
Datenweitergabe 2000 (Welle Q)
Neue Rectypes 2000
1) VARIANZ
Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1,
STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen
(z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier
Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt
der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR)
gespeichert.
STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling
Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe
B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B
"künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und
unter der Bezeichnung STRAT2 abgelegt.
Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe
A Stimmbezirke; in Teilstichprobe D nicht vorhanden).
Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der
Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine
Identifikation regionaler Einheiten unmöglich zu machen.
Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl
zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in
befragt wurden, identifizierbar sind.
2) HBRUTT00
Dieses File enthält - wie schon bei der Erhebung der Ergänzungsstichprobe 1998
(Sample E) - alle Bruttoinformationen der durch Random-Route-Verfahren neu
gezogenen Haushalte der Ergänzungsstichprobe des Jahres 2000 (Sample F). Dabei
spielt es keine Rolle, ob diese Haushalte erfolgreich befragt wurden oder
nicht. Derartige Informationen können u.a. für methodische Untersuchungen
über die Beteiligung von Haushalten an (SOEP-) Befragungen herangezogen werden.
3) QJUGEND
Im Jahr 2000 erfolgte erstmals anstelle des Biographiefragebogens die Erhebung
eines Jugendfragebogens. Dieser richtet sich an alle "neuen" Personen, die
aufgrund des erreichten Befragungsalters "16. Lebensjahr" erstmals an der
SOEP-Befragung teilnehmen. Die nunmehr vorliegenden 232 Datensätze von
Jugendlichen ergänzen die Informationen aus dem ebenfalls erstmals
beantworteten Personenfragebogen, um retrospektive Angaben zum Bildungsverlauf
sowie von Basisindikatoren zum Bildungserfolg zu erhalten. Da im Jahr 2001
eine gründliche Revision sowie Erweiterung der Indikatoren des
Jugendfragebogens erfolgte und auch die Jugendlichen der neuen Stichprobe F
erstmals im Jahr 2001 diesen neuen Fragebogen beantwortet haben, stellt der
Datensatz QJUGEND sozusagen eine Art Pretest eines ab 2001 neuen zusätzlich
im Rahmen der Datenweitergabe bereitgestellten Biographiedatensatzes
BIOYOUTH dar.
Überarbeitung der Labels 2000
Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis
einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet.
Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine
Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur
einer Antwortkategorie). Ferner wurden auch die Labels semantisch im
zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde
zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt
rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen.
$PGEN 2000
Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei
Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich
weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen
auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und
ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein
differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor
Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr
2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten
höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden
generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet,
fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der
Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie
Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN
einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch
die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten
Sie dies bei Programmaktualisierungen zu berücksichtigen.
Ansprechpartner: Jürgen Schupp und Peter Krause
$PEQUIV-Files 2000
Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:
- die Erweiterung der Population,
- die Überarbeitung der Variable IMPUTED RENT (Einkommensvorteil aus selbstgenutztem Wohneigentum),
- neue Variablen zur Generierung von Äquivalenzskalen
- eine Überarbeitung der Variablen zu ANNUAL WORKING HOURS.
Datenweitergabe 1999 (Welle P)
Neuer Rectype 1999
INTERVIEW
Bei dieser Datenweitergabe wurde erstmals ein Interviewerdatensatz mitgeliefert.
Er enthält Informationen über Geschlecht, Alter, Bildung, Beruf und Familienstand von
1048 Interviewern, die die Befragungen der Stichproben A, B, C und D in den Wellen 1 bis 12 durchgeführt haben.
Dokumentation (
PDF-Dokument)
Datenweitergabe 1998 (Welle O)
Hochrechnung 1998
Die Hochrechnung der SOEP-Daten wurde für die jüngste
Datenauslieferung zweifach verbessert: Zum einen bieten wir jetzt
reine »Designgewichte« an, in die die designbedingten
Ziehungswahrscheinlichkeiten der (jeweiligen) ersten Welle eingehen.
Diese Gewichte sollen nutzungsdefinierte (ökonometrische) Modellierungen
des Ausfallprozesses im SOEP unterstützen. Die Dokumentation der
Designgewichte befindet sich auf der CD-ROM; sie ist außerdem als
DIW-Diskussionspapier über das Internet (
PDF-Dokument, 223 KB) oder auch als Hardcopy bei
unserer Dokumentationsstelle erhältlich.
Zum zweiten wurde die - insbesondere in deskriptiven Analysen häufig benutzte - Querschnittshochrechnung des SOEP überarbeitet. Intention ist es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die zentrale Randverteilungen des Mikrozensus wiedergeben. Aufbauend auf der unveränderten Längsschnittsgewichtung wurden die Querschnitts-Hochrechnungsfaktoren an nachfolgend aufgeführte Randverteilungen des Mikrozensus angepaßt (diese wurden auch zur Hochrechnung der ersten Welle der Stichprobe E genutzt).
Die Anpassung wurde getrennt nach alten und neuen Ländern für die Jahre 1990 bis 1998 durchgeführt. Stichprobe E wurde bei der Hochrechnung wie die Altstichproben behandelt.
Bei den Haushalten wurde die wohnberechtigte Bevölkerung in Privathaushalten auf Basis des Mikrozensus zugrunde gelegt. Die Anpassung erfolgte an die Haushaltsgröße (1-,2-,3-,4-Personen und Haushalte mit 5 und mehr Personen), Altersklassen (15 bis 69 Jahre, 70 Jahre und älter), Geschlecht (männlich) und Nationalität (nicht-deutsch).
Bei den Personen bildete die Bevölkerung in Privathaushalten am Hauptwohnsitz die Basis.
Die Gewichte für Anstaltshaushalte und Personen in Anstaltshaushalten blieben unverändert.
Die Randanpassungen auf Haushaltsebene wurden mit der DOS-Version des Programms ADJUST von Joachim Merz (Universität Lüneburg) vorgenommen.
Die für ADJUST erforderlichen Startgewichte berücksichtigten die Struktur der alten Hochrechnungsfaktoren, die geschätzten Bleibewahrscheinlichkeiten sowie Sonderfälle, die durch temporäre Ausfälle und Gründung von Neu-Haushalten auftraten.
Die alten Hochrechnungsfaktoren werden natürlich nicht gelöscht, sondern weiterhin für Vergleichszwecke in den Files PHRFOLD und HHRFOLD ausgeliefert.
Die auf den CD-ROMs mit ausgelieferte Version des »Equivalent Files« enthält bereits die neuen Hochrechnungsfaktoren (sowie einige geringfügige Verbesserungen der Einkommensvariablen), während die US-Version noch auf den alten Hochrechnungsfaktoren basiert.
Die Dokumentation der neuen Querschnittshochrechnung befindet sich auf der CD-ROM, und wird als Bestandteil des Desktop-Companions im Internet zu finden sein.
Die Ergänzungsstichprobe E ist nun voll in den SOEP-Datenbestand
integriert. Das bedeutet auch eine gemeinsame Querschnittshochrechnung der
Altstichproben A-D und der Stichprobe E. Zu diesem Zweck wurde eine
»konvexe Gewichtung« gewählt, deren Dokumentation ebenfalls auf der
CD-ROM zu finden und als DIW-Diskussionspapier (
PDF-Dokument, 215 KB) auf unserer
Homepage bzw. als Hardcopy direkt bei der Projektgruppe abrufbar ist.
Die Konvexgewichte wurden so gewählt, daß die Varianz verschiedener Schätzer möglichst klein wird. Mit der angebotenen Lösung erhält die Stichprobe E ein gegenüber ihrer Fallzahl überproportionales Gewicht. Dies ist der Tatsache geschuldet, daß sich die Varianz der Schätzer in den Altstichproben A-D u.a. aufgrund der Panel-Attrition im Laufe der Zeit vergrößert hat.
Die ursprünglichen Hochrechnungsfaktoren (nach der neuen Randanpassung) werden (ab 1998) mit dem Faktor 0,8 multipliziert, die Hochrechnungsfaktoren der Stichprobe E werden mit dem Komplementärfaktor 0,2 gewichtet. Für getrennte Analysen ist die Umgewichtung der Altstichproben sowie die der Stichprobe E somit leicht rückgängig zu machen.
Die speziellen Hochrechnungsfaktoren OHHRFD und OPHRFD für Stichprobe D blieben unverändert.
Sollten Sie Rückfragen zur Hochrechnung haben, wenden Sie sich bitte an Martin Spiess oder Markus Pannenberg aus der SOEP-Gruppe; zu Fragen im Zusammenhang mit der Randanpassung steht Ihnen insbesondere Rainer Pischner für Auskünfte gerne zur Verfügung.
Datenweitergabe 1997 (Welle N)
Neue Rectypes 1997
SOZKALEN
Die neu generierte Datei enthält Sozialhilfespells (Laufende Hilfe zum Lebensunterhalt, Hilfe in besonderen Lebenslagen) von Haushalten auf Monatsbasis beginnend mit Januar 1991 (Erhebungsjahr 1992). Nähere Auskünfte zu dieser Datei erteilt Rainer Pischer.
RBEINK
ist eine Zusammenfassung der von Roland Berntsen für Westdeutschland generierten Einkommensangaben der Erhebungsjahre 1984-1991. Diese Angaben waren bisher bei den generierten Personeninformationen (_PGEN) abgelegt; sie werden nicht weiter fortgeschrieben.
Wir empfehlen stattdessen die Nutzung der in Syracuse generierten Jahreseinkommen: Die Variablen des GSOEP-Equivalent-Files (_PEQUIV) wurden rückwirkend für alle Wellen (bis 1996) in der 100%-Version NEU aufgenommen (aus datenschutzrechtlichen Gründen können in der Scientific-Use-Version diese Daten nur als 95%-Version weitergegeben werden). Diese Dateien enthalten u.a. differenzierte Jahreseinkommen einschließlich Pre- and Postgovernment-Income sowie Angaben zu Sozialversicherungsabgaben und Steuern.
Ebenfalls NEU generiert und vereinheitlicht wurden die jährlich erhobenen Kalenderinformationen (_PKAL) zum monatlichen Erwerbs- und Einkommensverlauf (Einkommen nur bis 1995).
BIOPAREN 1997
BIOPAREN umfaßt lediglich die SOEP-Population bis zum Jahre 1996. Diese Datei wurde jedoch um einige Variablen zur sozialen Herkunft erweitert.
EINKALEN kann - wie bereits erwähnt - aufgrund einer Umstellung in der Erhebung des Einkommenskonzeptes nicht mehr auf Monatsebene fortgeschrieben werden und wird demgemäß zum Stand von 1995 weitergegeben.
PGEN 1997
Erstmalig wird in NPGEN der ISCO-Code zusätzlich auch nach der 88er-Klassifikation abgelegt. Die Variablen TREIMAN__ und WEGEN__ wurden ebenso wie die Variablen _BILZEIT und _ERWZEIT rückwirkend in allen _PGEN-Dateien in der Originalversion (mit einer Nachkommastelle) ausgewiesen. Zudem wurden in allen _PGEN-Dateien drei neue Variablen nachgeladen: _TATZEIT (tatsächliche Arbeitszeit), _VEBZEIT (vereinbarte Arbeitszeit) und _UEBSTD (geleistete Überstunden); auch diese Variablen werden jeweils mit einer Nachkommastelle geführt. Darüberhinaus wurden vereinzelt rückwirkend einige Missing-Angaben in den Personenbrutto-Dateien (_PBRUTTO) aktualisiert. Koordinatoren der Datenaufbereitung sind Peter Krause (Tel.: -690 oder Email: pkrause@diw-berlin.de und Joachim Frick (Tel.: -279 oder Email: jfrick@diw-berlin.de
Mit der neuen Auslieferung der Daten wurde auch die Variable $BILZEIT in $PGEN vereinheitlicht, d.h. die in den verschiedenen Jahren unterschiedlich skalierte Variable $BILZEIT wurde jetzt rückwirkend für alle Wellen in Jahren und (nicht wie früher teilweise in Zehnteln von Jahren) abgespeichert.
Sollten hierzu Fragen haben, wenden Sie sich bitte an Peter Krause (Tel.: -690, Email::pkrause@diw.de).
PKAL 1997
In der Vergangenheit wurden die Kalendarien in unterschiedlicher Form weitergegeben. So wurde diese zum Beispiel in einigen Wellen (A bis F) als separate $PKAL-Files weitergegeben, in anderen Wellen im $P-File integriert. Auch unterschieden sich die String-Varibalen teilweise in ihrer Länge (zwölf oder 24 Spalten).
Mit der neuen Datenlieferung wurden die Kalendarien einheitlich in einem $PKAL-File pro Welle zusammengefaßt und die Strings auf 24 Spalten festgelegt. Zusätzlich wurden zwölf getrennte Monatsvariablen mitgeliefert. Hiermit hoffen wir, Anforderungen Ihrer Statistikpakete gerecht werden zu können.
Für Nachfragen steht Ihnen Peter Krause (Tel.: -690, Email: pkrause@diw.de gerne zur Verfügung.
EQUIV 1997
Bislang wurden die in Syracuse erstellten Equivalent Files in zwei Files weitergegeben: das GSOEP File und das PSID File. Zum ersten Mal war es aus technischen Gründen erforderlich, daß in Syracuse die Files gesplittet weitergegeben werden mußten. Für jedes Jahr besteht nun ein eigenes, nach GSOEP und PSID getrenntes File. Diese neue Struktur wird Ihnen in der neuen Datenlieferung mitgeliefert.
Um Ihnen das Matchen mit dem SOEP Standard-File zu erleichtern, haben wir im GSOEP File die Matchstrukturen vereinheitlicht (HHNR, HHNRAKT, PERSNR). Sie können deshalb jetzt direkt das GSOEP File mit Informationen aus dem SOEP File anreichern; mit anderen Worten: die Files sind einfach wie andere Files im SOEP Datensatz verknüpfbar.
Darüber hinaus werden die GSOEP Equivalent Files direkt von SOEPINFO unterstützt. Dies ermöglicht Ihnen z.B. sich die Frequencies aus dem GSOEP File anzuschauen sowie Kommandofiles automatisch zu erstellen.
Sollten Sie hierzu inhaltliche Fragen haben, wenden Sie sich bitte an Joachim Frick (Tel.: - 279, Email: jfrick@diw.de), für technische Fragen im Zusammenhang mit SOEPINFO wenden Sie sich bitte an John Haisken-De New (Tel.: 461, Email: jhaiskendenew@diw.de).
Zufallseffekte in der Hochrechnung ‘97
Das SOEP ist eine Stichprobe, die unvermeidbar mit einem Stichprobenfehler behaftet ist. Deswegen weisen wir auch immer wieder darauf hin, daß bei deskriptiven Analysen Konfidenzintervalle ausgerechnet werden sollten (z. B. mit Hilfe des Random-Group-Ansatzes, vgl. dazu Exercise 5 in der SAS (Advanced) Retrievals-Section im Desktop Companion). Abweichungen von externen Randverteilungen signalisieren im allgemeinen kein Problem, sondern sind unvermeidbares Ergebnis einer Stichprobe.
Bei der 97er Welle, die in diesen Tagen ausgeliefert wird, ist allerdings ein feldbedingter Zufallseffekt zu beobachten, um den man bei deskriptiven Analysen, die auf Struktur bzw. Zahl der Haushaltstypen abstellen, wissen muss:
Mehrere Ein-Personen-Haushalte, die in den letzten Jahren nur noch mit Mühe zur Teilnahme zu bewegen waren, sind nun endgültig ausgefallen. Als mehrmalige "temporäre Ausfälle" hatten sie große Hochrechnungsfaktoren. Durch ihr Aussteigen sind c. p. hochgerechnet 1,7 Prozentpunkte der Ein-Personen-Haushalte verloren gegangen. Da unser derzeitiges - statistisch fundiertes - Hochrechnungsverfahren diesen Effekt nicht vollständig kompensieren kann, wird der Anteil dieser Haushalte - gemessen am Mikrozensus - nun deutlich unterschätzt.
Es ist davon auszugehen, daß durch die Dynamik des SOEP, der in der Modellierung der Ausfälle und der Hochrechnung sequentiell Rechnung getragen wird, sich der 97er Effekt in den nächsten Jahren "von selbst" auswachsen wird (da wieder neue Haushalte mit grossen Hochrechnungsfaktoren entstehen). Wir wollen deswegen nicht ad-hoc in die Hochrechnungsalgorithmen eingreifen und die statistische Fundierung unserer Hochrechnung zerstören. Gleichwohl sollten Sie bei bestimmten Fragestellungen nun darauf achten, daß es diesen Zufallsfehler gibt. Wer eine punktuell "bessere" Schätzung der Anteile von Ein-Personen-Haushalten benötigt (d. h. zum Beispiel eine Reproduktion des Anteils im Mikrozensus), sollte - je nach seiner Fragestellung - eine Kalibrierung der Querschnittshochrechnung vornehmen, indem sie/er z.B. schlicht an die Mikrozensus-Randverteilung anpaßt.
Derartige Zufallsausreißer können immer wieder mal vorkommen. Wir prüfen deswegen zur Zeit grundsätzlich, inwieweit z.B. durch die intensivere Nutzung von Längsschnittinformationen oder durch die Nutzung der gegebenen Verteilung der Hochrechnungsfaktoren die Robustheit des bewährten Hochrechnungsverfahrens gegenüber den oben skizzierten Zufallseffekten erhöht werden kann. Ad-hoc-Anpassungen der Standard-Hochrechnung sollen aber auf jeden Fall vermieden werden.
Datenweitergabe 1996 (Welle M)
BIO-Files 1996
Die SOEP Gruppe bereitet derzeit einen Satz von Biographie Files vor, die alle in diesem Zusammenhang relevanten Informationen der SOEP-Befragten (soweit sie erhoben werden konnten) in nutzerInnenfreundlicher Form bereitstellt. Eine erste Version dieser Files wird bereits mit der nächsten Datenweitergabe zur Verfügung gestellt.
Befragungspersonen des SOEP beantworten in der Regel im Rahmen ihres ersten Interviews auch den seit 1995 für alle Teilstichproben (A bis D) voll integrierten Lebenslauf- bzw. Biographiefragebogen. Dieser beinhaltet neben der Erwerbsbiographie seit dem 15. Lebensjahr, die Ehe- und Familiengraphie, Informationen zur sozialen Herkunft, zum Berufseinstieg sowie zur "Immigrationsgeschichte" (für nach 1948 nach Deutschland "gewanderte" Personen).
Derzeit liegen die Biographie Daten noch uneinheitlich vor. Zum Teil können fehlende Informationen rekonstruiert werden (1), zum Teil sind Informationen für einige (wenige) Personengruppen unwiderruflich verloren (2). Zudem bestehen zum Teil erhebliche Probleme bei der Verknüpfung der Daten (3).
Zu (1): In der Regel beantworten alle Befragten einmal den Biographiefragen-Komplex (retrospektiv). Aufgrund des erhebungstechnischen Procederes (z.B. Befragungszeit) wurden aber zu Beginn der Befragung in Westdeutschland die Biographie-Informationen über drei Wellen verteilt erhoben, in Ostdeutschland wurden sie erstmals in der dritten Welle (1992) erfragt. Für Personen, die z.B. vor der Erhebung von Biographiedaten ausschieden (Tod, Emigration, Verweigerung) fehlen entsprechend zumindest Teile dieser Angaben.
Zu (2): Für Personen, die bei der Erstbefragung 16 bzw. 17 Jahre alt waren, wurde davon ausgegangen, daß die wenigen, sinnvoll zu erhebenden Biographie-Informationen aus den Daten der laufenden Befragung rekonstriert werden können (z.B. Ehe- und Familienbiographie, soziale Herkunft, Erwerbsbiographie seit dem 15. Lebensjahr).
Soweit fehlende Informationen nachbildbar sind, werden diese in die neuen Biographie Files eingespeist. Die Bereitstellung der Informationen wird dabei ohne Informationsverlust gegenüber den Originalvariablen geschehen.
Zu (3): Schwierigkeiten bei der Zusammenführung und wellenübergreifenden Speicherung der Biographie-Daten ergaben sich auch durch deren im Zeitverlauf unterschiedliche Verortung (in verschiedenen Befragungsinstrumenten) sowie durch Veränderungen in Umfang und Timing (Zeitpunkt der Befragung einzelner Personengruppen).
Ziel der nutzerInnenfreundlichen Biographie-Datenstruktur ist zum einen, die zeitunhängigen Variablen (z.B. Jahr der ersten Zuwanderung nach Deutschland, Berufseinstieg, Ort der Kindheit) für alle Befragungspersonen zu erfassen. Darüber hinaus wird sichergestellt, daß bei zeitabhängigen Variablen (z.B. Familienstand, Zahl der Geburten, Erwerbsbiographie) auch Veränderungen der im Rahmen der einmaligen Biographiebefragung erhobenen Informationen bis zum letzten realisierten Personeninterview aufbereitet und weitergegeben werden.
Die Biographiedaten befinden sich noch im Aufbau. Mit der nächsten Datenlieferung erhalten Sie die bislang fertiggestellten Informationen zu folgenden Themen:
|
|---|
Darüber hinaus werden weiterhin die bereits in der
Standarddatenweitergabe enthaltenen Dateien PBIOSPE (Erwerbsbiographie seit dem
15. Lebensjahr bis zum Zeitpunkt des letzten realisierten Personeninterviews in
Spellform) sowie $PGEN (u.a. höchster Bildungsabschluß Schule und Beruf,
Nationalität) zur Verfügung gestellt.
Koordinator für die Biographie-Files ist Joachim Frick.
Datenweitergabe 1995 (Welle L)
Datenweitergabe 1995 (Welle L)
Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept
Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:
Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen).
Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur).
KSAMPLE 1995
Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:
Warum diese Änderungen?
Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung:
KSAMPLE = 1:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand nicht türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.
KSAMPLE = 2:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.
KSAMPLE = 3:
Haushalte im Gebiet der DDR im Erhebungsjahr der 1. Welle Ost (1990), deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung DDR-BürgerIn war.
KSAMPLE = 4:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle der Zuwandererstichproben D1 und D2 (1994 bzw. 1995), die zwischen 1984 und 1993 zugewandert sind.
Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:
- KSAMPLE = 1 wird oft fälschlich als "Westdeutsche Haushalte bzw. Personen " interpretiert. Dies ist nur bedingt richtig. Tatsächlich sind in Teilstichprobe A aber über 80 AusländerInnen enthalten, die nicht in einem Haushalt mit türkischem, italienischem, jugoslawischem, griechischem oder spanischem Haushaltsvorstand leben. Umgekehrt leben über 220 Deutsche in einem Haushalt des Samples B (Stand 1995).
- Die Nationalität des Haushaltsvorstandes, die die Zuordnung zur Stichprobe definiert, muß nicht zwangsweise mit der der übrigen Personen im Haushalt übereinstimmen.
- KSAMPLE = 3 heißt nur, daß der Haushalt in der 1. Welle (Ost) auf dem Gebiet der damaligen DDR lebte. In den Folgewellen kann er durchaus in die alten Länder übergesiedelt sein (inzwischen etwa 7 % der C-Stichprobe). Umgekehrt gibt es Haushalte der Stichprobe A, die in die neuen Länder übergesiedelt sind. Diese Wanderungsbewegungen sind in den Variablen ySAMPREG (y = G,H,I,J,K,L) festgehalten, die auch in HPFAD und PPFAD zu finden sind.
Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden.
Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen.
Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,
- CASE-ID 19 - 45543 KSAMPLE=1
- 45551 - 59692 KSAMPLE=2
- 500011 - 521795 KSAMPLE=3
- 700010 - 724009 KSAMPLE=4
| |
|||||||||||||||||||||
Änderungen im SOEP-Datensatz seit 1995 |
|||||||||||||||||||||
Inhalt |
|
||||||||||||||||||||
|
|
|||||||||||||||||||||
Datenweitergabe 2005 (Welle V) |
|||||||||||||||||||||
|
|
Mit der Datenweitergabe 2006 (Daten 1984-2005) werden für das Beobachtungsjahr 2005 die üblichen wellenspezifischen Dateien VPBRUTTO, VP, VPKAL, VPGEN, VHBRUTTO, VH, VHGEN, VKIND und UPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die erste CD-ROM enthält wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels. Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen: ***Neue und umbenannte Datensätze Mit der aktuellen Datenweitergabe werden SOEP-Dateien, die auf den altersspezifischen Biographiefragebögen (z.B. Mutter-und-Kind) basieren, in konsistenter Weise benannt. Alle Dateien sind im "long"-Format gespeichert, die Datei-Namen setzen sich zusammen aus dem Term BIOAGE und einem zweistelligen Suffix, der das maximale Alter der betroffenen Individuen angibt: BIOAGE01: BIOAGE03: BIOAGE17: *** Hochrechnung des Querschnitts für 2005 nur vorläufig - Update von VPHRF und VHHRF voraussichtlich im Herbst 2006 Die wellenspezifischen Hochrechnungs- und Gewichtungsfaktoren des SOEP werden jährlich an die jeweiligen Daten des Mikrozensus (MZ) angepasst, so dass die SOEP-spezifische Verteilung nach Region, Alter, Geschlecht, Haushaltsgröße und Nationalität derjenigen des MZ entspricht. Ab dem Jahr 2005 werden Angaben für das Land Berlin nicht mehr nach West und Ost getrennt ausgewiesen, sondern insgesamt den neuen Ländern zugeordnet. Diese Umstellung innerhalb der amtlichen Statistik führt leider auch dazu, dass die für die Querschnittshochrechnung der SOEP Daten 2005 (Welle 22) relevanten Informationen (Reihe "Haushalte und Familien", Hrsg. Statistischen Bundesamt) erst im Herbst 2006 zur Verfügung stehen werden. Um eine entsprechende Verzögerung der Weitergabe der SOEP-Daten bis Welle V (2005) zu vermeiden, basieren die Hochrechnungsfaktoren VPHRF* und VHHRF* der auf CD verfügbaren SOEP-Daten auf dem in Welle U (2004) verwendeten Rahmen. Erfahrungsgemäß wird die Abweichung dieser Eckdaten (mit Ausnahme der neuen Abgrenzung Berlins) nur gering sein. Wir bitten Sie in Ihren Analysen auf die Vorläufigkeit des Hochrechnungsrahmens zu achten und in Veröffentlichungen ggf. darauf hinzuweisen. Wir werden Sie umgehend (via SOEP NEWSLETTER und Homepage) informieren, wenn Sie die aktualisierten Hochrechnungsfaktoren auf Basis des 2005er MZ bei uns abrufen können. ***Neu in $HGEN
AHINC$$ ***Neu in $PGEN (neue und geänderte Variablen)
ALLBET$$ (neu) Kategorien:
BETR$$ (geändert) Die neuen Kategorien sind:
Hinweis: Mit der neuen Variable ALLBET$$ im Datensatz $PGEN steht zusätzlich eine gröbere Kategorisierung der Unternehmensgröße zur Verfügung, die über alle Wellen konsistent kodiert ist (kleinster gemeinsamer Nenner der Variable BETR$$). EMPLST$$(neu) Kategorien:
EXPFT$$(neu) EXPPT$$ (neu) EXPUE$$(neu) Ansprechpartnerin für die o.g. Variablen: Silke Anger *** Neu in $PEQUIV (neue und gelöschte Variablen).
SSOLD$$ FSSOLD$$ LOSSR$$ FLOSSR$$ LOSSC$$ FLOSSC$$ D11112LL D11110$$ gelöscht D11111$$ gelöscht Ansprechpartner: Markus Grabka *** Fehlerupdate Berichtigung von [T-U]HPOP in HPFAD |
||||||||||||||||||||
Datenweitergabe 2004 (Welle U) |
|||||||||||||||||||||
|
|
Mit der Datenweitergabe 2005 (Daten 1984-2004) werden für das Beobachtungsjahr 2004 die üblichen wellenspezifischen Dateien UPBRUTTO, UP, UPKAL, UPGEN, UHBRUTTO, UH, UHGEN, UKIND und TPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben. Die Daten der ersten CD-ROM enthalten wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die Daten CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV). Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
|
||||||||||||||||||||
PPFAD 2004 |
LOC1989 Die zentralen demographischen Informationen in PPFAD wurden um den Wohnort im Jahr 1989 erweitert (Wo lebte eine Person zur Zeit des Mauerfalls? Variable LOC1989). Unterschieden werden die Kategorien "Ostdeutschland", "Westdeutschland" und "Ausland". Die Information ist für alle Befragten und Kinder vorhanden (siehe weitere Dokumentation in der Dokumentation der Biographiedaten).
|
||||||||||||||||||||
PGEN 2004 |
LABGRO$$ und LABNET$$
Es wurden neue Variablen für alle Wellen (A-U) generiert, die den monatlichen Brutto- und Nettoarbeitslohn (LABGRO$$ und LABNET$$) beinhalten - durchgehend in EURO. Fehlende Werte auf Grund von Item-Nonresponse wurden imputiert und können mit Hilfe der zugehörigen Zeiger-Variablen IMPGRO$$ und IMPNET$$ identifiziert werden (weitere Informationen ( |
||||||||||||||||||||
HGEN 2004 |
HINC$$
$HGEN beinhaltet nun auch das direkt erfragte monatliche Netto-Haushaltseinkommen (HINC$$) - durchgehend in EURO für alle Wellen (A-U).
AHINC$$ Eine weitere Variable wurde für die Wellen L-U (1995-2004) generiert, ebenfalls mit der Information zum monatlichen Netto-Haushaltseinkommen (in EURO), allerdings korrigiert für eine mögliche Unterschätzung durch die Auskunft gebende Person (AHINC$$). Eine derartige Unterschätzung wurde mit Hilfe der aktuellen persönlichen Einkünfte aller Personen im Haushalt korrigiert (weitere Informationen ( |
||||||||||||||||||||
$PEQUIV bzw. SOEP-CNEF 2004 |
M11101$$-M11127$$
Die $PEQUIV-Dateien der Wellen A-U beinhalten nun auch international harmonisierte Variablen zur Gesundheit (M11101$$-M11127$$). Weitere Informationen gibt es im Codebook for the $PEQUIV File 1984 – 2004 ( |
||||||||||||||||||||
Datenweitergabe 2003 (Welle T) |
|||||||||||||||||||||
|
|
Mit der Datenweitergabe 2004 werden für das Beobachtungsjahr 2003 die üblichen wellenspezifischen Dateien TPBRUTTO, TP, TPKAL, TPGEN, THBRUTTO, TH, THGEN, TKIND und SPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten und Hochrechnungsfaktoren) weitergegeben. Die in 2003 erstmals erhobenen Biographie-Informationen für Sample G ("Hocheinkommens-Stichprobe") wurden vollständig in die nutzungsfreundlichen Biographie-Datensätze integriert. Die Daten-CD-Rom #2 enthält mit diesem Release erstmals auch alle SOEP-Daten mit englischsprachigen Variablennamen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV). Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
|
||||||||||||||||||||
Sample G "High Income Sample" (Start 2002) |
Die Revision des sampling designs (Erhöhung der Einkommensschwelle) führt zu geringeren Fallzahlen in Welle 2. Ansprechpartner: Jürgen Schupp
|
||||||||||||||||||||
Neue Rectypes 2003 |
Es gibt jetzt weitere Dateien: 1) BIOCHILD Informationen aus dem Mutter-Kind-Fragebogen: In diesem neuen File werden künftig jährlich Informationen über die im SOEP Neugeborenen abgelegt (siehe weitere Dokumentation in Biographiedaten). 2) BIORESID Informationen zum Zweitwohnsitz bei der Erstbefragung: Im Datensatz BIORESID sind Angaben zur Wohndauer und zum Zweitwohnsitz abgelegt. Die Informationen stammen aus dem Biographie-Fragebogen, der seit 1994 konsistente Fragen hierzu enthält (siehe weitere Dokumentation in Biographiedaten). 3) BIOBRTHM Geburtsbiographie für Männer - ab 2001: Dieser neue Datensatz enthält geburtsbiographische Angaben für Männer, die seit 2001 mit dem diesbezüglich modifizierten Biographie-Fragebogen befragt werden. BIOBRTHM ist analog zu BIOBIRTH für Frauen aufgebaut (siehe weitere Dokumentation in Biographiedaten). 4) BIOTWIN Datei zur Identifikation von "Mehrlingen": BIOTWIN umfasst die Population aller im SOEP identifizierbaren Mehrlingsgeburten. Gespeichert sind die Identifikatoren (PERSNR) zu Mutter und Geschwistern (siehe weitere Dokumentation in Biographiedaten). 5) HBRUTT98: Dieses neue File unterstützt Ausfall-Analysen für die Startwelle von Sample E, in dem die komplette Brutto-Population dieser Teilstichprobe zur Verfügung gestellt wird. |
||||||||||||||||||||
BIOPAREN 2003 |
Variablen zur Nationalität der Eltern wurden korrigiert (siehe weitere Dokumentation in Biographiedaten). |
||||||||||||||||||||
PGEN 2003 |
MODE$$und MONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (MODE$$ bzw. MONTH$$, siehe auch zusätzliche Dokumentation ( $PSBIL Die Variable $PSBIL wurde aktualisiert. Bei Ausländern musste für das Jahr 2000 die Kategorie "Ohne Abschluss verlassen" [Code 6] aktualisiert werden; hieraus ergab sich Aktualisierungsbedarf bei $BILZEIT, ISCED$$ und CASMIN$$. $FAMSTD Die Variable wurde aktualisiert
|
||||||||||||||||||||
HGEN 2003 |
HMODE$$ und HMONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (HMODE$$ bzw. HMONTH$$, siehe auch zusätzliche Dokumentation ( |
||||||||||||||||||||
PPFAD 2003 |
GEBMONAT
Die zentralen demographischen Informationen in PPFAD wurden um den Geburtsmonat (Variable GEBMONAT) ergänzt. Diese Angabe wurde inzwischen von allen noch in der Stichprobe enthaltenen Befragungspersonen und Kindern erhoben (siehe weitere Dokumentation in Biographiedaten).
Die Variablen EINTRITT, ERSTBEFR, AUSTRITT, LETZTBEF wurden aktualisiert. Zum Update siehe Dokumentation ( |
||||||||||||||||||||
BIOBIRTH 2003 |
Die geburtsbiographischen Informationen für Frauen wurden ergänzt um Angaben aus dem Jugend-Fragebogen, den inzwischen 16-17jährige Erstbefragungspersonen anstelle des Standard-Biographiefragebogens erhalten (siehe weitere Dokumentation in Biographiedaten). Ansprechpartner: Christian Schmitt |
||||||||||||||||||||
BIOIMMIG 2003 |
Diese Daten wurden wegen einer fehlerhaften Vercodung in den
zurückliegenden Jahren infolge einer Vertauschung der Itemreihenfolge
korrigiert. Dies betrifft die Variablen BIEXPRLV, BIEXPRAC und
BIEXPRAN.(siehe weitere Dokumentation in Biographiedaten). Ansprechpartner: Jan Goebel |
||||||||||||||||||||
PFLEGE 2003 |
Für die Jahre ab 1999, also für die Wellen P bis T, gibt es eine neue Variable PNRCARE. PNRCARE ist eine unveränderliche Personennummer und bezeichnet die Person im Haushalt, die vornehmlich die Pflege übernimmt. In drei Fällen waren pflegende und zu pflegende Personen identisch. In diesen Fällen wurde PNRCARE auf -3 gesetzt (unplausibler Wert). Für die Wellen vor 1999 hat PNRCARE den Wert -2. Ansprechpartner: Rainer Pischner |
||||||||||||||||||||
YPBRUTTO 2003 |
Überarbeitung von HHNRAKT und HHNROLD bei doppelt geführten
Personen im alten Haushalt. |
||||||||||||||||||||
$PEQUIV bzw. SOEP-CNEF 2003 |
Alle Einkommensangaben seit 1984 sind in EURO vercodet.
In Ergänzung zu den bisher zur Verfügung gestellten jährlichen Einkommensaggregaten (Summe aller Einkommen die von allen HHMitgliedern bezogen wurden, Variablen I111xx$$) sind nun auch die individuellen Einkommensbestandteile mit wellenübergreifend konsistenten Variablennamen verfügbar. Alle aufgrund von item-non-response fehlenden Angaben bei Einkommensvariablen wurden imputiert und sind mit Hilfe entsprechender Flag-Variablen identifizierbar. Alle Einkommensvariablen sind auch für Sample G enthalten, jedoch
wurden die Standard-Hochrechnungfaktoren auf Basis der Teilstichproben
A-F verwendet. |
||||||||||||||||||||
Datenweitergabe 2002 (Welle T) |
|||||||||||||||||||||
|
|
|
||||||||||||||||||||
Neue Rectypes 2002 |
1) HBRUTT02
In Ergänzung zu den laufenden, wellenspezifischen Bruttoinformationen zum Feldverlauf (SPBRUTTO, SHBRUTTO) werden für die neue Stichprobe G in der Datei HBRUTT02 auch die Haushalte geführt, die nicht realisiert wurden. HBRUTT02 enthält daher alle Ziehungshaushalte der Stichprobe G; die realisierten Haushalte der Stichprobe G sind auch in dem laufenden Haushaltsbrutto SHBRUTTO enthalten. Dies entspricht derselben Vorgehensweise wie für die Samples A (HBRUTT84), E (HBRUTT98) und F (HBRUTT00). 2) BIOSOC Der neue Datensatz BIOSOC enthält für alle Personen, die seit dem Jahr 2000 den
Biographie-Fragebogen ausfüllen, Informationen zur Jugend wie z.B. Streit mit den Eltern,
Freizeitaktivitäten, Schulnoten, Bundesland des letzten Schulbesuchs. |
||||||||||||||||||||
BIOJOB 2002 |
Der Datensatz BIOJOB enthält ausführliche Angaben zum Einstiegsberuf. Neu ist, das hierfür nun auch ISCO88-Angaben, Berufsskalen und Klassenschemata (ISEI, SIOPS, EGP, MPS) sowie Angaben zur Branche (NACE) vorliegen. Neuerdings werden auch Angaben zum letzten Job erhoben und in BIOJOB abgelegt. |
||||||||||||||||||||
BIOPAREN 2002 |
Der Ansprechpartner für den Update des Prestige-Scores der Eltern ist: Jürgen Schupp |
||||||||||||||||||||
PGEN 2002 |
AUTONO$$
>Diese neue Variable basiert auf den Angaben zur ‚Stellung im Beruf' und stellt
den Autonomiegrad im Beruf dar.
Ansprechpartner: Jürgen Schupp STIB$$ Die Variable vereinheitlicht die Angaben zur 'Stellung im Beruf' über alle Wellen.
ISCED$$, CASMIN$$ Die wellenspezifischen Dateien $PGEN wurden - rückwirkend ab 1984 - um zwei
weitere Bildungsvariablen ($ISCED und $CASMIN) ergänzt, die auf den internationalen
Klassifikationsschemata ISCED (International Standard Classification of Education) bzw.
CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) basieren und somit
zur besseren Vergleichbarkeit bildungsbezogener Analysen auf Basis von SOEP-Daten beitragen.
|
||||||||||||||||||||
$EQUIV 2002 |
Gegenüber der letzten Datenweitergabe haben sich grundlegende Veränderungen im Umgang mit Item-Nonresponse bei jahresbezogenen Einkommensvariablen und den aggregierten Einkommensangaben der $PEQUIV-Files ergeben. Das bewährte längsschnittbasierte Verfahren zur Imputation von Item-Nonresponse wurde um eine rein querschnittsbasierte Imputation aller Einkommensvariablen erweitert, die jedoch nur für solche Beobachtungen zum Einsatz kommt, für die keine individuellen Längsschnittinformationen vorliegen. Daraus resultiert nun eine vollständige Ersetzung aller fehlenden Einkommensangaben in den $PEQUIV-Files (für nähere Hinweise zum methodischen Vorgehen der zusätzlichen Imputation vgl. Frick, J.R. and Grabka, M. (2003): Missing Income Data in the GSOEP: Incidence, Imputation and it's Impact on the Income Distribution ( In diesem Zusammenhang wurden auch die sogenannten Imputationsflags überarbeitet. Diese geben nun den Anteil des imputierten Einkommens am jeweiligen Einkommensaggregat wieder, d.h. bei Vorliegen vollständiger Information ist der Wert 0 und bei Auftreten von Item-Nonresponse kann der Imputationsflag einen Wert bis zu 100 annehmen. Darüber hinaus stehen nun auch für das neue Sample F vollständige Einkommensinformationen für die Jahre 2000 bis 2002 zur Verfügung. Die Daten des CNEF stehen derzeit noch nicht für die erste Welle von Sample G zur Verfügung, da die beim SOEP angewandten methodisch anspruchsvollen Imputationsalgorithmen Längsschnittdaten erfordern. Ansprechpartner: Markus Grabka Hinweis zur DM - EURO Umstellung Ansprechpartner: Peter Krause |
||||||||||||||||||||
Datenweitergabe 2001 (Welle R) |
|||||||||||||||||||||
|
|
Die Querschnittsgewichtung ist für alle Wellen (1984-2001) überarbeitet worden.
Die konzeptionellen Änderungen sind: a) Für die Stichprobe F sind detailliertere Designgewichte als bisher zu Grunde gelegt worden. b) Die Randanpassung an die Altersstruktur ist verfeinert worden. c) Hochrechnungsfaktoren, die höher als das 10-fache ihres stichprobenspezifischen Medians betrugen, wurden gekappt. Eine ausführliche Beschreibung finden Sie im Newsletter 60, April 2003. Mehr Informationen zur Querschnittshochrechnung und der Integration neuer Stichproben finden Sie in unseren Dokumentationen oder auf der aktuellen CD (CD2) im Verzeichnis "\DOCS\HRF". Ansprechpartner: Rainer Pischner
|
||||||||||||||||||||
Neue Rectypes 2001 |
Es gibt jetzt weitere Dateien: 1) HBRUTT84 Dieses File enthält Brutto-Informationen für alle ausgewählten Haushalte der 1. Welle und schließt somit auch solche Haushalte ein, die nicht zu einem Interview bereit waren. Auf dieser Datengrundlage sind eigenständige Ausfallanalysen für die erste Welle 1984 möglich. Ansprechpartner: Peter Krause 2) BIOYOUTH Die Daten der Erhebung mit dem Jugendfragebogen (Pretest 2000 und Erhebung 2001) sind in diesem File abgelegt. Nähere Informationen finden Sie in der Biographiedokumentation. Ansprechpartner: Thorsten Schneider |
||||||||||||||||||||
BIOMARSY und BIOMARSM 2001 |
Die Ehestandsbiographien BIOMARSY und BIOMARSM sowie die generierten
Familienstände $FAMSTD sind vollständig neu überarbeitet worden. Diese
Datensätze sind jetzt zu 100% konsistent. Dies hat allerdings zur Konsequenz,
dass sich Familienstandsangaben aus den Personenfragebogen nicht immer mit
den generierten Daten decken. |
||||||||||||||||||||
PPFAD 2001 |
Die neue Variable $POP gibt für jede Person an, ob sie in einem Privat-
oder Anstaltshaushalt lebt und welche Nationalität ihr Haushaltsvorstand hat.
Sie ist eine der Schlüsselvariablen für die Querschnittshochrechnung.
|
||||||||||||||||||||
YBRUTTO 2001 |
Die Ergebnisse der Verbleibstudie 2001/02
(Panelausfälle der Jahre 1985 bis 1998 ( |
||||||||||||||||||||
BIOPAREN 2001 |
Das aktuelle File enthält neu die Ergebnisse der Biographienacherhebung
für die F-Stichprobe des Jahres 2001.
Weiterhin wurde nach den Ergebnissen der Verbleibstudie der Aufenthaltsort der Eltern im Jahr 2001 für alle aktuell befragten Personen dem Datensatz hinzugefügt als neue Variablen VAORT01 (Aufenthaltsort des Vaters 2001 - Befragungsschwerpunkt Familie) und MAORT01 (Aufenthaltsort der Mutter 2001 - Befragungsschwerpunkt Familie). Die Neuvercodung der Berufsangaben des Vaters/der Mutter konnte noch nicht zum Abschluss gebracht werden. Diese Informationen können jedoch bis Sommer 2003 als Sonderlieferung direkt abgerufen werden (Anfragen bei Jürgen Schupp). Nähere Informationen in der Biographiedokumentation |
||||||||||||||||||||
$PEQUIV-FILES 2001 |
Auch für die $PEQUIV-FILES wurden einige Änderungen durchgeführt. Ausführliche Informationen hierzu finden Sie in den englischsprachigen FAQ. |
||||||||||||||||||||
PGEN 2001 |
Betr$$ Bitte achten Sie bei der aktualisierten Version dieser Variable auf die Sondercodes 3 und 6! Diese Codes wurde aufgrund der seit 1992 sowie 1999 im Vergleich zu den jeweiligen Vorjahren differenzierteren Erfassung der Itemvorgabe im Bereich kleiner sowie mittlerer Unternehmen notwendig. KLAS$$ Klassifikation der Berufe des Stat. Bundesamtes Im Fragebogen werden jeweils die Klartextangaben der Befragten
eingetragen. Diese aus Datenschutzgründen nicht den Datennutzern
zur Verfügung gestellte Information wurde im Jahr 2002 durch
Infratest Sozialforschung komplett neu vercodet. Die durchgeführten
Arbeiten sind dokumentiert in
Hartmann/Schütz 2002 ( IS88$$ Die Datenlieferung SOEP 1984-2001 ersetzt bzgl. ISCO88-Vercodung
deshalb ALLE früheren Datenlieferungen. Nace$$ $PSBIL und $_PBBIL01,02,03 Gegenüber der Lieferung der Daten für das Erhebungsjahr 2000 haben sich folgende Änderungen ergeben:
|
||||||||||||||||||||
Achtung:
|
ISCOU$$, ISCO$$, ISCOH$$ Diese Variablen auf Basis des ISCO68 werden seit 2000 nicht mehr zur Verfügung gestellt. Stattdessen erfolgte eine Neuvercodung aller zurückliegenden Klartextangaben auf Basis des ISCO88-Verfahrens (s. neue Variable IS88$$); dieser hierarchisch aufgebaute Berufsschlüssel ersetzt die frühere Unterscheidung in 1-Steller, 2-Steller sowie 3-Steller bei der Berufsvercodung. Die bis 2000 generierten Codes dieser Variablen können auf Nachfrage von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht. BRANCH$$ Die bis 2000 generierten Codes dieser Variable können auf Nachfrage (Ansprechpartner: Peter Krause) von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht. |
||||||||||||||||||||
Datenweitergabe 2000 (Welle Q) |
|||||||||||||||||||||
|
|
|
||||||||||||||||||||
Neue Rectypes 2000 |
1) VARIANZ Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1, STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen (z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR) gespeichert. STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B "künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und unter der Bezeichnung STRAT2 abgelegt. Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe A Stimmbezirke; in Teilstichprobe D nicht vorhanden). Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine Identifikation regionaler Einheiten unmöglich zu machen. Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in befragt wurden, identifizierbar sind. 2) HBRUTT00 3) QJUGEND |
||||||||||||||||||||
Überarbeitung der Labels 2000 |
Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet. Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur einer Antwortkategorie). Ferner wurden auch die Labels semantisch im zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen. | ||||||||||||||||||||
$PGEN 2000 |
Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei
Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich
weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen
auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und
ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein
differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor
Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr
2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten
höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden
generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet,
fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der
Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie
Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN
einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch
die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten
Sie dies bei Programmaktualisierungen zu berücksichtigen. Ansprechpartner: Jürgen Schupp und Peter Krause |
||||||||||||||||||||
$PEQUIV-Files 2000 |
Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:
|
||||||||||||||||||||
Datenweitergabe 1999 (Welle P) |
|||||||||||||||||||||
Neuer Rectype 1999 |
INTERVIEW
Bei dieser Datenweitergabe wurde erstmals ein Interviewerdatensatz mitgeliefert.
Er enthält Informationen über Geschlecht, Alter, Bildung, Beruf und Familienstand von
1048 Interviewern, die die Befragungen der Stichproben A, B, C und D in den Wellen 1 bis 12 durchgeführt haben. |
||||||||||||||||||||
Datenweitergabe 1998 (Welle O) |
|||||||||||||||||||||
Hochrechnung 1998 |
Die Hochrechnung der SOEP-Daten wurde für die jüngste
Datenauslieferung zweifach verbessert: Zum einen bieten wir jetzt
reine »Designgewichte« an, in die die designbedingten
Ziehungswahrscheinlichkeiten der (jeweiligen) ersten Welle eingehen.
Diese Gewichte sollen nutzungsdefinierte (ökonometrische) Modellierungen
des Ausfallprozesses im SOEP unterstützen. Die Dokumentation der
Designgewichte befindet sich auf der CD-ROM; sie ist außerdem als
DIW-Diskussionspapier über das Internet ( Zum zweiten wurde die - insbesondere in deskriptiven Analysen häufig benutzte - Querschnittshochrechnung des SOEP überarbeitet. Intention ist es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die zentrale Randverteilungen des Mikrozensus wiedergeben. Aufbauend auf der unveränderten Längsschnittsgewichtung wurden die Querschnitts-Hochrechnungsfaktoren an nachfolgend aufgeführte Randverteilungen des Mikrozensus angepaßt (diese wurden auch zur Hochrechnung der ersten Welle der Stichprobe E genutzt). Die Anpassung wurde getrennt nach alten und neuen Ländern für die Jahre 1990 bis 1998 durchgeführt. Stichprobe E wurde bei der Hochrechnung wie die Altstichproben behandelt. Bei den Haushalten wurde die wohnberechtigte Bevölkerung in Privathaushalten auf Basis des Mikrozensus zugrunde gelegt. Die Anpassung erfolgte an die Haushaltsgröße (1-,2-,3-,4-Personen und Haushalte mit 5 und mehr Personen), Altersklassen (15 bis 69 Jahre, 70 Jahre und älter), Geschlecht (männlich) und Nationalität (nicht-deutsch). Bei den Personen bildete die Bevölkerung in Privathaushalten am Hauptwohnsitz die Basis. Die Gewichte für Anstaltshaushalte und Personen in Anstaltshaushalten blieben unverändert. Die Randanpassungen auf Haushaltsebene wurden mit der DOS-Version des Programms ADJUST von Joachim Merz (Universität Lüneburg) vorgenommen. Die für ADJUST erforderlichen Startgewichte berücksichtigten die Struktur der alten Hochrechnungsfaktoren, die geschätzten Bleibewahrscheinlichkeiten sowie Sonderfälle, die durch temporäre Ausfälle und Gründung von Neu-Haushalten auftraten. Die alten Hochrechnungsfaktoren werden natürlich nicht gelöscht, sondern weiterhin für Vergleichszwecke in den Files PHRFOLD und HHRFOLD ausgeliefert. Die auf den CD-ROMs mit ausgelieferte Version des »Equivalent Files« enthält bereits die neuen Hochrechnungsfaktoren (sowie einige geringfügige Verbesserungen der Einkommensvariablen), während die US-Version noch auf den alten Hochrechnungsfaktoren basiert. Die Dokumentation der neuen Querschnittshochrechnung befindet sich auf der CD-ROM, und wird als Bestandteil des Desktop-Companions im Internet zu finden sein.
Die Ergänzungsstichprobe E ist nun voll in den SOEP-Datenbestand
integriert. Das bedeutet auch eine gemeinsame Querschnittshochrechnung der
Altstichproben A-D und der Stichprobe E. Zu diesem Zweck wurde eine
»konvexe Gewichtung« gewählt, deren Dokumentation ebenfalls auf der
CD-ROM zu finden und als DIW-Diskussionspapier ( Die Konvexgewichte wurden so gewählt, daß die Varianz verschiedener Schätzer möglichst klein wird. Mit der angebotenen Lösung erhält die Stichprobe E ein gegenüber ihrer Fallzahl überproportionales Gewicht. Dies ist der Tatsache geschuldet, daß sich die Varianz der Schätzer in den Altstichproben A-D u.a. aufgrund der Panel-Attrition im Laufe der Zeit vergrößert hat. Die ursprünglichen Hochrechnungsfaktoren (nach der neuen Randanpassung) werden (ab 1998) mit dem Faktor 0,8 multipliziert, die Hochrechnungsfaktoren der Stichprobe E werden mit dem Komplementärfaktor 0,2 gewichtet. Für getrennte Analysen ist die Umgewichtung der Altstichproben sowie die der Stichprobe E somit leicht rückgängig zu machen. Die speziellen Hochrechnungsfaktoren OHHRFD und OPHRFD für Stichprobe D blieben unverändert. Sollten Sie Rückfragen zur Hochrechnung haben, wenden Sie sich bitte an Martin Spiess oder Markus Pannenberg aus der SOEP-Gruppe; zu Fragen im Zusammenhang mit der Randanpassung steht Ihnen insbesondere Rainer Pischner für Auskünfte gerne zur Verfügung. |
||||||||||||||||||||
Datenweitergabe 1997 (Welle N) |
|||||||||||||||||||||
Neue Rectypes 1997 |
SOZKALEN RBEINK Wir empfehlen stattdessen die Nutzung der in Syracuse generierten Jahreseinkommen: Die Variablen des GSOEP-Equivalent-Files (_PEQUIV) wurden rückwirkend für alle Wellen (bis 1996) in der 100%-Version NEU aufgenommen (aus datenschutzrechtlichen Gründen können in der Scientific-Use-Version diese Daten nur als 95%-Version weitergegeben werden). Diese Dateien enthalten u.a. differenzierte Jahreseinkommen einschließlich Pre- and Postgovernment-Income sowie Angaben zu Sozialversicherungsabgaben und Steuern. Ebenfalls NEU generiert und vereinheitlicht wurden die jährlich erhobenen Kalenderinformationen (_PKAL) zum monatlichen Erwerbs- und Einkommensverlauf (Einkommen nur bis 1995). |
||||||||||||||||||||
BIOPAREN 1997 |
BIOPAREN umfaßt lediglich die SOEP-Population bis zum Jahre 1996. Diese Datei wurde jedoch um einige Variablen zur sozialen Herkunft erweitert.
EINKALEN kann - wie bereits erwähnt - aufgrund einer Umstellung in der Erhebung des Einkommenskonzeptes nicht mehr auf Monatsebene fortgeschrieben werden und wird demgemäß zum Stand von 1995 weitergegeben. |
||||||||||||||||||||
PGEN 1997 |
Erstmalig wird in NPGEN der ISCO-Code zusätzlich auch nach der 88er-Klassifikation abgelegt. Die Variablen TREIMAN__ und WEGEN__ wurden ebenso wie die Variablen _BILZEIT und _ERWZEIT rückwirkend in allen _PGEN-Dateien in der Originalversion (mit einer Nachkommastelle) ausgewiesen. Zudem wurden in allen _PGEN-Dateien drei neue Variablen nachgeladen: _TATZEIT (tatsächliche Arbeitszeit), _VEBZEIT (vereinbarte Arbeitszeit) und _UEBSTD (geleistete Überstunden); auch diese Variablen werden jeweils mit einer Nachkommastelle geführt. Darüberhinaus wurden vereinzelt rückwirkend einige Missing-Angaben in den Personenbrutto-Dateien (_PBRUTTO) aktualisiert. Koordinatoren der Datenaufbereitung sind Peter Krause (Tel.: -690 oder Email: pkrause@diw-berlin.de und Joachim Frick (Tel.: -279 oder Email: jfrick@diw-berlin.de Mit der neuen Auslieferung der Daten wurde auch die Variable $BILZEIT in $PGEN vereinheitlicht, d.h. die in den verschiedenen Jahren unterschiedlich skalierte Variable $BILZEIT wurde jetzt rückwirkend für alle Wellen in Jahren und (nicht wie früher teilweise in Zehnteln von Jahren) abgespeichert. |
||||||||||||||||||||
PKAL 1997 |
In der Vergangenheit wurden die Kalendarien in unterschiedlicher Form weitergegeben. So wurde diese zum Beispiel in einigen Wellen (A bis F) als separate $PKAL-Files weitergegeben, in anderen Wellen im $P-File integriert. Auch unterschieden sich die String-Varibalen teilweise in ihrer Länge (zwölf oder 24 Spalten). Mit der neuen Datenlieferung wurden die Kalendarien einheitlich in einem $PKAL-File pro Welle zusammengefaßt und die Strings auf 24 Spalten festgelegt. Zusätzlich wurden zwölf getrennte Monatsvariablen mitgeliefert. Hiermit hoffen wir, Anforderungen Ihrer Statistikpakete gerecht werden zu können. Für Nachfragen steht Ihnen Peter Krause (Tel.: -690, Email: pkrause@diw.de gerne zur Verfügung. |
||||||||||||||||||||
EQUIV 1997 |
Bislang wurden die in Syracuse erstellten Equivalent Files in zwei Files weitergegeben: das GSOEP File und das PSID File. Zum ersten Mal war es aus technischen Gründen erforderlich, daß in Syracuse die Files gesplittet weitergegeben werden mußten. Für jedes Jahr besteht nun ein eigenes, nach GSOEP und PSID getrenntes File. Diese neue Struktur wird Ihnen in der neuen Datenlieferung mitgeliefert. Um Ihnen das Matchen mit dem SOEP Standard-File zu erleichtern, haben wir im GSOEP File die Matchstrukturen vereinheitlicht (HHNR, HHNRAKT, PERSNR). Sie können deshalb jetzt direkt das GSOEP File mit Informationen aus dem SOEP File anreichern; mit anderen Worten: die Files sind einfach wie andere Files im SOEP Datensatz verknüpfbar. Darüber hinaus werden die GSOEP Equivalent Files direkt von SOEPINFO unterstützt. Dies ermöglicht Ihnen z.B. sich die Frequencies aus dem GSOEP File anzuschauen sowie Kommandofiles automatisch zu erstellen. Sollten Sie hierzu inhaltliche Fragen haben, wenden Sie sich bitte an Joachim Frick (Tel.: - 279, Email: jfrick@diw.de), für technische Fragen im Zusammenhang mit SOEPINFO wenden Sie sich bitte an John Haisken-De New (Tel.: 461, Email: jhaiskendenew@diw.de). |
||||||||||||||||||||
Zufallseffekte in der Hochrechnung ‘97 |
Das SOEP ist eine Stichprobe, die unvermeidbar mit einem Stichprobenfehler behaftet ist. Deswegen weisen wir auch immer wieder darauf hin, daß bei deskriptiven Analysen Konfidenzintervalle ausgerechnet werden sollten (z. B. mit Hilfe des Random-Group-Ansatzes, vgl. dazu Exercise 5 in der SAS (Advanced) Retrievals-Section im Desktop Companion). Abweichungen von externen Randverteilungen signalisieren im allgemeinen kein Problem, sondern sind unvermeidbares Ergebnis einer Stichprobe. Bei der 97er Welle, die in diesen Tagen ausgeliefert wird, ist allerdings ein feldbedingter Zufallseffekt zu beobachten, um den man bei deskriptiven Analysen, die auf Struktur bzw. Zahl der Haushaltstypen abstellen, wissen muss: Mehrere Ein-Personen-Haushalte, die in den letzten Jahren nur noch mit Mühe zur Teilnahme zu bewegen waren, sind nun endgültig ausgefallen. Als mehrmalige "temporäre Ausfälle" hatten sie große Hochrechnungsfaktoren. Durch ihr Aussteigen sind c. p. hochgerechnet 1,7 Prozentpunkte der Ein-Personen-Haushalte verloren gegangen. Da unser derzeitiges - statistisch fundiertes - Hochrechnungsverfahren diesen Effekt nicht vollständig kompensieren kann, wird der Anteil dieser Haushalte - gemessen am Mikrozensus - nun deutlich unterschätzt. Es ist davon auszugehen, daß durch die Dynamik des SOEP, der in der Modellierung der Ausfälle und der Hochrechnung sequentiell Rechnung getragen wird, sich der 97er Effekt in den nächsten Jahren "von selbst" auswachsen wird (da wieder neue Haushalte mit grossen Hochrechnungsfaktoren entstehen). Wir wollen deswegen nicht ad-hoc in die Hochrechnungsalgorithmen eingreifen und die statistische Fundierung unserer Hochrechnung zerstören. Gleichwohl sollten Sie bei bestimmten Fragestellungen nun darauf achten, daß es diesen Zufallsfehler gibt. Wer eine punktuell "bessere" Schätzung der Anteile von Ein-Personen-Haushalten benötigt (d. h. zum Beispiel eine Reproduktion des Anteils im Mikrozensus), sollte - je nach seiner Fragestellung - eine Kalibrierung der Querschnittshochrechnung vornehmen, indem sie/er z.B. schlicht an die Mikrozensus-Randverteilung anpaßt. Derartige Zufallsausreißer können immer wieder mal vorkommen. Wir prüfen deswegen zur Zeit grundsätzlich, inwieweit z.B. durch die intensivere Nutzung von Längsschnittinformationen oder durch die Nutzung der gegebenen Verteilung der Hochrechnungsfaktoren die Robustheit des bewährten Hochrechnungsverfahrens gegenüber den oben skizzierten Zufallseffekten erhöht werden kann. Ad-hoc-Anpassungen der Standard-Hochrechnung sollen aber auf jeden Fall vermieden werden. |
||||||||||||||||||||
Datenweitergabe 1996 (Welle M) |
|||||||||||||||||||||
BIO-Files 1996 |
Die SOEP Gruppe bereitet derzeit einen Satz von Biographie Files vor, die alle in diesem Zusammenhang relevanten Informationen der SOEP-Befragten (soweit sie erhoben werden konnten) in nutzerInnenfreundlicher Form bereitstellt. Eine erste Version dieser Files wird bereits mit der nächsten Datenweitergabe zur Verfügung gestellt. Befragungspersonen des SOEP beantworten in der Regel im Rahmen ihres ersten Interviews auch den seit 1995 für alle Teilstichproben (A bis D) voll integrierten Lebenslauf- bzw. Biographiefragebogen. Dieser beinhaltet neben der Erwerbsbiographie seit dem 15. Lebensjahr, die Ehe- und Familiengraphie, Informationen zur sozialen Herkunft, zum Berufseinstieg sowie zur "Immigrationsgeschichte" (für nach 1948 nach Deutschland "gewanderte" Personen). Derzeit liegen die Biographie Daten noch uneinheitlich vor. Zum Teil können fehlende Informationen rekonstruiert werden (1), zum Teil sind Informationen für einige (wenige) Personengruppen unwiderruflich verloren (2). Zudem bestehen zum Teil erhebliche Probleme bei der Verknüpfung der Daten (3). Zu (1): In der Regel beantworten alle Befragten einmal den Biographiefragen-Komplex (retrospektiv). Aufgrund des erhebungstechnischen Procederes (z.B. Befragungszeit) wurden aber zu Beginn der Befragung in Westdeutschland die Biographie-Informationen über drei Wellen verteilt erhoben, in Ostdeutschland wurden sie erstmals in der dritten Welle (1992) erfragt. Für Personen, die z.B. vor der Erhebung von Biographiedaten ausschieden (Tod, Emigration, Verweigerung) fehlen entsprechend zumindest Teile dieser Angaben. Zu (2): Für Personen, die bei der Erstbefragung 16 bzw. 17 Jahre alt waren, wurde davon ausgegangen, daß die wenigen, sinnvoll zu erhebenden Biographie-Informationen aus den Daten der laufenden Befragung rekonstriert werden können (z.B. Ehe- und Familienbiographie, soziale Herkunft, Erwerbsbiographie seit dem 15. Lebensjahr). Soweit fehlende Informationen nachbildbar sind, werden diese in die neuen Biographie Files eingespeist. Die Bereitstellung der Informationen wird dabei ohne Informationsverlust gegenüber den Originalvariablen geschehen. Zu (3): Schwierigkeiten bei der Zusammenführung und wellenübergreifenden Speicherung der Biographie-Daten ergaben sich auch durch deren im Zeitverlauf unterschiedliche Verortung (in verschiedenen Befragungsinstrumenten) sowie durch Veränderungen in Umfang und Timing (Zeitpunkt der Befragung einzelner Personengruppen). Ziel der nutzerInnenfreundlichen Biographie-Datenstruktur ist zum einen, die zeitunhängigen Variablen (z.B. Jahr der ersten Zuwanderung nach Deutschland, Berufseinstieg, Ort der Kindheit) für alle Befragungspersonen zu erfassen. Darüber hinaus wird sichergestellt, daß bei zeitabhängigen Variablen (z.B. Familienstand, Zahl der Geburten, Erwerbsbiographie) auch Veränderungen der im Rahmen der einmaligen Biographiebefragung erhobenen Informationen bis zum letzten realisierten Personeninterview aufbereitet und weitergegeben werden. Die Biographiedaten befinden sich noch im Aufbau. Mit der nächsten Datenlieferung erhalten Sie die bislang fertiggestellten Informationen zu folgenden Themen:
Darüber hinaus werden weiterhin die bereits in der Standarddatenweitergabe enthaltenen Dateien PBIOSPE (Erwerbsbiographie seit dem 15. Lebensjahr bis zum Zeitpunkt des letzten realisierten Personeninterviews in Spellform) sowie $PGEN (u.a. höchster Bildungsabschluß Schule und Beruf, Nationalität) zur Verfügung gestellt. Koordinator für die Biographie-Files ist Joachim Frick. |
||||||||||||||||||||
Datenweitergabe 1995 (Welle L) |
|||||||||||||||||||||
Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept |
Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:
Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen). Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur). |
||||||||||||||||||||
KSAMPLE 1995 |
Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:
Warum diese Änderungen? Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung: KSAMPLE = 1: KSAMPLE = 2: KSAMPLE = 3: KSAMPLE = 4: Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:
Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden. Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen. Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,
|
||||||||||||||||||||

Diese Seite empfehlen