SOEP-Core v12 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept

Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:

Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen).

Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur).

KSAMPLE 1995

Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:

Warum diese Änderungen?

Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung:

KSAMPLE = 1:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand nicht türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 2:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 3:
Haushalte im Gebiet der DDR im Erhebungsjahr der 1. Welle Ost (1990), deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung DDR-BürgerIn war.

KSAMPLE = 4:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle der Zuwandererstichproben D1 und D2 (1994 bzw. 1995), die zwischen 1984 und 1993 zugewandert sind.

Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:

KSAMPLE = 1 wird oft fälschlich als "Westdeutsche Haushalte bzw. Personen " interpretiert. Dies ist nur bedingt richtig. Tatsächlich sind in Teilstichprobe A aber über 80 AusländerInnen enthalten, die nicht in einem Haushalt mit türkischem, italienischem, jugoslawischem, griechischem oder spanischem Haushaltsvorstand leben. Umgekehrt leben über 220 Deutsche in einem Haushalt des Samples B (Stand 1995).
Die Nationalität des Haushaltsvorstandes, die die Zuordnung zur Stichprobe definiert, muß nicht zwangsweise mit der der übrigen Personen im Haushalt übereinstimmen.
KSAMPLE = 3 heißt nur, daß der Haushalt in der 1. Welle (Ost) auf dem Gebiet der damaligen DDR lebte. In den Folgewellen kann er durchaus in die alten Länder übergesiedelt sein (inzwischen etwa 7 % der C-Stichprobe). Umgekehrt gibt es Haushalte der Stichprobe A, die in die neuen Länder übergesiedelt sind. Diese Wanderungsbewegungen sind in den Variablen ySAMPREG (y = G,H,I,J,K,L) festgehalten, die auch in HPFAD und PPFAD zu finden sind.

Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden.

Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen.

Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,

CASE-ID 19 - 45543 KSAMPLE=1
45551 - 59692 KSAMPLE=2
500011 - 521795 KSAMPLE=3
700010 - 724009 KSAMPLE=4.

SOEP-Core

SOEP-IS

Weiteres Angebot

Datensatzinformation