Als neue Auffrischungsstichprobe umfasst Sample O ca. 1.000 neue Haushalte. Diese wurden in Kooperation mit dem BBSR mit Hilfe eines neuen, auf Regionaldaten basierenden Stichprobendesign in Gebieten des Städtebauförderprogramms „Sozialen Stadt“ gezogen. Auf Basis der digital vorliegenden Daten zu den Grenzen der Soziale Stadt-Gebiete konnte rückwirkend ab dem Jahr 2000 eine neue Variable erstellt wurde, die kennzeichnet, ob die Wohnadresse des Haushaltes innerhalb eines solchen Fördergebiets liegt oder nicht (siehe auch die Variablenbeschreibung unten unter 4.4.)
Es gab folgende wichtige Veränderungen über die normalen jährlichen Aktualisierungen hinaus:
4.1 Frühe Kindheit
4.2. Ihr Leben in der DDR
4.3 Biografie-Nacherhebung
4.4 Neue Variable SOCURBAN im Datensatz HBRUTTO
4.5. Neue Variablen im Datensatz EQUIV
4.6. Neue Variablen im Datensatz BIOJOB
5.1. Die Gewichtungsvariable PHRF im Datensatz PPATHL
5.2. Variablen zur Vercodung von Berufsbezeichnungen
5.3. Bildungsvariablen
5.4. Datensatz KIDLONG
5.5. Dataset BHKIND
5.6. Dataset BIKIND
5.7. Variable PARID im Datensatz PPATHL
5.8. Variable HGOWNER im Datensatz HGEN
5.9. Datensatz INTERVIEWER
5.10. Datensatz BIOAGE17
5.11. Datensatz BIOAGEL
Die interne Trennung in BIOAGE 8a und 8b bzw. 81 und 82 wurde aufgehoben, daher enthält der Datensatz BIOAGEL jetzt für die Fragebögen über die 7-8-jährigen Kinder eine Zeile pro Kind und Befragungsperson. Das heißt, wenn beide Eltern je einen Fragebogen ausgefüllt haben, dann gibt es für das entsprechende Kind in diesem Jahr zwei Zeilen (eine Zeile pro Elternteil), die sich aber durch die unterschiedliche PIDE (PID der Befragungsperson) identifizieren lassen.
Mit der neuen Welle der SOEP-Haupterhebung (SOEP-Core) führen wir die beiden bisher getrennt übermittelten Formate (wide und long) zusammen. Dadurch wollen wir Unklarheiten vermeiden, was in welchem Format vorliegt und die Nutzung der Daten insgesamt erleichtern. Nachdem wir bereits einige Jahre lang SOEPlong als ein nutzerfreundliches ergänzendes Angebot – sowohl für EinsteigerInnen als auch für langjährige NutzerInnen – getestet haben, soll nun die Weitergabe der SOEP-Daten standardmäßig auch alle Datensätze im long-Format enthalten. Das bedeutet, dass das ausgelieferte Datenfile folgende unterschiedlichen Formate der SOEP-Daten enthält, die zum Teil in unterschiedlichen Verzeichnissen gespeichert sind.
Bitte achten Sie daher darauf, dass Sie beim Entpacken auch die Verzeichnisstruktur mit entpacken.
1.1. SOEP im „long“ -Format auf der obersten Ebene
Im obersten Verzeichnis (oder dem Root-Verzeichnis) liegen alle bisher mit SOEPlong ausgelieferten Datensätze (also PL, PPFADL etc.) sowie die bisher nur im wide-Format ausgelieferten Datensätze (z.B. die Biografie- oder spellbezogenen Datensätze, wie BIOPAREN, ARTKALEN usw.). Damit ist der komplette Datenumfang der SOEP-Haupterhebung mit den im obersten Verzeichnis liegenden Datensätzen abgedeckt.
Nachdem wir bereits seit einigen Jahren das long-Format als ein nutzerfreundliches ergänzendes Angebot bereitstellen, sind wir überzeugt, dass dieses Format insbesondere für EinsteigerInnen eine sehr viel komfortablere Nutzung der Daten ermöglicht. Deswegen haben wir entschieden, jetzt und in Zukunft dieses Format bevorzugt weiterzugeben.
Die einzelnen jahresspezifisch vorliegenden Datensätze werden dabei gepoolt über alle Jahre in einem Datensatz zusammengefasst. (z.B. werden alle $P-Datensätze in einen PL-Datensatz integriert. Hierbei müssen Variablen gegebenenfalls über die Zeit harmonisiert werden. Die Harmonisierung erfolgt, um Variablen über die Zeit konsistent in einer Variable abbilden zu können: So werden beispielsweise auch die Einkommensangaben, die vor 2001 erfolgten, durchgehend in Euro und nicht in DM ausgewiesen, oder bei veränderten Fragebogenfassungen werden gegebenenfalls Kategorien über die Zeit angepasst. Alle Anpassungen werden jeweils für die NutzerInnen erkennbar und nachvollziehbar dargestellt, zudem werden alle modifizierten Variablen in ihrer jeweils ursprünglichen Form bereitgestellt. (siehe unten: _v*-variables). SOEPlong reduziert damit sowohl die Anzahl an Datensätzen als auch die Zahl der Variablen erheblich.
Eine detailliertere Beschreibung dieses neuen Formats der SOEP-Core-Datenweitergabe finden Sie in unserem neuen SOEPcompanion.
1.1.1. Die wichtigsten Änderungen zu v34 im long-Format
1.2. Klassisches Format im Unterverzeichnis raw
Weil wir uns bewusst sind, dass viele Skripte auf dem Original-Datenformat beruhen und um den Prozess der Generierung der long-Daten nachvollziehbar zu machen, finden Sie alle Datensätze im originalen SOEP-Format im Verzeichnis raw.
NutzerInnen, die weiterhin das alte Format nutzen wollen, brauchen nur ins Unterverzeichnis raw zu wechseln und die Datensätze zu nutzen, die dort liegen.
Der einzige Unterschied zu vorher ist, dass es jetzt in allen Datensätzen im raw-Verzeichnis zusätzliche Identifikatoren mit den Namen im long-Format gibt (PID und PERSNR oder HID und $HHNRAKT) sowie die Variable für das Befragungsjahr (SYEAR), so dass die Nutzenden ganz einfach Variablen aus beiden Datenformate mergen können.
1.3. Neuer EU-SILC-Klon im Unterverzeichnis eu-silc-clone
Vielen NutzerInnen ist sicher bekannt, dass das SOEP länderübergreifende Analysen mit Hilfe des CNEF durch den Datensatz PEQUIV unterstützt. Wir haben nun ein Datenprodukt entwickelt, das es Ihnen ermöglicht, die SOEP-Daten für vergleichenden Analysen zusammen mit den Daten von EU-SILC (European Union Statistics on Income and Living Conditions) zu nutzen. EU-SILC, das von Eurostat auf Anfrage zur Verfügung gestellt wird, bietet Querschnitt- und Längsschnittinformationen für viele europäische Länder. Für für Deutschland lagen bisher allerdings nur Querschnittinformationen vor. Der EU-SILC-Klon bietet nun Längsschnittinformationen über private Haushalte in Deutschland auf der Grundlage der SOEP-Daten. Alle darin enthaltenen Informationen sind direkt mit den EU-SILC-Längsschnittinformationen anderer europäischer Länder vergleichbar.
Der EU-SILC-Klon ist in die Standard-SOEP-Datenweitergabe (im Unterverzeichnis eu-silc clone) integriert.
Die Dokumentation des EU-SILC-Klons 2005-2016 finden Sie hier (PDF, 3.01 MB).
Die neue SOEP-Core-Datenweitergabe (v34) ist die erste, die Daten aus der IAB-BAMF-SOEP-Befragung von Geflüchteten in Deutschland als Sample M5, sowie die Fortsetzung der PIAAC-L-Befragung als Sample N enthält.
2.1. IAB-BAMF-SOEP Befragung von Geflüchteten (M5)
In Zusammenarbeit mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB) und dem Bundesamt für Migration und Flüchtlinge (BAMF) ist es dem SOEP gelungen, eine dritte Stichprobe von Haushalten Geflüchteter (M5) in die SOEP-Studie zu integrieren. Diese Stichprobe wurde 2017 erstmals befragt. Die Grundgesamtheit von M5 besteht aus erwachsenen Geflüchteten, die seit dem 1. Januar 2013 in Deutschland Asyl beantragt haben und derzeit in Deutschland leben. SOEP-Core wurde mit M5 so um 1.519 Haushalte von Geflüchteten, die seit 2013 nach Deutschland gekommen sind, erweitert.
2.2. Integration der Befragungspersonen aus PIAAC-L als Teilstichprobe N
2017 wurden 2.314 Haushalte ehemaliger TeilnehmerInnen der Studie „Program for the International Assessment of Adult Competencies“ (PIAAC und PIAAC-L) erstmals als SOEP-Haushalte befragt und sind jetzt als Stichprobe N integriert. Dies ist die jüngste Ergänzung zu den SOEP-Core-Samples.
Die Feldarbeit für Sample N wurde zwischen Mitte März und Mitte August und damit etwas später als für die Samples A-L1 durchgeführt.
Weitere Informationen zum PIAAC-L-Projekt finden Sie auf der Projekthomepage.
In der IAB-BAMF-SOEP-Befragung Geflüchteter g (M3-M5) gab es in einigen Fragen zu Einkommenskomponenten in übersetzten Versionen des Haushaltsfragebogens Übersetzungsfehler. Die Antworten auf diese Variablen sind daher nicht mit anderen Antworten vergleichbar. Die entsprechenden Variablen wurden auf -3 gesetzt.
Im Rahmen der Datenaufbereitung wurden drei InterviewerInnen identifiziert, die die Erhebung nicht nach den Standards der IAB-BAMF-SOEP-Gruppe durchgeführt haben (weitere Informationen hier). Die identifizierten InterviewerInnen waren 2016 für 88 Haushalte und 2017 für 112 Haushalte verantwortlich. Die in der ersten Welle der Umfrage (2016) betroffenen Haushalte wurden vollständig aus dem Datensatz entfernt. Die 2017 betroffenen Haushalte, die zum zweiten Mal befragt werden sollten, wurden für 2017 gelöscht, aber im Datensatz für 2016 belassen. Es gibt keine Hinweise darauf, dass die ersten Interviews (die von einer anderen Person durchgeführt worden waren) nicht nach den Standards des IAB-BAMF-SOEP durchgeführt wurden. Die aus der Datenweitergabe gelöschten Interviews und Fälle können auf Anfrage an einem Gastarbeitsplatz im SOEP-FDZ für surveymethodologische Analysen zur Verfügung gestellt werden.
Nach den vorgenommenen Löschungen aus allen Datensätzen wurden folgende Anpassungen vorgenommen:
Die erweiterte Namenskonvention für Variablen wird nur auf Datensätze ab Welle BH angewendet und gilt nur für die Datensätze $P, $H, $H, $KIND. Wir haben jeweils Unterstriche zwischen den Identifikatoren für die Analyseeinheit, die Frage und das Item hinzugefügt, um Analyseeinheit, Frage und Item visuell klar zu trennen. Zusätzlich wurde eine Fragebogenkennung eingeführt, die ebenfalls durch einen Unterstrich vom Item getrennt ist. Diese neue Version der Namensvariablen wird nur verwendet, wenn sich der Fragebogen vom "ursprünglichen" SOEP-Core-Fragebogen unterscheidet.
Wegen der unterschiedlichen Stichproben im SOEP gibt es einige Befragte, die stichprobenspezifische Fragen erhalten, wie z.B. in der Stichprobe von Geflüchteten, die 2016 begann. Für diese spezielle Gruppe gibt es einen erweiterten Personenfragebogen mit einigen spezifischen Fragen, die über die Standardfragen des SOEP, die jedes Jahr gestellt werden, hinausgehen. Für die spezifischen Fragen können Sie die Instrumentvariable (INSTRUMENT) verwenden, um die Quelle der Variablen anzuzeigen..
Beispiele und detailliertere Beschreibungen finden Sie im Kapitel zu diesem Thema im SOEPcompanion.
6.1. Datensatz PPATH / PPATHL (in raw: PPFAD)
6.1.1. SEXOR
Die vorherige Datenlieferung war die erste, die die Variablen SEXOR (sexuelle Orientierung) und SEXORINFO (Informationsquelle zur sexuellen Orientierung) enthielt. Der Wert -1 „unzureichende Informationen" wurde in 2 „unzureichende Informationen" geändert.
6.1.2 PARINFO
6.1.3 Informationen zu Migration
6.1.4. Asylsuchende und Geflüchtete
Die Variablen für Asylsuchende und Geflüchtete [AREBACK, AREFINFO] wurden umbenannt (in v33: REFBACK, REFINFO) und überarbeitet. Die Variable AREFINFO erlaubt nun auch die Identifikation von bestimmten Untergruppen (mehr Informationen dazu finden Sie in der Dokumentation).
6.2. Datensatz PGEN
6.2.1 Partnerzeiger
Ab Welle BH wurden neue Prüfprozesse für die Generierung der Partnerzeiger implementiert, die die Qualität der Daten auch für vergangene Wellen rückwirkend verbessern:
6.2.2. Freiwilligendienst und Nebenjob
Die PGEN (raw: $$PGEN) Dateien enthalten neun neue Variablen. Im Jahr 2017 hat das SOEP die Befragung von Nebenjobs grundsätzlich überarbeitet. Jetzt können die Befragten zum ersten Mal Antworten auf drei verschiedene Nebenjobs geben. Sie können nun auch die Art der Nebentätigkeit unterscheiden, ob sie ehrenamtlich tätig sind (Variablen HONOR1, HONOR2, HONOR3) und ob sie für einen Arbeitgeber oder freiberuflich tätig sind. (SNDTYP1, SNDTYP2, SNDTYP3). Die Beträge der zusätzlichen Bruttoeinkommen aus Nebenjobs werden als kalkulatorische Informationen bereitgestellt (SNDJOB1, SNDJOB2, SNDJOB3).
6.2.3. Bildungsabschlüsse
Der Fehler in der Variablen CASMIN in v33 ist behoben: In v33 wurden Personen mit 2c_voc (Berufsreifezeugnis) fälschlicherweise als 2c_gen (allgemeines Reifezeugnis) eingestuft.
6.2.4. AUTONO
Die Variable AUTONO wurde 2017 nicht mehr generiert, da es schwierig ist, diese Variable mit den üblichen Modellen der Autonomie zu vergleichen. Derzeit wird daran gearbeitet, vergleichbare Definitionen von Autonomie zu erstellen.t.
6.3 Datensatz PEQUIV
6.4. Datensatz BIOAGEL und BIOPUPIL
6.5. Datensatz HGEN
In den letzten Jahren wurden einige Änderungen bei den Fragen zur Wohnungsmiete vorgenommen. Die erste Änderung fand im Haushaltsfragebogen der Welle BF (2014) statt. Die Frage nach den Mietnebenkosten wurde so detailliert gestellt, dass die Befragten nicht in der Lage waren, korrekte Antworten zu geben. Dies führte zu einer Unterschätzung sowohl der Grundmiete als auch der Nebenkosten.
Es zeigte sich, dass dies zu einem leichten Bruch der Zeitreihe führte: Die Miete ist im Laufe der Jahre seit 1984 kontinuierlich gestiegen. In den Jahren 2014 und 2015 sanken die Mietkosten jedoch und sind seit 2016 wieder stark gestiegen. Diese Unterbrechung lässt sich durch die Änderung des Fragebogens erklären.
Ab Welle BH werden die Befragten wieder auf die gleiche Weise wie in Welle BG (2016) und in Welle BD (2013) nach der Miete befragt, um die langfristige Vergleichbarkeit zu gewährleisten.
Darüber hinaus sind mit der Welle BH die neue Migrationsstichprobe M5 und die neue Auffrischungsstichprobe N Teil des SOEP. Da die Stichprobe M5 nicht in vergleichbarer Weise zu den Nebenkosten befragt wurde und viele dieser Befragten wahrscheinlich in Gruppenwohnungen leben oder Zuschüsse zur Deckung der Lebenshaltungskosten erhalten, wurde keine Mietvariable für diese Stichprobe generiert .
v33 - Miete |
v34 - Miete |
2010: 486.25 |
2010: 486.21 |
2011: 484.93 |
2011: 485.64 |
2012: 491.01 |
2012: 490.75 |
2013: 505.00 |
2013: 505.59 |
2014: 470.95 |
2014: 473.74 |
2015: 507.06 |
2015: 508.57 |
2016: 545.53 |
2016: 541.90 |
|
2017: 550.67 |
6.6. Datensatz BIOIMMIG
6.7. Datensatz HHRF/PHRF
6.7.1. Revisionen und Fehlerbehebungen
Im Zuge der Vorbereitung der Wiederholungsbefragung wurde vom Befragungsinstitut festgestellt, dass ein Interviewer / eine Interviewerin die Befragungen nicht ordnungsgemäß durchgeführt hat. Betroffen sind sechs Prozent der realisierten Haushaltsinterviews dieses Subsamples. Die betroffenen Haushalte wurden aus dem Datensatz entfernt, stehen aber an einem Gastarbeitsplatz im SOEP-RDC auf Nachfrage für survey-methodologische Analysen zu Verfügung. Neben der Löschung der entsprechenden Zeilen in allen betroffenen Datensätzen erfolgten noch die folgenden Anpassungen:
In den Datensätzen der aktuellen Welle BG waren zum Teil fehlerhaft zugewiesene Interviewer-IDs enthalten, diese wurde korrigiert.
In einem Abgleich der zentralen Variablen zur Populationszugehörigkeit in PPFAD und den $$KIND-Datensätzen wurden Inkonsistenzen behoben. In den $$KIND-Datensätzen der Jahre 2014 bis 2016 gab es einen Fehler bezügich der Abgrenzung der Zielpopulation um ein Jahr. Teilweise fehlten hierdurch die folgenden Geburtsjahrgänge in den Kinderfiles:
Diese Korrekturen haben ebenfalls Einfluss auf die Fallzahl im File KIDLONG, der dementsprechend ebenfalls aktualisiert wurde.
3.1 Änderung der $$NETTO-Codes in 96 Fällen (Kinder) in den Jahren 2014-2016
Gleichzeitig kam es im Rahmen der Datenprüfung zum Abgleich und Korrektur der $$NETTO-Codes in PPFAD. In den Befragungsjahren 2014 bis 2016 wurden fälschlich 96 Kinder auf der Variable $$NETTO im Datensatz PPFAD der Code "20" statt "30" zugewiesen. Dieser Fehler ist in der Korrektur der Variablen $$NETTO in v33.1 behoben. Das Update hat jedoch auch eine Korrektur der Personengewichte in den betroffenen Befragungsjahren notwendig gemacht (Datensatz PHRF), da sich die Abgrenzung der Personen in realisierten Haushalten, die ein gültiges Gewicht erhalten, an der Variablen $$NETTO orientiert. Auch das Update der Gewichtung ist in v33.1 enthalten.
In BIOAPREN konnten einige Werte bei den Flag-Variablen für die (Berufs-)Ausbildung der Eltern und ggf. deren Todesjahre ergänzt werden.
Der Algorithmus zur Imputation fehlender Datumsangaben in den Spells wurde optimiert. Daher haben sich in v33.1 die imputierten Variablen sowie die aus diesen abgeleiteten Variablen verändert. Im Einzelnen: alle Variablen mit dem Zusatz _imp sowie staytime. Die Änderungen betrafen insgesamt 349 von 15.640 Spells.
In der Variablen AUSB16 („erforderliche Ausbildung im Beruf“) in BGPGEN wurden die fehlenden Angaben [Missings -1] für Befragte ohne Jobwechsel anhand der Information aus dem Vorjahr aufgefüllt. Sie enthält jetzt deutlich weniger Missings.
Die neue Datendistribution (1984–2016) "SOEP v33" bietet für den aktuellsten Erhebungszeitraum des Jahres 2016 die üblichen wellenspezifischen Variablen in BGPBRUTTO, BGP, BGPKAL, BGPGEN, BGHBRUTTO, BGH, BGHGEN, BGKIND, BGP_MIG und BFPLUECKE sowie die aktualisierten Variablen/Datensätze mit längsschnittlichen Komponenten (PFAD-Dateien, Biografie-Dateien, Spelldaten und Gewichtungsfaktoren). Die Besonderheiten zusätzlicher neuer Stichproben, Datensätze oder Variablen sowie Veränderungen in der Aufbereitung älterer sind hier aufgeführt.
Mit der Version 33 der SOEP Daten werden auch die integrierten Daten der IAB-BAMF-SOEP-Befragung von Geflüchteten 2016 in Deutschland als zwei Ergänzungsstichproben des SOEP weitergegeben. Die Stichproben stützen sich auf die Grundgesamtheit der Geflüchteten unabhängig von ihrem Aufenthaltsstatus, die vom 1. Januar 2013 bis 31. Januar 2016 nach Deutschland eingereist sind. Die Samples wurden durch eine zusätzliche Finanzierung durch BA/IAB/BMAS im Fall von M3 realisiert und durch das BMBF im Fall von M4. In Stichprobe M4 wurden besonders viele geflüchtete Familien gezogen, in denen Kinder und Jugendliche leben.
Die Datengrundlage für die Ziehung der Stichprobe bildete das Ausländerzentralregister (AZR). Es wurden im Rahmen dieser Stichprobe im Jahr 2016 4.816 erwachsene Personen in 3.554 Haushalten interviewt sowie Basisangaben von in diesen Haushalten lebenden 5.717 Minderjährigen erhoben. Zur Durchführung der Befragung wurde der Fragebogen in sieben Sprachen übersetzt, teilweise wurden SprachmittlerInnen eingesetzt. Um den besonderen Bedingungen der Zielgruppe Rechnung zu tragen, wurden darüber hinaus audiounterstützte Erhebungsinstrumente entwickelt.
Die Befragung setzt sich aus einem integrierten Personen-Lebenslauffragebogen und einem Haushaltsfragebogen sowie einem Fragebogen für InterviewerInnen zusammen. Wie schon bei den Samples M1 und M2 (IAB-SOEP-Migrationsstichproben) wurden die TeilnehmerInnen nach ihrer Zustimmung gefragt, die Befragungsdaten mit den Integrierten Erwerbsbiografien des IAB zu verknüpfen. Die verknüpften Daten werden über das Forschungsdatenzentren der BA am IAB für interessierte Forscherinnen und Forscher voraussichtlich ab Frühjahr 2018 zur Verfügung stehen.
Eine ausführlichere Beschreibung des Studiendesign in: Martin Kroh et al. 2016. Das Studiendesign der IAB-BAMF-SOEP-Befragung von Geflüchteten. SOEP Survey Papers 365: Series C. Berlin: DIW Berlin / SOEP.
Die Originaldaten der Befragungsinstrumente, die in den Stichproben M3 und M4 genutzt wurden, sind im Datensatz BGP_REF abgelegt, hier sind Personen- und Biografiedaten wie im Fragebogen kombiniert. Die Variablen sind darüber hinaus aber auch in anderen Standard- oder generierten Datensätzen abgelegt:
2.1.1 $PINSTRUMENT und $HINSTRUMENT
Mit der Integration der neuen Migrationsstichproben seit 2013 enthalten die $P- und $H-Datensätze die Daten aus mehr als einem Erhebungsinstrument. Basis ist nach wie vor der Papierfragebogen der Stichproben A-L1, er wird aber mit Daten aus den samplespezifischen Erhebungsinstrumenten aufgefüllt. Damit dies für die NutzerInnen einfach nachvollziehbar ist, gibt es ab der Welle BD (2013) jetzt in $H und $P jeweils eine Variable, die für jeden Fall das jeweilige Instrument identifiziert.
2.1.2. Zusätzliche Variablen bei den Berufcodes
Es gibt jetzt deutlich mehr Variablen, die kodierte Berufsinformationen in den verschiedenen fragebogenbasierenden Datensätzen ($P, $JUGEND, $LUECKE, außerdem $P_MIG und $P_REFUGEES) enthalten. Die Variablen können mit Hilfe der Suffixe identifiziert werden, welche die genutzte Klassifikation kennzeichnet. Für alle Berufe sind ISCO-88 und KldB92 verfügbar, ältere $P-Datensätze beinhalten auch ISCO-68 und bei neueren Datensätzen sind ISCO-08 und KldB2010 verfügbar.
2.1.3. $JUGEND
Seit 2000 (Welle Q) erhalten Erstbefragte zwischen 16 und 17 Jahren einen separaten Biographiefragebogen, mit zusätzlichen jugendspezifischen Fragen wie beispielsweise dem Verhältnis zu ihren Eltern oder zu ihrem Freizeitverhalten. Bis jetzt wurden die hieraus gewonnen Daten nur teilweise und in aufbereiteter Form durch den Datensatz BIOAGE17 zur Verfügung gestellt. Ab dieser Version werden die kompletten Daten in einzelnen $JUGEND-Datensätzen zur Verfügung stehen.
2.2.1. SEXOR
Die Variable SEXOR verbindet Informationen der sexuellen Orientierung von Befragten aus verschiedenen Quellen innerhalb des SOEP. Im Jahr 2016 (Welle BG) wurde zum ersten Mal im SOEP eine direkte Frage zum Thema sexueller Orientierung gestellt.
2.2.2. Geburtsregion
Die Variable gibt das Bundesland des Geburtsortes an und zwar für Personen, die nach 2012 befragt und innerhalb des Gebietes der jetzigen Bundesrepublik geboren wurden. Detailliertere Informationen zum Geburtsort bis auf die Ebene der Gemeinde kann im Rahmen eines Gastaufenthaltes am FDZ SOEP genutzt werden (hierzu bitte Email kontaktieren).
BIOAGEL beinhaltet jetzt Informationen des neuen Fragebogens für 13-14-Jährige, der 2016 (v33) eingeführt wurde. Der Fragebogen beinhaltet Variablen zu Persönlichkeit, Freizeitaktivitäten, persönlichen Kontakten, Bildungsziele und Familienleben und wird von den jungen Befragten selbst beantwortet. Viele der Fragen stammen aus dem Fragebogen für 11-12-Jährige, der im Jahr 2014 (v31) im SOEP eingeführt wurde. Für die Befragten, die diesen Fragebogen bereits ausgefüllt haben, stellen wir nun erstmals die längsschnittlichen Informationen über die Entwicklung in vielen Bereichen, beispielsweise Persönlichkeit und Bildungsziele, zur Verfügung.
Für die Migrationsbiografien der Geflüchteten-Befragung wurde der Spell-Datensatz REFUGSPELL erstellt. Die Variablen in MIGSPELL und REFUGSPELL wurden von verschiedenen Instrumenten abgeleitet und überschneiden sich nur teilweise. Die Datenstruktur erlaubt es, die beidenDatensätze, falls gewünscht, miteinander zu verbinden. Eine detaillierte Dokumentation finden Sie in der Biografie-Datendokumentation des SOEP.
$P_RELIGION (Religious affiliation)
PICORIG[A-C]$$ (Partei-Identifikation im Herkunftsland)
GRIPSTR Update: Die Greifkraft-Daten der Befragung 2016 sind jetzt im GRIPSTR-Datensatz integriert.
3.1.1. GERMBORN, CORIGIN und IMMIYEAR:
Die Informationen des Geburtslandes (GERMBORN, CORIGIN) und das Jahr der Immigration (IMMIYEAR) werden nicht mehr mit den Vojahresangaben in PPFAD verglichen und entsprechend den Vorjahresangaben in PPFAD vercoded. Stattdessen sind alle verfügbaren Informationen der Befragten im SOEP gesammelt und verglichen worden, um die Variablen zu codieren. Es wurde sich bemüht (1) über alle Befragten Informationen bereitzustellen, was zu einer erheblichen Reduzierung der fehlenden Werte und (2) Gruppenkategorien für Geburtsländer wie Osteuropa (jetzt z.B. Polen) zu vermeiden. Drei neue Variablen, GERMBORNINFO, CORIGININFO, und IMMIYEARINFO werden in v33 eingeführtt, um auf die Qualität der Informationen in GERMBORN, CORIGIN, und IMMIYEAR hinzuweisen.
3.1.2. MIGBACK und MIGINFO:
Die Änderungen in GERMBORN haben Einfluss auf MIGBACK und MIGINFO, resultierend aus einigen Werteänderungen und einem stärkeren Fokus auf die Verfügbarkeit von elterlichen Informationen in MIGINFO.
3.1.3. LOC1989:
Es wurden verschiedene Proxies genutzt, um den Wohnsitz der Befragten im Jahr 1989 zu vercoden (Variable HCLOC1989) was eine Veränderung einiger Werte zur Folge hat. Eine neue Variable LOCINFO wird in v33 eingeführt, die auf die Qualität der Informationen in der Variable HLOC1989 hinweist.
Die Zielpopulation und die Stichprobengröße des BIOIMMIG-Datensatzes hat sich geändert. Der Datensatz ist nicht länger bechränkt auf die Befragten, die im Ausland geboren wurden und keine deutsche Staatsbürgerschaft besitzen. Außerdem sind Fälle ohne valide BIOIMMIG-Informationen irgendeiner Welle oder Fälle, die nur valide Informationen über BISCGCF enthalten, nicht länger im Datensatz.
Bislang waren für 2012 die ehemaligen FiD-Samples nicht integriert, obwohl diese auch den Vermögensfragebogen erhalten hatten. Mit der jetzigen Datenweitergabe sind auch diese Fälle integriert.
BIOPAREN wurde ganz neu aufgebaut. Es wurden redundante Variablen entfernt und Variablennamen einheitlich ins Englische übersetzt (das bedeutet z.B. dass VNR jetzt FNR ist, weil „Vater“ jetzt „father“ wurde). Bitte schauen Sie sich die Dokumentation an, für eine ausführliche Liste der Änderungen und eine aktualisierte Übersicht der Variablennamen.
Bei den Variablen DEGREE$$, FIELD$$, TRAIN[A-D]$$ ergeben sich bei einigen Personen in der Retrospektive Abweichungen. Die Systematik wurde bei inkonsistenten Mehrfachnennungen verbessert. Zudem wurde der Umsteigeschlüssel der Berufsangaben nach Klassifikation ISCO-88 zu KldB92 für TRAIN[A-D]$$ von zwei auf vier Stellen erweitert und der Umsteigeschlüssel selbst überarbeitet.
In der Welle BF gab es eine größere Änderung bei der Abfrage der Miete. So wurden die Mietnebenkosten in detaillierter Weise als bisher abgefragt. Ex post stellte sich heraus, dass diese Form der Befragung für einige Befragte zu komplex war und die Umstellung zu einem leichten Bruch in der Zeitreihe führte. Infolgedessen sind die Durchschnittsmieten laut SOEP – wie auch in Vergleichsstatistiken – über die Zeit systematisch angestiegen, allerdings nicht mehr in 2014 und 2015. Dieser Bruch ist über die veränderte Abfrage zu erklären. Mit der Welle BG erfolgte daher wieder eine Abfrage der Miete wie in Welle BD. Mit der Welle BG sind zudem die Geflüchtetenstichproben M3 und M4 Teil des SOEP. Da diese nicht zu Nebenkosten befragt wurden, wurde für diese keine Mietvariable generiert.
SOEP-Core soep.v32.1
SOEP-Core soep.v32
Die neue Datendistribution (1984–2015) "SOEP v32" bietet für den aktuellsten Erhebungszeitraum des Jahres 2015 die üblichen wellenspezifischen Variablen BFPBRUTTO, BFP, BFPEQUIV, BFP_MIG, BFPKAL, BFPGEN, BFPAGE17, BFHBRUTTO, BFH, BFHGEN, BFKIND und BEPLUECKE den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren).
1. Neue Migrationsstichprobe (M2)
2013 haben wir die erste IAB-SOEP-Migrationsstichprobe in Zusammenarbeit mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB) in Nürnberg durchgeführt (einen Überblick über M1 finden Sie im SOEP Survey Paper 216). Die Haushalte der zweiten IAB-SOEP-Migrationsstichprobe (M2) wurden 2015 erstmalig befragt und sind jetzt in die SOEP-Core-Daten integriert. Die Zielpopulation dieser IAB-SOEP-Migrationsstichprobe sind Personen, die zwischen 2010 und 2013 nach Deutschland eingewandert sind. Die größte Gruppe stellen dabei die Migrantinnen und Migranten aus den neuen EU-Mitgliedsstaaten in Osteuropa. Dieser Umstand ermöglicht es, die sich gegenwärtig vollziehende dynamische Änderung des Einwanderungsgeschehens nach Deutschland besser zu beschreiben. Die Stichprobe M2 besteht aus 1.096 Haushalten und ist, wie die Stichprobe M1, aus den Registerdaten der Bundesanstalt für Arbeit gezogen worden.
Registerverknüpfung
Es ist für die beiden Migrationsstichproben möglich, die Daten der SOEP-Erhebung mit administrativen Arbeitsmarkt- und Einkommensdaten zu verknüpfen, falls für die jeweiligen Befragten eine explizite Zustimmung zur Registerverknüpfung vorliegt. Weil aber diese verknüpften Datensätze Sozialdaten enthalten und nur schwach anonymisiert sind, ist ein Zugang nur direkt im Forschungsdatenzentrum der Bundesanstalt für Arbeit im IAB (FDZ IAB) möglich. Forscherinnen und Forscher erhalten Zugriff auf die FDZ IAB-Daten entweder während eines Gastaufenthaltes am IAB oder über einen kontrollierten Fernrechenzugang, der ebenfalls vom IAB eingerichtet wird. Anfragen für den Datenzugang müssen direkt an das FDZ IAB gestellt werden, zumal auch ein Datennutzungsvertrag mit dem IAB erforderlich ist.
Weitere Informationen auf den Webseiten des FDZ IAB.
2. Gewichtung
3. Geänderte Datensätze oder Variablen
4. Neue Datensätze oder Variablen
5. Gelöschte Variablen
1. Integration der FiD-Befragung (Daten seit 2010)
Wir freuen uns mitteilen zu können, dass die Datenweitergabe v31 auch die Daten von „Familien in Deutschland” (FiD) enthält, die rückwirkend in SOEP-Core integriert wurden und damit in einer nutzungsfreundlichen Form allen SOEP-Nutzer*innen zur Verfügung steht. Die FiD-Befragung wurde parallel zum SOEP als sogenannte SOEP Related Study von 2010 bis 2013 durchgeführt.
Die ursprüngliche FiD-Studie als SOEP Related Study
„Familien in Deutschland” hatte zum Ziel, das Gesamttableau ehe- und familienpolitischer Leistungen in Deutschland zu evaluierenim Auftrag des Bundesministeriums für Familie, Senioren, Frauen und Jugend (BMFSFJ) und des Bundesministeriums der Finanzen (BMF). Die bis dahin erhältlichen Datensätze - einschließlich des SOEP - hatten sich als nicht ausreichend für erwiesen für eine differenzierte Analyse der Bevölkerungsteile, auf die diese Leistungen zielen sollten. Insbesondere die Gruppen der allein erziehenden Eltern, der Mehrkindfamilien und der Familien im niedrigen Einkommensbereich sowie Familien mit sehr jungen Kindern sind anteilsmäßig in der Bevölkerung so klein, dass sie in repräsentativen Haushalts- und Personenstichproben zwar vertreten sind, die Zahl der Beobachtungen aber keine statistisch belastbaren und verallgemeinerbaren Analysen zulässt.
Unter dem Namen „Familien in Deutschland” (FiD) erhebt deswegen die forschungsbasierte Infrastruktureinrichtung SOEP am DIW Berlin seit 2010 zusammen mit TNS Infratest Sozialforschung Daten von mehr als 4.500 Haushalten. Die folgenden vier Zusatzstichproben werden jährlich wiederbefragt und bilden damit ein Panel:
Eine Beschreibung der ursprünglichen FiD-Studie ist veröffentlicht unter dem Titel „Familien in Deutschland – FiD” von Mathis Schröder, Rainer Siegers, and C. Katharina Spieß, Schmollers Jahrbuch 133 (4), 2013, 595-606. (http://dx.doi.org/10.3790/schm.133.4.595). (Vorveröffentlichung 2013: SOEPpapers 556 | PDF, 160.15 KB (PDF, 160.15 KB). Berlin: DIW Berlin).
Integration in SOEP-Core
Mit der nun vorliegenden Version 31 ist die FiD-Stichprobe vollständig in die SOEP-Core-Daten integriert worden – und zwar im Prinzip so, als wären 2010 und 2011 jeweils neue Stichproben für SOEP-Core gezogen worden. Die Integration der FiD-Stichproben erhöht damit signifikant die Fallzahlen in SOEP-Core um fast ein Drittel. Die Grafik zeigt den Einfluss der neuen FiD-Stichproben L1 bis L3 auf die querschnittliche Stichprobengröße ab 2010. Aufgrund der rückwirkenden Integration musste auch die sample -Variablen angepasst werden, da ja seit 2010 auch andere Aufwuchsstichproben zu SOEP-Core hinzukamen (zu den Einzelheiten der Stichproben-Bezeichnungen siehe unten).
Insgesamt wurden 14.166 Variablen aus 64 Datensätzen in die jeweiligen SOEP-Datensätze integriert und entsprechende generierte Datensätze oder Variablen angepasst. Variablen im FiD-Erhebungsprogramm, die nicht im entsprechenden SOEP-Befragungsprogramm enthalten waren, wurden in den jeweiligen Datensätzen als zusätzlichen Variablen angehängt (mit den Original-FiD-Variablennamen, die mit "fyy" beginnen, wobei "yy" der 2-stellige Jahres-Identifier ist). Die folgende Tabelle gibt einen Überblick über die Anzahl der Variablen in den beiden Hauptfragebögen, die integriert werden konnten.
Jahr | Personenfragebogen (–p) Zahl der integrierten Variablen |
Haushaltsfragebogen (–h) Zahl der integrierten Variablen |
2010 | 314 | 274 |
2011 | 472 | 172 |
2012 | 350 | 188 |
2013 | 363 | 169 |
SOEP-Nutzer*innen haben somit quasi automatisch mehr Fälle in ihrer Untersuchungspopulation ab 2010, ohne dass Skripte angepasst werden müssen. Aber natürlich kann es passieren, dass bestimmte Variablen in FiD nicht abgefragt wurden und daher für diese Fälle nicht besetzt sind. Hier sei noch einmal an unsere Missing-Konventionen erinnert, mit der dies leicht auf der Variablenebene ersichtlich wird:
Code | Bedeutung |
-1 | keine Antwort / weiß nicht |
-2 | trifft nicht zu |
-3 | unplausibler Wert |
-4 | unzulässige Mehrfachantwort |
-5 | in Fragebogenversion nicht enthalten |
-6 | Fragebogenversion mit geänderter Filterführung |
-8 | Frage nicht Teil des Befragungsprogramms in diesem Jahr* |
*Nur in Datensätzen im long-Format anwendbar.
Das Statistische Bundesamt hat die schon weitergegebenen Mikrozensus-Daten von 2011 und 2012 nachträglich den 2011 erhobenen Zensus-Daten angepasst. Das hat zur Folge, dass in dieser SOEP Datenweitergabe (v31) die Gewichte für die Wellen BB und BC ebenfalls an die Zensus-Daten von 2011 angepasst werden.
Weil v31 Daten der FiD-Studie enthält, erhöht die Integration der FiD-Haushalte die Fallzahlen im SOEP um ca. ein Drittel, dies hat auch Auswirkungen auf die integrierten Gewichtungsvariablen. Sowohl aufgrund der zusätzlichen Haushalte als auf wegen der Einbeziehung der differenzierten Informationen zu den Familientypen sind Anpassungen nötig. Um den Nutzer*innen die Möglichkeit zu geben zu testen, wie eine neue SOEP-Stichprobe möglicherweise ihre Forschungsergebnisse beeinflusst, stellen wir auch diesmal - wie immer in dem Jahr, in dem eine Auffrisch-Stichprobe integriert wird - die Gewichte sowohl integriert als auch getrennt für die alten und neuen Stichproben zur Verfügung.
3.1 Anpassung der sample Variablen
Auf Grund der rückwirkenden Integration der FiD-Stichprobe musste die psample Variable in ppfad und die entsprechende hsample Variable in hpfad angepasst werden.
sample Variablen
Wert | Alte Bezeichnung (v30) | Neue Bezeichnung (v31) |
1 | A German West | A Original Sample (DE-West) |
2 | B Foreigner West | B Migration (up to 1983, DE-West) |
3 | C German East | C Original Sample (DE-East) |
4 | D 84-93 Immigrant (West) | D 1994/5 Migration (1984-92/94 DE-West) |
5 | E Refreshment 1998 | E 1998 Refreshment |
6 | F ISOEP 2000 | F 2000 Refreshment |
7 | G High-Income Test 2002 | G 2002 High-Income |
8 | H Refreshment 2006 | H 2006 Refreshment |
9 | I Incentives 2009 | I 2009 Incentivization |
10 | J Refreshment 2011 | J 2011 Refreshment |
11 | K Refreshment 2012 | K 2012 Refreshment |
12 | L1 2010 Birth Cohorts (2007-2009) | |
13 | M Migration 2013 | L2 2010 Family Types |
14 | L3 2011 Family Types | |
15 | M1 2013 Migration (1995-2010) |
3.2. Biographische Datensätze
Die folgenden Datensätze mit biographischen Informationen wurden zusammengefasst, damit die Anzahl an lebenslaufbezogenen Datensätze nicht immer größer wird und die Übersicht gewahrt bleibt:
biobirth und biobirthm -> biobirth
Die Geburtsbiographien von Frauen (biobirth) und Männern (biobirthm) werden ab v31 zusammen im Datensatz biobirth stehen, natürlich inklusive eine Variable zum Geschlecht.
bioage01 bis bioage12 -> bioagel
Beginnend mit der Datenweitergabe v31 werden die altersspezifischen Daten aus den Mutter-/Eltern-Kind-Fragebögen ausschließlich in einem nutzerfreundlichen „long”-Format weitergegeben: Statt bisher in einzelnen altersspezifischen Datensätzen (z.B. bioage01, bioage03, ...) sind alle Mutter-Kind- und Eltern-Kind-Fragebögen jetzt im bioagel Datensatz zusammengefasst. Dies hat zur Konsequenz, dass alle Informationen über Kinder jetzt einfach in einem einzigen Datensatz gefunden werden können. Die Dokumentation der Biographie-Daten wird Informationen darüber enthalten, wie der neue bioagel-Datensatz im long-Format effizient mit SPSS und Stata genutzt werden kann, und außerdem eine Syntax , mit der die altersspezifischen Einzel-Dateien von denjenigen, die sie brauchen, wieder rekontruiert werden können.
Der altersspezifische Datensatz bioage17, der die Daten des Jugendfragebogens enthält, ist nicht Bestandteil des bioagel-Datensatzes.
3.3 Änderungen in $HGEN
Ab der Version v31.1 enthält der Datensatz HGEN jetzt die Variable gas$$, die ab 2014 die Gaskosten eines Haushaltes ausweist. Die Variablen $$eqplif und $$eqpnrj wurden von den beiden vorherigen Jahren fortgeschrieben, wenn ein Haushalt in einem Befragungsjahr keine Antwort gegeben hat.
3.4 Weitere Änderungen in SOEP v31.1
Die weiteren Änderungen in v31.1 betreffen lediglich die Werte verschiedener Variablen. Informationen im einzelnen finden Sie unter der DOI soep.v31.1.
Die neue Datendistribution (1984–2013) “SOEP v30” bietet, für den aktuellsten Erhebungszeitraum des Jahres 2013, die üblichen wellenspezifischen Variablen BDPBRUTTO, BDP, BDPKAL, BDPGEN, BDPAGE17, BDHBRUTTO, BDH, BDHGEN, BDKIND und BCPLUECKE als auch die geupdateten Variablen mit längsschnittlichen Komponenten (PFAD Variablen, Biographie Variablen, Spelldaten und Gewichtungsvariablen).
1. Neues subsample M (Migrationssample)
Das neue IAB-SOEP Migrationssample ist ein gemeinsames Projekt mit dem Institut für Arbeits- und Berufsforschung. Im neuen Sample werden Veränderungen der Migrationsstruktur nach Deutschland seit 1995 berücksichtigt. Es umfasst dabei nicht nur die direkte Zuwanderung, sondern mit den Nachkommen der direkten Zuwanderung auch die '2. Generation'. Der Datensatz ist Teil des SOEP (mit identischem Fragebogen und ergänzt um Fragen, die sich auf die Migrationssituation beziehen), eröffnet neue Perspektiven der Migrationsforschung und ermöglicht Einsichten zum Leben von Migranten in Deutschland. Das IAB-SOEP Migrationssample stellt nicht nur ein einfaches Update vorhergehender SOEP Surveys dar. Folgende vier Aspekte charakterisieren das neue Sample:
Erstens, sind die Survey-Daten – wenn die Teilnehmer_innen des Surveys eine Einverständniserklärung unterzeichnen – mit den Registerdaten der Stichprobe der Integrierten Erwerbsbiografien (IEBS) verknüpft. Die IEBS-Daten werden vom Institut für Arbeitsmarkt- und Berufsforschung (IAB) angeboten und umfassen die gesamte Arbeitsmarktbiografie von Individuen in Deutschland. Dadurch werden neue Forschungsperspektiven eröffnet, da die Datenverknüpfung ermöglicht die Vorteile von Surveydaten und Registerdaten zu kombinieren. Da die Verknüpfung von Surveydaten und Registerdaten eine Schlüsselrolle für das SOEP einnimmt und zuvor niemals ausgeführt wurde, haben wir, indem wir zufällig nur einen Teil der SOEP-Befragten in die Daten-Verknüpfungsprozedur aufgenommen haben, ein experimentelles Design beinhaltet. Die methodologischen Implikationen der Datenverknüpfung von Survey- und Registerdaten können aus diesem Grund mit dem SOEP-IAB Migrationssample erstmals im Detail nachvollzogen werden.
Zweitens, deckt der Fragebogen des SOEP-IAB Migrationssamples die gesamte Migration, Bildung und Arbeitsmarktbiografie in Heimat- und im Zielland der Migranten ab. Migrationsaufenthalte in anderen Staaten als Deutschland werden auch berücksichtigt. Diese Vorgehensweise stellt eine wichtige Erweiterung gegenüber vorhergehenden Surveys der individuellen Biografien von Immigranten im SOEP dar: So sind wir erstmals in der Lage nachzuverfolgen ob wichtige Lebensereignisse in der Biografie der Migranten im Heimatland, in Deutschland oder in anderen Staaten stattfanden. Diese Vorgehensweise berücksichtigt zudem, dass Migration kein Einzelevent darstellt, dass bis zum Ende des Lebens andauert, sondern dass individuelle Biografien zunehmend „transnational“ mit verschiedenen Episoden der Migration während des Lebensverlaufs und Verbindungen in verschiedenen nationalen Räumen verlaufen.
Drittens, berücksichtigt das SOEP-IAB Migrationssample – kürzlich erreichten Erkenntnissen in der Migrations- und Immigrationsforschung folgend – verschiedene neue Frageblöcke, die bislang nicht oder nicht in der notwendigen Tiefe im SOEP oder in anderen Haushaltssurveys in Deutschland untersucht wurden. Beispiele für diese Frageblöcke sind das Einkommen, der berufliche Status vor der Migration, Migrationsentscheidungen in der Familie und in der Partnerschaft sowie das Ziel von Überweisungen. Letztendlich steigert das SOEP-IAB Migrationssample die Fallzahl zur Migrationsforschung und zur Untersuchung des Lebens von Immigranten in Deutschland substantiell. In der ersten Welle haben 4.964 Personen, die in 2.723 Haushalten lebten, teilgenommen. Die Berücksichtigung des Migrationssamples im SOEP als subsample „M“ und die damit einhergehende Möglichkeit, dass Migranten aus anderen SOEP Samples hinzukommen können, kann die Fallzahl zusätzlich erhöhen.
3. New datasets / variables
MIGSPELL: Für die umfangreich erfragte Migrationsbiographie wurde ein eigener Spelldatensatz nutzerfreundlich aufbereitet. Eine detaillierte Dokumentation findet sich in der Biographiedaten Dokumentation des SOEP.
Da die Ausprägungen zum Kündigungsgrund über die Zeit einigen Änderungen unterworfen waren, wird eine längsschnittlich konsistente neue Variable (JOBEND$$) in den Datensätzen $PGEN angeboten.
4. Erweiterungen und Fehlerkorrekturen
In den Variablen BILZTCH$$ und BILZTEV$$ fehlten bisher Informationen zu mehreren Wellen. Dadurch kam es in vielen Fällen zur Zuordnung falscher Werte: Insgesamt stellten sich 638 ehemals konsistente Fälle als inkonsistente Bildungsanstiege heraus und 2.582 zuvor inkonsistente Fälle als konsistent.
DUEBSTD: Zusätzlich zur bisher bestehenden Generierung der Überstunden in 1984 und 1985 konnten auch für 1987 noch Überstunden generiert werden. Die Überstunden ergeben sich für diese Jahre aus der Differenz zwischen vereinbarten und geleisteten Arbeitsstunden pro Woche.
Die Spell-Datensätze BIOCOUPL (month and year) und BIOMARS (month and year) sowie die daraus abgeleitete Variable $FAMSTD in $PGEN wurden komplett neu generiert und überarbeitet. Es wurden zusätzliche Checks über die Zeit eingebaut, um ein höheres Maß an längsschnittlicher Konsistenz zu gewährleisten.
BIOEDU: Nachdem die Beta-Version dieses Datensatzes in Version 29 nicht aktualisiert werden konnte, ist er nun in die reguläre Datenweitergabe aufgenommen und aktualisiert worden. Die Informationen aus dem neuen Migrationssample M wurden ebenfalls integriert.
Im Erhebungsjahr 2012 wurde das neue Auffrischungssample K mit 1526 Haushalten hinzugefügt, somit wurden während der Feldarbeit 2012 12322 Haushalte interviewt. Wie auch bei unseren früheren allgemeinen Bevölkerungsstichproben wurde ein mehrstufig geschichtetes Ziehungsdesign genutzt. Sample K erzielte gegenüber unserem letzten Auffrischungssample J eine sehr ähnliche Response Rate von 34,7%. Durch den Einsatz einer Reihe von Mitteln, wie intensiviertes Interviewer Training, verbesserter Bezahlung der Interviewer und leicht erhöhter Incentives für die Befragten konnte erfreulicherweise der Trend zur nachlassenden Befragungsbereitschaft gestoppt werden.
Wie auch schon die Auffrischungs- oder Aufstockungssamples H (seit 2006), I (seit 2009) und J (seit 2011) wird auch in K komplett im CAPI-Modus interviewt. Wie üblich liegt der Fokus auf unseren drei Hauptfragebögen für den Haushalt, Befragungspersonen ab 18 und den Jugendfragebogen. Somit wurde keiner der Zusatzfragebogen in das Fragebogenprogramm der Welle 1 integriert. Dieser Fokus auf die Hauptfragebogen dient der Vermeidung einer „Überforderung" der Befragten durch ein zu langes Interview in der ersten Welle. Dabei ist jedoch zu beachten, dass, wie bereits im Sample J, auch in Sample K ein integrierter Personen- und Lebenslauf-Fragebogen zum Einsatz kam.
2. Revision des Hochrechnungs- und Gewichtungsrahmens
Mit der Datenversion SOEP v29 wird für die Teilstichproben J und K (erstmals 2011 bzw. 2012 erhoben) eine zusätzliche Anpassung an den Mikrozensus im Hinblick auf die Zahl an erwerbstätigen Personen für Haushalte unterschiedlicher Größe sowie der Zahl der Privathaushalte mit Bezug von Arbeitslosengeld II vorgenommen. Diese Korrektur verhindert eine leichte Überschätzung der Haushalte mit ALG II-Bezug der ungewichteten Stichproben J und K.
Zudem wird für alle neu gezogenen Stichproben seit 1998 nun eine leicht geänderte Anpassung der Haushalte mit Ausländern vorgenommen. Diese bezieht sich nicht mehr auf den Haushaltsvorstand, sondern auf das Vorhandensein wenigstens einer Person mit ausländischer Nationalität im Haushalt. Hintergrund dieser Revision ist eine leicht zunehmende Diskrepanz zwischen der Auswahl der Bezugsperson im Mikrozensus im Vergleich zum Haushaltsvorstand des SOEP.
Nähere Informationen und Quelle der Abbildung: Wochenbericht (PDF, 270.5 KB) des DIW 46/2013, S. 17.
3. Neue Datensätze / Variablen
Wert | Welle BB (2011) | Welle BC (2012) |
0 | Haushaltsvorstand (HV) | Haushaltsvorstand (HV) |
1 | Ehepartner/in des HV | |
2 | Lebenspartner/in des HV | |
3 | Sohn/Tochter des HV | |
4 | Pflegekind des HV | |
5 | Schwiegersohn/Tochter des HV | |
6 | Vater/Mutter des HV | |
7 | Schwiegerelternteil des HV | |
8 | Bruder/Schwester/Schwager/in | |
9 | Enkelkind des HV | |
10 | Sonst. mit HV verwandt | |
11 | Mit HV nicht verw. | Ehepartner/in des HV |
12 | Kind v. LebPartn. v. HV | Gleichgeschl. Ehepartner/in |
13 | Gleichgeschl. Ehepartner/in | Lebenspartner/in |
21 | Sohn/Tochter des HV | |
22 | Stiefkind (Kind des Partners) | |
23 | Adoptivkind | |
24 | Pflegekind | |
25 | Enkelkind | |
26 | Großenkelkind | |
27 | Schwiegersohn/Tochter des HV | |
31 | Vater/Mutter des HV | |
32 | Stiefvater/-mutter, Ehepartner von Stiefvater/-mutter | |
33 | Adoptivvater/-mutter | |
34 | Pflegevater/-mutter | |
35 | Schwiegereltern | |
36 | Großeltern | |
41 | Geschwister | |
42 | Halbgeschwister | |
43 | Stiefgeschwister | |
44 | Adoptivgeschwister | |
45 | Pflegegeschwister | |
51 | Schwager/Schwägerin (Ehepartner d. Geschwister) | |
52 | Schwager/Schwägerin (Bruder/Schwester d. Ehepartners) | |
61 | Tante/Onkel | |
62 | Nichte/Neffe | |
63 | Cousin/Cousine | |
64 | Sonst. mit HV verwandt | |
71 | Andere | |
99 | Unbekannt | Unbekannt |
Bitte berücksichtigen Sie, dass dies auch die entsprechenden Variablen des Datensatzes $KIND (und KIDLONG) und BIOPAREN betrifft.
Mit der Ersterhebung von Sample J wurde die Erhebung des Lebenslauffragebogens von der zweiten auf die erste Welle umgestellt und in einen integrierten Fragebogen mit dem Personenfragebogen kombiniert. Dadurch gibt es teilweise leichte Unterschiede im Erhebungsinstrument zwischen den Altstichproben A-H und dem Aufwuchssample J.
Um diese möglichen Unterschiede zu dokumentieren wurden in den Erhebungsdaten die folgenden zusätzlichen Codierungen für fehlende Werte eingeführt:
-4 | "Unzulaessige Mehrfachantwort" |
-5 | "In Fragebogenversion nicht enthalten" |
-6 | "Fragebogenversion mit geänderter Filterführung" |
Die Innovations-Stichprobe des SOEP ist jetzt gestartet und beinhaltet unter anderem Stichprobe I, die ab 2011 daher nicht mehr Teil der Haupterhebung ist. Nähere Informationen zur Innovationsstichprobe und der Möglichkeit, eigene Inhalte einzubringen, finden Sie auf unserer Webseite unter SOEP-IS .
3.1 BIOCOUPLM
BIOCOUPLM ist ein monatsgenauer Spelldatensatz, der die Historie der Partnerschaften vom ersten bis zum letzten Personeninterview der Befragten enthält.
3.2 BIOCOUPLY
BIOCOUPLY ist ein jahresgenauer Spelldatensatz, der die Historie der Partnerschaften seit der Geburt der Befragten enthält. Es sind sowohl retrospektive als auch jährlich aktualisierte Angaben enthalten.
3.3 BIOSIB (beta version)
Der Datensatz BIOSIB enthält Informationen zu allen Geschwistern, die innerhalb der SOEP Haushalte leben. Insbesondere enthält der Datensatz Geschwisterzeiger für alle identifizierten Geschwister. Des Weiteren enthält der Datensatz Informationen über Geburtsjahr, Geschlecht und die Beziehung der Geschwister untereinander. Feedback und Anregungen können Sie Daniel Schnitzlein (dschnitzlein@diw.de) zukommen lassen.
3.4 BIOEDU
Der Datensatz BIOEDU enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung.
3.5 BIOAGE long
Der neue integrierte Datensatz BIOAGE LONG (BIOAGEL) enthält die Daten der Datensätze BIOAGE01, BIOAGE03, BIOAGE06, sowie BIOAGE08a und BIOAGE08b im „long"- Format.
3.6 TRUST
Datensatz des ökonomischen Verhaltensexperiments über Vertrauen und Vertrauenswürdigkeit aus den Befragungsjahren 2003, 2004, & 2005.
Dieses Experiment, das dazu dient, Vertrauen zu messen, basiert auf einem Investitionsspiel, das Berg et al. (1995) eingeführt haben. Es handelt sich um ein Einmalspiel für zwei Akteure, die sich anonym aufeinander beziehen. Der erste Akteur erhält ein Guthaben von zehn Punkten und kann davon eine beliebige Anzahl von Punkten der zweiten Akteurin überschreiben. Jeder überschriebene Punkt wird dabei verdoppelt. Die zweite Akteurin erhält ebenfalls ein Guthaben von zehn Punkten. Nachdem sie die (verdoppelten) Punkte vom ersten Akteur übertragen bekommen hat, entscheidet sie, wieviel sie von ihrem eigenen Guthaben an den ersten Akteur überschreibt (null bis zehn Punkte). Ebenso wie beim ersten Transfer werden auch ihre Punkte beim Empfänger verdoppelt. Nach der Entscheidung der zweiten Akteurin endet das Spiel und die Mitspieler bekommen ihr Einkommen ausbezahlt (ein Punkt entspricht dabei einem Euro, die Summe wird als Scheck ein paar Tage später versandt).
Eine grundlegende Komponente des Spiels ist, dass die Teilnehmer tatsächlich entsprechend des festgelegten Auszahlungsmodus Geld erhalten, was bedeutet, dass alle Entscheidungen immer finanzielle Konsequenzen haben. Diese Version des Spiels wurde von Fehr, Fischbacher, Schupp, von Rosenbladt & Wagner (2002) entwickelt.
Die Verbindung von Repräsentativbefragung und Verhaltensexperiment wurde in den SOEP-Haupterhebungen 2003, 2004 und 2005 durchgeführt, wobei nur geringfügige Modifizierungen vorgenommen wurden. Von ursprünglich 1.432 Personen im Jahre 2003 haben 1.202 Personen auch 2004 und 2005 am Experiment teilgenommen. Die Daten werden im Datensatz „trust" im so genannten long-Format zur Verfügung gestellt. Der Datensatz enthält somit die Informationen aus allen drei Wellen, in denen das Verhaltensexperiment durchgeführt wurde.
3.6 TIMEPREF
Datensatz des ökonomisches Verhaltensexperiments zu Zeitpräferenzen im Befragungsjahr 2006 .
In diesem ökonomischen Verhaltensexperiment mussten sich die Befragten enscheiden, ob sie sich bei einem Geldgewinn (von 200 €) zeitnah an die Befragung per Scheck den Sockelbetrag ausbezahlen lassen wollen, oder aber zu späteren Zeitpunkten einen höheren Gewinnbetrag (der also einen impliziten Zinsaufschlag beinhalten würde). Durch Teilen der Stichprobe (N = 1.503 Personen) in zufällige Substichproben (Splits) war es möglich, sowohl den Zeithorizont als auch die implizite Zinsrate entsprechend zu variieren, sodass mögliche Anreizeffekte für die Wahl zwischen kurzfristiger (und niedrigerer) und späterer (höherer) Gewinnauszahlung getestet werden konnten. Die wissenschaftliche Leitung des Projekts lag bei Prof. Dr. Armin Falk, CENs, Universität Bonn.
4.1 Datensatz $HBRUTTO
REGTYP$$:
$$: Innerhalb des $HBRUTTO Datensatzes wird es eine neue Variable zur Unterscheidung von Stadt/Umland/Land geben. Die Einteilung basiert auf den siedlungsstrukturellen Kreisregionstypen des BBSR und bezieht sich auf den Gebietsstand 31.12.2009. Für die Typenbildung werden folgende Siedlungsstrukturmerkmale herangezogen:
Auf diese Weise können drei Ausprägungen unterschieden werden:
4.2 Datensatz $PGEN
BILZTCH$$ / BILZTEV$$:
BILZTCH$$ zeigt an, ob sich für die Person seit der letzten Beobachtung eine Veränderung in den Bildungsjahren ($BILZEIT) nach unten oder seit dem letzten Jahr eine mit Informationen zu weiteren Bildungsabschlüssen inkonsistente Veränderung nach oben ergeben hat.
BILZTEV$$ ist eine Flagvariable, die anzeigt, ob die Person jemals über die ganzen Beobachtungszeitraum eine inkonsistente Veränderung in $BILZEIT nach oben oder nach unten hatte.
$VEBZEIT and $UEBSTD
Um Konsistenz mit dem Datensatz FID herzustellen, wurden die fehlenden Werte der Variablen $VEBZEIT and $UEBSTD leicht recodiert: Selbständige erhalten jetzt den Missing Code –2. In den früheren Datenweitergaben erhielten die Selbstständigen den fehlenden Wert –3 ( nicht valide).
In $UEBSTD ist der Wert –3 (nicht valide) allen Personen zugewiesen, die angaben, mehr als zehn Überstunden/Woche zu arbeiten UND gleichzeitig eine Wochenarbeitszeit von über 80 Stunden vereinbart hatten ($VEBZEIT nicht valide, Wert –3) oder deren tatsächliche wöchentliche Arbeitszeit mehr als 80 Stunden/Woche betrug ($TATZEIT nicht valide, Wert –3).
4.3 Datensatz BIOPAREN
BIOPAREN enthält sieben neue Variablen:
VAORT11 and MAORT11 enthalten den aktuellen Aufenthaltsort der Eltern.
GESCHW, GESCHWUP, NUMS, NUMB und TWIN enthalten Informationen über Geschwister. GESCHW enthält die Information, ob der Befragte jemals Geschwister hatte oder aktuell hat. GESCHWUP enthält das Jahr, aus dem die Information in GESCHW stammt. NUMB und NUMS enthalten die Anzahl der Brüder und Schwestern und TWIN enthält Informationen darüber, ob einige der Geschwister Zwillingsbrüder/-schwestern (und wenn ja welcher Typ) sind.
Die Weitergabe der SOEP-Daten 1984-2010 (Wellen A-BA) wird die üblichen jahresspezifischen Datensätze (BAP, BAH, BAPGEN, BAHGEN, BAPKAL, BAPBRUTTO, BAHBRUTTO, BAKIND und ZPLUECKE) sowie die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD, Biografie-Datensätze, SPELL-Daten und Gewichtungsfaktoren) enthalten. Für die Teilnehmer/innen von Sample I (Incentivierungs-Sample) liegen mit dieser Datenweitergabe die Biografie-Daten aus dem entsprechenden Fragebogen vor.
Aufgrund von Änderungen auch an älteren Datensätzen, empfehlen wir wie immer eine Neuinstallation aller Datensätze von der aktuellen DVD.
1. Erstmalig zwei Buchstaben als Präfix (BA)
In der diesjährige Datenweitergabe (v27) werden wir das erste Mal in der 27-jährigen Geschichte des SOEP zwei statt einen Buchstaben als wellenspezifischen Präfix nutzen. Nachdem wir bei der letztjährigen Datenweitergabe mit dem Buchstaben Z an das Ende des lateinischen Alphabets gekommen sind, haben wir uns jetzt für die Wellenkennzeichnung BA für die Querschnittdaten entschieden.
2. Aktualisierung der Beta-Version im „long-Format"
Die SOEP-Daten sind auch dieses Jahr wieder in einem „Long-Format" erhältlich. Diese Beta-Version von SOEPlong ist eine für längsschnittliche Analysen optimierte Form der Datenweitergabe: Statt in wellenspezifischen Einzeldatensätzen sind hier alle verfügbaren Jahre und Kohorten gepoolt (long format). Dieser Datensatz befindet sich auf der zweiten DVD. Eine genauere Beschreibung finden Sie im SOEPnewsletter Nr. 90/2010 (PDF, 3.53 MB) oder direkt auf der zweiten DVD.
3. Entfernung von Fälschungen
Nach Konsistenzprüfungen der 2. Welle von Sample I, wurden 36 Haushalte als Fälschungen identifiziert. Diese Fälle sind in der aktuellen Datenweitergabe nicht mehr enthalten.
4. Neue und umbenannte Datensätze
4.1 BIOAGE08[A|B]
Der Datensatz BIOAGE08 enthält die Antworten auf die Befragung mit dem neuen „Elternfragebogen", den Mütter und Väter von sieben- bis achtjährigen Kindern ausfüllen. Damit sind jetzt die Daten der Geburtskohorte 2002/2003 erhältlich, die als Erste mit dem „Neugeborenen-Fragebogen" befragt wurden. Den neuen „Elternfragebogen" füllen sowohl die Mütter als auch die Väter aus, es gibt damit also zwei Beobachtungen zu vielen dieser Kinder im Sample. Aus diesem Grund ist der Datensatz nach Geschlecht des antwortenden Elternteils getrennt (und nach Haushaltstyp in dem die Befragten leben): BIOAGE08A enthält ausschließlich Daten der Mütter und einiger Väter, wenn keine Auskünfte der Mütter zu erhalten waren. BIOAGE08B enthält nur Daten der Väter. Die Dokumentation dieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.
4.2 LIFESPELL
Der Datensatz LIFESPELL enthält Daten der Verbleibstudien von Befragungsausfällen (1992, 2001, 2006 und 2008), die bisher noch nicht in der regulären Datenweitergabe enthalten waren. Die Verbleibstudien, die auf Informationen der Einwohnermeldeämter beruhen, dienen dazu, den aktuellen Aufenthaltsort von ehemaligen SOEP-Teilnehmer/inne/n aufzufinden. Diese Daten ermöglichen Analysen zur Lebenserwartung und Auswanderungsentscheidungen, selbst wenn die Personen schon lange aus der Studie ausgeschieden sind. Die Dokumentationdieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.
4.3 BIOEDU (beta version)
Der Datensatz BIOEDU, der dieses Jahr in einer vorläufigen Form weitergegeben wird, enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung. Nutzer/innen, die mit diesen Daten arbeiten, werden gebeten, uns ihre Erfahrungen (insbesondere auftretende Probleme) mitzuteilen, damit wir für das nächste Jahr eine endgültige Version erstellen können. Der Datensatz ist in der DIW Data Documentation 58 (PDF, 383.03 KB) ausführlich dokumentiert.
Wegen seiner provisorischen Form ist dieser Datensatz nicht Bestandteil der normalen Datenweitergabe und deswegen auf der DVD in einem eigenen Archiv zu finden (Bitte nutzen Sie den link in der NEWS-Datei auf der DVD).
5. Neue Variablen
5.1 Datensatz $PEQUIV
In den $PEQUIV-Dateien ist eine neue Variable zu den Unterstützungs-Zahlungen aufgenommen. Mit dem 2010er Fragebogen wurden zwei Kategorien bei den „Unterstützungszahlungen" unterschieden. Die erste bezeichnet „Gesetzlichen Ehegattenunterhalt, Kindesunterhalt, Betreuungsunterhalt" (ALIM$$), während die zweite „Unterhaltszahlung aus Unterhaltsvorschusskassen" (IACHM$$) abfragt. Mehr Informationen über den Datensatz $PEQUIV und die neuen Variablen in der DIW Data Documentation 57 (PDF, 0.54 MB).
5.2 Datensatz PFLEGE
Im PFLEGE-Datensatz finden sich jetzt zwei zusätzliche Variablen. „FURTHER" gibt die Anzahl weiterer pflegebedürftiger Personen in einem Haushalt an. Diese Zahl wird seit 2009 erhoben. „CARECOST" gibt die regulären monatlichen Kosten an, die ein Haushalt normalerweise für Pflege aufwendet. Diese Frage wird seit 2010 gestellt.
5.3 Datensatz $PGEN
Mit dieser Datenweitergabe geben wir detaillierte Auskünfte über Bildungsabschlüsse und Weiterbildungsqualifikationen vor Eintritt in die Panelbefragung weiter: Seit 2001 wird im Lebenslauffragebogen nach der Berufsausbildung, dem Hochschulabschluss (z.B. Diplom) und dem Studienfach der Hochschulabsolventen gefragt. Diese offenen Antworten wurden bisher jedoch nicht vercodet und daher auch nicht weitergegeben. Für die jetzt erfolgte Vercodung wurde die Klassifikation aus dem Personenfragebogen genutzt. Im Zuge der jetzt erfolgten Revision ergaben sich nur leichte Veränderungen. Eine genaue Beschreibung ist in der PGEN- Dokumentation zu finden, die neuen Variablen sind:
FIELD$$ | Fach der Universitätsausbildung |
DEGREE$$ | Art des Universitätsabschlusses |
TRAINA$$ | Ausbildung - zweistelliger Berufscode KldB92 |
TRAINB$$ | Berufsfachschule - zweistelliger Berufscode KldB92 |
TRAINC$$ | Fachschule - zweistelliger Berufscode KldB92 |
TRAIND$$ | Beamtenausbildung - zweistelliger Berufscode |
FDT_F$$ | Datenquelle FIELD, DEGREE, TRAIN |
6. Überarbeitete Variablen
6.1 Datensatz $P
Die Variablen zu den Berufstätigkeits- und Branchenklassifikationen in den $P-Dateien wurden umbenannt. Die entsprechenden Variablen aus den Personenfragebogen werden abwechselnd von allen Befragten oder nur von denjenigen erhoben, die ihre Berufstätigkeit gewechselt haben. Gleichzeitig generieren wir diese Informationen über alle Jahre und alle Individuen und stellen diese Variablen in den $PGEN-Datensätzen zur Verfügung. Um die generierten klarer von den original erhobenen Variablen zu unterscheiden und um eine eindeutige Verbindung zur Fragenummer im jeweiligen Fragebogen herzustellen, haben wir die Variablen nach folgendem System umbenannt:
Bisheriger Variablenname | Neuer Name |
$IS88 | $pXX_IS88 |
$KLAS | $pXX_KLAS |
$BACE | $pXX_NACE |
$IS88 | $pXX_IS88 |
$KLAS | $pXX_KLAS |
So ist zum Beispiel ZIS88 jetzt umbenannt in ZP29_IS88. Die entsprechenden Variablen aller Datensätze aus dem Personenfragebogen ($P) wurden umbenannt, nicht jedoch die für die Nutzung empfohlenen Variablen in den generierten Datensätzen ($PGEN, so zum Beispiel IS8809 aus ZP).
6.2 Datensatz $HBRUTTO
Die Vercodung derjenigen Variablen, die das Bundesland abfragen, in dem sich ein Haushalt befindet, ($BULA, Bundesland) wurde der Vercodung der offiziellen Statistik angepasst.
$bula (alte Kodierung) | $bula (neue Kodierung) |
0 Berlin | |
1 Schleswig - Holstein | 1 Schleswig-Holstein |
2 Hamburg | 2 Hamburg |
3 Niedersachsen | 3 Niedersachsen |
4 Bremen | 4 Bremen |
5 Nordrhein-Westfalen | 5 Nordrhein-Westfalen |
6 Hessen | 6 Hessen |
7 Rheinl.-Pfalz, Saarl. | 7 Rheinland-Pfalz |
8 Baden-Württemberg | 8 Baden-Württemberg |
9 Bayern | 9 Bayern |
10 Saarland | |
11 Berlin (Ost) | 11 Berlin |
12 Mecklenburg-Vorpommern | 12 Brandenburg |
13 Brandenburg | 13 Mecklenburg-Vorpommern |
14 Sachsen-Anhalt | 14 Sachsen |
15 Thüringen | 15 Sachsen-Anhalt |
16 Sachsen | 16 Thüringen |
Eine Unterscheidung von Ost- und West-Berlin ist nach wie vor möglich mit eine Kombination der Bundesland-Variable und der Variable zur Ziehungsregion ($SAMPREG in PPFAD).
6.3. Kleinere Fehlerkorrekturen
Die Datenweitergabe 2010 mit den Daten von 1984-2009 (v26) enthält weitgehende Verbesserungen, Ergänzungen und änderungen. Neben den üblichen wellenspezifischen Datensätzen ZPBRUTTO, ZP, ZPKAL, ZPGEN, ZPAGE17, ZHBRUTTO, ZH, ZHGEN, ZKIND and YPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten änderungen
1. Beta Version des 'long'-Formats
Die SOEP-Daten werden dieses Jahr erstmalig in der Standard-Datenweitergabe in diesem nutzerfreundlicheren Format, genannt 'SOEPlong' weitergegeben - in einer Beta-Version. SOEPlong ist eine Art komprimierte Version der SOEP-Daten: Statt der Weitergabe als einzelne wellenspezifische Datensätze werden alle Jahre und Kohorten im 'long format' zusammengefasst weitergegeben.
2. Neues Sample I
Als Beitrag zu den laufenden SOEP-Innovationen begann im Herbst 2009 die Feldarbeit für eine neue Stichprobe I. Sie wurde genutzt, um den Effekt unterschiedlicher Incentivierungsstrategien auf die Beteiligungsquote zu testen und wird Teil eines umfassenderen Innovationssamples werden. Im SOEPnewsletter 89 hatten wir unsere Pläne in dieser Richtung beschrieben.
In vier zufällig ausgewählten Gruppen wurden folgende Anreizstrategien genutzt:
Die Daten der neuen Stichprobe I sind in der aktuellen Datenweitergabe (SOEP, v26) enthalten, aber aufgrund der spezifischen Merkmale des Samples konnte kein gemeinsames Gewichtungsschema mit den anderen SOEP-Stichproben zur Verfügung gestellt werden: In Stichprobe I wurden alle Antwortverweigerer der vier Gruppen noch einmal schriftlich befragt. Die Biografie-Informationen für die TeilnehmerInnen von Stichprobe I konnten noch nicht in die Biografiedatensätze integriert werden, da diese standardmäßig erst in der 2. Welle erhoben werden. Dasselbe gilt für Biografie-Informationen im Datensatz PPFAD, so ist z.B. die Variable MIGBACK für diese Stichprobe komplett auf -2 gesetzt.
Darüber hinaus wurden folgende Ergänzungen und änderungen vorgenommen:
3. Neue und umbenannte Datensätze
4. Neue Variablen
4.1 Datensatz $HGEN
Es gibt zwei neue Variablen, die die Qualität einer Wohnung beschreiben :
4.2 Datensatz $PEQUIV:
4.3 Datensatz $HBRUTTO - Kalenderjahr des Interviews
5. überarbeitete Variablen
5.1 Datensatz $HGEN
5.2 Datensätze $KIND – KIDLONG
5.3 Datensätze BIOMARSM/BIOMARSY
5.4 Datensatz BIOTWIN
Der Datensatz BIOTWIN enthält ab dieser Welle Z 100 Fälle mehr. Dieser beachtliche Anstieg der Fallzahl ist das Ergebnis einer Anpassung im Datengenerierungsprozess: Im Gegensatz zum bisherigen Verfahren werden jetzt zusätzlich alle Geschwister mit identischem Geburtsjahr, bei denen die Angabe zum Geburtsmonat fehlt, als Zwillinge angesehen. Diese weniger restriktive Datengenerierung ist der Annahme geschuldet, dass zwei separate Geburten in einem einzigen Kalenderjahr extrem selten vorkommen. Da jedoch trotzdem die Gefahr besteht, dass durch fälschlicherweise als Zwillinge bezeichnete Personen aus der Gruppe mit den fehlenden Geburtsmonaten die Durchschnittswerte in BIOTWIN verzerrt werden, haben wir ein neues Label in die Variable INFOTWIN eingeführt. Dadurch kann diese besondere Gruppe der Zwillinge identifiziert werden (Code "6": Erfassung seit 2007, übereinstimmung Geburtsjahr, fehlender -monat; im Gegensatz dazu "5": Erfassung seit 2007, übereinstimmung Geburtsjahr und -monat).
In der aktuellen Datenweitergabeversion (Welle Z, besser: v26) umfasst der Datensatz BIOTWIN 250 Zwillings- und 5 Drillingspaare.
labels infotwin:
[1] Zwillinge - nicht in 2006 (gen.)
[2] Zwillinge - 2006 (Antwort nicht verifizierbar)
[3] Zwillinge - 2006 (Antwort verweigert)
[4] Zwillinge - 2006 (Antwort validiert)
[5] Zwillinge - seit 2007 (gen.)
[6] Zwillinge - seit 2007 (gen.)
5.5 Kleinere Überarbeitungen
Die Datenweitergabe 2009 mit den Daten von 1984-2008 (Welle 1-25) enthält weitgehende Verbesserungen, Ergänzungen und Änderungen. Neben den üblichen wellenspezifischen Datensätzen YPBRUTTO, YP, YPKAL, YPGEN, YHBRUTTO, YH, YHGEN, YKIND und XPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten Änderungen:
Das SOEP gibt ab sofort - in einer Beta-Version - die Daten in dem einem nutzerfreundlicheren Format, genannt 'SOEPlong' weiter. Wir haben darüber bereits im SOEPnewsletter 80/2008 berichtet und danken allen, die an diesem Projekt mitgewirkt haben.
Diese neue und vorläufige Version der SOEP-Daten im long-Format geben wir gerne auf Anfrage weiter. Wir empfehlen nur jedoch nur 'Power Usern' mit entsprechenden Vorkenntnissen der Paneldatenanalyse im allgemeinen und dem SOEP im Besonderen die Bestellung dieser Version. Sie sind herzlich eingeladen mit uns an der Verbesserung und Weiterentwicklung des Datenmanagements zu arbeiten.
Diese Version enthält alle Daten und kann deswegen im Wesentlichen schon für endgültige Analysen genutzt werden. Sie ist nichts desto trotz eine vorläufige. Wir möchten unerfahrenen Nutzerinnen und Nutzern daher vorläufig von der Verwendung dieser Version abraten. Falls Sie als 'SOEP-Neuling' mit diesem neuen Format arbeiten wollen, sollten Sie zumindest Erfahrungen mit anderen Panel-Datensätzen gesammelt haben.
A Neue und umbenannte Datensätze
A.1. Datensatz BIOAGE06
Die aktuelle Datenweitergabeversion enthält den neuen Datensatz BIOAGE06. Er stellt die 2008 das erste Mal erhobenen Daten aus dem speziellen Mutter-Kind-Fragebogen zur Verfügung, der von Müttern von 5- bis 6-jährigen Vorschulkindern ausgefüllt wurde. Die Daten ergänzen das Wissen über eine Geburtskohorte, die das erste Mal 2002/2003 mit dem gesonderten Neugeborenen-Fragebogen 'befragt' wurde.
Die neuen Daten über die Vorschulkinder erheben Gewicht und Größe der Kinder, Informationen über ihren Gesundheitszustand, die Betreuungssituation, ihre Aktivitäten mit und ohne die Mutter und ihren Medienkonsum. Insbesondere die Betreuungssituation wird detailliert erhoben. Darüber hinaus wurden zum ersten Mal valide Informationen über die Persönlichkeit des Kindes (basierend auf dem 'Big Five' Persönlichkeitsmerkmalen, die auch im Peronenfragebogen für Erwachsene erfragt werden) und über ihr sozio-emotionales Verhalten gesammelt (beobachtet mit einer modifizierten Version des „Strength-and-Difficulities Questionnaire" (SDQ) nach Goodman (1997)).
A.2 Datensatz MOVEDIST
In diesem Datensatz stellen wir Informationen zum Wohnsitzwechsel zur Verfügung. Basierend auf den Geo-Koordinaten auf Block-Ebene erhalten Sie die Daten über die Entfernung (in Metern) zwischen dem früheren und dem gegenwärtigen Wohnsitz. Allerdings gibt es diese Informationen nur für Umzüge seit 2000.
Diese Daten sind NICHT auf der Standard-Datenweitergabe-DVD enthalten, sondern wir geben diese Informationen nur im Zusammenhang mit den Raumordnungsregionen auf einer gesonderten CD-ROM weiter. Sie benötigen also einen erweiterten Datenweitergabevertrag, der ein Datenschutzkonzept beinhaltet, wenn Sie diese Daten nutzen wollen. Nach Abschluss der Vertragserweiterung erhalten Sie diese Daten auf einer (kostenlosen) CD-ROM. Bei entsprechendem Interesse wenden Sie sich bitte an SOEPmail@diw.de.
B. Neue Variablen
B.1 Datensatz PPFAD
B.2 Datensatz PFLEGE
B.3 Datensatz PBIOSPE
B.4 Datensatz BIOPAREN
C. Überarbeitete Variablen
C.1 Datensatz PWEALTH und HWEALTH
Im Jahr 2007 wurden alle Personen, die 17 Jahre oder älter waren, über ihr Vermögen befragt, eine Wiederholung der Befragung von 2002. Diese 'Rohdaten' waren bereits mit der Welle 24 weitergegeben worden. Mit der aktuellen Datenweitergabe wurden sie nun zusammen mit den Daten von 2002 im long-Format aufbereitet und in den Datensätzen PWEALTH (für Personendaten) und HWEALTH (für Haushalte aggregierte Daten) zusammengefasst.
Fehlende Werte, die aufgrund von Antwortverweigerung bei einzelnen Fragen (item non-response) oder Nicht-Teilnahme einzelner Personen (partial unit non-response, hier: fehlende Interviews in ansonsten befragten Haushalten) entstanden sind, wurden in komplexen Prozessen multipel imputiert, unter Zuhilfenahme längsschnittlicher Informationen. Eine ausführliche Dokumentation ist in Vorbereitung. Erste Analysen wurden vorgenommen und in einem DIW Wochenbericht veröffentlicht (Joachim R. Frick und Markus M. Grabka: Gestiegene Vermögensungleichheit in Deutschland, DIW-Wochenbericht 04/2009 (PDF, 269.73 KB))
C.2 Datensatz $PEQUIV
C.3 Datensatz HHRF/PHRF
C.4 Datensatz $PGEN
C.5 Datensatz $HGEN
C.6 Datensatz PPFAD
Die Datenweitergabe 2008 mit den Daten von 1984-2007 enthält für das Jahr 2007 die üblichen wellenspezifischen Datensätze XPBRUTTO, XP, XPKAL, XPGEN, XHBRUTTO, XH, XHGEN, XKIND und WPLUECKE sowie die aktualisierten Datensätze mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren).
Im Befragungsjahr 2006 wurde eine repräsentative Ergänzungsstichprobe für ganz Deutschland gezogen: die Auffrischungsstichprobe H. Die biografischen Hintergrundinformationen der Befragten in Stichprobe H wurden erstmals in 2007 erhoben. Diese Daten sind nun vollständig in die relevanten Biografiedatensätze (BIOxxxx) integriert worden.
Als Teil der SOEP Innovationsprojekte führte TNS Infratest Sozialforschung im Dezember 2006 eine Nacherhebung durch. Sie wurde bei früheren SOEP-Befragten durchgeführt, die aus Haushalten stammen, die zwischen 2001 und 2004 als endgültigeVerweigerungen klassifiziert wurden. Als Nebenprodukt konnten wir die Informationen über das Geburtsjahr von 21 dieser Personen von fehlend auf einen gültigen Wert setzen. Mehr Informationen finden Sie im Methodenbericht von TNS Infratest Sozialforschung (PDF, 368.88 KB).
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
A. Neue und umbenannte Datensätze
COGNIT06:
Im Erhebungsjahr 2006 wurde mit einem Subsample des SOEP kurze Kognitionstests mit dem Ziel durchgeführt, eine Reihe robuster Instrumente zur Verfügung zu haben, die von geschulten Interviewern nur wenige Minuten bei der Befragung beanspruchen. Nahezu 80% aller zur Teilnahme am Kognitionstest Ausgewählten gaben gültige Antworten. Das hat zur Folge, dass das SOEP jetzt zum ersten Mal Indikatoren zu kognitiven Leistungspotenzialen für mehr als 5.500 Personen bereitstellen kann, angereichert durch unterschiedliche Bildungsinformationen, die auf Abschlüssen und Qualifikationen beruhen. Die erste Wiederholung für diesen Test ist für das Erhebungsjahr 2010 geplant. Eine ausführliche Dokumentation und Auswahlanalyse finden Sie in Schupp et al. (2008) Erfassung kognitiver Leistungspotentiale Erwachsener im Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32 | PDF, 447.63 KB .
PBR_EXIT und PBR_HHCH:
Diese beiden Datensätze ersetzen den ehemaligen Datensatz YPBRUTTO, wobei bei in dieser Datenweitergabe noch beide Varianten verfügbar sind.
MIHINC:
Dieser Datensatz enthält das multipel imputierte monatliche Netto-Haushaltseinkommen für die Jahre 1997 bis 2007. Er ist im long-Format abgelegt (Long-Format: hhnrakt, svyyear, mj, wird in Stata auch mim-Format genannt). Jede fehlende Antwort auf die Frage nach dem Netto-Haushaltseinkommen wurde 10-fach imputiert. Weitere Informationen finden Sie in der Dokumentation von HGEN | PDF, 169.14 KB .
B: Neue Variablen
B.1 Datensatz XPBRUTTO
B.2 Datensatz $PEQUIV
B.3 Datensatz $HGEN
C. Überarbeitete Variablen
C.1 Im Datensatz $PKAL
C.2 Im Datensatz HHRF/PHRF
C.3 Im Datensatz $PGEN
D. Fehlerkorrekturen
D.1 Im Datensatz VH and WH
Es gab eine Korrektur der Werte Labels für die Variablen, die auf die Eigentümer einer Wohnung hinweisen (VH27 and WH27), bitte beachten Sie die richtigen Ausprägungen in der unten stehenden Tabelle.
Variablenname: Eigentümer der Wohnung
WertFalschRichtig
-2 | Trifft nicht zu | Trifft nicht zu |
-1 | Keine Antwort | Keine Antwort |
1 | selbstgenutzte Wohnung | Kommunale Wohnung |
2 | Kommunale Wohnung | Genossenschaftliche Wohnung |
3 | Genossenschaftliche Wohnung | Betriebs-/ Werkswohnung |
4 | Betriebs-/ Werkswohnung | Privater Eigentümer |
5 | Privater Eigentümer | Weiß nicht |
D.2 Im Datensatz $PGEN
Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt B). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht.
Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant.
Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert.
Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen.
Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD.
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Neue und umbenannte Datensätze 2006
$PAGE17
Ab 2007 werden Personen, die das Erstbefragungsalter (17 Jahre) erreichen, nicht mehr mit dem normalen Personenfragebogen, sondern mit einem speziellen Jugendfragebogen befragt. Wellenspezifische Informationen, die nicht in den Biographie-Daten oder anderen generierten Datensätzen (wie $PGEN, HEALTH) vorliegen, werden im Datensatz $PAGE17 weitergegeben. Identifizierbar sind die Befragten des Jugendfragebogens mit Hilfe des neuen $NETTO-Codes "17" (siehe auch Änderung der $NETTO-Variablen in PPFAD).
DESIGN
Die Informationen zum Design der SOEP-Stichprobe, die zuvor im Datensatz VARIANZ (Spiess 2001) zusammengefasst waren, werden ab der Datenweitergabe 2007 in dem überarbeiteten und verbesserten File DESIGN zu finden sein. Nähere Informationen in dem Dokument designdoku.pdf (PDF, 57.99 KB) auf der SOEP-Dokumentationseite oder der DVD.
HEALTH
Der Gesundheitsschwerpunkt im Personenfragebogen wurde 2002 überarbeitet und seitdem im 2-Jahres-Rhythmus erhoben. Im HEALTH-File finden Sie nun die generierten SF12-Variablen (zur Messung der gesundheitsbezogenen Lebensqualität) und Variablen zu Größe und Gewicht mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte und einer nutzerfreundlichen, längsschnittgeprüften generierten Variablen des Body Mass Index (BMI). Die Dokumentation finden Sie in dem Dokument health.pdf (PDF, 110.01 KB) auf der SOEP-Dokumentationseite oder der DVD.
PWEALTH und HWEALTH
Die Vermögensdaten des Erhebungsjahres 2002 wurden vollständig überarbeitet und auf Inkonsistenzen geprüft. Die Daten sind jetzt in zwei Datensätzen (für Personen- und Haushaltsebene) vollständig (multiple) imputiert nutzbar, mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte. Die beiden Datensätze enthalten auch jeweils eine generierte Variable zum "Netto-Vermögen" (siehe SOEPpapers No. 18 (PDF, 0.76 MB)).
Interviewerbefragung
Der bis 2006 lediglich als "stand-alone" Version verfügbare Datensatz mit Angaben zu den InterviewerInnen ist jetzt unter dem Namen INTVIEW in die Standard-Datenweitergabe integriert und wird somit in den jeweiligen Software-Formaten (SAS, SPSS, STATA) standardmäßig abgelegt.
Querschnittshochrechnung 2006
Mit der Datenweitergabe für das Jahr 2006 ergeben sich für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die Neuerungen in der DIW Data Documentation 22 (PDF, 310.7 KB).
1. Typen der Hochrechnungsfaktoren neu definiert
Jedes Querschnittsgewicht wird mit $xHRFy bezeichnet. Dabei stellt $ das Wellenkennzeichen dar, x die Unterscheidung nach Haushalten (x = H) und Personen (x = P) und y eine Zusatzkennung, die den Typ des Hochrechnungsfaktors beschreibt.
2. Modifizierung Hochrechnungsrahmen
Seit dem Jahr 2005 weist das Statistische Bundesamt Angaben für das Land Berlin nicht mehr getrennt nach West und Ost aus. Dies führte zu leichten Modifizierungen des Hochrechnungsrahmens für Haushalte rückwirkend seit dem Erhebungsjahr 2005.
3. Neue Ergänzungsstichprobe H
Die neuen Haushalte der im Erhebungsjahr 2006 erstmals erhobenen Ergänzungsstichprobe H ("Refreshment Sample") wurden in die Hochrechnung integriert. Die Einbeziehung der Stichprobe H ist gegenwärtig noch vorläufig. Es wird geprüft, ob und wie die Stichprobe H an zusätzliche externe Ränder angepasst wird. Dieses Vorgehen ist allerdings nicht gravierend, da wir ohnehin empfehlen, für deskriptive (Zeitreihen-) Analysen die Hochrechnungsfaktoren WxHRF1 zu verwenden, die die Stichprobe H ausschließen.
4. Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005
Die Hochrechnungsfaktoren für das Jahr 2006 basieren auf Eckdaten des Mikrozensus von 2005; sie sind also bezüglich der unterstellten Anzahl von Haushalten und Personen in Deutschland vorläufig.
BIOAGE01 und BIOAGE17 2006
1. BIOAGE01
Es wurden vier neue Variablen zum Schwangerschaftsstatus generiert. Basis der Generierungen sind im Wesentlichen der Interviewmonat aus $P, Geburtsmonat und -jahr des Kindes sowie Dauer der Schwangerschaft in Wochen aus BIOAGE01.
BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?'
Value Labels:
2002 | Schwanger bei Personeninterview 2002
2003 | Schwanger bei Personeninterview 2003
2004 | Schwanger bei Personeninterview 2004
2005 | Schwanger bei Personeninterview 2005
2006 | Schwanger bei Personeninterview 2006
2007 | Schwanger bei Personeninterview 2007
BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)'
Value Labels:
1 | Erster Schwangerschaftsmonat
2 | Zweiter Schwangerschaftsmonat
3 | Dritter Schwangerschaftsmonat
4 | Vierte Schwangerschaftsmonat
5 | Fünfter Schwangerschaftsmonat
6 | Sechster Schwangerschaftsmonat
7 | Siebter Schwangerschaftsmonat
8 | Achter Schwangerschaftsmonat
9 | Neunter Schwangerschaftsmonat
10 | Letzter Monat schwanger oder nach Geburt
Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01.
PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'.
PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'.
2. BIOAGE17
Den Aufbau und Inhalt finden Sie ausführlich in der Dokumentation der Biografiedaten auf der SOEP-Homepage oder der DVD.
$HGEN 2006
1. Neue Variablen
NUTS1$$
Zusätzlich zur Bundesland-Variable ist ab diesem Jahr für alle Wellen auch die entsprechende NUTS (Nomenclature des unités territoriales statistiques) Level 1-Variable verfügbar. Die Variable ist weitgehend identisch mit $BULA in $HBRUTTO, allerdings ohne die Zusammenfassung von Rheinland-Pfalz/ Saarland (ab 2000) bzw. ohne eine Differenzierung zwischen Ost- und West-Berlin.
$PGEN 2006
1. Neue Variablen
JOBCH$$
In Ergänzung zu ERWTYP$$ (und langfristig zu deren Ersatz) wurde eine Variable zur Identifikation beruflicher Wechsel generiert. Die Kategorien dieser Variable sind unabhängig davon, ob eine Erst- oder Wiederholungsbefragung vorliegt. JOBCH$$ gibt für Personen mit Wiederholungsbefragung berufliche Wechsel seit dem letzten Interview an, für erstmals Befragte bezieht sie sich auf berufliche Wechsel, die seit Beginn des Vorjahres stattgefunden haben. Erstmals erwerbstätige Personen und erwerbstätige Personen mit beruflichem Wechsel werden hierbei getrennt ausgewiesen. Im Gegensatz zu ERWTYP$$ wurde JOBCH$$ einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle, wie beispielsweise Doppelnennungen eines beruflichen Wechsels in zwei aufeinander folgenden Interviews, wurden korrigiert.
Value Labels:
1 | Nicht erwerbstätig
2 | Erwerbstätig ohne Wechsel
3 | Erwerbstätig ohne Information, ob Wechsel
4 | Erwerbstätig mit Wechsel
5 | Erstmals erwerbstätig
2. Überarbeitete Variablen
GERWZEIT, HERWZEIT
Für die Jahre 1990 und 1991 werden nun auch für Sample C (Ost) Werte für die Dauer der Betriebszugehörigkeit bereitgestellt. Aufgrund der eventuell eingeschränkten Vergleichbarkeit im Zuge des ostdeutschen Transformationsprozesses sind diese Angaben jedoch mit besonderer Vorsicht zu behandeln.
$ERWZEIT
Die Dauer der Betriebszugehörigkeit wurde aufgrund bisher auftretender Inkonsistenten zwischen verschiedenen Interviewzeitpunkten einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle wurden anhand der folgenden Vorgehensweise korrigiert:
Aus dem längsschnittkonsistenten Beschäftigungsbeginn beim derzeitigen Arbeitgeber wird die Dauer der Betriebszugehörigkeit ermittelt. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird für Arbeitnehmer, bei denen vermutet wird, dass sie zum alten Arbeitgeber zurückgekehrt sind, die komplette Betriebszugehörigkeitsdauer erfasst. Es erfolgt kein Abzug für die Dauer der Unterbrechung, insofern wird die implizite Messung von betriebsspezifischem Humankapital ggf. überschätzt.
AUSB$$
Da bei der erforderlichen Ausbildung im Beruf seit 1999 zwischen Fachhochschul- und Hochschulstudium unterschieden wird, wurden für die Jahre vor 1999 und nach 1999 verschiedene Kategorien für die AUSB$$ 'erforderliche Ausbildung im Beruf' gebildet. In den aktuellen Jahren gibt es getrennte Kategorien, die explizit zwischen diesen beiden Abschlüssen unterschieden. Zudem werden Fachschule und Fachhochschule nun getrennt ausgewiesen.
Value Labels:
1 | Keine Ausbildung
2 | Einweisung
3 | Einarbeitung
4 | Kurse
5 | Berufsausbildung
6 | Fachschule, Ingenieurschule (Ost) 1990-1996
7 | (Fach-,) Hochschulstudium, bis 1998
8 | Fachhochschulstudium, ab 1999
9 | Hochschulstudium, ab 1999
MPS$$
Für die Wellen U,V und W wurden die Werte für die 'Magnitude Prestigeskala - Wegener' für Befragungspersonen ohne Haushaltsinterview ($NETTO=19) ergänzt.
ERWTYP$$
Die Variable Erwerbstypus wird mit der alten Kategorisierung beibehalten, jedoch wird aufgrund der gemeinsamen Ausprägung von erstmals Erwerbstätigen und erwerbstätigen Personen mit beruflichem Wechsel das Label dieser Kategorie geändert. Die Ausprägung 6 wird mit dem Label 'erwerbstätig mit Wechsel, auch erstmals erwerbstätig' versehen.
PPFAD 2006
Umstellung der $NETTO Codes
$NETTO
Mit der Welle W (23. Erhebungswelle) wurde im aktuellen Erhebungsjahr 2006 die Erfassung der Befragungspopulation grundlegend verändert. Bisher wurde immer bei allen Personen im Haushalt über 16 Jahren ein Personeninterview durchgeführt. Ab dem Erhebungsjahr 2006 werden reguläre Personeninterviews auf Basis des Standard-Erwachsenenfragebogens erst ein Jahr später - im Alter ab 18 Jahren - durchgeführt. Erstbefragte Jugendliche im Alter von 17 Jahren erhalten stattdessen erstmals einen erweiterten Jugendfragebogen (dies gilt für die Samples A-G; bei der neuen Stichprobe H wird der Jugendfragebogen erst im nachfolgenden Jahr erhoben, die entsprechenden 17-jährigen Jugendlichen erhielten als erstes - wie bisher - den regulären Personenfragebogen).
Die Befragungspersonen sind damit nicht mehr allein durch das Instrument des Personenfragebogens erfasst, sondern werden jetzt durch zwei Instrumente - Personen- und Jugendfragebogen - abgebildet. Zur konsistenten Abgrenzung im Zeitverlauf muss deshalb entweder die Jugendpopulation im aktuellen Jahr einbezogen werden oder die Altersabgrenzung für alle früheren Jahre erhöht werden.
Die neu überarbeitete $NETTO-Variable unterstützt beide Abgrenzungen rückwirkend für den gesamten Befragungszeitraum. Der Zusammenhang zwischen Erhebungspopulation und Befragungsinstrument wird über die Variable $NETTO in PPFAD beziehungsweise $HNETTO in HPFAD gesteuert. Infolge der Veränderung der Befragungspopulation sowie der Erweiterung der Erhebungsinstrumente zur detaillierten Erfassung biografischer Zusammenhänge wurde die entsprechende Variable $NETTO in PPFAD grundlegend überarbeitet und wird jetzt als zweistellige Variable bereitgestellt. Die bisherige - einstellige - Variable wird als Hilfestellung unter verändertem Namen $NETOLD weitergeführt; die Variable $HNETTO in HPFAD ist von dieser Umstellung nicht betroffen und bleibt unverändert.
Value Labels:
(10-19)'Befragte und Befragungspersonen mit realisierten Interviews'
10 | Befragungsperson mit realisiertem Interview
11 | Personenfragebogen ($P)
12 | Personenfragebogen und Lebenslauf
13 | Personenfragebogen und Jugendfragebogen
14 | Personenfragebogen und andere Fragebögen
15 | Personenfragebogen und Experimente, Tests
16 | Personenfragebogen, Erstbefragung, 17 Jahre
17 | Jugendfragebogen Erstbefragung, 17 Jahre
19 | Personenfragebogen ohne Haushaltsinterview
(20-29)'Kinder in realisierten Haushalten
20 | Kinder in realisierten Haushalten ($KIND)
21 | Kinder mit Mutter-Kind-Fragebogen I, 0-1 Jahr
22 | Kinder mit Mutter-Kind-Fragebogen II, 2-3 Jahre
(30-39)'Personen ohne Personen-Interview in Brutto-Haushalten'
30 | Personen in realisierten Haushalten ohne Personeninterview
31 | Realisierte Nacherhebung ($LUECKE)
32 | Realisierter Biografiefragebogen
33 | Realisierter Jugendfragebogen
34 | Realisierte Tests und Experimente
(60-69)'Nur Fragebogen ohne Personeninterview außerhalb der Brutto-Haushalte
60 | Nur Fragebogen ohne Personen- und Haushaltsinterview
61 | Nacherhobene Lücke ohne Haushaltsbezug
62 | Nacherhobene Lücke bei Ausfall
70 | Nur Teilnahme an Tests, Experimenten etc.
(80-89)'Personen ohne Austritt, aber ohne aktuelle Angabe im laufenden Jahr'
80 | Person ohne Austritt aus Panel-Population
81 | Vormals Befragte (ERSTBEF) ohne aktuellen Angaben
89 | RückkehrerInnen (zuvor Ausfälle)
(90-99)'Personenausfaelle und Austritte ($YPBRUTTO)'
90 | Personenausfälle ($YPBRUTTO)
91 | Wegzug ins Ausland
99 | Verstorben
$NETOLD
In der neuen Variable $NETOLD ist der alte $NETTO-Code weiterhin nutzbar. Personen im Alter von 17 Jahren, die entweder einen Jugendfragebogen (n=307) oder einen Personenfragebogen (Sample H, n=31) ausgefüllt haben, sind jeweils mit dem Wert 1 codiert. Somit ist die Abgrenzung (WNETTO == 1 | WNETTO == 5) nicht identisch ist mit der Population in WP.
$PEQUIV 2006
1. Neue Variablen
ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II.
FALG2$$: Flag zur Identifikation von Imputationen des Arbeitslosengeld II (ALG2$$).
IDEMY$$: Betrag der im Vorjahr empfangenen Zahlungen aus Abfindungen (Indemnity).
FDEMY$$: Flag zur Identifikation von Imputationen von Abfindungszahlungen (IDEMY$$).
ITRAY$$: Betrag der im Vorjahr empfangenen Fahrtkostenzuschüsse (commuting and travel grants).
FTRAY$$: Flag zur Identifikation von Imputationen von Fahrtkostenzuschüssen (ITRAY$$).
2. Überarbeitete Variablen
I11105$$
Die Variable (Mietwert selbstgenutzten Wohneigentums = Imputed Rent) wurde bisher nur für Personen in selbstgenutztem Wohneigentum generiert. Entsprechend aktueller Forschungsergebnisse und auch der Vorschläge der Europäischen Kommission zur Generierung von Imputed Rent in EU-SILC wird dieser fiktive Einkommensvorteil nun auch für Personen in Mieterhaushalten generiert, die angeben, keine marktgerechte Miete für ihren Wohnraum zu entrichten. Dies sind Personen in mietfreiem Wohnraum, Mieter in Wohnungen des sozialen Wohnungsbaus und Mieter mit verbilligt überlassenem Wohnraum (z.B. vom Arbeitgeber verbilligt überlassene Werkswohnung, von Verwandten oder sonstigen Dritten verbilligt überlassener Wohnraum).
W11101$$ und W11102$$
Aufgrund der Umstellung der Hochrechnungsfaktoren in den Files PHRF und HHRF beinhaltet die Variable W11101$$ nun den Personenhochrechnungsfaktor $PHRF1 (aus dem File PHRF) und die Variable W11102$$ den Haushaltshochrechnungsfaktor $HHRF1 (aus dem File HHRF). Befragte des SOEP weisen in ihrer ersten Befragungswelle einen signifikant höheren Anteil von Item-non-Response auf, der mittels Imputation nicht adäquat korrigiert werden kann. Daher vernachlässigen diese beiden Gewichte jeweils die erste Welle eines jeden neuen Subsamples des SOEP. Des Weiteren wird das Subsample G (Hocheinkommensbezieher) aus dem Gewichtungsschema ausgeschlossen, um Strukturbrüche in der Analyse von Einkommen im Vergleich zu Ergebnissen ohne Subsample G zu vermeiden. Diese beiden Gewichtungsvariablen sind daher besonders geeignet, eine konsistente Analyse einer Zeitreihe von Einkommen oder deren Verteilung zu unterstützen.
W11105$$
Die Variable W11105$$ beinhaltet nun den Personenhochrechnungsfaktor $PHRFALL (aus dem File PHRF). Diese Gewichtungsvariable berücksichtigt alle Subsamples des SOEP.
E11105$$
Der Inhalt der Variable E11105$$ besteht nun aus der Berufsklassifizierung nach dem internationalen Standard "ISCO88".
E11106$$ und E111076$$
Die Variablen E11106$$ und E11107$$ geben nun die Branchenzugehörigkeit in Form eines 1 bzw. 2-Stellers im internationalen Standard "NACE" wieder.
Mit der Datenweitergabe 2006 (Daten 1984-2005) werden für das Beobachtungsjahr 2005 die üblichen wellenspezifischen Dateien VPBRUTTO, VP, VPKAL, VPGEN, VHBRUTTO, VH, VHGEN, VKIND und UPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die erste CD-ROM enthält wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels.
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Neue und umbenannte Datensätze 2005
Mit der aktuellen Datenweitergabe werden SOEP-Dateien, die auf den altersspezifischen Biographiefragebögen (z.B. Mutter-und-Kind) basieren, in konsistenter Weise benannt. Alle Dateien sind im "long"-Format gespeichert, die Datei-Namen setzen sich zusammen aus dem Term BIOAGE und einem zweistelligen Suffix, der das maximale Alter der betroffenen Individuen angibt:
BIOAGE01:
Neuer Name des bisherigen Datensatzes BIOCHILD (Basis: Fragebogen für Mütter mit Neugeborenen im Alter von 0 bis 15 Monaten).
BIOAGE03:
Neuer Datensatz (Basis: Mutter-Kind Fragebogen für Mütter mit 2-3 jährigen Kindern; siehe Biographie Dokumentation).
BIOAGE17:
Neuer Name des bisherigen Datensatzes BIOYOUTH (Basis: Fragebogen für 16-17 jährige Jugendliche).
Hochrechnung 2005
Hochrechnung des Querschnitts für 2005 nur vorläufig - Update von VPHRF und VHHRF voraussichtlich im Herbst 2006
Die wellenspezifischen Hochrechnungs- und Gewichtungsfaktoren des SOEP werden jährlich an die jeweiligen Daten des Mikrozensus (MZ) angepasst, so dass die SOEP-spezifische Verteilung nach Region, Alter, Geschlecht, Haushaltsgröße und Nationalität derjenigen des MZ entspricht. Ab dem Jahr 2005 werden Angaben für das Land Berlin nicht mehr nach West und Ost getrennt ausgewiesen, sondern insgesamt den neuen Ländern zugeordnet. Diese Umstellung innerhalb der amtlichen Statistik führt leider auch dazu, dass die für die Querschnittshochrechnung der SOEP Daten 2005 (Welle 22) relevanten Informationen (Reihe "Haushalte und Familien", Hrsg. Statistischen Bundesamt) erst im Herbst 2006 zur Verfügung stehen werden.
Um eine entsprechende Verzögerung der Weitergabe der SOEP-Daten bis Welle V (2005) zu vermeiden, basieren die Hochrechnungsfaktoren VPHRF* und VHHRF* der auf CD verfügbaren SOEP-Daten auf dem in Welle U (2004) verwendeten Rahmen.
Erfahrungsgemäß wird die Abweichung dieser Eckdaten (mit Ausnahme der neuen Abgrenzung Berlins) nur gering sein. Wir bitten Sie in Ihren Analysen auf die Vorläufigkeit des Hochrechnungsrahmens zu achten und in Veröffentlichungen ggf. darauf hinzuweisen.
Wir werden Sie umgehend (via SOEP NEWSLETTER) informieren, wenn Sie die aktualisierten Hochrechnungsfaktoren auf Basis des 2005er MZ bei uns abrufen können.
HGEN 2005
AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).
PGEN 2005
AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).
***Neu in $PGEN (neue und geänderte Variablen) (neu)
ALLBET$$ (neu)
Grobkategorie der Unternehmensgröße. Eine über alle Wellen konsistente Variable für die Unternehmensgröße (kleinster gemeinsamer Nenner der Variable BETR$$).
Kategorien:
BETR$$ (geändert)
Die Variable BETR$$ hat nun 11 anstatt wie bisher 9 Kategorien. Der Grund dafür ist, dass die Unternehmensgröße ab Welle V detaillierter abgefragt wird: Die bisherige Kategorie '5 bis unter 20 Mitarbeiter' wurde in die zwei Kategorien '5 bis 10 Mitarbeiter' und '11 bis unter 20 Mitarbeiter' unterteilt.
Die neuen Kategorien sind:
Hinweis: Mit der neuen Variable ALLBET$$ im Datensatz $PGEN steht zusätzlich eine gröbere Kategorisierung der Unternehmensgröße zur Verfügung, die über alle Wellen konsistent kodiert ist (kleinster gemeinsamer Nenner der Variable BETR$$).
EMPLST$$(neu)
Employment Status. Eine über alle Wellen konsistente Variable zur Differenzierung des Erwerbsumfangs (in Ergänzung zur Variablen LFS$$, die Nicht-Erwerbstätige differenziert).
Kategorien:
EXPFT$$(neu)
Arbeitsmarkterfahrung Vollzeit. Erfassung der gesamten Vollzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).
EXPPT$$ (neu)
Arbeitsmarkterfahrung Teilzeit. Erfassung der gesamten Teilzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).
EXPUE$$(neu)
Arbeitsmarkterfahrung Arbeitslos. Erfassung der gesamten Arbeitslosigkeitsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).
Ansprechpartnerin für die o.g. Variablen: Silke Anger
$PEQUIV 2005
SSOLD$$
Social assistance for elderly (Grundsicherung im Alter).
FSSOLD$$
Imputation flag: Social assistance for elderly.
LOSSR$$
Losses from renting and leasing.
FLOSSR$$
Imputation flag: Losses from renting and leasing.
LOSSC$$
Losses from capital investment.
FLOSSC$$
Imputation flag: Losses from capital investment.
D11112LL
Race of individual.
D11110$$ gelöscht
Information bereits in der Variable M11124$$ enthalten.
D11111$$ gelöscht
Information bereits in der Variable M11125$$ enthalten.
Ansprechpartner: Markus Grabka
Fehlerupdate 2005
Berichtigung von [T-U]HPOP in HPFAD
Berichtigung der individuellen und haushaltsbezogenen Hochrechnungsfaktoren von 2003 bzw. 2004 (THHRF bzw. UPHRF und UHHRF).
Mit der Datenweitergabe 2005 (Daten 1984-2004) werden für das Beobachtungsjahr 2004 die üblichen wellenspezifischen Dateien UPBRUTTO, UP, UPKAL, UPGEN, UHBRUTTO, UH, UHGEN, UKIND und TPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die Daten der ersten CD-ROM enthalten wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die Daten CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
PPFAD 2004
LOC1989
Die zentralen demographischen Informationen in PPFAD wurden um den Wohnort im Jahr 1989 erweitert (Wo lebte eine Person zur Zeit des Mauerfalls? Variable LOC1989). Unterschieden werden die Kategorien "Ostdeutschland", "Westdeutschland" und "Ausland". Die Information ist für alle Befragten und Kinder vorhanden (siehe weitere Dokumentation in der Dokumentation der Biographiedaten).
Ansprechpartner: Joachim R. Frick
PGEN 2004
LABGRO$$ und LABNET$$
Es wurden neue Variablen für alle Wellen (A-U) generiert, die den monatlichen Brutto- und Nettoarbeitslohn (LABGRO$$ und LABNET$$) beinhalten - durchgehend in EURO. Fehlende Werte auf Grund von Item-Nonresponse wurden imputiert und können mit Hilfe der zugehörigen Zeiger-Variablen IMPGRO$$ und IMPNET$$ identifiziert werden (weitere Informationen (PDF, 232.61 KB)).
Ansprechpartner: Markus M. Grabka
HGEN 2004
HINC$$
$HGEN beinhaltet nun auch das direkt erfragte monatliche Netto-Haushaltseinkommen (HINC$$) - durchgehend in EURO für alle Wellen (A-U).
Ansprechpartner:Jan Goebel oder Peter Krause.
AHINC$$
Eine weitere Variable wurde für die Wellen L-U (1995-2004) generiert, ebenfalls mit der Information zum monatlichen Netto-Haushaltseinkommen (in EURO), allerdings korrigiert für eine mögliche Unterschätzung durch die Auskunft gebende Person (AHINC$$). Eine derartige Unterschätzung wurde mit Hilfe der aktuellen persönlichen Einkünfte aller Personen im Haushalt korrigiert (weitere Informationen (PDF, 61.43 KB)).
Ansprechpartner: Jan Goebel oder Peter Krause
$PEQUIV bzw. SOEP-CNEF 2004
M11101$$-M11127$$
Die $PEQUIV-Dateien der Wellen A-U beinhalten nun auch international harmonisierte Variablen zur Gesundheit (M11101$$-M11127$$). Weitere Informationen gibt es im Codebook for the $PEQUIV File 1984 – 2004 (PDF, 0.55 MB).
Ansprechpartner: Markus Grabka
Mit der Datenweitergabe 2004 werden für das Beobachtungsjahr 2003 die üblichen wellenspezifischen Dateien TPBRUTTO, TP, TPKAL, TPGEN, THBRUTTO, TH, THGEN, TKIND und SPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten und Hochrechnungsfaktoren) weitergegeben.
Die in 2003 erstmals erhobenen Biographie-Informationen für Sample G ("Hocheinkommens-Stichprobe") wurden vollständig in die nutzungsfreundlichen Biographie-Datensätze integriert.
Die Daten-CD-Rom #2 enthält mit diesem Release erstmals auch alle SOEP-Daten mit englischsprachigen Variablennamen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
Sample G "High Income Sample" (Start 2002)
Die Revision des sampling designs (Erhöhung der Einkommensschwelle) führt zu geringeren Fallzahlen in Welle 2.
Ansprechpartner: Jürgen Schupp
Neue Rectypes 2003
Es gibt jetzt weitere Dateien:
1) BIOCHILD Informationen aus dem Mutter-Kind-Fragebogen:
In diesem neuen File werden künftig jährlich Informationen über die im SOEP Neugeborenen abgelegt (siehe weitere Dokumentation in Biographiedaten). Ansprechpartner: Jürgen Schupp
2) BIORESID Informationen zum Zweitwohnsitz bei der Erstbefragung:
Im Datensatz BIORESID sind Angaben zur Wohndauer und zum Zweitwohnsitz abgelegt. Die Informationen stammen aus dem Biographie-Fragebogen, der seit 1994 konsistente Fragen hierzu enthält (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Thorsten Schneider
3) BIOBRTHM Geburtsbiographie für Männer - ab 2001:
Dieser neue Datensatz enthält geburtsbiographische Angaben für Männer, die seit 2001 mit dem diesbezüglich modifizierten Biographie-Fragebogen befragt werden. BIOBRTHM ist analog zu BIOBIRTH für Frauen aufgebaut (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
4) BIOTWIN Datei zur Identifikation von "Mehrlingen":
BIOTWIN umfasst die Population aller im SOEP identifizierbaren Mehrlingsgeburten. Gespeichert sind die Identifikatoren (PERSNR) zu Mutter und Geschwistern (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp und Christian Schmitt
5) HBRUTT98:
Dieses neue File unterstützt Ausfall-Analysen für die Startwelle von Sample E, in dem die komplette Brutto-Population dieser Teilstichprobe zur Verfügung gestellt wird.
Ansprechpartner: Peter Krause
BIOPAREN 2003
Variablen zur Nationalität der Eltern wurden korrigiert (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jürgen Schupp
PGEN 2003
MODE$$und MONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (MODE$$ bzw. MONTH$$, siehe auch zusätzliche Dokumentation (PDF, 0.66 MB)).
Ansprechpartner: Jürgen Schupp
$PSBIL
Die Variable $PSBIL wurde aktualisiert. Bei Ausländern musste für das Jahr 2000 die Kategorie "Ohne Abschluss verlassen" [Code 6] aktualisiert werden; hieraus ergab sich Aktualisierungsbedarf bei $BILZEIT, ISCED$$ und CASMIN$$.
AnsprechpartnerIn: Bettina Isengard und Peter Krause
$FAMSTD
Die Variable wurde aktualisiert.
HGEN 2003
HMODE$$ und HMONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (HMODE$$ bzw. HMONTH$$, siehe auch zusätzliche Dokumentation (PDF, 0.64 MB)).
Ansprechpartner: Jürgen Schupp
PPFAD 2003
GEBMONAT
Die zentralen demographischen Informationen in PPFAD wurden um den Geburtsmonat (Variable GEBMONAT) ergänzt. Diese Angabe wurde inzwischen von allen noch in der Stichprobe enthaltenen Befragungspersonen und Kindern erhoben (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
Die Variablen EINTRITT, ERSTBEFR, AUSTRITT, LETZTBEF wurden aktualisiert. Zum Update siehe Dokumentation (PDF, 0.53 MB).
Ansprechpartner: Peter Krause
BIOBIRTH 2003
Die geburtsbiographischen Informationen für Frauen wurden ergänzt um Angaben aus dem Jugend-Fragebogen, den inzwischen 16-17jährige Erstbefragungspersonen anstelle des Standard-Biographiefragebogens erhalten (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Christian Schmitt
BIOIMMIG 2003
Diese Daten wurden wegen einer fehlerhaften Vercodung in den zurückliegenden Jahren infolge einer Vertauschung der Itemreihenfolge korrigiert. Dies betrifft die Variablen BIEXPRLV, BIEXPRAC und BIEXPRAN (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Jan Goebel
PFLEGE 2003
Für die Jahre ab 1999, also für die Wellen P bis T, gibt es eine neue Variable PNRCARE. PNRCARE ist eine unveränderliche Personennummer und bezeichnet die Person im Haushalt, die vornehmlich die Pflege übernimmt. In drei Fällen waren pflegende und zu pflegende Personen identisch. In diesen Fällen wurde PNRCARE auf -3 gesetzt (unplausibler Wert). Für die Wellen vor 1999 hat PNRCARE den Wert -2.
YPBRUTTO 2003
Überarbeitung von HHNRAKT und HHNROLD bei doppelt geführten Personen im alten Haushalt.
Ansprechpartner: Peter Krause
$PEQUIV bzw. SOEP-CNEF 2003
Alle Einkommensangaben seit 1984 sind in EURO vercodet.
In Ergänzung zu den bisher zur Verfügung gestellten jährlichen Einkommensaggregaten (Summe aller Einkommen die von allen HHMitgliedern bezogen wurden, Variablen I111xx$$) sind nun auch die individuellen Einkommensbestandteile mit wellenübergreifend konsistenten Variablennamen verfügbar.
Alle aufgrund von item-non-response fehlenden Angaben bei Einkommensvariablen wurden imputiert und sind mit Hilfe entsprechender Flag-Variablen identifizierbar.
Alle Einkommensvariablen sind auch für Sample G enthalten, jedoch wurden die Standard-Hochrechnungfaktoren auf Basis der Teilstichproben A-F verwendet.
Siehe auch die Dokumentation (PDF, 41.18 KB).
Ansprechpartner: Markus Grabka
Neue Rectypes 2002
HBRUTT02
In Ergänzung zu den laufenden, wellenspezifischen Bruttoinformationen zum Feldverlauf (SPBRUTTO, SHBRUTTO) werden für die neue Stichprobe G in der Datei HBRUTT02 auch die Haushalte geführt, die nicht realisiert wurden. HBRUTT02 enthält daher alle Ziehungshaushalte der Stichprobe G; die realisierten Haushalte der Stichprobe G sind auch in dem laufenden Haushaltsbrutto SHBRUTTO enthalten. Dies entspricht derselben Vorgehensweise wie für die Samples A (HBRUTT84), E (HBRUTT98) und F (HBRUTT00).
BIOSOC
Der neue Datensatz BIOSOC enthält für alle Personen, die seit dem Jahr 2000 den Biographie-Fragebogen ausfüllen, Informationen zur Jugend wie z.B. Streit mit den Eltern, Freizeitaktivitäten, Schulnoten, Bundesland des letzten Schulbesuchs.
Nähere Informationen in der Biographiedokumentation.
BIOJOB 2002
Der Datensatz BIOJOB enthält ausführliche Angaben zum Einstiegsberuf. Neu ist, das hierfür nun auch ISCO88-Angaben, Berufsskalen und Klassenschemata (ISEI, SIOPS, EGP, MPS) sowie Angaben zur Branche (NACE) vorliegen. Neuerdings werden auch Angaben zum letzten Job erhoben und in BIOJOB abgelegt.
Nähere Informationen in der Biographiedokumentation.
BIOPAREN 2002
Der Ansprechpartner für den Update des Prestige-Scores der Eltern ist Jürgen Schupp.
PGEN 2002
AUTONO$$
Diese neue Variable basiert auf den Angaben zur ‚Stellung im Beruf' und stellt den Autonomiegrad im Beruf dar.
Ansprechpartner: Jürgen Schupp
STIB$$
Die Variable vereinheitlicht die Angaben zur 'Stellung im Beruf' über alle Wellen.
Ansprechpartner: Jürgen Schupp
ISCED$$, CASMIN$$
Die wellenspezifischen Dateien $PGEN wurden - rückwirkend ab 1984 - um zwei weitere Bildungsvariablen ($ISCED und $CASMIN) ergänzt, die auf den internationalen Klassifikationsschemata ISCED (International Standard Classification of Education) bzw. CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) basieren und somit zur besseren Vergleichbarkeit bildungsbezogener Analysen auf Basis von SOEP-Daten beitragen.
Ansprechpartnerin: Bettina Isengard
$EQUIV 2002
Gegenüber der letzten Datenweitergabe haben sich grundlegende Veränderungen im Umgang mit Item-Nonresponse bei jahresbezogenen Einkommensvariablen und den aggregierten Einkommensangaben der $PEQUIV-Files ergeben. Das bewährte längsschnittbasierte Verfahren zur Imputation von Item-Nonresponse wurde um eine rein querschnittsbasierte Imputation aller Einkommensvariablen erweitert, die jedoch nur für solche Beobachtungen zum Einsatz kommt, für die keine individuellen Längsschnittinformationen vorliegen. Daraus resultiert nun eine vollständige Ersetzung aller fehlenden Einkommensangaben in den $PEQUIV-Files (für nähere Hinweise zum methodischen Vorgehen der zusätzlichen Imputation vgl. Frick, J.R. and Grabka, M. (2003): Missing Income Data in the GSOEP: Incidence, Imputation and it's Impact on the Income Distribution (PDF, 1.01 MB).
In diesem Zusammenhang wurden auch die sogenannten Imputationsflags überarbeitet. Diese geben nun den Anteil des imputierten Einkommens am jeweiligen Einkommensaggregat wieder, d.h. bei Vorliegen vollständiger Information ist der Wert 0 und bei Auftreten von Item-Nonresponse kann der Imputationsflag einen Wert bis zu 100 annehmen.
Darüber hinaus stehen nun auch für das neue Sample F vollständige Einkommensinformationen für die Jahre 2000 bis 2002 zur Verfügung.
Die Daten des CNEF stehen derzeit noch nicht für die erste Welle von Sample G zur Verfügung, da die beim SOEP angewandten methodisch anspruchsvollen Imputationsalgorithmen Längsschnittdaten erfordern.
Ansprechpartner: Markus Grabka
Hinweis zur DM - EURO Umstellung 2002
Die Einkommen in PEQUIV beziehen sich immer auf das Vorjahr; insofern sind die in 2002 erhobenen Daten für das Einkommensjahr 2001 noch in DM erhoben. Mit der nächsten Datenweitergabe wird es eine Umstellung aller PEQUIV-Informationen auf EURO geben. Ansonsten gilt das Prinzip, dass alle Angaben in den $P-Files der im Originalfragebogen erhobenen Information entsprechen, d.h. die im Jahre 2002 bereits in EURO erhobenen Einkommen bzw. für das Vorjahr 2001 noch in DM erhobenen Angaben sind entsprechend der in der jeweiligen Frageformulierung verwendeten Währung abgelegt.
Ansprechpartner: Peter Krause
Die Querschnittsgewichtung ist für alle Wellen (1984-2001) überarbeitet worden. Die konzeptionellen Änderungen sind:
a) Für die Stichprobe F sind detailliertere Designgewichte als bisher zu Grunde gelegt worden.
b) Die Randanpassung an die Altersstruktur ist verfeinert worden.
c) Hochrechnungsfaktoren, die höher als das 10-fache ihres stichprobenspezifischen Medians betrugen, wurden gekappt.
Eine ausführliche Beschreibung finden Sie im Newsletter 60, April 2003.
Mehr Informationen zur Querschnittshochrechnung und der Integration neuer Stichproben finden Sie in unseren Dokumentationen oder auf der aktuellen CD (CD2) im Verzeichnis "\DOCS\HRF".
Neue Rectypes 2001
Es gibt jetzt weitere Dateien:
1) HBRUTT84
Dieses File enthält Brutto-Informationen für alle ausgewählten Haushalte der 1. Welle und schließt somit auch solche Haushalte ein, die nicht zu einem Interview bereit waren. Auf dieser Datengrundlage sind eigenständige Ausfallanalysen für die erste Welle 1984 möglich.
Ansprechpartner: Peter Krause
2) BIOYOUTH
Die Daten der Erhebung mit dem Jugendfragebogen (Pretest 2000 und Erhebung 2001) sind in diesem File abgelegt. Nähere Informationen finden Sie in der Biographiedokumentation.
Ansprechpartner: Thorsten Schneider
BIOMARSY und BIOMARSM 2001
Die Ehestandsbiographien BIOMARSY und BIOMARSM sowie die generierten Familienstände $FAMSTD sind vollständig neu überarbeitet worden. Diese Datensätze sind jetzt zu 100% konsistent. Dies hat allerdings zur Konsequenz, dass sich Familienstandsangaben aus den Personenfragebogen nicht immer mit den generierten Daten decken.
Nähere Informationen in der Biographiedokumentation.
PPFAD 2001
Die neue Variable $POP gibt für jede Person an, ob sie in einem Privat- oder Anstaltshaushalt lebt und welche Nationalität ihr Haushaltsvorstand hat. Sie ist eine der Schlüsselvariablen für die Querschnittshochrechnung.
YBRUTTO 2001
Die Ergebnisse der Verbleibstudie 2001/02 (Panelausfälle der Jahre 1985 bis 1998 (PDF, 0.78 MB)) sind in YBRUTTO eingearbeitet. Bei mehr als 8 000 Bearbeitungsfällen liegen neue Auskünfte vor, die entweder das Sterbejahr oder das Jahr des Wegzugs ins Ausland oder den aktuellen Wohnort der Person beinhalten. Nähere Informationen finden Sie hier.
BIOPAREN 2001
Das aktuelle File enthält neu die Ergebnisse der Biographienacherhebung für die F-Stichprobe des Jahres 2001.
Weiterhin wurde nach den Ergebnissen der Verbleibstudie der Aufenthaltsort der Eltern im Jahr 2001 für alle aktuell befragten Personen dem Datensatz hinzugefügt als neue Variablen VAORT01 (Aufenthaltsort des Vaters 2001 - Befragungsschwerpunkt Familie) und MAORT01 (Aufenthaltsort der Mutter 2001 - Befragungsschwerpunkt Familie).
Die Neuvercodung der Berufsangaben des Vaters/der Mutter konnte noch nicht zum Abschluss gebracht werden. Diese Informationen können jedoch bis Sommer 2003 als Sonderlieferung direkt abgerufen werden (Anfragen bei Jürgen Schupp). Nähere Informationen in der Biographiedokumentation.
$PEQUIV-FILES 2001
Auch für die $PEQUIV-FILES wurden einige Änderungen durchgeführt. Ausführliche Informationen hierzu finden Sie in den englischsprachigen FAQ.
PGEN 2001
Betr$$
Bitte achten Sie bei der aktualisierten Version dieser Variable auf die Sondercodes 3 und 6! Diese Codes wurde aufgrund der seit 1992 sowie 1999 im Vergleich zu den jeweiligen Vorjahren differenzierteren Erfassung der Itemvorgabe im Bereich kleiner sowie mittlerer Unternehmen notwendig.
KLAS$$ Klassifikation der Berufe des Stat. Bundesamtes
Ziel der Variable ist die Bereitstellung der jährlich für alle Erwerbstätigen erfragten Informationen zur beruflichen Tätigkeit. Da diese Frage nicht jährlich an alle Erwerbstätigen sondern 1985, 1986, 1987, 1988, 1990(West), 1992(West), 1994, 1996 und 1999 sowie 2001 nur an Erwerbstätige mit beruflichem Wechsel geht, wird in IS88$$ für alle Personen ohne beruflichen Wechsel auch die verfügbare Vorjahresinformation bereitgestellt.
Im Fragebogen werden jeweils die Klartextangaben der Befragten eingetragen. Diese aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellte Information wurde im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 (PDF, 121.87 KB).
IS88$$
Sämtliche Klartextangaben der Befragten wurden im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 (PDF, 121.87 KB).
Die Datenlieferung SOEP 1984-2001 ersetzt bzgl. ISCO88-Vercodung deshalb ALLE früheren Datenlieferungen.
International Labour Office (ILO) (1990): ISCO-88; International Standard Classificaton of Occupation, Genf.
Nace$$
Um die internationale Vergleichbarkeit zu erleichtern, wurde das im SOEP angewandte Verfahren der Klartext-Codierung um die Generierung der Wirtschaftszweigklassifikation der Europäischen Union erweitert (Nomenclature des statistiques des Activités économiques de la Communauté Européenne). Die NACE Rev.1-Version korrespondiert zudem ISIC Rev. 3 Code (International Standard Classification of All Economic Activities). Mit der Datenlieferung 2001 erfolgte eine komplette Nachvercodung der früheren im SOEP bereitgestellten Branchencodes nach NACE. Bitte beachten, dass die Sondercodes 96-98 sowie 100 von Infratest für die Fälle erfolgte, in denen keine detailliertere Klartextangabe vorlag.
$PSBIL und $_PBBIL01,02,03
Generiert werden für alle Befragungspersonen in integrierter Form der Schulabschluss (_PSBIL) und der berufliche Abschluss (_PBBIL01,02,03). Ostspezifische und ausländerspezifische Abschlüsse werden zudem separat dokumentiert (Ab 2000 wird kein beruflicher Bildungsabschluss Ost mehr ausgewiesen).
Gegenüber der Lieferung der Daten für das Erhebungsjahr 2000 haben sich folgende Änderungen ergeben:
Achtung: Gelöschte Variablen früherer Wellen in der Datenlieferung 2001
ISCOU$$, ISCO$$, ISCOH$$
Diese Variablen auf Basis des ISCO68 werden seit 2000 nicht mehr zur Verfügung gestellt. Stattdessen erfolgte eine Neuvercodung aller zurückliegenden Klartextangaben auf Basis des ISCO88-Verfahrens (s. neue Variable IS88$$); dieser hierarchisch aufgebaute Berufsschlüssel ersetzt die frühere Unterscheidung in 1-Steller, 2-Steller sowie 3-Steller bei der Berufsvercodung.
Die bis 2000 generierten Codes dieser Variablen können auf Nachfrage von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.
BRANCH$$
Diese Variable stellt das Ergebnis der Klartext-Vercodung der Wirtschaftszweige dar. Diese - aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellten - Texte wurden im Anschluss an die Befragung vom Zentrum für Umfragen und Analysen (ZUMA), Mannheim gemäß einer vom DIW erweiterten Branchenliste vercodet. Diese Liste basiert auf der sog. ZUMA-Standarddemographie-Liste, die bis Code 23 vollständig vergleichbar ist. Da die Klassifikation auf Basis von NACE internationale Vergleiche ermöglicht (s. neue Variable NACE$$), wurde auf die Vercodung auf Basis des früheren Branchenschemas verzichtet.
Die bis 2000 generierten Codes dieser Variable können auf Nachfrage (Ansprechpartner: Peter Krause) von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.
Neue Rectypes 2000
1. VARIANZ
Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1, STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen (z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR) gespeichert.
STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B "künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und unter der Bezeichnung STRAT2 abgelegt.
Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe A Stimmbezirke; in Teilstichprobe D nicht vorhanden).
Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine Identifikation regionaler Einheiten unmöglich zu machen.
Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in befragt wurden, identifizierbar sind.
2. HBRUTT00
Dieses File enthält - wie schon bei der Erhebung der Ergänzungsstichprobe 1998 (Sample E) - alle Bruttoinformationen der durch Random-Route-Verfahren neu gezogenen Haushalte der Ergänzungsstichprobe des Jahres 2000 (Sample F). Dabei spielt es keine Rolle, ob diese Haushalte erfolgreich befragt wurden oder nicht. Derartige Informationen können u.a. für methodische Untersuchungen über die Beteiligung von Haushalten an (SOEP-) Befragungen herangezogen werden.
3. QJUGEND
Im Jahr 2000 erfolgte erstmals anstelle des Biographiefragebogens die Erhebung eines Jugendfragebogens. Dieser richtet sich an alle "neuen" Personen, die aufgrund des erreichten Befragungsalters "16. Lebensjahr" erstmals an der SOEP-Befragung teilnehmen. Die nunmehr vorliegenden 232 Datensätze von Jugendlichen ergänzen die Informationen aus dem ebenfalls erstmals beantworteten Personenfragebogen, um retrospektive Angaben zum Bildungsverlauf sowie von Basisindikatoren zum Bildungserfolg zu erhalten. Da im Jahr 2001 eine gründliche Revision sowie Erweiterung der Indikatoren des Jugendfragebogens erfolgte und auch die Jugendlichen der neuen Stichprobe F erstmals im Jahr 2001 diesen neuen Fragebogen beantwortet haben, stellt der Datensatz QJUGEND sozusagen eine Art Pretest eines ab 2001 neuen zusätzlich im Rahmen der Datenweitergabe bereitgestellten Biographiedatensatzes BIOYOUTH dar.
Überarbeitung der Labels 2000
Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet. Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur einer Antwortkategorie). Ferner wurden auch die Labels semantisch im zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen.
$PGEN 2000
Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr 2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet, fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten Sie dies bei Programmaktualisierungen zu berücksichtigen.
Ansprechpartner: Jürgen Schupp und Peter Krause
$PEQUIV-Files 2000
Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:
Neuer Rectype 1999
INTERVIEW Bei dieser Datenweitergabe wurde erstmals ein Interviewerdatensatz mitgeliefert. Er enthält Informationen über Geschlecht, Alter, Bildung, Beruf und Familienstand von 1048 Interviewern, die die Befragungen der Stichproben A, B, C und D in den Wellen 1 bis 12 durchgeführt haben (Dokumentation (PDF, 75.75 KB)).
Hochrechnung 1998
Die Hochrechnung der SOEP-Daten wurde für die jüngste Datenauslieferung zweifach verbessert: Zum einen bieten wir jetzt reine »Designgewichte« an, in die die designbedingten Ziehungswahrscheinlichkeiten der (jeweiligen) ersten Welle eingehen. Diese Gewichte sollen nutzungsdefinierte (ökonometrische) Modellierungen des Ausfallprozesses im SOEP unterstützen. Die Dokumentation der Designgewichte befindet sich auf der CD-ROM; sie ist außerdem als DIW-Diskussionspapier (PDF, 223.29 KB) oder auch als Hardcopy bei unserer Dokumentationsstelle erhältlich.
Zum zweiten wurde die - insbesondere in deskriptiven Analysen häufig benutzte - Querschnittshochrechnung des SOEP überarbeitet. Intention ist es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die zentrale Randverteilungen des Mikrozensus wiedergeben. Aufbauend auf der unveränderten Längsschnittsgewichtung wurden die Querschnitts-Hochrechnungsfaktoren an nachfolgend aufgeführte Randverteilungen des Mikrozensus angepaßt (diese wurden auch zur Hochrechnung der ersten Welle der Stichprobe E genutzt).
Die Anpassung wurde getrennt nach alten und neuen Ländern für die Jahre 1990 bis 1998 durchgeführt. Stichprobe E wurde bei der Hochrechnung wie die Altstichproben behandelt.
Bei den Haushalten wurde die wohnberechtigte Bevölkerung in Privathaushalten auf Basis des Mikrozensus zugrunde gelegt. Die Anpassung erfolgte an die Haushaltsgröße (1-,2-,3-,4-Personen und Haushalte mit 5 und mehr Personen), Altersklassen (15 bis 69 Jahre, 70 Jahre und älter), Geschlecht (männlich) und Nationalität (nicht-deutsch).
Bei den Personen bildete die Bevölkerung in Privathaushalten am Hauptwohnsitz die Basis.
Die Gewichte für Anstaltshaushalte und Personen in Anstaltshaushalten blieben unverändert.
Die Randanpassungen auf Haushaltsebene wurden mit der DOS-Version des Programms ADJUST von Joachim Merz (Universität Lüneburg) vorgenommen.
Die für ADJUST erforderlichen Startgewichte berücksichtigten die Struktur der alten Hochrechnungsfaktoren, die geschätzten Bleibewahrscheinlichkeiten sowie Sonderfälle, die durch temporäre Ausfälle und Gründung von Neu-Haushalten auftraten.
Die alten Hochrechnungsfaktoren werden natürlich nicht gelöscht, sondern weiterhin für Vergleichszwecke in den Files PHRFOLD und HHRFOLD ausgeliefert.
Die auf den CD-ROMs mit ausgelieferte Version des »Equivalent Files« enthält bereits die neuen Hochrechnungsfaktoren (sowie einige geringfügige Verbesserungen der Einkommensvariablen), während die US-Version noch auf den alten Hochrechnungsfaktoren basiert.
Die Dokumentation der neuen Querschnittshochrechnung befindet sich auf der CD-ROM, und wird als Bestandteil des Desktop-Companions im Internet zu finden sein.
Die Ergänzungsstichprobe E ist nun voll in den SOEP-Datenbestand integriert. Das bedeutet auch eine gemeinsame Querschnittshochrechnung der Altstichproben A-D und der Stichprobe E. Zu diesem Zweck wurde eine »konvexe Gewichtung« gewählt, deren Dokumentation ebenfalls auf der CD-ROM zu finden und als DIW-Diskussionspapier (PDF, 214.5 KB) auf unserer Homepage bzw. als Hardcopy direkt bei der Projektgruppe abrufbar ist.
Die Konvexgewichte wurden so gewählt, daß die Varianz verschiedener Schätzer möglichst klein wird. Mit der angebotenen Lösung erhält die Stichprobe E ein gegenüber ihrer Fallzahl überproportionales Gewicht. Dies ist der Tatsache geschuldet, daß sich die Varianz der Schätzer in den Altstichproben A-D u.a. aufgrund der Panel-Attrition im Laufe der Zeit vergrößert hat.
Die ursprünglichen Hochrechnungsfaktoren (nach der neuen Randanpassung) werden (ab 1998) mit dem Faktor 0,8 multipliziert, die Hochrechnungsfaktoren der Stichprobe E werden mit dem Komplementärfaktor 0,2 gewichtet. Für getrennte Analysen ist die Umgewichtung der Altstichproben sowie die der Stichprobe E somit leicht rückgängig zu machen.
Die speziellen Hochrechnungsfaktoren OHHRFD und OPHRFD für Stichprobe D blieben unverändert.
Neue Rectypes 1997
SOZKALEN
Die neu generierte Datei enthält Sozialhilfespells (Laufende Hilfe zum Lebensunterhalt, Hilfe in besonderen Lebenslagen) von Haushalten auf Monatsbasis beginnend mit Januar 1991 (Erhebungsjahr 1992).
RBEINK
ist eine Zusammenfassung der von Roland Berntsen für Westdeutschland generierten Einkommensangaben der Erhebungsjahre 1984-1991. Diese Angaben waren bisher bei den generierten Personeninformationen (_PGEN) abgelegt; sie werden nicht weiter fortgeschrieben.
Wir empfehlen stattdessen die Nutzung der in Syracuse generierten Jahreseinkommen: Die Variablen des GSOEP-Equivalent-Files (_PEQUIV) wurden rückwirkend für alle Wellen (bis 1996) in der 100%-Version NEU aufgenommen (aus datenschutzrechtlichen Gründen können in der Scientific-Use-Version diese Daten nur als 95%-Version weitergegeben werden). Diese Dateien enthalten u.a. differenzierte Jahreseinkommen einschließlich Pre- and Postgovernment-Income sowie Angaben zu Sozialversicherungsabgaben und Steuern.
Ebenfalls NEU generiert und vereinheitlicht wurden die jährlich erhobenen Kalenderinformationen (_PKAL) zum monatlichen Erwerbs- und Einkommensverlauf (Einkommen nur bis 1995).
BIOPAREN 1997
BIOPAREN umfaßt lediglich die SOEP-Population bis zum Jahre 1996. Diese Datei wurde jedoch um einige Variablen zur sozialen Herkunft erweitert.
EINKALEN kann - wie bereits erwähnt - aufgrund einer Umstellung in der Erhebung des Einkommenskonzeptes nicht mehr auf Monatsebene fortgeschrieben werden und wird demgemäß zum Stand von 1995 weitergegeben.
PGEN 1997
Erstmalig wird in NPGEN der ISCO-Code zusätzlich auch nach der 88er-Klassifikation abgelegt. Die Variablen TREIMAN__ und WEGEN__ wurden ebenso wie die Variablen _BILZEIT und _ERWZEIT rückwirkend in allen _PGEN-Dateien in der Originalversion (mit einer Nachkommastelle) ausgewiesen. Zudem wurden in allen _PGEN-Dateien drei neue Variablen nachgeladen: _TATZEIT (tatsächliche Arbeitszeit), _VEBZEIT (vereinbarte Arbeitszeit) und _UEBSTD (geleistete Überstunden); auch diese Variablen werden jeweils mit einer Nachkommastelle geführt. Darüberhinaus wurden vereinzelt rückwirkend einige Missing-Angaben in den Personenbrutto-Dateien (_PBRUTTO) aktualisiert. Koordinatoren der Datenaufbereitung sind Peter Krause und Joachim Frick.
Mit der neuen Auslieferung der Daten wurde auch die Variable $BILZEIT in $PGEN vereinheitlicht, d.h. die in den verschiedenen Jahren unterschiedlich skalierte Variable $BILZEIT wurde jetzt rückwirkend für alle Wellen in Jahren und (nicht wie früher teilweise in Zehnteln von Jahren) abgespeichert.
Sollten hierzu Fragen haben, wenden Sie sich bitte an Peter Krause.
PKAL 1997
In der Vergangenheit wurden die Kalendarien in unterschiedlicher Form weitergegeben. So wurde diese zum Beispiel in einigen Wellen (A bis F) als separate $PKAL-Files weitergegeben, in anderen Wellen im $P-File integriert. Auch unterschieden sich die String-Varibalen teilweise in ihrer Länge (zwölf oder 24 Spalten).
Mit der neuen Datenlieferung wurden die Kalendarien einheitlich in einem $PKAL-File pro Welle zusammengefaßt und die Strings auf 24 Spalten festgelegt. Zusätzlich wurden zwölf getrennte Monatsvariablen mitgeliefert. Hiermit hoffen wir, Anforderungen Ihrer Statistikpakete gerecht werden zu können.
Für Nachfragen steht Ihnen Peter Krause gerne zur Verfügung.
EQUIV 1997
Bislang wurden die in Syracuse erstellten Equivalent Files in zwei Files weitergegeben: das GSOEP File und das PSID File. Zum ersten Mal war es aus technischen Gründen erforderlich, daß in Syracuse die Files gesplittet weitergegeben werden mußten. Für jedes Jahr besteht nun ein eigenes, nach GSOEP und PSID getrenntes File. Diese neue Struktur wird Ihnen in der neuen Datenlieferung mitgeliefert.
Um Ihnen das Matchen mit dem SOEP Standard-File zu erleichtern, haben wir im GSOEP File die Matchstrukturen vereinheitlicht (HHNR, HHNRAKT, PERSNR). Sie können deshalb jetzt direkt das GSOEP File mit Informationen aus dem SOEP File anreichern; mit anderen Worten: die Files sind einfach wie andere Files im SOEP Datensatz verknüpfbar.
Darüber hinaus werden die GSOEP Equivalent Files direkt von SOEPINFO unterstützt. Dies ermöglicht Ihnen z.B. sich die Frequencies aus dem GSOEP File anzuschauen sowie Kommandofiles automatisch zu erstellen.
Sollten Sie hierzu inhaltliche Fragen haben, wenden Sie sich bitte an Joachim Frick, für technische Fragen im Zusammenhang mit SOEPINFO wenden Sie sich bitte an John Haisken-De New.
Zufallseffekte in der Hochrechnung ‘97
Das SOEP ist eine Stichprobe, die unvermeidbar mit einem Stichprobenfehler behaftet ist. Deswegen weisen wir auch immer wieder darauf hin, daß bei deskriptiven Analysen Konfidenzintervalle ausgerechnet werden sollten (z. B. mit Hilfe des Random-Group-Ansatzes, vgl. dazu Exercise 5 in der SAS (Advanced) Retrievals-Section im Desktop Companion). Abweichungen von externen Randverteilungen signalisieren im allgemeinen kein Problem, sondern sind unvermeidbares Ergebnis einer Stichprobe.
Bei der 97er Welle, die in diesen Tagen ausgeliefert wird, ist allerdings ein feldbedingter Zufallseffekt zu beobachten, um den man bei deskriptiven Analysen, die auf Struktur bzw. Zahl der Haushaltstypen abstellen, wissen muss:
Mehrere Ein-Personen-Haushalte, die in den letzten Jahren nur noch mit Mühe zur Teilnahme zu bewegen waren, sind nun endgültig ausgefallen. Als mehrmalige "temporäre Ausfälle" hatten sie große Hochrechnungsfaktoren. Durch ihr Aussteigen sind c. p. hochgerechnet 1,7 Prozentpunkte der Ein-Personen-Haushalte verloren gegangen. Da unser derzeitiges - statistisch fundiertes - Hochrechnungsverfahren diesen Effekt nicht vollständig kompensieren kann, wird der Anteil dieser Haushalte - gemessen am Mikrozensus - nun deutlich unterschätzt.
Es ist davon auszugehen, daß durch die Dynamik des SOEP, der in der Modellierung der Ausfälle und der Hochrechnung sequentiell Rechnung getragen wird, sich der 97er Effekt in den nächsten Jahren "von selbst" auswachsen wird (da wieder neue Haushalte mit grossen Hochrechnungsfaktoren entstehen). Wir wollen deswegen nicht ad-hoc in die Hochrechnungsalgorithmen eingreifen und die statistische Fundierung unserer Hochrechnung zerstören. Gleichwohl sollten Sie bei bestimmten Fragestellungen nun darauf achten, daß es diesen Zufallsfehler gibt. Wer eine punktuell "bessere" Schätzung der Anteile von Ein-Personen-Haushalten benötigt (d. h. zum Beispiel eine Reproduktion des Anteils im Mikrozensus), sollte - je nach seiner Fragestellung - eine Kalibrierung der Querschnittshochrechnung vornehmen, indem sie/er z.B. schlicht an die Mikrozensus-Randverteilung anpaßt.
Derartige Zufallsausreißer können immer wieder mal vorkommen. Wir prüfen deswegen zur Zeit grundsätzlich, inwieweit z.B. durch die intensivere Nutzung von Längsschnittinformationen oder durch die Nutzung der gegebenen Verteilung der Hochrechnungsfaktoren die Robustheit des bewährten Hochrechnungsverfahrens gegenüber den oben skizzierten Zufallseffekten erhöht werden kann. Ad-hoc-Anpassungen der Standard-Hochrechnung sollen aber auf jeden Fall vermieden werden.
BIO-Files 1996
Die SOEP Gruppe bereitet derzeit einen Satz von Biographie Files vor, die alle in diesem Zusammenhang relevanten Informationen der SOEP-Befragten (soweit sie erhoben werden konnten) in nutzerInnenfreundlicher Form bereitstellt. Eine erste Version dieser Files wird bereits mit der nächsten Datenweitergabe zur Verfügung gestellt.
Befragungspersonen des SOEP beantworten in der Regel im Rahmen ihres ersten Interviews auch den seit 1995 für alle Teilstichproben (A bis D) voll integrierten Lebenslauf- bzw. Biographiefragebogen. Dieser beinhaltet neben der Erwerbsbiographie seit dem 15. Lebensjahr, die Ehe- und Familiengraphie, Informationen zur sozialen Herkunft, zum Berufseinstieg sowie zur "Immigrationsgeschichte" (für nach 1948 nach Deutschland "gewanderte" Personen).
Derzeit liegen die Biographie Daten noch uneinheitlich vor. Zum Teil können fehlende Informationen rekonstruiert werden (1), zum Teil sind Informationen für einige (wenige) Personengruppen unwiderruflich verloren (2). Zudem bestehen zum Teil erhebliche Probleme bei der Verknüpfung der Daten (3).
Zu (1): In der Regel beantworten alle Befragten einmal den Biographiefragen-Komplex (retrospektiv). Aufgrund des erhebungstechnischen Procederes (z.B. Befragungszeit) wurden aber zu Beginn der Befragung in Westdeutschland die Biographie-Informationen über drei Wellen verteilt erhoben, in Ostdeutschland wurden sie erstmals in der dritten Welle (1992) erfragt. Für Personen, die z.B. vor der Erhebung von Biographiedaten ausschieden (Tod, Emigration, Verweigerung) fehlen entsprechend zumindest Teile dieser Angaben.
Zu (2): Für Personen, die bei der Erstbefragung 16 bzw. 17 Jahre alt waren, wurde davon ausgegangen, daß die wenigen, sinnvoll zu erhebenden Biographie-Informationen aus den Daten der laufenden Befragung rekonstriert werden können (z.B. Ehe- und Familienbiographie, soziale Herkunft, Erwerbsbiographie seit dem 15. Lebensjahr).
Soweit fehlende Informationen nachbildbar sind, werden diese in die neuen Biographie Files eingespeist. Die Bereitstellung der Informationen wird dabei ohne Informationsverlust gegenüber den Originalvariablen geschehen.
Zu (3): Schwierigkeiten bei der Zusammenführung und wellenübergreifenden Speicherung der Biographie-Daten ergaben sich auch durch deren im Zeitverlauf unterschiedliche Verortung (in verschiedenen Befragungsinstrumenten) sowie durch Veränderungen in Umfang und Timing (Zeitpunkt der Befragung einzelner Personengruppen).
Ziel der nutzerInnenfreundlichen Biographie-Datenstruktur ist zum einen, die zeitunhängigen Variablen (z.B. Jahr der ersten Zuwanderung nach Deutschland, Berufseinstieg, Ort der Kindheit) für alle Befragungspersonen zu erfassen. Darüber hinaus wird sichergestellt, daß bei zeitabhängigen Variablen (z.B. Familienstand, Zahl der Geburten, Erwerbsbiographie) auch Veränderungen der im Rahmen der einmaligen Biographiebefragung erhobenen Informationen bis zum letzten realisierten Personeninterview aufbereitet und weitergegeben werden.
Die Biographiedaten befinden sich noch im Aufbau. Mit der nächsten Datenlieferung erhalten Sie die bislang fertiggestellten Informationen zu folgenden Themen:
File Inhalt
PPFAD | neue Variable: Zuzugsjahr nach Deutschland | |
BIOMARSM | Familienstand-Spells auf Monatsbasis seit frühestens Januar 1983 | |
BIOMARSY | Familienstand-Spells auf Jahresbasis in individuellen Lebensaltersjahren | |
BIOBIRTH | Geburtsbiographie (nur Frauen) mit Zahl der pro Frau geborenen Kinder, deren Geburtsjahr, deren Geschlecht sowie ggf. PERSNR im SOEP | |
BIOPAREN | Informationen zu Eltern (Geburts- und ggf. Todesjahr, Schul- und Berufsausbildung, Religionszugehörigkeit, berufliche Stellung des Vaters als RespondentIn 15 Jahre alt war sowie ggf. PERSNR der Eltern im SOEP) |
Darüber hinaus werden weiterhin die bereits in der Standarddatenweitergabe enthaltenen Dateien PBIOSPE (Erwerbsbiographie seit dem 15. Lebensjahr bis zum Zeitpunkt des letzten realisierten Personeninterviews in Spellform) sowie $PGEN (u.a. höchster Bildungsabschluß Schule und Beruf, Nationalität) zur Verfügung gestellt.
Koordinator für die Biographie-Files ist Joachim Frick.
Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept
Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:
Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen).
Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur).
KSAMPLE 1995
Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:
Warum diese Änderungen?
Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung:
KSAMPLE = 1:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand nicht türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.
KSAMPLE = 2:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.
KSAMPLE = 3:
Haushalte im Gebiet der DDR im Erhebungsjahr der 1. Welle Ost (1990), deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung DDR-BürgerIn war.
KSAMPLE = 4:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle der Zuwandererstichproben D1 und D2 (1994 bzw. 1995), die zwischen 1984 und 1993 zugewandert sind.
Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:
Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden.
Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen.
Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,