Änderungen am Datensatz

Datenneuerungen

SOEP Quicklinks:    

SOEPinfo

SOEPlit

SOEPnewsletter

SOEPmonitor

SOEPdata Dokumente

SOEPdata FAQ

Änderungen am SOEP-Datensatz seit 1995

Datenweitergabe v30 (Welle BD)

Die Weitergabe der SOEP-Daten 1984-2013 (Wellen A-BD) „SOEP v30“ (1984-2013) enthält für das aktuellste Befragungsjahr 2013 neben den üblichen wellenspezifischen Datensätzen BDPBRUTTO, BDP, BDPKAL, BDPGEN, BDPAGE17, BDHBRUTTO, BDH, BDHGEN, BDKIND und BCPLUECKE auch die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD-Dateien, Biografie-Dateien, Spell-Daten und Gewichtungsfaktoren). Zusätzliche neue Stichproben, Datensätze oder Variablen werden nachfolgend aufgelistet:

1. Querschnittsgewichte 2013

1. Cross-Sectional Weights 2013

Mit der aktuellen Veröffentlichung der SOEP-Daten v30 können wir eine BETA-Version der Querschnittsgewichte 2013 zur Verfügung stellen. Für Verteilungs-Analysen im Querschnitt, die im Zusammenhang mit beschreibender Politikberatung eine Rolle spielen – z.B. für Studien zu Einkommensungleichheit oder Armut in 2013– empfehlen wir dringend, auf die endgültigen Gewichtungsvariablen zu warten, die wir so schnell wie möglich veröffentlicht werden, und diese statt der jetzt gelieferten provisorischen BETA-Gewichtungsvariablen (die als BETA-Versionen in den Daten gelabelt sind) zu nutzen.

Zum Zeitpunkt der aktuellen Datenveröffentlichung liegen uns noch keine endgültigen Informationen zum Mikrozensus 2013 vor, die uns eine Schätzung der Größe der Ausgangspopulation des Samples M , dem letzten Aufwuchs des SOEP zur Migration, innerhalb der Gesamtbevölkerung ermöglichen würden. Um die Veröffentlichung des SOEP v30 nicht zu verzögern, stellen wir Querschnittsgewichte zur Integration von Stichprobe M zur Verfügung, die auf unseren eigenen Schätzungen auf Grundlage vorhergehender Mikrozensus-Daten beruhen. Wir werden in Kürze die generierten Gewichte für 2013 zum Download zur Verfügung stellen, die auf den endgültigen Mikrozensus-Daten beruhen.

Wir möchten auch darauf hinweisen, dass der amtliche Zensus 2011 die hochgerechneten Bevölkerungszahlen ersetzt hat, die seit dem letzten Zensus 1987 regelmäßig mit aktuellen Bevölkerungswerten des Statistischen Bundesamts fortgeschrieben wurden. Dies bedeutet, dass die Poststratifikation/Randanpassung der SOEP-Gewichte von Welle BD in der Datenweitergabe v30 auf einer Version des Mikrozensus von 2013 beruhen, der den Zensus aus dem Jahr 2011 erstmals berücksichtigt. Aus diesem Grund ist es möglich, dass Veränderungen zwischen 2012 (BC) und 2013 (BD) in gewichteten Analysen der SOEP-Daten darauf zurückzuführen sind, dass die amtliche Statistik jetzt nach dem letzten Zensus berechnet wird. Deutlich wird diese Korrektur daran, dass die geschätzte Anzahl von Personen, die in privaten Haushalten leben, von 81 Millionen in 2012 auf weniger als 80 Millionen in 2013 fiel.

Gern können Sie sich mit Anmerkungen zu den Gewichtungsfaktoren an uns wenden ().

2. Die neue IAB-SOEP Migrationsstichprobe (Stichprobe M)

2. New IAB-SOEP Migration Sample (Sample M)

Die neue IAB-SOEP Migrationsstichprobe (Stichprobe M) ist ein gemeinsames Projekt mit dem Institut für Arbeitsmarkt- und Berufsforschung (IAB). Sie wird deswegen sowohl als Teil der normalen SOEP-Datenweitergabe zur Verfügung gestellt (zu sehen zum Beispiel in der Variable PSAMPLE im Datensatz PPFAD), als auch als eigenständige Studie, die ausschließlich die Haushalte der Stichpobe M enthält (10.5684/soep.iab-soep-mig.2013).

Die neue Stichprobe berücksichtigt Veränderungen in der Struktur der Einwanderung nach Deutschland seit 1995. Es umfasst dabei nicht nur die direkte Zuwanderung, sondern mit den Nachkommen der direkten Zuwanderung auch die '2. Generation'. Die neue Stichprobe eröffnet neue Perspektiven für die Migrationsforschung und gewährt Einsichten in die Lebensbedingungen von neuen Immigrant_innen nach Deutschland. Sie hat die folgenden wichtigen Merkmale:

  1. Die IAB-SOEP Migrationsstichprobe erhöht die Stichprobengröße für Forschung über Migration und die Lebensbedingungen von Immigrant_innen in Deutschland substantiell: 4.964 Personen, die in 2.723 Haushalten leben, nahmen an der ersten Welle der Befragung teil. Da die Befragung in das reguläre SOEP als Stichprobe M integriert ist, können darüber hinaus die Fallzahlen durch die Migrant_innen der anderen SOEP-Stichproben weiter erhöht werden.
  2. Der Fragebogen, der in dieser neuen Migrationsstichprobe genutzt wurde, erfragt die vollständige Migrationsbiografie. Migrationsepisoden in andere Länder als Deutschland werden somit erfasst. Dies ist eine wichtige Erweiterung gegenüber vorherigen SOEP-Befragungen über persönliche Migrationsbiografien. Zum ersten Mal können wir nun feststellen, ob sich wichtige Ereignisse in den individuellen Biografien in den Herkunftsländern der Befragten, in Deutschland oder in Drittländern stattgefunden haben. Damit ist auch berücksichtigt, dass Migration nicht länger ein als einmaliges Ereignis ist, dass ein Leben lang anhält, sondern individuelle Biografien zunehmen „transnational“ werden, oft mit mehreren Migrationsepisoden im Lebenslauf und persönlichen Bindungen in verschiedene Länder. Wir haben einen nutzerfreundlichen Spell-Datensatz MIGSPELL zur Nutzung dieser Daten erstellt.
  3. Um gegenwärtigen Fortschritten in der Forschung zu Migration und Einwanderung Rechnung zu tragen, berücksichtigt die IAB-SOEP Migrationsstichprobe eine Reihe neuer Fragen die bisher weder im SOEP noch in anderen Haushaltsbefragungen in Deutschland enthalten waren, oder zumindest nicht in der angemessenen Ausführlichkeit. Sie beinhalten beispielsweise Fragen über Löhne, Arbeitsmarktintegration und Berufsstand vor der Migration, Migrations­entscheidungen im Familien- und Partnerschaftskontext sowie Zweck und Wege von Rücküberweisungen ins Herkunftsland.

3. Neue Datensätze / Variablen

3.1 MIGSPELL
Für die umfangreich erfragte Migrationsbiographie wurde ein eigener Spelldatensatz nutzerfreundlich aufbereitet. Eine detaillierte Dokumentation wird in der Dokumentation der Biographiedaten des SOEP bereitgestellt.

3.2 BPD_MIG
Die Originaldaten des spezifischen Fragebogens für die Stichprobe M, der den Personen- und den Biografiefragebogen kombiniert, sind im Datensatz BDP_MIG abgelegt. Die entsprechenden Variablen sind darüber hinaus in den anderen Datensätzen mit Original- oder generierten Variablen abgelegt:

  • Variablen, die denen in den Personenfragebögen der anderen Stichproben entsprechen, sind im Datensatz BDP abgelegt.
  • Variablen, die denen in den Biografiefragebögen der anderen Stichproben entsprechen, sind in den jeweiligen Biografiedatensätzen abgelegt (z.B. BIOMARSM).
  • Die zusätzlich erhobene Migrationsbiografie kann im neuen Datensatz MIGSPELL gefunden werden.


3.3 JOBEND$$
Da die Ausprägungen zum Kündigungsgrund über die Zeit einigen Änderungen unterworfen waren, wird eine längsschnittlich konsistente neue Variable (JOBEND$$) in den Datensätzen $PGEN angeboten.

3.4 Neue zusätzliche Berufsbezeichnungen
Die Daten über die berufliche Tätigkeit im Personenfragebogen wurden zusätzlich nach den KldB2010 und zum Teil auch noch ISCO-08 vercodet. Die folgenden Variablen wurden in den Datensatz BDP aufgenommen:

Variablenname

Variablenlabel

bdp38_kldb2010

Current Occupational Classification (KldB2010)

bdp38_isco08

Current Occupational Classification (ISCO-08)

bdp81_kldb2010

Current Occupational Classification Secondary Employment (KldB2010)

bdp81_isco08

Current Occupational Classification Secondary Employment (ISCO-08)

bdp9005_trainkldb2010

Vocational Training / Education Degree Previous Year (KldB2010)

Die Variablen von abgeleiteten Skalen (insbesondere die Prestige Scores in $$PGEN) basieren immer noch auf ISCO-88.

3.5 Greifkraft-Daten 2012
Die 2012 erhobenen Daten zur Greifkraft sind jetzt im GRIPSTR-Datensatz enthalten.

3.6 Vermögensdaten für 2012
PWEALTH und HWEALTH aktualisiert: 2012 wurden alle Personen ab 17 Jahren wie schon 2002 und 2007 über ihr Vermögen befragt. Diese ‚rohen‘ Daten waren bereits Teil der Standarddatenweitergabe für Welle 29. In der jetzigen Datenweitergabe werden sie in Datensätzen, die jeweils die Daten für 2002, 2007 und 2012 enthalten, im ‘long-Format’ weitergegeben – Datensatz PWEALTH für Personenangaben, HWEALTH mit Daten, die im Haushaltszusammenhang aggregiert wurden. Werte, die fehlen, weil die Frage nicht beantwortet wurde (Item-Nonresponse) oder weil z.B. Interviews mit einzelnen Haushaltsmitgliedern in einem Befragtenhaushalt nicht geführt wurden (partial unit non-response), wurden in komplexen Verfahren, die längsschnittliche Informationen einbezogen, multipel imputiert.

3.7 BIOEDU jetzt Teil der Datenweitergabe
Nachdem die Beta-Version dieses Datensatzes in Version 29 nicht revidiert werden konnte, ist er nun in die reguläre Datenweitergabe aufgenommen und aktualisiert worden. Die Informationen aus der neuen IAB-SOEP-Migrationsstichprobe wurden ebenfalls integriert.

4. Erweiterungen und Fehlerkorrekturen

4.1 Korrekturen in BILZTCH$$ und BILZTEV$$
In den Variablen BILZTCH$$ und BILZTEV$$ fehlten bisher Informationen zu mehreren Wellen. Dadurch kam es in vielen Fällen zur Zuordnung falscher Werte: Insgesamt stellten sich 638 ehemals konsistente Fälle als inkonsistente Bildungsanstiege heraus und 2.582 zuvor inkonsistente Fälle als konsistent.

4.2 Korrektur in DUEBSTD
Zusätzlich zur bisher bestehenden Generierung der Überstunden in 1984 und 1985 konnten auch für 1987 noch Überstunden generiert werden.  Die Überstunden ergeben sich für diese Jahre aus der Differenz zwischen vereinbarten und geleisteten Arbeitsstunden pro Woche.

4.3 Revision des Familienstandes

  • $FAMSTD: Als Folge einer neuen Methode, BIOMARSM/Y und BIOCOUPLM/Y zu generieren, traten zwei Änderungen bei $FAMSTD auf: Seit 2010 beinhaltete die Frage nach dem Familienstand die Kategorien „Eingetragene gleichgeschlechtliche Partnerschaft zusammenlebend“ und „Eingetragene gleichgeschlechtliche Partnerschaft getrennt lebend“. Diese beiden Kategorien wurden jetzt in $FAMSTD mit den Werten „7“ bzw. „8“ integriert. Weiterhin wurden alle Eintragungen in der Kategorie „verwitwet oder geschieden“ in BIOMARSM/Y in $FAMSTD auf „ungültig“ gesetzt. Diese Änderungen wurden auch auf die vorhergehenden Wellen angewandt. Die Variable $FAMSTD wurde mit -3 codiert, wenn die Information unplausibel ist, auf -5, wenn die Person nicht interviewt wurde und auf -1, wenn die Person die Frage nicht beantwortet hat.
  • BIOCOUPLM/Y: Für den Prozess der Generierung dieses Datensatzes wurden sowohl der aktuelle Beziehungsstatus als auch berichtete Änderungen in der Familiensituation herangezogen. Obwohl der Fragebogen solche Ereignisse auf Monatbasis abfragt, wurden viele Veränderungen im Beziehungsstatus nicht als Ereignis berichtet. Deswegen haben wir in der neue Version von BIOCOUPLM eine Zensor-Variable mit Namen „events“ eingefügt, die Informationen zur Verfügung stellt, ob der genaue Monat des Ereignisses bekannt ist oder ob Beginn oder Ende einer Spell-Information dem Interviewmonat entspricht, da das Ereignis nicht berichtet wurde. Schließlich wurde eine neue Kategorie „hinzugefügter Spell“ in die Variablen-Bemerkung eingefügt, die eine Unterscheidung ermöglicht ob ein Spell editiert (Wert 2) oder eingefügt (Wert 3) wurde. Weitere Informationen finden Sie in der neuen Dokumentation der Biografiedaten. Die Variable SPELLTYP wurde auf -3 gesetzt, wenn die Information unplausibel ist.
  • BIOMARSM/Y: Weil BIOMARSM aus der neuen Version von BIOCOUPLM abgeleitet wird, haben wir die Kategorie „verheiratet, dauernd getrennt lebend“ aus BIOCOUPLM übernommen. Damit ist die Zeitspanne festgelegt zwischen einer berichteten Trennung und der Scheidung bzw. dem Tod des Ehepartners. Die meisten dieser Zeiträume in BIOCOUPLM wurden auf „verheiratet“ in BIOMARSM gesetzt, aber für diese Spells ohne ein berichtetes Ende die Ereignis-Spells wurden auf „verheiratet, dauernd getrennt lebend“ und das Ende des Spells auf „missing“ gesetzt. Parallele Zeiträume der Kategorie „geschieden oder verwitwet“ wurden ergänzt und dabei der Beginn dieser Zeiträume auf „missing“ gesetzt. Schließlich wurde eine neue Kategorie „hinzugefügter Spell“ in die Variablen-Bemerkung eingefügt, die eine Unterscheidung ermöglicht ob ein Spell editiert (Wert 2) oder eingefügt (Wert 3) wurde. Weitere Informationen finden Sie in der neuen Dokumentation der Biografiedaten. Die Variable SPELLTYP wurde auf -3 gesetzt, wenn die Information unplausibel ist.

Datenweitergabe v30 (Welle BD)

Die neue Datendistribution (1984–2013) “SOEP v30” bietet, für den aktuellsten Erhebungszeitraum des Jahres 2013, die üblichen wellenspezifischen Variablen BDPBRUTTO, BDP, BDPKAL, BDPGEN, BDPAGE17, BDHBRUTTO, BDH, BDHGEN, BDKIND und BCPLUECKE als auch die geupdateten Variablen mit längsschnittlichen Komponenten (PFAD Variablen, Biographie Variablen, Spelldaten und Gewichtungsvariablen).

1. Neues subsample M (Migrationssample)

Das neue IAB-SOEP Migrationssample ist ein gemeinsames Projekt mit dem Institut für Arbeits- und Berufsforschung. Im neuen Sample werden Veränderungen der Migrationsstruktur nach Deutschland seit 1995 berücksichtigt. Es umfasst dabei nicht nur die direkte Zuwanderung, sondern mit den Nachkommen der direkten Zuwanderung auch die '2. Generation'. Der Datensatz ist Teil des SOEP (mit identischem Fragebogen und ergänzt um Fragen, die sich auf die Migrationssituation beziehen), eröffnet neue Perspektiven der Migrationsforschung und ermöglicht Einsichten zum Leben von Migranten in Deutschland. Das IAB-SOEP Migrationssample stellt nicht nur ein einfaches Update vorhergehender SOEP Surveys dar. Folgende vier Aspekte charakterisieren das neue Sample:

Erstens, sind die Survey-Daten – wenn die Teilnehmer_innen des Surveys eine Einverständniserklärung unterzeichnen – mit den Registerdaten der Stichprobe der Integrierten Erwerbsbiografien (IEBS) verknüpft. Die IEBS-Daten werden vom Institut für Arbeitsmarkt- und Berufsforschung (IAB) angeboten und umfassen die gesamte Arbeitsmarktbiografie von Individuen in Deutschland. Dadurch werden neue Forschungsperspektiven eröffnet, da die Datenverknüpfung ermöglicht die Vorteile von Surveydaten und Registerdaten zu kombinieren. Da die Verknüpfung von Surveydaten und Registerdaten eine Schlüsselrolle für das SOEP einnimmt und zuvor niemals ausgeführt wurde, haben wir, indem wir zufällig nur einen Teil der SOEP-Befragten in die Daten-Verknüpfungsprozedur aufgenommen haben, ein experimentelles Design beinhaltet. Die methodologischen Implikationen der Datenverknüpfung von Survey- und Registerdaten können aus diesem Grund mit dem SOEP-IAB Migrationssample erstmals im Detail nachvollzogen werden.

Zweitens, deckt der Fragebogen des SOEP-IAB Migrationssamples die gesamte Migration, Bildung und Arbeitsmarktbiografie in Heimat- und im Zielland der Migranten ab. Migrationsaufenthalte in anderen Staaten als Deutschland werden auch berücksichtigt. Diese Vorgehensweise stellt eine wichtige Erweiterung gegenüber vorhergehenden Surveys der individuellen Biografien von Immigranten im SOEP dar: So sind wir erstmals in der Lage nachzuverfolgen ob wichtige Lebensereignisse in der Biografie der Migranten im Heimatland, in Deutschland oder in anderen Staaten stattfanden. Diese Vorgehensweise berücksichtigt zudem, dass Migration kein Einzelevent darstellt, dass bis zum Ende des Lebens andauert, sondern dass individuelle Biografien zunehmend „transnational“ mit verschiedenen Episoden der Migration während des Lebensverlaufs und Verbindungen in verschiedenen nationalen Räumen verlaufen.

Drittens, berücksichtigt das SOEP-IAB Migrationssample – kürzlich erreichten Erkenntnissen in der Migrations- und Immigrationsforschung folgend – verschiedene neue Frageblöcke, die bislang nicht oder nicht in der notwendigen Tiefe im SOEP oder in anderen Haushaltssurveys in Deutschland untersucht wurden. Beispiele für diese Frageblöcke sind das Einkommen, der berufliche Status vor der Migration, Migrationsentscheidungen in der Familie und in der Partnerschaft sowie das Ziel von Überweisungen. Letztendlich steigert das SOEP-IAB Migrationssample die Fallzahl zur Migrationsforschung und zur Untersuchung des Lebens von Immigranten in Deutschland substantiell. In der ersten Welle haben 4.964 Personen, die in 2.723 Haushalten lebten, teilgenommen. Die Berücksichtigung des Migrationssamples im SOEP als subsample „M“ und die damit einhergehende Möglichkeit, dass Migranten aus anderen SOEP Samples hinzukommen können, kann die Fallzahl zusätzlich erhöhen.

3. New datasets / variables

MIGSPELL: Für die umfangreich erfragte Migrationsbiographie wurde ein eigener Spelldatensatz nutzerfreundlich aufbereitet. Eine detaillierte Dokumentation findet sich in der Biographiedaten Dokumentation des SOEP.

Da die Ausprägungen zum Kündigungsgrund über die Zeit einigen Änderungen unterworfen waren, wird eine längsschnittlich konsistente neue Variable (JOBEND$$) in den Datensätzen $PGEN angeboten.

4. Erweiterungen und Fehlerkorrekturen

In den Variablen BILZTCH$$ und BILZTEV$$ fehlten bisher Informationen zu mehreren Wellen. Dadurch kam es in vielen Fällen zur Zuordnung falscher Werte: Insgesamt stellten sich 638 ehemals konsistente Fälle als inkonsistente Bildungsanstiege heraus und 2.582  zuvor inkonsistente Fälle als konsistent.

DUEBSTD: Zusätzlich zur bisher bestehenden Generierung der Überstunden in 1984 und 1985  konnten auch für 1987 noch Überstunden generiert werden. Die Überstunden ergeben sich für diese Jahre aus der Differenz zwischen vereinbarten und geleisteten Arbeitsstunden pro Woche.

Die Spell-Datensätze BIOCOUPL (month and year) und BIOMARS (month and year) sowie die daraus abgeleitete Variable $FAMSTD in $PGEN wurden komplett neu generiert und überarbeitet. Es wurden zusätzliche Checks über die Zeit eingebaut, um ein höheres Maß an längsschnittlicher Konsistenz zu gewährleisten.

BIOEDU: Nachdem die Beta-Version dieses Datensatzes in Version 29 nicht aktualisiert werden konnte, ist er nun in die reguläre Datenweitergabe aufgenommen und aktualisiert worden. Die Informationen aus dem neuen Migrationssample M wurden ebenfalls integriert.

Datenweitergabe v29 (Welle BC)

Im Erhebungsjahr 2012 wurde das neue Auffrischungssample K mit 1526 Haushalten hinzugefügt, somit wurden während der Feldarbeit 2012 12322 Haushalte interviewt. Wie auch bei unseren früheren allgemeinen Bevölkerungsstichproben wurde ein mehrstufig geschichtetes Ziehungsdesign genutzt. Sample K erzielte gegenüber unserem letzten Auffrischungssample J eine sehr ähnliche Response Rate von 34,7%. Durch den Einsatz einer Reihe von Mitteln, wie intensiviertes Interviewer Training, verbesserter Bezahlung der Interviewer und leicht erhöhter Incentives für die Befragten konnte erfreulicherweise der Trend zur nachlassenden Befragungsbereitschaft gestoppt werden.

Wie auch schon die Auffrischungs- oder Aufstockungssamples H (seit 2006), I (seit 2009) und J (seit 2011) wird auch in K komplett im CAPI-Modus interviewt. Wie üblich liegt der Fokus auf unseren drei Hauptfragebögen für den Haushalt, Befragungspersonen ab 18 und den Jugendfragebogen. Somit wurde keiner der Zusatzfragebogen in das Fragebogenprogramm der Welle 1 integriert. Dieser Fokus auf die Hauptfragebogen dient der Vermeidung einer „Überforderung" der Befragten durch ein zu langes Interview in der ersten Welle. Dabei ist jedoch zu beachten, dass, wie bereits im Sample J, auch in Sample K ein integrierter Personen- und Lebenslauf-Fragebogen zum Einsatz kam.

2. Revision des Hochrechnungs- und Gewichtungsrahmens

Mit der Datenversion SOEP v29 wird für die Teilstichproben J und K (erstmals 2011 bzw. 2012 erhoben) eine zusätzliche Anpassung an den Mikrozensus im Hinblick auf die Zahl an erwerbstätigen Personen für Haushalte unterschiedlicher Größe sowie der Zahl der Privathaushalte mit Bezug von Arbeitslosengeld II vorgenommen. Diese Korrektur verhindert eine leichte Überschätzung der Haushalte mit ALG II-Bezug der ungewichteten Stichproben J und K.

Zudem wird für alle neu gezogenen Stichproben seit 1998 nun eine leicht geänderte Anpassung der Haushalte mit Ausländern vorgenommen. Diese bezieht sich nicht mehr auf den Haushaltsvorstand, sondern auf das Vorhandensein wenigstens einer Person mit ausländischer Nationalität im Haushalt. Hintergrund dieser Revision ist eine leicht zunehmende Diskrepanz zwischen der Auswahl der Bezugsperson im Mikrozensus im Vergleich zum Haushaltsvorstand des SOEP.

Nähere Informationen und Quelle der Abbildung: Wochenbericht | PDF, 270.5 KB des DIW 46/2013, S. 17.


3. Neue Datensätze / Variablen

  • 2012 wurde das Vermögensmodul zum vierten Mal wiederholt. Es liegen nun Daten für die Jahre 1988, 2002, 2007 und 2012 vor. Aufgrund des höheren Beantwortungsaufwands von Erstbefragten haben wir dieses Modul in dem neuesten Sample K (N=1506 Haushalte) nicht erfasst. Für die Schätzung von absoluten Zahlen empfehlen wir außerdem die Nutzung von Querschnittgewichten für Haushalte und Personen, die nur die „alten" Samples A bis J abdecken, wie z.B. BCHRFAJ und BCPHRFAJ, sowie Erstbefragte ausgehend von Sample K zu streichen.
  • COGNIT: Für den im Erhebungsjahr 2006 eingeführten Kognitionstest gibt es nun die erste Wiederholungsmessung, inklusive eines neuen Wort Tests. Der Name des Datensatzes änderte sich daher von COGNIT06 zu COGNIT, da er nun beide Erhebungsjahre beinhaltet. Eine ausführliche Dokumentation der ersten Erhebung finden Sie in Schupp et al. (2008) Erfassung kognitiver Leistungspotentiale Erwachsener im Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32 | PDF, 447.63 KB .
  • Zwei neue Variablen in $PGEN: Die Variable SNDJOB$$ stellt das imputierte Bruttoeinkommen aus einem Nebenerwerb dar und wurde für alle SOEP-Befragten generiert, die in jeder der entsprechenden Wellen vertreten sind. Die Variable wurde rückwirkend generiert. 1995 (Welle L) wurde das erste Mal nach den Bruttoeinkünften aus einer Nebenerwerbstätigkeit gefragt. Die zugehörige Indikatorvariable zur Imputation ist IMPSND$$.
  • Zum ersten Mal wurden die SOEP-Befragten nach ihrem Geburtsort gefragt. Diese Information wurde auf der Ebene der Gemeinde vercodet und mit den entsprechenden Koordinaten für einen zentralen Punkt in der Gemeinde abgelegt. Eine Nutzung dieser Daten ist allerdings nur an einem der Gastwissenschaftler Arbeitsplätze am Forschungsdatenzentrum SOEP möglich.
  • Es gibt einen neuen Datensatz HCONSUM. In diesem finden sich die komplett imputierten und aufbereiteten Daten aus dem im Jahr 2010 erhobenen Konsum-Modul des SOEP. Eine detaillierte Dokumentation | PDF, 1.5 MB ist online verfügbar.
  • Revision des $STELL Codes (Beziehung zum Haushaltsvorstand) zur Differenzierung zwischen leiblichem Kind, Stiefkind, Adoptivkind etc. :
Wert  Welle BB (2011)             Welle BC (2012)                                        
   0  Haushaltsvorstand (HV)  Haushaltsvorstand (HV)
   1  Ehepartner/in des HV                                                        
   2  Lebenspartner/in des HV                                                        
   3  Sohn/Tochter des HV                                                        
   4  Pflegekind des HV                                                                     
   5  Schwiegersohn/Tochter des HV  
   6  Vater/Mutter des HV                                                         
   7  Schwiegerelternteil des HV  
   8  Bruder/Schwester/Schwager/in                                                        
   9  Enkelkind des HV                                                        
  10  Sonst. mit HV verwandt                                                            
  11  Mit HV nicht verw.  Ehepartner/in des HV                             
  12  Kind v. LebPartn. v. HV  Gleichgeschl. Ehepartner/in     
  13  Gleichgeschl. Ehepartner/in   Lebenspartner/in                              
  21                              Sohn/Tochter des HV                                         
  22                             Stiefkind (Kind des Partners)                     
  23                             Adoptivkind                                        
  24                             Pflegekind                                          
  25                             Enkelkind                                            
  26                              Großenkelkind                                      
  27    Schwiegersohn/Tochter des HV
  31                             Vater/Mutter des HV                                       
  32                             Stiefvater/-mutter, Ehepartner von Stiefvater/-mutter
  33                             Adoptivvater/-mutter                                
  34                              Pflegevater/-mutter                               
  35                             Schwiegereltern                                         
  36                             Großeltern                                          
  41                             Geschwister                                       
  42                             Halbgeschwister                             
  43                              Stiefgeschwister                               
  44                             Adoptivgeschwister                               
  45                             Pflegegeschwister                                 
  51                             Schwager/Schwägerin (Ehepartner d. Geschwister)    
  52                             Schwager/Schwägerin (Bruder/Schwester d. Ehepartners)    
  61                              Tante/Onkel                                           
  62                             Nichte/Neffe                                        
  63                             Cousin/Cousine                                        
  64    Sonst. mit HV verwandt       
  71                             Andere                                               
  99   Unbekannt                    Unbekannt                                              

Bitte berücksichtigen Sie, dass dies auch die entsprechenden Variablen des Datensatzes $KIND (und KIDLONG) und BIOPAREN betrifft.

  • Im Datensatz KIDLONG werden die Variablen zum Geburtsdatum (GEBJAHR und GEBMONAT) und Geschlecht (SEX) nicht mehr zur Verfügung gestellt. Bitte nutzen Sie stattdessen die ausgiebig kontrollierten Versionen in PPFAD.
  • Die Interviewerdaten wurden bereits im letzten Jahr mit einer neuen, einheitlich über alle Wellen hinweg benannten Variable INTID ausgeliefert, die die jeweils filespezifisch benannten Variablen ($INTNR) ersetzen. Die neue Variable basiert auf einer einmaligen Zufallszahlgenerierung; ist daher fix und wird in konsistenter Weise neben SOEPcore auch für FiD (Familien in Deutschland) und SOEP-IS (Innovationspanel) in einem integrierten Masterfile (nicht in der Datenlieferung enthalten) geführt. Neben der Generierung der INTIDs und der Fortschreibung der Interviewermerkmale in INTVIEW erfolgten die folgenden weiteren Überarbeitungen:
    • Der Datensatz INTVIEW beinhaltet jetzt nicht mehr nur die Interviewer mit Interviewermerkmalen, sondern alle verfügbaren Interviewernummern. Hierzu wurden aus allen verfügbaren Datensätzen die Interviewernummern extrahiert. Flagvariablen zeigen in INTVIEW an, ob die jeweilige INTID nur in den Daten vorkommt oder ob weitere Interviewermerkmale verfügbar sind.
    • Insgesamt 181 INTIDs in den laufenden Daten wurden neu zugewiesen, so dass diese jetzt direkt mit den Interviewermerkmalen verknüpft werden können. Grund dafür ist die Vergabe der Nummern in Ostdeutschland in den Jahren 1990 bis 1995 durch Infratest, als für das Ostsample noch eigene unabhängige Interviewer (IBB-Nummern) mit eigener Nummernsystematik existierten. Diese mussten mit den später zusammengeführten Interviewernummern harmonisiert werden.
  • BIOAGE03: Die Codes für Persönlichkeitsskalen wurden vom Wertebereich 1-11 auf 0-10 verschoben und sind damit konsistent mit dem Vercodungsschema in BIOAGE06.
  • BIOAGE06: 2008 wurde bei den Persönlichkeitsskalen die Null fälschlicherweise als -2 kodiert, dies wurde mit der jetzigen Version berichtigt. Dadurch sind für einige Persönlichkeitsmerkmale bis zu 65 zusätzliche gültige Werte entstanden.
  • $FAMSTD: Durch die Generierung des derzeitigen Heiratsstatus wurde dieses Jahr und das vorherige Jahr für einige Fälle in v28 gewechselt.
  • 2012 bietet der Fragebogen zusätzlich zur Größe der gesamten Firma (BETR$$) einmalige Informationen zur Größe der lokalen Unternehmen. Die angereicherten Fragebögen zeigten, dass in vorhergehenden Interviews einige Individuen fälschlicherweise Informationen zu lokalen Unternehmen gegeben hatten, anstatt zur gesamten Größe der Firma, vor allem, wenn die gesamte Firma 2000 und mehr Angestellte beschäftigte. Aufgrund der Bedeutung der Konsistenz des Längsschnitts wurden diese Personen identifiziert und ihr originaler Wert des Jahres 2012 zur gesamten Firmengröße BETR12 durch den Wert der Größe des lokalen Unternehmens ersetzt. Diese Modifikation betraf ebenfalls die Variable ALLBET12. Bitte schauen Sie sich die Datendokumentationen für weitere Informationen diesbezüglich an.
  • Die Variable RUEBSTD ("Überstunden pro Woche" 2001) zeigte Fälle mit inkorrekten „non-response missings" (-1), da Befragte ohne Überstunden fälschlicherweise dieser Kategorie zugeteilt wurden. In der korrigierten Version ist der Wert für diese Befragten korrekt auf null Überstunden umcodiert worden.
  • Für die Variable vh4601 und der äquivalenten Variable der folgenden Jahre wurde das Label "unerw. Geldbetraege,Sachwerte ue.2500 EURO" genutzt, aber eigentlich fragte der Fragebogen nach "unerw. Geldbetraege,Sachwerte ue.500 EURO". Das Label wurde korrigiert.
  • Die Variablen ZERWZEIT ("Dauer der Betriebszugehoerigkeit " 2009) und BAERWZEIT ("Dauer der Betriebszugehoerigkeit" 2010) musste für Befragte des ersten Samples korrigiert werden, die nicht 2009 und 2010 interviewt wurden, sondern jeweils erst im darauffolgenden Jahr (2010 und 2011). Durch den Längsschnitt-Konsistenztest erhielten die erwähnten Individuen einen unplausiblen Wert (-3) für BAERWZEIT. In der korrigierten Version werden die „non-missing values" dieser Befragten als valide und nicht als „missings" betrachtet.
  • LOC1989: Durch die Generierung der Daten sind nun Personen in der Datenweitergabe, die nie befragt wurden. Wir haben deswegen die -2 jetzt für mit dem Wert „trifft nicht zu, geboren vor 1989” belegt, so wie es ursprünglich für diese Variable geplant war. Befragungspersonen, die niemals teilgenommen haben und über die keine Informationen aus anderen Quellen vorhanden sind, wurden auf -1 („keine Antwort“) gesetzt.
  • Die Variablen EXPFT$$, EXPPT$$, und EXPUE$$ ("Erfahrungen in Vollzeit- und Teilzeitarbeit und Arbeitslosigkeit") wurden verbessert. Die Variablen stellen nun die gesamte Länge der Vollzeit-, und Teilzeitarbeit sowie der Arbeitslosigkeit in der Karriere der Befragten bis zu dem Punkt des Interviews in einem bestimmten Jahr dar (anstatt nur den Zeitraum bis zum Dezember des vergangen Jahres zu berücksichtigen). Weil monatliche Arbeitsaktivitäten im folgenden Jahr retrospektiv erfragt werden können diese Variablen nicht für die neueste Welle aktualisiert werden.
  • Die Variable AHINC$$ des Datensatzes $HGEN ist nicht länger Teil der Datendistribution. Wir empfehlen die Nutzung des kompletten (multiplen), kalkulatorischen, monatlichen Haushaltseinkommens der Variable I$HINC$$ (oder den Datensatz MIHINC im „long"-Format über die Jahre).
  • Die Variablen ATATZEIT, AVEBZEIT, AUEBSTD und AERWZEIT wurden in der Datendistribution v28 vermischt und mussten korrigiert werden:
    • Die korrekten Werte von ATATZEIT wurden in der Variable AERWZEIT gefunden.
    • Die korrekten Werte von AVEBZEIT wurden in der Variable ATATZEIT gefunden.
    • Die korrekten Werte von AUEBSTD wurden in der Variable AVEBZEIT gefunden.
    • Die korrekten Werte von AERWZEIT wurden in der Variable AERWZEIT in der Datendistribution von v27 gefunden.

Datenweitergabe v28 (Welle BB)

1. Neue zusätzliche Codierungen für fehlende Werte

Mit der Ersterhebung von Sample J wurde die Erhebung des Lebenslauffragebogens von der zweiten auf die erste Welle umgestellt und in einen integrierten Fragebogen mit dem Personenfragebogen kombiniert. Dadurch gibt es teilweise leichte Unterschiede im Erhebungsinstrument zwischen den Altstichproben A-H und dem Aufwuchssample J.

Um diese möglichen Unterschiede zu dokumentieren wurden in den Erhebungsdaten die folgenden zusätzlichen Codierungen für fehlende Werte eingeführt:

-4 "Unzulaessige Mehrfachantwort"
-5 "In Fragebogenversion nicht enthalten"
-6 "Fragebogenversion mit geänderter Filterführung"

2. Stichprobe I ist nun Teil der Innovationsstichprobe

Die Innovations-Stichprobe des SOEP ist jetzt gestartet und beinhaltet unter anderem Stichprobe I, die ab 2011 daher nicht mehr Teil der Haupterhebung ist. Nähere Informationen zur Innovationsstichprobe und der Möglichkeit, eigene Inhalte einzubringen, finden Sie auf unserer Webseite unter SOEP-IS .

3. Neue und umbenannte Datensätze

3.1 BIOCOUPLM
BIOCOUPLM ist ein monatsgenauer Spelldatensatz, der die Historie der Partnerschaften vom ersten bis zum letzten Personeninterview der Befragten enthält.

3.2 BIOCOUPLY
BIOCOUPLY ist ein jahresgenauer Spelldatensatz, der die Historie der Partnerschaften seit der Geburt der Befragten enthält. Es sind sowohl retrospektive als auch jährlich aktualisierte Angaben enthalten.

3.3 BIOSIB (beta version)
Der Datensatz BIOSIB enthält Informationen zu allen Geschwistern, die innerhalb der SOEP Haushalte leben. Insbesondere enthält der Datensatz Geschwisterzeiger für alle identifizierten Geschwister. Des Weiteren enthält der Datensatz Informationen über Geburtsjahr, Geschlecht und die Beziehung der Geschwister untereinander. Feedback und Anregungen können Sie Daniel Schnitzlein () zukommen lassen.

3.4 BIOEDU
Der Datensatz BIOEDU enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung.

3.5 BIOAGE long
Der neue integrierte Datensatz BIOAGE LONG (BIOAGEL) enthält die Daten der Datensätze BIOAGE01, BIOAGE03, BIOAGE06, sowie BIOAGE08a und BIOAGE08b im „long"- Format.

3.6 TRUST
Datensatz des ökonomischen Verhaltensexperiments über Vertrauen und Vertrauenswürdigkeit aus den Befragungsjahren 2003, 2004, & 2005.

Dieses Experiment, das dazu dient, Vertrauen zu messen, basiert auf einem Investitionsspiel, das Berg et al. (1995) eingeführt haben. Es handelt sich um ein Einmalspiel für zwei Akteure, die sich anonym aufeinander beziehen. Der erste Akteur erhält ein Guthaben von zehn Punkten und kann davon eine beliebige Anzahl von Punkten der zweiten Akteurin überschreiben. Jeder überschriebene Punkt wird dabei verdoppelt. Die zweite Akteurin erhält ebenfalls ein Guthaben von zehn Punkten. Nachdem sie die (verdoppelten) Punkte vom ersten Akteur übertragen bekommen hat, entscheidet sie, wieviel sie von ihrem eigenen Guthaben an den ersten Akteur überschreibt (null bis zehn Punkte). Ebenso wie beim ersten Transfer werden auch ihre Punkte beim Empfänger verdoppelt. Nach der Entscheidung der zweiten Akteurin endet das Spiel und die Mitspieler bekommen ihr Einkommen ausbezahlt (ein Punkt entspricht dabei einem Euro, die Summe wird als Scheck ein paar Tage später versandt).

Eine grundlegende Komponente des Spiels ist, dass die Teilnehmer tatsächlich entsprechend des festgelegten Auszahlungsmodus Geld erhalten, was bedeutet, dass alle Entscheidungen immer finanzielle Konsequenzen haben. Diese Version des Spiels wurde von Fehr, Fischbacher, Schupp, von Rosenbladt & Wagner (2002) entwickelt.

Die Verbindung von Repräsentativbefragung und Verhaltensexperiment wurde in den SOEP-Haupterhebungen 2003, 2004 und 2005 durchgeführt, wobei nur geringfügige Modifizierungen vorgenommen wurden. Von ursprünglich 1.432 Personen im Jahre 2003 haben 1.202 Personen auch 2004 und 2005 am Experiment teilgenommen. Die Daten werden im Datensatz „trust" im so genannten long-Format zur Verfügung gestellt. Der Datensatz enthält somit die Informationen aus allen drei Wellen, in denen das Verhaltensexperiment durchgeführt wurde.

3.6 TIMEPREF
Datensatz des ökonomisches Verhaltensexperiments zu Zeitpräferenzen im Befragungsjahr 2006 .

In diesem ökonomischen Verhaltensexperiment mussten sich die Befragten enscheiden, ob sie sich bei einem Geldgewinn (von 200 €) zeitnah an die Befragung per Scheck den Sockelbetrag ausbezahlen lassen wollen, oder aber zu späteren Zeitpunkten einen höheren Gewinnbetrag (der also einen impliziten Zinsaufschlag beinhalten würde). Durch Teilen der Stichprobe (N = 1.503 Personen) in zufällige Substichproben (Splits) war es möglich, sowohl den Zeithorizont als auch die implizite Zinsrate entsprechend zu variieren, sodass mögliche Anreizeffekte für die Wahl zwischen kurzfristiger (und niedrigerer) und späterer (höherer) Gewinnauszahlung getestet werden konnten. Die wissenschaftliche Leitung des Projekts lag bei Prof. Dr. Armin Falk, CENs, Universität Bonn.

4. Neue und überarbeitete Variablen

4.1 Datensatz $HBRUTTO 

REGTYP$$:
$$: Innerhalb des $HBRUTTO Datensatzes wird es eine neue Variable zur Unterscheidung von Stadt/Umland/Land geben. Die Einteilung basiert auf den siedlungsstrukturellen Kreisregionstypen des BBSR und bezieht sich auf den Gebietsstand 31.12.2009. Für die Typenbildung werden folgende Siedlungsstrukturmerkmale herangezogen:

  • Bevölkerungsanteil in Groß- und Mittelstädten
  • Einwohnerdichte der Kreisregion
  • Einwohnerdichte der Kreisregion ohne Berücksichtigung der Groß- und Mittelstädte

Auf diese Weise können drei Ausprägungen unterschieden werden:

  1. Städtische Regionen (Kreisfreie Städte mit mind. 100.000 Einwohnern / Kreise mit einem Bevölkerungsanteil in Groß- und Mittelstädten von mind. 50% und einer Einwohnerdichte von mind. 150 Einw./km² / Kreise mit einer Einwohnerdichte ohne Groß- und Mittelstädte von mind. 150 Einw./km²)
  2. Regionen mit Verstädterungsansätzen (Kreise mit einem Bevölkerungsanteil in Groß- und Mittelstädten von mind. 50%, aber einer Einwohnerdichte unter 150 Einw./km² / Kreise mit einem Bevölkerungsanteil in Groß- und Mittelstädten unter 50% und mit einer Einwohnerdichte ohne Groß- und Mittelstädte von mind. 100 Einw./km²)
  3. Ländliche Regionen (Kreise mit einem Bevölkerungsanteil in Groß- und Mittelstädten unter 50% und Einwohnerdichte ohne Groß- und Mittelstädte unter 100 Einw./km²)

 

4.2 Datensatz $PGEN 

BILZTCH$$ / BILZTEV$$:
BILZTCH$$ zeigt an, ob sich für die Person seit der letzten Beobachtung eine Veränderung in den Bildungsjahren ($BILZEIT) nach unten oder seit dem letzten Jahr eine mit Informationen zu weiteren Bildungsabschlüssen inkonsistente Veränderung nach oben ergeben hat.
BILZTEV$$
ist eine Flagvariable, die anzeigt, ob die Person jemals über die ganzen Beobachtungszeitraum eine inkonsistente Veränderung in $BILZEIT nach oben oder nach unten hatte.

$VEBZEIT and $UEBSTD

Um Konsistenz mit dem Datensatz FID herzustellen, wurden die fehlenden Werte der Variablen $VEBZEIT and $UEBSTD leicht recodiert: Selbständige erhalten jetzt den Missing Code –2. In den früheren Datenweitergaben erhielten die Selbstständigen den fehlenden Wert –3 ( nicht valide).

In $UEBSTD ist der Wert –3 (nicht valide) allen Personen zugewiesen, die angaben, mehr als zehn Überstunden/Woche zu arbeiten UND gleichzeitig eine Wochenarbeitszeit von über 80 Stunden vereinbart hatten ($VEBZEIT nicht valide, Wert –3) oder deren tatsächliche wöchentliche Arbeitszeit mehr als 80 Stunden/Woche betrug ($TATZEIT nicht valide, Wert –3).

4.3 Datensatz BIOPAREN

BIOPAREN enthält sieben neue Variablen:
VAORT11 and MAORT11 enthalten den aktuellen Aufenthaltsort der Eltern.
GESCHW, GESCHWUP, NUMS, NUMB und TWIN enthalten Informationen über Geschwister. GESCHW enthält die Information, ob der Befragte jemals Geschwister hatte oder aktuell hat. GESCHWUP enthält das Jahr, aus dem die Information in GESCHW stammt. NUMB und NUMS enthalten die Anzahl der Brüder und Schwestern und TWIN enthält Informationen darüber, ob einige der Geschwister Zwillingsbrüder/-schwestern (und wenn ja welcher Typ) sind.

Datenweitergabe v27 (Welle BA)

Die Weitergabe der SOEP-Daten 1984-2010 (Wellen A-BA) wird die üblichen jahresspezifischen Datensätze (BAP, BAH, BAPGEN, BAHGEN, BAPKAL, BAPBRUTTO, BAHBRUTTO, BAKIND und ZPLUECKE) sowie die aktualisierten Datensätze mit längsschnittlichen Komponenten (PFAD, Biografie-Datensätze, SPELL-Daten und Gewichtungsfaktoren) enthalten. Für die Teilnehmer/innen von Sample I (Incentivierungs-Sample) liegen mit dieser Datenweitergabe die Biografie-Daten aus dem entsprechenden Fragebogen vor.
Aufgrund von Änderungen auch an älteren Datensätzen, empfehlen wir wie immer eine Neuinstallation aller Datensätze von der aktuellen DVD.

1. Erstmalig zwei Buchstaben als Präfix (BA)

In der diesjährige Datenweitergabe (v27) werden wir das erste Mal in der 27-jährigen Geschichte des SOEP zwei statt einen Buchstaben als wellenspezifischen Präfix nutzen. Nachdem wir bei der letztjährigen Datenweitergabe mit dem Buchstaben Z an das Ende des lateinischen Alphabets gekommen sind, haben wir uns jetzt für die Wellenkennzeichnung BA für die Querschnittdaten entschieden. 

2. Aktualisierung der Beta-Version im „long-Format" 

Die SOEP-Daten sind auch dieses Jahr wieder in einem „Long-Format" erhältlich. Diese Beta-Version von SOEPlong ist eine für längsschnittliche Analysen optimierte Form der Datenweitergabe: Statt in wellenspezifischen Einzeldatensätzen sind hier alle verfügbaren Jahre und Kohorten gepoolt (long format). Dieser Datensatz befindet sich auf der zweiten DVD. Eine genauere Beschreibung finden Sie im SOEPnewsletter Nr. 90/2010 | PDF, 3.53 MB oder direkt auf der zweiten DVD. 

3. Entfernung von Fälschungen

Nach Konsistenzprüfungen der 2. Welle von Sample I, wurden 36 Haushalte als Fälschungen identifiziert. Diese Fälle sind in der aktuellen Datenweitergabe nicht mehr enthalten.

4. Neue und umbenannte Datensätze

4.1 BIOAGE08[A|B]

Der Datensatz BIOAGE08 enthält die Antworten auf die Befragung mit dem neuen „Elternfragebogen", den Mütter und Väter von sieben- bis achtjährigen Kindern ausfüllen. Damit sind jetzt die Daten der Geburtskohorte 2002/2003 erhältlich, die als Erste mit dem „Neugeborenen-Fragebogen" befragt wurden. Den neuen „Elternfragebogen" füllen sowohl die Mütter als auch die Väter aus, es gibt damit also zwei Beobachtungen zu vielen dieser Kinder im Sample. Aus diesem Grund ist der Datensatz nach Geschlecht des antwortenden Elternteils getrennt (und nach Haushaltstyp in dem die Befragten leben): BIOAGE08A enthält ausschließlich Daten der Mütter und einiger Väter, wenn keine Auskünfte der Mütter zu erhalten waren. BIOAGE08B enthält nur Daten der Väter. Die Dokumentation dieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.2 LIFESPELL

Der Datensatz LIFESPELL enthält Daten der Verbleibstudien von Befragungsausfällen (1992, 2001, 2006 und 2008), die bisher noch nicht in der regulären Datenweitergabe enthalten waren. Die Verbleibstudien, die auf Informationen der Einwohnermeldeämter beruhen, dienen dazu, den aktuellen Aufenthaltsort von ehemaligen SOEP-Teilnehmer/inne/n aufzufinden. Diese Daten ermöglichen Analysen zur Lebenserwartung und Auswanderungsentscheidungen, selbst wenn die Personen schon lange aus der Studie ausgeschieden sind. Die Dokumentationdieses neuen Datensatz wird als DIW Berlin Data Documentation 61 erscheinen.

4.3 BIOEDU (beta version)

Der Datensatz BIOEDU, der dieses Jahr in einer vorläufigen Form weitergegeben wird, enthält Informationen zu Bildungsübergängen in konsistent strukturierter Form, beginnend mit dem Eintritt in institutionelle Kinderbetreuung bis zur Universitätsausbildung. Nutzer/innen, die mit diesen Daten arbeiten, werden gebeten, uns ihre Erfahrungen (insbesondere auftretende Probleme) mitzuteilen, damit wir für das nächste Jahr eine endgültige Version erstellen können. Der Datensatz ist in der DIW Data Documentation 58 | PDF, 383.03 KB ausführlich dokumentiert.
Wegen seiner provisorischen Form ist dieser Datensatz nicht Bestandteil der normalen Datenweitergabe und deswegen auf der DVD in einem eigenen Archiv zu finden (Bitte nutzen Sie den link in der NEWS-Datei auf der DVD).

5. Neue Variablen

5.1 Datensatz $PEQUIV

In den $PEQUIV-Dateien ist eine neue Variable zu den Unterstützungs-Zahlungen aufgenommen. Mit dem 2010er Fragebogen wurden zwei Kategorien bei den „Unterstützungszahlungen" unterschieden. Die erste bezeichnet „Gesetzlichen Ehegattenunterhalt, Kindesunterhalt, Betreuungsunterhalt" (ALIM$$), während die zweite „Unterhaltszahlung aus Unterhaltsvorschusskassen" (IACHM$$) abfragt. Mehr Informationen über den Datensatz $PEQUIV und die neuen Variablen in der DIW Data Documentation 57 | PDF, 0.54 MB .

5.2 Datensatz PFLEGE

Im PFLEGE-Datensatz finden sich jetzt zwei zusätzliche Variablen. „FURTHER" gibt die Anzahl weiterer pflegebedürftiger Personen in einem Haushalt an. Diese Zahl wird seit 2009 erhoben. „CARECOST" gibt die regulären monatlichen Kosten an, die ein Haushalt normalerweise für Pflege aufwendet. Diese Frage wird seit 2010 gestellt.

5.3 Datensatz $PGEN

Mit dieser Datenweitergabe geben wir detaillierte Auskünfte über Bildungsabschlüsse und Weiterbildungsqualifikationen vor Eintritt in die Panelbefragung weiter: Seit 2001 wird im Lebenslauffragebogen nach der Berufsausbildung, dem Hochschulabschluss (z.B. Diplom) und dem Studienfach der Hochschulabsolventen gefragt. Diese offenen Antworten wurden bisher jedoch nicht vercodet und daher auch nicht weitergegeben. Für die jetzt erfolgte Vercodung wurde die Klassifikation aus dem Personenfragebogen genutzt. Im Zuge der jetzt erfolgten Revision ergaben sich nur leichte Veränderungen. Eine genaue Beschreibung ist in der PGEN- Dokumentation zu finden, die neuen Variablen sind:

FIELD$$  Fach der Universitätsausbildung
DEGREE$$  Art des Universitätsabschlusses
TRAINA$$  Ausbildung - zweistelliger Berufscode KldB92
TRAINB$$  Berufsfachschule - zweistelliger Berufscode KldB92
TRAINC$$  Fachschule - zweistelliger Berufscode KldB92
TRAIND$$  Beamtenausbildung - zweistelliger Berufscode
 FDT_F$$  Datenquelle FIELD, DEGREE, TRAIN

 6. Überarbeitete Variablen

6.1 Datensatz $P

Die Variablen zu den Berufstätigkeits- und Branchenklassifikationen in den $P-Dateien wurden umbenannt. Die entsprechenden Variablen aus den Personenfragebogen werden abwechselnd von allen Befragten oder nur von denjenigen erhoben, die ihre Berufstätigkeit gewechselt haben. Gleichzeitig generieren wir diese Informationen über alle Jahre und alle Individuen und stellen diese Variablen in den $PGEN-Datensätzen zur Verfügung. Um die generierten klarer von den original erhobenen Variablen zu unterscheiden und um eine eindeutige Verbindung zur Fragenummer im jeweiligen Fragebogen herzustellen, haben wir die Variablen nach folgendem System umbenannt:

Bisheriger Variablenname Neuer Name
$IS88 $pXX_IS88
$KLAS $pXX_KLAS
$BACE $pXX_NACE
$IS88 $pXX_IS88
$KLAS $pXX_KLAS


So ist zum Beispiel ZIS88 jetzt umbenannt in ZP29_IS88. Die entsprechenden Variablen aller Datensätze aus dem Personenfragebogen ($P) wurden umbenannt, nicht jedoch die für die Nutzung empfohlenen Variablen in den generierten Datensätzen ($PGEN, so zum Beispiel IS8809 aus ZP).

6.2 Datensatz $HBRUTTO

Die Vercodung derjenigen Variablen, die das Bundesland abfragen, in dem sich ein Haushalt befindet, ($BULA, Bundesland) wurde der Vercodung der offiziellen Statistik angepasst.

$bula (alte Kodierung) $bula (neue Kodierung)
0 Berlin  
1 Schleswig - Holstein 1 Schleswig-Holstein
2 Hamburg 2 Hamburg
3 Niedersachsen 3 Niedersachsen
4 Bremen 4 Bremen
5 Nordrhein-Westfalen 5 Nordrhein-Westfalen
6 Hessen 6 Hessen
7 Rheinl.-Pfalz, Saarl. 7 Rheinland-Pfalz
8 Baden-Württemberg 8 Baden-Württemberg
9 Bayern 9 Bayern
  10 Saarland
11 Berlin (Ost) 11 Berlin
12 Mecklenburg-Vorpommern  12 Brandenburg
13 Brandenburg  13 Mecklenburg-Vorpommern
14 Sachsen-Anhalt 14 Sachsen
15 Thüringen 15 Sachsen-Anhalt
16 Sachsen 16 Thüringen

 Eine Unterscheidung von Ost- und West-Berlin ist nach wie vor möglich mit eine Kombination der Bundesland-Variable und der Variable zur Ziehungsregion ($SAMPREG in PPFAD).

6.3. Kleinere Fehlerkorrekturen

  • Im Datensatz BIOAGE17 wurde in der Datenweitergabe v26 bei der Klassifizierung der gewünschten Jobs aus dem Jugendfragebogen (byklas, bymps, byisco88, byegp, byisei, bysiops) fehlerhaft vercodet und enthalten deswegen zu viele fehlende Angaben. Dieser Fehler wurde in der Datenweitergabe v27 behoben.
  • Einige Haushalte in Berlin (nur 2006) wurden bezüglich des Siedlungstyps ($GTYP) im Datensatz GGKBOU falsch eingeordnet. Dieser Fehler wurde ebenfalls korrigiert.

 

Datenweitergabe v26 (Welle Z)

Die Datenweitergabe 2010 mit den Daten von 1984-2009 (v26) enthält weitgehende Verbesserungen, Ergänzungen und änderungen. Neben den üblichen wellenspezifischen Datensätzen ZPBRUTTO, ZP, ZPKAL, ZPGEN, ZPAGE17, ZHBRUTTO, ZH, ZHGEN, ZKIND and YPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten änderungen

1. Beta Version des 'long'-Formats

Die SOEP-Daten werden dieses Jahr erstmalig in der Standard-Datenweitergabe in diesem nutzerfreundlicheren Format, genannt 'SOEPlong' weitergegeben - in einer Beta-Version. SOEPlong ist eine Art komprimierte Version der SOEP-Daten: Statt der Weitergabe als einzelne wellenspezifische Datensätze werden alle Jahre und Kohorten im 'long format' zusammengefasst weitergegeben.

2. Neues Sample I
Als Beitrag zu den laufenden SOEP-Innovationen begann im Herbst 2009 die Feldarbeit für eine neue Stichprobe I. Sie wurde genutzt, um den Effekt unterschiedlicher Incentivierungsstrategien auf die Beteiligungsquote zu testen und wird Teil eines umfassenderen Innovationssamples werden. Im SOEPnewsletter 89 hatten wir unsere Pläne in dieser Richtung beschrieben.

In vier zufällig ausgewählten Gruppen wurden folgende Anreizstrategien genutzt:

  1. SOEP Standard-Incentive (ein Lotterie-Los pro Antwortperson),
  2. die Wahl zwischen einem Lotterie-Los und fünf Euro pro Personeninterview,
  3. fünf Euro pro Personeninterview,
  4. zehn Euro pro Personeninterview.

Die Daten der neuen Stichprobe I sind in der aktuellen Datenweitergabe (SOEP, v26) enthalten, aber aufgrund der spezifischen Merkmale des Samples konnte kein gemeinsames Gewichtungsschema mit den anderen SOEP-Stichproben zur Verfügung gestellt werden: In Stichprobe I wurden alle Antwortverweigerer der vier Gruppen noch einmal schriftlich befragt. Die Biografie-Informationen für die TeilnehmerInnen von Stichprobe I konnten noch nicht in die Biografiedatensätze integriert werden, da diese standardmäßig erst in der 2. Welle erhoben werden. Dasselbe gilt für Biografie-Informationen im Datensatz PPFAD, so ist z.B. die Variable MIGBACK für diese Stichprobe komplett auf -2 gesetzt.

Darüber hinaus wurden folgende Ergänzungen und änderungen vorgenommen:

3. Neue und umbenannte Datensätze

  • Daten der Kognitionstests (COGDJ)
    Erstmalig sind alle vorhandenen Daten des Kognitionstests für junge Leute ("Denksport Jugend", DJ) in dieser Datenweitergabe enthalten. Seit 2006 wird dieser Test allen jungen Erstbefragten (im Alter von 16) vorgelegt.

4. Neue Variablen

4.1 Datensatz $HGEN
Es gibt zwei neue Variablen, die die Qualität einer Wohnung beschreiben :

  • EQPLIF$$: "Aufzug / Fahrstuhl im Haus"
  • EQPNRJ$$: "alternative Energiequelle"

4.2 Datensatz $PEQUIV:

  • Es gibt eine neue Variable für zusätzliche monetäre Leistungen für Kinder, zusammen mit einer Flag-Variable, die eine Imputation anzeigt (ADCHB$$ und FADCHB$$).

4.3 Datensatz $HBRUTTO - Kalenderjahr des Interviews

  • In dieser Datenweitergabe findet sich zum ersten Mal eine Variable (ZDATUMY), die das Kalenderjahr des Interviews angibt. Nötig geworden ist dies aufgrund der längeren Feldarbeit im Zusammenhang mit der Stichprobe I. Dies führte dazu, dass in einigen Fällen ein Interview erst 2010 realisiert werden konnte.

5. überarbeitete Variablen

5.1 Datensatz $HGEN  

  • Die Variablen zum Haushaltstyp TYP1HH$$ und TYP2HH$$ wurden komplett überarbeitet und auf intertemporale Konsistenz geprüft.

5.2 Datensätze $KIND – KIDLONG

  • Die Variablen wurden ebenfalls komplett überarbeitet und liegen jetzt sowohl in längsschnittlicher Form (KIDLONG) als auch weiterhin im Querschnittformat in $KIND vor. Zu beachten ist, dass die Variablennamen in KIDLONG zum Teil geändert werden mussten, um über die Zeit konsistent zu bleiben.

5.3 Datensätze BIOMARSM/BIOMARSY  

  • Die Spelldaten zum Familienstatus wurden überarbeitet.

5.4 Datensatz BIOTWIN

Der Datensatz BIOTWIN enthält ab dieser Welle Z 100 Fälle mehr. Dieser beachtliche Anstieg der Fallzahl ist das Ergebnis einer Anpassung im Datengenerierungsprozess: Im Gegensatz zum bisherigen Verfahren werden jetzt zusätzlich alle Geschwister mit identischem Geburtsjahr, bei denen die Angabe zum Geburtsmonat fehlt, als Zwillinge angesehen. Diese weniger restriktive Datengenerierung ist der Annahme geschuldet, dass zwei separate Geburten in einem einzigen Kalenderjahr extrem selten vorkommen. Da jedoch trotzdem die Gefahr besteht, dass durch fälschlicherweise als Zwillinge bezeichnete Personen aus der Gruppe mit den fehlenden Geburtsmonaten die Durchschnittswerte in BIOTWIN verzerrt werden, haben wir ein neues Label in die Variable INFOTWIN eingeführt. Dadurch kann diese besondere Gruppe der Zwillinge identifiziert werden (Code "6": Erfassung seit 2007, übereinstimmung Geburtsjahr, fehlender -monat; im Gegensatz dazu "5": Erfassung seit 2007, übereinstimmung Geburtsjahr und -monat).
In der aktuellen Datenweitergabeversion (Welle Z, besser: v26) umfasst der Datensatz BIOTWIN 250 Zwillings- und 5 Drillingspaare.

labels infotwin: 
[1] Zwillinge - nicht in 2006 (gen.)
[2] Zwillinge - 2006 (Antwort nicht verifizierbar)
[3] Zwillinge - 2006 (Antwort verweigert)
[4] Zwillinge - 2006 (Antwort validiert)
[5] Zwillinge - seit 2007 (gen.)
[6] Zwillinge - seit 2007 (gen.)

 

5.5 Kleinere Überarbeitungen

  • Korrektur in MONTH08
  • Korrektur einiger weniger Fälle im IMMIYEAR
  • Austausch der Variablennamen für die Fragen 25 und 26 in YH und ZH

Datenweitergabe 2008 (Welle Y)

Die Datenweitergabe 2009 mit den Daten von 1984-2008 (Welle 1-25) enthält weitgehende Verbesserungen, Ergänzungen und Änderungen. Neben den üblichen wellenspezifischen Datensätzen YPBRUTTO, YP, YPKAL, YPGEN, YHBRUTTO, YH, YHGEN, YKIND und XPLUECKE sowie den aktualisierten Datensätzen mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren) finden Sie hier die wichtigsten Änderungen:

Das SOEP gibt ab sofort - in einer Beta-Version - die Daten in dem einem nutzerfreundlicheren Format, genannt 'SOEPlong' weiter. Wir haben darüber bereits im SOEPnewsletter 80/2008 berichtet und danken allen, die an diesem Projekt mitgewirkt haben.
Diese neue und vorläufige Version der SOEP-Daten im long-Format geben wir gerne auf Anfrage weiter. Wir empfehlen nur jedoch nur 'Power Usern' mit entsprechenden Vorkenntnissen der Paneldatenanalyse im allgemeinen und dem SOEP im Besonderen die Bestellung dieser Version. Sie sind herzlich eingeladen mit uns an der Verbesserung und Weiterentwicklung des Datenmanagements zu arbeiten.
Diese Version enthält alle Daten und kann deswegen im Wesentlichen schon für endgültige Analysen genutzt werden. Sie ist nichts desto trotz eine vorläufige. Wir möchten unerfahrenen Nutzerinnen und Nutzern daher vorläufig von der Verwendung dieser Version abraten. Falls Sie als 'SOEP-Neuling' mit diesem neuen Format arbeiten wollen, sollten Sie zumindest Erfahrungen mit anderen Panel-Datensätzen gesammelt haben.

A Neue und umbenannte Datensätze

A.1. Datensatz BIOAGE06
Die aktuelle Datenweitergabeversion enthält den neuen Datensatz BIOAGE06. Er stellt die 2008 das erste Mal erhobenen Daten aus dem speziellen Mutter-Kind-Fragebogen zur Verfügung, der von Müttern von 5- bis 6-jährigen Vorschulkindern ausgefüllt wurde. Die Daten ergänzen das Wissen über eine Geburtskohorte, die das erste Mal 2002/2003 mit dem gesonderten Neugeborenen-Fragebogen 'befragt' wurde.
Die neuen Daten über die Vorschulkinder erheben Gewicht und Größe der Kinder, Informationen über ihren Gesundheitszustand, die Betreuungssituation, ihre Aktivitäten mit und ohne die Mutter und ihren Medienkonsum. Insbesondere die Betreuungssituation wird detailliert erhoben. Darüber hinaus wurden zum ersten Mal valide Informationen über die Persönlichkeit des Kindes (basierend auf dem 'Big Five' Persönlichkeitsmerkmalen, die auch im Peronenfragebogen für Erwachsene erfragt werden) und über ihr sozio-emotionales Verhalten gesammelt (beobachtet mit einer modifizierten Version des „Strength-and-Difficulities Questionnaire" (SDQ) nach Goodman (1997)).

A.2 Datensatz MOVEDIST
In diesem Datensatz stellen wir Informationen zum Wohnsitzwechsel zur Verfügung. Basierend auf den Geo-Koordinaten auf Block-Ebene erhalten Sie die Daten über die Entfernung (in Metern) zwischen dem früheren und dem gegenwärtigen Wohnsitz. Allerdings gibt es diese Informationen nur für Umzüge seit 2000.

Diese Daten sind NICHT auf der Standard-Datenweitergabe-DVD enthalten, sondern wir geben diese Informationen nur im Zusammenhang mit den Raumordnungsregionen auf einer gesonderten CD-ROM weiter. Sie benötigen also einen erweiterten Datenweitergabevertrag, der ein Datenschutzkonzept beinhaltet, wenn Sie diese Daten nutzen wollen. Nach Abschluss der Vertragserweiterung erhalten Sie diese Daten auf einer (kostenlosen) CD-ROM. Bei entsprechendem Interesse wenden Sie sich bitte an .

B. Neue Variablen

B.1 Datensatz PPFAD

  • MIGBACK / MIGINFO: Zwei neue Variablen zur Bestimmung des Migrationshintergrunds. MIGBACK enthält die zeitunabhängige Information über den Migrationshintergrund einer Person, die sich aus den eigenen und den Angaben der Eltern ergibt. Um eine größtmögliche Transparenz bezüglich der Generierung von MIGBACK zu gewährleisten, enthält die Variable MIGINFO Angaben zu den zugrunde liegenden Quellvariablen. Die genaue Beschreibung finden Sie in der ausführlichen Dokumentation der Biografiedaten | PDF, 0.92 MB (im Kapitel 2.3) oder in der Dokumentation von PPFAD | PDF, 0.53 MB .

B.2 Datensatz PFLEGE

    • PAY und STUFE: Zwei neue Variablen über bezahlte Pflege (PAY) und die Pflegestufe (STUFE)

 

B.3 Datensatz PBIOSPE

    • Der Prozess der Datengenerierung von PBIOSPE wurde komplett überarbeitet, ohne die grundlegenden Prinzipien zu verändern. Daraus resultieren nur wenige, kaum wahrnehmbare Abweichungen in den Hauptvariablen, die den Konsistenzchecks der Daten geschuldet sind. Es lassen sich aber einige sichtbare Änderungen in Form von zusätzlichen Variablen oder zusätzlichen Werten bei bereits bestehenden Variablen beobachten. Die detaillierte Beschreibung finden Sie in unserer Dokumentation der Biografiedaten.

 

B.4 Datensatz BIOPAREN

  • In BIOPAREN gibt es sowohl einige neue Variablen über das Alter der Eltern zum Zeitpunkt der Biographiedatenerhebung als auch Überarbeitungen bestehender Variablen.
  • BIO: Informationsvariable, die angibt, aus welchem Datensatz die Informationen zu den Eltern stammen ($LELA oder $JUGEND)
  • ALTER / VALTER / MALTER: Alter der Befragungsperson / des Vaters / der Mutter jeweils zum Zeitpunkt des Biografie-Interviews
  • VNAT / MNAT: Neuerungen in den Variablen über die Nationalität der Eltern

  • Achtung: Bei der Datengenerierung ist erst nach der Herstellung der DVD ein Fehler entdeckt worden, der die Religionszugehörigkeit der Eltern betrifft.
    nähere Informationen

C. Überarbeitete Variablen

C.1 Datensatz PWEALTH und HWEALTH

Im Jahr 2007 wurden alle Personen, die 17 Jahre oder älter waren, über ihr Vermögen befragt, eine Wiederholung der Befragung von 2002. Diese 'Rohdaten' waren bereits mit der Welle 24 weitergegeben worden. Mit der aktuellen Datenweitergabe wurden sie nun zusammen mit den Daten von 2002 im long-Format aufbereitet und in den Datensätzen PWEALTH (für Personendaten) und HWEALTH (für Haushalte aggregierte Daten) zusammengefasst.
Fehlende Werte, die aufgrund von Antwortverweigerung bei einzelnen Fragen (item non-response) oder Nicht-Teilnahme einzelner Personen (partial unit non-response, hier: fehlende Interviews in ansonsten befragten Haushalten) entstanden sind, wurden in komplexen Prozessen multipel imputiert, unter Zuhilfenahme längsschnittlicher Informationen. Eine ausführliche Dokumentation ist in Vorbereitung. Erste Analysen wurden vorgenommen und in einem DIW Wochenbericht veröffentlicht (Joachim R. Frick und Markus M. Grabka: Gestiegene Vermögensungleichheit in Deutschland, DIW-Wochenbericht 04/2009 | PDF, 269.73 KB )

C.2 Datensatz $PEQUIV

C.3 Datensatz HHRF/PHRF

  • $HHRF/$PHRF:Die jährlichen SOEP Gewichts- und Hochrechnungsfaktoren für Querschnitte wurden umfassend überarbeitet und neu randangepasst; dabei erfolgte auch eine bessere regionale Kalibrierung der Gewichte.
    Kurzdokumentation (englisch) | PDF, 87.06 KB

C.4 Datensatz $PGEN

  • EMPLST$$: Dieser Erwerbsstatus-Variablen wurde eine neue Kategorie hinzugefügt. Seit 1998 enthalten die SOEP-Daten Informationen über die Beschäftigung in einer beschützenden Werkstätte. Da die betroffenen Personen nicht angeben, ob sie Vollzeit, Teilzeit oder unregelmäßig arbeiten, wurde die neue Kategorie "beschützende Werkstätte" eingeführt.

C.5 Datensatz $HGEN

  • Die wohnungsbezogenen Variablen im wellenspezifischen $HGEN-Datensatz wurden komplett überarbeitet. Ergänzungen betreffen die vollständige Imputation fehlender Werte (bei item-non-response) für die wohnbezogenen Variablen zu  'Zahl der Wohnräume', 'Heizkosten in Euro', 'Nettomiete ohne Heiz-/Warmwasserkosten in Euro' sowie die neu generierte Variable 'kalte Betriebskosten in Euro'. Schließlich zeigen ggf. 'Flagvariablen' den Imputationsstatus an.
  • Hinweis für erfahrene SOEP-Nutzerinnen und -Nutzer: Die meisten Variablennamen in $HGEN wurden verändert.

C.6 Datensatz PPFAD

    • TODJAHR und TODINFO: Um Panelmortalität von demografischen Gründen des Ausscheidens aus der SOEP-Studie unterscheiden zu können, hat TNS Infratest verschiedene Studien zum gegenwärtigen Aufenthalt von Panelausfällen, d.h. früheren Teilnehmerinnen und Teilnehmern der Studie, durchgeführt. Infolgedessen wurden 17.195 Personen lokalisiert. In 981 Fällen waren die früheren Befragten verstorben. Insgesamt können im SOEP bis 2008 3.781 Verstorbene identifiziert werden (vgl. auch die Dokumentation der Variablen in der PPFAD-Dokumentation). Weitere Informationen finden Sie in dem Methodenbericht von TNS Infratest: Wiederbefragung von Panelausfällen | PDF, 368.88 KB (2006).

Datenweitergabe 2007 (Welle X)

Die Datenweitergabe 2008 mit den Daten von 1984-2007 enthält für das Jahr 2007 die üblichen wellenspezifischen Datensätze  XPBRUTTO, XP, XPKAL, XPGEN, XHBRUTTO, XH, XHGEN, XKIND und WPLUECKE sowie die aktualisierten Datensätze mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren).

Im Befragungsjahr 2006 wurde eine repräsentative Ergänzungsstichprobe für ganz Deutschland gezogen: die Auffrischungsstichprobe H. Die biografischen Hintergrundinformationen der Befragten in Stichprobe H wurden erstmals in 2007 erhoben. Diese Daten sind nun vollständig in die relevanten Biografiedatensätze (BIOxxxx) integriert worden.

Als Teil der SOEP Innovationsprojekte führte TNS Infratest Sozialforschung im Dezember 2006 eine Nacherhebung durch. Sie wurde bei früheren SOEP-Befragten durchgeführt, die aus Haushalten stammen, die zwischen 2001 und 2004 als endgültigeVerweigerungen klassifiziert wurden. Als Nebenprodukt konnten wir die Informationen über das Geburtsjahr von 21 dieser Personen von fehlend auf einen gültigen Wert setzen. Mehr Informationen finden Sie im Methodenbericht von TNS Infratest Sozialforschung | PDF, 368.88 KB .

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

A. Neue und umbenannte Datensätze

COGNIT06:
Im Erhebungsjahr 2006 wurde mit einem Subsample des SOEP kurze Kognitionstests mit dem Ziel durchgeführt, eine Reihe robuster Instrumente zur Verfügung zu haben, die von   geschulten Interviewern nur wenige Minuten bei der Befragung beanspruchen. Nahezu 80% aller zur Teilnahme am Kognitionstest Ausgewählten gaben gültige Antworten. Das hat zur Folge, dass das SOEP jetzt zum ersten Mal Indikatoren zu kognitiven Leistungspotenzialen für mehr als 5.500 Personen bereitstellen kann, angereichert durch unterschiedliche Bildungsinformationen, die auf Abschlüssen und Qualifikationen beruhen. Die erste Wiederholung für diesen Test ist für das Erhebungsjahr 2010 geplant. Eine ausführliche Dokumentation und Auswahlanalyse finden Sie in Schupp et al. (2008) Erfassung kognitiver Leistungspotentiale Erwachsener im Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32 | PDF, 447.63 KB .

PBR_EXIT und PBR_HHCH:
Diese beiden Datensätze ersetzen den ehemaligen Datensatz YPBRUTTO, wobei bei in dieser Datenweitergabe noch beide Varianten verfügbar sind.

MIHINC:
Dieser Datensatz enthält das multipel imputierte monatliche Netto-Haushaltseinkommen für die Jahre 1997 bis 2007. Er ist im long-Format abgelegt (Long-Format: hhnrakt, svyyear, mj, wird in Stata auch mim-Format genannt). Jede fehlende Antwort auf die Frage nach dem Netto-Haushaltseinkommen wurde 10-fach imputiert. Weitere Informationen finden Sie in der Dokumentation von HGEN | PDF, 169.14 KB .

B: Neue Variablen

B.1 Datensatz XPBRUTTO

  • XEWSTATU: Proxyinformation über den Arbeitsmarktstatus von Personen, die in Befragungshaushalten kein Interview gaben.

B.2 Datensatz $PEQUIV

  • P11101$$: Kopie der wellenspezifischen Variablen zur allgemeinen Lebenszufriedenheit

B.3 Datensatz $HGEN

  • I_HINC$$: Multiple imputierte Version von HINC$$, das monatliche Haushaltsnettoeinkommen. Imputationen 1-5 sind als Wide-Format in $HGEN abgelegt (nur für die Jahre 1996-2007), alle generierten Imputationen (10) sind in dem zusätzlichen Datensatz MIHINC in Long-Format abgelegt. Weitere Informationen finden Sie in der Dokumentation zu HGEN | PDF, 169.14 KB .
  • FHINC$$: Imputation Flag für I_HINC$$, 0 bedeutet nicht-imputiert und 1 imputiert.

C. Überarbeitete Variablen

C.1 Im Datensatz $PKAL

  • $P2D03 + $P2E03: In einigen Fällen war in den Wellen U-W (in den Jahren 2004-2006)  fälschlicherweise "keine Antwort" (-1) auf "trifft nicht zu" (-2) gesetzt worden. Dies wurde jetzt nachträglich korrigiert.

C.2 Im Datensatz HHRF/PHRF

  • WPHRF*: Alle Gewichtungsfaktoren für das Jahr 2006 sind nun an den Mikrozensus 2006 angepasst. Auch die Gewichtungsfaktoren für das Jahr 2007 sind an den Mikrozensus-Daten von 2006 angepasst worden; sie müssen deswegen als vorläufig für Personen und Haushalte in Deutschland gelten und werden voraussichtlich mit der nächsten Datenweitergabe aktualisiert.
  • VHHRF + VHHRF1: 1 Haushalt aus Sample G  musste korrigiert und auf 0 gesetzt werden.

C.3 Im Datensatz  $PGEN

  • LFS$$: Die Variable "Arbeitsmarktstatus" wurde für alle Wellen in Bezug auf  eine genauere Einordnung von Personen in den Status "nicht-erwerbstätig und älter als 65" (Kategorie 2) verbessert. Inzwischen wird die Information über den Geburtsmonat einer Person genutzt, um zu bestimmen, ob sie zur Zeit des Interviews älter als 65 Jahre war.

D. Fehlerkorrekturen

D.1 Im Datensatz VH and WH

Es gab eine Korrektur der Werte Labels für die Variablen, die auf die Eigentümer einer Wohnung hinweisen  (VH27 and WH27), bitte beachten Sie die richtigen Ausprägungen in der unten stehenden Tabelle.

Variablenname: Eigentümer der Wohnung

WertFalschRichtig
-2 Trifft nicht zu Trifft nicht zu
-1 Keine Antwort Keine Antwort
1 selbstgenutzte Wohnung Kommunale Wohnung
2 Kommunale Wohnung Genossenschaftliche Wohnung
3 Genossenschaftliche Wohnung Betriebs-/ Werkswohnung
4 Betriebs-/ Werkswohnung Privater Eigentümer
5 Privater Eigentümer Weiß nicht


D.2 Im Datensatz $PGEN

  • EGP$$: Die Variable "Erikson and Goldthorpe Class Category" (internationaler Index des beruflichen Status) wurde bezüglich der Zuordnung von Personen zur Kategorie (18) "nicht erwerbstätig - in Rente" korrigiert. Bis jetzt wurden fälschlicherweise alle Rentenempfänger, d.h. alle Empfänger von Altersrente und die Empfängerinnen von Witwen- und Waisenrenten als  "nicht erwerbstätig - in Rente" klassifiziert, falls keine andere Kategorie zutraf. In der korrigierten Generierung der EGP$$ Variable, die für alle Wellen durchgeführt wurde, werden nicht-erwerbstätige Personen nur dann in diese Kategorie eingeordnet, wenn sie Bezieher/innen von Altersrente sind oder wenn sie  Bezieher/innen von Waisen- bzw. Witwenrente UND älter als 60 Jahre sind. Darüber hinaus werden bei Fehlen der Information über Rentenbezug die Informationen aus ARTKALEN (retrospektive Information aus dem Aktivitätskalender des vorangegangenen Jahres) im Generierungsprozess genutzt, um zu bestimmen, ob eine Person zum Zeitpunkt des Interviews in Rente oder Vorruhestand ist. Alle anderen nicht arbeitenden Personen werden in Kategorie (-2) "trifft nicht zu" eingeordnet, solange sie nicht als arbeitslos registriert sind (Kategorie 15).
  • ST$$IB: Das gleiche Problem der falschen Zuordnung von Personen zur Kategorie "Rentner/in" (13) trifft auch für die Variable "Berufliche Stellung" zu und wurde für alle Wellen in der gleichen Weise wie für EGP$$ korrigiert.
  • NACE$$: Die Variable "2-stellige Branchenvercodung nach NACE" hatte bisher einige Inkonsistenzen bezüglich der Bezeichnungen. Insbesondere die Bezeichnungen für den Code (90) "Abwasser- und  Abfallbeseitigung, Sanierung oder ähnliches" und Code (95) "Private Haushalte mit Angestellten" mussten ausgetauscht werden. Einige andere Bezeichnungen waren nicht genau genug und wurden für alle Wellen präzisiert.
  • IS88$$, ISEI$$, MPS$$, SIOPS$$, KLAS$$, EGP$$: Die Frage, auf die sich diese Variablen beziehen, wird nicht allen erwerbstätigen Personen jedes Jahr gestellt. In den Befragungsjahren 1985, 1986, 1987, 1988, 1990 (West), 1992 (West), 1994, 1996, 1999, 2001, 2003, 2005 und 2006 wurde sie nur Erstbefragten oder Berufswechslern gestellt. Deswegen sollten in Jahren mit Teilbefragungen die Variablen für alle berufstätigen Personen ohne Jobwechsel die vorhandene Information des Vorjahres übernommen werden. Diese Angaben wurden fälschlicherweise für einige Personen nicht genutzt. Dieser Fehler ist nun behoben, da für alle Wellen die betroffenen Variablen in konsistenter Weise neu generiert wurden.

nach oben

Datenweitergabe 2006 (Welle W)

Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.

Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt B). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht.

Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant.

Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert.

Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen.

Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD.

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Neue und umbenannte Datensätze 2006

$PAGE17
Ab 2007 werden Personen, die das Erstbefragungsalter (17 Jahre) erreichen, nicht mehr mit dem normalen Personenfragebogen, sondern mit einem speziellen Jugendfragebogen befragt. Wellenspezifische Informationen, die nicht in den Biographie-Daten oder anderen generierten Datensätzen (wie $PGEN, HEALTH) vorliegen, werden im Datensatz $PAGE17 weitergegeben. Identifizierbar sind die Befragten des Jugendfragebogens mit Hilfe des neuen $NETTO-Codes "17" (siehe auch Änderung der $NETTO-Variablen in PPFAD).

DESIGN
Die Informationen zum Design der SOEP-Stichprobe, die zuvor im Datensatz VARIANZ (Spiess 2001) zusammengefasst waren, werden ab der Datenweitergabe 2007 in dem überarbeiteten und verbesserten File DESIGN zu finden sein. Nähere Informationen in dem Dokument designdoku.pdf | PDF, 57.99 KB auf der SOEP-Dokumentationseite oder der DVD.

HEALTH
Der Gesundheitsschwerpunkt im Personenfragebogen wurde 2002 überarbeitet und seitdem im 2-Jahres-Rhythmus erhoben. Im HEALTH-File finden Sie nun die generierten SF12-Variablen (zur Messung der gesundheitsbezogenen Lebensqualität) und Variablen zu Größe und Gewicht mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte und einer nutzerfreundlichen, längsschnittgeprüften generierten Variablen des Body Mass Index (BMI). Die Dokumentation finden Sie in dem Dokument health.pdf | PDF, 110.01 KB auf der SOEP-Dokumentationseite oder der DVD.

PWEALTH und HWEALTH
Die Vermögensdaten des Erhebungsjahres 2002 wurden vollständig überarbeitet und auf Inkonsistenzen geprüft. Die Daten sind jetzt in zwei Datensätzen (für Personen- und Haushaltsebene) vollständig (multiple) imputiert nutzbar, mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte. Die beiden Datensätze enthalten auch jeweils eine generierte Variable zum "Netto-Vermögen" (siehe SOEPpapers No. 18 | PDF, 0.76 MB ).

Interviewerbefragung
Der bis 2006 lediglich als "stand-alone" Version verfügbare Datensatz mit Angaben zu den InterviewerInnen ist jetzt unter dem Namen INTVIEW in die Standard-Datenweitergabe integriert und wird somit in den jeweiligen Software-Formaten (SAS, SPSS, STATA) standardmäßig abgelegt.

Querschnittshochrechnung 2006
Mit der Datenweitergabe für das Jahr 2006 ergeben sich für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die Neuerungen in der DIW Data Documentation 22 | PDF, 310.7 KB .

1. Typen der Hochrechnungsfaktoren neu definiert
Jedes Querschnittsgewicht wird mit $xHRFy bezeichnet. Dabei stellt $ das Wellenkennzeichen dar, x die Unterscheidung nach Haushalten (x = H) und Personen (x = P) und y eine Zusatzkennung, die den Typ des Hochrechnungsfaktors beschreibt.

  • $xHRF sind die von Beginn an üblichen Hochrechnungsfaktoren. Sie enthalten sämtliche Stichproben mit Ausnahme der Hocheinkommensstichprobe G.
  • $xHRF1 sind Standard-Hochrechnungsfaktoren, bei denen zusätzlich zur Nichtberücksichtigung von Sample G die Gewichte von neuen Teil-Stichproben, d.h. in der sample-spezifischen ersten Welle, auf Null gesetzt sind. Hintergrund: In den ersten Wellen weisen die Befragten bei komplexen Erhebungskonstrukten ein "schlechteres" Antwortverhalten auf als in späteren Wellen (z. B. bezüglich Lebenszufriedenheit und Jahreseinkommen). Eine Ausnahme bildet hier Stichprobe C. Da für Befragte in der DDR solche Effekte im Antwortverhalten des Jahres 1990 nicht nachweisbar waren, sind hier GxHRF und GxHRF1 identisch.
    Für Standard-Querschnittsanalysen empfehlen wir die Verwendung des Hochrechungs-Typs $xHRF1 als Standard-Hochrechnungsfaktor. Damit werden die Informationen aus den jeweils ersten Wellen der Teilstichproben automatisch nicht genutzt.
  • $xHRFALL umfassen sämtliche verfügbare Stichproben.
  • $xHRFD, $xHRFF und $xHRFG kennzeichnen die isolierten Gewichte für die Zuwanderer-Stichprobe D, für die Ergänzungsstichprobe F und für die Hocheinkommens-Stichprobe G.

2. Modifizierung Hochrechnungsrahmen
Seit dem Jahr 2005 weist das Statistische Bundesamt Angaben für das Land Berlin nicht mehr getrennt nach West und Ost aus. Dies führte zu leichten Modifizierungen des Hochrechnungsrahmens für Haushalte rückwirkend seit dem Erhebungsjahr 2005.

3. Neue Ergänzungsstichprobe H
Die neuen Haushalte der im Erhebungsjahr 2006 erstmals erhobenen Ergänzungsstichprobe H ("Refreshment Sample") wurden in die Hochrechnung integriert. Die Einbeziehung der Stichprobe H ist gegenwärtig noch vorläufig. Es wird geprüft, ob und wie die Stichprobe H an zusätzliche externe Ränder angepasst wird. Dieses Vorgehen ist allerdings nicht gravierend, da wir ohnehin empfehlen, für deskriptive (Zeitreihen-) Analysen die Hochrechnungsfaktoren WxHRF1 zu verwenden, die die Stichprobe H ausschließen.

4. Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005
Die Hochrechnungsfaktoren für das Jahr 2006 basieren auf Eckdaten des Mikrozensus von 2005; sie sind also bezüglich der unterstellten Anzahl von Haushalten und Personen in Deutschland vorläufig.

BIOAGE01 und BIOAGE17 2006

1. BIOAGE01
Es wurden vier neue Variablen zum Schwangerschaftsstatus generiert. Basis der Generierungen sind im Wesentlichen der Interviewmonat aus $P, Geburtsmonat und -jahr des Kindes sowie Dauer der Schwangerschaft in Wochen aus BIOAGE01.

BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?'
Value Labels:
2002 | Schwanger bei Personeninterview 2002
2003 | Schwanger bei Personeninterview 2003
2004 | Schwanger bei Personeninterview 2004
2005 | Schwanger bei Personeninterview 2005
2006 | Schwanger bei Personeninterview 2006
2007 | Schwanger bei Personeninterview 2007

BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)'
Value Labels:
1 | Erster Schwangerschaftsmonat
2 | Zweiter Schwangerschaftsmonat
3 | Dritter Schwangerschaftsmonat
4 | Vierte Schwangerschaftsmonat
5 | Fünfter Schwangerschaftsmonat
6 | Sechster Schwangerschaftsmonat
7 | Siebter Schwangerschaftsmonat
8 | Achter Schwangerschaftsmonat
9 | Neunter Schwangerschaftsmonat
10 | Letzter Monat schwanger oder nach Geburt

Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01.

PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'.

PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'.

2. BIOAGE17

Den Aufbau und Inhalt finden Sie ausführlich in der Dokumentation der Biografiedaten auf der SOEP-Homepage oder der DVD.

$HGEN 2006

1. Neue Variablen
NUTS1$$
Zusätzlich zur Bundesland-Variable ist ab diesem Jahr für alle Wellen auch die entsprechende NUTS (Nomenclature des unités territoriales statistiques) Level 1-Variable verfügbar. Die Variable ist weitgehend identisch mit $BULA in $HBRUTTO, allerdings ohne die Zusammenfassung von Rheinland-Pfalz/ Saarland (ab 2000) bzw. ohne eine Differenzierung zwischen Ost- und West-Berlin.

$PGEN 2006

1. Neue Variablen
JOBCH$$
In Ergänzung zu ERWTYP$$ (und langfristig zu deren Ersatz) wurde eine Variable zur Identifikation beruflicher Wechsel generiert. Die Kategorien dieser Variable sind unabhängig davon, ob eine Erst- oder Wiederholungsbefragung vorliegt. JOBCH$$ gibt für Personen mit Wiederholungsbefragung berufliche Wechsel seit dem letzten Interview an, für erstmals Befragte bezieht sie sich auf berufliche Wechsel, die seit Beginn des Vorjahres stattgefunden haben. Erstmals erwerbstätige Personen und erwerbstätige Personen mit beruflichem Wechsel werden hierbei getrennt ausgewiesen. Im Gegensatz zu ERWTYP$$ wurde JOBCH$$ einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle, wie beispielsweise Doppelnennungen eines beruflichen Wechsels in zwei aufeinander folgenden Interviews, wurden korrigiert.
Value Labels:
1 | Nicht erwerbstätig
2 | Erwerbstätig ohne Wechsel
3 | Erwerbstätig ohne Information, ob Wechsel
4 | Erwerbstätig mit Wechsel
5 | Erstmals erwerbstätig

2. Überarbeitete Variablen
GERWZEIT, HERWZEIT
Für die Jahre 1990 und 1991 werden nun auch für Sample C (Ost) Werte für die Dauer der Betriebszugehörigkeit bereitgestellt. Aufgrund der eventuell eingeschränkten Vergleichbarkeit im Zuge des ostdeutschen Transformationsprozesses sind diese Angaben jedoch mit besonderer Vorsicht zu behandeln.

$ERWZEIT
Die Dauer der Betriebszugehörigkeit wurde aufgrund bisher auftretender Inkonsistenten zwischen verschiedenen Interviewzeitpunkten einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle wurden anhand der folgenden Vorgehensweise korrigiert:

  1. Der Beschäftigungsbeginn beim derzeitigen Arbeitgeber, der zum frühesten Befragungszeitpunkt angegeben wird, ist grundsätzlich dominant und wird in den Folgejahren fortgeschrieben, falls kein Stellenwechsel und keine Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung vorliegt.
  2. Im Falle eines Stellenwechsels (Wechsel des Arbeitgebers/Wechsel in die Selbständigkeit) werden die aktuellen Angaben zum Zeitpunkt des Stellenwechsels verwendet und in den Folgejahren fortgeschrieben.
  3. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird vermutet, dass ein Arbeitnehmer zu seinem alten Arbeitgeber zurückgekehrt ist, wenn der aktuell angegebene Beschäftigungsbeginn vor dem letzten Befragungsjahr liegt. In diesem Fall wird nicht auf den aktuellen Beschäftigungsbeginn zurückgegriffen, sondern der Beschäftigungsbeginn, der bei der letzten Befragung erhoben wurde, fortgeschrieben. Liegt die aktuelle Angabe zum Beschäftigungsbeginn nach dem letzten Befragungsjahr, wird ein Arbeitgeberwechsel seit der letzten Befragung angenommen und die aktuelle Angabe zum Beschäftigungsbeginn fortgeschrieben.

Aus dem längsschnittkonsistenten Beschäftigungsbeginn beim derzeitigen Arbeitgeber wird die Dauer der Betriebszugehörigkeit ermittelt. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird für Arbeitnehmer, bei denen vermutet wird, dass sie zum alten Arbeitgeber zurückgekehrt sind, die komplette Betriebszugehörigkeitsdauer erfasst. Es erfolgt kein Abzug für die Dauer der Unterbrechung, insofern wird die implizite Messung von betriebsspezifischem Humankapital ggf. überschätzt. 

AUSB$$
Da bei der erforderlichen Ausbildung im Beruf seit 1999 zwischen Fachhochschul- und Hochschulstudium unterschieden wird, wurden für die Jahre vor 1999 und nach 1999 verschiedene Kategorien für die AUSB$$ 'erforderliche Ausbildung im Beruf' gebildet. In den aktuellen Jahren gibt es getrennte Kategorien, die explizit zwischen diesen beiden Abschlüssen unterschieden. Zudem werden Fachschule und Fachhochschule nun getrennt ausgewiesen.
Value Labels:
1 | Keine Ausbildung
2 | Einweisung
3 | Einarbeitung
4 | Kurse
5 | Berufsausbildung
6 | Fachschule, Ingenieurschule (Ost) 1990-1996
7 | (Fach-,) Hochschulstudium, bis 1998
8 | Fachhochschulstudium, ab 1999
9 | Hochschulstudium, ab 1999

MPS$$
Für die Wellen U,V und W wurden die Werte für die 'Magnitude Prestigeskala - Wegener' für Befragungspersonen ohne Haushaltsinterview ($NETTO=19) ergänzt.

ERWTYP$$
Die Variable Erwerbstypus wird mit der alten Kategorisierung beibehalten, jedoch wird aufgrund der gemeinsamen Ausprägung von erstmals Erwerbstätigen und erwerbstätigen Personen mit beruflichem Wechsel das Label dieser Kategorie geändert. Die Ausprägung 6 wird mit dem Label 'erwerbstätig mit Wechsel, auch erstmals erwerbstätig' versehen.

PPFAD 2006

Umstellung der $NETTO Codes

$NETTO
Mit der Welle W (23. Erhebungswelle) wurde im aktuellen Erhebungsjahr 2006 die Erfassung der Befragungspopulation grundlegend verändert. Bisher wurde immer bei allen Personen im Haushalt über 16 Jahren ein Personeninterview durchgeführt. Ab dem Erhebungsjahr 2006 werden reguläre Personeninterviews auf Basis des Standard-Erwachsenenfragebogens erst ein Jahr später - im Alter ab 18 Jahren - durchgeführt. Erstbefragte Jugendliche im Alter von 17 Jahren erhalten stattdessen erstmals einen erweiterten Jugendfragebogen (dies gilt für die Samples A-G; bei der neuen Stichprobe H wird der Jugendfragebogen erst im nachfolgenden Jahr erhoben, die entsprechenden 17-jährigen Jugendlichen erhielten als erstes - wie bisher - den regulären Personenfragebogen).
Die Befragungspersonen sind damit nicht mehr allein durch das Instrument des Personenfragebogens erfasst, sondern werden jetzt durch zwei Instrumente - Personen- und Jugendfragebogen - abgebildet. Zur konsistenten Abgrenzung im Zeitverlauf muss deshalb entweder die Jugendpopulation im aktuellen Jahr einbezogen werden oder die Altersabgrenzung für alle früheren Jahre erhöht werden.
Die neu überarbeitete $NETTO-Variable unterstützt beide Abgrenzungen rückwirkend für den gesamten Befragungszeitraum. Der Zusammenhang zwischen Erhebungspopulation und Befragungsinstrument wird über die Variable $NETTO in PPFAD beziehungsweise $HNETTO in HPFAD gesteuert. Infolge der Veränderung der Befragungspopulation sowie der Erweiterung der Erhebungsinstrumente zur detaillierten Erfassung biografischer Zusammenhänge wurde die entsprechende Variable $NETTO in PPFAD grundlegend überarbeitet und wird jetzt als zweistellige Variable bereitgestellt. Die bisherige - einstellige - Variable wird als Hilfestellung unter verändertem Namen $NETOLD weitergeführt; die Variable $HNETTO in HPFAD ist von dieser Umstellung nicht betroffen und bleibt unverändert.
Value Labels:
(10-19)'Befragte und Befragungspersonen mit realisierten Interviews'
10 | Befragungsperson mit realisiertem Interview
11 | Personenfragebogen ($P)
12 | Personenfragebogen und Lebenslauf
13 | Personenfragebogen und Jugendfragebogen
14 | Personenfragebogen und andere Fragebögen
15 | Personenfragebogen und Experimente, Tests
16 | Personenfragebogen, Erstbefragung, 17 Jahre
17 | Jugendfragebogen Erstbefragung, 17 Jahre
19 | Personenfragebogen ohne Haushaltsinterview

(20-29)'Kinder in realisierten Haushalten
20 | Kinder in realisierten Haushalten ($KIND)
21 | Kinder mit Mutter-Kind-Fragebogen I, 0-1 Jahr
22 | Kinder mit Mutter-Kind-Fragebogen II, 2-3 Jahre

(30-39)'Personen ohne Personen-Interview in Brutto-Haushalten'
30 | Personen in realisierten Haushalten ohne Personeninterview
31 | Realisierte Nacherhebung ($LUECKE)
32 | Realisierter Biografiefragebogen
33 | Realisierter Jugendfragebogen
34 | Realisierte Tests und Experimente

(60-69)'Nur Fragebogen ohne Personeninterview außerhalb der Brutto-Haushalte
60 | Nur Fragebogen ohne Personen- und Haushaltsinterview
61 | Nacherhobene Lücke ohne Haushaltsbezug
62 | Nacherhobene Lücke bei Ausfall
70 | Nur Teilnahme an Tests, Experimenten etc.

(80-89)'Personen ohne Austritt, aber ohne aktuelle Angabe im laufenden Jahr'
80 | Person ohne Austritt aus Panel-Population
81 | Vormals Befragte (ERSTBEF) ohne aktuellen Angaben
89 | RückkehrerInnen (zuvor Ausfälle)

(90-99)'Personenausfaelle und Austritte ($YPBRUTTO)'
90 | Personenausfälle ($YPBRUTTO)
91 | Wegzug ins Ausland
99 | Verstorben

$NETOLD
In der neuen Variable $NETOLD ist der alte $NETTO-Code weiterhin nutzbar. Personen im Alter von 17 Jahren, die entweder einen Jugendfragebogen (n=307) oder einen Personenfragebogen (Sample H, n=31) ausgefüllt haben, sind jeweils mit dem Wert 1 codiert. Somit ist die Abgrenzung (WNETTO == 1 | WNETTO == 5) nicht identisch ist mit der Population in WP.

$PEQUIV 2006

1. Neue Variablen
ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II.
FALG2$$: Flag zur Identifikation von Imputationen des Arbeitslosengeld II (ALG2$$).
IDEMY$$: Betrag der im Vorjahr empfangenen Zahlungen aus Abfindungen (Indemnity).
FDEMY$$: Flag zur Identifikation von Imputationen von Abfindungszahlungen (IDEMY$$).
ITRAY$$: Betrag der im Vorjahr empfangenen Fahrtkostenzuschüsse (commuting and travel grants).
FTRAY$$: Flag zur Identifikation von Imputationen von Fahrtkostenzuschüssen (ITRAY$$).

2. Überarbeitete Variablen
I11105$$

Die Variable (Mietwert selbstgenutzten Wohneigentums = Imputed Rent) wurde bisher nur für Personen in selbstgenutztem Wohneigentum generiert. Entsprechend aktueller Forschungsergebnisse und auch der Vorschläge der Europäischen Kommission zur Generierung von Imputed Rent in EU-SILC wird dieser fiktive Einkommensvorteil nun auch für Personen in Mieterhaushalten generiert, die angeben, keine marktgerechte Miete für ihren Wohnraum zu entrichten. Dies sind Personen in mietfreiem Wohnraum, Mieter in Wohnungen des sozialen Wohnungsbaus und Mieter mit verbilligt überlassenem Wohnraum (z.B. vom Arbeitgeber verbilligt überlassene Werkswohnung, von Verwandten oder sonstigen Dritten verbilligt überlassener Wohnraum).

W11101$$ und W11102$$
Aufgrund der Umstellung der Hochrechnungsfaktoren in den Files PHRF und HHRF beinhaltet die Variable W11101$$ nun den Personenhochrechnungsfaktor $PHRF1 (aus dem File PHRF) und die Variable W11102$$ den Haushaltshochrechnungsfaktor $HHRF1 (aus dem File HHRF). Befragte des SOEP weisen in ihrer ersten Befragungswelle einen signifikant höheren Anteil von Item-non-Response auf, der mittels Imputation nicht adäquat korrigiert werden kann. Daher vernachlässigen diese beiden Gewichte jeweils die erste Welle eines jeden neuen Subsamples des SOEP. Des Weiteren wird das Subsample G (Hocheinkommensbezieher) aus dem Gewichtungsschema ausgeschlossen, um Strukturbrüche in der Analyse von Einkommen im Vergleich zu Ergebnissen ohne Subsample G zu vermeiden. Diese beiden Gewichtungsvariablen sind daher besonders geeignet, eine konsistente Analyse einer Zeitreihe von Einkommen oder deren Verteilung zu unterstützen.

W11105$$
Die Variable W11105$$ beinhaltet nun den Personenhochrechnungsfaktor $PHRFALL (aus dem File PHRF). Diese Gewichtungsvariable berücksichtigt alle Subsamples des SOEP.

E11105$$
Der Inhalt der Variable E11105$$ besteht nun aus der Berufsklassifizierung nach dem internationalen Standard "ISCO88".

E11106$$ und E111076$$
Die Variablen E11106$$ und E11107$$ geben nun die Branchenzugehörigkeit in Form eines 1 bzw. 2-Stellers im internationalen Standard "NACE" wieder.

nach oben

Datenweitergabe 2005 (Welle V)

Mit der Datenweitergabe 2006 (Daten 1984-2005) werden für das Beobachtungsjahr 2005 die üblichen wellenspezifischen Dateien VPBRUTTO, VP, VPKAL, VPGEN, VHBRUTTO, VH, VHGEN, VKIND und UPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.

Die erste CD-ROM enthält wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels.

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Neue und umbenannte Datensätze 2005

Mit der aktuellen Datenweitergabe werden SOEP-Dateien, die auf den altersspezifischen Biographiefragebögen (z.B. Mutter-und-Kind) basieren, in konsistenter Weise benannt. Alle Dateien sind im "long"-Format gespeichert, die Datei-Namen setzen sich zusammen aus dem Term BIOAGE und einem zweistelligen Suffix, der das maximale Alter der betroffenen Individuen angibt:

BIOAGE01:
Neuer Name des bisherigen Datensatzes BIOCHILD (Basis: Fragebogen für Mütter mit Neugeborenen im Alter von 0 bis 15 Monaten).

BIOAGE03:
Neuer Datensatz (Basis: Mutter-Kind Fragebogen für Mütter mit 2-3 jährigen Kindern; siehe Biographie Dokumentation).

BIOAGE17:
Neuer Name des bisherigen Datensatzes BIOYOUTH (Basis: Fragebogen für 16-17 jährige Jugendliche).

Hochrechnung 2005

Hochrechnung des Querschnitts für 2005 nur vorläufig - Update von VPHRF und VHHRF voraussichtlich im Herbst 2006

Die wellenspezifischen Hochrechnungs- und Gewichtungsfaktoren des SOEP werden jährlich an die jeweiligen Daten des Mikrozensus (MZ) angepasst, so dass die SOEP-spezifische Verteilung nach Region, Alter, Geschlecht, Haushaltsgröße und Nationalität derjenigen des MZ entspricht. Ab dem Jahr 2005 werden Angaben für das Land Berlin nicht mehr nach West und Ost getrennt ausgewiesen, sondern insgesamt den neuen Ländern zugeordnet. Diese Umstellung innerhalb der amtlichen Statistik führt leider auch dazu, dass die für die Querschnittshochrechnung der SOEP Daten 2005 (Welle 22) relevanten Informationen (Reihe "Haushalte und Familien", Hrsg. Statistischen Bundesamt) erst im Herbst 2006 zur Verfügung stehen werden.

Um eine entsprechende Verzögerung der Weitergabe der SOEP-Daten bis Welle V (2005) zu vermeiden, basieren die Hochrechnungsfaktoren VPHRF* und VHHRF* der auf CD verfügbaren SOEP-Daten auf dem in Welle U (2004) verwendeten Rahmen.

Erfahrungsgemäß wird die Abweichung dieser Eckdaten (mit Ausnahme der neuen Abgrenzung Berlins) nur gering sein. Wir bitten Sie in Ihren Analysen auf die Vorläufigkeit des Hochrechnungsrahmens zu achten und in Veröffentlichungen ggf. darauf hinzuweisen.

Wir werden Sie umgehend (via SOEP NEWSLETTER) informieren, wenn Sie die aktualisierten Hochrechnungsfaktoren auf Basis des 2005er MZ bei uns abrufen können.

HGEN 2005

AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).

PGEN 2005

AHINC$$
Der adjusted Einkommensscreener (AHINC$$) ist jetzt für alle Wellen vorhanden (mit Ausnahme Stichprobe C 1990/1991).

***Neu in $PGEN (neue und geänderte Variablen) (neu)

ALLBET$$ (neu)
Grobkategorie der Unternehmensgröße. Eine über alle Wellen konsistente Variable für die Unternehmensgröße (kleinster gemeinsamer Nenner der Variable BETR$$).

Kategorien:

  1. 'unter 20'
  2. '20 bis unter 200'
  3. '200 bis unter 2000'
  4. '2000 und mehr'
  5. 'Selbständig - ohne Mitarbeiter'

BETR$$ (geändert)
Die Variable BETR$$ hat nun 11 anstatt wie bisher 9 Kategorien. Der Grund dafür ist, dass die Unternehmensgröße ab Welle V detaillierter abgefragt wird: Die bisherige Kategorie '5 bis unter 20 Mitarbeiter' wurde in die zwei Kategorien '5 bis 10 Mitarbeiter' und '11 bis unter 20 Mitarbeiter' unterteilt.

Die neuen Kategorien sind:

  1. 'unter 5'
  2. '5 bis 10'
  3. '11 bis unter 20'
  4. 'bis 1990: unter 20'
  5. '1991-2004: 5 bis unter 20'
  6. '20 bis unter 100'
  7. '100 bis unter 200'
  8. 'bis 1998: 20 bis unter 200'
  9. '200 bis unter 2000'
  10. '2000 und mehr'
  11. 'Selbständig - ohne Mitarbeiter'

Hinweis: Mit der neuen Variable ALLBET$$ im Datensatz $PGEN steht zusätzlich eine gröbere Kategorisierung der Unternehmensgröße zur Verfügung, die über alle Wellen konsistent kodiert ist (kleinster gemeinsamer Nenner der Variable BETR$$).

EMPLST$$(neu)
Employment Status. Eine über alle Wellen konsistente Variable zur Differenzierung des Erwerbsumfangs (in Ergänzung zur Variablen LFS$$, die Nicht-Erwerbstätige differenziert).

Kategorien:

  1. 'Voll erwerbstätig'
  2. 'Teilzeitbeschäftigung'
  3. 'Ausbildung, Lehre'
  4. 'Unregelmässig, geringfügig erwerbstätig'
  5. 'Nicht erwerbstätig'

EXPFT$$(neu)
Arbeitsmarkterfahrung Vollzeit. Erfassung der gesamten Vollzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

EXPPT$$ (neu)
Arbeitsmarkterfahrung Teilzeit. Erfassung der gesamten Teilzeitbeschäftigungsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

EXPUE$$(neu)
Arbeitsmarkterfahrung Arbeitslos. Erfassung der gesamten Arbeitslosigkeitsdauer im bisherigen Erwerbsleben (in Jahren, eine Nachkommastelle).

Ansprechpartnerin für die o.g. Variablen: 

$PEQUIV 2005

SSOLD$$
Social assistance for elderly (Grundsicherung im Alter).

FSSOLD$$
Imputation flag: Social assistance for elderly.

LOSSR$$
Losses from renting and leasing.

FLOSSR$$
Imputation flag: Losses from renting and leasing.

LOSSC$$
Losses from capital investment.

FLOSSC$$
Imputation flag: Losses from capital investment.

D11112LL
Race of individual.

D11110$$ gelöscht
Information bereits in der Variable M11124$$ enthalten.

D11111$$ gelöscht
Information bereits in der Variable M11125$$ enthalten.

Ansprechpartner: 

Fehlerupdate 2005

Berichtigung von [T-U]HPOP in HPFAD
Berichtigung der individuellen und haushaltsbezogenen Hochrechnungsfaktoren von 2003 bzw. 2004 (THHRF bzw. UPHRF und UHHRF).

nach oben

Datenweitergabe 2004 (Welle U)

Mit der Datenweitergabe 2005 (Daten 1984-2004) werden für das Beobachtungsjahr 2004 die üblichen wellenspezifischen Dateien UPBRUTTO, UP, UPKAL, UPGEN, UHBRUTTO, UH, UHGEN, UKIND und TPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.
Die Daten der ersten CD-ROM enthalten wie gewohnt alle SOEP-Daten mit deutschsprachigen Variablen- und Werte-Labels. Die Daten CD-Rom Nr. 2 enthält alle SOEP-Daten mit englischsprachigen Variablen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV).

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

PPFAD 2004

LOC1989
Die zentralen demographischen Informationen in PPFAD wurden um den Wohnort im Jahr 1989 erweitert (Wo lebte eine Person zur Zeit des Mauerfalls? Variable LOC1989). Unterschieden werden die Kategorien "Ostdeutschland", "Westdeutschland" und "Ausland". Die Information ist für alle Befragten und Kinder vorhanden (siehe weitere Dokumentation in der Dokumentation der Biographiedaten).
Ansprechpartner:

PGEN 2004

LABGRO$$ und LABNET$$
Es wurden neue Variablen für alle Wellen (A-U) generiert, die den monatlichen Brutto- und Nettoarbeitslohn (LABGRO$$ und LABNET$$) beinhalten - durchgehend in EURO. Fehlende Werte auf Grund von Item-Nonresponse wurden imputiert und können mit Hilfe der zugehörigen Zeiger-Variablen IMPGRO$$ und IMPNET$$ identifiziert werden (weitere Informationen | PDF, 232.61 KB ).
Ansprechpartner:

HGEN 2004

HINC$$
$HGEN beinhaltet nun auch das direkt erfragte monatliche Netto-Haushaltseinkommen (HINC$$) - durchgehend in EURO für alle Wellen (A-U).
Ansprechpartner:Jan Goebel oder Peter Krause.

AHINC$$
Eine weitere Variable wurde für die Wellen L-U (1995-2004) generiert, ebenfalls mit der Information zum monatlichen Netto-Haushaltseinkommen (in EURO), allerdings korrigiert für eine mögliche Unterschätzung durch die Auskunft gebende Person (AHINC$$). Eine derartige Unterschätzung wurde mit Hilfe der aktuellen persönlichen Einkünfte aller Personen im Haushalt korrigiert (weitere Informationen | PDF, 61.43 KB ).
Ansprechpartner: oder

$PEQUIV bzw. SOEP-CNEF 2004

M11101$$-M11127$$

Die $PEQUIV-Dateien der Wellen A-U beinhalten nun auch international harmonisierte Variablen zur Gesundheit (M11101$$-M11127$$). Weitere Informationen gibt es im Codebook for the $PEQUIV File 1984 – 2004 | PDF, 0.55 MB .
Ansprechpartner:

nach oben

Datenweitergabe 2003 (Welle T)

Mit der Datenweitergabe 2004 werden für das Beobachtungsjahr 2003 die üblichen wellenspezifischen Dateien TPBRUTTO, TP, TPKAL, TPGEN, THBRUTTO, TH, THGEN, TKIND und SPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (Biographie-Daten und Hochrechnungsfaktoren) weitergegeben.
Die in 2003 erstmals erhobenen Biographie-Informationen für Sample G ("Hocheinkommens-Stichprobe") wurden vollständig in die nutzungsfreundlichen Biographie-Datensätze integriert.
Die Daten-CD-Rom #2 enthält mit diesem Release erstmals auch alle SOEP-Daten mit englischsprachigen Variablennamen und Werte-Labels (inklusive der Daten der Vermögensbilanz 1988 in der Datei EV). 

Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

Sample G "High Income Sample" (Start 2002)

Die Revision des sampling designs (Erhöhung der Einkommensschwelle) führt zu geringeren Fallzahlen in Welle 2.
Ansprechpartner: 

Neue Rectypes 2003

Es gibt jetzt weitere Dateien:
1) BIOCHILD Informationen aus dem Mutter-Kind-Fragebogen:
In diesem neuen File werden künftig jährlich Informationen über die im SOEP Neugeborenen abgelegt (siehe weitere Dokumentation in Biographiedaten). Ansprechpartner:

2) BIORESID Informationen zum Zweitwohnsitz bei der Erstbefragung:
Im Datensatz BIORESID sind Angaben zur Wohndauer und zum Zweitwohnsitz abgelegt. Die Informationen stammen aus dem Biographie-Fragebogen, der seit 1994 konsistente Fragen hierzu enthält (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: Thorsten Schneider

3) BIOBRTHM Geburtsbiographie für Männer - ab 2001:
Dieser neue Datensatz enthält geburtsbiographische Angaben für Männer, die seit 2001 mit dem diesbezüglich modifizierten Biographie-Fragebogen befragt werden. BIOBRTHM ist analog zu BIOBIRTH für Frauen aufgebaut (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:

4) BIOTWIN Datei zur Identifikation von "Mehrlingen":
BIOTWIN umfasst die Population aller im SOEP identifizierbaren Mehrlingsgeburten. Gespeichert sind die Identifikatoren (PERSNR) zu Mutter und Geschwistern (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner: und

5) HBRUTT98:
Dieses neue File unterstützt Ausfall-Analysen für die Startwelle von Sample E, in dem die komplette Brutto-Population dieser Teilstichprobe zur Verfügung gestellt wird.
Ansprechpartner:

BIOPAREN 2003

Variablen zur Nationalität der Eltern wurden korrigiert (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:

PGEN 2003

MODE$$und MONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (MODE$$ bzw. MONTH$$, siehe auch zusätzliche Dokumentation | PDF, 0.66 MB ).
Ansprechpartner:

$PSBIL
Die Variable $PSBIL wurde aktualisiert. Bei Ausländern musste für das Jahr 2000 die Kategorie "Ohne Abschluss verlassen" [Code 6] aktualisiert werden; hieraus ergab sich Aktualisierungsbedarf bei $BILZEIT, ISCED$$ und CASMIN$$.
AnsprechpartnerIn: Bettina Isengard und

$FAMSTD
Die Variable wurde aktualisiert.

HGEN 2003

HMODE$$ und HMONTH$$
Für alle Wellen wurden rückwirkend zwei neue Variablen zur Beschreibung von Interview-Methode und Monat generiert (HMODE$$ bzw. HMONTH$$, siehe auch zusätzliche Dokumentation | PDF, 0.64 MB ).
Ansprechpartner:

PPFAD 2003

GEBMONAT
Die zentralen demographischen Informationen in PPFAD wurden um den Geburtsmonat (Variable GEBMONAT) ergänzt. Diese Angabe wurde inzwischen von allen noch in der Stichprobe enthaltenen Befragungspersonen und Kindern erhoben (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:

Die Variablen EINTRITT, ERSTBEFR, AUSTRITT, LETZTBEF wurden aktualisiert. Zum Update siehe Dokumentation | PDF, 0.53 MB .
Ansprechpartner:

BIOBIRTH 2003

Die geburtsbiographischen Informationen für Frauen wurden ergänzt um Angaben aus dem Jugend-Fragebogen, den inzwischen 16-17jährige Erstbefragungspersonen anstelle des Standard-Biographiefragebogens erhalten (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:

BIOIMMIG 2003

Diese Daten wurden wegen einer fehlerhaften Vercodung in den zurückliegenden Jahren infolge einer Vertauschung der Itemreihenfolge korrigiert. Dies betrifft die Variablen BIEXPRLV, BIEXPRAC und BIEXPRAN (siehe weitere Dokumentation in Biographiedaten).
Ansprechpartner:

PFLEGE 2003

Für die Jahre ab 1999, also für die Wellen P bis T, gibt es eine neue Variable PNRCARE. PNRCARE ist eine unveränderliche Personennummer und bezeichnet die Person im Haushalt, die vornehmlich die Pflege übernimmt. In drei Fällen waren pflegende und zu pflegende Personen identisch. In diesen Fällen wurde PNRCARE auf -3 gesetzt (unplausibler Wert). Für die Wellen vor 1999 hat PNRCARE den Wert -2.

YPBRUTTO 2003

Überarbeitung von HHNRAKT und HHNROLD bei doppelt geführten Personen im alten Haushalt.
Ansprechpartner:

$PEQUIV bzw. SOEP-CNEF 2003

Alle Einkommensangaben seit 1984 sind in EURO vercodet.

In Ergänzung zu den bisher zur Verfügung gestellten jährlichen Einkommensaggregaten (Summe aller Einkommen die von allen HHMitgliedern bezogen wurden, Variablen I111xx$$) sind nun auch die individuellen Einkommensbestandteile mit wellenübergreifend konsistenten Variablennamen verfügbar.

Alle aufgrund von item-non-response fehlenden Angaben bei Einkommensvariablen wurden imputiert und sind mit Hilfe entsprechender Flag-Variablen identifizierbar.

Alle Einkommensvariablen sind auch für Sample G enthalten, jedoch wurden die Standard-Hochrechnungfaktoren auf Basis der Teilstichproben A-F verwendet.
Siehe auch die Dokumentation | PDF, 41.18 KB .
Ansprechpartner:

nach oben

Datenweitergabe 2002 (Welle S)

Neue Rectypes 2002

HBRUTT02
In Ergänzung zu den laufenden, wellenspezifischen Bruttoinformationen zum Feldverlauf (SPBRUTTO, SHBRUTTO) werden für die neue Stichprobe G in der Datei HBRUTT02 auch die Haushalte geführt, die nicht realisiert wurden. HBRUTT02 enthält daher alle Ziehungshaushalte der Stichprobe G; die realisierten Haushalte der Stichprobe G sind auch in dem laufenden Haushaltsbrutto SHBRUTTO enthalten. Dies entspricht derselben Vorgehensweise wie für die Samples A (HBRUTT84), E (HBRUTT98) und F (HBRUTT00).

BIOSOC
Der neue Datensatz BIOSOC enthält für alle Personen, die seit dem Jahr 2000 den Biographie-Fragebogen ausfüllen, Informationen zur Jugend wie z.B. Streit mit den Eltern, Freizeitaktivitäten, Schulnoten, Bundesland des letzten Schulbesuchs.
Nähere Informationen in der Biographiedokumentation.

BIOJOB 2002

Der Datensatz BIOJOB enthält ausführliche Angaben zum Einstiegsberuf. Neu ist, das hierfür nun auch ISCO88-Angaben, Berufsskalen und Klassenschemata (ISEI, SIOPS, EGP, MPS) sowie Angaben zur Branche (NACE) vorliegen. Neuerdings werden auch Angaben zum letzten Job erhoben und in BIOJOB abgelegt.
Nähere Informationen in der Biographiedokumentation.

BIOPAREN 2002

Der Ansprechpartner für den Update des Prestige-Scores der Eltern ist .

PGEN 2002

AUTONO$$
Diese neue Variable basiert auf den Angaben zur ‚Stellung im Beruf' und stellt den Autonomiegrad im Beruf dar.
Ansprechpartner:

STIB$$
Die Variable vereinheitlicht die Angaben zur 'Stellung im Beruf' über alle Wellen.
Ansprechpartner:

ISCED$$, CASMIN$$
Die wellenspezifischen Dateien $PGEN wurden - rückwirkend ab 1984 - um zwei weitere Bildungsvariablen ($ISCED und $CASMIN) ergänzt, die auf den internationalen Klassifikationsschemata ISCED (International Standard Classification of Education) bzw. CASMIN (Comparative Analysis of Social Mobility in Industrial Nations) basieren und somit zur besseren Vergleichbarkeit bildungsbezogener Analysen auf Basis von SOEP-Daten beitragen.
Ansprechpartnerin: Bettina Isengard

$EQUIV 2002

Gegenüber der letzten Datenweitergabe haben sich grundlegende Veränderungen im Umgang mit Item-Nonresponse bei jahresbezogenen Einkommensvariablen und den aggregierten Einkommensangaben der $PEQUIV-Files ergeben. Das bewährte längsschnittbasierte Verfahren zur Imputation von Item-Nonresponse wurde um eine rein querschnittsbasierte Imputation aller Einkommensvariablen erweitert, die jedoch nur für solche Beobachtungen zum Einsatz kommt, für die keine individuellen Längsschnittinformationen vorliegen. Daraus resultiert nun eine vollständige Ersetzung aller fehlenden Einkommensangaben in den $PEQUIV-Files (für nähere Hinweise zum methodischen Vorgehen der zusätzlichen Imputation vgl. Frick, J.R. and Grabka, M. (2003): Missing Income Data in the GSOEP: Incidence, Imputation and it's Impact on the Income Distribution | PDF, 1.01 MB .

In diesem Zusammenhang wurden auch die sogenannten Imputationsflags überarbeitet. Diese geben nun den Anteil des imputierten Einkommens am jeweiligen Einkommensaggregat wieder, d.h. bei Vorliegen vollständiger Information ist der Wert 0 und bei Auftreten von Item-Nonresponse kann der Imputationsflag einen Wert bis zu 100 annehmen.

Darüber hinaus stehen nun auch für das neue Sample F vollständige Einkommensinformationen für die Jahre 2000 bis 2002 zur Verfügung.

Die Daten des CNEF stehen derzeit noch nicht für die erste Welle von Sample G zur Verfügung, da die beim SOEP angewandten methodisch anspruchsvollen Imputationsalgorithmen Längsschnittdaten erfordern.
Ansprechpartner:

Hinweis zur DM - EURO Umstellung 2002

Die Einkommen in PEQUIV beziehen sich immer auf das Vorjahr; insofern sind die in 2002 erhobenen Daten für das Einkommensjahr 2001 noch in DM erhoben. Mit der nächsten Datenweitergabe wird es eine Umstellung aller PEQUIV-Informationen auf EURO geben. Ansonsten gilt das Prinzip, dass alle Angaben in den $P-Files der im Originalfragebogen erhobenen Information entsprechen, d.h. die im Jahre 2002 bereits in EURO erhobenen Einkommen bzw. für das Vorjahr 2001 noch in DM erhobenen Angaben sind entsprechend der in der jeweiligen Frageformulierung verwendeten Währung abgelegt.
Ansprechpartner:

nach oben

Datenweitergabe 2001 (Welle R)

Die Querschnittsgewichtung ist für alle Wellen (1984-2001) überarbeitet worden. Die konzeptionellen Änderungen sind:
a) Für die Stichprobe F sind detailliertere Designgewichte als bisher zu Grunde gelegt worden.
b) Die Randanpassung an die Altersstruktur ist verfeinert worden.
c) Hochrechnungsfaktoren, die höher als das 10-fache ihres stichprobenspezifischen Medians betrugen, wurden gekappt.

Eine ausführliche Beschreibung finden Sie im Newsletter 60, April 2003.

Mehr Informationen zur Querschnittshochrechnung und der Integration neuer Stichproben finden Sie in unseren Dokumentationen oder auf der aktuellen CD (CD2) im Verzeichnis "\DOCS\HRF".

Neue Rectypes 2001

Es gibt jetzt weitere Dateien:

1) HBRUTT84
Dieses File enthält Brutto-Informationen für alle ausgewählten Haushalte der 1. Welle und schließt somit auch solche Haushalte ein, die nicht zu einem Interview bereit waren. Auf dieser Datengrundlage sind eigenständige Ausfallanalysen für die erste Welle 1984 möglich.
Ansprechpartner:

2) BIOYOUTH
Die Daten der Erhebung mit dem Jugendfragebogen (Pretest 2000 und Erhebung 2001) sind in diesem File abgelegt. Nähere Informationen finden Sie in der Biographiedokumentation.
Ansprechpartner: Thorsten Schneider

BIOMARSY und BIOMARSM 2001

Die Ehestandsbiographien BIOMARSY und BIOMARSM sowie die generierten Familienstände $FAMSTD sind vollständig neu überarbeitet worden. Diese Datensätze sind jetzt zu 100% konsistent. Dies hat allerdings zur Konsequenz, dass sich Familienstandsangaben aus den Personenfragebogen nicht immer mit den generierten Daten decken.
Nähere Informationen in der Biographiedokumentation.

PPFAD 2001

Die neue Variable $POP gibt für jede Person an, ob sie in einem Privat- oder Anstaltshaushalt lebt und welche Nationalität ihr Haushaltsvorstand hat. Sie ist eine der Schlüsselvariablen für die Querschnittshochrechnung.

YBRUTTO 2001

Die Ergebnisse der Verbleibstudie 2001/02 (Panelausfälle der Jahre 1985 bis 1998 | PDF, 0.78 MB ) sind in YBRUTTO eingearbeitet. Bei mehr als 8 000 Bearbeitungsfällen liegen neue Auskünfte vor, die entweder das Sterbejahr oder das Jahr des Wegzugs ins Ausland oder den aktuellen Wohnort der Person beinhalten. Nähere Informationen finden Sie hier.

BIOPAREN 2001

Das aktuelle File enthält neu die Ergebnisse der Biographienacherhebung für die F-Stichprobe des Jahres 2001.

Weiterhin wurde nach den Ergebnissen der Verbleibstudie der Aufenthaltsort der Eltern im Jahr 2001 für alle aktuell befragten Personen dem Datensatz hinzugefügt als neue Variablen VAORT01 (Aufenthaltsort des Vaters 2001 - Befragungsschwerpunkt Familie) und MAORT01 (Aufenthaltsort der Mutter 2001 - Befragungsschwerpunkt Familie).

Die Neuvercodung der Berufsangaben des Vaters/der Mutter konnte noch nicht zum Abschluss gebracht werden. Diese Informationen können jedoch bis Sommer 2003 als Sonderlieferung direkt abgerufen werden (Anfragen bei ). Nähere Informationen in der Biographiedokumentation.

$PEQUIV-FILES 2001

Auch für die $PEQUIV-FILES wurden einige Änderungen durchgeführt. Ausführliche Informationen hierzu finden Sie in den englischsprachigen FAQ.

PGEN 2001

Betr$$
Bitte achten Sie bei der aktualisierten Version dieser Variable auf die Sondercodes 3 und 6! Diese Codes wurde aufgrund der seit 1992 sowie 1999 im Vergleich zu den jeweiligen Vorjahren differenzierteren Erfassung der Itemvorgabe im Bereich kleiner sowie mittlerer Unternehmen notwendig.

KLAS$$ Klassifikation der Berufe des Stat. Bundesamtes
Ziel der Variable ist die Bereitstellung der jährlich für alle Erwerbstätigen erfragten Informationen zur beruflichen Tätigkeit. Da diese Frage nicht jährlich an alle Erwerbstätigen sondern 1985, 1986, 1987, 1988, 1990(West), 1992(West), 1994, 1996 und 1999 sowie 2001 nur an Erwerbstätige mit beruflichem Wechsel geht, wird in IS88$$ für alle Personen ohne beruflichen Wechsel auch die verfügbare Vorjahresinformation bereitgestellt.

Im Fragebogen werden jeweils die Klartextangaben der Befragten eingetragen. Diese aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellte Information wurde im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 | PDF, 121.87 KB .

IS88$$
Sämtliche Klartextangaben der Befragten wurden im Jahr 2002 durch Infratest Sozialforschung komplett neu vercodet. Die durchgeführten Arbeiten sind dokumentiert in Hartmann/Schütz 2002 | PDF, 121.87 KB .

Die Datenlieferung SOEP 1984-2001 ersetzt bzgl. ISCO88-Vercodung deshalb ALLE früheren Datenlieferungen.
International Labour Office (ILO) (1990): ISCO-88; International Standard Classificaton of Occupation, Genf.

Nace$$
Um die internationale Vergleichbarkeit zu erleichtern, wurde das im SOEP angewandte Verfahren der Klartext-Codierung um die Generierung der Wirtschaftszweigklassifikation der Europäischen Union erweitert (Nomenclature des statistiques des Activités économiques de la Communauté Européenne). Die NACE Rev.1-Version korrespondiert zudem ISIC Rev. 3 Code (International Standard Classification of All Economic Activities). Mit der Datenlieferung 2001 erfolgte eine komplette Nachvercodung der früheren im SOEP bereitgestellten Branchencodes nach NACE. Bitte beachten, dass die Sondercodes 96-98 sowie 100 von Infratest für die Fälle erfolgte, in denen keine detailliertere Klartextangabe vorlag.

$PSBIL und $_PBBIL01,02,03
Generiert werden für alle Befragungspersonen in integrierter Form der Schulabschluss (_PSBIL) und der berufliche Abschluss (_PBBIL01,02,03). Ostspezifische und ausländerspezifische Abschlüsse werden zudem separat dokumentiert (Ab 2000 wird kein beruflicher Bildungsabschluss Ost mehr ausgewiesen).

Gegenüber der Lieferung der Daten für das Erhebungsjahr 2000 haben sich folgende Änderungen ergeben:

  • Rückwirkend werden von 1990 bis 1999 die ostspezifischen Abschlüsse "Ingenieur-, Fachschule" wieder der Kategorie "Fachschule" (statt: "Fachhochschule, Ingenieurschule") zugeordnet.
  • Ab 2000 werden nur noch Variablen auf der Grundlage der im Personenfragebogen neu erhobenen Informationen weitergeführt - diese wurden im Jahr 2000 noch unter dem Namen _EDU_ geführt (der Name EDU wird nicht mehr verwendet).


Achtung: Gelöschte Variablen früherer Wellen in der Datenlieferung 2001

ISCOU$$, ISCO$$, ISCOH$$
Diese Variablen auf Basis des ISCO68 werden seit 2000 nicht mehr zur Verfügung gestellt. Stattdessen erfolgte eine Neuvercodung aller zurückliegenden Klartextangaben auf Basis des ISCO88-Verfahrens (s. neue Variable IS88$$); dieser hierarchisch aufgebaute Berufsschlüssel ersetzt die frühere Unterscheidung in 1-Steller, 2-Steller sowie 3-Steller bei der Berufsvercodung.
Die bis 2000 generierten Codes dieser Variablen können auf Nachfrage von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.

BRANCH$$
Diese Variable stellt das Ergebnis der Klartext-Vercodung der Wirtschaftszweige dar. Diese - aus Datenschutzgründen nicht den Datennutzern zur Verfügung gestellten - Texte wurden im Anschluss an die Befragung vom Zentrum für Umfragen und Analysen (ZUMA), Mannheim gemäß einer vom DIW erweiterten Branchenliste vercodet. Diese Liste basiert auf der sog. ZUMA-Standarddemographie-Liste, die bis Code 23 vollständig vergleichbar ist. Da die Klassifikation auf Basis von NACE internationale Vergleiche ermöglicht (s. neue Variable NACE$$), wurde auf die Vercodung auf Basis des früheren Branchenschemas verzichtet.

Die bis 2000 generierten Codes dieser Variable können auf Nachfrage (Ansprechpartner: Peter Krause) von der SOEP-Gruppe angefordert werden. Seit 2001 sind die Variablen früherer Wellen gelöscht.

nach oben

Datenweitergabe 2000 (Welle Q)

Neue Rectypes 2000

1. VARIANZ
Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1, STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen (z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR) gespeichert.
STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B "künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und unter der Bezeichnung STRAT2 abgelegt.
Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe A Stimmbezirke; in Teilstichprobe D nicht vorhanden).
Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine Identifikation regionaler Einheiten unmöglich zu machen.
Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in befragt wurden, identifizierbar sind.

2. HBRUTT00
Dieses File enthält - wie schon bei der Erhebung der Ergänzungsstichprobe 1998 (Sample E) - alle Bruttoinformationen der durch Random-Route-Verfahren neu gezogenen Haushalte der Ergänzungsstichprobe des Jahres 2000 (Sample F). Dabei spielt es keine Rolle, ob diese Haushalte erfolgreich befragt wurden oder nicht. Derartige Informationen können u.a. für methodische Untersuchungen über die Beteiligung von Haushalten an (SOEP-) Befragungen herangezogen werden.

3. QJUGEND
Im Jahr 2000 erfolgte erstmals anstelle des Biographiefragebogens die Erhebung eines Jugendfragebogens. Dieser richtet sich an alle "neuen" Personen, die aufgrund des erreichten Befragungsalters "16. Lebensjahr" erstmals an der SOEP-Befragung teilnehmen. Die nunmehr vorliegenden 232 Datensätze von Jugendlichen ergänzen die Informationen aus dem ebenfalls erstmals beantworteten Personenfragebogen, um retrospektive Angaben zum Bildungsverlauf sowie von Basisindikatoren zum Bildungserfolg zu erhalten. Da im Jahr 2001 eine gründliche Revision sowie Erweiterung der Indikatoren des Jugendfragebogens erfolgte und auch die Jugendlichen der neuen Stichprobe F erstmals im Jahr 2001 diesen neuen Fragebogen beantwortet haben, stellt der Datensatz QJUGEND sozusagen eine Art Pretest eines ab 2001 neuen zusätzlich im Rahmen der Datenweitergabe bereitgestellten Biographiedatensatzes BIOYOUTH dar.

Überarbeitung der Labels 2000

Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet. Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur einer Antwortkategorie). Ferner wurden auch die Labels semantisch im zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen.

$PGEN 2000

Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr 2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet, fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten Sie dies bei Programmaktualisierungen zu berücksichtigen.
Ansprechpartner: und

$PEQUIV-Files 2000

Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:

  • die Erweiterung der Population,
  • die Überarbeitung der Variable IMPUTED RENT (Einkommensvorteil aus selbstgenutztem Wohneigentum),
  • neue Variablen zur Generierung von Äquivalenzskalen
  • eine Überarbeitung der Variablen zu ANNUAL WORKING HOURS.

nach oben

Datenweitergabe 1999 (Welle P)

Neuer Rectype 1999

INTERVIEW Bei dieser Datenweitergabe wurde erstmals ein Interviewerdatensatz mitgeliefert. Er enthält Informationen über Geschlecht, Alter, Bildung, Beruf und Familienstand von 1048 Interviewern, die die Befragungen der Stichproben A, B, C und D in den Wellen 1 bis 12 durchgeführt haben (Dokumentation | PDF, 75.75 KB ).

Datenweitergabe 1998 (Welle O)

Hochrechnung 1998

Die Hochrechnung der SOEP-Daten wurde für die jüngste Datenauslieferung zweifach verbessert: Zum einen bieten wir jetzt reine »Designgewichte« an, in die die designbedingten Ziehungswahrscheinlichkeiten der (jeweiligen) ersten Welle eingehen. Diese Gewichte sollen nutzungsdefinierte (ökonometrische) Modellierungen des Ausfallprozesses im SOEP unterstützen. Die Dokumentation der Designgewichte befindet sich auf der CD-ROM; sie ist außerdem als DIW-Diskussionspapier | PDF, 223.29 KB oder auch als Hardcopy bei unserer Dokumentationsstelle erhältlich.

Zum zweiten wurde die - insbesondere in deskriptiven Analysen häufig benutzte - Querschnittshochrechnung des SOEP überarbeitet. Intention ist es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die zentrale Randverteilungen des Mikrozensus wiedergeben. Aufbauend auf der unveränderten Längsschnittsgewichtung wurden die Querschnitts-Hochrechnungsfaktoren an nachfolgend aufgeführte Randverteilungen des Mikrozensus angepaßt (diese wurden auch zur Hochrechnung der ersten Welle der Stichprobe E genutzt).

Die Anpassung wurde getrennt nach alten und neuen Ländern für die Jahre 1990 bis 1998 durchgeführt. Stichprobe E wurde bei der Hochrechnung wie die Altstichproben behandelt.

Bei den Haushalten wurde die wohnberechtigte Bevölkerung in Privathaushalten auf Basis des Mikrozensus zugrunde gelegt. Die Anpassung erfolgte an die Haushaltsgröße (1-,2-,3-,4-Personen und Haushalte mit 5 und mehr Personen), Altersklassen (15 bis 69 Jahre, 70 Jahre und älter), Geschlecht (männlich) und Nationalität (nicht-deutsch).

Bei den Personen bildete die Bevölkerung in Privathaushalten am Hauptwohnsitz die Basis.

Die Gewichte für Anstaltshaushalte und Personen in Anstaltshaushalten blieben unverändert.

Die Randanpassungen auf Haushaltsebene wurden mit der DOS-Version des Programms ADJUST von Joachim Merz (Universität Lüneburg) vorgenommen.

Die für ADJUST erforderlichen Startgewichte berücksichtigten die Struktur der alten Hochrechnungsfaktoren, die geschätzten Bleibewahrscheinlichkeiten sowie Sonderfälle, die durch temporäre Ausfälle und Gründung von Neu-Haushalten auftraten.

Die alten Hochrechnungsfaktoren werden natürlich nicht gelöscht, sondern weiterhin für Vergleichszwecke in den Files PHRFOLD und HHRFOLD ausgeliefert.

Die auf den CD-ROMs mit ausgelieferte Version des »Equivalent Files« enthält bereits die neuen Hochrechnungsfaktoren (sowie einige geringfügige Verbesserungen der Einkommensvariablen), während die US-Version noch auf den alten Hochrechnungsfaktoren basiert.

Die Dokumentation der neuen Querschnittshochrechnung befindet sich auf der CD-ROM, und wird als Bestandteil des Desktop-Companions im Internet zu finden sein.

Die Ergänzungsstichprobe E ist nun voll in den SOEP-Datenbestand integriert. Das bedeutet auch eine gemeinsame Querschnittshochrechnung der Altstichproben A-D und der Stichprobe E. Zu diesem Zweck wurde eine »konvexe Gewichtung« gewählt, deren Dokumentation ebenfalls auf der CD-ROM zu finden und als DIW-Diskussionspapier | PDF, 214.5 KB auf unserer Homepage bzw. als Hardcopy direkt bei der Projektgruppe abrufbar ist.

Die Konvexgewichte wurden so gewählt, daß die Varianz verschiedener Schätzer möglichst klein wird. Mit der angebotenen Lösung erhält die Stichprobe E ein gegenüber ihrer Fallzahl überproportionales Gewicht. Dies ist der Tatsache geschuldet, daß sich die Varianz der Schätzer in den Altstichproben A-D u.a. aufgrund der Panel-Attrition im Laufe der Zeit vergrößert hat.

Die ursprünglichen Hochrechnungsfaktoren (nach der neuen Randanpassung) werden (ab 1998) mit dem Faktor 0,8 multipliziert, die Hochrechnungsfaktoren der Stichprobe E werden mit dem Komplementärfaktor 0,2 gewichtet. Für getrennte Analysen ist die Umgewichtung der Altstichproben sowie die der Stichprobe E somit leicht rückgängig zu machen.

Die speziellen Hochrechnungsfaktoren OHHRFD und OPHRFD für Stichprobe D blieben unverändert.

nach oben

Datenweitergabe 1997 (Welle N)

Neue Rectypes 1997

SOZKALEN
Die neu generierte Datei enthält Sozialhilfespells (Laufende Hilfe zum Lebensunterhalt, Hilfe in besonderen Lebenslagen) von Haushalten auf Monatsbasis beginnend mit Januar 1991 (Erhebungsjahr 1992).

RBEINK
ist eine Zusammenfassung der von Roland Berntsen für Westdeutschland generierten Einkommensangaben der Erhebungsjahre 1984-1991. Diese Angaben waren bisher bei den generierten Personeninformationen (_PGEN) abgelegt; sie werden nicht weiter fortgeschrieben.

Wir empfehlen stattdessen die Nutzung der in Syracuse generierten Jahreseinkommen: Die Variablen des GSOEP-Equivalent-Files (_PEQUIV) wurden rückwirkend für alle Wellen (bis 1996) in der 100%-Version NEU aufgenommen (aus datenschutzrechtlichen Gründen können in der Scientific-Use-Version diese Daten nur als 95%-Version weitergegeben werden). Diese Dateien enthalten u.a. differenzierte Jahreseinkommen einschließlich Pre- and Postgovernment-Income sowie Angaben zu Sozialversicherungsabgaben und Steuern.

Ebenfalls NEU generiert und vereinheitlicht wurden die jährlich erhobenen Kalenderinformationen (_PKAL) zum monatlichen Erwerbs- und Einkommensverlauf (Einkommen nur bis 1995).

BIOPAREN 1997

BIOPAREN umfaßt lediglich die SOEP-Population bis zum Jahre 1996. Diese Datei wurde jedoch um einige Variablen zur sozialen Herkunft erweitert.

EINKALEN kann - wie bereits erwähnt - aufgrund einer Umstellung in der Erhebung des Einkommenskonzeptes nicht mehr auf Monatsebene fortgeschrieben werden und wird demgemäß zum Stand von 1995 weitergegeben.

PGEN 1997

Erstmalig wird in NPGEN der ISCO-Code zusätzlich auch nach der 88er-Klassifikation abgelegt. Die Variablen TREIMAN__ und WEGEN__ wurden ebenso wie die Variablen _BILZEIT und _ERWZEIT rückwirkend in allen _PGEN-Dateien in der Originalversion (mit einer Nachkommastelle) ausgewiesen. Zudem wurden in allen _PGEN-Dateien drei neue Variablen nachgeladen: _TATZEIT (tatsächliche Arbeitszeit), _VEBZEIT (vereinbarte Arbeitszeit) und _UEBSTD (geleistete Überstunden); auch diese Variablen werden jeweils mit einer Nachkommastelle geführt. Darüberhinaus wurden vereinzelt rückwirkend einige Missing-Angaben in den Personenbrutto-Dateien (_PBRUTTO) aktualisiert. Koordinatoren der Datenaufbereitung sind und .

Mit der neuen Auslieferung der Daten wurde auch die Variable $BILZEIT in $PGEN vereinheitlicht, d.h. die in den verschiedenen Jahren unterschiedlich skalierte Variable $BILZEIT wurde jetzt rückwirkend für alle Wellen in Jahren und (nicht wie früher teilweise in Zehnteln von Jahren) abgespeichert.
Sollten hierzu Fragen haben, wenden Sie sich bitte an .

PKAL 1997

In der Vergangenheit wurden die Kalendarien in unterschiedlicher Form weitergegeben. So wurde diese zum Beispiel in einigen Wellen (A bis F) als separate $PKAL-Files weitergegeben, in anderen Wellen im $P-File integriert. Auch unterschieden sich die String-Varibalen teilweise in ihrer Länge (zwölf oder 24 Spalten).

Mit der neuen Datenlieferung wurden die Kalendarien einheitlich in einem $PKAL-File pro Welle zusammengefaßt und die Strings auf 24 Spalten festgelegt. Zusätzlich wurden zwölf getrennte Monatsvariablen mitgeliefert. Hiermit hoffen wir, Anforderungen Ihrer Statistikpakete gerecht werden zu können.

Für Nachfragen steht Ihnen gerne zur Verfügung.

EQUIV 1997

Bislang wurden die in Syracuse erstellten Equivalent Files in zwei Files weitergegeben: das GSOEP File und das PSID File. Zum ersten Mal war es aus technischen Gründen erforderlich, daß in Syracuse die Files gesplittet weitergegeben werden mußten. Für jedes Jahr besteht nun ein eigenes, nach GSOEP und PSID getrenntes File. Diese neue Struktur wird Ihnen in der neuen Datenlieferung mitgeliefert.

Um Ihnen das Matchen mit dem SOEP Standard-File zu erleichtern, haben wir im GSOEP File die Matchstrukturen vereinheitlicht (HHNR, HHNRAKT, PERSNR). Sie können deshalb jetzt direkt das GSOEP File mit Informationen aus dem SOEP File anreichern; mit anderen Worten: die Files sind einfach wie andere Files im SOEP Datensatz verknüpfbar.

Darüber hinaus werden die GSOEP Equivalent Files direkt von SOEPINFO unterstützt. Dies ermöglicht Ihnen z.B. sich die Frequencies aus dem GSOEP File anzuschauen sowie Kommandofiles automatisch zu erstellen.

Sollten Sie hierzu inhaltliche Fragen haben, wenden Sie sich bitte an , für technische Fragen im Zusammenhang mit SOEPINFO wenden Sie sich bitte an .

Zufallseffekte in der Hochrechnung ‘97

Das SOEP ist eine Stichprobe, die unvermeidbar mit einem Stichprobenfehler behaftet ist. Deswegen weisen wir auch immer wieder darauf hin, daß bei deskriptiven Analysen Konfidenzintervalle ausgerechnet werden sollten (z. B. mit Hilfe des Random-Group-Ansatzes, vgl. dazu Exercise 5 in der SAS (Advanced) Retrievals-Section im Desktop Companion). Abweichungen von externen Randverteilungen signalisieren im allgemeinen kein Problem, sondern sind unvermeidbares Ergebnis einer Stichprobe.

Bei der 97er Welle, die in diesen Tagen ausgeliefert wird, ist allerdings ein feldbedingter Zufallseffekt zu beobachten, um den man bei deskriptiven Analysen, die auf Struktur bzw. Zahl der Haushaltstypen abstellen, wissen muss:

Mehrere Ein-Personen-Haushalte, die in den letzten Jahren nur noch mit Mühe zur Teilnahme zu bewegen waren, sind nun endgültig ausgefallen. Als mehrmalige "temporäre Ausfälle" hatten sie große Hochrechnungsfaktoren. Durch ihr Aussteigen sind c. p. hochgerechnet 1,7 Prozentpunkte der Ein-Personen-Haushalte verloren gegangen. Da unser derzeitiges - statistisch fundiertes - Hochrechnungsverfahren diesen Effekt nicht vollständig kompensieren kann, wird der Anteil dieser Haushalte - gemessen am Mikrozensus - nun deutlich unterschätzt.

Es ist davon auszugehen, daß durch die Dynamik des SOEP, der in der Modellierung der Ausfälle und der Hochrechnung sequentiell Rechnung getragen wird, sich der 97er Effekt in den nächsten Jahren "von selbst" auswachsen wird (da wieder neue Haushalte mit grossen Hochrechnungsfaktoren entstehen). Wir wollen deswegen nicht ad-hoc in die Hochrechnungsalgorithmen eingreifen und die statistische Fundierung unserer Hochrechnung zerstören. Gleichwohl sollten Sie bei bestimmten Fragestellungen nun darauf achten, daß es diesen Zufallsfehler gibt. Wer eine punktuell "bessere" Schätzung der Anteile von Ein-Personen-Haushalten benötigt (d. h. zum Beispiel eine Reproduktion des Anteils im Mikrozensus), sollte - je nach seiner Fragestellung - eine Kalibrierung der Querschnittshochrechnung vornehmen, indem sie/er z.B. schlicht an die Mikrozensus-Randverteilung anpaßt.

Derartige Zufallsausreißer können immer wieder mal vorkommen. Wir prüfen deswegen zur Zeit grundsätzlich, inwieweit z.B. durch die intensivere Nutzung von Längsschnittinformationen oder durch die Nutzung der gegebenen Verteilung der Hochrechnungsfaktoren die Robustheit des bewährten Hochrechnungsverfahrens gegenüber den oben skizzierten Zufallseffekten erhöht werden kann. Ad-hoc-Anpassungen der Standard-Hochrechnung sollen aber auf jeden Fall vermieden werden.

nach oben

Datenweitergabe 1996 (Welle M)

BIO-Files 1996

Die SOEP Gruppe bereitet derzeit einen Satz von Biographie Files vor, die alle in diesem Zusammenhang relevanten Informationen der SOEP-Befragten (soweit sie erhoben werden konnten) in nutzerInnenfreundlicher Form bereitstellt. Eine erste Version dieser Files wird bereits mit der nächsten Datenweitergabe zur Verfügung gestellt.

Befragungspersonen des SOEP beantworten in der Regel im Rahmen ihres ersten Interviews auch den seit 1995 für alle Teilstichproben (A bis D) voll integrierten Lebenslauf- bzw. Biographiefragebogen. Dieser beinhaltet neben der Erwerbsbiographie seit dem 15. Lebensjahr, die Ehe- und Familiengraphie, Informationen zur sozialen Herkunft, zum Berufseinstieg sowie zur "Immigrationsgeschichte" (für nach 1948 nach Deutschland "gewanderte" Personen).

Derzeit liegen die Biographie Daten noch uneinheitlich vor. Zum Teil können fehlende Informationen rekonstruiert werden (1), zum Teil sind Informationen für einige (wenige) Personengruppen unwiderruflich verloren (2). Zudem bestehen zum Teil erhebliche Probleme bei der Verknüpfung der Daten (3).

Zu (1): In der Regel beantworten alle Befragten einmal den Biographiefragen-Komplex (retrospektiv). Aufgrund des erhebungstechnischen Procederes (z.B. Befragungszeit) wurden aber zu Beginn der Befragung in Westdeutschland die Biographie-Informationen über drei Wellen verteilt erhoben, in Ostdeutschland wurden sie erstmals in der dritten Welle (1992) erfragt. Für Personen, die z.B. vor der Erhebung von Biographiedaten ausschieden (Tod, Emigration, Verweigerung) fehlen entsprechend zumindest Teile dieser Angaben.

Zu (2): Für Personen, die bei der Erstbefragung 16 bzw. 17 Jahre alt waren, wurde davon ausgegangen, daß die wenigen, sinnvoll zu erhebenden Biographie-Informationen aus den Daten der laufenden Befragung rekonstriert werden können (z.B. Ehe- und Familienbiographie, soziale Herkunft, Erwerbsbiographie seit dem 15. Lebensjahr).

Soweit fehlende Informationen nachbildbar sind, werden diese in die neuen Biographie Files eingespeist. Die Bereitstellung der Informationen wird dabei ohne Informationsverlust gegenüber den Originalvariablen geschehen.

Zu (3): Schwierigkeiten bei der Zusammenführung und wellenübergreifenden Speicherung der Biographie-Daten ergaben sich auch durch deren im Zeitverlauf unterschiedliche Verortung (in verschiedenen Befragungsinstrumenten) sowie durch Veränderungen in Umfang und Timing (Zeitpunkt der Befragung einzelner Personengruppen).

Ziel der nutzerInnenfreundlichen Biographie-Datenstruktur ist zum einen, die zeitunhängigen Variablen (z.B. Jahr der ersten Zuwanderung nach Deutschland, Berufseinstieg, Ort der Kindheit) für alle Befragungspersonen zu erfassen. Darüber hinaus wird sichergestellt, daß bei zeitabhängigen Variablen (z.B. Familienstand, Zahl der Geburten, Erwerbsbiographie) auch Veränderungen der im Rahmen der einmaligen Biographiebefragung erhobenen Informationen bis zum letzten realisierten Personeninterview aufbereitet und weitergegeben werden.

Die Biographiedaten befinden sich noch im Aufbau. Mit der nächsten Datenlieferung erhalten Sie die bislang fertiggestellten Informationen zu folgenden Themen:

File Inhalt
PPFAD   neue Variable: Zuzugsjahr nach Deutschland
BIOMARSM   Familienstand-Spells auf Monatsbasis seit frühestens Januar 1983
BIOMARSY   Familienstand-Spells auf Jahresbasis in individuellen Lebensaltersjahren
BIOBIRTH   Geburtsbiographie (nur Frauen) mit Zahl der pro Frau geborenen Kinder, deren Geburtsjahr, deren Geschlecht sowie ggf. PERSNR im SOEP
BIOPAREN   Informationen zu Eltern (Geburts- und ggf. Todesjahr, Schul- und Berufsausbildung, Religionszugehörigkeit, berufliche Stellung des Vaters als RespondentIn 15 Jahre alt war sowie ggf. PERSNR der Eltern im SOEP)

Darüber hinaus werden weiterhin die bereits in der Standarddatenweitergabe enthaltenen Dateien PBIOSPE (Erwerbsbiographie seit dem 15. Lebensjahr bis zum Zeitpunkt des letzten realisierten Personeninterviews in Spellform) sowie $PGEN (u.a. höchster Bildungsabschluß Schule und Beruf, Nationalität) zur Verfügung gestellt.


Koordinator für die Biographie-Files ist .

nach oben

Datenweitergabe 1995 (Welle L)

Integration der Zuwanderer-Stichprobe in das Hochrechnungskonzept

Mit der routinemäßigen Auslieferung der Welle 12 (1995) ist die Zuwanderer-Stichprobe des SOEP (Sample D) verfügbar. Die Integration der Stichprobe D in das 'alte' SOEP erfordert erstmals die Bereitstellung jeweils zweier Hochrechnungsfaktoren auf Haushalts- (LHHRF und LHHRFD) und Personenebene (LPHRF und LPHRFD). Notwendig wurde dies, da sich in Teilstichprobe D Haushalte befinden, die sowohl über die Teilstichprobe D als auch über die Weiterverfolgungsregeln der Teilstichproben A, B und C in das SOEP gelangen konnten. Diese Zuwandererhaushalte wären bei einer Analyse über alle Teilstichproben A, B, C und D überrepräsentiert, sind aber notwendiger Bestandteil der Analyse bei einer separaten Auswertung von Teilstichprobe D. Das Problem wurde durch die Bereitstellung der genannten vier Hochrechnungsfaktoren (LHHRF und LHHRFD bzw. LPHRF und LPHRFD) gelöst:

Die Hochrechnungsfaktoren mit dem Zusatz D sind nur zu benutzen, wenn eine separate Analyse der Zuwandererstichprobe erfolgt. Ansonsten sind die 'vertrauten' LHHRF und LPHRF zu verwenden. Bei letzteren wurde allen Haushalten in Sample D, die sowohl über Sample D als auch über die Sample A, B und C in das SOEP gelangen konnten, ein Hochrechnungsfaktor von null zugewiesen. Genauere Informationen hierzu finden sich in den Diskussionspapieren Rendtel/Dascke (1996), Burkhauser/Kreyenfeld/Wagner (1996) und Pannenberg/Rendtel (1996a/b) (siehe Literatur-Neuerscheinungen).

Zu beachten ist darüber hinaus, daß ab Welle 12 (1995) die Summe der Hochrechnungsfaktoren für die Teilstichproben A und B um die Anzahl der Zuwanderer und Zuwanderinnen vermindert werden, die von Teilstichprobe D repräsentiert werden. Diese 'Verminderung' erfolgt über eine skalare Randanpassung der Hochrechnungsfaktoren an die Bevölkerungseckzahl ohne Zuwanderer und Zuwanderinnen. Will man nun konsistente Querschnittsvergleiche ausschließlich auf Basis der Teilstichproben A und B von 1984 bis 1994 und 1995 und darüber hinaus vornehmen, so sind die Hochrechnungsfaktoren von A und B mit dem Korrekturfaktor k = 1.056 zu multiplizieren (vgl. oben zitierte Literatur).

KSAMPLE 1995

Eine weitere zentrale Variable - nämlich das Stichprobenkennzeichen (KSAMPLE bzw. KSAMPxxx für RZOO-Anwendungen) ist bisher redundant in jedem Datensatz, also auch in den Pfad-Dateien, abgelegt. Eigentlich sollten die redundanten KSAMPLE-Informationen in den einzelnen Files nun gelöscht werden. Wir haben jetzt noch einmal abgesehen, da ansonsten viele Retrievals und Programme abrupt umgearbeitet werden müßten. Wir kündigen die Löschung der redundanten KSAMPLE-Variablen in allen Files (außer den Pfad-Files) aber für 1997 an. Dadurch werden nicht nur über 120 Variablen im SOEP-Datensatz eingespart, sondern es wird auch die faktische Überbewertung der Stichprobenzugehörigkeit für Analysen reduziert (triviale Querschnittsanalysen für Ost- und Westdeutschland sind wegen "innerdeutscher" Mobilität" allein aufgrund von KSAMPLE nicht mehr richtig). Wir begründen dies im folgenden ausführlich, da vielen NutzerInnen die Systematik der Teilstichproben nicht voll bewußt sein dürfte:

Warum diese Änderungen?

Das Stichprobenkennzeichen gibt - wie der Name sagt - an, aus welcher Stichprobe der jeweilige Haushalt bzw. die jeweilige Person stammt; wobei die Stichprobenzugehörigkeit sich auf die Zugehörigkeit des Ursprungshaushaltes in der ersten Welle der jeweiligen Teilstichprobe bezieht. Zur Erinnerung:

KSAMPLE = 1:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand nicht türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 2:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle (1984), deren Haushaltsvorstand türkischer, italienischer, jugoslawischer, griechischer oder spanischer Nationalität ist.

KSAMPLE = 3:
Haushalte im Gebiet der DDR im Erhebungsjahr der 1. Welle Ost (1990), deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung DDR-BürgerIn war.

KSAMPLE = 4:
Haushalte im Gebiet der Bundesrepublik Deutschland im Erhebungsjahr der 1. Welle der Zuwandererstichproben D1 und D2 (1994 bzw. 1995), die zwischen 1984 und 1993 zugewandert sind.

Da KSAMPLE jedem Datensatz zugespielt war, ließen sich ohne großen Aufwand über diesen Filter nach Stichproben getrennte Querschnittsauswertungen vornehmen. Bei dieser - zwar technisch einwandfreien Vorgehensweise - können jedoch schwere inhaltliche Fehler begangen werden:

  1. KSAMPLE = 1 wird oft fälschlich als "Westdeutsche Haushalte bzw. Personen " interpretiert. Dies ist nur bedingt richtig. Tatsächlich sind in Teilstichprobe A aber über 80 AusländerInnen enthalten, die nicht in einem Haushalt mit türkischem, italienischem, jugoslawischem, griechischem oder spanischem Haushaltsvorstand leben. Umgekehrt leben über 220 Deutsche in einem Haushalt des Samples B (Stand 1995).
  2. Die Nationalität des Haushaltsvorstandes, die die Zuordnung zur Stichprobe definiert, muß nicht zwangsweise mit der der übrigen Personen im Haushalt übereinstimmen.
  3. KSAMPLE = 3 heißt nur, daß der Haushalt in der 1. Welle (Ost) auf dem Gebiet der damaligen DDR lebte. In den Folgewellen kann er durchaus in die alten Länder übergesiedelt sein (inzwischen etwa 7 % der C-Stichprobe). Umgekehrt gibt es Haushalte der Stichprobe A, die in die neuen Länder übergesiedelt sind. Diese Wanderungsbewegungen sind in den Variablen ySAMPREG (y = G,H,I,J,K,L) festgehalten, die auch in HPFAD und PPFAD zu finden sind.

Die Bedeutung der Variablen KSAMPLE kann also leicht überschätzt werden. Um einen schnellen Überblick über strukturelle Unterschiede bzw. der Unterscheidung "West"-Deutsche, "Ost"-Deutsche, AusländerInnen und ZuwandererInnen zu gewinnen, mag KSAMPLE geeignet sein. Die eigentlichen Analysen müssen jedoch über die Nationalität (NATIONxx) und aktuelle Stichprobenregion (ySAMPREG) geführt werden.

Die gegenwärtige Datenbankstruktur - KSAMPLE in jedem Datensatz - leistet dieser Überbewertung Vorschub. Deshalb soll ab der 12. Welle KSAMPLE nur als HSAMPLE in HPFAD und als PSAMPLE in PPFAD abgelegt werden. Einmalig in diesem Jahr - als Übergangsphase - wird KSAMPLE noch einmal den übrigen Datensätzen hinzugefügt, so daß genügend Zeit bleibt, sich auf die Änderung einzustellen.

Zum Schluß noch ein Tip. Auch weiterhin werden Querschnittsauswertungen nach Teilstichproben möglich sein, ohne mit HPFAD oder PPFAD verknüpfen zu müssen, da KSAMPLE eindeutig durch die CASE-ID (HHNR) definiert ist,

  • CASE-ID 19 - 45543 KSAMPLE=1
  • 45551 - 59692 KSAMPLE=2
  • 500011 - 521795 KSAMPLE=3
  • 700010 - 724009 KSAMPLE=4.

nach oben