Website Archive
- may contain outdated content -

Häufig gestellte Fragen (FAQ)

  • 1 Datenweitergabe 1984-2007
  • 2 Nutzungsbedingungen
  • 3 Vertragsmanagement
  • 4 Auswertungen mit dem SOEP
  • 1 Datenweitergabe 1984-2007


    1.1 Was ist bei der neuen Datenlieferung 1984-2007 zu beachten?

    Die Datenweitergabe 2008 mit den Daten von 1984-2007 enthält für das Jahr 2007 die üblichen wellenspezifischen Datensätze  XPBRUTTO, XP, XPKAL, XPGEN, XHBRUTTO, XH, XHGEN, XKIND und WPLUECKE sowie die aktualisierten Datensätze mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren).

    Im Befragungsjahr 2006 wurde eine repräsentative Ergänzungsstichprobe für ganz Deutschland gezogen: die Auffrischungsstichprobe H. Die biografischen Hintergrundinformationen der Befragten in Stichprobe H wurden erstmals in 2007 erhoben. Diese Daten sind nun vollständig in die relevanten Biografiedatensätze (BIOxxxx) integriert worden.

    Als Teil der SOEP Innovationsprojekte führte TNS Infratest Sozialforschung im Dezember 2006 eine Nacherhebung durch. Sie wurde bei früheren SOEP-Befragten durchgeführt, die aus Haushalten stammen, die zwischen 2001 und 2004 als endgültigeVerweigerungen klassifiziert wurden. Als Nebenprodukt konnten wir die Informationen über das Geburtsjahr von 21 dieser Personen von fehlend auf einen gültigen Wert setzen. Mehr Informationen finden Sie im Methodenbericht ( PDF-Dokument, 389 KB) von TNS Infratest Sozialforschung.

    Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:


    A. Neue und umbenannte Datensätze

    COGNIT06:
    Im Erhebungsjahr 2006 wurde mit einem Subsample des SOEP kurze Kognitionstests mit dem Ziel durchgeführt, eine Reihe robuster Instrumente zur Verfügung zu haben, die von   geschulten Interviewern nur wenige Minuten bei der Befragung beanspruchen. Nahezu 80% aller zur Teilnahme am Kognitionstest Ausgewählten gaben gültige Antworten. Das hat zur Folge, dass das SOEP jetzt zum ersten Mal Indikatoren zu kognitiven Leistungspotenzialen für mehr als 5.500 Personen bereitstellen kann, angereichert durch unterschiedliche Bildungsinformationen, die auf Abschlüssen und Qualifikationen beruhen. Die erste Wiederholung für diesen Test ist für das Erhebungsjahr 2010 geplant. Eine ausführliche Dokumentation und Auswahlanalyse finden Sie in Schupp et al. (2008) Erfassung kognitiver Leistungspotentiale Erwachsener im Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32 ( PDF-Dokument).

    PBR_EXIT und PBR_HHCH:
    Diese beiden Datensätze ersetzen den ehemaligen Datensatz YPBRUTTO, wobei bei in dieser Datenweitergabe noch beide Varianten verfügbar sind.

    MIHINC:
    Dieser Datensatz enthält das multipel imputierte monatliche Netto-Haushaltseinkommen für die Jahre 1997 bis 2007. Er ist im long-Format abgelegt (Long-Format: hhnrakt, svyyear, mj, wird in Stata auch mim-Format genannt). Jede fehlende Antwort auf die Frage nach dem Netto-Haushaltseinkommen wurde 10-fach imputiert. Weitere Informationen finden Sie in der Dokumentation von HGEN ( PDF-Dokument, 169 KB).


    B: Neue Variablen

    B.1 Datensatz XPBRUTTO

    • XEWSTATU: Proxyinformation über den Arbeitsmarktstatus von Personen, die in Befragungshaushalten kein Interview gaben.

    B.2 Datensatz $PEQUIV

    • P11101$$: Kopie der wellenspezifischen Variablen zur allgemeinen Lebenszufriedenheit


    B.3 Datasatz $HGEN

    • I_HINC$$: Multiple imputierte Version von HINC$$, das monatliche Haushaltsnettoeinkommen. Imputationen 1-5 sind als Wide-Format in $HGEN abgelegt (nur für die Jahre 1996-2007), alle generierten Imputationen (10) sind in dem zusätzlichen Datensatz MIHINC in Long-Format abgelegt. Weitere Informationen finden Sie in der Dokumentation zu HGEN ( PDF-Dokument, 169 KB).
    • FHINC$$: Imputation Flag für I_HINC$$, 0 bedeutet nicht-imputiert und 1 imputiert.



    nach oben


    C. Überarbeitete Variablen

    C.1 Im Datensatz $PKAL

    • $P2D03 + $P2E03: In einigen Fällen war in den Wellen U-W (in den Jahren 2004-2006)  fälschlicherweise "keine Antwort" (-1) auf "trifft nicht zu" (-2) gesetzt worden. Dies wurde jetzt nachträglich korrigiert.
    C.2 Im Datensatz HHRF/PHRF

    • WPHRF*: Alle Gewichtungsfaktoren für das Jahr 2006 sind nun an den Mikrozensus 2006 angepasst.
      Auch die Gewichtungsfaktoren für das Jahr 2007 sind an den Mikrozensus-Daten von 2006 angepasst worden; sie müssen deswegen als vorläufig für Personen und Haushalte in Deutschland gelten und werden voraussichtlich mit der nächsten Datenweitergabe aktualisiert.
    • VHHRF + VHHRF1: 1 Haushalt aus Sample G  musste korrigiert und auf 0 gesetzt werden.
    C.3 Im Datensatz  $PGEN
    • LFS$$: Die Variabel "Arbeitsmarktstatus" wurde für alle Wellen in Bezug auf  eine genauere Einordnung von Personen in den Status "nicht-erwerbstätig und älter als 65" (Kategorie 2) verbessert. Inzwischen wird die Information über den Geburtsmonat einer Person genutzt, um zu bestimmen, ob sie zur Zeit des Interviews älter als 65 Jahre war.

    nach oben


    D. Fehlerkorrekturen

    D.1 Im Datensatz VH and WH
    Es gab eine Korrektur der Werte Labels für die Variablen, die auf die Eigentümer einer Wohnung hinweisen  (VH27 and WH27), bitte beachten Sie die richtigen Ausprägungen in der unten stehenden Tabelle.

    Variablenname: Eigentümer der Wohnung

    Wert Falsch Richtig
    -2 Trifft nicht zu Trifft nicht zu
    -1 Keine Antwort Keine Antwort
    1 selbstgenutzte WohnungKommunale Wohnung
    2 Kommunale Wohnung Genossenschaftliche Wohnung
    3 Genossenschaftliche Wohnung Betriebs-/ Werkswohnung
    4 Betriebs-/ Werkswohnung Privater Eigentümer
    5 Privater Eigentümer Weiß nicht

    D.2 Im Datensatz $PGEN
    • EGP$$: Die Variable "Erikson and Goldthorpe Class Category" (internationaler Index des beruflichen Status) wurde bezüglich der Zuordnung von Personen zur Kategorie (18) "nicht erwerbstätig - in Rente" korrigiert. Bis jetzt wurden fälschlicherweise alle Rentenempfänger, d.h. alle Empfänger von Altersrente und die Empfängerinnen von Witwen- und Waisenrenten als  "nicht erwerbstätig - in Rente" klassifiziert, falls keine andere Kategorie zutraf. In der korrigierten Generierung der EGP$$ Variable, die für alle Wellen durchgeführt wurde, werden nicht-erwerbstätige Personen nur dann in diese Kategorie eingeordnet, wenn sie Bezieher/innen von Altersrente sind oder wenn sie  Bezieher/innen von Waisen- bzw. Witwenrente UND älter als 60 Jahre sind. Darüber hinaus werden bei Fehlen der Information über Rentenbezug die Informationen aus ARTKALEN (retrospektive Information aus dem Aktivitätskalender des vorangegangenen Jahres) im Generierungsprozess genutzt, um zu bestimmen, ob eine Person zum Zeitpunkt des Interviews in Rente oder Vorruhestand ist. Alle anderen nicht arbeitenden Personen werden in Kategorie (-2) "trifft nicht zu" eingeordnet, solange sie nicht als arbeitslos registriert sind (Kategorie 15).

    • STIB$$: Das gleiche Problem der falschen Zuordnung von Personen zur Kategorie "Rentner/in" (13) trifft auch für die Variable "Berufliche Stellung" zu und wurde für alle Wellen in der gleichen Weise wie für EGP$$ korrigiert.

    • NACE$$: Die Variable "2-stellige Branchenvercodung nach NACE" hatte bisher einige Inkonsistenzen bezüglich der Bezeichnungen. Insbesondere die Bezeichnungen für den Code (90) "Abwasser- und  Abfallbeseitigung, Sanierung oder ähnliches" und Code (95) "Private Haushalte mit Angestellten" mussten ausgetauscht werden. Einige andere Bezeichnungen waren nicht genau genug und wurden für alle Wellen präzisiert.

    • IS88$$, ISEI$$, MPS$$, SIOPS$$, KLAS$$, EGP$$: Die Frage, auf die sich diese Variablen beziehen, wird nicht allen erwerbstätigen Personen jedes Jahr gestellt. In den Befragungsjahren 1985, 1986, 1987, 1988, 1990 (West), 1992 (West), 1994, 1996, 1999, 2001, 2003, 2005 und 2006 wurde sie nur Erstbefragten oder Berufswechslern gestellt. Deswegen sollten in Jahren mit Teilbefragungen die Variablen für alle berufstätigen Personen ohne Jobwechsel die vorhandene Information des Vorjahres übernommen werden. Diese Angaben wurden fälschlicherweise für einige Personen nicht genutzt. Dieser Fehler ist nun behoben, da für alle Wellen die betroffenen Variablen in konsistenter Weise neu generiert wurden.

    nach oben


    1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?

    Die neue Stichprobe (G) wird mit dem Code 7 identifiziert. Es wurde versucht, dass jede Befragungsperson an der SOEP-Erstbefragung dieser Stichprobe teilnimmt. Ähnlich wie bereits bei den neuen Stichproben E und F, die 1998 bzw. 2000 erstmals befragt wurden, wird in der ersten Welle bei neuen Stichproben auf die Erhebung biographischer Zusatzinformationen verzichtet. Für die Stichprobe G wurden die Biographie-Variablen also erst in der zweiten Welle, d.h. im Jahre 2003, erhoben.

    Weitere ausführliche Informationen zum Start der neuen SOEP-Stichprobe finden sich im Forschungsbericht des Bundesministeriums für Gesundheit und Soziale Sicherung Repräsentative Analyse der Lebenslagen einkommensstarker Haushalte ( PDF-Dokument).



    1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?

    In rund der Hälfte der Fälle in Stichprobe E wird - im Rahmen eines zufälligen Splittings der Stichprobe - seit dem Jahr 2000 die für das SOEP neue Erhebungsmethode CAPI (=Computer Assisted Personal Interview) angewandt. Sie identifizieren diese Interviews in der Variablen $PFORM* in $PBRUTTO bzw. $HFORM* in $HBRUTTO.

    Erste erhebungsmethodische Analysen zeigten keine signifikanten Methodeneffekte. D.h., für die inhaltlichen Ergebnisse scheint die Form der Datenerhebung keinerlei eigenständige Einflüsse auszuüben. Weitere Analysen zur Erhebungsmethode durch Nutzer/innen sind natürlich sinnvoll.

    Seit dem Jahr 2001 wird diese Erhebungsmethode zunehmend auch in den Alt-Stichproben A bis D sowie F eingesetzt.



    1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?

    Vermutlich haben Sie nur einige Files aus der aktuellen Datenlieferung (SAS-Version) installiert. Dieses Problem dürfte nicht entstehen, wenn Sie die SAS-Version des aktuellen Datensatz vollständig auf Ihren Rechner implementieren. Wir empfehlen, so bei jeder neuen Datenlieferung zu verfahren.

    Das Problem liegt in der Art und Weise wie SAS die Value-Labels verarbeitet. So werden alle Value-Labels für alle Files in einer SAS Library (einem Directory) in einem einzigen File "FORMATS.SC2" (oder UNIX "formats.sct01") gespeichert. Die setzt voraus, dass alle Value-Labels durchweg einzigartig in der Library sind. Tatsächlich werden die Value-Labels aber neu definiert. Es entstehen nun fast zwangsläufig Probleme, wenn Daten-Files von unterschiedlichen Datenlieferungen in einem Directory kombiniert werden. Die Lösung ist einfach: Installieren Sie bei jeder neuen Datenlieferung immer alle Files. Dieses "Problem" hängt mit SAS zusammen und kann von uns nicht gelöst werden.


    1.5 Was ist der Jugendfragebogen?

    Seit dem Jahr 2000 werden im SOEP Daten zu kinder- und jugendspezifischen Themen mit einem eigenen Instrument, dem Jugendfragebogen, erhoben. Er wird anstelle des Lebenslauffragebogens erhoben, weil die dort gestellten Fragen zur Familien- und Berufsbiographie für die Jugendlichen noch nicht zutreffen und Angaben zur sozialen Herkunft i.d.R. bereits vorliegen. Nur in den Fällen, in denen Jugendliche nicht mehr mit einem oder beiden Elternteilen zusammenwohnen, werden die entsprechenden Informationen über die Eltern erhoben. Zusätzlich werden die Standardfragen zur Immigration aus dem Lebenslauffragebogen an zugewanderte Jugendliche gestellt. Somit wird gewährleistet, dass alle wichtigen Informationen, die im Lebenslauffragebogen erhoben werden, auch für Jugendliche vorliegen.

    Der Jugendfragebogen enthält insbesondere retrospektive Fragen zur Schullaufbahn (Empfehlung für die Sekundarstufe I, Wiederholung einer oder mehrerer Klassenstufen), zur Musikerziehung und zum Sport wie auch zur aktuellen Situation (schulische Leistung, Freizeitgestaltung, Jobben, Verhältnis zu den Eltern etc.). Auch werden zahlreiche Prospektivfragen zu (Aus-)Bildungsplänen und Erwartungen an die berufliche und familiäre Zukunft gestellt. Die Jugenddaten ermöglichen somit zahlreiche Analysen, da sie retrospektive Informationen zur Kindheit enthalten, die mit der Geschichte der Eltern verknüpfbar sind, sowie auch prospektive Fragen. Da im SOEP alle Haushaltsmitglieder ab 17 Jahren befragt werden, eignet sich die Datenlage u.a. hervorragend für intergenerationale Analysen.

    Im Jahr 2000 wurde ein Pre-Test mit 232 Jugendlichen durchgeführt, die in SOEP-Haushalten leben (17-Jährige in Sample A-E). Einen erweiterten und überarbeiteten Fragebogen haben im Jahr 2001 618 Jugendliche, die zwischen 17 und 19 Jahre alt wurden, ausgefüllt (17-Jährige in Sample A-E, 17 bis 19-Jährige in Sample F).

    Seit dem Jahr 2002 füllen jeweils alle 17-jährigen Jugendlichen, die erstmals persönlich in einem SOEP-Haushalt befragt werden, zum Start ihrer "Befragungskarriere" den Jugendfragebogen aus. Die Daten der dieser Befragungen sind in dem Datensatz "BIOAGE17" (bis zur Datenweitergabe 2005: "BIOYOUTH") abgelegt. Pro Welle werden etwa 350 Jugendliche dazukommen. So wird kumulativ rasch ein großer jugendspezifischer Datensatz entstehen. Weitere Informationen finden Sie im Kapitel 13 unserer Dokumentation zu Biographiedaten.


    1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten?

    In den Jahren 2000 und 2001 wurde der Biographiefragebogen um einige Fragen erweitert, die sich unmittelbar auf Ereignisse in der Jugend beziehen. Einige dieser Fragen korrespondieren unmittelbar mit denen, die auch im Jugendfragebogen gestellt werden. Die Befragten werden darum gebeten, retrospektive Angaben zu ihrer Jugend zu machen, wie z.B. zu ihren Beziehung zu den Eltern als sie 15 Jahre alt waren, zu ihren Schulnoten, zum Bundesland, in dem sie ihren Schulabschluss erworben haben, und ob sie noch einen Schulabschluss anstreben. Auch die im Biographiefragebogen erhobenen Angaben zu Wehr-, Zivildienst und Freiwilligem Sozialen Jahr sind hier abgelegt.

    Weitere Informationen finden Sie im Kapitel 11 unserer Dokumentation zu Biographiedaten.


    1.7 Wo finde ich Informationen über frühere Datenlieferungen?

    Dokumentation der Änderungen am Datensatz seit 1995


    2 Nutzungsbedingungen



    2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?

    Die SOEP-Mikrodaten werden von uns so weitergegeben, dass sie durch ein Statistikprogramm ausgewertet werden müssen, bevor sie interpretiert werden können. Sie stehen der wissenschaftlichen Forschung gegen eine geringe Gebühr zur Verfügung.

    Ausgewählte Ergebnisse von bereits durchgeführten Analysen haben wir für Sie in Pressemitteilungen aufbereitet. Alle uns bekannten Arbeiten werden in der Datenbank SOEPlit registriert und können online durchsucht werden. Darüber hinaus haben wir viele Originalarbeiten, die im Internet erhältlich sind, auf unseren Internetseiten aufgeführt.

    Mehr Informationen dazu ..

    Die direkte Nutzung der SOEP-Daten unterliegt den hohen Anforderungen des gesetzlichen Datenschutzes in der Bundesrepublik Deutschland. Für die Arbeit mit den SOEP-Daten ist daher der Abschluss eines Datenweitergabevertrages notwendig.

    Falls Sie diesen noch nicht mit uns abgeschlossen haben, können Sie ihn hier beantragen.

    Verfügen Sie bereits über einen Datenweitergabevertrag, bestellen Sie bitte die SOEP-Daten mit dem Bestellformular auf unserer Homepage. Die Daten werden aus Sicherheitsgründen per "Wert-Brief" verschickt (und sind auf keinen Fall via Internet zu erhalten).

    Zur Bearbeitung Ihres Antrags benötigen wir

    1.die vollständige berufliche Adresse (inkl. Tel.- und Fax.-Nr.) desjenigen bzw. derjenigen, der/die für das Forschungsprojekt verantwortlich ist (bei Dissertationen und Diplomarbeiten der/die jeweils zuständige ProfessorIn);
    2.benötigen wir den Kurztitel Ihres Forschungsprojektes bzw. Ihres Forschungsprogramms, für das Sie die Daten verwenden wollen.

    Falls Sie weitere Fragen haben, können Sie sich gerne unter soepmail@diw.de an Michaela Engelmann wenden.



    2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?

    Für die Jahre 1984 bis zum aktuellen Rand liegen Datenreihen - ab 1990 getrennt nach Ost- und Westdeutschland - auf Haushalts- und Personenebene vor. Im SOEP-Monitor Haushalt gibt es insbesondere Informationen zur Wohnsituation der Haushalte; im SOEP-Monitor Personen finden Sie Kennzahlen zu Arbeitsmarkt, Bildung, Einkommen und subjektiven Indikatoren (z.B. Lebenszufriedenheit).

    Auch der vom Statistischen Bundesamt herausgegebene Datenreport enthält einige Beiträge zu Lebensbedingungen und ihre Bewertungen in Deutschland auf Grundlage der SOEP Daten (z.B. Statistisches Bundesamt (Hg.) (2006): Datenreport 2006. Schriftenreihe der Bundeszentrale für politische Bildung. Band 544. Im Internet bei den Publikationen des Statistischen Bundesamtes oder unter den Publikationen der GESIS.



    2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?

    Ja, aber es ist eine Nutzungsgebühr fällig. Bitte wenden Sie sich mit Ihrem konkreten Anliegen direkt an den Projektleiter Prof. Dr. Gert G. Wagner.


    2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus?

    Generell nicht. Für den Fall, dass Sie Sonderauswertungen und Gutachten durch das DIW Berlin in Auftrag geben möchten, wenden Sie sich bitte an die SOEP-Projektleitung: Prof. Dr. Gert G. Wagner.
    SOEPinfo gibt einen Überblick über den Inhalt des Datensatzes mit Häufigkeitsauszählungen der Variablen.


    2.5 Finden Kurse zur Einführung in die SOEP-Daten statt?

    Gewöhnlich veranstaltet die SOEP-Gruppe in jedem Frühjahr SOEP-Einführungskurse am DIW in Berlin. Darüber hinaus werden alle zwei Jahre Kurse für internationale Datennutzer/innen angeboten, die in der Regel in den USA stattfinden. Beide Kurse werden zeitig im NEWSLETTER angekündigt; dort finden sie auch Anmeldeformulare.

    Unsere Dokumentationen geben zudem eine Einführung in die Analyse der SOEP-Daten. Insbesondere das Kernstück der SOEP-Dokumentation, das DTC ist dort abrufbar. Für die erfolgfreiche Teilnahme an einem SOEP-Workshop ist ein intensives Durcharbeiten des DTC ebenso zentrale Voraussetzung wie die Kenntnis eines von der SOEP-Projektgruppe unterstützten Statistik-Software Paketes (überwiegend SAS, SPSS oder STATA).


    2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File?

    Um Forscher/innen außerhalb der EWG-Staaten die SOEP-Daten zugänglich zu machen, musste aufgrund deutscher Datenschutzbestimmungen der SOEP-Datensatz leicht reduziert werden. Der Scientific-Use-File des SOEP ist eine 95%-Zufallsstichprobe, das heißt, 5% der befragten Haushalte der jeweils ersten Welle einer Stichprobe wurden nachträglich zufällig aus dem Datensatz entfernt. Längsschnittanalysen können somit unproblematisch durchgeführt werden. Das Verfahren verzerrt die Ergebnisse nicht; selbstverständlich ist der Stichprobenfehler aufgrund der geringeren Fallzahl etwas größer als im 100%-Datensatz.

    Zudem wird die in der 5. Welle erhobene Vermögensbilanz (Datei EV) nicht weitergegeben.

    Die Weitergabe der vollständigen Informationen zur Staatsbürgerschaft konnte erstmals Anfang 2004 für die Daten 1984-2002 realisiert werden. Seitdem sind auch im Scientific-Use-File die Informationen zur Nationalität einer Person in Nation$$ und das Herkunftsland in CORIGIN abgelegt (siehe auch Frage 4.6).


    3 Vertragsmanagement


    3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?

    Jede Mitarbeiterin und jeder Mitarbeiter, die/der in Ihrer Forschungsgruppe mit den SOEP-Daten arbeitet, muss auf die Einhaltung des Datenschutzes verpflichtet werden. Sie erhalten entsprechende Kopiervorlagen zusammen mit dem Datenweitergabevertrag. Falls Ihnen diese Unterlagen ausgegangen sind, finden Sie hier ein Merkblatt zum Datenschutz ( PDF-Dokument) sowie das Muster einer Verpflichtungserklärung ( PDF-Dokument).


    3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?

    Bitte schicken Sie uns einfach eine kurze Nachricht mit dem Titel Ihres neuen Forschungsschwerpunktes (soepmail@diw.de). Wenn Sie ein Gutachten bearbeiten oder Auftragsforschung betreiben, informieren Sie uns bitte auch hierüber, da dann eine Nutzungsgebühr vereinbart werden muss.


    3.3 Wie soll ich das SOEP in meinen Publikationen zitieren?

    Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen lauten:

    Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW Berlin), bereitgestellt.

    Wenn Sie einen Beitrag zitieren möchten, der das SOEP beschreibt, verwenden Sie bitte:

    Wagner, Gert G., Frick, Joachim R., and Schupp, Jürgen (2007), The German Socio-Economic Panel Study (SOEP) – Scope, Evolution and Enhancements, Schmollers Jahrbuch 127 (1), 139-169.

    Wenn Sie einen Beitrag zitieren möchten, der das GSOEP - also das scientific use file mit der 95% Version des SOEP - beschreibt, verwenden Sie bitte:

    Frick, Joachim. R.; Jenkins, Stephen P.; Lillard, Dean R.; Lipps, Oliver; and Wooden, Mark (2007): The Cross-National Equivalent File (CNEF) and its Member Country Household Panel Studies, Schmollers Jahrbuch 127 (4), 626-654.

    Die Dokumentation der auf Basis des SOEP erstellten Publikationen hat eine große Bedeutung für die erfolgreiche Weiterführung des Projektes. Wie Sie wissen, ist die Übersendung Ihrer Publikationen auch Teil des Datennutzungsvertrages. Leider ist unsere Datenbank SOEPlit bei weitem nicht vollständig. Bitte senden Sie uns daher Ihre auf dem SOEP basierenden Publikationen.

    Vielen Dank!
    Ansprechpartnerin: Uta Rahmann


    3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?

    Wir unterstützen den Einsatz von SOEP-Daten in der Lehre. Hier sind jedoch einige wichtige Regeln ( PDF-Dokument) - zum Beispiel zur Reduzierung des Datensatzes - zu beachten.
    Auch die Nutzerinnen und Nutzer eines reduzierten Datensatzes sollten auf die Einhaltung des Datenschutzes verpflichtet werden (Beispielformular ( PDF-Dokument).

    nach oben


    3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden?

    Um in die Liste eingetragen zu werden, bitte eine Mail schicken an:
    sympa@list.diw.de, Betreff (subject): subscribe soep-l.
    Die Liste hat die Email-Adresse soep-l@list.diw.de.
    Weitere Informationen gibt es hier.


    4 Auswertungen mit dem SOEP


    4.1 Sind die von mir gesuchten Variablen im SOEP enthalten?

    Mit dem interaktiven Programm SOEPinfo können Sie gezielt nach Themenbereichen und Schlagworten suchen und einen Überblick über alle erhobenen Variablen (inkl. Häufigkeitsauszählungen) und Fragebögen erhalten.

    nach oben


    4.2 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?

    Im Standarddatensatz ist die Variable $BULA (= Bundesland) enthalten. Sollten Sie tiefer gegliederte Regionalinformationen für Ihre Forschungsarbeit benötigen, z.B. Gemeindegrößenklassen, die auf der SOEP-CD vorhanden sind, benötigen Sie einen erweiterten Datennutzungsvertrag. Um darüber hinaus die "Raumordnungsregionen" (ROR) nutzen zu können, müssen Sie ein spezielles Datenschutzkonzept vorlegen (als das Richtlinie finden Sie hier ( PDF-Dokument) die für die DIW-interne Nutzung geltenden Regeln) und erhalten dann einen Sonder-Datenweitergabevertrag.

    Im Rahmen von Forschungsaufenthalten am DIW Berlin oder über SOEPremote besteht die Möglichkeit, auch auf der Ebene der - datenschutzrechtlich besonders sensitiven - kleinräumigen "Kreiskennziffern" (KKZ) und Postleitzahlen auszuwerten.

    Es gibt eine DIW Data Documentation über Regionaldaten im Sozio-oekonomischen Panel (SOEP) ( PDF-Dokument). Informationen inhaltlicher Art zur Nutzung des SOEP mit Raumordnungsregionen finden Sie in diesen Kurzinformationen zum SOEP-Geocode ( PDF-Dokument, 370 KB).

    Nähere Auskünfte zum Datenschutz, zur Weitergabe von bzw. Zugang zu den SOEP-Regionaldaten erhalten Sie bei Michaela Engelmann (soepmail@diw.de).
    Ansprechpartner für Fragen inhaltlicher Art ist Jan Goebel.



    4.3 Sind Bundesländer repräsentativ auswertbar?

    Als einzelnes Bundesland ist aufgrund seiner Größe bis zu Welle P (1999) im Grunde nur Nordrhein-Westfalen (NRW) sinnvoll auswertbar. Prinzipiell besteht die Gefahr, dass bei tiefer gegliederten Strukturanalysen die bundesländerspezifischen Fallzahlen einzelner Zellen für statistisch signifikante Aussagen zu klein werden. Auswertbar sind die Daten jedoch für "Pools" einzelner kleiner Bundesländer (z.B. Ländertypen).
    Seit dem Jahr 2000 verbessern sich die Analysemöglichkeiten aufgrund deutlich größerer Fallzahlen (Samples A-F).

    nach oben


    4.4 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?

    Generierte Variablen dienen ebenso wie Status-Variablen der Vereinfachung der Arbeit mit den SOEP-Daten. Bei ihrer Generierung fließen jeweils spezifische Annahmen ein, die Sie der Dokumentation entnehmen können. Schauen Sie die Dokumentation für die Files $PGEN und $HGEN an (Joachim Frick). Zu den Neuerungen vgl. Frage 1.1.


    4.5 Wie kann ich Rentnerinnen und Rentner im Datensatz identifizieren?

    Je nach Fragestellung bieten sich hierzu verschiedene Möglichkeiten an:

    • Selbstauskunft der Befragten zum Erwerbsstatus im Vorjahr. Diese Information ist im Kalenderfile $PKAL abgelegt und umfasst die Art des Erwerbsstatus als Rentner/Pensionär [mit Hilfe der Variablen $P1E01 und $P1E02] bzw. den Bezug von Altersrente / Pension im Vorjahr [mit Hilfe der Variablen $P2D01 bis $P2D03]
    • Alter der Befragungsperson (z.B. ableitbar aus der Variablen GEBJAHR in PPFAD)
    • Berücksichtigung des aktuellen Erwerbsstatus (nicht erwerbstätig), ggf. in Kombination mit der Altersangabe. Beachten Sie hierbei bitte, dass Rentner mit Arbeitsvertrag beim zentralen Erwerbsfilter (z.B. UP09) als erwerbstätig gelten
    • Personen, die erst seit kurzem den Status als Rentner / Pensionär innehaben, sind identifizierbar über den Grund für die Beendigung des letzten Beschäftigungsverhältnisses (z.B. Variable UP75, Code 6: "Erreichen der Altersgrenze / Rente / Pension")
    • Darüber hinaus sind natürlich auch Kombinationen dieser genannten Varianten möglich wie z.B. "Alter > 65 Jahre" und gleichzeitig "Bezug einer Altersrente"


    4.6 Kann sich die Stichproben- Zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?

    Die Stichprobenzugehörigkeit (Variablen PSAMPLE in PPFAD bzw. HSAMPLE in HPFAD) verändert sich grundsätzlich nicht. Weder durch den Wechsel der Staatsbürgerschaft noch durch den Umzug in eine andere Sample-Region (von West- nach Ostdeutschland oder umgekehrt). Die Person bleibt trotzdem in der Ausländer-, bzw. West- oder Oststichprobe. Die aktuelle Nationalität (NATION$$) bzw. Regionalzugehörigkeit ($SAMPREG) ist leicht erkennbar.

    nach oben


    4.7 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?

    Mittlerweile sind zahlreiche Befragte von Ost- nach Westdeutschland und - in geringerem Umfang von West- nach Ostdeutschland - umgezogen. Analysen, die auf regionale Bezüge abstellen, werden durch Verwendung der Variablen PSAMPLE, die die Stichprobenzugehörigkeit angibt, zum Teil erheblich verzerrt (PSAMPLE befindet sich in PPFAD: 1 = Subsample A, 2 = Subsample B, 3 = Subsample C, 4= Subsample D (Zuwanderer), 5 = Subsample E (Ergänzungsstichprobe ab 1998), 6 = Subsample F (Innovationsstichprobe ab 2000)).

    Eine korrekte regionale Zuordnung der Stichprobenmitglieder wird nur über die zeitabhängigen Variablen $SAMPREG in PPFAD und HPFAD erreicht (1 = Westdeutschland, 2 = Ostdeutschland).

    In $SAMPREG wird seit 1990 für jedes Jahr die west- bzw. ostdeutsche Population unabhängig von der Sample-Zugehörigkeit ermittelt. Wir empfehlen, immer diese Variable für regionale Analysen zu verwenden!

    Die verlinkte Tabelle, bei der eine Kreuztabellierung von $SAMPREG und PSAMPLE vorgenommen wurde, gibt einen Einblick über das Ausmaß der regionalen Mobilität seit 1990 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews) oder $NETTO=2 (Kinder bis 16 Jahren) in befragten Haushalten).



    4.8 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?

    Analog zum o.g. Phänomen ($SAMPREG vs.P SAMPLE) wird häufig auch eine Identität des Samples B mit der Population der im SOEP interviewten Gruppe der "Ausländer" unterstellt, während Sample A mit "Deutschen" gleichgesetzt wird. Dies trifft zwar im großen und ganzen zu, ist jedoch nicht exakt und wird im Zeitverlauf immer weniger genau.
    Zu Beginn des SOEP im Jahre 1984 war es die Nationalität des Haushaltsvorstands, die eine Zugehörigkeit in die beiden Samples A und B festlegte. Nichtdestotrotz konnten weitere Haushaltsmitglieder mit einer anderen Nationalität als derjenigen des Vorstandes in diesen Haushalten leben. Zudem enthielt auch Sample A AusländerInnen, sofern sie nicht einer der durch Sample B repräsentierten Nationalitäten angehörten. Deutlich verstärkt wird das Auseinanderklaffen von SAMPLE-Zugehörigkeit und (zeitpunktbezogener) Nationalitätsinformation insbesondere durch das Einbürgerungsverhalten von Personen im Sample B.
    Während Sample C auch bis zum Jahr 2000 fast ausnahmslos aus Personen mit deutscher Nationalität besteht, enthält Sample D aufgrund des hohen Anteils an Aussiedlern verhältnismäßig viele Deutsche.
    In den neueren Samples E und F ist eine ex-ante Zuordnung der entsprechenden Personen zu "Deutschen" oder "Nicht-Deutschen" aufgrund des Stichproben-Ziehungsdesigns schlichtweg nicht möglich.

    Die verlinkte Tabelle, bei der eine Kreuztabellierung der recodierten Information von NATION$$ (1=Deutsche, 2=Nicht-Deutsche incl. Item-Non-Response) und PSAMPLE vorgenommen wurde, gibt einen Einblick über die Heterogenität der SOEP-Samples bezüglich der Nationalitäts-Zusammensetzung seit 1984 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews).


         
         

    Häufig gestellte Fragen (FAQ)


     

    Inhalt

     
    1 Datenweitergabe 1984-2006
      1.1 Was ist bei der neuen Datenlieferung 1984-2006 zu beachten?
      1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?
      1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?
      1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?
      1.5 Was ist der Jugendfragebogen?
      1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten?
      1.7 Wo finde ich Informationen über frühere Datenlieferungen?
    2 Nutzungsbedingungen
      2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?
      2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?
      2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?
      2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus?
      2.5 Finden Kurse zur Einführung in die SOEP-Daten statt?
      2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File?
    3 Vertragsmanagement
      3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?
      3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?
      3.3 Wie soll ich das SOEP in meinen Publikationen zitieren?
      3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?
      3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden?
    4 Auswertungen mit dem SOEP
      4.1 Sind die von mir gesuchten Variablen im SOEP enthalten?
      4.2 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?
      4.3 Sind Bundesländer repräsentativ auswertbar?
      4.4 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?
      4.5 Wie kann ich Rentnerinnen und Rentner im Datensatz identifizieren?
      4.6 Kann sich die Stichproben- Zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?
      4.7 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?
      4.8 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?
     

         

    1 Datenweitergabe 1984-2006


     

    1.1 Was ist bei der neuen Datenlieferung 1984-2006 zu beachten?

     

    Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben.

    Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt 2). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht.

    Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant (siehe Punkte 1 und 4.1).

    Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert.

    Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen.

    Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD.

    Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:

    1. Neue und umbenannte Datensätze

    $PAGE17
    Ab 2007 werden Personen, die das Erstbefragungsalter (17 Jahre) erreichen, nicht mehr mit dem normalen Personenfragebogen, sondern mit einem speziellen Jugendfragebogen befragt. Wellenspezifische Informationen, die nicht in den Biographie-Daten oder anderen generierten Datensätzen (wie $PGEN, HEALTH) vorliegen, werden im Datensatz $PAGE17 weitergegeben. Identifizierbar sind die Befragten des Jugendfragebogens mit Hilfe des neuen $NETTO-Codes "17" (siehe auch Änderung der $NETTO-Variablen in PPFAD unter Punkt 4.1).

    DESIGN
    Die Informationen zum Design der SOEP-Stichprobe, die zuvor im Datensatz VARIANZ (Spiess 2001) zusammengefasst waren, werden ab der Datenweitergabe 2007 in dem überarbeiteten und verbesserten File DESIGN zu finden sein. Nähere Informationen in dem Dokument designdoku.pdf ( PDF-Dokument) auf der SOEP-Dokumentationseite oder der DVD.

    HEALTH
    Der Gesundheitsschwerpunkt im Personenfragebogen wurde 2002 überarbeitet und seitdem im 2-Jahres-Rhythmus erhoben. Im HEALTH-File finden Sie nun die generierten SF12-Variablen (zur Messung der gesundheitsbezogenen Lebensqualität) und Variablen zu Größe und Gewicht mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte und einer nutzerfreundlichen, längsschnittgeprüften generierten Variablen des Body Mass Index (BMI). Die Dokumentation finden Sie in dem Dokument "health.pdf ( PDF-Dokument, 172 KB)" auf der SOEP-Dokumentationseite oder der DVD.

    PWEALTH und HWEALTH
    Die Vermögensdaten des Erhebungsjahres 2002 wurden vollständig überarbeitet und auf Inkonsistenzen geprüft. Die Daten sind jetzt in zwei Datensätzen (für Personen- und Haushaltsebene) vollständig (multiple) imputiert nutzbar, mit entsprechenden Flagvariablen zur Identifikation der imputierten Werte. Die beiden Datensätze enthalten auch jeweils eine generierte Variable zum "Netto-Vermögen" (siehe SOEPpapers No. 18 ( PDF-Dokument))

    Interviewerbefragung
    Der bis 2006 lediglich als "stand-alone" Version verfügbare Datensatz mit Angaben zu den InterviewerInnen ist jetzt unter dem Namen INTVIEW in die Standard-Datenweitergabe integriert und wird somit in den jeweiligen Software-Formaten (SAS, SPSS, STATA) standardmäßig abgelegt.

    2. Querschnittshochrechnung: Wichtige Neuerungen und Änderungen

    Mit der Datenweitergabe für das Jahr 2006 ergeben sich für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die Neuerungen in der DIW Data Documentation 22 ( PDF-Dokument).

    2.1 Typen der Hochrechnungsfaktoren neu definiert
    Jedes Querschnittsgewicht wird mit $xHRFy bezeichnet. Dabei stellt $ das Wellenkennzeichen dar, x die Unterscheidung nach Haushalten (x = H) und Personen (x = P) und y eine Zusatzkennung, die den Typ des Hochrechnungsfaktors beschreibt.

    • $xHRF sind die von Beginn an üblichen Hochrechnungsfaktoren. Sie enthalten sämtliche Stichproben mit Ausnahme der Hocheinkommensstichprobe G.
    • $xHRF1 sind Standard-Hochrechnungsfaktoren, bei denen zusätzlich zur Nichtberücksichtigung von Sample G die Gewichte von neuen Teil-Stichproben, d.h. in der sample-spezifischen ersten Welle, auf Null gesetzt sind. Hintergrund: In den ersten Wellen weisen die Befragten bei komplexen Erhebungskonstrukten ein "schlechteres" Antwortverhalten auf als in späteren Wellen (z. B. bezüglich Lebenszufriedenheit und Jahreseinkommen). Eine Ausnahme bildet hier Stichprobe C. Da für Befragte in der DDR solche Effekte im Antwortverhalten des Jahres 1990 nicht nachweisbar waren, sind hier GxHRF und GxHRF1 identisch.
      Für Standard-Querschnittsanalysen empfehlen wir die Verwendung des Hochrechungs-Typs $xHRF1 als Standard-Hochrechnungsfaktor. Damit werden die Informationen aus den jeweils ersten Wellen der Teilstichproben automatisch nicht genutzt.
    • $xHRFALL umfassen sämtliche verfügbare Stichproben.
    • $xHRFD, $xHRFF und $xHRFG kennzeichnen die isolierten Gewichte für die Zuwanderer-Stichprobe D, für die Ergänzungsstichprobe F und für die Hocheinkommens-Stichprobe G.

    2.2 Modifizierung Hochrechnungsrahmen
    Seit dem Jahr 2005 weist das Statistische Bundesamt Angaben für das Land Berlin nicht mehr getrennt nach West und Ost aus. Dies führte zu leichten Modifizierungen des Hochrechnungsrahmens für Haushalte rückwirkend seit dem Erhebungsjahr 2005.

    2.3 Neue Ergänzungsstichprobe H
    Die neuen Haushalte der im Erhebungsjahr 2006 erstmals erhobenen Ergänzungsstichprobe H ("Refreshment Sample") wurden in die Hochrechnung integriert. Die Einbeziehung der Stichprobe H ist gegenwärtig noch vorläufig. Es wird geprüft, ob und wie die Stichprobe H an zusätzliche externe Ränder angepasst wird. Dieses Vorgehen ist allerdings nicht gravierend, da wir ohnehin empfehlen, für deskriptive (Zeitreihen-) Analysen die Hochrechnungsfaktoren WxHRF1 zu verwenden, die die Stichprobe H ausschließen.

    2.4 Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005
    Die Hochrechnungsfaktoren für das Jahr 2006 basieren auf Eckdaten des Mikrozensus von 2005; sie sind also bezüglich der unterstellten Anzahl von Haushalten und Personen in Deutschland vorläufig.

    Für Nachfragen zu den Hochrechnungsfaktoren steht Ihnen Rainer Pischner (rpischner@diw.de, -319) gerne zur Verfügung.

    3. Neue Variablen

    3.1 Datensatz BIOAGE01
    Es wurden vier neue Variablen zum Schwangerschaftsstatus generiert. Basis der Generierungen sind im Wesentlichen der Interviewmonat aus $P, Geburtsmonat und -jahr des Kindes sowie Dauer der Schwangerschaft in Wochen aus BIOAGE01.

    BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?'
    Value Labels:
    2002 | Schwanger bei Personeninterview 2002
    2003 | Schwanger bei Personeninterview 2003
    2004 | Schwanger bei Personeninterview 2004
    2005 | Schwanger bei Personeninterview 2005
    2006 | Schwanger bei Personeninterview 2006
    2007 | Schwanger bei Personeninterview 2007

    BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)'
    Value Labels:
    1 | Erster Schwangerschaftsmonat
    2 | Zweiter Schwangerschaftsmonat
    3 | Dritter Schwangerschaftsmonat
    4 | Vierte Schwangerschaftsmonat
    5 | Fünfter Schwangerschaftsmonat
    6 | Sechster Schwangerschaftsmonat
    7 | Siebter Schwangerschaftsmonat
    8 | Achter Schwangerschaftsmonat
    9 | Neunter Schwangerschaftsmonat
    10 | Letzter Monat schwanger oder nach Geburt

    Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01.

    PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'.

    PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'.

    3.2 Datensatz BIOAGE17
    Den Aufbau und Inhalt finden Sie ausführlich in der Dokumentation der Biografiedaten ( PDF-Dokument, 969 KB) auf der SOEP-Homepage oder der DVD.

    3.3 Datensatz $PEQUIV

    ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II.
    FALG2$$: Flag zur Identifikation von Imputationen des Arbeitslosengeld II (ALG2$$).
    IDEMY$$: Betrag der im Vorjahr empfangenen Zahlungen aus Abfindungen (Indemnity).
    FDEMY$$: Flag zur Identifikation von Imputationen von Abfindungszahlungen (IDEMY$$).
    ITRAY$$: Betrag der im Vorjahr empfangenen Fahrtkostenzuschüsse (commuting and travel grants).
    FTRAY$$: Flag zur Identifikation von Imputationen von Fahrtkostenzuschüssen (ITRAY$$).

    3.4 Datensatz $HGEN

    NUTS1$$
    Zusätzlich zur Bundesland-Variable ist ab diesem Jahr für alle Wellen auch die entsprechende NUTS (Nomenclature des unités territoriales statistiques) Level 1-Variable verfügbar. Die Variable ist weitgehend identisch mit $BULA in $HBRUTTO, allerdings ohne die Zusammenfassung von Rheinland-Pfalz/ Saarland (ab 2000) bzw. ohne eine Differenzierung zwischen Ost- und West-Berlin.

    3.5 Datensatz $PGEN

    JOBCH$$
    In Ergänzung zu ERWTYP$$ (und langfristig zu deren Ersatz) wurde eine Variable zur Identifikation beruflicher Wechsel generiert. Die Kategorien dieser Variable sind unabhängig davon, ob eine Erst- oder Wiederholungsbefragung vorliegt. JOBCH$$ gibt für Personen mit Wiederholungsbefragung berufliche Wechsel seit dem letzten Interview an, für erstmals Befragte bezieht sie sich auf berufliche Wechsel, die seit Beginn des Vorjahres stattgefunden haben. Erstmals erwerbstätige Personen und erwerbstätige Personen mit beruflichem Wechsel werden hierbei getrennt ausgewiesen. Im Gegensatz zu ERWTYP$$ wurde JOBCH$$ einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle, wie beispielsweise Doppelnennungen eines beruflichen Wechsels in zwei aufeinander folgenden Interviews, wurden korrigiert.
    Value Labels>
    1 | Nicht erwerbstätig
    2 | Erwerbstätig ohne Wechsel
    3 | Erwerbstätig ohne Information, ob Wechsel
    4 | Erwerbstätig mit Wechsel
    5 | Erstmals erwerbstätig

    4. Überarbeitete Variablen

    4.1 Im Datensatz PPFAD:

    Umstellung der $NETTO Codes

    $NETTO
    Mit der Welle W (23. Erhebungswelle) wurde im aktuellen Erhebungsjahr 2006 die Erfassung der Befragungspopulation grundlegend verändert. Bisher wurde immer bei allen Personen im Haushalt über 16 Jahren ein Personeninterview durchgeführt. Ab dem Erhebungsjahr 2006 werden reguläre Personeninterviews auf Basis des Standard-Erwachsenenfragebogens erst ein Jahr später - im Alter ab 18 Jahren - durchgeführt. Erstbefragte Jugendliche im Alter von 17 Jahren erhalten stattdessen erstmals einen erweiterten Jugendfragebogen (dies gilt für die Samples A-G; bei der neuen Stichprobe H wird der Jugendfragebogen erst im nachfolgenden Jahr erhoben, die entsprechenden 17-jährigen Jugendlichen erhielten als erstes - wie bisher - den regulären Personenfragebogen).
    Die Befragungspersonen sind damit nicht mehr allein durch das Instrument des Personenfragebogens erfasst, sondern werden jetzt durch zwei Instrumente - Personen- und Jugendfragebogen - abgebildet. Zur konsistenten Abgrenzung im Zeitverlauf muss deshalb entweder die Jugendpopulation im aktuellen Jahr einbezogen werden oder die Altersabgrenzung für alle früheren Jahre erhöht werden.
    Die neu überarbeitete $NETTO-Variable unterstützt beide Abgrenzungen rückwirkend für den gesamten Befragungszeitraum. Der Zusammenhang zwischen Erhebungspopulation und Befragungsinstrument wird über die Variable $NETTO in PPFAD beziehungsweise $HNETTO in HPFAD gesteuert. Infolge der Veränderung der Befragungspopulation sowie der Erweiterung der Erhebungsinstrumente zur detaillierten Erfassung biografischer Zusammenhänge wurde die entsprechende Variable $NETTO in PPFAD grundlegend überarbeitet und wird jetzt als zweistellige Variable bereitgestellt. Die bisherige - einstellige - Variable wird als Hilfestellung unter verändertem Namen $NETOLD weitergeführt; die Variable $HNETTO in HPFAD ist von dieser Umstellung nicht betroffen und bleibt unverändert.
    Value Labels:

    (10-19)'Befragte und Befragungspersonen mit realisierten Interviews'
    10 | Befragungsperson mit realisiertem Interview
    11 | Personenfragebogen ($P)
    12 | Personenfragebogen und Lebenslauf
    13 | Personenfragebogen und Jugendfragebogen
    14 | Personenfragebogen und andere Fragebögen
    15 | Personenfragebogen und Experimente, Tests
    16 | Personenfragebogen, Erstbefragung, 17 Jahre
    17 | Jugendfragebogen Erstbefragung, 17 Jahre
    19 | Personenfragebogen ohne Haushaltsinterview

    (20-29)'Kinder in realisierten Haushalten
    20 | Kinder in realisierten Haushalten ($KIND)
    21 | Kinder mit Mutter-Kind-Fragebogen I, 0-1 Jahr
    22 | Kinder mit Mutter-Kind-Fragebogen II, 2-3 Jahre

    (30-39)'Personen ohne Personen-Interview in Brutto-Haushalten'
    30 | Personen in realisierten Haushalten ohne Personeninterview
    31 | Realisierte Nacherhebung ($LUECKE)
    32 | Realisierter Biografiefragebogen
    33 | Realisierter Jugendfragebogen
    34 | Realisierte Tests und Experimente

    (60-69)'Nur Fragebogen ohne Personeninterview außerhalb der Brutto-Haushalte
    60 | Nur Fragebogen ohne Personen- und Haushaltsinterview
    61 | Nacherhobene Lücke ohne Haushaltsbezug
    62 | Nacherhobene Lücke bei Ausfall
    70 | Nur Teilnahme an Tests, Experimenten etc.

    (80-89)'Personen ohne Austritt, aber ohne aktuelle Angabe im laufenden Jahr'
    80 | Person ohne Austritt aus Panel-Population
    81 | Vormals Befragte (ERSTBEF) ohne aktuellen Angaben
    89 | RückkehrerInnen (zuvor Ausfälle)

    (90-99)'Personenausfaelle und Austritte ($YPBRUTTO)'
    90 | Personenausfälle ($YPBRUTTO)
    91 | Wegzug ins Ausland
    99 | Verstorben

    $NETOLD
    In der neuen Variable $NETOLD ist der alte $NETTO-Code weiterhin nutzbar. Personen im Alter von 17 Jahren, die entweder einen Jugendfragebogen (n=307) oder einen Personenfragebogen (Sample H, n=31) ausgefüllt haben, sind jeweils mit dem Wert 1 codiert. Somit ist die Abgrenzung (WNETTO == 1 | WNETTO == 5) nicht identisch ist mit der Population in WP.

    4.2 In den Datensätzen BIOBIRTH und BIOBRTHM

    KIDMON[n]
    Mit Welle W beinhaltet die Geburtsbiografie der Männer (BIOBRTHM) wie der Frauen (BIOBIRTH) neben dem Geburtsjahr für jedes Kind (KIDGEB[n], mit n = (1...15)) auch den Geburtsmonat für jedes Kind (KIDMON[n]). Jener Geburtmonat deckt sich mit dem Geburtsmonat des jeweiligen Kindes in PPFAD.

    4.3 Im Datensatz BIOTWIN

    2006 wurde in allen Haushalten, in denen ein Zwillingspaar oder andere Mehrlinge leben, eine eigene Erhebung durchgeführt. Dieser Zwillings-Survey hatte das Ziel, die Zwillingsgruppen zu validieren und zusätzliche Informationen zu gewinnen. Folgende Variablen wurden in diesem Zusammenhang im Datensatz BIOTWIN geändert bzw. neu eingeführt:

    BIOMONOZ
    Die Variable BIOMONOZ beschreibt die Differenzierung zwischen ein- und mehreiigen Zwillingen/Mehrlingen. Der Status, ob das Zwillingspaar ein- oder mehreiig ist, wurde in der Erhebung eigens erfragt (bisher wurde dieser Status aus dem gleichen bzw. verschieden Geschlecht der Zwillinge abgeleitet). Neue Codes wurden in der Variable BIOMONOZ eingeführt, um diese verbesserte Informationslage zu reflektieren. Die Ausprägungen sind daher nicht mehr kompatibel mit jenen, die vor Welle W im Datensatz BIOTWIN in der Variable BIOMONOZ enthalten waren.

    INFOTWIN
    Neu eingeführt wurde die Variable INFOTWIN. Sie gibt Auskunft darüber, ob Informationen aus dem 2006 durchgeführten Zwillingssurvey vorliegen, ob die Informationen aus existierenden SOEP-Daten abgeleitet wurden und ob eine frühere Erfassung eines jeweiligen Zwillingspaares sich mit den Ergebnissen des Zwillingssurveys deckt.

    4.4 Im Datensatz $PEQUIV

    I11105$$
    Die Variable (Mietwert selbstgenutzten Wohneigentums = Imputed Rent) wurde bisher nur für Personen in selbstgenutztem Wohneigentum generiert. Entsprechend aktueller Forschungsergebnisse und auch der Vorschläge der Europäischen Kommission zur Generierung von Imputed Rent in EU-SILC wird dieser fiktive Einkommensvorteil nun auch für Personen in Mieterhaushalten generiert, die angeben, keine marktgerechte Miete für ihren Wohnraum zu entrichten. Dies sind Personen in mietfreiem Wohnraum, Mieter in Wohnungen des sozialen Wohnungsbaus und Mieter mit verbilligt überlassenem Wohnraum (z.B. vom Arbeitgeber verbilligt überlassene Werkswohnung, von Verwandten oder sonstigen Dritten verbilligt überlassener Wohnraum).

    W11101$$ und W11102$$
    Aufgrund der Umstellung der Hochrechnungsfaktoren in den Files PHRF und HHRF beinhaltet die Variable W11101$$ nun den Personenhochrechnungsfaktor $PHRF1 (aus dem File PHRF) und die Variable W11102$$ den Haushaltshochrechnungsfaktor $HHRF1 (aus dem File HHRF). Befragte des SOEP weisen in ihrer ersten Befragungswelle einen signifikant höheren Anteil von Item-non-Response auf, der mittels Imputation nicht adäquat korrigiert werden kann. Daher vernachlässigen diese beiden Gewichte jeweils die erste Welle eines jeden neuen Subsamples des SOEP. Des Weiteren wird das Subsample G (Hocheinkommensbezieher) aus dem Gewichtungsschema ausgeschlossen, um Strukturbrüche in der Analyse von Einkommen im Vergleich zu Ergebnissen ohne Subsample G zu vermeiden. Diese beiden Gewichtungsvariablen sind daher besonders geeignet, eine konsistente Analyse einer Zeitreihe von Einkommen oder deren Verteilung zu unterstützen.

    W11105$$
    Die Variable W11105$$ beinhaltet nun den Personenhochrechnungsfaktor $PHRFALL (aus dem File PHRF). Diese Gewichtungsvariable berücksichtigt alle Subsamples des SOEP.

    E11105$$
    Der Inhalt der Variable E11105$$ besteht nun aus der Berufsklassifizierung nach dem internationalen Standard "ISCO88".

    E11106$$ und E111076$$
    Die Variablen E11106$$ und E11107$$ geben nun die Branchenzugehörigkeit in Form eines 1 bzw. 2-Stellers im internationalen Standard "NACE" wieder.

    4.5 Im Datensatz $PGEN

    GERWZEIT, HERWZEIT
    Für die Jahre 1990 und 1991 werden nun auch für Sample C (Ost) Werte für die Dauer der Betriebszugehörigkeit bereitgestellt. Aufgrund der eventuell eingeschränkten Vergleichbarkeit im Zuge des ostdeutschen Transformationsprozesses sind diese Angaben jedoch mit besonderer Vorsicht zu behandeln.

    $ERWZEIT
    Die Dauer der Betriebszugehörigkeit wurde aufgrund bisher auftretender Inkonsistenten zwischen verschiedenen Interviewzeitpunkten einer Längsschnittkonsistenzprüfung unterzogen. Im Längsschnitt inkonsistente Fälle wurden anhand der folgenden Vorgehensweise korrigiert:

    1. Der Beschäftigungsbeginn beim derzeitigen Arbeitgeber, der zum frühesten Befragungszeitpunkt angegeben wird, ist grundsätzlich dominant und wird in den Folgejahren fortgeschrieben, falls kein Stellenwechsel und keine Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung vorliegt.
    2. Im Falle eines Stellenwechsels (Wechsel des Arbeitgebers/Wechsel in die Selbständigkeit) werden die aktuellen Angaben zum Zeitpunkt des Stellenwechsels verwendet und in den Folgejahren fortgeschrieben.
    3. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird vermutet, dass ein Arbeitnehmer zu seinem alten Arbeitgeber zurückgekehrt ist, wenn der aktuell angegebene Beschäftigungsbeginn vor dem letzten Befragungsjahr liegt. In diesem Fall wird nicht auf den aktuellen Beschäftigungsbeginn zurückgegriffen, sondern der Beschäftigungsbeginn, der bei der letzten Befragung erhoben wurde, fortgeschrieben. Liegt die aktuelle Angabe zum Beschäftigungsbeginn nach dem letzten Befragungsjahr, wird ein Arbeitgeberwechsel seit der letzten Befragung angenommen und die aktuelle Angabe zum Beschäftigungsbeginn fortgeschrieben.
    Aus dem längsschnittkonsistenten Beschäftigungsbeginn beim derzeitigen Arbeitgeber wird die Dauer der Betriebszugehörigkeit ermittelt. Bei Wiederaufnahme der Erwerbstätigkeit nach einer Unterbrechung wird für Arbeitnehmer, bei denen vermutet wird, dass sie zum alten Arbeitgeber zurückgekehrt sind, die komplette Betriebszugehörigkeitsdauer erfasst. Es erfolgt kein Abzug für die Dauer der Unterbrechung, insofern wird die implizite Messung von betriebsspezifischem Humankapital ggf. überschätzt.

    AUSB$$
    Da bei der erforderlichen Ausbildung im Beruf seit 1999 zwischen Fachhochschul- und Hochschulstudium unterschieden wird, wurden für die Jahre vor 1999 und nach 1999 verschiedene Kategorien für die AUSB$$ 'erforderliche Ausbildung im Beruf' gebildet. In den aktuellen Jahren gibt es getrennte Kategorien, die explizit zwischen diesen beiden Abschlüssen unterschieden. Zudem werden Fachschule und Fachhochschule nun getrennt ausgewiesen.
    Value Labels:
    1 | Keine Ausbildung
    2 | Einweisung
    3 | Einarbeitung
    4 | Kurse
    5 | Berufsausbildung
    6 | Fachschule, Ingenieurschule (Ost) 1990-1996
    7 | (Fach-,) Hochschulstudium, bis 1998
    8 | Fachhochschulstudium, ab 1999
    9 | Hochschulstudium, ab 1999

    MPS$$
    Für die Wellen U,V und W wurden die Werte für die 'Magnitude Prestigeskala - Wegener' für Befragungspersonen ohne Haushaltsinterview ($NETTO=19) ergänzt.

    ERWTYP$$
    Die Variable Erwerbstypus wird mit der alten Kategorisierung beibehalten, jedoch wird aufgrund der gemeinsamen Ausprägung von erstmals Erwerbstätigen und erwerbstätigen Personen mit beruflichem Wechsel das Label dieser Kategorie geändert. Die Ausprägung 6 wird mit dem Label 'erwerbstätig mit Wechsel, auch erstmals erwerbstätig' versehen.

    5. Fehlerupdates

    EGP$$
    Die Variable ' Erikson and Goldthorpe Class Category" (internationaler Index des beruflichen Status) wurde bezüglich der Zuordnung von akademischen Freiberuflern korrigiert, welche bisher den Selbständigen zugeordnet wurden (Ausprägung 5 oder 6). Bei der korrigierten Generierung werden akademische Freiberufler der oberen Dienstklasse zugewiesen, welche der Ausprägung 1 entspricht.

    Bildungsvariablen
    Durch Nutzerhinweise konnte ein Fehler bei der Generierung der Bildungsvariablen in $PGEN aufgedeckt werden, der sich vor einiger Zeit bei der Nachgenerierung für die Jahre 2000 und 2001 eingeschlichen hat und seitdem fortgeschrieben wurde. Der Fehler umfasst die ausländischen Hochschulabschlüsse in der Variable $PBBIL02, die als zu hoch ausgewiesen wurden. Der Fehler kam bei der Integration der Variable $PBBILA und $PBBIL02 in diesen beiden Jahren zustande.
    Deshalb wurden jetzt alle Bildungsabschlüsse rückwirkend für die Jahre 2000 bis 2006 nochmals neu generiert. Die daraus abgeleiteten Variablen $BILZEIT, ISCED$$ und CASMIN$$ wurden entsprechend ebenfalls rückwirkend ab 2000 aktualisiert.

    6. Gelöschte Variablen

    W11106$$ 'HH-Weight immigrant sample' in $PEQUIV.

    $KGMONAT ‚Geburtsmonat Kind' in $KIND, außer Wellen D und T.

    $PHRFXX in PHRF und HHRF.

           
     

    1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?

      Die neue Stichprobe (G) wird mit dem Code 7 identifiziert. Es wurde versucht, dass jede Befragungsperson an der SOEP-Erstbefragung dieser Stichprobe teilnimmt. Ähnlich wie bereits bei den neuen Stichproben E und F, die 1998 bzw. 2000 erstmals befragt wurden, wird in der ersten Welle bei neuen Stichproben auf die Erhebung biographischer Zusatzinformationen verzichtet. Für die Stichprobe G wurden die Biographie-Variablen also erst in der zweiten Welle, d.h. im Jahre 2003, erhoben.

    Weitere ausführliche Informationen zum Start der neuen SOEP-Stichprobe finden sich im Forschungsbericht des Bundesministeriums für Gesundheit und Soziale Sicherung Repräsentative Analyse der Lebenslagen einkommensstarker Haushalte ( PDF-Dokument).

           
     

    1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?

      In rund der Hälfte der Fälle in Stichprobe E wird - im Rahmen eines zufälligen Splittings der Stichprobe - seit dem Jahr 2000 die für das SOEP neue Erhebungsmethode CAPI (=Computer Assisted Personal Interview) angewandt. Sie identifizieren diese Interviews in der Variablen $PFORM* in $PBRUTTO bzw. $HFORM* in $HBRUTTO.

    Erste erhebungsmethodische Analysen zeigten keine signifikanten Methodeneffekte. D.h., für die inhaltlichen Ergebnisse scheint die Form der Datenerhebung keinerlei eigenständige Einflüsse auszuüben. Weitere Analysen zur Erhebungsmethode durch Nutzer/innen sind natürlich sinnvoll.

    Seit dem Jahr 2001 wird diese Erhebungsmethode zunehmend auch in den Alt-Stichproben A bis D sowie F eingesetzt.

           
     

    1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?

      Vermutlich haben Sie nur einige Files aus der aktuellen Datenlieferung (SAS-Version) installiert. Dieses Problem dürfte nicht entstehen, wenn Sie die SAS-Version des aktuellen Datensatz vollständig auf Ihren Rechner implementieren. Wir empfehlen, so bei jeder neuen Datenlieferung zu verfahren.

    Das Problem liegt in der Art und Weise wie SAS die Value-Labels verarbeitet. So werden alle Value-Labels für alle Files in einer SAS Library (einem Directory) in einem einzigen File "FORMATS.SC2" (oder UNIX "formats.sct01") gespeichert. Die setzt voraus, dass alle Value-Labels durchweg einzigartig in der Library sind. Tatsächlich werden die Value-Labels aber neu definiert. Es entstehen nun fast zwangsläufig Probleme, wenn Daten-Files von unterschiedlichen Datenlieferungen in einem Directory kombiniert werden. Die Lösung ist einfach: Installieren Sie bei jeder neuen Datenlieferung immer alle Files. Dieses "Problem" hängt mit SAS zusammen und kann von uns nicht gelöst werden.

           
     

    1.5 Was ist der Jugendfragebogen?

      Seit dem Jahr 2000 werden im SOEP Daten zu kinder- und jugendspezifischen Themen mit einem eigenen Instrument, dem Jugendfragebogen, erhoben. Er wird anstelle des Lebenslauffragebogens erhoben, weil die dort gestellten Fragen zur Familien- und Berufsbiographie für die Jugendlichen noch nicht zutreffen und Angaben zur sozialen Herkunft i.d.R. bereits vorliegen. Nur in den Fällen, in denen Jugendliche nicht mehr mit einem oder beiden Elternteilen zusammenwohnen, werden die entsprechenden Informationen über die Eltern erhoben. Zusätzlich werden die Standardfragen zur Immigration aus dem Lebenslauffragebogen an zugewanderte Jugendliche gestellt. Somit wird gewährleistet, dass alle wichtigen Informationen, die im Lebenslauffragebogen erhoben werden, auch für Jugendliche vorliegen.

    Der Jugendfragebogen enthält insbesondere retrospektive Fragen zur Schullaufbahn (Empfehlung für die Sekundarstufe I, Wiederholung einer oder mehrerer Klassenstufen), zur Musikerziehung und zum Sport wie auch zur aktuellen Situation (schulische Leistung, Freizeitgestaltung, Jobben, Verhältnis zu den Eltern etc.). Auch werden zahlreiche Prospektivfragen zu (Aus-)Bildungsplänen und Erwartungen an die berufliche und familiäre Zukunft gestellt. Die Jugenddaten ermöglichen somit zahlreiche Analysen, da sie retrospektive Informationen zur Kindheit enthalten, die mit der Geschichte der Eltern verknüpfbar sind, sowie auch prospektive Fragen. Da im SOEP alle Haushaltsmitglieder ab 17 Jahren befragt werden, eignet sich die Datenlage u.a. hervorragend für intergenerationale Analysen.

    Im Jahr 2000 wurde ein Pre-Test mit 232 Jugendlichen durchgeführt, die in SOEP-Haushalten leben (17-Jährige in Sample A-E). Einen erweiterten und überarbeiteten Fragebogen haben im Jahr 2001 618 Jugendliche, die zwischen 17 und 19 Jahre alt wurden, ausgefüllt (17-Jährige in Sample A-E, 17 bis 19-Jährige in Sample F).

    Seit dem Jahr 2002 füllen jeweils alle 17-jährigen Jugendlichen, die erstmals persönlich in einem SOEP-Haushalt befragt werden, zum Start ihrer "Befragungskarriere" den Jugendfragebogen aus. Die Daten der dieser Befragungen sind in dem Datensatz "BIOAGE17" (bis zur Datenweitergabe 2005: "BIOYOUTH") abgelegt. Pro Welle werden etwa 350 Jugendliche dazukommen. So wird kumulativ rasch ein großer jugendspezifischer Datensatz entstehen. Weitere Informationen finden Sie im Kapitel 13 unserer Dokumentation zu Biographiedaten.

           
     

    1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten?

      In den Jahren 2000 und 2001 wurde der Biographiefragebogen um einige Fragen erweitert, die sich unmittelbar auf Ereignisse in der Jugend beziehen. Einige dieser Fragen korrespondieren unmittelbar mit denen, die auch im Jugendfragebogen gestellt werden. Die Befragten werden darum gebeten, retrospektive Angaben zu ihrer Jugend zu machen, wie z.B. zu ihren Beziehung zu den Eltern als sie 15 Jahre alt waren, zu ihren Schulnoten, zum Bundesland, in dem sie ihren Schulabschluss erworben haben, und ob sie noch einen Schulabschluss anstreben. Auch die im Biographiefragebogen erhobenen Angaben zu Wehr-, Zivildienst und Freiwilligem Sozialen Jahr sind hier abgelegt.

    Weitere Informationen finden Sie im Kapitel 11 unserer Dokumentation zu Biographiedaten.

           
     

    1.7 Wo finde ich Informationen über frühere Datenlieferungen?

     

    Dokumentation der Änderungen am Datensatz seit 1995

           
         

    2 Nutzungsbedingungen


     

    2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?

      Die SOEP-Mikrodaten werden von uns so weitergegeben, dass sie durch ein Statistikprogramm ausgewertet werden müssen, bevor sie interpretiert werden können. Sie stehen der wissenschaftlichen Forschung gegen eine geringe Gebühr zur Verfügung.

    Ausgewählte Ergebnisse von bereits durchgeführten Analysen haben wir für Sie in Pressemitteilungen aufbereitet. Alle uns bekannten Arbeiten werden in der Datenbank SOEPlit registriert und können online durchsucht werden. Darüber hinaus haben wir viele Originalarbeiten, die im Internet erhältlich sind, auf unseren Internetseiten aufgeführt.

    Mehr Informationen dazu ..

    Die direkte Nutzung der SOEP-Daten unterliegt den hohen Anforderungen des gesetzlichen Datenschutzes in der Bundesrepublik Deutschland. Für die Arbeit mit den SOEP-Daten ist daher der Abschluss eines Datenweitergabevertrages notwendig.

    Falls Sie diesen noch nicht mit uns abgeschlossen haben, können Sie ihn hier beantragen.

    Verfügen Sie bereits über einen Datenweitergabevertrag, bestellen Sie bitte die SOEP-Daten mit dem Bestellformular auf unserer Homepage. Die Daten werden aus Sicherheitsgründen per "Wert-Brief" verschickt (und sind auf keinen Fall via Internet zu erhalten).

    Zur Bearbeitung Ihres Antrags benötigen wir

    1.die vollständige berufliche Adresse (inkl. Tel.- und Fax.-Nr.) desjenigen bzw. derjenigen, der/die für das Forschungsprojekt verantwortlich ist (bei Dissertationen und Diplomarbeiten der/die jeweils zuständige ProfessorIn);
    2.benötigen wir den Kurztitel Ihres Forschungsprojektes bzw. Ihres Forschungsprogramms, für das Sie die Daten verwenden wollen.

    Falls Sie weitere Fragen haben, können Sie sich gerne unter soepmail@diw.de an Michaela Engelmann wenden.

           
     

    2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?

      Für die Jahre 1984 bis zum aktuellen Rand liegen Datenreihen - ab 1990 getrennt nach Ost- und Westdeutschland - auf Haushalts- und Personenebene vor. Im SOEP-Monitor Haushalt gibt es insbesondere Informationen zur Wohnsituation der Haushalte; im SOEP-Monitor Personen finden Sie Kennzahlen zu Arbeitsmarkt, Bildung, Einkommen und subjektiven Indikatoren (z.B. Lebenszufriedenheit).

    Auch der vom Statistischen Bundesamt herausgegebene Datenreport enthält einige Beiträge zu Lebensbedingungen und ihre Bewertungen in Deutschland auf Grundlage der SOEP Daten (z.B. Statistisches Bundesamt (Hg.) (2004): Datenreport 2004. Schriftenreihe der Bundeszentrale für politische Bildung. Band 450. Im Internet bei den Publikationen des Statistischen Bundesamtes oder unter http://www.gesis.org/Dauerbeobachtung/Sozialindikatoren/Publikationen/Datenreport/dr06.htm.

           
     

    2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?

      Ja, aber es ist eine Nutzungsgebühr fällig. Bitte wenden Sie sich mit Ihrem konkreten Anliegen direkt an den Projektleiter Prof. Dr. Gert G. Wagner.
           
     

    2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus?

      Generell nicht. Für den Fall, dass Sie Sonderauswertungen und Gutachten durch das DIW Berlin in Auftrag geben möchten, wenden Sie sich bitte an die SOEP-Projektleitung: Prof. Dr. Gert G. Wagner.
    SOEPinfo gibt einen Überblick über den Inhalt des Datensatzes mit Häufigkeitsauszählungen der Variablen.
           
     

    2.5 Finden Kurse zur Einführung in die SOEP-Daten statt?

      Gewöhnlich veranstaltet die SOEP-Gruppe in jedem Frühjahr SOEP-Einführungskurse am DIW in Berlin. Darüber hinaus werden alle zwei Jahre Kurse für internationale Datennutzer/innen angeboten, die in der Regel in den USA stattfinden. Beide Kurse werden zeitig im NEWSLETTER angekündigt; dort finden sie auch Anmeldeformulare.

    Unsere Dokumentationen geben zudem eine Einführung in die Analyse der SOEP-Daten. Insbesondere das Kernstück der SOEP-Dokumentation, das DTC ist dort abrufbar. Für die erfolgfreiche Teilnahme an einem SOEP-Workshop ist ein intensives Durcharbeiten des DTC ebenso zentrale Voraussetzung wie die Kenntnis eines von der SOEP-Projektgruppe unterstützten Statistik-Software Paketes (überwiegend SAS, SPSS oder STATA).

           
     

    2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File?

      Um Forscher/innen außerhalb der EWG-Staaten die SOEP-Daten zugänglich zu machen, musste aufgrund deutscher Datenschutzbestimmungen der SOEP-Datensatz leicht reduziert werden. Der Scientific-Use-File des SOEP ist eine 95%-Zufallsstichprobe, das heißt, 5% der befragten Haushalte der jeweils ersten Welle einer Stichprobe wurden nachträglich zufällig aus dem Datensatz entfernt. Längsschnittanalysen können somit unproblematisch durchgeführt werden. Das Verfahren verzerrt die Ergebnisse nicht; selbstverständlich ist der Stichprobenfehler aufgrund der geringeren Fallzahl etwas größer als im 100%-Datensatz.

    Zudem wird die in der 5. Welle erhobene Vermögensbilanz (Datei EV) nicht weitergegeben.

    Die Weitergabe der vollständigen Informationen zur Staatsbürgerschaft konnte erstmals Anfang 2004 für die Daten 1984-2002 realisiert werden. Seitdem sind auch im Scientific-Use-File die Informationen zur Nationalität einer Person in Nation$$ und das Herkunftsland in CORIGIN abgelegt (siehe auch Frage 4.5).

           
         

    3 Vertragsmanagement


     

    3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?

      Jede Mitarbeiterin und jeder Mitarbeiter, die/der in Ihrer Forschungsgruppe mit den SOEP-Daten arbeitet, muss auf die Einhaltung des Datenschutzes verpflichtet werden. Sie erhalten entsprechende Kopiervorlagen zusammen mit dem Datenweitergabevertrag. Falls Ihnen diese Unterlagen ausgegangen sind, finden Sie hier ein Merkblatt zum Datenschutz ( PDF-Dokument) sowie das Muster einer Verpflichtungserklärung ( PDF-Dokument).
           
     

    3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?

      Bitte schicken Sie uns einfach eine kurze Nachricht mit dem Titel Ihres neuen Forschungsschwerpunktes (soepmail@diw.de). Wenn Sie ein Gutachten bearbeiten oder Auftragsforschung betreiben, informieren Sie uns bitte auch hierüber, da dann eine Nutzungsgebühr vereinbart werden muss.
           
     

    3.3 Wie soll ich das SOEP in meinen Publikationen zitieren?

      Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen lauten:

    Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW), Berlin, bereitgestellt.

    Wenn Sie einen Beitrag zitieren möchten, der das SOEP beschreibt, verwenden Sie bitte:

    SOEP Group (2001): The German Socio-Economic Panel (GSOEP) after more than 15 years - Overview. In: Elke Holst, Dr. Dean R. Lillard und Thomas A. DiPrete (Hg.): Proceedings of the 2000 Fourth International Conference of German Socio-Economic Panel Study Users (GSOEP2000), Vierteljahrshefte zur Wirtschaftsforschung, Jg. 70, Nr. 1, S. 7-14.

    Wenn Sie einen Beitrag zitieren möchten, der das GSOEP - also das scientific use file mit der 95% Version des SOEP - beschreibt, verwenden Sie bitte:

    Burkhauser, Richard V.; Butrica, Barbara A.; Daly, Mary C. and Lillard, Dean R. (2001): The Cross-National Equivalent File: A product of cross-national research. In: Becker, Irene; Ott, Notburga und Rolf, Gabriele (Hrsg.): Soziale Sicherung in einer dynamischen Gesellschaft. Festschrift für Richard Hauser zum 65. Geburtstag, Frankfurt/New York: Campus, S. 354-376

    Die Dokumentation der auf Basis des SOEP erstellten Publikationen hat eine große Bedeutung für die erfolgreiche Weiterführung des Projektes. Wie Sie wissen, ist die Übersendung Ihrer Publikationen auch Teil des Datennutzungsvertrages. Leider ist unsere Datenbank SOEPlit bei weitem nicht vollständig. Bitte senden Sie uns daher Ihre auf dem SOEP basierenden Publikationen.

    Vielen Dank!
    Ansprechpartner: Jürgen Schupp

           
     

    3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?

      Wir unterstützen den Einsatz von SOEP-Daten in der Lehre. Hier sind jedoch einige wichtige Regeln ( PDF-Dokument) - zum Beispiel zur Reduzierung des Datensatzes - zu beachten.
    Auch die Nutzerinnen und Nutzer eines reduzierten Datensatzes sollten auf die Einhaltung des Datenschutzes verpflichtet werden (Beispielformular ( PDF-Dokument)).
           
     

    3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden?

      Um in die Liste eingetragen zu werden, bitte eine Mail schicken an:
    sympa@list.diw.de, Betreff (subject): subscribe soep-l.
    Die Liste hat die Email-Adresse soep-l@list.diw.de.
    Weitere Informationen gibt es hier.

           
         

    4 Auswertungen mit dem SOEP


     

    4.1 Sind die von mir gesuchten Variablen im SOEP enthalten?

      Mit dem interaktiven Programm SOEPinfo können Sie gezielt nach Themenbereichen und Schlagworten suchen und einen Überblick über alle erhobenen Variablen (inkl. Häufigkeitsauszählungen) und Fragebögen erhalten.
           
     

    4.2 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?

      Im Standarddatensatz ist die Variable $BULA (= Bundesland) enthalten. Sollten Sie tiefer gegliederte Regionalinformationen für Ihre Forschungsarbeit benötigen, z.B. Gemeindegrößenklassen, die auf der SOEP-CD vorhanden sind, benötigen Sie einen erweiterten Datennutzungsvertrag. Um darüber hinaus die "Raumordnungsregionen" (ROR) nutzen zu können, müssen Sie ein spezielles Datenschutzkonzept vorlegen (als das Richtlinie finden Sie hier ( PDF-Dokument) die für die DIW-interne Nutzung geltenden Regeln) und erhalten dann einen Sonder-Datenweitergabevertrag.

    Im Rahmen von Forschungsaufenthalten am DIW Berlin oder über SOEPremote besteht die Möglichkeit, auch auf der Ebene der - datenschutzrechtlich besonders sensitiven - kleinräumigen "Kreiskennziffern" (KKZ) und Postleitzahlen auszuwerten.

    Es gibt eine DIW Data Documentation über Regionaldaten im Sozio-oekonomischen Panel (SOEP) ( PDF-Dokument). Informationen inhaltlicher Art zur Nutzung des SOEP mit Raumordnungsregionen finden Sie in diesen Kurzinformationen zum SOEP-Geocode ( PDF-Dokument, 370 KB).

    Nähere Auskünfte zum Datenschutz, zur Weitergabe von bzw. Zugang zu den SOEP-Regionaldaten erhalten Sie bei Michaela Engelmann (soepmail@diw.de).
    Ansprechpartner für Fragen inhaltlicher Art ist Jan Goebel.

           
     

    4.3 Sind Bundesländer repräsentativ auswertbar?

      Als einzelnes Bundesland ist aufgrund seiner Größe bis zu Welle P (1999) im Grunde nur Nordrhein-Westfalen (NRW) sinnvoll auswertbar. Prinzipiell besteht die Gefahr, dass bei tiefer gegliederten Strukturanalysen die bundesländerspezifischen Fallzahlen einzelner Zellen für statistisch signifikante Aussagen zu klein werden. Auswertbar sind die Daten jedoch für "Pools" einzelner kleiner Bundesländer (z.B. Ländertypen).
    Seit dem Jahr 2000 verbessern sich die Analysemöglichkeiten aufgrund deutlich größerer Fallzahlen (Samples A-F).
           
     

    4.4 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?

      Generierte Variablen dienen ebenso wie Status-Variablen der Vereinfachung der Arbeit mit den SOEP-Daten. Bei ihrer Generierung fließen jeweils spezifische Annahmen ein, die Sie der Dokumentation entnehmen können. Schauen Sie die Dokumentation für die Files $PGEN und $HGEN an (Joachim Frick). Zu den Neuerungen vgl. Frage 1.1.

           
     

    4.5 Wie kann ich Rentnerinnen und Rentner im Datensatz identifizieren?

      Je nach Fragestellung bieten sich hierzu verschiedene Möglichkeiten an:
    • Selbstauskunft der Befragten zum Erwerbsstatus im Vorjahr. Diese Information ist im Kalenderfile $PKAL abgelegt und umfasst die Art des Erwerbsstatus als Rentner/Pensionär [mit Hilfe der Variablen $P1E01 und $P1E02] bzw. den Bezug von Altersrente / Pension im Vorjahr [mit Hilfe der Variablen $P2D01 bis $P2D03]
    • Alter der Befragungsperson (z.B. ableitbar aus der Variablen GEBJAHR in PPFAD)
    • Berücksichtigung des aktuellen Erwerbsstatus (nicht erwerbstätig), ggf. in Kombination mit der Altersangabe. Beachten Sie hierbei bitte, dass Rentner mit Arbeitsvertrag beim zentralen Erwerbsfilter (z.B. UP09) als erwerbstätig gelten
    • Personen, die erst seit kurzem den Status als Rentner / Pensionär innehaben, sind identifizierbar über den Grund für die Beendigung des letzten Beschäftigungsverhältnisses (z.B. Variable UP75, Code 6: "Erreichen der Altersgrenze / Rente / Pension")
    • Darüber hinaus sind natürlich auch Kombinationen dieser genannten Varianten möglich wie z.B. "Alter > 65 Jahre" und gleichzeitig "Bezug einer Altersrente"

           
     

    4.6 Kann sich die Stichproben- Zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?

      Die Stichprobenzugehörigkeit (Variablen PSAMPLE in PPFAD bzw. HSAMPLE in HPFAD) verändert sich grundsätzlich nicht. Weder durch den Wechsel der Staatsbürgerschaft noch durch den Umzug in eine andere Sample-Region (von West- nach Ostdeutschland oder umgekehrt). Die Person bleibt trotzdem in der Ausländer-, bzw. West- oder Oststichprobe. Die aktuelle Nationalität (NATION$$) bzw. Regionalzugehörigkeit ($SAMPREG) ist leicht erkennbar.
           
     

    4.7 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?

      Mittlerweile sind zahlreiche Befragte von Ost- nach Westdeutschland und - in geringerem Umfang von West- nach Ostdeutschland - umgezogen. Analysen, die auf regionale Bezüge abstellen, werden durch Verwendung der Variablen PSAMPLE, die die Stichprobenzugehörigkeit angibt, zum Teil erheblich verzerrt (PSAMPLE befindet sich in PPFAD: 1 = Subsample A, 2 = Subsample B, 3 = Subsample C, 4= Subsample D (Zuwanderer), 5 = Subsample E (Ergänzungsstichprobe ab 1998), 6 = Subsample F (Innovationsstichprobe ab 2000)).

    Eine korrekte regionale Zuordnung der Stichprobenmitglieder wird nur über die zeitabhängigen Variablen $SAMPREG in PPFAD und HPFAD erreicht (1 = Westdeutschland, 2 = Ostdeutschland).

    In $SAMPREG wird seit 1990 für jedes Jahr die west- bzw. ostdeutsche Population unabhängig von der Sample-Zugehörigkeit ermittelt. Wir empfehlen, immer diese Variable für regionale Analysen zu verwenden!

    Die nachfolgende Tabelle, bei der eine Kreuztabellierung von $SAMPREG und PSAMPLE vorgenommen wurde, gibt einen Einblick über das Ausmaß der regionalen Mobilität seit 1990 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews) oder $NETTO=2 (Kinder bis 16 Jahren) in befragten Haushalten).

      Sample    Total
     
      1990 (Wave G)    
      West Germany   8717 3493 - - - - - 12210
      East Germany   - - 6044 - - - - 6044
     
      1991 (Wave H)    
      West Germany   8667 3494 44 - - - - 12205
      East Germany   0 0 5639 - - - - 5639
     
      1992 (Wave I)    
      West Germany   8526 3416 138 - - - - 12080
      East Germany   2 0 5347 - - - - 5349
     
      1993 (Wave J)    
      West Germany   8450 3338 186 - - - - 11974
      East Germany   8 0 5090 - - - - 5098
     
      1994 (Wave K)    
      West Germany   8336 3187 227 719 - - - 12469
      East Germany   11 0 4954 - - - - 4962
     
      1995 (Wave L)    
      West Germany   8254 2992 280 1592 - - - 13118
      East Germany   23 2 4781 3 - - - 4809
     
      1996 (Wave M)    
      West Germany   8111 2896 294 1479 - - - 12780
      East Germany   27 2 4682 13 - - - 4724
     
      1997 (Wave N)    
      West Germany   8009 2794 311 1407 - - - 12521
      East Germany   30 2 4550 23 - - - 4605
     
      1998 (Wave O)    
      West Germany   7760 2618 294 1269 1959 - - 13900
      East Germany   39 2 4373 19 417 - - 4850
     
      1999 (Wave P)    
      West Germany   7568 2519 326 1190 1663 - - 13266
      East Germany   41 1 4267 23 372 - - 4704
     
      2000 (Wave Q)    
      West Germany   7311 2392 436 1149 1566 11275 - 24039
      East Germany   49 0 4167 27 355 2608 - 7206
     
      2001 (Wave R)    
      West Germany   7165 2355 364 1077 1479 9301 - 21741
      East Germany   56 0 4002 27 333 2209 - 6627
     
      2002 (Wave S)    
      West Germany   6946 2210 359 1032 1371 8502 2986 23406
      East Germany   62 0 3813 28 310 2036 378 6627
     
      2003 (Wave T)    
      West Germany   6839 2116 394 1036 1325 7928 2247 21885
      East Germany   60 1 3740 26 290 1986 282 6385
     
      2004 (Wave U)    
      West Germany   6655 2030 441 977 1292 7563 2151 22109
      East Germany   69 1 3649 26 291 1890 269 6195
     
      Sample    Total
         
           
     

    4.8 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?

      Analog zum o.g. Phänomen ($SAMPREG vs.P SAMPLE) wird häufig auch eine Identität des Samples B mit der Population der im SOEP interviewten Gruppe der "Ausländer" unterstellt, während Sample A mit "Deutschen" gleichgesetzt wird. Dies trifft zwar im großen und ganzen zu, ist jedoch nicht exakt und wird im Zeitverlauf immer weniger genau.
    Zu Beginn des SOEP im Jahre 1984 war es die Nationalität des Haushaltsvorstands, die eine Zugehörigkeit in die beiden Samples A und B festlegte. Nichtdestotrotz konnten weitere Haushaltsmitglieder mit einer anderen Nationalität als derjenigen des Vorstandes in diesen Haushalten leben. Zudem enthielt auch Sample A AusländerInnen, sofern sie nicht einer der durch Sample B repräsentierten Nationalitäten angehörten. Deutlich verstärkt wird das Auseinanderklaffen von SAMPLE-Zugehörigkeit und (zeitpunktbezogener) Nationalitätsinformation insbesondere durch das Einbürgerungsverhalten von Personen im Sample B.
    Während Sample C auch bis zum Jahr 2000 fast ausnahmslos aus Personen mit deutscher Nationalität besteht, enthält Sample D aufgrund des hohen Anteils an Aussiedlern verhältnismäßig viele Deutsche.
    In den neueren Samples E und F ist eine ex-ante Zuordnung der entsprechenden Personen zu "Deutschen" oder "Nicht-Deutschen" aufgrund des Stichproben-Ziehungsdesigns schlichtweg nicht möglich.

    Die nachfolgende Tabelle, bei der eine Kreuztabellierung der recodierten Information von NATION$$ (1=Deutsche, 2=Nicht-Deutsche incl. Item-Non-Response) und PSAMPLE vorgenommen wurde, gibt einen Einblick über die Heterogenität der SOEP-Samples bezüglich der Nationalitäts-Zusammensetzung seit 1984 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews).

      Sample    Total
     
      1984 (Wave A)    
      Deutsch   8927 120 - - - - - 9047
      Nicht-Deutsch   149 3049 - - - - - 3198
     
      1985 (Wave B)    
      Deutsch   8242 117 - - - - - 8359
      Nicht-Deutsch   130 2601 - - - - - 2731
     
      1986 (Wave C)    
      Deutsch   7885 137 - - - - - 8022
      Nicht-Deutsch   123 2500 - - - - - 2623
     
      1987 (Wave D)    
      Deutsch   7755 151 - - - - - 7906
      Nicht-Deutsch   113 2497 - - - - - 2610
     
      1988 (Wave E)    
      Deutsch   7360 140 - - - - - 7500
      Nicht-Deutsch   104 2400 - - - - - 2504
     
      1989 (Wave F)    
      Deutsch   7089 152 - - - - - 7241
      Nicht-Deutsch   95 2354 - - - - - 2449
     
      1990 (Wave G)    
      Deutsch   6939 165 4439 - - - - 11543
      Nicht-Deutsch   97 2318 14 - - - - 2429
     
      1991 (Wave H)    
      Deutsch   6800 171 4187 - - - - 11238
      Nicht-Deutsch   94 2322 15 - - - - 2431
     
      1992 (Wave I)    
      Deutsch   6731 198 4081 - - - - 11010
      Nicht-Deutsch   87 2286 11 - - - - 2384
     
      1993 (Wave J)    
      Deutsch   6659 208 3964 - - - - 10831
      Nicht-Deutsch   88 2251 9 - - - - 2348
     
      1994 (Wave K)    
      Deutsch   6550 219 3932 439 - - - 11140
      Nicht-Deutsch   79 2144 10 32 - - - 2265
     
      1995 (Wave L)    
      Deutsch   6473 226 3871 837 - - - 11407
      Nicht-Deutsch   82 2002 11 236 - - - 2331
     
      1996 (Wave M)    
      Deutsch   6364 275 3870 832 - - - 11341
      Nicht-Deutsch   90 1877 12 191 - - - 2170
     
      1997 (Wave N)    
      Deutsch   6282 299 3833 818 - - - 11232
      Nicht-Deutsch   96 1790 11 154 - - - 2051
     
      1998 (Wave O)    
      Deutsch   6097 321 3722 769 1835 - - 12744
      Nicht-Deutsch   87 1640 8 116 75 - - 1926
     
      1999 (Wave P)    
      Deutsch   5965 344 3700 740 1572 - - 12321
      Nicht-Deutsch   80 1520 9 98 57 - - 1764
     
      2000 (Wave Q)    
      Deutsch   5769 361 3678 738 1497 10189 - 22232
      Nicht-Deutsch   83 1410 9 99 52 701 - 2354
     
      2001 (Wave R)    
      Deutsch   5635 368 3569 703 1414 8599 - 20288
      Nicht-Deutsch   78 1343 7 86 50 499 - 2063
     
      2002 (Wave S)    
      Deutsch   5498 374 3459 702 1325 8012 2601 21971
      Nicht-Deutsch   79 1244 7 78 48 415 70 1921
     
      2003 (Wave T)    
      Deutsch   5396 394 3446 716 1287 7639 1959 20836
      Nicht-Deutsch   84 1126 7 73 45 367 54 1756
     
      2004 (Wave U)    
      Deutsch   5260 416 3426 691 1257 7384 1936 20370
      Nicht-Deutsch   81 1052 9 67 43 340 50 1642
     
      2005 (Wave V)    
      Deutsch   5077 406 3297 678 1196 7055 1825 19534
      Nicht-Deutsch   73 1016 7 56 44 316 45 1557
     
      Sample    Total