Website Archive
Häufig gestellte Fragen (FAQ)
- 1.1 Was ist bei der neuen Datenlieferung 1984-2007 zu beachten?
- 1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?
- 1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?
- 1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?
- 1.5 Was ist der Jugendfragebogen?
- 1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten?
- 1.7 Wo finde ich Informationen über frühere Datenlieferungen?
- 2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?
- 2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?
- 2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?
- 2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus?
- 2.5 Finden Kurse zur Einführung in die SOEP-Daten statt?
- 2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File?
- 3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?
- 3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?
- 3.3 Wie soll ich das SOEP in meinen Publikationen zitieren?
- 3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?
- 3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden?
1 Datenweitergabe 1984-2007
1.1 Was ist bei der neuen Datenlieferung 1984-2007 zu beachten?
Die Datenweitergabe 2008 mit den Daten von 1984-2007 enthält für das Jahr 2007 die üblichen wellenspezifischen Datensätze XPBRUTTO, XP, XPKAL, XPGEN, XHBRUTTO, XH, XHGEN, XKIND und WPLUECKE sowie die aktualisierten Datensätze mit Längsschnitt-Komponenten (PFAD-Dateien, Biografiedaten, Spelldaten und Hochrechnungsfaktoren).
Im Befragungsjahr 2006 wurde eine repräsentative Ergänzungsstichprobe für ganz Deutschland gezogen: die Auffrischungsstichprobe H. Die biografischen Hintergrundinformationen der Befragten in Stichprobe H wurden erstmals in 2007 erhoben. Diese Daten sind nun vollständig in die relevanten Biografiedatensätze (BIOxxxx) integriert worden.
Als Teil der SOEP Innovationsprojekte führte TNS Infratest Sozialforschung im Dezember 2006 eine Nacherhebung durch. Sie wurde bei früheren SOEP-Befragten durchgeführt, die aus Haushalten stammen, die zwischen 2001 und 2004 als endgültigeVerweigerungen klassifiziert wurden. Als Nebenprodukt konnten wir die Informationen über das Geburtsjahr von 21 dieser Personen von fehlend auf einen gültigen Wert setzen. Mehr Informationen finden Sie im Methodenbericht (
PDF-Dokument, 389 KB) von TNS Infratest Sozialforschung.
Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen:
A. Neue und umbenannte Datensätze
COGNIT06:
Im Erhebungsjahr 2006 wurde mit
einem Subsample des SOEP kurze Kognitionstests mit dem Ziel
durchgeführt, eine Reihe robuster Instrumente zur Verfügung zu haben,
die von geschulten Interviewern nur wenige Minuten bei der Befragung beanspruchen. Nahezu 80% aller zur Teilnahme am
Kognitionstest Ausgewählten gaben gültige Antworten. Das hat zur Folge,
dass das SOEP jetzt zum ersten Mal Indikatoren zu kognitiven
Leistungspotenzialen für mehr als 5.500 Personen bereitstellen kann,
angereichert durch unterschiedliche Bildungsinformationen, die auf
Abschlüssen und Qualifikationen beruhen. Die erste
Wiederholung für diesen Test ist für das Erhebungsjahr 2010 geplant.
Eine ausführliche Dokumentation und Auswahlanalyse finden Sie in Schupp et al. (2008)
Erfassung kognitiver Leistungspotentiale Erwachsener im
Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32 (
PDF-Dokument).
PBR_EXIT und PBR_HHCH:
Diese beiden Datensätze ersetzen den ehemaligen Datensatz YPBRUTTO,
wobei bei in dieser Datenweitergabe noch beide Varianten verfügbar
sind.
MIHINC:
Dieser Datensatz enthält das multipel
imputierte monatliche Netto-Haushaltseinkommen für
die Jahre 1997 bis 2007. Er ist im long-Format abgelegt (Long-Format:
hhnrakt, svyyear, mj, wird in Stata auch mim-Format genannt). Jede
fehlende Antwort auf die Frage nach dem Netto-Haushaltseinkommen wurde
10-fach imputiert. Weitere Informationen finden Sie in der
Dokumentation von HGEN (
PDF-Dokument, 169 KB).
B: Neue Variablen
B.1 Datensatz XPBRUTTO
- XEWSTATU: Proxyinformation über den Arbeitsmarktstatus von Personen, die in Befragungshaushalten kein Interview gaben.
B.2 Datensatz $PEQUIV
- P11101$$: Kopie der wellenspezifischen Variablen zur allgemeinen Lebenszufriedenheit
B.3 Datasatz $HGEN
- I_HINC$$: Multiple imputierte Version von HINC$$, das monatliche Haushaltsnettoeinkommen. Imputationen 1-5 sind als Wide-Format in $HGEN abgelegt (nur für die Jahre 1996-2007), alle generierten Imputationen (10) sind in dem zusätzlichen Datensatz MIHINC in Long-Format abgelegt. Weitere Informationen finden Sie in der Dokumentation zu HGEN (
PDF-Dokument, 169 KB).
- FHINC$$: Imputation Flag für I_HINC$$, 0 bedeutet nicht-imputiert und 1 imputiert.
C. Überarbeitete Variablen
C.1 Im Datensatz $PKAL
- $P2D03 + $P2E03: In einigen Fällen war in den Wellen U-W (in den Jahren 2004-2006) fälschlicherweise "keine Antwort" (-1) auf "trifft nicht zu" (-2) gesetzt worden. Dies wurde jetzt nachträglich korrigiert.
- WPHRF*: Alle Gewichtungsfaktoren für das Jahr 2006 sind nun an den Mikrozensus 2006 angepasst.
Auch die Gewichtungsfaktoren für das Jahr 2007 sind an den Mikrozensus-Daten von 2006 angepasst worden; sie müssen deswegen als vorläufig für Personen und Haushalte in Deutschland gelten und werden voraussichtlich mit der nächsten Datenweitergabe aktualisiert.
- VHHRF + VHHRF1: 1 Haushalt aus Sample G musste korrigiert und auf 0 gesetzt werden.
- LFS$$: Die Variabel "Arbeitsmarktstatus" wurde für alle Wellen in Bezug auf eine genauere Einordnung von Personen in den Status "nicht-erwerbstätig und älter als 65" (Kategorie 2) verbessert. Inzwischen wird die Information über den Geburtsmonat einer Person genutzt, um zu bestimmen, ob sie zur Zeit des Interviews älter als 65 Jahre war.
D. Fehlerkorrekturen
D.1 Im Datensatz VH and WH
Es gab eine Korrektur der Werte Labels für die Variablen, die auf die Eigentümer einer Wohnung hinweisen (VH27 and WH27), bitte beachten Sie die richtigen Ausprägungen in der unten stehenden Tabelle.
Variablenname: Eigentümer der Wohnung
| Wert | Falsch | Richtig |
|---|---|---|
| -2 | Trifft nicht zu | Trifft nicht zu |
| -1 | Keine Antwort | Keine Antwort |
| 1 | selbstgenutzte Wohnung | Kommunale Wohnung |
| 2 | Kommunale Wohnung | Genossenschaftliche Wohnung |
| 3 | Genossenschaftliche Wohnung | Betriebs-/ Werkswohnung |
| 4 | Betriebs-/ Werkswohnung | Privater Eigentümer |
| 5 | Privater Eigentümer | Weiß nicht |
D.2 Im Datensatz $PGEN
- EGP$$: Die Variable "Erikson and Goldthorpe Class Category" (internationaler Index des beruflichen Status) wurde bezüglich der Zuordnung von Personen zur Kategorie (18) "nicht erwerbstätig - in Rente" korrigiert. Bis jetzt wurden fälschlicherweise alle Rentenempfänger, d.h. alle Empfänger von Altersrente und die Empfängerinnen von Witwen- und Waisenrenten als "nicht erwerbstätig - in Rente" klassifiziert, falls keine andere Kategorie zutraf. In der korrigierten Generierung der EGP$$ Variable, die für alle Wellen durchgeführt wurde, werden nicht-erwerbstätige Personen nur dann in diese Kategorie eingeordnet, wenn sie Bezieher/innen von Altersrente sind oder wenn sie Bezieher/innen von Waisen- bzw. Witwenrente UND älter als 60 Jahre sind. Darüber hinaus werden bei Fehlen der Information über Rentenbezug die Informationen aus ARTKALEN (retrospektive Information aus dem Aktivitätskalender des vorangegangenen Jahres) im Generierungsprozess genutzt, um zu bestimmen, ob eine Person zum Zeitpunkt des Interviews in Rente oder Vorruhestand ist. Alle anderen nicht arbeitenden Personen werden in Kategorie (-2) "trifft nicht zu" eingeordnet, solange sie nicht als arbeitslos registriert sind (Kategorie 15).
- STIB$$: Das gleiche Problem der falschen Zuordnung von Personen zur Kategorie "Rentner/in" (13) trifft auch für die Variable "Berufliche Stellung" zu und wurde für alle Wellen in der gleichen Weise wie für EGP$$ korrigiert.
- NACE$$: Die Variable "2-stellige Branchenvercodung nach NACE" hatte bisher einige Inkonsistenzen bezüglich der Bezeichnungen. Insbesondere die Bezeichnungen für den Code (90) "Abwasser- und Abfallbeseitigung, Sanierung oder ähnliches" und Code (95) "Private Haushalte mit Angestellten" mussten ausgetauscht werden. Einige andere Bezeichnungen waren nicht genau genug und wurden für alle Wellen präzisiert.
- IS88$$, ISEI$$, MPS$$, SIOPS$$, KLAS$$, EGP$$: Die Frage, auf die sich diese Variablen beziehen, wird nicht allen erwerbstätigen Personen jedes Jahr gestellt. In den Befragungsjahren 1985, 1986, 1987, 1988, 1990 (West), 1992 (West), 1994, 1996, 1999, 2001, 2003, 2005 und 2006 wurde sie nur Erstbefragten oder Berufswechslern gestellt. Deswegen sollten in Jahren mit Teilbefragungen die Variablen für alle berufstätigen Personen ohne Jobwechsel die vorhandene Information des Vorjahres übernommen werden. Diese Angaben wurden fälschlicherweise für einige Personen nicht genutzt. Dieser Fehler ist nun behoben, da für alle Wellen die betroffenen Variablen in konsistenter Weise neu generiert wurden.
1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?
Die neue Stichprobe (G) wird mit dem Code 7 identifiziert. Es wurde versucht, dass jede Befragungsperson an der SOEP-Erstbefragung dieser Stichprobe teilnimmt. Ähnlich wie bereits bei den neuen Stichproben E und F, die 1998 bzw. 2000 erstmals befragt wurden, wird in der ersten Welle bei neuen Stichproben auf die Erhebung biographischer Zusatzinformationen verzichtet. Für die Stichprobe G wurden die Biographie-Variablen also erst in der zweiten Welle, d.h. im Jahre 2003, erhoben.
Weitere ausführliche Informationen zum Start der neuen
SOEP-Stichprobe finden sich im Forschungsbericht des Bundesministeriums
für Gesundheit und Soziale Sicherung
Repräsentative Analyse der
Lebenslagen einkommensstarker Haushalte (
PDF-Dokument).
1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?
In rund der Hälfte der Fälle in Stichprobe E wird - im Rahmen eines zufälligen Splittings der Stichprobe - seit dem Jahr 2000 die für das SOEP neue Erhebungsmethode CAPI (=Computer Assisted Personal Interview) angewandt. Sie identifizieren diese Interviews in der Variablen $PFORM* in $PBRUTTO bzw. $HFORM* in $HBRUTTO.
Erste erhebungsmethodische Analysen zeigten keine signifikanten Methodeneffekte. D.h., für die inhaltlichen Ergebnisse scheint die Form der Datenerhebung keinerlei eigenständige Einflüsse auszuüben. Weitere Analysen zur Erhebungsmethode durch Nutzer/innen sind natürlich sinnvoll.
Seit dem Jahr 2001 wird diese Erhebungsmethode zunehmend auch in den Alt-Stichproben A bis D sowie F eingesetzt.
1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?
Vermutlich haben Sie nur einige Files aus der aktuellen Datenlieferung (SAS-Version) installiert. Dieses Problem dürfte nicht entstehen, wenn Sie die SAS-Version des aktuellen Datensatz vollständig auf Ihren Rechner implementieren. Wir empfehlen, so bei jeder neuen Datenlieferung zu verfahren.
Das Problem liegt in der Art und Weise wie SAS die Value-Labels verarbeitet. So werden alle Value-Labels für alle Files in einer SAS Library (einem Directory) in einem einzigen File "FORMATS.SC2" (oder UNIX "formats.sct01") gespeichert. Die setzt voraus, dass alle Value-Labels durchweg einzigartig in der Library sind. Tatsächlich werden die Value-Labels aber neu definiert. Es entstehen nun fast zwangsläufig Probleme, wenn Daten-Files von unterschiedlichen Datenlieferungen in einem Directory kombiniert werden. Die Lösung ist einfach: Installieren Sie bei jeder neuen Datenlieferung immer alle Files. Dieses "Problem" hängt mit SAS zusammen und kann von uns nicht gelöst werden.
1.5 Was ist der Jugendfragebogen?
Seit dem Jahr 2000 werden im SOEP Daten zu kinder- und jugendspezifischen Themen mit einem eigenen Instrument, dem Jugendfragebogen, erhoben. Er wird anstelle des Lebenslauffragebogens erhoben, weil die dort gestellten Fragen zur Familien- und Berufsbiographie für die Jugendlichen noch nicht zutreffen und Angaben zur sozialen Herkunft i.d.R. bereits vorliegen. Nur in den Fällen, in denen Jugendliche nicht mehr mit einem oder beiden Elternteilen zusammenwohnen, werden die entsprechenden Informationen über die Eltern erhoben. Zusätzlich werden die Standardfragen zur Immigration aus dem Lebenslauffragebogen an zugewanderte Jugendliche gestellt. Somit wird gewährleistet, dass alle wichtigen Informationen, die im Lebenslauffragebogen erhoben werden, auch für Jugendliche vorliegen.
Der Jugendfragebogen enthält insbesondere retrospektive Fragen zur Schullaufbahn (Empfehlung für die Sekundarstufe I, Wiederholung einer oder mehrerer Klassenstufen), zur Musikerziehung und zum Sport wie auch zur aktuellen Situation (schulische Leistung, Freizeitgestaltung, Jobben, Verhältnis zu den Eltern etc.). Auch werden zahlreiche Prospektivfragen zu (Aus-)Bildungsplänen und Erwartungen an die berufliche und familiäre Zukunft gestellt. Die Jugenddaten ermöglichen somit zahlreiche Analysen, da sie retrospektive Informationen zur Kindheit enthalten, die mit der Geschichte der Eltern verknüpfbar sind, sowie auch prospektive Fragen. Da im SOEP alle Haushaltsmitglieder ab 17 Jahren befragt werden, eignet sich die Datenlage u.a. hervorragend für intergenerationale Analysen.
Im Jahr 2000 wurde ein Pre-Test mit 232 Jugendlichen durchgeführt, die in SOEP-Haushalten leben (17-Jährige in Sample A-E). Einen erweiterten und überarbeiteten Fragebogen haben im Jahr 2001 618 Jugendliche, die zwischen 17 und 19 Jahre alt wurden, ausgefüllt (17-Jährige in Sample A-E, 17 bis 19-Jährige in Sample F).
Seit dem Jahr 2002 füllen jeweils alle 17-jährigen Jugendlichen, die erstmals persönlich in einem SOEP-Haushalt befragt werden, zum Start ihrer "Befragungskarriere" den Jugendfragebogen aus. Die Daten der dieser Befragungen sind in dem Datensatz "BIOAGE17" (bis zur Datenweitergabe 2005: "BIOYOUTH") abgelegt. Pro Welle werden etwa 350 Jugendliche dazukommen. So wird kumulativ rasch ein großer jugendspezifischer Datensatz entstehen. Weitere Informationen finden Sie im Kapitel 13 unserer Dokumentation zu Biographiedaten.
1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten?
In den Jahren 2000 und 2001 wurde der Biographiefragebogen um einige Fragen erweitert, die sich unmittelbar auf Ereignisse in der Jugend beziehen. Einige dieser Fragen korrespondieren unmittelbar mit denen, die auch im Jugendfragebogen gestellt werden. Die Befragten werden darum gebeten, retrospektive Angaben zu ihrer Jugend zu machen, wie z.B. zu ihren Beziehung zu den Eltern als sie 15 Jahre alt waren, zu ihren Schulnoten, zum Bundesland, in dem sie ihren Schulabschluss erworben haben, und ob sie noch einen Schulabschluss anstreben. Auch die im Biographiefragebogen erhobenen Angaben zu Wehr-, Zivildienst und Freiwilligem Sozialen Jahr sind hier abgelegt.
Weitere Informationen finden Sie im Kapitel 11 unserer Dokumentation zu Biographiedaten.
1.7 Wo finde ich Informationen über frühere Datenlieferungen?
Dokumentation der Änderungen am Datensatz seit 1995
2 Nutzungsbedingungen
2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?
Die SOEP-Mikrodaten werden von uns so weitergegeben, dass sie durch ein Statistikprogramm ausgewertet werden müssen, bevor sie interpretiert werden können. Sie stehen der wissenschaftlichen Forschung gegen eine geringe Gebühr zur Verfügung.
Ausgewählte Ergebnisse von bereits durchgeführten Analysen haben wir für Sie in Pressemitteilungen aufbereitet. Alle uns bekannten Arbeiten werden in der Datenbank SOEPlit registriert und können online durchsucht werden. Darüber hinaus haben wir viele Originalarbeiten, die im Internet erhältlich sind, auf unseren Internetseiten aufgeführt.
Die direkte Nutzung der SOEP-Daten unterliegt den hohen Anforderungen des gesetzlichen Datenschutzes in der Bundesrepublik Deutschland. Für die Arbeit mit den SOEP-Daten ist daher der Abschluss eines Datenweitergabevertrages notwendig.
Falls Sie diesen noch nicht mit uns abgeschlossen haben, können Sie ihn hier beantragen.
Verfügen Sie bereits über einen Datenweitergabevertrag, bestellen Sie bitte die SOEP-Daten mit dem Bestellformular auf unserer Homepage. Die Daten werden aus Sicherheitsgründen per "Wert-Brief" verschickt (und sind auf keinen Fall via Internet zu erhalten).
Zur Bearbeitung Ihres Antrags benötigen wir
1.die vollständige berufliche Adresse (inkl. Tel.- und Fax.-Nr.)
desjenigen bzw. derjenigen, der/die für das Forschungsprojekt verantwortlich
ist (bei Dissertationen und Diplomarbeiten der/die jeweils zuständige
ProfessorIn);
2.benötigen wir den Kurztitel Ihres Forschungsprojektes bzw. Ihres Forschungsprogramms, für das Sie die Daten verwenden wollen.
Falls Sie weitere Fragen haben, können Sie sich gerne unter soepmail@diw.de an Michaela Engelmann wenden.
2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?
Für die Jahre 1984 bis zum aktuellen Rand liegen Datenreihen - ab 1990 getrennt nach Ost- und Westdeutschland - auf Haushalts- und Personenebene vor. Im SOEP-Monitor Haushalt gibt es insbesondere Informationen zur Wohnsituation der Haushalte; im SOEP-Monitor Personen finden Sie Kennzahlen zu Arbeitsmarkt, Bildung, Einkommen und subjektiven Indikatoren (z.B. Lebenszufriedenheit).
Auch der vom Statistischen Bundesamt herausgegebene Datenreport enthält einige Beiträge zu Lebensbedingungen und ihre Bewertungen in Deutschland auf Grundlage der SOEP Daten (z.B. Statistisches Bundesamt (Hg.) (2006): Datenreport 2006. Schriftenreihe der Bundeszentrale für politische Bildung. Band 544. Im Internet bei den Publikationen des Statistischen Bundesamtes oder unter den Publikationen der GESIS.
2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?
Ja, aber es ist eine Nutzungsgebühr fällig. Bitte wenden Sie sich mit Ihrem
konkreten Anliegen direkt an den Projektleiter
Prof. Dr. Gert G. Wagner.
2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus?
Generell nicht. Für den Fall, dass Sie Sonderauswertungen und Gutachten durch
das DIW Berlin in Auftrag geben möchten, wenden Sie sich bitte an die
SOEP-Projektleitung: Prof. Dr. Gert G. Wagner.
SOEPinfo gibt einen Überblick
über den Inhalt des Datensatzes mit Häufigkeitsauszählungen der Variablen.
2.5 Finden Kurse zur Einführung in die SOEP-Daten statt?
Gewöhnlich veranstaltet die SOEP-Gruppe in jedem Frühjahr SOEP-Einführungskurse am DIW in Berlin. Darüber hinaus werden alle zwei Jahre Kurse für internationale Datennutzer/innen angeboten, die in der Regel in den USA stattfinden. Beide Kurse werden zeitig im NEWSLETTER angekündigt; dort finden sie auch Anmeldeformulare.
Unsere Dokumentationen
geben zudem eine Einführung in die Analyse der SOEP-Daten. Insbesondere
das Kernstück der SOEP-Dokumentation, das
DTC ist dort abrufbar. Für die erfolgfreiche
Teilnahme an einem SOEP-Workshop ist ein intensives
Durcharbeiten des DTC
ebenso zentrale Voraussetzung wie die Kenntnis eines von der SOEP-Projektgruppe
unterstützten Statistik-Software Paketes (überwiegend SAS, SPSS oder STATA).
2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File?
Um Forscher/innen außerhalb der EWG-Staaten die SOEP-Daten zugänglich zu machen, musste aufgrund deutscher Datenschutzbestimmungen der SOEP-Datensatz leicht reduziert werden. Der Scientific-Use-File des SOEP ist eine 95%-Zufallsstichprobe, das heißt, 5% der befragten Haushalte der jeweils ersten Welle einer Stichprobe wurden nachträglich zufällig aus dem Datensatz entfernt. Längsschnittanalysen können somit unproblematisch durchgeführt werden. Das Verfahren verzerrt die Ergebnisse nicht; selbstverständlich ist der Stichprobenfehler aufgrund der geringeren Fallzahl etwas größer als im 100%-Datensatz.
Zudem wird die in der 5. Welle erhobene Vermögensbilanz (Datei EV) nicht weitergegeben.
Die Weitergabe der vollständigen Informationen zur Staatsbürgerschaft konnte erstmals Anfang 2004 für die Daten 1984-2002 realisiert werden. Seitdem sind auch im Scientific-Use-File die Informationen zur Nationalität einer Person in Nation$$ und das Herkunftsland in CORIGIN abgelegt (siehe auch Frage 4.6).
3 Vertragsmanagement
3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?
Jede Mitarbeiterin und jeder Mitarbeiter, die/der in Ihrer Forschungsgruppe
mit den SOEP-Daten arbeitet, muss auf die Einhaltung des Datenschutzes
verpflichtet werden. Sie erhalten entsprechende Kopiervorlagen zusammen mit
dem Datenweitergabevertrag. Falls Ihnen diese Unterlagen ausgegangen sind,
finden Sie hier ein Merkblatt zum Datenschutz (
PDF-Dokument) sowie das
Muster einer Verpflichtungserklärung (
PDF-Dokument).
3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?
Bitte schicken Sie uns einfach eine kurze Nachricht mit dem Titel Ihres neuen
Forschungsschwerpunktes (soepmail@diw.de).
Wenn Sie ein Gutachten bearbeiten oder Auftragsforschung betreiben,
informieren Sie uns bitte auch hierüber, da dann eine Nutzungsgebühr
vereinbart werden muss.
3.3 Wie soll ich das SOEP in meinen Publikationen zitieren?
Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen lauten:
Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW Berlin), bereitgestellt.
Wenn Sie einen Beitrag zitieren möchten, der das SOEP beschreibt, verwenden Sie bitte:
Wagner, Gert G., Frick, Joachim R., and Schupp, Jürgen (2007), The German Socio-Economic Panel Study (SOEP) – Scope, Evolution and Enhancements, Schmollers Jahrbuch 127 (1), 139-169.
Wenn Sie einen Beitrag zitieren möchten, der das GSOEP - also das scientific use file mit der 95% Version des SOEP - beschreibt, verwenden Sie bitte:
Frick, Joachim. R.; Jenkins, Stephen P.; Lillard, Dean R.; Lipps, Oliver; and Wooden, Mark (2007): The Cross-National Equivalent File (CNEF) and its Member Country Household Panel Studies, Schmollers Jahrbuch 127 (4), 626-654.
Die Dokumentation der auf Basis des SOEP erstellten Publikationen hat eine große Bedeutung für die erfolgreiche Weiterführung des Projektes. Wie Sie wissen, ist die Übersendung Ihrer Publikationen auch Teil des Datennutzungsvertrages. Leider ist unsere Datenbank SOEPlit bei weitem nicht vollständig. Bitte senden Sie uns daher Ihre auf dem SOEP basierenden Publikationen.
Vielen Dank!
Ansprechpartnerin: Uta Rahmann
3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?
Wir unterstützen den Einsatz von SOEP-Daten in der Lehre. Hier sind jedoch
einige wichtige Regeln (
PDF-Dokument) - zum Beispiel
zur Reduzierung des Datensatzes - zu beachten.
Auch die Nutzerinnen und Nutzer eines reduzierten Datensatzes sollten auf die Einhaltung des Datenschutzes verpflichtet werden (Beispielformular (
PDF-Dokument).
3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden?
Um in die Liste eingetragen zu werden, bitte eine Mail schicken an:
sympa@list.diw.de, Betreff (subject): subscribe soep-l.
Die Liste hat die Email-Adresse soep-l@list.diw.de.
Weitere Informationen gibt es hier.
4 Auswertungen mit dem SOEP
4.1 Sind die von mir gesuchten Variablen im SOEP enthalten?
Mit dem interaktiven Programm
SOEPinfo
können Sie gezielt nach Themenbereichen
und Schlagworten suchen und einen Überblick über alle erhobenen Variablen
(inkl. Häufigkeitsauszählungen) und Fragebögen erhalten.
4.2 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?
Im Standarddatensatz ist die Variable $BULA (= Bundesland) enthalten. Sollten Sie tiefer gegliederte Regionalinformationen für Ihre Forschungsarbeit benötigen, z.B. Gemeindegrößenklassen, die auf der SOEP-CD vorhanden sind, benötigen Sie einen erweiterten Datennutzungsvertrag. Um darüber hinaus die "Raumordnungsregionen" (ROR) nutzen zu können, müssen Sie ein spezielles Datenschutzkonzept vorlegen (als das Richtlinie finden Sie hier (
PDF-Dokument) die für die DIW-interne Nutzung geltenden Regeln) und erhalten dann einen Sonder-Datenweitergabevertrag.
Im Rahmen von Forschungsaufenthalten am DIW Berlin oder über SOEPremote besteht die Möglichkeit, auch auf der Ebene der - datenschutzrechtlich besonders sensitiven - kleinräumigen "Kreiskennziffern" (KKZ) und Postleitzahlen auszuwerten.
Es gibt eine DIW Data Documentation über Regionaldaten im Sozio-oekonomischen Panel (SOEP) (
PDF-Dokument). Informationen inhaltlicher Art zur Nutzung des SOEP mit Raumordnungsregionen finden Sie in diesen Kurzinformationen zum SOEP-Geocode (
PDF-Dokument, 370 KB).
Nähere Auskünfte zum Datenschutz, zur Weitergabe von bzw. Zugang zu den SOEP-Regionaldaten
erhalten Sie bei
Michaela Engelmann (soepmail@diw.de).
Ansprechpartner für Fragen inhaltlicher Art ist
Jan Goebel.
4.3 Sind Bundesländer repräsentativ auswertbar?
Als einzelnes Bundesland ist aufgrund seiner Größe bis zu Welle P (1999) im
Grunde nur Nordrhein-Westfalen (NRW) sinnvoll auswertbar. Prinzipiell besteht
die Gefahr, dass bei tiefer gegliederten Strukturanalysen die
bundesländerspezifischen Fallzahlen einzelner Zellen für statistisch
signifikante Aussagen zu klein werden. Auswertbar sind die Daten jedoch für
"Pools" einzelner kleiner Bundesländer (z.B. Ländertypen).
Seit dem Jahr 2000 verbessern sich die Analysemöglichkeiten aufgrund deutlich
größerer Fallzahlen (Samples A-F).
4.4 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?
Generierte Variablen dienen ebenso wie Status-Variablen der Vereinfachung der Arbeit mit den SOEP-Daten. Bei ihrer Generierung fließen jeweils spezifische Annahmen ein, die Sie der Dokumentation entnehmen können. Schauen Sie die Dokumentation für die Files $PGEN und $HGEN an (Joachim Frick). Zu den Neuerungen vgl. Frage 1.1.
4.5 Wie kann ich Rentnerinnen und Rentner im Datensatz identifizieren?
Je nach Fragestellung bieten sich hierzu verschiedene Möglichkeiten an:
- Selbstauskunft der Befragten zum Erwerbsstatus im Vorjahr. Diese Information ist im Kalenderfile $PKAL abgelegt und umfasst die Art des Erwerbsstatus als Rentner/Pensionär [mit Hilfe der Variablen $P1E01 und $P1E02] bzw. den Bezug von Altersrente / Pension im Vorjahr [mit Hilfe der Variablen $P2D01 bis $P2D03]
- Alter der Befragungsperson (z.B. ableitbar aus der Variablen GEBJAHR in PPFAD)
- Berücksichtigung des aktuellen Erwerbsstatus (nicht erwerbstätig), ggf. in Kombination mit der Altersangabe. Beachten Sie hierbei bitte, dass Rentner mit Arbeitsvertrag beim zentralen Erwerbsfilter (z.B. UP09) als erwerbstätig gelten
- Personen, die erst seit kurzem den Status als Rentner / Pensionär innehaben, sind identifizierbar über den Grund für die Beendigung des letzten Beschäftigungsverhältnisses (z.B. Variable UP75, Code 6: "Erreichen der Altersgrenze / Rente / Pension")
- Darüber hinaus sind natürlich auch Kombinationen dieser genannten Varianten möglich wie z.B. "Alter > 65 Jahre" und gleichzeitig "Bezug einer Altersrente"
4.6 Kann sich die Stichproben- Zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?
Die Stichprobenzugehörigkeit (Variablen PSAMPLE in PPFAD bzw. HSAMPLE
in HPFAD) verändert sich grundsätzlich nicht. Weder durch
den Wechsel der Staatsbürgerschaft noch durch den Umzug in eine andere
Sample-Region (von West- nach Ostdeutschland oder umgekehrt). Die Person
bleibt trotzdem in der Ausländer-, bzw. West- oder Oststichprobe. Die
aktuelle Nationalität (NATION$$) bzw. Regionalzugehörigkeit ($SAMPREG) ist
leicht erkennbar.
4.7 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?
Mittlerweile sind zahlreiche Befragte von Ost- nach Westdeutschland und - in geringerem Umfang von West- nach Ostdeutschland - umgezogen. Analysen, die auf regionale Bezüge abstellen, werden durch Verwendung der Variablen PSAMPLE, die die Stichprobenzugehörigkeit angibt, zum Teil erheblich verzerrt (PSAMPLE befindet sich in PPFAD: 1 = Subsample A, 2 = Subsample B, 3 = Subsample C, 4= Subsample D (Zuwanderer), 5 = Subsample E (Ergänzungsstichprobe ab 1998), 6 = Subsample F (Innovationsstichprobe ab 2000)).
Eine korrekte regionale Zuordnung der Stichprobenmitglieder wird nur über die zeitabhängigen Variablen $SAMPREG in PPFAD und HPFAD erreicht (1 = Westdeutschland, 2 = Ostdeutschland).
In $SAMPREG wird seit 1990 für jedes Jahr die west- bzw. ostdeutsche Population unabhängig von der Sample-Zugehörigkeit ermittelt. Wir empfehlen, immer diese Variable für regionale Analysen zu verwenden!
Die verlinkte Tabelle, bei der eine Kreuztabellierung von $SAMPREG und PSAMPLE vorgenommen wurde, gibt einen Einblick über das Ausmaß der regionalen Mobilität seit 1990 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews) oder $NETTO=2 (Kinder bis 16 Jahren) in befragten Haushalten).
4.8 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?
Analog zum o.g. Phänomen ($SAMPREG vs.P SAMPLE) wird häufig auch eine
Identität des Samples B mit der Population der im SOEP interviewten Gruppe
der "Ausländer" unterstellt, während Sample A mit "Deutschen" gleichgesetzt
wird. Dies trifft zwar im großen und ganzen zu, ist jedoch nicht exakt und
wird im Zeitverlauf immer weniger genau.
Zu Beginn des SOEP im Jahre 1984 war es die Nationalität des
Haushaltsvorstands, die eine Zugehörigkeit in die beiden Samples A und B
festlegte. Nichtdestotrotz konnten weitere Haushaltsmitglieder mit einer
anderen Nationalität als derjenigen des Vorstandes in diesen Haushalten leben.
Zudem enthielt auch Sample A AusländerInnen, sofern sie nicht einer der durch
Sample B repräsentierten Nationalitäten angehörten. Deutlich verstärkt wird
das Auseinanderklaffen von SAMPLE-Zugehörigkeit und (zeitpunktbezogener)
Nationalitätsinformation insbesondere durch das Einbürgerungsverhalten von
Personen im Sample B.
Während Sample C auch bis zum Jahr 2000 fast ausnahmslos aus Personen mit
deutscher Nationalität besteht, enthält Sample D aufgrund des hohen Anteils
an Aussiedlern verhältnismäßig viele Deutsche.
In den neueren Samples E und F ist eine ex-ante Zuordnung der entsprechenden
Personen zu "Deutschen" oder "Nicht-Deutschen" aufgrund des
Stichproben-Ziehungsdesigns schlichtweg nicht möglich.
Die verlinkte Tabelle, bei der eine Kreuztabellierung der recodierten Information von NATION$$ (1=Deutsche, 2=Nicht-Deutsche incl. Item-Non-Response) und PSAMPLE vorgenommen wurde, gibt einen Einblick über die Heterogenität der SOEP-Samples bezüglich der Nationalitäts-Zusammensetzung seit 1984 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews).
| |
||||||||||||
Häufig gestellte Fragen (FAQ) |
||||||||||||
Inhalt |
|
|||||||||||
1 Datenweitergabe 1984-2006 |
||||||||||||
1.1 Was ist bei der neuen Datenlieferung 1984-2006 zu beachten? |
Mit der Datenweitergabe 2007 (Daten 1984-2006) werden für das Beobachtungsjahr 2006 die üblichen wellenspezifischen Dateien WPBRUTTO, WP, WPKAL, WPGEN, WHBRUTTO, WH, WHGEN, WKIND und VPLUECKE sowie die aktualisierten Dateien mit Längsschnittbezug (PFAD-Dateien, Biographie-Daten, Spell-Daten und Hochrechnungsfaktoren) weitergegeben. Im Erhebungsjahr 2006 ist das SOEP um eine weitere für Deutschland repräsentative Stichprobe (Ergänzungsstichprobe H - "Refreshment Sample") erweitert worden. Detaillierte Informationen zur Integration dieser Stichprobe und zu weiteren Änderungen in den beiden Dateien mit den Hochrechnungs- und Gewichtungsinformationen finden Sie unten (Punkt 2). Eine weitere wichtige Neuerung ist die Einführung eines neuen Befragungsinstrumentes für erstbefragte Personen im Alter von 17 Jahren. Diese Personen erhalten jetzt einen erweiterten Jugendfragebogen, der neben den bisher schon erhobenen biographischen Angaben nun auch aktuelle Informationen erhebt und insofern den bisherigen Personenfragebogen für diese Gruppe obsolet macht. Dies bedeutet allerdings auch, dass sich die Befragungspopulation für den klassischen Personenfragebogen (gespeichert in den Dateien $P) leicht geändert hat, 17-Jährige sind ab dem Befragungsjahr 2006 nicht mehr enthalten. Eine Ausnahme bildet die Erstbefragung von Sample H, hier sind die 17-Jährigen weiterhin mit dem Personenfragebogen befragt worden, da die Biographiebefragung in neuen Teilstichproben erst in der zweiten Welle erfolgt. In diesem Zusammenhang sind auch die überarbeiteten $NETTO-Variablen und die Datei $PAGE17 relevant (siehe Punkte 1 und 4.1). Die Bildungsvariablen in den generierten Datensätzen ($PGEN) wurden überarbeitet: Neben einer verbesserten Integration von im Ausland erreichten beruflichen Bildungsabschlüssen wurden die entsprechenden Variablen einer intensiven Konsistenzprüfung im Längsschnitt unterzogen. Die betroffenen Variablen werden weiter unten näher beschrieben. Die Information über Zwillinge im SOEP wurde durch eine spezielle Befragung "potentieller" Zwillinge validiert und in den Datensatz BIOTWIN integriert. Die im File WPEQUIV (Welle 2006) gespeicherten Variablen mit Bezug zum Vorjahreseinkommen berücksichtigen wie in jedem Jahr die verschiedenen strukturellen Veränderungen des Steuer- und Transfersystems als notwendige Rahmeninformationen zur Generierung und Simulation der Jahreseinkommen. Neben den Änderungen zum Steuertarif 2005 (Absenkung des Spitzensteuersatzes, Grundfreibetrag) sind dabei auch die neuen Regelungen zum Alterseinkünftegesetz relevant. Eine bedeutende Funktion kommt der Einführung des Arbeitslosengeldes II und den damit verbundenen weitreichenden Veränderungen im Transfersystem (Sozialhilfe, Wohngeld etc.) zu. Die generierten (Vor-)Jahreseinkommensangaben des SOEP-Erhebungsjahres 2006 wurden daher umfangreichen internen und externen Konsistenzprüfungen unterzogen. Die Datenweitergabe erfolgt dieses Jahr erstmals auf einer DVD, die Auswahl der Sprachversion erfolgt daher noch einfacher direkt im Installationsprogramm der SOEP-Daten. Sollten Sie die Daten mit unserem Setupprogramm unter Windows Vista installieren, beachten Sie bitte die Installationsanleitung auf der DVD. Darüber hinaus gibt es folgende Erweiterungen bzw. Modifikationen: 1. Neue und umbenannte Datensätze $PAGE17 DESIGN HEALTH PWEALTH und HWEALTH Interviewerbefragung 2. Querschnittshochrechnung: Wichtige Neuerungen und Änderungen Mit der Datenweitergabe für das Jahr 2006 ergeben sich für die Querschnittshochrechnungsfaktoren bzw. Querschnittsgewichte wichtige Neuerungen und Änderungen. Ausführlich dargestellt werden die Neuerungen in der DIW Data Documentation 22 ( 2.1 Typen der Hochrechnungsfaktoren neu definiert
2.2 Modifizierung Hochrechnungsrahmen 2.3 Neue Ergänzungsstichprobe H 2.4 Hochrechnungsfaktoren basieren auf Eckdaten des Mikrozensus von 2005 Für Nachfragen zu den Hochrechnungsfaktoren steht Ihnen Rainer Pischner (rpischner@diw.de, -319) gerne zur Verfügung. 3. Neue Variablen 3.1 Datensatz BIOAGE01 BCPREGY 'Mutter: Schwanger zum Personeninterview Welle($)?' BCPREGMO 'Mutter: Geschätzter Schwangerschaftsmonat zum Personeninterview Welle($)' Außerdem wurden Schwangerschaftsbeginn und -ende zusätzlich als Spellinformationen abgelegt. Gezählt wird - analog beispielsweise zu BIOMARSM - ab Monat 1 = Januar 1983 bis Dezember 2007 = Monat 300. Generierungsbasis sind Geburtsmonat und Schwangerschaftsdauer in Wochen aus BIOAGE01. PREGBEGM 'Spell - Monat Beginn Schwangerschaft / Konzeption (1 = Jan 1983)'. PREGENDM 'Spell - Monat Ende Schwangerschaft / Geburt (1 = Jan 1983)'. 3.2 Datensatz BIOAGE17 3.3 Datensatz $PEQUIV ALG2$$: Betrag der im Haushalt im Vorjahr empfangenen Transfers aus Arbeitslosengeld II. 3.4 Datensatz $HGEN NUTS1$$ 3.5 Datensatz $PGEN JOBCH$$ 4. Überarbeitete Variablen 4.1 Im Datensatz PPFAD: $NETTO $NETOLD 4.2 In den Datensätzen BIOBIRTH und BIOBRTHM KIDMON[n] 4.3 Im Datensatz BIOTWIN 2006 wurde in allen Haushalten, in denen ein Zwillingspaar oder andere Mehrlinge leben, eine eigene Erhebung durchgeführt. Dieser Zwillings-Survey hatte das Ziel, die Zwillingsgruppen zu validieren und zusätzliche Informationen zu gewinnen. Folgende Variablen wurden in diesem Zusammenhang im Datensatz BIOTWIN geändert bzw. neu eingeführt: BIOMONOZ INFOTWIN 4.4 Im Datensatz $PEQUIV I11105$$ W11101$$ und W11102$$ W11105$$ E11105$$ E11106$$ und E111076$$ 4.5 Im Datensatz $PGEN GERWZEIT, HERWZEIT $ERWZEIT
AUSB$$ MPS$$ ERWTYP$$ 5. Fehlerupdates EGP$$ Bildungsvariablen 6. Gelöschte Variablen W11106$$ 'HH-Weight immigrant sample' in $PEQUIV. $KGMONAT ‚Geburtsmonat Kind' in $KIND, außer Wellen D und T. $PHRFXX in PHRF und HHRF. |
|||||||||||
1.2 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten? |
Die neue Stichprobe (G) wird mit dem Code 7 identifiziert. Es wurde versucht,
dass jede Befragungsperson an der SOEP-Erstbefragung dieser
Stichprobe teilnimmt. Ähnlich wie bereits bei
den neuen Stichproben E und F, die 1998 bzw. 2000 erstmals befragt wurden, wird
in der ersten Welle bei neuen Stichproben auf die Erhebung
biographischer Zusatzinformationen verzichtet. Für die
Stichprobe G wurden die Biographie-Variablen also erst in der
zweiten Welle, d.h. im Jahre 2003, erhoben.
Weitere ausführliche Informationen zum Start der neuen
SOEP-Stichprobe finden sich im Forschungsbericht des Bundesministeriums
für Gesundheit und Soziale Sicherung
Repräsentative Analyse der
Lebenslagen einkommensstarker Haushalte ( |
|||||||||||
1.3 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten? |
In rund der Hälfte der Fälle in Stichprobe E wird - im Rahmen
eines zufälligen Splittings der Stichprobe - seit dem Jahr
2000 die für das SOEP neue Erhebungsmethode CAPI (=Computer
Assisted Personal Interview) angewandt. Sie identifizieren
diese Interviews in der Variablen $PFORM* in $PBRUTTO bzw.
$HFORM* in $HBRUTTO.
Erste erhebungsmethodische Analysen zeigten keine signifikanten Methodeneffekte. D.h., für die inhaltlichen Ergebnisse scheint die Form der Datenerhebung keinerlei eigenständige Einflüsse auszuüben. Weitere Analysen zur Erhebungsmethode durch Nutzer/innen sind natürlich sinnvoll. Seit dem Jahr 2001 wird diese Erhebungsmethode zunehmend auch in den Alt-Stichproben A bis D sowie F eingesetzt. |
|||||||||||
1.4 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum? |
Vermutlich haben Sie nur einige Files aus der aktuellen
Datenlieferung (SAS-Version) installiert. Dieses Problem dürfte
nicht entstehen, wenn Sie die SAS-Version des aktuellen Datensatz
vollständig auf Ihren Rechner implementieren. Wir empfehlen, so
bei jeder neuen Datenlieferung zu verfahren.
Das Problem liegt in der Art und Weise wie SAS die Value-Labels verarbeitet. So werden alle Value-Labels für alle Files in einer SAS Library (einem Directory) in einem einzigen File "FORMATS.SC2" (oder UNIX "formats.sct01") gespeichert. Die setzt voraus, dass alle Value-Labels durchweg einzigartig in der Library sind. Tatsächlich werden die Value-Labels aber neu definiert. Es entstehen nun fast zwangsläufig Probleme, wenn Daten-Files von unterschiedlichen Datenlieferungen in einem Directory kombiniert werden. Die Lösung ist einfach: Installieren Sie bei jeder neuen Datenlieferung immer alle Files. Dieses "Problem" hängt mit SAS zusammen und kann von uns nicht gelöst werden. |
|||||||||||
1.5 Was ist der Jugendfragebogen? |
Seit dem Jahr 2000 werden im SOEP Daten zu kinder- und
jugendspezifischen Themen mit einem eigenen Instrument, dem
Jugendfragebogen, erhoben. Er wird anstelle des
Lebenslauffragebogens erhoben, weil die dort gestellten Fragen
zur Familien- und Berufsbiographie für die Jugendlichen noch
nicht zutreffen und Angaben zur sozialen Herkunft i.d.R. bereits
vorliegen. Nur in den Fällen, in denen Jugendliche nicht mehr
mit einem oder beiden Elternteilen zusammenwohnen, werden die
entsprechenden Informationen über die Eltern erhoben. Zusätzlich
werden die Standardfragen zur Immigration aus dem
Lebenslauffragebogen an zugewanderte Jugendliche gestellt.
Somit wird gewährleistet, dass alle wichtigen Informationen,
die im Lebenslauffragebogen erhoben werden, auch für Jugendliche
vorliegen.
Der Jugendfragebogen enthält insbesondere retrospektive Fragen zur Schullaufbahn (Empfehlung für die Sekundarstufe I, Wiederholung einer oder mehrerer Klassenstufen), zur Musikerziehung und zum Sport wie auch zur aktuellen Situation (schulische Leistung, Freizeitgestaltung, Jobben, Verhältnis zu den Eltern etc.). Auch werden zahlreiche Prospektivfragen zu (Aus-)Bildungsplänen und Erwartungen an die berufliche und familiäre Zukunft gestellt. Die Jugenddaten ermöglichen somit zahlreiche Analysen, da sie retrospektive Informationen zur Kindheit enthalten, die mit der Geschichte der Eltern verknüpfbar sind, sowie auch prospektive Fragen. Da im SOEP alle Haushaltsmitglieder ab 17 Jahren befragt werden, eignet sich die Datenlage u.a. hervorragend für intergenerationale Analysen. Im Jahr 2000 wurde ein Pre-Test mit 232 Jugendlichen durchgeführt, die in SOEP-Haushalten leben (17-Jährige in Sample A-E). Einen erweiterten und überarbeiteten Fragebogen haben im Jahr 2001 618 Jugendliche, die zwischen 17 und 19 Jahre alt wurden, ausgefüllt (17-Jährige in Sample A-E, 17 bis 19-Jährige in Sample F). Seit dem Jahr 2002 füllen jeweils alle 17-jährigen Jugendlichen, die erstmals persönlich in einem SOEP-Haushalt befragt werden, zum Start ihrer "Befragungskarriere" den Jugendfragebogen aus. Die Daten der dieser Befragungen sind in dem Datensatz "BIOAGE17" (bis zur Datenweitergabe 2005: "BIOYOUTH") abgelegt. Pro Welle werden etwa 350 Jugendliche dazukommen. So wird kumulativ rasch ein großer jugendspezifischer Datensatz entstehen. Weitere Informationen finden Sie im Kapitel 13 unserer Dokumentation zu Biographiedaten. |
|||||||||||
1.6 Welche Informationen sind in dem neuen Datensatz BIOSOC enthalten? |
In den Jahren 2000 und 2001 wurde der Biographiefragebogen um einige Fragen erweitert,
die sich unmittelbar auf Ereignisse in der Jugend beziehen. Einige dieser Fragen korrespondieren unmittelbar mit denen, die auch im Jugendfragebogen gestellt werden. Die Befragten werden darum
gebeten, retrospektive Angaben zu ihrer Jugend zu machen, wie z.B. zu ihren Beziehung zu den Eltern als sie 15 Jahre alt waren, zu ihren Schulnoten, zum Bundesland, in dem sie ihren Schulabschluss erworben haben, und ob sie noch einen Schulabschluss anstreben. Auch die im Biographiefragebogen erhobenen Angaben zu Wehr-, Zivildienst und Freiwilligem Sozialen Jahr sind hier abgelegt.
Weitere Informationen finden Sie im Kapitel 11 unserer Dokumentation zu Biographiedaten. |
|||||||||||
1.7 Wo finde ich Informationen über frühere Datenlieferungen? |
||||||||||||
2 Nutzungsbedingungen |
||||||||||||
2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten? |
Die SOEP-Mikrodaten werden von uns so weitergegeben, dass sie durch ein Statistikprogramm ausgewertet werden müssen, bevor sie interpretiert werden können. Sie stehen der wissenschaftlichen Forschung gegen eine geringe Gebühr zur Verfügung.
Ausgewählte Ergebnisse von bereits durchgeführten Analysen haben wir für Sie in Pressemitteilungen aufbereitet. Alle uns bekannten Arbeiten werden in der Datenbank SOEPlit registriert und können online durchsucht werden. Darüber hinaus haben wir viele Originalarbeiten, die im Internet erhältlich sind, auf unseren Internetseiten aufgeführt. Die direkte Nutzung der SOEP-Daten unterliegt den hohen Anforderungen des gesetzlichen Datenschutzes in der Bundesrepublik Deutschland. Für die Arbeit mit den SOEP-Daten ist daher der Abschluss eines Datenweitergabevertrages notwendig. Falls Sie diesen noch nicht mit uns abgeschlossen haben, können Sie ihn hier beantragen. Verfügen Sie bereits über einen Datenweitergabevertrag, bestellen Sie bitte die SOEP-Daten mit dem Bestellformular auf unserer Homepage. Die Daten werden aus Sicherheitsgründen per "Wert-Brief" verschickt (und sind auf keinen Fall via Internet zu erhalten). Zur Bearbeitung Ihres Antrags benötigen wir 1.die vollständige berufliche Adresse (inkl. Tel.- und Fax.-Nr.)
desjenigen bzw. derjenigen, der/die für das Forschungsprojekt verantwortlich
ist (bei Dissertationen und Diplomarbeiten der/die jeweils zuständige
ProfessorIn); Falls Sie weitere Fragen haben, können Sie sich gerne unter soepmail@diw.de an Michaela Engelmann wenden. |
|||||||||||
2.2 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt? |
Für die Jahre 1984 bis zum aktuellen Rand liegen Datenreihen - ab 1990 getrennt nach Ost- und Westdeutschland - auf Haushalts- und Personenebene vor. Im
SOEP-Monitor Haushalt gibt es insbesondere Informationen zur Wohnsituation der Haushalte; im SOEP-Monitor Personen finden Sie Kennzahlen zu Arbeitsmarkt, Bildung, Einkommen und subjektiven Indikatoren (z.B. Lebenszufriedenheit).
Auch der vom Statistischen Bundesamt herausgegebene Datenreport enthält einige Beiträge zu Lebensbedingungen und ihre Bewertungen in Deutschland auf Grundlage der SOEP Daten (z.B. Statistisches Bundesamt (Hg.) (2004): Datenreport 2004. Schriftenreihe der Bundeszentrale für politische Bildung. Band 450. Im Internet bei den Publikationen des Statistischen Bundesamtes oder unter http://www.gesis.org/Dauerbeobachtung/Sozialindikatoren/Publikationen/Datenreport/dr06.htm. |
|||||||||||
2.3 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden? |
Ja, aber es ist eine Nutzungsgebühr fällig. Bitte wenden Sie sich mit Ihrem konkreten Anliegen direkt an den Projektleiter Prof. Dr. Gert G. Wagner. | |||||||||||
2.4 Wertet die SOEP-Gruppe den Datensatz für mich aus? |
Generell nicht. Für den Fall, dass Sie Sonderauswertungen und Gutachten durch
das DIW Berlin in Auftrag geben möchten, wenden Sie sich bitte an die
SOEP-Projektleitung: Prof. Dr. Gert G. Wagner.
SOEPinfo gibt einen Überblick über den Inhalt des Datensatzes mit Häufigkeitsauszählungen der Variablen. |
|||||||||||
2.5 Finden Kurse zur Einführung in die SOEP-Daten statt? |
Gewöhnlich veranstaltet die SOEP-Gruppe in jedem Frühjahr
SOEP-Einführungskurse am DIW in Berlin. Darüber hinaus werden alle zwei Jahre
Kurse für internationale Datennutzer/innen angeboten, die in der Regel in den
USA stattfinden. Beide Kurse werden zeitig im
NEWSLETTER
angekündigt; dort finden sie auch Anmeldeformulare.
Unsere Dokumentationen geben zudem eine Einführung in die Analyse der SOEP-Daten. Insbesondere das Kernstück der SOEP-Dokumentation, das DTC ist dort abrufbar. Für die erfolgfreiche Teilnahme an einem SOEP-Workshop ist ein intensives Durcharbeiten des DTC ebenso zentrale Voraussetzung wie die Kenntnis eines von der SOEP-Projektgruppe unterstützten Statistik-Software Paketes (überwiegend SAS, SPSS oder STATA). |
|||||||||||
2.6 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland sowie den EWG-Staaten weitergegebenen SOEP-Datensatz (100%-File) und dem im außereuropäischen Ausland zu verwendenden SOEP Scientific-Use-File? |
Um Forscher/innen außerhalb der EWG-Staaten die SOEP-Daten zugänglich zu machen, musste
aufgrund deutscher Datenschutzbestimmungen der SOEP-Datensatz leicht reduziert
werden. Der Scientific-Use-File des SOEP ist eine 95%-Zufallsstichprobe, das
heißt, 5% der befragten Haushalte der jeweils ersten Welle einer Stichprobe
wurden nachträglich zufällig aus dem Datensatz entfernt. Längsschnittanalysen
können somit unproblematisch durchgeführt werden. Das Verfahren verzerrt die
Ergebnisse nicht; selbstverständlich ist der Stichprobenfehler aufgrund der
geringeren Fallzahl etwas größer als im 100%-Datensatz.
Zudem wird die in der 5. Welle erhobene Vermögensbilanz (Datei EV) nicht weitergegeben. Die Weitergabe der vollständigen Informationen zur Staatsbürgerschaft konnte erstmals Anfang 2004 für die Daten 1984-2002 realisiert werden. Seitdem sind auch im Scientific-Use-File die Informationen zur Nationalität einer Person in Nation$$ und das Herkunftsland in CORIGIN abgelegt (siehe auch Frage 4.5). |
|||||||||||
3 Vertragsmanagement |
||||||||||||
3.1 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten? |
Jede Mitarbeiterin und jeder Mitarbeiter, die/der in Ihrer Forschungsgruppe
mit den SOEP-Daten arbeitet, muss auf die Einhaltung des Datenschutzes
verpflichtet werden. Sie erhalten entsprechende Kopiervorlagen zusammen mit
dem Datenweitergabevertrag. Falls Ihnen diese Unterlagen ausgegangen sind,
finden Sie hier ein Merkblatt zum Datenschutz ( |
|||||||||||
3.2 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun? |
Bitte schicken Sie uns einfach eine kurze Nachricht mit dem Titel Ihres neuen Forschungsschwerpunktes (soepmail@diw.de). Wenn Sie ein Gutachten bearbeiten oder Auftragsforschung betreiben, informieren Sie uns bitte auch hierüber, da dann eine Nutzungsgebühr vereinbart werden muss. | |||||||||||
3.3 Wie soll ich das SOEP in meinen Publikationen zitieren? |
Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren
Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von
Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn
bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen
lauten:
Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW), Berlin, bereitgestellt. Wenn Sie einen Beitrag zitieren möchten, der das SOEP beschreibt, verwenden Sie bitte: SOEP Group (2001): The German Socio-Economic Panel (GSOEP) after more than 15 years - Overview. In: Elke Holst, Dr. Dean R. Lillard und Thomas A. DiPrete (Hg.): Proceedings of the 2000 Fourth International Conference of German Socio-Economic Panel Study Users (GSOEP2000), Vierteljahrshefte zur Wirtschaftsforschung, Jg. 70, Nr. 1, S. 7-14. Wenn Sie einen Beitrag zitieren möchten, der das GSOEP - also das scientific use file mit der 95% Version des SOEP - beschreibt, verwenden Sie bitte: Burkhauser, Richard V.; Butrica, Barbara A.; Daly, Mary C. and Lillard, Dean R. (2001): The Cross-National Equivalent File: A product of cross-national research. In: Becker, Irene; Ott, Notburga und Rolf, Gabriele (Hrsg.): Soziale Sicherung in einer dynamischen Gesellschaft. Festschrift für Richard Hauser zum 65. Geburtstag, Frankfurt/New York: Campus, S. 354-376 Die Dokumentation der auf Basis des SOEP erstellten Publikationen hat eine große Bedeutung für die erfolgreiche Weiterführung des Projektes. Wie Sie wissen, ist die Übersendung Ihrer Publikationen auch Teil des Datennutzungsvertrages. Leider ist unsere Datenbank SOEPlit bei weitem nicht vollständig. Bitte senden Sie uns daher Ihre auf dem SOEP basierenden Publikationen. Vielen Dank!
|
|||||||||||
3.4 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten? |
Wir unterstützen den Einsatz von SOEP-Daten in der Lehre. Hier sind jedoch
einige wichtige Regeln ( Auch die Nutzerinnen und Nutzer eines reduzierten Datensatzes sollten auf die Einhaltung des Datenschutzes verpflichtet werden (Beispielformular ( |
|||||||||||
3.5 Wie kann ich Mitglied der SOEP-Mailingliste werden? |
Um in die Liste eingetragen zu werden, bitte eine Mail schicken an: sympa@list.diw.de, Betreff (subject): subscribe soep-l. Die Liste hat die Email-Adresse soep-l@list.diw.de. Weitere Informationen gibt es hier.
|
|||||||||||
4 Auswertungen mit dem SOEP |
||||||||||||
4.1 Sind die von mir gesuchten Variablen im SOEP enthalten? |
Mit dem interaktiven Programm SOEPinfo können Sie gezielt nach Themenbereichen und Schlagworten suchen und einen Überblick über alle erhobenen Variablen (inkl. Häufigkeitsauszählungen) und Fragebögen erhalten. | |||||||||||
4.2 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt? |
Im Standarddatensatz ist die Variable $BULA (= Bundesland) enthalten. Sollten Sie tiefer gegliederte Regionalinformationen für Ihre Forschungsarbeit benötigen, z.B. Gemeindegrößenklassen, die auf der SOEP-CD vorhanden sind, benötigen Sie einen erweiterten Datennutzungsvertrag. Um darüber hinaus die "Raumordnungsregionen" (ROR) nutzen zu können, müssen Sie ein spezielles Datenschutzkonzept vorlegen (als das Richtlinie finden Sie hier ( Im Rahmen von Forschungsaufenthalten am DIW Berlin oder über SOEPremote besteht die Möglichkeit, auch auf der Ebene der - datenschutzrechtlich besonders sensitiven - kleinräumigen "Kreiskennziffern" (KKZ) und Postleitzahlen auszuwerten. Es gibt eine DIW Data Documentation über Regionaldaten im Sozio-oekonomischen Panel (SOEP) ( Nähere Auskünfte zum Datenschutz, zur Weitergabe von bzw. Zugang zu den SOEP-Regionaldaten
erhalten Sie bei
Michaela Engelmann (soepmail@diw.de). |
|||||||||||
4.3 Sind Bundesländer repräsentativ auswertbar? |
Als einzelnes Bundesland ist aufgrund seiner Größe bis zu Welle P (1999) im
Grunde nur Nordrhein-Westfalen (NRW) sinnvoll auswertbar. Prinzipiell besteht
die Gefahr, dass bei tiefer gegliederten Strukturanalysen die
bundesländerspezifischen Fallzahlen einzelner Zellen für statistisch
signifikante Aussagen zu klein werden. Auswertbar sind die Daten jedoch für
"Pools" einzelner kleiner Bundesländer (z.B. Ländertypen). Seit dem Jahr 2000 verbessern sich die Analysemöglichkeiten aufgrund deutlich größerer Fallzahlen (Samples A-F). |
|||||||||||
4.4 Was sind generierte Variablen und wann greife ich am besten auf sie zurück? |
Generierte Variablen dienen ebenso wie Status-Variablen der Vereinfachung der
Arbeit mit den SOEP-Daten. Bei ihrer Generierung fließen jeweils spezifische
Annahmen ein, die Sie der Dokumentation entnehmen können. Schauen Sie die
Dokumentation für die Files $PGEN und $HGEN an
(Joachim Frick).
Zu den Neuerungen vgl. Frage 1.1.
|
|||||||||||
4.5 Wie kann ich Rentnerinnen und Rentner im Datensatz identifizieren? |
Je nach Fragestellung bieten sich hierzu verschiedene Möglichkeiten an:
|
|||||||||||
4.6 Kann sich die Stichproben- Zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde? |
Die Stichprobenzugehörigkeit (Variablen PSAMPLE in PPFAD bzw. HSAMPLE in HPFAD) verändert sich grundsätzlich nicht. Weder durch den Wechsel der Staatsbürgerschaft noch durch den Umzug in eine andere Sample-Region (von West- nach Ostdeutschland oder umgekehrt). Die Person bleibt trotzdem in der Ausländer-, bzw. West- oder Oststichprobe. Die aktuelle Nationalität (NATION$$) bzw. Regionalzugehörigkeit ($SAMPREG) ist leicht erkennbar. | |||||||||||
4.7 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)? |
Mittlerweile sind zahlreiche Befragte von Ost- nach Westdeutschland und - in
geringerem Umfang von West- nach Ostdeutschland - umgezogen. Analysen, die
auf regionale Bezüge abstellen, werden durch Verwendung der Variablen PSAMPLE,
die die Stichprobenzugehörigkeit angibt, zum Teil erheblich verzerrt
(PSAMPLE befindet sich in PPFAD: 1 = Subsample A, 2 = Subsample B,
3 = Subsample C, 4= Subsample D (Zuwanderer), 5 = Subsample E
(Ergänzungsstichprobe ab 1998), 6 = Subsample F (Innovationsstichprobe
ab 2000)).
Eine korrekte regionale Zuordnung der Stichprobenmitglieder wird nur über die zeitabhängigen Variablen $SAMPREG in PPFAD und HPFAD erreicht (1 = Westdeutschland, 2 = Ostdeutschland). In $SAMPREG wird seit 1990 für jedes Jahr die west- bzw. ostdeutsche Population unabhängig von der Sample-Zugehörigkeit ermittelt. Wir empfehlen, immer diese Variable für regionale Analysen zu verwenden! Die nachfolgende Tabelle, bei der eine Kreuztabellierung von $SAMPREG und PSAMPLE vorgenommen wurde, gibt einen Einblick über das Ausmaß der regionalen Mobilität seit 1990 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews) oder $NETTO=2 (Kinder bis 16 Jahren) in befragten Haushalten). |
|||||||||||
|
|
||||||||||||
4.8 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)? |
Analog zum o.g. Phänomen ($SAMPREG vs.P SAMPLE) wird häufig auch eine
Identität des Samples B mit der Population der im SOEP interviewten Gruppe
der "Ausländer" unterstellt, während Sample A mit "Deutschen" gleichgesetzt
wird. Dies trifft zwar im großen und ganzen zu, ist jedoch nicht exakt und
wird im Zeitverlauf immer weniger genau. Zu Beginn des SOEP im Jahre 1984 war es die Nationalität des Haushaltsvorstands, die eine Zugehörigkeit in die beiden Samples A und B festlegte. Nichtdestotrotz konnten weitere Haushaltsmitglieder mit einer anderen Nationalität als derjenigen des Vorstandes in diesen Haushalten leben. Zudem enthielt auch Sample A AusländerInnen, sofern sie nicht einer der durch Sample B repräsentierten Nationalitäten angehörten. Deutlich verstärkt wird das Auseinanderklaffen von SAMPLE-Zugehörigkeit und (zeitpunktbezogener) Nationalitätsinformation insbesondere durch das Einbürgerungsverhalten von Personen im Sample B. Während Sample C auch bis zum Jahr 2000 fast ausnahmslos aus Personen mit deutscher Nationalität besteht, enthält Sample D aufgrund des hohen Anteils an Aussiedlern verhältnismäßig viele Deutsche. In den neueren Samples E und F ist eine ex-ante Zuordnung der entsprechenden Personen zu "Deutschen" oder "Nicht-Deutschen" aufgrund des Stichproben-Ziehungsdesigns schlichtweg nicht möglich. Die nachfolgende Tabelle, bei der eine Kreuztabellierung der recodierten Information von NATION$$ (1=Deutsche, 2=Nicht-Deutsche incl. Item-Non-Response) und PSAMPLE vorgenommen wurde, gibt einen Einblick über die Heterogenität der SOEP-Samples bezüglich der Nationalitäts-Zusammensetzung seit 1984 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews). |
|||||||||||
|
|
||||||||||||

Diese Seite empfehlen