Website Archive

     

Längsschnittstudie Sozio-oekonomisches Panel

     

Häufig gestellte Fragen (FAQ)


 

Inhalt

 
1 Datenweitergabe 1984-2000
  1.1 Fehler bei der Datenweitergabe 1984-2000
  1.2 SETUP-Probleme unter Windows 95/98/ME
  1.3 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?
  1.4 Was ist bei der neuen Datenlieferung zu beachten?
  1.5 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?
  1.6 Was ist bei der Fortschreibung der Querschnitt- Gewichtung/ Hochrechnung im Zusammenhang mit den neuen Stichproben E und F zu beachten?
  1.7 Was ist bei dem Designgewicht (DESIGN in VARIANZ, vormals: DESIGN in HHRF) zu beachten?
  1.8 Wie erfolgte die Revision der Querschnitts- Hochrechnungsfaktoren seit 1990 und was hat dies für Auswirkungen auf die hochgerechneten Befragungspersonen?
  1.9 Wie wurde die neue Stichprobe F hochgerechnet?
  1.10 Warum enthält das neue Sample F keine Biographie- Informationen in den BIO-Files?
  1.11 Warum gibt es kein Update von BIOPAREN?
  1.12 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?
2 Allgemeines
  2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?
  2.2 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?
  2.3 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?
  2.4 Wie soll ich das SOEP in meinen Publikationen zitieren?
  2.5 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?
  2.6 Wie kann ich mich in den SOEP-Listserver ein- bzw. austragen?
  2.7 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?
  2.8 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?
  2.9 Wertet die SOEP-Gruppe den Datensatz für mich aus?
  2.10 Finden Kurse zur Einführung in die SOEP-Daten statt?
  2.11 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland weitergegebenen SOEP-Datensatz (100%-File) und dem im Ausland zu verwendenden Scientific-Use-File (GSOEP)?
  2.12 Sind die von mir gesuchten Variablen im SOEP enthalten?
  2.13 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?
  2.14 Sind Bundesländer repräsentativ auswertbar?
  2.15 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?
  2.16 Kann sich die Stichproben- zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?
  2.17 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?
  2.18 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?
 

     

1 Datenweitergabe 1984-2000


 

1.1 Fehler bei der Datenweitergabe 1984-2000

  Nähere Informationen finden Sie hier.
       
 

1.2 SETUP-Probleme unter Windows 95/98/ME

  Nähere Informationen finden Sie hier.
       
 

1.3 Was ist bei der Variable PSAMPLE in dem File PPFAD zu beachten?

  Die neue Stichprobe (F) erhält den Code 6. Es wurde versucht, dass jede Befragungsperson an der SOEP-Erstbefragung dieser Stichprobe teilnimmt; dies ist auch in annähernd 95% aller neuen Stichprobenhaushalte gelungen. Ähnlich wie bereits bei der neuen Stichprobe E, die 1998 erstmals befragt wurde, wird in der ersten Welle bei neuen Stichproben auf die Erhebung biographischer Zusatzinformationen verzichtet. Für diese Stichprobe wurden die Biographie-Variablen also erst in der zweiten Welle, d.h. im Jahre 2001, erhoben.
Weitere ausführliche Informationen zum Start der neuen SOEP-Stichprobe finden sich im Methodenbericht von Infratest Sozialforschung ( PDF-Dokument).
       
 

1.4 Was ist bei der neuen Datenlieferung zu beachten?

  Mit der neuen Datenlieferung der Daten bis zum Jahr 2000 sind folgende Überarbeitungen/Neuerungen zu berücksichtigen:

***Neue Rectypes
Es gibt jetzt drei weitere Dateien:

1) VARIANZ
Dieses File enthält neben dem Haushaltsidentifikator die Variablen STRAT1, STRAT2, SAMPOINT und INTNR. Diese können von einigen Programmpaketen (z.B. STATA, SUDAAN) zur Schätzung von Varianzen verwendet werden. Alle vier Variablen liefern Information für die jeweilige Teilstichprobe zum Zeitpunkt der jeweils ersten Welle, d.h. sie sind auf der Case-Ebene (Variable HHNR) gespeichert.
STRAT1 identifiziert die Schichten, die für die Ziehung der Primary Sampling Units (PSUs) der jeweiligen Stichprobe relevant waren. Für die Teilstichprobe B sind dies die fünf Nationalitäten. Daher wurden für die Teilstichprobe B "künstliche" Schichten entsprechend den anderen Teilstichproben erzeugt und unter der Bezeichnung STRAT2 abgelegt.
Die Variable SAMPOINT identifiziert die jeweilige PSU (z.B. in Teilstichprobe A Stimmbezirke; in Teilstichprobe D nicht vorhanden).
Aus datenschutzrechtlichen Gründen wurden den verschiedenen Ausprägungen der Variablen STRAT1, STRAT2 und SAMPOINT transformierte Werte zugeordnet, um eine Identifikation regionaler Einheiten unmöglich zu machen.
Die Variable INTNR ist eine Variable, die jedem/r Interviewer/in eine Zahl zuordnet, so dass Cluster von Haushalten, die von dem/derselben Interviewer/in befragt wurden, identifizierbar sind.

2) HBRUTT00
Dieses File enthält - wie schon bei der Erhebung der Ergänzungsstichprobe 1998 (Sample E) - alle Bruttoinformationen der durch Random-Route-Verfahren neu gezogenen Haushalte der Ergänzungsstichprobe des Jahres 2000 (Sample F). Dabei spielt es keine Rolle, ob diese Haushalte erfolgreich befragt wurden oder nicht. Derartige Informationen können u.a. für methodische Untersuchungen über die Beteiligung von Haushalten an (SOEP-) Befragungen herangezogen werden.

3) QJUGEND
Im Jahr 2000 erfolgte erstmals anstelle des Biographiefragebogens die Erhebung eines Jugendfragebogens. Dieser richtet sich an alle "neuen" Personen, die aufgrund des erreichten Befragungsalters "16. Lebensjahr" erstmals an der SOEP-Befragung teilnehmen. Die nunmehr vorliegenden 232 Datensätze von Jugendlichen ergänzen die Informationen aus dem ebenfalls erstmals beantworteten Personenfragebogen, um retrospektive Angaben zum Bildungsverlauf sowie von Basisindikatoren zum Bildungserfolg zu erhalten. Da im Jahr 2001 eine gründliche Revision sowie Erweiterung der Indikatoren des Jugendfragebogens erfolgte und auch die Jugendlichen der neuen Stichprobe F erstmals im Jahr 2001 diesen neuen Fragebogen beantwortet haben, stellt der Datensatz QJUGEND sozusagen eine Art Pretest eines ab 2001 neuen zusätzlich im Rahmen der Datenweitergabe bereitgestellten Biographiedatensatzes BIOYOUTH dar.

*** Überarbeitung der Labels
Die VAR LABELS und VALUE LABELS wurden für alle zurückliegenden Jahre (bis einschließlich dem Erhebungsjahr 1999) rückwirkend vollständig überarbeitet. Gegebenenfalls erfolgte eine Ergänzung fehlender Labels sowie eine Vereinheitlichung der Systematik (etwa bei Sub-items oder Variablen mit nur einer Antwortkategorie). Ferner wurden auch die Labels semantisch im zeitlichen Verlauf vereinheitlicht. Der so überarbeitete Labeltext wurde zugleich komplett auf die englischen Labels übertragen, so dass diese jetzt rückwirkend in vollständig gleicher Systematik vorliegen wie die deutschen.

*** Neu in $PGEN
Für die aktuelle Datenlieferung wurden umfangreiche Aktualisierungen auch bei Variablen früherer Wellen vorgenommen. Bitte beachten Sie, dass nun deutlich weniger missing values -1 (k.A.) bei vielen arbeitsmarktbezogenen Variablen auftreten. Die Bildungsvariablen in sämtlichen $PGEN wurden überarbeitet und ergänzt. Neue Variablen in $PGEN im Jahr 2000 sind erstmals ein differenzierter Status der Erwerbsbeteiligung für sämtliche Befragte (Labor Force Status) und generierte Bildungsinformationen auf Grundlage der im Jahr 2000 erstmals wieder komplett erhobenen Angaben zum bislang erreichten höchsten schulischen wie beruflichen Abschluss. Die bereits vorliegenden generierten Bildungsvariablen wurden für alle Jahre rückwirkend überarbeitet, fortgeschrieben und auch ergänzt: Sie enthalten jetzt auch die Angaben der Lückepopulation sowie Informationen über einen derzeitigen Schulbesuch sowie Lehre und Studium. Weiterhin wurde die Variable BETR$$ im File $PGEN einheitlich neu kodiert (die Angaben zur Betriebsgrößenklasse und damit auch die Kodierungen haben sich im Laufe der Zeit im SOEP verändert). Wir bitten Sie dies bei Programmaktualisierungen zu berücksichtigen.

Ansprechpartner:
Jürgen Schupp und Peter Krause

$PEQUIV-Files
Für die $PEQUIV-Files wurde ein Update durchgeführt. Dies betrifft:

  • die Erweiterung der Population,
  • die Überarbeitung der Variable IMPUTED RENT (Einkommensvorteil aus selbstgenutztem Wohneigentum),
  • neue Variablen zur Generierung von Äquivalenzskalen
  • eine Überarbeitung der Variablen zu ANNUAL WORKING HOURS.

Ansprechpartner:
Markus Grabka

Dokumentation
Da sehr viele Neuerungen in der Datenbank vorgenommen wurden, waren auch zahlreiche Updates bestehender Dokumentationsteile sowie zum Teil komplett neue Dokumentationen notwendig. Diese finden Sie im Desktop-Companion (DTC) bzw. als eigenständige Dokumentationen auf den gelieferten CD-Roms.

       
 

1.5 Was ist aufgrund der zusätzlichen Erhebungsmethode im SOEP, nämlich CAPI, zu beachten?

  In rund der Hälfte der Fälle in Stichprobe E wurde - im Rahmen eines zufälligen Splittings der Stichprobe - auch erstmals die für das SOEP neue Erhebungsmethode CAPI (=Computer Assisted Personal Interview) angewandt. Sie identifizieren diese Interviews in der Variablen $PFORM* in $PBRUTTO bzw. $HFORM* in $HBRUTTO.

Erste erhebungsmethodische Analysen zeigten keine signifikanten Methodeneffekte. D.h., für die inhaltlichen Ergebnisse scheint die Form der Datenerhebung keinerlei eigenständige Einflüsse auszuüben. Weitere Analysen zur Erhebungsmethode durch Nutzer/innen sind natürlich sinnvoll.

       
 

1.6 Was ist bei der Fortschreibung der Querschnitt- Gewichtung/ Hochrechnung im Zusammenhang mit den neuen Stichproben E und F zu beachten?

  Grundsätzlich wird empfohlen, alle Teilstichproben A-F zu nutzen, da sie eine große Fallzahl aufweisen. In diesem Fall sind die Hochrechnungsfaktoren $PHRF bzw. $HHRF zu verwenden. Für eine Fortschreibung einer auf den Stichproben A-D basierenden Trendreihe für die Jahre 1998 bis 1999, die somit NICHT die Daten von Stichprobe E berücksichtigt, ist der jeweilige Querschnittshochrechnungsfaktor OPHRF (bzw. OHHRF) und PPHRF (bzw. PHHREF) mit dem Faktor 1,25 zu multiplizieren. Wird nur die Teilstichprobe E verwendet, sind die entsprechenden Querschnittshochrechnungsfaktoren mit dem Faktor 5 zu multiplizieren. Werden ab dem Jahr 2000 nur die Teilstichproben A-D verwendet, sind die Hochrechnungsfaktoren $PHRF bzw. $HHRF mit 2,27 zu multiplizieren.
Sollen von 2000 an nur die Teilstichproben A-E verwendet werden, dann sind die vorbereiteten Hochrechnungsfaktoren $PHRFAE bzw. $HHRFAE, soll nur die Teilstichprobe F verwendet werden, dann sind die Hochrechnungsfaktoren $PHRFF bzw. $HHRFF zu verwenden (vgl. DIW-Diskussionspapier Nr. 198   ( PDF-Dokument, 215 KB) und Haisken-DeNew und Frick, Desktop Companion, 2001).
       
 

1.7 Was ist bei dem Designgewicht (DESIGN in VARIANZ, vormals: DESIGN in HHRF) zu beachten?

  Dieses Gewicht ist als Approximation an die 'wahre' inverse Inklusionswahrscheinlichkeit des jeweiligen Haushaltes in der jeweils ersten Welle des jeweiligen Subsamples (A-F) aufzufassen. Da bei der Herleitung weder erfolglose Kontaktversuche noch Verweigerungsmechanismen etc. berücksichtigt wurden, sollte dieses Gewicht im allgemeinen nicht ohne weitere Überlegungen verwendet werden. Stattdessen kann es als Ausgangsbasis zur Konstruktion eigener Quer- bzw. Längsschnittgewichte genutzt werden (vgl. Martin Spiess, 2001, DIW Materialien/Research Notes, Research Note No. 5 ( PDF-Dokument, 203 KB)).

Ansprechpartner:
Martin Spiess

       
 

1.8 Wie erfolgte die Revision der Querschnitts- Hochrechnungsfaktoren seit 1990 und was hat dies für Auswirkungen auf die hochgerechneten Befragungspersonen?

  1998 wurde eine Revision der Querschnitts-Hochrechnungsfaktoren für die Jahre ab 1990 vorgenommen. (Vor 1990 blieben die alten Hochrechnungsfaktoren unverändert.) Ziel war es, nicht nur in der jeweiligen Startwelle, sondern auch in allen Folgewellen Querschnittsgewichte bereitzustellen, die eine moderate Anpassung an Strukturen des Mikrozensus widerspiegeln.
Ausführliche Informationen zur Hochrechnung finden Sie auf der aktuellen CD (CD 2) in der Datei: »\DOCS\HRF\Querhoch.doc« unter dem Titel »Neue Querschnittshochrechnung der Wellen G-N des Sozio-oekonomischen Panels unter Einbeziehung der Ergänzungsstichprobe E« von Rainer Pischner.
       
 

1.9 Wie wurde die neue Stichprobe F hochgerechnet?

  Während die alten Stichproben (A-E) wie bisher hochgerechnet wurden, musste die neue Stichprobe F- wie alle ersten Wellen der verschiedenen SOEP-Teilstichproben - etwas detaillierter behandelt werden.

Gleich eine Vorbemerkung: Der hier vorgelegte Hochrechnungsrahmen sollte als vorläufig betrachtet werden. Wir bitten alle AnwenderInnen uns Auffälligkeiten mitzuteilen.

Haushalte:
Ausgehend von Designgewichten, die im wesentlichen die unterschiedlichen Auswahlwahrscheinlichkeiten der Ausländer berücksichtigen, wurden die Privathaushalte an folgendem Hochrechnungsrahmen angepasst:

  • 5 Haushaltsgrößen
  • 12 Altersklassen der Haushaltsmitglieder
  • Deutsche Nationalität und Geschlecht der Haushaltsmitglieder
  • 22 (Ost) bzw. 24 (West) Quartierbeschreibungsvariablen

Die Quartierbeschreibungsvariablen geben Auskunft über das Wohnumfeld der Haushalte. Sie liegt sowohl für die Netto- als auch für die Bruttostichprobe vor. Eine Anpassung an diese Variable gleicht somit indirekt unterschiedliche Ausschöpfungen der einzelnen Sample-Points aus, erzeugen aber weniger Varianz.

Personen:
Anders als bei den Startgewichtungen der alten Stichproben konnte das Prinzip Personengewicht = Haushaltsgewicht nicht vollständig beibehalten werden, da diesmal zu viele Haushalte Teilausfälle verzeichneten (8,6% der Haushalte). Insgesamt konnte mit 5,6 % aller Personen, die in zumindest teilweise realisierten Haushalten lebten, kein Interviews geführt werden. Deshalb wurde die Bevölkerung am Hauptwohnsitz in Privat haushalten sehr detailliert an 19 Altersklassen angepasst, da die temporären Verweigerungen im wesentlichen nur altersabhängig sind.

Anstalten:
Für die Haushalte und Personen im Anstaltsbereich wurden im Prinzip die Designgewichte verwendet ("freie Hochrechnung").

Personen mit 2. Wohnsitz:
Personen mit 2. Wohnsitz besitzen ceteris paribus eine höhere Auswahlwahrscheinlichkeit; wegen - noch - fehlender Daten bleibt dies zunächst unberücksichtigt. Die Anpassung wird nach Vorliegen der zweiten Welle nachträglich vorgenommen.

Ausführliche Informationen zur vorläufigen Hochrechnung der Stichprobe F finden Sie auf der aktuellen CD (CD 2) in der Datei: »\DOCS\HRF\Querhoch_F.doc« unter dem Titel »Die vorläufige Hochrechnung der ersten Welle der Stichprobe F des SOEP« von Rainer Pischner.

       
 

1.10 Warum enthält das neue Sample F keine Biographie- Informationen in den BIO-Files?

  Diese Biographie-Informationen werden erst in Welle 2 der Stichprobe F (2001) erhoben und stehen aller Voraussicht nach mit der nächsten Datenweitergabe zur Verfügung.
       
 

1.11 Warum gibt es kein Update von BIOPAREN?

  BIOPAREN wurde diesmal nicht aktualisiert, da im kommenden Jahr ein sehr umfangreiches Update im Zusammenhang mit der Integration von Sample F und den Information zu sozialen Netzwerken (Befragungsschwerpunkt 2001) notwendig wird. Zudem werden derzeit die Berufsangaben der Eltern neu kodiert und entsprechend rückwirkend im File BIOPAREN angepasst. Diese Arbeiten sind derzeit noch nicht abgeschlossen. Bei Bedarf liefern wir Ihnen jedoch ein "kleines" Update für das Jahr 2000 nach, das den gegenwärtigen Zwischenstand der Arbeiten enthält. Bitte richten Sie Ihre diesbezüglichen Anfragen an soepmail@diw.de.
       
 

1.12 Ich erhalte falsche Value-Labels, wenn ich die SAS-Version der SOEP-Daten verwende. Warum?

  Vermutlich haben Sie nur einige Files aus der aktuellen Datenlieferung (SAS-Version) installiert. Dieses Problem dürfte nicht entstehen, wenn Sie die SAS-Version des aktuellen Datensatz vollständig auf Ihren Rechner implementieren. Wir empfehlen, so bei jeder neuen Datenlieferung zu verfahren.

Das Problem liegt in der Art und Weise wie SAS die Value-Labels verarbeitet. So werden alle Value-Labels für alle Files in einer SAS Library (einem Directory) in einem einzigen File »FORMATS.SC2« (oder UNIX »formats.sct01«) gespeichert. Die setzt voraus, dass alle Value-Labels durchweg einzigartig in der Library sind. Tatsächlich werden die Value-Labels aber neu definiert. Es entstehen nun fast zwangsläufig Probleme, wenn Daten-Files von unterschiedlichen Datenlieferungen in einem Directory kombiniert werden. Die Lösung ist einfach: Installieren Sie bei jeder neuen Datenlieferung immer alle Files. Dieses »Problem« hängt mit SAS zusammen und kann von uns nicht gelöst werden.

       
     

2 Allgemeines


 

2.1 Wer kann die SOEP-Daten nutzen? Wie bekomme ich die SOEP-Daten?

  Die Nutzung der SOEP-Daten unterliegt den hohen Anforderungen des gesetzlichen Datenschutzes in der Bundesrepublik Deutschland. Für die Arbeit mit den SOEP-Daten ist daher der Abschluss eines Datenweitergabevertrages notwendig.

Falls Sie diesen noch nicht mit uns abgeschlossen haben, können Sie ihn hier beantragen.

Verfügen Sie bereits über einen Datenweitergabevertrag, bestellen Sie bitte die SOEP-Daten mit dem Bestellformular auf unserer Homepage. Die Daten werden aus Sicherheitsgründen per »Wert-Brief« verschickt (und sind auf keinen Fall via Internet zu erhalten).

Zur Bearbeitung Ihres Antrags benötigen wir

1.die vollständige berufliche Adresse (inkl. Tel.- und Fax.-Nr.) desjenigen bzw. derjenigen, der/die für das Forschungsprojekt verantwortlich ist (bei Dissertationen und Diplomarbeiten der/die jeweils zuständige ProfessorIn);
2.benötigen wir den Kurztitel Ihres Forschungsprojektes bzw. Ihres Forschungsprogramms, für das Sie die Daten verwenden wollen.

Falls Sie weitere Fragen haben, können Sie sich gerne unter soepmail@diw.de an Anna Plitt oder Floriane Weber wenden.

       
 

2.2 Wir nutzen die SOEP-Daten und haben neue Mitarbeiter/innen. Was ist im Zusammenhang mit dem DATENSCHUTZ zu beachten?

  Jede Mitarbeiterin und jeder Mitarbeiter, die/der in Ihrer Forschungsgruppe mit den SOEP-Daten arbeitet, muss auf die Einhaltung des Datenschutzes verpflichtet werden. Sie erhalten entsprechende Kopiervorlagen zusammen mit dem Datenweitergabevertrag. Falls Ihnen diese Unterlagen ausgegangen sind, finden Sie hier ein Merkblatt zum Datenschutz sowie das Muster einer Verpflichtungserklärung ( PDF-Dokument).
       
 

2.3 Neues Projekt - alter Datennutzungsvertrag. Was ist zu tun?

  Bitte schicken Sie uns einfach eine kurze Nachricht mit dem Titel Ihres neuen Forschungsschwerpunktes (soepmail@diw.de). Wenn Sie ein Gutachten bearbeiten oder Auftragsforschung betreiben, informieren Sie uns bitte auch hierüber, da dann eine Nutzungsgebühr vereinbart werden muß.
       
 

2.4 Wie soll ich das SOEP in meinen Publikationen zitieren?

  Zur Verbesserung der Dokumentation der Datennutzung bitten wir Sie, Ihren Beiträgen künftig (am besten eingangs in einer Fußnote bzw. im Vorwort von Büchern) einen Hinweis auf den verwendeten Datensatz und die ihn bereitstellende Institution beizufügen. Der Hinweis sollte folgendermaßen lauten:

Die in dieser [Publikation, Veröffentlichung etc.] verwendeten Daten des Sozio-oekonomischen Panels (SOEP) wurden vom Deutschen Institut für Wirtschaftsforschung (DIW), Berlin, bereitgestellt.

Wenn Sie einen Beitrag zitieren möchten, der das SOEP beschreibt, verwenden Sie bitte:

SOEP Group (2001): The German Socio-Economic Panel (GSOEP) after more than 15 years - Overview. In: Elke Holst, Dr. Dean R. Lillard und Thomas A. DiPrete (Hg.): Proceedings of the 2000 Fourth International Conference of German Socio-Economic Panel Study Users (GSOEP2000), Vierteljahrshefte zur Wirtschaftsforschung, Jg. 70, Nr. 1, S. 7-14.

Wenn Sie einen Beitrag zitieren möchten, der das GSOEP - also das scientific use file mit der 95% Version des SOEP - beschreibt, verwenden Sie bitte:

Burkhauser, Richard V.; Butrica, Barbara A.; Daly, Mary C. and Lillard, Dean R. (2001): The Cross-National Equivalent File: A product of cross-national research. In: Becker, Irene; Ott, Notburga und Rolf, Gabriele (Hrsg.): Soziale Sicherung in einer dynamischen Gesellschaft. Festschrift für Richard Hauser zum 65. Geburtstag, Frankfurt/New York: Campus, S. 354-376

Die Dokumentation der auf Basis des SOEP erstellten Publikationen hat eine große Bedeutung für die erfolgreiche Weiterführung des Projektes. Wie Sie wissen, ist die Übersendung Ihrer Publikationen auch Teil des Datennutzungsvertrages. Leider ist unsere Datenbank SOEPlit bei weitem nicht vollständig. Bitte senden Sie uns daher Ihre auf dem SOEP basierenden Publikationen. Vielen Dank!

Ansprechpartner:
Jürgen Schupp

       
 

2.5 Kann ich das SOEP IN DER LEHRE verwenden? Was muss ich beachten?

  Wir unterstützen den Einsatz von SOEP-Daten in der Lehre. Hier sind jedoch einige wichtige Regeln ( PDF-Dokument) - zum Beispiel zur Reduzierung des Datensatzes - zu beachten.
       
 

2.6 Wie kann ich mich in den SOEP-Listserver ein- bzw. austragen?

  Um aus der Liste ein- oder ausgetragen zu werden, eine Mail an reglin@diw.de schicken, mit dem Text zum Eintragen: subscribe soep-l username@server.domain:
       
 

2.7 Gibt die SOEP-Gruppe Zahlenreihen auf SOEP-Basis heraus wie z.B. das Statistische Bundesamt?

  Nein. Einen Überblick über Stand und Entwicklung zentraler Lebensbereiche in Deutschland können Sie aber dem vom Statistischen Bundesamt herausgegebenen Datenreport entnehmen (z.B. Statistisches Bundesamt (Hg.) (1997): Datenreport 1997. Schriftenreihe der Bundeszentrale für politische Bildung. Band 340). Der Datenreport 1999 enthält Beiträge zu Einkommensverteilung und Armut sowie zu AusländerInnen in Deutschland auf Grundlage der SOEP Daten (Statistisches Bundesamt (Hg.) (1999): Datenreport 1999. Schriftenreihe der Bundeszentrale für politische Bildung. Band 365). Es ist beabsichtigt, zur Jahresmitte 2002 einen neuen Datenreport vorzulegen.
       
 

2.8 Können mit den SOEP-Daten kommerzielle Gutachten für Dritte erstellt werden?

  Ja, aber es ist eine Nutzungsgebühr fällig. Bitte wenden Sie sich mit Ihrem konkreten Anliegen direkt an den Projektleiter Prof. Dr. Gert G. Wagner.
       
 

2.9 Wertet die SOEP-Gruppe den Datensatz für mich aus?

  Generell nicht. Für den Fall, daß Sie Sonderauswertungen und Gutachten durch das DIW in Auftrag geben möchten, wenden Sie sich bitte an die SOEP-Projektleitung: Prof. Dr. Gert G. Wagner. SOEPinfo gibt einen Überblick über den Inhalt der Datenbank mit Häufigkeitsauszählungen der Variablen.
       
 

2.10 Finden Kurse zur Einführung in die SOEP-Daten statt?

  Gewöhnlich veranstaltet die SOEP-Gruppe in jedem Frühjahr SOEP-Einführungskurse am DIW in Berlin. Darüber hinaus werden alle zwei Jahre Kurse für internationale Datennutzer/innen angeboten, die in der Regel in den USA stattfinden. Beide Kurse werden zeitig im NEWSLETTER angeküdingt; dort finden sie auch Anmeldeformulare.

Das DTC gibt zudem eine Einführung in die Analyse der SOEP-Daten. Dieses Kernstück der SOEP Dokumentation ist über DTC abrufbar. Ein intensives Durcharbeiten des DTC ist ebenso zentrale Vorraussetzung für die erfolgfreiche Teilnahme an einem SOEP-Workshop wie die Kenntnis eines SOEP-Projektgruppe unterstützten Statistik Software Paketes (überwiegend SAS, SPSS, STATA, TDA).

       
 

2.11 Welche Unterschiede und Gemeinsamkeiten bestehen zwischen dem im Inland weitergegebenen SOEP-Datensatz (100%-File) und dem im Ausland zu verwendenden Scientific-Use-File (GSOEP)?

  Um ausländischen Forscher/innen die SOEP-Daten zugänglich zu machen, musste aufgrund deutscher Datenschutzbestimmungen der SOEP-Datensatz leicht reduziert werden. Der Scientific-Use-File des SOEP ist eine 95%-Zufallsstichprobe, das heißt, 5% der befragten Haushalte der jeweils ersten Welle einer Stichprobe wurden nachträglich zufällig aus dem Datensatz entfernt. Längsschnittanalysen können somit unproblematisch durchgeführt werden. Das Verfahren verzerrt die Ergebnisse nicht; selbstverständlich ist der Stichprobenfehler aufgrund der geringeren Fallzahl etwas größer als im 100%-Datensatz. Weiterhin wird im Scientific-Use-File bei der Staatsbürgerschaft der Befragten nur zwischen deutsch und "EU-Ausländer" und "Nicht-EU-Ausländer" unterschieden. Das heißt, die in der Stichprobe B erfassten Personen lassen sich nicht nach ihrer unterschiedlichen Herkunft ermitteln (siehe auch Frage 2.18). Zudem wird die in der 5. Welle erhobene Vermögensbilanz (Datei EV) nicht weitergegeben.
       
 

2.12 Sind die von mir gesuchten Variablen im SOEP enthalten?

  Mit dem interaktiven Programm SOEPinfo können Sie gezielt nach Themenbereichen und Schlagworten suchen und einen Überblick über alle erhobenen Variablen (inkl. Häufigkeitsauszählungen) und Fragebögen erhalten.
       
 

2.13 Werden zusätzlich tiefer gegliederte Regionaldaten zur Verfügung gestellt?

  Im Standarddatensatz ist die Variable $BULA (= Bundesland) enthalten. Sollten Sie tiefer gegliederte Regionalinformationen für Ihre Forschungsarbeit brauchen, z.B. Gemeindegrößenklassen, benötigen Sie einen erweiterten Datennutzungsvertrag. Dieser Arbeitsbereich wird inhaltlich von Katharina Spieß betreut. Um die »Raumordnungsregionen« (ROR) nutzen zu können, müssen Sie ein spezielles Datenschutzkonzept vorlegen (und erhalten dann einen Sonder-Datenweitergabevertrag).

Im Rahmen von Forschungsaufenthalten am DIW besteht die Möglichkeit, auch die - datenschutzrechtlich besonders sensitiven - kleinräumigen »Kreiskennziffern« (KKZ) auszuwerten; Analysen auf der Ebene von Postleitzahlen sind in Vorbereitung. Setzen Sie sich bitte gegebenenfalls mit Anna Plitt oder Floriane Weber unter soepmail@diw.de in Verbindung.

       
 

2.14 Sind Bundesländer repräsentativ auswertbar?

  Als einzelnes Bundesland ist aufgrund seiner Größe bis zu Welle P (1999) im Grunde nur Nordrhein-Westfalen (NRW) sinnvoll auswertbar. Prinzipiell besteht die Gefahr, dass bei tiefer gegliederten Strukturanalysen die bundesländerspezifischen Fallzahlen einzelner Zellen für statistisch signifikante Aussagen zu klein werden. Auswertbar sind die Daten jedoch für »Pools« einzelner kleiner Bundesländer (z.B. Ländertypen).
Ab dem Jahr 2000 verbessern sich die Analysemöglichkeiten aufgrund deutlich größerer Fallzahlen (Samples A-F).
       
 

2.15 Was sind generierte Variablen und wann greife ich am besten auf sie zurück?

  Generierte Variablen dienen ebenso wie Status-Variablen der Vereinfachung der Arbeit mit den SOEP-Daten. Bei ihrer Generierung fließen jeweils spezifische Annahmen ein, die Sie der Dokumentation entnehmen können. Schauen Sie die Dokumentation für die Files $PGEN und $HGEN an (Joachim Frick). Zu den Neuerungen vgl. Frage 1.1.
       
 

2.16 Kann sich die Stichproben- zugehörigkeit im Laufe der Zeit verändern? Bleibt eine Befragungsperson der Ausländer-Stichprobe auch dann in diesem Sample, wenn die Staatsbürgerschaft gewechselt wurde?

  Die Stichprobenzugehörigkeit (Variablen PSAMPLE in PPFAD bzw. HSAMPLE in HPFAD) verändert sich grundsätzlich nicht. Weder durch den Wechsel der Staatsbürgerschaft noch durch den Umzug in eine andere Sample-Region (von West- nach Ostdeutschland oder umgekehrt). Die Person bleibt trotzdem in der Ausländer-, bzw. West- oder Oststichprobe. Die aktuelle Nationalität (NATION$$) bzw. Regionalzugehörigkeit ($SAMPREG) ist leicht erkennbar.
       
 

2.17 Welche Variable enthält eine korrekte regionale Zuordnung der Befragten ($SAMPREG vs. PSAMPLE bzw. HSAMPLE)?

 

Mittlerweile sind zahlreiche Befragte von Ost- nach Westdeutschland und - in geringerem Umfang von West- nach Ostdeutschland - umgezogen. Analysen, die auf regionale Bezüge abstellen, werden durch Verwendung der Variablen PSAMPLE, die die Stichprobenzugehörigkeit angibt, zum Teil erheblich verzerrt (PSAMPLE befindet sich in PPFAD: 1 = Subsample A, 2 = Subsample B, 3 = Subsample C, 4= Subsample D (Zuwanderer), 5 = Subsample E (Ergänzungsstichprobe ab 1998), 6 = Subsample F (Innovationsstichprobe ab 2000)).

Eine korrekte regionale Zuordnung der Stichprobenmitglieder wird nur über die zeitabhängigen Variablen $SAMPREG in PPFAD und HPFAD erreicht (1 = Westdeutschland, 2 = Ostdeutschland).

In $SAMPREG wird seit 1990 für jedes Jahr die west- bzw. ostdeutsche Population unabhängig von der Sample-Zugehörigkeit ermittelt. Wir empfehlen, immer diese Variable für regionale Analysen zu verwenden!

Die nachfolgende Tabelle, bei der eine Kreuztabellierung von $SAMPREG und PSAMPLE vorgenommen wurde, gibt einen Einblick über das Ausmaß der regionalen Mobilität seit 1990 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews) oder $NETTO=2 (Kinder bis 16 Jahren) in befragten Haushalten).

      Sample A  Sample B  Sample C  Sample D  Sample E  Sample F  Total
 
  1990 (Wave G)    
  West Germany   8717 3493 - - - - 12210
  East Germany   - - 6044 - - - 6044
 
  1991 (Wave H)    
  West Germany   8667 3494 44 - - - 12205
  East Germany   0 0 5639 - - - 5639
 
  1992 (Wave I)    
  West Germany   8526 3416 136 - - - 12078
  East Germany   2 0 5349 - - - 5351
 
  1993 (Wave J)    
  West Germany   8451 3338 187 - - - 11976
  East Germany   7 0 5089 - - - 5096
 
  1994 (Wave K)    
  West Germany   8336 3187 230 719 - - 12472
  East Germany   11 0 4951 - - - 4962
 
  1995 (Wave L)    
  West Germany   8254 2994 280 1589 - - 13117
  East Germany   23 0 4781 6 - - 4810
 
  1996 (Wave M)    
  West Germany   8111 2896 294 1479 - - 12780
  East Germany   27 2 4682 13 - - 4724
 
  1997 (Wave N)    
  West Germany   8009 2794 314 1409 - - 12526
  East Germany   30 2 4547 21 - - 4600
 
  1998 (Wave O)    
  West Germany   7760 2618 294 1271 1983 - 13926
  East Germany   39 2 4373 17 417 - 4848
 
  1999 (Wave P)    
  West Germany   7568 2519 326 1190 1663 - 13266
  East Germany   41 1 4276 23 372 - 4704
 
  2000 (Wave Q)   &nbdp;
  West Germany   7311 2392 346 1149 1566 11275 24039
  East Germany   49 0 4167 27 355 2608 7206
     
       
 

2.18 Welche Variable enthält eine korrekte Zuordnung von deutschen und nicht-deutschen Befragten in den einzelnen Stichproben A-F (NATION$$ vs. PSAMPLE)?

  Analog zum o.g. Phänomen ($SAMPREG vs.P SAMPLE) wird häufig auch eine Identität des Samples B mit der Population der im SOEP interviewten Gruppe der "Ausländer" unterstellt, während Sample A mit "Deutschen" gleichgesetzt wird. Dies trifft zwar im großen und ganzen zu, ist jedoch nicht exakt und wird im Zeitverlauf immer weniger genau.
Zu Beginn des SOEP im Jahre 1984 war es die Nationalität des Haushaltsvorstands, die eine Zugehörigkeit in die beiden Samples A und B festlegte. Nichtdestotrotz konnten weitere Haushaltsmitglieder mit einer anderen Nationalität als derjenigen des Vorstandes in diesen Haushalten leben. Zudem enthielt auch Sample A AusländerInnen, sofern sie nicht einer der durch Sample B repräsentierten Nationalitäten angehörten. Deutlich verstärkt wird das Auseinanderklaffen von SAMPLE-Zugehörigkeit und (zeitpunktbezogener) Nationalitätsinformation insbesondere durch das Einbürgerungsverhalten von Personen im Sample B.
Während Sample C auch bis zum Jahr 2000 fast ausnahmslos aus Personen mit deutscher Nationalität besteht, enthält Sample D aufgrund des hohen Anteils an Aussiedlern verhältnismäßig viele Deutsche.
In den neueren Samples E und F ist eine ex-ante Zuordnung der entsprechenden Personen zu "Deutschen" oder "Nicht-Deutschen" aufgrund des Stichproben-Ziehungsdesigns schlichtweg nicht möglich.

Die nachfolgende Tabelle, bei der eine Kreuztabellierung der recodierten Information von NATION$$ (1=Deutsche, 2=Nicht-Deutsche incl. Item-Non-Response) und PSAMPLE vorgenommen wurde, gibt einen Einblick über die Heterogenität der SOEP-Samples bezüglich der Nationalitäts-Zusammensetzung seit 1984 (Basis: alle Personen mit $NETTO=1 (Personen-Interviews).
 

      Sample A  Sample B  Sample C  Sample D  Sample E  Sample F  Total
 
  1984 (Wave A)    
  Deutsch   8927 120 - - - - 9047
  Nicht-Deutsch   149 3049 - - - - 3198
 
  1985 (Wave B)    
  Deutsch   8242 117 - - - - 8359
  Nicht-Deutsch   130 2601 - - - - 2731
 
  1986 (Wave C)    
  Deutsch   7885 137 - - - - 8022
  Nicht-Deutsch   123 2500 - - - - 2623
 
  1987 (Wave D)    
  Deutsch   7755 151 - - - - 7906
  Nicht-Deutsch   113 2497 - - - - 2610
 
  1988 (Wave E)    
  Deutsch   7360 140 - - - - 7500
  Nicht-Deutsch   104 2400 - - - - 2504
 
  1989 (Wave F)    
  Deutsch   7089 152 - - - - 7241
  Nicht-Deutsch   95 2354 - - - - 2449
 
  1990 (Wave G)    
  Deutsch   6939 165 4439 - - - 11543
  Nicht-Deutsch   97 2318 14 - - - 2429
 
  1991 (Wave H)    
  Deutsch   6800 171 4187 - - - 11238
  Nicht-Deutsch   94 2322 15 - - - 2431
 
  1992 (Wave I)    
  Deutsch   6731 198 4081 - - - 11010
  Nicht-Deutsch   87 2286 11 - - - 2384
 
  1993 (Wave J)    
  Deutsch   6659 208 3964 - - - 10831
  Nicht-Deutsch   88 2251 9 - - - 2348
 
  1994 (Wave K)    
  Deutsch   6550 219 3932 439 - - 11140
  Nicht-Deutsch   79 2144 10 32 - - 2265
 
  1995 (Wave L)    
  Deutsch   6473 226 3871 837 - - 11407
  Nicht-Deutsch   82 2002 11 236 - - 2331
 
  1996 (Wave M)    
  Deutsch   6364 275 3870 832 - - 11341
  Nicht-Deutsch   90 1877 12 191 - - 2170
 
  1997 (Wave N)    
  Deutsch   6282 299 3833 818 - - 11232
  Nicht-Deutsch   96 1790 11 154 - - 2051
 
  1998 (Wave O)    
  Deutsch   6097 321 3722 769 1835 - 12744
  Nicht-Deutsch   87 1640 8 116 75 - 1926
 
  1999 (Wave P)    
  Deutsch   5965 344 3700 740 1572 - 12321
  Nicht-Deutsch   80 1520 9 98 57 - 1764
 
  2000 (Wave Q)    
  Deutsch   5769 361 3678 738 1497 10189 22232
  Nicht-Deutsch   83 1410 9 99 52 701 2354