Direkt zum Inhalt

SOEP-Core v29 - Änderungen am Datensatz

Änderungen am Datensatz

Datensatzinformation

Im Erhebungsjahr 2012 wurde das neue Auffrischungssample K mit 1526 Haushalten hinzugefügt, somit wurden während der Feldarbeit 2012 12322 Haushalte interviewt. Wie auch bei unseren früheren allgemeinen Bevölkerungsstichproben wurde ein mehrstufig geschichtetes Ziehungsdesign genutzt. Sample K erzielte gegenüber unserem letzten Auffrischungssample J eine sehr ähnliche Response Rate von 34,7%. Durch den Einsatz einer Reihe von Mitteln, wie intensiviertes Interviewer Training, verbesserter Bezahlung der Interviewer und leicht erhöhter Incentives für die Befragten konnte erfreulicherweise der Trend zur nachlassenden Befragungsbereitschaft gestoppt werden.

Wie auch schon die Auffrischungs- oder Aufstockungssamples H (seit 2006), I (seit 2009) und J (seit 2011) wird auch in K komplett im CAPI-Modus interviewt. Wie üblich liegt der Fokus auf unseren drei Hauptfragebögen für den Haushalt, Befragungspersonen ab 18 und den Jugendfragebogen. Somit wurde keiner der Zusatzfragebogen in das Fragebogenprogramm der Welle 1 integriert. Dieser Fokus auf die Hauptfragebogen dient der Vermeidung einer „Überforderung" der Befragten durch ein zu langes Interview in der ersten Welle. Dabei ist jedoch zu beachten, dass, wie bereits im Sample J, auch in Sample K ein integrierter Personen- und Lebenslauf-Fragebogen zum Einsatz kam.

2. Revision des Hochrechnungs- und Gewichtungsrahmens

Mit der Datenversion SOEP v29 wird für die Teilstichproben J und K (erstmals 2011 bzw. 2012 erhoben) eine zusätzliche Anpassung an den Mikrozensus im Hinblick auf die Zahl an erwerbstätigen Personen für Haushalte unterschiedlicher Größe sowie der Zahl der Privathaushalte mit Bezug von Arbeitslosengeld II vorgenommen. Diese Korrektur verhindert eine leichte Überschätzung der Haushalte mit ALG II-Bezug der ungewichteten Stichproben J und K.

Zudem wird für alle neu gezogenen Stichproben seit 1998 nun eine leicht geänderte Anpassung der Haushalte mit Ausländern vorgenommen. Diese bezieht sich nicht mehr auf den Haushaltsvorstand, sondern auf das Vorhandensein wenigstens einer Person mit ausländischer Nationalität im Haushalt. Hintergrund dieser Revision ist eine leicht zunehmende Diskrepanz zwischen der Auswahl der Bezugsperson im Mikrozensus im Vergleich zum Haushaltsvorstand des SOEP.

Nähere Informationen und Quelle der Abbildung: Wochenbericht des DIW 46/2013, S. 17.


3. Neue Datensätze / Variablen

  • 2012 wurde das Vermögensmodul zum vierten Mal wiederholt. Es liegen nun Daten für die Jahre 1988, 2002, 2007 und 2012 vor. Aufgrund des höheren Beantwortungsaufwands von Erstbefragten haben wir dieses Modul in dem neuesten Sample K (N=1506 Haushalte) nicht erfasst. Für die Schätzung von absoluten Zahlen empfehlen wir außerdem die Nutzung von Querschnittgewichten für Haushalte und Personen, die nur die „alten" Samples A bis J abdecken, wie z.B. BCHRFAJ und BCPHRFAJ, sowie Erstbefragte ausgehend von Sample K zu streichen.
  • COGNIT: Für den im Erhebungsjahr 2006 eingeführten Kognitionstest gibt es nun die erste Wiederholungsmessung, inklusive eines neuen Wort Tests. Der Name des Datensatzes änderte sich daher von COGNIT06 zu COGNIT, da er nun beide Erhebungsjahre beinhaltet. Eine ausführliche Dokumentation der ersten Erhebung finden Sie in Schupp et al. (2008) Erfassung kognitiver Leistungspotentiale Erwachsener im Sozio-oekonomischen Panel (SOEP), DIW Berlin, Data Documentation 32.
  • Zwei neue Variablen in $PGEN: Die Variable SNDJOB$$ stellt das imputierte Bruttoeinkommen aus einem Nebenerwerb dar und wurde für alle SOEP-Befragten generiert, die in jeder der entsprechenden Wellen vertreten sind. Die Variable wurde rückwirkend generiert. 1995 (Welle L) wurde das erste Mal nach den Bruttoeinkünften aus einer Nebenerwerbstätigkeit gefragt. Die zugehörige Indikatorvariable zur Imputation ist IMPSND$$.
  • Zum ersten Mal wurden die SOEP-Befragten nach ihrem Geburtsort gefragt. Diese Information wurde auf der Ebene der Gemeinde vercodet und mit den entsprechenden Koordinaten für einen zentralen Punkt in der Gemeinde abgelegt. Eine Nutzung dieser Daten ist allerdings nur an einem der Gastwissenschaftler Arbeitsplätze am Forschungsdatenzentrum SOEP möglich.
  • Es gibt einen neuen Datensatz HCONSUM. In diesem finden sich die komplett imputierten und aufbereiteten Daten aus dem im Jahr 2010 erhobenen Konsum-Modul des SOEP. Eine detaillierte Dokumentation ist online verfügbar.
  • Revision des $STELL Codes (Beziehung zum Haushaltsvorstand) zur Differenzierung zwischen leiblichem Kind, Stiefkind, Adoptivkind etc. :
Wert  Welle BB (2011)             Welle BC (2012)                                        
   0  Haushaltsvorstand (HV)  Haushaltsvorstand (HV)
   1  Ehepartner/in des HV                                                        
   2  Lebenspartner/in des HV                                                        
   3  Sohn/Tochter des HV                                                        
   4  Pflegekind des HV                                                                     
   5  Schwiegersohn/Tochter des HV  
   6  Vater/Mutter des HV                                                         
   7  Schwiegerelternteil des HV  
   8  Bruder/Schwester/Schwager/in                                                        
   9  Enkelkind des HV                                                        
  10  Sonst. mit HV verwandt                                                            
  11  Mit HV nicht verw.  Ehepartner/in des HV                             
  12  Kind v. LebPartn. v. HV  Gleichgeschl. Ehepartner/in     
  13  Gleichgeschl. Ehepartner/in   Lebenspartner/in                              
  21                              Sohn/Tochter des HV                                         
  22                             Stiefkind (Kind des Partners)                     
  23                             Adoptivkind                                        
  24                             Pflegekind                                          
  25                             Enkelkind                                            
  26                              Großenkelkind                                      
  27    Schwiegersohn/Tochter des HV
  31                             Vater/Mutter des HV                                       
  32                             Stiefvater/-mutter, Ehepartner von Stiefvater/-mutter
  33                             Adoptivvater/-mutter                                
  34                              Pflegevater/-mutter                               
  35                             Schwiegereltern                                         
  36                             Großeltern                                          
  41                             Geschwister                                       
  42                             Halbgeschwister                             
  43                              Stiefgeschwister                               
  44                             Adoptivgeschwister                               
  45                             Pflegegeschwister                                 
  51                             Schwager/Schwägerin (Ehepartner d. Geschwister)    
  52                             Schwager/Schwägerin (Bruder/Schwester d. Ehepartners)    
  61                              Tante/Onkel                                           
  62                             Nichte/Neffe                                        
  63                             Cousin/Cousine                                        
  64    Sonst. mit HV verwandt       
  71                             Andere                                               
  99   Unbekannt                    Unbekannt                                              

Bitte berücksichtigen Sie, dass dies auch die entsprechenden Variablen des Datensatzes $KIND (und KIDLONG) und BIOPAREN betrifft.

  • Im Datensatz KIDLONG werden die Variablen zum Geburtsdatum (GEBJAHR und GEBMONAT) und Geschlecht (SEX) nicht mehr zur Verfügung gestellt. Bitte nutzen Sie stattdessen die ausgiebig kontrollierten Versionen in PPFAD.
  • Die Interviewerdaten wurden bereits im letzten Jahr mit einer neuen, einheitlich über alle Wellen hinweg benannten Variable INTID ausgeliefert, die die jeweils filespezifisch benannten Variablen ($INTNR) ersetzen. Die neue Variable basiert auf einer einmaligen Zufallszahlgenerierung; ist daher fix und wird in konsistenter Weise neben SOEPcore auch für FiD (Familien in Deutschland) und SOEP-IS (Innovationspanel) in einem integrierten Masterfile (nicht in der Datenlieferung enthalten) geführt. Neben der Generierung der INTIDs und der Fortschreibung der Interviewermerkmale in INTVIEW erfolgten die folgenden weiteren Überarbeitungen:
    • Der Datensatz INTVIEW beinhaltet jetzt nicht mehr nur die Interviewer mit Interviewermerkmalen, sondern alle verfügbaren Interviewernummern. Hierzu wurden aus allen verfügbaren Datensätzen die Interviewernummern extrahiert. Flagvariablen zeigen in INTVIEW an, ob die jeweilige INTID nur in den Daten vorkommt oder ob weitere Interviewermerkmale verfügbar sind.
    • Insgesamt 181 INTIDs in den laufenden Daten wurden neu zugewiesen, so dass diese jetzt direkt mit den Interviewermerkmalen verknüpft werden können. Grund dafür ist die Vergabe der Nummern in Ostdeutschland in den Jahren 1990 bis 1995 durch Infratest, als für das Ostsample noch eigene unabhängige Interviewer (IBB-Nummern) mit eigener Nummernsystematik existierten. Diese mussten mit den später zusammengeführten Interviewernummern harmonisiert werden.
  • BIOAGE03: Die Codes für Persönlichkeitsskalen wurden vom Wertebereich 1-11 auf 0-10 verschoben und sind damit konsistent mit dem Vercodungsschema in BIOAGE06.
  • BIOAGE06: 2008 wurde bei den Persönlichkeitsskalen die Null fälschlicherweise als -2 kodiert, dies wurde mit der jetzigen Version berichtigt. Dadurch sind für einige Persönlichkeitsmerkmale bis zu 65 zusätzliche gültige Werte entstanden.
  • $FAMSTD: Durch die Generierung des derzeitigen Heiratsstatus wurde dieses Jahr und das vorherige Jahr für einige Fälle in v28 gewechselt.
  • 2012 bietet der Fragebogen zusätzlich zur Größe der gesamten Firma (BETR$$) einmalige Informationen zur Größe der lokalen Unternehmen. Die angereicherten Fragebögen zeigten, dass in vorhergehenden Interviews einige Individuen fälschlicherweise Informationen zu lokalen Unternehmen gegeben hatten, anstatt zur gesamten Größe der Firma, vor allem, wenn die gesamte Firma 2000 und mehr Angestellte beschäftigte. Aufgrund der Bedeutung der Konsistenz des Längsschnitts wurden diese Personen identifiziert und ihr originaler Wert des Jahres 2012 zur gesamten Firmengröße BETR12 durch den Wert der Größe des lokalen Unternehmens ersetzt. Diese Modifikation betraf ebenfalls die Variable ALLBET12. Bitte schauen Sie sich die Datendokumentationen für weitere Informationen diesbezüglich an.
  • Die Variable RUEBSTD ("Überstunden pro Woche" 2001) zeigte Fälle mit inkorrekten „non-response missings" (-1), da Befragte ohne Überstunden fälschlicherweise dieser Kategorie zugeteilt wurden. In der korrigierten Version ist der Wert für diese Befragten korrekt auf null Überstunden umcodiert worden.
  • Für die Variable vh4601 und der äquivalenten Variable der folgenden Jahre wurde das Label "unerw. Geldbetraege,Sachwerte ue.2500 EURO" genutzt, aber eigentlich fragte der Fragebogen nach "unerw. Geldbetraege,Sachwerte ue.500 EURO". Das Label wurde korrigiert.
  • Die Variablen ZERWZEIT ("Dauer der Betriebszugehoerigkeit " 2009) und BAERWZEIT ("Dauer der Betriebszugehoerigkeit" 2010) musste für Befragte des ersten Samples korrigiert werden, die nicht 2009 und 2010 interviewt wurden, sondern jeweils erst im darauffolgenden Jahr (2010 und 2011). Durch den Längsschnitt-Konsistenztest erhielten die erwähnten Individuen einen unplausiblen Wert (-3) für BAERWZEIT. In der korrigierten Version werden die „non-missing values" dieser Befragten als valide und nicht als „missings" betrachtet.
  • LOC1989: Durch die Generierung der Daten sind nun Personen in der Datenweitergabe, die nie befragt wurden. Wir haben deswegen die -2 jetzt für mit dem Wert „trifft nicht zu, geboren vor 1989” belegt, so wie es ursprünglich für diese Variable geplant war. Befragungspersonen, die niemals teilgenommen haben und über die keine Informationen aus anderen Quellen vorhanden sind, wurden auf -1 („keine Antwort“) gesetzt.
  • Die Variablen EXPFT$$, EXPPT$$, und EXPUE$$ ("Erfahrungen in Vollzeit- und Teilzeitarbeit und Arbeitslosigkeit") wurden verbessert. Die Variablen stellen nun die gesamte Länge der Vollzeit-, und Teilzeitarbeit sowie der Arbeitslosigkeit in der Karriere der Befragten bis zu dem Punkt des Interviews in einem bestimmten Jahr dar (anstatt nur den Zeitraum bis zum Dezember des vergangen Jahres zu berücksichtigen). Weil monatliche Arbeitsaktivitäten im folgenden Jahr retrospektiv erfragt werden können diese Variablen nicht für die neueste Welle aktualisiert werden.
  • Die Variable AHINC$$ des Datensatzes $HGEN ist nicht länger Teil der Datendistribution. Wir empfehlen die Nutzung des kompletten (multiplen), kalkulatorischen, monatlichen Haushaltseinkommens der Variable I$HINC$$ (oder den Datensatz MIHINC im „long"-Format über die Jahre).
  • Die Variablen ATATZEIT, AVEBZEIT, AUEBSTD und AERWZEIT wurden in der Datendistribution v28 vermischt und mussten korrigiert werden:
    • Die korrekten Werte von ATATZEIT wurden in der Variable AERWZEIT gefunden.
    • Die korrekten Werte von AVEBZEIT wurden in der Variable ATATZEIT gefunden.
    • Die korrekten Werte von AUEBSTD wurden in der Variable AVEBZEIT gefunden.
    • Die korrekten Werte von AERWZEIT wurden in der Variable AERWZEIT in der Datendistribution von v27 gefunden.
keyboard_arrow_up