Datenweitergabe 1984-2014 (soep.v31)

SOEP Quicklinks:  

SOEPinfo

SOEPlit

SOEPnewsletter

SOEPmonitor

SOEPdata Dokumente

SOEPdata FAQ


 Datenweitergabe 1984-2014 (soep.v31.1)

SOEP Quicklinks:  

SOEPinfo

SOEPlit

SOEPnewsletter

SOEPmonitor

SOEPdata Dokumente

SOEPdata FAQ


 Datenweitergabe 1984-2014 (soep.v31.1i)

SOEP Quicklinks:  

SOEPinfo

SOEPlit

SOEPnewsletter

SOEPmonitor

SOEPdata Dokumente

SOEPdata FAQ


 Datenweitergabe 1984-2014 (soep.v31i)

SOEP Quicklinks:    

SOEPinfo

SOEPlit

SOEPnewsletter

SOEPmonitor

SOEPdata Dokumente

SOEPdata FAQ

soep.v31

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2014

DOI: 10.5684/soep.v31
Erhebungszeitraum: 1984-2014
Veröffentlichungsdatum: 15.11.2015
Primärforscher: Jürgen Schupp, Jan Goebel, Martin Kroh, Carsten Schröder, Klaudia Erhardt, Alexandra Fedorets, Marco Giesselmann, Markus Grabka, Peter Krause, Simon Kühne, Maximilian Priem, David Richter, Rainer Siegers, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Ingrid Tucci, Knut Wenzig


Kurzbeschreibung

Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 20.000 Personen aus rund 11.000 Haushalten von TNS Infratest Sozialforschung befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden. Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006, 2009, 2011, 2012 und zuletzt 2013 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst. Die internationale Version enthält 95% des Stichprobenumfangs.

Datenerhebung: TNS Infratest Sozialforschung GmbH.

Population: Personen in Privathaushalten in der Bundesrepulik Deutschland.

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre alt oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

Datensatzinformationen:

 Anzahl der Einheiten 109.911
 Anzahl der Variablen 51.203 in 365 Datensätzen
 Datenformat STATA, SPSS, SAS, CSV

MD5 fingerprints

Weitergabeformat zip-Datei Einzeldatensätze
Stata zweisprachig d2941d8149afa7a8810e8003c59771ad   | TXT, 15.95 KB
Stata deutsch 814032bdcdd2c8b0602f32cff045b294   | TXT, 15.95 KB
Stata englisch d1a2d2b5ba69105f7cf7cc6a2c6ca229   | TXT, 15.95 KB
SPSS deutsch 732e9dd01798f9ddf0d2f6435cdfb818   | TXT, 15.95 KB
SPSS englisch b240383e2c45247d0ededff519484438   | TXT, 15.95 KB
SAS deutsch 3915948e00494a59df0a77f4d99cd400   | TXT, 17.83 KB
SAS englisch fb13d618ced783384d4796f0e8dc6d2d   | TXT, 17.83 KB
CSV 54cc73b250804d362f1d1c86f21eddc2   | TXT, 15.95 KB
GGKBOU 2ba2f7ab801dc6dd6d1000b3603d1ecc   | TXT, 140 Byte
GGKBOU englisch c680879d0e382f60cb4f0f65092c4d1a   | TXT, 140 Byte
Lehrversionen
Stata deutsch (Lehre) 6f820e78e0bd16d47aa79de97e615f78   | TXT, 15.95 KB
Stata englisch (Lehre) debcfe71b12527962f3f3db41ae091ee   | TXT, 15.95 KB
SPSS deutsch (Lehre) 61daf2301a20c5b354ef0d18732339c8   | TXT, 15.95 KB
SPSS englisch (Lehre) 987ba29cda3169842a2bd093c2cf19fa   | TXT, 15.95 KB
SAS deutsch (Lehre) 44b8bd0c351f811650d44595b61752c4   | TXT, 17.78 KB
SAS englisch (Lehre) 4fb88bd0a304719699a98c3a9fd9f8b6   | TXT, 17.78 KB

 Veröffentlichungen:

  • Schupp, Jürgen (2009): 25 Jahre Sozio-oekonomisches Panel - Ein Infrastrukturprojekt der empirischen Sozial- und Wirtschaftsforschung in Deutschland, Zeitschrift für Soziologie 38 (5),  350-357 (download).
  • Gert G. Wagner, Jan Göbel, Peter Krause, Rainer Pischner, and Ingo Sieber (2008) Das Sozio-oekonomische Panel (SOEP): Multidisziplinäres Haushaltspanel und Kohortenstudie für Deutschland - Eine Einführung (für neue Datennutzer) mit einem Ausblick (für erfahrene Anwender), AStA Wirtschafts- und Sozialstatistisches Archiv 2 (4), 301-328 (download).
  • Gert G. Wagner, Joachim R. Frick, and Jürgen Schupp (2007) The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements, Schmollers Jahrbuch (Journal of Applied Social Science Studies), 127 (1), 139-169 (download).


Datenzugang

Die SOEP-Daten stehen der wissenschaftlichen Forschung als faktisch anonymisierte Mikrodaten zur Verfügung. Der Zugang zu den Daten des SOEP muss aus Gründen des Vertrauensschutzes gegenüber den Befragten hohen Sicherheitsstandards genügen. Nach Abschluss eines Datenweitergabevertrages mit dem DIW Berlin erhalten Antragsteller/-innen den SOEP-Datensatz. Details


soep.v31i

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2014, International Scientific Use Version

DOI: 10.5684/soep.v31i
Erhebungszeitraum: 1984-2014
Veröffentlichungsdatum: 15.11.2015
Primärforscher: Jürgen Schupp, Martin Kroh, Jan Goebel, Carsten Schröder, Klaudia Erhardt, Alexandra Fedorets, Marco Giesselmann, Markus Grabka, Peter Krause, Simon Kühne, Maximilian Priem, David Richter, Rainer Siegers, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Ingrid Tucci, Knut Wenzig


Kurzbeschreibung

Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative Wiederholungsbefragung, die bereits seit 1984 läuft. Im Auftrag des DIW Berlin werden jedes Jahr in Deutschland über 20.000 Personen aus rund 11.000 Haushalten von TNS Infratest Sozialforschung befragt. Die Daten geben Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden. Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts- und Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR ausgeweitet. Zur adäquaten Erfassung des gesellschaftlichen Wandels in den Jahren 1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt. Weitere zusätzliche Stichproben wurden in den Jahren 1998, 2000, 2002, 2006, 2009, 2011, 2012 und zuletzt 2013 in die laufende Erhebung integriert. Das Erhebungsprogramm wird ständig an neue Entwicklungen in der Gesellschaft angepasst. Die internationale Version enthält 95% des Stichprobenumfangs.

Datenerhebung: TNS Infratest Sozialforschung GmbH.

Population: Personen in Privathaushalten in der Bundesrepulik Deutschland.

Auswahlverfahren: Alle Samples des SOEP werden mittels mehrstufiger Stichprobenziehung, die regional gebündelt sind, gezogen. Die Befragten (Haushalte) werden per random-walk ausgesucht.

Erhebungsverfahren: Die Methode der Datenerhebung des SOEP basiert auf einem Set von Fragebögen sowohl für die Haushalte als auch für die Individuen. Prinzipiell versucht ein Interviewer face-to-face-Interviews mit allen Haushaltsmitgliedern durchzuführen, die 16 Jahre alt oder älter sind. Zusätzlich wird eine Person (Haushaltsvorstand) gebeten, einen Haushaltsfragebogen zu beantworten, einschließlich Fragen zur Wohnsituation, Kosten, verschiedenen Einkommensquellen, sowie Fragen zu im Haushalt lebenden Kindern unter 16 Jahren (z.B. Besuch des Kindergartens, der Grundschule etc.).

Datensatzinformationen:

 Anzahl der Einheiten 104.320
 Anzahl der Variablen 51.203 in 365 Datensätzen
 Datenformat STATA, SPSS, SAS, CSV

MD5 fingerprints

Weitergabeformat zip-Datei Einzeldatensätze
Stata deutsch/englisch 23c998681b05bd61a16a3318d08267fd link | TXT, 15.95 KB
Stata deutsch 92e29cac79cc491e09ea5011ebeb2950 link | TXT, 15.95 KB
Stata englisch fa3586bac7564a4ec262fa533e7a1b4f link | TXT, 15.95 KB
SPSS deutsch 5760ed77a34cf9072fc8a66e0ac4c4e2 link | TXT, 15.95 KB
SPSS englisch 22a79f0a3d279b7f1ea91f9847da3dba link | TXT, 15.95 KB
SAS deutsch e69b2023662a46403ad43c64c9ccd1f3 link | TXT, 17.83 KB
SAS englisch 230e114156f77c3e0006df96d4b1c35e link | TXT, 17.83 KB
CSV 8ee76e7c097b4449d96a83f8bad4468f link | TXT, 15.95 KB

 Veröffentlichungen:

Gert G. Wagner, Joachim R. Frick, and Jürgen Schupp (2007): The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements, Schmollers Jahrbuch (Journal of Applied Social Science Studies), 127 (1), 139-169 (download).

Joachim R. Frick, Stephen P. Jenkins, Dean R. Lillard, Oliver Lipps und Mark Wooden (2007): The Cross-National Equivalent File (CNEF) and its Member Country Household Panel Studies,  Schmollers Jahrbuch, Jg. 127 (4) , 627-654 (download)


Datenzugang

Die SOEP-Daten stehen der wissenschaftlichen Forschung als faktisch anonymisierte Mikrodaten zur Verfügung. Der Zugang zu den Daten des SOEP muss aus Gründen des Vertrauensschutzes gegenüber den Befragten hohen Sicherheitsstandards genügen. Nach Abschluss eines Datenweitergabevertrages mit dem DIW Berlin erhalten Antragsteller/-innen den SOEP-Datensatz. Details


soep.v31.1

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2014

DOI: 10.5684/soep.v31.1
Erhebungszeitraum: 1984-2014
Veröffentlichungsdatum: 18.03.2016
Primärforscher: Jürgen Schupp, Jan Goebel, Martin Kroh, Carsten Schröder, Klaudia Erhardt, Alexandra Fedorets, Marco Giesselmann, Markus Grabka, Peter Krause, Simon Kühne, Maximilian Priem, David Richter, Rainer Siegers, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Ingrid Tucci, Knut Wenzig

Die vollständigen Informationen erhalten Sie unter der DOI des Originaldatensatzes
http://dx.doi.org/10.5684/soep.v31


Datensatzinformationen:

 Anzahl der Einheiten 109.911
 Anzahl der Variablen 57.670 in 396 Datensätzen
 Datenformat STATA, SPSS, SAS, CSV

MD5 fingerprints

Weitergabeformat zip-Datei Einzeldatensätze
Stata zweisprachig 97e40d9627a3b653b9b253257104b47c   | TXT, 17.35 KB
Stata deutsch 799f2efd0c288284d8d854b3002db10e   | TXT, 17.35 KB
Stata englisch d3cc60dca4898d2c06112011323bcd40   | TXT, 17.35 KB
SPSS deutsch 424a1fc44d440fe980a882aafe85faa8   | TXT, 17.35 KB
SPSS englisch 2784bbbe3f9366425f29f19aa0ae2cb2   | TXT, 17.35 KB
SAS deutsch 4637d7561a8a03ece9498a84fd8e6ef9   | TXT, 19.38 KB
SAS englisch b22f5ba5bf7169305749da0ba2f51fc0 | TXT, 19.38 KB
CSV 108a47a2d54f90c70f04b1b1b71a83e5   | TXT, 17.35 KB
GGKBOU 9687f0ee5c0c2f062add2ca2eb863ca6   | TXT, 140 Byte
GGKBOU englisch 324eb662636015966ee332db455426ab   | TXT, 140 Byte
Lehrversionen
Stata deutsch (Lehre) 1fb1cb874080af642d4a07a93e021459   | TXT, 17.35 KB
Stata englisch (Lehre) 89270ab8a316310516b4fb77a8df0700   | TXT, 17.35 KB
SPSS deutsch (Lehre) e65d36ce2cdb56d2669810889338c38c   | TXT, 17.35 KB
SPSS englisch (Lehre) 2d8a34fdc0021944163f177c806944a4   | TXT, 17.35 KB
SAS deutsch (Lehre) 4257739525dee17d4f9e8c0af7ec5611   | TXT, 17.78 KB
SAS englisch (Lehre) 6b2df5776e70037af942cd0c82597279   | TXT, 17.78 KB


Datenupdate

1. Changes due to the Integration of the FiD Study

As you already know, data release v31 includes the complete data from “Familien in Deutschland” (Families in Germany, FiD), which is being retrospectively integrated into the SOEP and made available in user-friendly form to all SOEP users. The survey was carried out in parallel to the SOEP as a so-called “SOEP-related study” from 2010 to 2013.

Starting with Version 31 of the data, the FiD sample has been integrated completely into SOEP-Core—that is, as if it were a new sample drawn as part of SOEP-Core in 2010 and 2011. This means that in the data from 2010 on, SOEP users “automatically” have more cases in their study population without having to make any changes in scripts.

In total, 14,166 variables from 64 datasets have been integrated into the various SOEP datasets, and the generated datasets or variables have been adjusted. Variables in the FiD survey instruments that were not contained in the corresponding SOEP survey instruments have been included in the respective datasets as additional variables (with the original FiD variable names starting with “fyy”, where “yy” is a two-digit year identifier).

1.1. Household questionnaire:

  • BAH: bah4904, bah4905, bah4906, bah5004, bah5005, f10h042b1_koho, f10h042b2_koho, f10h042b3_koho, f10h044b1_koho, f10h044b2_koho, sample1
  • BBH: bbh20, bbh42,  bbh4510,  sample1
  • BCH: sample1

1.2. Individual questionnaire:

  • BBP: bbp10502, bbp10503, bbp12601, bbp12602, bbp12603, bbp13113, sample1
  • BCP: bcp80a01, bcp80a02, bcp80a03, bcp80a04, bcp80b01, bcp80b02, bcp80b03, bcp80b04, bcp80c01, bcp80c02, bcp80c03, bcp80d01, bcp80d02, bcp80e01, bcp80e02, bcp80h01, bcp80h02, bcp80h03, bcp80q01, bcp80q02, bcp80j01, bcp80j02, bcp80j03, bcp80k01, bcp80k02, bcp80k03, bcp80l01, bcp80l02, bcp80l03, bcp80m01, bcp80m02, bcp80o01, bcp80o02, bcp80p01, sample1
    • BDP: bdp62, bdp78, bdp98h03, bdp98l01, bdp98l02, bdp98l03, bdp98m01, bdp98m02, bdp98o01, bdp98o02, bdp98p01, bdp13315, bdp15719, bdp15720, bdp15721, bdp15722, bdp15723, bdp15724, bdp15725, bdp15726, bdp15727, bdp15728, bdp15729, bdp15730, bdp15731, bdp15732, bdp15733, sample1

1.3. Derived calendar information

We were able to integrate additional variables in the calendar files: This applies to the variables on military or community service as well as alimony or child support. The affected variables are:

  • b[a-d]p1h01
  • b[a-d]p2s0[1-3]
  • b[a-d]p2t0[1-3]

1.4. B[A-D]HBRUTTO: Household gross data

The variables containing the BBSR spatial planning category, differentiating between rural and urban regions, are updated and generated for the additional FiD cases. The affected variables are:

  • b[a-d]regtyp

1.5. KIND/KIDLONG: Person-related variables on children (up to the age of 16) within the household

    The identifiers data for mother, mother’s partner, as well as household head and household head’s partner from FiD had not been integrated. These have now been corrected so that the data can be linked for the FiD cases as well. Affected variables for the FiD cases are
    • b[a-d]kmutti: Pointer to mother
    • b[a-d]kmup: Pointer to partner of mother
    • b[a-d]khv: Pointer to head of household
    • b[a-d]khvp: Pointer to partner of head of household
  • The variables on childcare / day care attendance had not been completely assigned for all FiD cases. This has now been done for two variables (bak6701 and bdk7001)
  • KIDLONG: Pooled dataset on children (up to the age of 16) in the household. Due to the changes in B[A-D]KIND, the resulting pooled KIDLONG file has also been updated.

1.6. Imputed monthly household income: MIHINC and I$HINC in $HGEN

All waves affected by the integration of FiD (2010 [BA] - 2013 [BD]) were completely newly imputed. With the new imputations, we now provide the imputed household income generated by only one imputation model and have also generated 10 implicates for the MIHINC dataset (FiD only provided 5 implicates).

1.7. $PEQUIV: CNEF Variables with Extended Income Information for the SOEP

Since no equivalent files were generated with the FiD data release, and especially since there were no data on the previous year’s household income or simulated tax and social insurance contributions, all $EQUIV from 2010-2013 had to be generated again for SOEP.v31.1.

The data provided in v31.1 now contain harmonized imputations and simulations for all SOEP subsamples including the newly integrated FiD samples.

 

2.     Other changed variables

2.1. BIOCOUPLM/Y, BIOMARSM/Y and $FAMSTD in $PGEN:

Changes within the couple history files BIOCOUPLM and BIOCOUPLY, marital history files BIOMARSM and BIOMARSY, and variable marital status of the survey year ($famstd) in $PGEN:

  • Major changes occurred due to an adjustment of the spell endings for panel attrition. Previously the endings were set to twelve months since the most recent interview and have now been corrected to the month of the most recent interview. This adjustment also caused changes in the biographies for some respondents

2.2. BIOEDU: Biographical Data on Educational Participation and Transitions

Variable persnr (personal id) had the value 0 for all observations. In the new update, we have fixed this problem.

2.3. BEPBRUTTO: Gross data, individual level

The previous year’s identifiers had not been correctly implemented in the individual gross data set. This has been corrected. Affected variables:

  • behhnrold: Household number for previous year with two-digit control number.
  • bepnrold: serial individual number.

 

2.4. HEALTH: SOEP health module in the individual questionnaire

The dataset was unfortunately corrupted by mistake in our database. This has been corrected in v31.1.

2.5. BEPGEN: Genereated variables, individual level

  • Now variables with information about the current occupation in file BEPGEN (is8814, isco0814, isei14, klass14, kldb1014, mps14, siops14, and egp14) contain valid data also for cases that were not asked about their most recent job but that could be updated with information from the previous year.
  • Correction of a case due to a mistakenly applied value for field14 and degree14.

 

2.6. $HGEN: Generated Variables, household level

  • The file HGEN v31.1 now contains the variable gas$$, which states the household’s gas costs starting in 2014. The variables $$eqplif and $$eqpnrj have now been carried forward from the last two years if a household did not provide a response in a given year.
  • In the case of the variable moveyr$$, changes have been made in the cases in the integrated FiD sample. For these samples, the questionnaire does not ask for the move-in date and this information therefore had to be taken from the biographical questionnaire. Prior to the update, the move-in date of a random person in the household was used in hgen. Now the move-in date of the person who answered the household questionnaire is used.
  • Variables that are imputed (room$$, size$$, rent$$, heat$$, util$$ and electr$$) have been imputed again for the update. This resulted in random statistical changes. For this reason, changes have also occurred in the corresponding flag variables. Here, it should be noted that the data on whether utilities are included in the rent have also been imputed. Changes in this variable determine whether utilities are added to reported rent or not. This in turn determines whether the variable frent$$ is coded 0 or 1. Therefore, some rents that were marked “not imputed” prior to the update are now marked “imputed” and vice versa.


Datenzugang

Die SOEP-Daten stehen der wissenschaftlichen Forschung als faktisch anonymisierte Mikrodaten zur Verfügung. Der Zugang zu den Daten des SOEP muss aus Gründen des Vertrauensschutzes gegenüber den Befragten hohen Sicherheitsstandards genügen. Nach Abschluss eines Datenweitergabevertrages mit dem DIW Berlin erhalten Antragsteller/-innen den SOEP-Datensatz. Details


soep.v31.1i

Titel: Sozio-oekonomisches Panel (SOEP), Daten der Jahre 1984-2014, International Scientific Use Version

DOI: 10.5684/soep.v31.1i
Erhebungszeitraum: 1984-2014
Veröffentlichungsdatum: 18.03.2016
Primärforscher: Jürgen Schupp, Jan Goebel, Martin Kroh, Carsten Schröder, Klaudia Erhardt, Alexandra Fedorets, Marco Giesselmann, Markus Grabka, Peter Krause, Simon Kühne, Maximilian Priem, David Richter, Rainer Siegers, Paul Schmelzer, Christian Schmitt, Daniel Schnitzlein, Ingrid Tucci, Knut Wenzig

Die vollständigen Informationen erhalten Sie unter der DOI des Originaldatensatzes
http://dx.doi.org/10.5684/soep.v31i


Datensatzinformationen:

 Anzahl der Einheiten 104.320
 Anzahl der Variablen 57.670 in 396 Datensätzen
 Datenformat STATA, SPSS, SAS, CSV

MD5 fingerprints

Weitergabeformat zip-Datei Einzeldatensätze
Stata zweisprachig e20486dd3a610b020561557823efa4cc   | TXT, 17.35 KB
Stata deutsch a7db606f29f56442f59cae6f080efee7   | TXT, 17.35 KB
Stata englisch 4aab19142ae5e88cbceaa1fbbd80a555   | TXT, 17.35 KB
SPSS deutsch 9d8d9a3ffa7eb4bcaebd38c8465a9851   | TXT, 17.35 KB
SPSS englisch 41521af83a62ead2d9c7f25b9c964e64   | TXT, 17.35 KB
SAS deutsch a05e76377a652f246285491ea70037ea   | TXT, 19.38 KB
SAS englisch e6f8f6345d1066caa20660ab05dd6fbc | TXT, 19.38 KB
CSV 5c7b2c9fc0d655abd3674f820c8782d5   | TXT, 17.35 KB

Veröffentlichungen:

Gert G. Wagner, Joachim R. Frick, and Jürgen Schupp (2007): The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements, Schmollers Jahrbuch (Journal of Applied Social Science Studies), 127 (1), 139-169 (download).

Joachim R. Frick, Stephen P. Jenkins, Dean R. Lillard, Oliver Lipps und Mark Wooden (2007): The Cross-National Equivalent File (CNEF) and its Member Country Household Panel Studies,  Schmollers Jahrbuch, Jg. 127 (4) , 627-654 (download)


Datenupdate

1. Changes due to the Integration of the FiD Study

As you already know, data release v31 includes the complete data from “Familien in Deutschland” (Families in Germany, FiD), which is being retrospectively integrated into the SOEP and made available in user-friendly form to all SOEP users. The survey was carried out in parallel to the SOEP as a so-called “SOEP-related study” from 2010 to 2013.

Starting with Version 31 of the data, the FiD sample has been integrated completely into SOEP-Core—that is, as if it were a new sample drawn as part of SOEP-Core in 2010 and 2011. This means that in the data from 2010 on, SOEP users “automatically” have more cases in their study population without having to make any changes in scripts.

In total, 14,166 variables from 64 datasets have been integrated into the various SOEP datasets, and the generated datasets or variables have been adjusted. Variables in the FiD survey instruments that were not contained in the corresponding SOEP survey instruments have been included in the respective datasets as additional variables (with the original FiD variable names starting with “fyy”, where “yy” is a two-digit year identifier).

1.1. Household questionnaire:

  • BAH: bah4904, bah4905, bah4906, bah5004, bah5005, f10h042b1_koho, f10h042b2_koho, f10h042b3_koho, f10h044b1_koho, f10h044b2_koho, sample1
  • BBH: bbh20, bbh42,  bbh4510,  sample1
  • BCH: sample1

1.2. Individual questionnaire:

  • BBP: bbp10502, bbp10503, bbp12601, bbp12602, bbp12603, bbp13113, sample1
  • BCP: bcp80a01, bcp80a02, bcp80a03, bcp80a04, bcp80b01, bcp80b02, bcp80b03, bcp80b04, bcp80c01, bcp80c02, bcp80c03, bcp80d01, bcp80d02, bcp80e01, bcp80e02, bcp80h01, bcp80h02, bcp80h03, bcp80q01, bcp80q02, bcp80j01, bcp80j02, bcp80j03, bcp80k01, bcp80k02, bcp80k03, bcp80l01, bcp80l02, bcp80l03, bcp80m01, bcp80m02, bcp80o01, bcp80o02, bcp80p01, sample1
    • BDP: bdp62, bdp78, bdp98h03, bdp98l01, bdp98l02, bdp98l03, bdp98m01, bdp98m02, bdp98o01, bdp98o02, bdp98p01, bdp13315, bdp15719, bdp15720, bdp15721, bdp15722, bdp15723, bdp15724, bdp15725, bdp15726, bdp15727, bdp15728, bdp15729, bdp15730, bdp15731, bdp15732, bdp15733, sample1

1.3. Derived calendar information

We were able to integrate additional variables in the calendar files: This applies to the variables on military or community service as well as alimony or child support. The affected variables are:

  • b[a-d]p1h01
  • b[a-d]p2s0[1-3]
  • b[a-d]p2t0[1-3]

1.4. B[A-D]HBRUTTO: Household gross data

The variables containing the BBSR spatial planning category, differentiating between rural and urban regions, are updated and generated for the additional FiD cases. The affected variables are:

  • b[a-d]regtyp

1.5. KIND/KIDLONG: Person-related variables on children (up to the age of 16) within the household

    The identifiers data for mother, mother’s partner, as well as household head and household head’s partner from FiD had not been integrated. These have now been corrected so that the data can be linked for the FiD cases as well. Affected variables for the FiD cases are
    • b[a-d]kmutti: Pointer to mother
    • b[a-d]kmup: Pointer to partner of mother
    • b[a-d]khv: Pointer to head of household
    • b[a-d]khvp: Pointer to partner of head of household
  • The variables on childcare / day care attendance had not been completely assigned for all FiD cases. This has now been done for two variables (bak6701 and bdk7001)
  • KIDLONG: Pooled dataset on children (up to the age of 16) in the household. Due to the changes in B[A-D]KIND, the resulting pooled KIDLONG file has also been updated.

1.6. Imputed monthly household income: MIHINC and I$HINC in $HGEN

All waves affected by the integration of FiD (2010 [BA] - 2013 [BD]) were completely newly imputed. With the new imputations, we now provide the imputed household income generated by only one imputation model and have also generated 10 implicates for the MIHINC dataset (FiD only provided 5 implicates).

1.7. $PEQUIV: CNEF Variables with Extended Income Information for the SOEP

Since no equivalent files were generated with the FiD data release, and especially since there were no data on the previous year’s household income or simulated tax and social insurance contributions, all $EQUIV from 2010-2013 had to be generated again for SOEP.v31.1.

The data provided in v31.1 now contain harmonized imputations and simulations for all SOEP subsamples including the newly integrated FiD samples.

 

2.     Other changed variables

2.1. BIOCOUPLM/Y, BIOMARSM/Y and $FAMSTD in $PGEN:

Changes within the couple history files BIOCOUPLM and BIOCOUPLY, marital history files BIOMARSM and BIOMARSY, and variable marital status of the survey year ($famstd) in $PGEN:

  • Major changes occurred due to an adjustment of the spell endings for panel attrition. Previously the endings were set to twelve months since the most recent interview and have now been corrected to the month of the most recent interview. This adjustment also caused changes in the biographies for some respondents

2.2. BIOEDU: Biographical Data on Educational Participation and Transitions

Variable persnr (personal id) had the value 0 for all observations. In the new update, we have fixed this problem.

2.3. BEPBRUTTO: Gross data, individual level

The previous year’s identifiers had not been correctly implemented in the individual gross data set. This has been corrected. Affected variables:

  • behhnrold: Household number for previous year with two-digit control number.
  • bepnrold: serial individual number.

 

2.4. HEALTH: SOEP health module in the individual questionnaire

The dataset was unfortunately corrupted by mistake in our database. This has been corrected in v31.1.

2.5. BEPGEN: Genereated variables, individual level

  • Now variables with information about the current occupation in file BEPGEN (is8814, isco0814, isei14, klass14, kldb1014, mps14, siops14, and egp14) contain valid data also for cases that were not asked about their most recent job but that could be updated with information from the previous year.
  • Correction of a case due to a mistakenly applied value for field14 and degree14.

 

2.6. $HGEN: Generated Variables, household level

  • The file HGEN v31.1 now contains the variable gas$$, which states the household’s gas costs starting in 2014. The variables $$eqplif and $$eqpnrj have now been carried forward from the last two years if a household did not provide a response in a given year.
  • In the case of the variable moveyr$$, changes have been made in the cases in the integrated FiD sample. For these samples, the questionnaire does not ask for the move-in date and this information therefore had to be taken from the biographical questionnaire. Prior to the update, the move-in date of a random person in the household was used in hgen. Now the move-in date of the person who answered the household questionnaire is used.
  • Variables that are imputed (room$$, size$$, rent$$, heat$$, util$$ and electr$$) have been imputed again for the update. This resulted in random statistical changes. For this reason, changes have also occurred in the corresponding flag variables. Here, it should be noted that the data on whether utilities are included in the rent have also been imputed. Changes in this variable determine whether utilities are added to reported rent or not. This in turn determines whether the variable frent$$ is coded 0 or 1. Therefore, some rents that were marked “not imputed” prior to the update are now marked “imputed” and vice versa.


Datenzugang

Die SOEP-Daten stehen der wissenschaftlichen Forschung als faktisch anonymisierte Mikrodaten zur Verfügung. Der Zugang zu den Daten des SOEP muss aus Gründen des Vertrauensschutzes gegenüber den Befragten hohen Sicherheitsstandards genügen. Nach Abschluss eines Datenweitergabevertrages mit dem DIW Berlin erhalten Antragsteller/-innen den SOEP-Datensatz. Details