Methods in quantitative sociology


Objectif

Ce cours consiste en la présentation de méthodes statistiques avancées, encore peu utilisées en sciences sociales et/ou peu abordées dans le cursus à l’Ensae, mais qui se révèlent très performantes et tout à fait complémentaires avec une formation en économétrie. Le cours se composera de 4 modules de 6 heures, chaque module abordant une méthode de manière pratique et interactive, à partir de l’analyse de données empiriques à l’aide de logiciels spécialisés.

A l’issue de ce cours, les étudiants doivent être capable : 

          -de comprendre l’utilisation des méthodes abordées en cours dans des articles de sociologie, d’en évaluer les apports et les limites ;

          -de mettre en œuvre de manière pertinente les méthodes abordées en cours à partir de données empiriques.

Plan

  • Analyse des séquences – une approche du traitement des données longitudinales qui se diffuse assez largement depuis une dizaine d’années.
  • Arbres de classifications et de régressions et algorithmes ensemblistes (bagging, forêts aléatoires, etc) – cette famille de méthodes constitue une alternative intéressante et non paramétrique aux modèles de régressions standards.
  • Modèles multiniveaux – ces modèles permettent d’étudier des données hiérarchisées (par exemple, élèves au sein de classes, patients au sein d’hôpitaux) en tenant compte de l’influence d’effets contextuels sur les phénomènes étudiés, au-delà de l’effet des caractéristiques individuelles.
  • Analyse en classes latentes (ACL) et modèles de mélange – une vaste famille d’approches probabilistes de la classification – dont l’ACL fera l’objet d’attention de ce module – qui permettent l’évolution de l’approche algorithmique, heuristique et géométrique (e.g., K-Means, Classification hiérarchique, ACM) vers un traitement statistique d’hypothèses préalables sur des données complexes et des populations hétérogènes.

Références

Di Prete T. A., Forristal J. D., 1994, « Multilevel Models : Methods and Substance », Annual Review of Sociology, 20, p. 331-357.

Hastie, T. J.; Tibshirani, R. J.; Friedman, J. H., 2009, The Elements of Statistical Learning, Springer.

Lesnard Laurent, de Saint Pol Thibaut, 2004, « Introduction aux méthodes d’appariement optimal (Optimal Matching Analysis) ». Document de travail INSEE, n°15.

Magidson Jay, Vermunt Jeroen, 2004,. « Latent class models », In D. Kaplan (Ed.), Handbook of quantitative methodology for the social sciences (pp. 175–198). Newbury Park, CA: Sage.

Muthén Bengt, 2008, « Latent variable hybrids: Overview of old and new models », In Hancock, G. R., & Samuelsen, K. M. (Eds.), Advances in latent variable mixture models (pp. 1-24).

Robette Nicolas, 2011, Explorer et décrire les parcours de vie: les typologies de trajectoires, CEPED ("Les Clefs pour"), http://nicolas.robette.free.fr/Docs/Robette2011_Manuel_TypoTraj.pdf

Snijders T. A., Bosker J., 1999, Introduction to Multilevel Analysis, London, Sage.

Strobl Carolin, Malley James, Tutz Gerhard, 2009, « An Introduction to Recursive Partitioning: Rationale, Application, and Characteristics of Classification and Regression Trees, Bagging, and Random Forests », Psychological Methods, 14(4), p. 323-348.