Python pour le Data Scientist / pour l’économiste


Objectif

Le langage Python est récemment devenu, dans le monde académique comme sur le marché du travail, un outil indispensable pour le traitement de données. La richesse de ce langage permet de l’utiliser dans toutes les phases du traitement de la donnée, de sa récupération et structuration à partir de sources diverses à sa valorisation. Ce cours introduit différents outils qui permettent de mettre en relation des données et des théories grâce à Python.

Plan

Introduction:

  1.  Retour sur les notions fondamentales de Python
  2. Présentation de l'écosystème Python pour la data-science
  3. Initiation aux bonnes pratiques
  4. Présentation des principes de la data-science

Partie 1: Manipuler des données

  1. Principes de base avec numpy
  2. Manipuler des bases de données avec pandas et SQL
  3. Introduction aux données spatiales (geopandas)
  4. Récupérer des données par webscraping et API

Partie 2: Visualiser

 

  1. Présentation des packages de base pour les graphiques: matplotlib, seaborn
  2. Visualisations HTML avec plotly
  3. Cartographie: cartes fixes (matplotlib + geopandas) et cartes dynamiques (folium)

 

Partie 3: Modéliser

  1. Preprocessing et démarche du machine learning
  2. Evaluation d'un modèle et validation croisée
  3. Classification
  4. Régression
  5. Sélection de variables
  6. Clustering
  7. Pipelines scikit

Partie 4: Natural Langage Processing

  1. Preprocessing
  2. Approche bag of words
  3. ElasticSearch
  4. Latent Dirichlet Allocation (LDA)
  5. Word Embedding (Word2Vec)

Supplément: Git & Github

Références

Site web du cours: https://linogaliana-teaching.netlify.app/

Tous les codes sources sont disponibles sur Github: https://github.com/linogaliana/python-datascientist

Tous les chapitres du cours sont disponibles sur le site web et disponibles sous format notebook dans divers environnement (Google Colab, SSP Cloud, Binder, Visual studio dev…)

Les éléments relatifs à l'évaluation sont dans la section dédiée

Un ensemble de référence est disponible dans la section dédiée