Python pour le Data Scientist / pour l’économiste


Objectif

Python est récemment devenu une alternative plus que probante pour les scientifiques et comme c’est un langage générique, il est possible de gérer l’ensemble des traitements appliqués aux données, depuis le traitements des sources de données jusqu’à leur visualisation sans changer de langage. Ce cours introduit différents outils qui permettent de faire "parler" les données pour obtenir rapidement des résultats.

 

Plan

Partie 1: Manipuler des données

 

* Introduction:

                Retour sur les notions fondamentales de Python,

                Présentation de l'écosystème Python pour la data-science

                Initiation aux bonnes pratiques

                Présentation des principes de la data-science

 

* Manier des données structurées :

                Principes de base avec numpy

                Manipuler des bases de données avec pandas et SQL

                Introduction aux données spatiales (geopandas)

 

* Manier des données moins traditionnelles:

                Récupérer des données par webscraping et API

                Manipuler des données textuelles

 

Partie 2: Visualiser

 

* Présentation des packages de base pour les graphiques:

                matplotlib, seaborn

 

* Cartographie:

                cartes fixes

                cartes dynamiques (HTML)

 

Partie 3: Modéliser

 

* Modèles généraux:

                Régression

                ACP

                Machine Learning avec sklearn

 

* Natural Langage Processing

 

* Approfondissement des modèles de Machine Learning

Références