ENSAE Paris - École d'ingénieurs pour l'économie, la data science, la finance et l'actuariat

Je suis

Machine Learning for Natural Language Processing

Enseignant

Christopher KERMORVANT

KERMORVANT Christopher

Crédits ECTS :
3

Heures de cours :
9

Heures de TD :
9

Langue :
Anglais

Modalité d'examen :
mém.

Objectif

Objectifs du cours

Comprendre les principes de base du traitement automatique du langage naturel (NLP).
Acquérir des connaissances sur les modèles classiques (statistiques) et modernes (deep learning, transformers).
Maîtriser les techniques de représentation du texte et d’entraînement de modèles de langage.
Découvrir les applications récentes : RAG, multimodalité, agents.
Connaître les enjeux liés à la gestion de projets en IA et les tendances actuelles (éthique, durabilité, modèles spécialisés).

Plan

1. Morphologie et Tokenization

Notions de base : morphèmes, flexion, dérivation, composition.
Techniques de normalisation : stemming, lemmatisation.
Tokenization : mots, caractères, sous-mots (WordPiece, BPE, Unigram).
Impact des choix de tokenisation sur les LLMs.

2. Représentation vectorielle des mots et documents

Sac de mots, TF-IDF.
Limites des représentations classiques.
Hypothèse distributionnelle, co-occurrences, LSA/LSI.
Word2Vec, GloVe, embeddings neuronaux.

3. Modèles de langue

Définitions : probabilité d’une séquence de mots.
Modèles statistiques n-gram, Markov, backoff, Kneser-Ney.
Évaluation : entropie croisée, perplexité.
Passage aux modèles neuronaux : réseaux de Bengio, Word2Vec.

4. Réseaux de neurones et Transformers

Problème du contexte long.
Mécanisme d’attention et auto-attention.
Multi-head attention et embeddings positionnels.
Architecture Transformer (encodeurs, décodeurs, blocs).
Génération de texte (sampling, top-k, top-p, température).

5. Encoders et contextual embeddings

Limites des embeddings statiques.
BERT et ses variantes (RoBERTa, XLM-R, CamemBERT, FlauBERT).
Pré-entraînement (masked language modeling, next sentence prediction).
Applications : classification, NER, traduction.

6. Prompt Engineering et LLMs

Principes de conception de prompts.
Contextualisation, rôles et personas.
Itération, ajustements, analyse d’erreurs.
Applications professionnelles des LLMs.
Limites et biais.

7. Retrieval-Augmented Generation (RAG)

Recherche d’information classique : BM25, sac de mots.
Intégration d’embeddings et de moteurs neuronaux.
Architecture RAG : recherche + génération.
Applications (chatbots, moteurs de recherche augmentés).

8. Gestion de projet IA

Spécificités des projets IA vs. IT classiques.
Méthodologies (waterfall, agile, MLOps).
Rôles dans une équipe IA.
Données : collecte, annotation, qualité, learning curves.
Métriques, baseline, itérations d’amélioration.

9. Tendances actuelles en NLP

Multimodalité (texte + image, audio, vidéo).
Modèles multilingues et cross-lingual.
Domain-specific LLMs.
Small language models.
Durabilité et impact énergétique.
Agentic AI, éthique et responsabilité.