ENSAE Paris - École d'ingénieurs pour l'économie, la data science, la finance et l'actuariat

Machine Learning for Natural Language Processing

Objectif

Objectifs du cours

  • Comprendre les principes de base du traitement automatique du langage naturel (NLP).
  • Acquérir des connaissances sur les modèles classiques (statistiques) et modernes (deep learning, transformers).
  • Maîtriser les techniques de représentation du texte et d’entraînement de modèles de langage.
  • Découvrir les applications récentes : RAG, multimodalité, agents.
  • Connaître les enjeux liés à la gestion de projets en IA et les tendances actuelles (éthique, durabilité, modèles spécialisés).

 

 

Plan

1. Morphologie et Tokenization

  • Notions de base : morphèmes, flexion, dérivation, composition.
  • Techniques de normalisation : stemming, lemmatisation.
  • Tokenization : mots, caractères, sous-mots (WordPiece, BPE, Unigram).
  • Impact des choix de tokenisation sur les LLMs.

2. Représentation vectorielle des mots et documents

  • Sac de mots, TF-IDF.
  • Limites des représentations classiques.
  • Hypothèse distributionnelle, co-occurrences, LSA/LSI.
  • Word2Vec, GloVe, embeddings neuronaux.

3. Modèles de langue

  • Définitions : probabilité d’une séquence de mots.
  • Modèles statistiques n-gram, Markov, backoff, Kneser-Ney.
  • Évaluation : entropie croisée, perplexité.
  • Passage aux modèles neuronaux : réseaux de Bengio, Word2Vec.

4. Réseaux de neurones et Transformers

  • Problème du contexte long.
  • Mécanisme d’attention et auto-attention.
  • Multi-head attention et embeddings positionnels.
  • Architecture Transformer (encodeurs, décodeurs, blocs).
  • Génération de texte (sampling, top-k, top-p, température).

5. Encoders et contextual embeddings

  • Limites des embeddings statiques.
  • BERT et ses variantes (RoBERTa, XLM-R, CamemBERT, FlauBERT).
  • Pré-entraînement (masked language modeling, next sentence prediction).
  • Applications : classification, NER, traduction.

6. Prompt Engineering et LLMs

  • Principes de conception de prompts.
  • Contextualisation, rôles et personas.
  • Itération, ajustements, analyse d’erreurs.
  • Applications professionnelles des LLMs.
  • Limites et biais.

7. Retrieval-Augmented Generation (RAG)

  • Recherche d’information classique : BM25, sac de mots.
  • Intégration d’embeddings et de moteurs neuronaux.
  • Architecture RAG : recherche + génération.
  • Applications (chatbots, moteurs de recherche augmentés).

8. Gestion de projet IA

  • Spécificités des projets IA vs. IT classiques.
  • Méthodologies (waterfall, agile, MLOps).
  • Rôles dans une équipe IA.
  • Données : collecte, annotation, qualité, learning curves.
  • Métriques, baseline, itérations d’amélioration.

9. Tendances actuelles en NLP

  • Multimodalité (texte + image, audio, vidéo).
  • Modèles multilingues et cross-lingual.
  • Domain-specific LLMs.
  • Small language models.
  • Durabilité et impact énergétique.
  • Agentic AI, éthique et responsabilité.