Machine Learning for Natural Language Processing
Enseignant
Crédits ECTS :
3
Heures de cours :
9
Heures de TD :
9
Langue :
Anglais renforcement
Modalité d'examen :
mém.
Objectif
Objectifs du cours
- Comprendre les principes de base du traitement automatique du langage naturel (NLP).
- Acquérir des connaissances sur les modèles classiques (statistiques) et modernes (deep learning, transformers).
- Maîtriser les techniques de représentation du texte et d’entraînement de modèles de langage.
- Découvrir les applications récentes : RAG, multimodalité, agents.
- Connaître les enjeux liés à la gestion de projets en IA et les tendances actuelles (éthique, durabilité, modèles spécialisés).
Plan
1. Morphologie et Tokenization
- Notions de base : morphèmes, flexion, dérivation, composition.
- Techniques de normalisation : stemming, lemmatisation.
- Tokenization : mots, caractères, sous-mots (WordPiece, BPE, Unigram).
- Impact des choix de tokenisation sur les LLMs.
2. Représentation vectorielle des mots et documents
- Sac de mots, TF-IDF.
- Limites des représentations classiques.
- Hypothèse distributionnelle, co-occurrences, LSA/LSI.
- Word2Vec, GloVe, embeddings neuronaux.
3. Modèles de langue
- Définitions : probabilité d’une séquence de mots.
- Modèles statistiques n-gram, Markov, backoff, Kneser-Ney.
- Évaluation : entropie croisée, perplexité.
- Passage aux modèles neuronaux : réseaux de Bengio, Word2Vec.
4. Réseaux de neurones et Transformers
- Problème du contexte long.
- Mécanisme d’attention et auto-attention.
- Multi-head attention et embeddings positionnels.
- Architecture Transformer (encodeurs, décodeurs, blocs).
- Génération de texte (sampling, top-k, top-p, température).
5. Encoders et contextual embeddings
- Limites des embeddings statiques.
- BERT et ses variantes (RoBERTa, XLM-R, CamemBERT, FlauBERT).
- Pré-entraînement (masked language modeling, next sentence prediction).
- Applications : classification, NER, traduction.
6. Prompt Engineering et LLMs
- Principes de conception de prompts.
- Contextualisation, rôles et personas.
- Itération, ajustements, analyse d’erreurs.
- Applications professionnelles des LLMs.
- Limites et biais.
7. Retrieval-Augmented Generation (RAG)
- Recherche d’information classique : BM25, sac de mots.
- Intégration d’embeddings et de moteurs neuronaux.
- Architecture RAG : recherche + génération.
- Applications (chatbots, moteurs de recherche augmentés).
8. Gestion de projet IA
- Spécificités des projets IA vs. IT classiques.
- Méthodologies (waterfall, agile, MLOps).
- Rôles dans une équipe IA.
- Données : collecte, annotation, qualité, learning curves.
- Métriques, baseline, itérations d’amélioration.
9. Tendances actuelles en NLP
- Multimodalité (texte + image, audio, vidéo).
- Modèles multilingues et cross-lingual.
- Domain-specific LLMs.
- Small language models.
- Durabilité et impact énergétique.
- Agentic AI, éthique et responsabilité.