“Multi-modalité” (épisode 15)

“À l’ère des données massives et diversifiées, la capacité d’un modèle d’intelligence artificielle à interpréter et intégrer des informations provenant de différentes sources est cruciale. La multi-modalité en deep learning traite de l’intégration de données variées telles que le texte, l’image, l’audio et la vidéo, afin de créer des systèmes d’IA plus complets et plus robustes. Cette séquence couvrira les concepts fondamentaux et les techniques avancées nécessaires pour traiter ces différentes sources d’information.”
Published

February 6, 2026

NoteToDo this week

Watch the video Multi-modalité” (épisode 15) before 2026-02-06.

Course

Course webpage: https://fidle.cnrs.fr/w3/archives/2024-2025/15-multiModality.html

Video course: Multi-modalité” (épisode 15) (2h course)

Outline

  • Définition de la multimodalité
  • Aujourd’hui, quel chemin a-t-on parcouru ?
  • Les différents types de fusion : tardive, intermédiaire, précoce
  • Multimodal LLM
  • Massively Multimodal Model
  • Evaluation des Multimodal Models

Tutorial/practical

The notebook and the notebook with solutions for this session are available1 here.

Footnotes

  1. This notebook is part of the Fidle training but is not available in the Fidle official notebook repository.↩︎