Transformeur

Un transformeur (ou modèle auto-attentif) est une architecture d'apprentissage profond introduite en 2017^[1]. Elle est principalement utilisée dans le domaine du traitement automatique des langues (TAL) en servant de base aux grands modèles de langage^[2], mais peut aussi servir à traiter d'autres modalités comme les images^[3], les vidéos ou le son, parfois simultanément^[4].

À l'instar des réseaux de neurones récurrents (RNN pour recurrent neural network en anglais), les transformeurs sont conçus pour gérer des données séquentielles, telles que le langage naturel, pour des tâches telles que la traduction et la synthèse de texte. Cependant, contrairement aux RNN, les transformeurs n'exigent pas que les données séquentielles soient traitées dans l'ordre. Par exemple, si les données d'entrée sont une phrase en langage naturel, le transformeur n'a pas besoin d'en traiter le début avant la fin. Grâce à cette fonctionnalité, le transformeur permet une parallélisation beaucoup plus importante que les RNN et donc des temps d'entraînement réduits.

Les transformeurs sont rapidement devenus le modèle de choix pour les problèmes de TAL, remplaçant les anciens modèles de réseaux de neurones récurrents tels que le LSTMLong_short-term_memory (Long Short-Term Memory). Étant donné que le modèle transformeur facilite davantage la parallélisation pendant l'entraînement, celui-ci peut s'effectuer sur des ensembles de données plus volumineux qu'il n'était possible avant son introduction. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-Trained Transformer), qui ont été formés avec d'énormes ensembles de données de texte général, tels que Wikipedia Corpus, et peuvent être affinés pour réaliser des tâches linguistiques spécifiques.

↑ (en) Ashish Vaswani, « Attention Is All You Need », 2017
↑ (en) Margaret Rouse, « Large Language Model (LLM) », Techopedia,‎ 28 juillet 2023 (lire en ligne)
↑ (en) Yugesh Verma, « Hands-on guide to using Vision transformer for Image classification », sur Analytics India Magazine, 29 janvier 2022 (consulté le 12 décembre 2023)
↑ (en) Aayush Mittal, « Google's Multimodal AI Gemini - A Technical Deep Dive », sur Unite.AI, 11 décembre 2023 (consulté le 13 décembre 2023)

[1] (en) Ashish Vaswani, « Attention Is All You Need », 2017

[2] (en) Margaret Rouse, « Large Language Model (LLM) », Techopedia,‎ 28 juillet 2023 (lire en ligne)

[3] (en) Yugesh Verma, « Hands-on guide to using Vision transformer for Image classification », sur Analytics India Magazine, 29 janvier 2022 (consulté le 12 décembre 2023)

[4] (en) Aayush Mittal, « Google's Multimodal AI Gemini - A Technical Deep Dive », sur Unite.AI, 11 décembre 2023 (consulté le 13 décembre 2023)

[1]

[2]

[3]

[4]