On appelle grand modèle de langage (ou LLM pour large language model en anglais) un programme informatique alimenté par des exemples et capable de reconnaître ou d’interpréter le langage humain ou d’autres types de données complexes. Les LLM sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté (unlabelled). Ils utilisent l’apprentissage auto-supervisé ou semi-supervisé.
Ces programmes ont émergé vers 2018 et ont été utilisés pour la mise en œuvre d’agents conversationnels (chatbots) et diverses autres applications de traitement du langage naturel (NLP).
Les LLM se distinguent dans de nombreuses tâches. Pour commencer, c’est par la variété des tâches qu’ils peuvent accomplir qu'ils se démarquent. Ils sont entraînés pour prédire une suite probable à une entrée donnée, ce qui leur permet de générer du texte, de répondre à des questions, de résumer des documents, de traduire des langues et bien plus encore.
Naturellement, la qualité de leurs réponses dépend d'abord de la quantité de ressources mises à leur disposition, comme la taille des paramètres, la puissance de calcul, ou encore les données d'entraînement. Ensuite, elle dépend de la qualité des données transmises. Les modèles de langage avec un grand nombre de paramètres sont capables de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Ils possèdent également une connaissance générale considérable sur le monde et peuvent « mémoriser » une grande quantité de faits pendant l'entraînement.
Avant le succès des grands modèles de langage, l'attention des chercheurs en traitement automatique des langues était principalement focalisée sur l'apprentissage supervisé de modèles spécialisés pour des tâches spécifiques.
L’entraînement des grands modèles de langage implique plusieurs étapes clés :
Collecte de données : Les modèles sont alimentés par d'énormes quantités de texte provenant de diverses sources, telles que des livres, des articles, des sites web, et d'autres documents textuels.
Prétraitement des données : Les données brutes sont nettoyées et prétraitées pour être utilisées dans l'entraînement. Cela peut inclure la tokenisation, qui divise le texte en unités plus petites comme des mots ou des sous-mots.
Entraînement : Les LLM utilisent des algorithmes d'apprentissage profond, tels que les transformeurs, pour apprendre les relations et les structures dans les données textuelles. L'apprentissage est généralement non supervisé ou auto-supervisé, ce qui signifie que le modèle apprend à partir des données elles-mêmes sans annotations explicites.
Affinage : Après l'entraînement initial, les modèles peuvent être affinés sur des ensembles de données spécifiques à une tâche (par exemple, des données annotées pour la classification de sentiments) pour améliorer leurs performances sur ces tâches spécifiques.
Évaluation et ajustement : Les performances des modèles sont évaluées sur des ensembles de données de test, et des ajustements sont faits pour améliorer leur précision et leur efficacité.
Malgré leurs capacités impressionnantes, les LLM présentent plusieurs défis et préoccupations. Ils nécessitent des ressources de calcul considérables, ce qui peut limiter leur accessibilité. De plus, ils peuvent reproduire et amplifier des biais présents dans les données d'entraînement, posant des questions éthiques importantes. La confidentialité des données est également une préoccupation majeure, surtout lorsqu'ils sont entraînés sur des informations sensibles.
En conclusion, les grands modèles de langage représentent une avancée significative dans le domaine de l'intelligence artificielle et du traitement du langage naturel, offrant des capacités étendues pour comprendre et générer du texte humain. Cependant, leur utilisation et développement nécessitent une attention continue aux défis techniques, éthiques et sociétaux qu'ils posent.