Vous avez lu « LLM » vingt fois cette semaine. Vous savez vaguement que GPT, c’est ChatGPT. Et les tokens ? Quelqu’un vous en a parlé pour expliquer pourquoi votre conversation s’était coupée. Ces trois termes reviennent dans presque toutes les discussions sur l’IA générative — et pourtant, leur définition reste floue pour la majorité des gens. Ce guide règle ça une bonne fois pour toutes, avec des exemples tirés d’une utilisation quotidienne réelle de ChatGPT, Claude et Gemini.
LLM, GPT, tokens : les termes IA expliqués simplement
C’est quoi un LLM exactement ?
LLM signifie Large Language Model — modèle de langage de grande taille. Concrètement, c’est un programme entraîné sur des milliards de textes (livres, sites web, code, articles…) pour prédire, mot après mot, la suite la plus probable d’une phrase. Ce n’est pas une base de données qui cherche une réponse stockée : c’est un système statistique qui génère du texte. ChatGPT, Claude, Gemini, Mistral — tous sont des LLM. Ce qui les différencie, c’est la taille du modèle, la qualité des données d’entraînement et les ajustements post-entraînement (notamment pour les rendre utiles et sûrs). Un LLM brut n’a pas de personnalité ni d’interface : c’est le moteur sous le capot. L’interface que vous utilisez, c’est le véhicule autour.
GPT, c’est quoi ? Et pourquoi tout le monde utilise ce mot à tort et à travers ?
GPT signifie Generative Pre-trained Transformer. C’est une architecture spécifique de LLM, inventée par OpenAI en 2018. GPT-4 est le modèle qui fait tourner ChatGPT dans sa version payante. Le problème : dans le langage courant, « GPT » est devenu synonyme de « chatbot IA » ou même de « ChatGPT ». C’est une erreur de catégorie. Gemini (Google) et Claude (Anthropic) ne sont pas des GPT — ce sont des LLM basés sur des architectures différentes. Utiliser « GPT » comme terme générique, c’est comme dire « Frigidaire » pour tous les réfrigérateurs. Ça passe dans la conversation, mais ça crée de la confusion dès qu’on veut comprendre ce qui se passe réellement.
Qu’est-ce qu’un token ? Pourquoi ça compte ?
Un token est l’unité de base que les LLM utilisent pour lire et produire du texte. Ce n’est pas exactement un mot : c’est un fragment de mot, un mot entier, ou parfois un signe de ponctuation. En anglais, « playing » peut être découpé en « play » + « ing » — deux tokens. En français, le découpage varie selon le modèle. Règle pratique : 1 token ≈ 0,75 mot, soit environ 100 tokens pour 75 mots. Pourquoi ça compte ? Parce que les modèles ont une fenêtre de contexte limitée en tokens — c’est la quantité d’information qu’ils peuvent traiter en une seule fois. GPT-4 Turbo gère jusqu’à 128 000 tokens. Claude 3.5 monte à 200 000. Si votre conversation dépasse cette limite, le modèle « oublie » le début. Et les API facturent à la consommation de tokens.
Quelle est la différence entre un modèle et un chatbot ?
Le modèle (LLM), c’est le moteur : GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Le chatbot, c’est l’interface qui enveloppe ce moteur pour le rendre utilisable : ChatGPT, Claude.ai, Google Gemini. Un même modèle peut être accessible via plusieurs interfaces. GPT-4o est disponible dans ChatGPT, mais aussi via l’API d’OpenAI intégrée dans des dizaines d’outils tiers. Quand vous choisissez un outil IA, vous choisissez à la fois un modèle et une interface — et les deux comptent. Une bonne interface avec un modèle médiocre peut donner de mauvais résultats. Un modèle puissant mal interfacé peut être inutilisable.
Le contexte et la mémoire : pourquoi votre chatbot « oublie » ?
La fenêtre de contexte, c’est tout ce que le modèle peut « voir » à un instant T : votre historique de conversation, vos instructions, les documents que vous avez collés. Passé cette limite en tokens, les échanges les plus anciens disparaissent du contexte. Le modèle ne les « oublie » pas comme un humain — il ne les a juste plus sous les yeux. C’est pourquoi une conversation de 3 heures avec ChatGPT peut finir par produire des réponses incohérentes : le début du contexte a été tronqué. Astuce testée : si vous travaillez sur un long document, résumez régulièrement ce qui précède et collez ce résumé en début de nouvelle session. Vous gardez la cohérence sans gaspiller des tokens sur l’historique brut.
Qu’est-ce que le « pre-training » et le « fine-tuning » ?
Le pré-entraînement (pre-training), c’est la phase où le modèle apprend sur des volumes massifs de textes publics — sans objectif précis, juste « prédit le prochain mot ». Ça donne un modèle capable de tout, mais utilisable par personne. Ensuite vient le fine-tuning : on réentraîne le modèle sur des données spécifiques pour lui donner un comportement ciblé. ChatGPT a été fine-tuné avec du RLHF (Reinforcement Learning from Human Feedback) pour être utile, poli et sûr. Un fine-tuning métier permet de créer un assistant spécialisé — droit, médecine, support client. Via le Lexique & Culture de l’IA — Guide Complet, vous trouverez d’autres concepts de ce type expliqués avec le même niveau de détail.
Paramètres, température, top-p : à quoi servent ces réglages ?
Quand vous utilisez une API ou un outil avancé, vous tombez sur des curseurs. La température contrôle l’aléatoire des réponses : à 0, le modèle choisit toujours le token le plus probable (réponses prévisibles, idéales pour du code ou de la factualité) ; à 1 et plus, il prend plus de risques (textes créatifs, variés). Le top-p (nucleus sampling) limite le pool de tokens considérés à chaque étape. En pratique : pour générer un email professionnel, baissez la température. Pour brainstormer 10 angles d’article, montez-la. J’ai testé sur Claude avec une température à 0,9 pour générer des accroches publicitaires — la diversité des résultats était nettement supérieure à une température à 0,3, qui produisait des variations quasi identiques.
FAQ — Questions fréquentes
LLM et IA générative, c’est la même chose ?
Non. L’IA générative désigne tout système capable de créer du contenu nouveau : texte, image, audio, vidéo. Un LLM est un type d’IA générative spécialisé dans le texte. Midjourney (images) est de l’IA générative mais pas un LLM. ChatGPT est les deux à la fois — LLM pour le texte, et depuis GPT-4o, capable de générer des images aussi.
Combien de tokens est-ce que j’utilise dans une conversation normale ?
Un échange de 5 questions/réponses de longueur moyenne représente environ 800 à 1 500 tokens. Un document Word de 10 pages collé dans le contexte, c’est environ 4 000 à 6 000 tokens. Dans les offres gratuites, ce n’est pas les tokens qui limitent directement, mais le nombre de messages par heure ou par jour — la limite de tokens ne devient contraignante qu’en usage intensif via API.
GPT-4 est-il meilleur que tous les autres LLM ?
Plus maintenant de façon systématique. En 2024-2025, Claude 3.5 Sonnet dépasse GPT-4o sur plusieurs benchmarks de raisonnement et de rédaction. Gemini 1.5 Pro excelle sur les très longs contextes. Le « meilleur » dépend de la tâche : pour du code, Claude ou GPT-4o ; pour analyser un long PDF, Gemini. Aucun modèle ne domine sur tous les fronts.