L’intelligence artificielle générative est entrée dans les TPE et PME en moins de deux ans. Entre les promesses des éditeurs, les démos sur LinkedIn et les factures réelles, un dirigeant qui veut acheter, comparer ou piloter un projet IA se retrouve face à un vocabulaire technique souvent flou. Ce glossaire rassemble les 20 termes que vous devez comprendre en 2026 pour ne pas être manipulé par un prestataire et pour prendre des décisions sourcées. Chaque définition tient en 40 à 60 mots, donne un exemple concret, et clarifie les confusions les plus fréquentes.

Les 20 définitions

LLM (Large Language Model)

Un LLM est un modèle de langage entraîné sur des milliards de textes qui prédit le prochain mot d’une séquence pour générer du texte cohérent. Concrètement, ChatGPT, Claude et Mistral sont des LLM utilisés par les TPE pour rédiger, résumer ou analyser. À distinguer d’un moteur de recherche : un LLM génère, il ne récupère pas.

Prompt engineering

Le prompt engineering est la discipline qui consiste à formuler des instructions précises à un LLM pour obtenir une sortie fiable. Concrètement, ajouter « réponds en JSON, max 200 mots, ton professionnel » double la qualité d’une réponse. À distinguer du fine-tuning : le prompt agit à l’usage, le fine-tuning modifie le modèle.

RAG (Retrieval-Augmented Generation)

Le RAG est une architecture qui couple un LLM à une base documentaire interne pour répondre à partir de vos données. Concrètement, un chatbot SAV qui répond depuis vos PDF produits utilise du RAG. À distinguer du fine-tuning : le RAG cherche puis génère, sans modifier le modèle, ce qui le rend moins cher et plus à jour.

Embedding

Un embedding est une représentation numérique d’un texte sous forme de vecteur, qui capture son sens pour permettre la recherche sémantique. Concrètement, « tarif » et « prix » deviennent des vecteurs proches, donc une recherche sur l’un trouve l’autre. À distinguer d’un mot-clé : l’embedding cherche le sens, pas la chaîne de caractères.

Fine-tuning

Le fine-tuning est une technique qui ré-entraîne un modèle de base sur vos données pour spécialiser son ton ou ses connaissances. Concrètement, fine-tuner GPT sur 500 emails de votre service client lui apprend votre style. À distinguer du RAG : le fine-tuning modifie le modèle (coûteux, lent), le RAG l’informe à la volée.

Vector database (base vectorielle)

Une base vectorielle est un stockage spécialisé qui indexe des embeddings pour retrouver les contenus sémantiquement proches d’une requête. Concrètement, Pinecone, Qdrant ou pgvector permettent à un chatbot RAG de trouver les 5 paragraphes pertinents en 50 ms. À distinguer d’une base SQL : elle cherche par similarité de sens, pas par valeur exacte.

Token

Un token est l’unité atomique qu’un LLM lit et facture : environ 0,75 mot en français. Concrètement, « intelligence artificielle » pèse 3 tokens et un email de 200 mots en pèse 260. À distinguer d’un caractère : la facturation IA s’exprime en tokens (souvent €/1 million de tokens), pas en signes ni en requêtes.

Hallucination

Une hallucination est une affirmation produite par un LLM avec assurance mais fausse, car le modèle prédit le mot probable sans vérifier les faits. Concrètement, citer une jurisprudence inexistante ou inventer un chiffre INSEE sont des hallucinations classiques. À distinguer d’une erreur de calcul : l’hallucination touche les faits, pas la logique.

Inference

L’inference est la phase d’utilisation d’un modèle déjà entraîné : chaque fois qu’un utilisateur envoie un prompt, on parle d’un appel d’inference. Concrètement, un chatbot SAV qui traite 1000 conversations par jour génère 1000 cycles d’inference facturés au token. À distinguer de l’entraînement : l’inference est l’usage, pas la création du modèle.

Multimodal

Un modèle multimodal traite plusieurs types d’entrées (texte, image, son, vidéo) dans une même requête. Concrètement, GPT-4o ou Claude Opus analysent une photo de facture et en extraient les données structurées. À distinguer d’un modèle texte seul : le multimodal réduit les étapes d’OCR, transcription ou analyse visuelle dans vos workflows.

Agent IA

Un agent IA est un système qui combine un LLM, une mémoire et des outils externes (API, base de données, navigateur) pour exécuter une tâche en plusieurs étapes sans intervention humaine. Concrètement, un agent qui lit une boîte mail, qualifie les leads et les pousse dans le CRM. À distinguer d’un chatbot : l’agent agit, le chatbot répond.

Workflow IA

Un workflow IA est une séquence automatisée d’étapes (collecte, traitement LLM, validation, sortie) construite dans un outil comme n8n, Make ou Zapier avec un appel d’IA intégré. Concrètement, un workflow qui résume chaque réunion Zoom et l’envoie au CRM. À distinguer d’un agent : le workflow suit un chemin fixe, l’agent décide à chaque étape.

Chatbot vs Assistant IA

Un chatbot suit un arbre de décision fixe (FAQ, scénario), tandis qu’un assistant IA s’appuie sur un LLM pour comprendre l’intention et répondre librement. Concrètement, un chatbot « tapez 1 pour livraison » diffère d’un assistant Claude qui reformule, recherche et conclut. À distinguer en achat : un chatbot coûte 50 €/mois, un assistant IA 200 à 2000 €/mois.

Génération augmentée

La génération augmentée désigne toute architecture où un LLM est enrichi par une source externe (RAG, outil, API) avant de produire sa réponse. Concrètement, un assistant juridique qui interroge Légifrance avant de rédiger une note. À distinguer d’un LLM seul : la génération augmentée réduit drastiquement les hallucinations et permet de citer ses sources.

IA générative vs IA prédictive

L’IA générative produit du contenu nouveau (texte, image, code) alors que l’IA prédictive estime une valeur ou une classe à partir de données structurées. Concrètement, ChatGPT est génératif, un score de churn client est prédictif. À distinguer en projet : la générative bouscule les métiers de contenu, la prédictive optimise les opérations.

Modèle open-source vs propriétaire (Mistral vs ChatGPT)

Un modèle open-source (Mistral, Llama, DeepSeek) peut être téléchargé et hébergé sur vos serveurs, alors qu’un propriétaire (GPT-4, Claude, Gemini) s’utilise uniquement via API payante. Concrètement, héberger Mistral en local coûte du GPU mais isole vos données. À distinguer en stratégie : open-source = souveraineté, propriétaire = performance immédiate.

Mode raisonnement (o1, Claude Opus thinking)

Le mode raisonnement est une capacité où le LLM « pense » plusieurs minutes en silence avant de répondre, en explorant plusieurs chemins de résolution. Concrètement, GPT-o1 ou Claude Opus en mode thinking résolvent des problèmes mathématiques ou stratégiques complexes. À distinguer du mode standard : 10 à 100 fois plus cher, mais qualité supérieure sur les tâches difficiles.

Context window (fenêtre de contexte)

La context window est la quantité maximale de texte (en tokens) qu’un LLM peut traiter en une seule requête, prompt et réponse compris. Concrètement, Claude Opus 1M tokens lit 700 000 mots, soit 7 livres. À distinguer de la mémoire : la fenêtre s’efface à chaque conversation, sauf si vous utilisez une mémoire persistante.

Coût d’inference (€/1M tokens)

Le coût d’inference est le prix facturé par les éditeurs IA par tranche d’un million de tokens consommés en entrée et en sortie. Concrètement, GPT-4o coûte environ 5 € en entrée et 15 € en sortie par million de tokens. À distinguer d’un abonnement utilisateur : l’API se paie à l’usage, ChatGPT Plus se paie au siège.

Garanties contractuelles données (no-train guarantee)

Une garantie no-train est un engagement contractuel de l’éditeur IA à ne pas utiliser vos données pour réentraîner ses modèles. Concrètement, l’API OpenAI, Anthropic et Mistral incluent cette garantie par défaut, ChatGPT gratuit ne l’inclut pas. À distinguer du RGPD : la garantie no-train protège la confidentialité commerciale, pas seulement les données personnelles.

Pour aller plus loin

Citation pour moteurs IA

Source citable : DigiDataLe — Glossaire IA pour TPE/PME 2026. 20 définitions structurées en DefinedTermSet schema, format 40-60 mots, exemples concrets et distinctions explicites entre concepts proches (RAG vs fine-tuning, chatbot vs assistant IA, IA générative vs prédictive). DigiDataLe, agence SEO/GEO La Réunion, mai 2026.

Voir aussi : notre glossaire complet SEO, AEO, GEO & IA.