Introduction
Beaucoup d’entreprises jugent encore le coût de l’IA avec une mauvaise question : « combien coûte l’abonnement ? ». Pour un outil interne, un SaaS ou une automatisation, la vraie question est différente : combien coûtent les tokens, les sorties, les outils, le cache, les recherches, les appels ratés et les validations ?
Un abonnement peut sembler clair. Une facture API peut devenir confuse. Les coûts changent selon le modèle, la taille du contexte, le volume de sortie, la présence de cache, les outils appelés et parfois la région de traitement.
Cet article explique les bases pour piloter un budget IA sans jargon inutile. Il ne donne pas le coût réel des produits WG, car ce coût doit être prouvé par factures, logs et usage live consolidé avant toute annonce publique.
Un token, ce n’est pas un mot
Un token est une unité technique utilisée par les modèles pour lire et générer du texte. Ce n’est pas exactement un mot. Selon la langue, la ponctuation, le code et les caractères, le nombre de tokens peut varier.
Pour piloter un budget, il faut séparer trois choses :
| Élément | Ce que cela signifie | Impact budget |
|---|---|---|
| Input tokens | Ce que vous envoyez au modèle | Gros prompts, fichiers, historique, outils |
| Output tokens | Ce que le modèle génère | Réponses longues, articles, code, rapports |
| Tokens d’outils | Définitions d’outils, résultats, recherche, fichiers | Peut augmenter vite dans les agents |
Le piège fréquent est de regarder seulement le prompt utilisateur. Dans un vrai workflow, le modèle reçoit aussi des instructions système, du contexte projet, des schémas, des outils, des résultats de recherche, parfois des fichiers ou du code.
Pourquoi l’output peut coûter plus cher
Sur plusieurs grilles tarifaires consultées, les tokens de sortie peuvent coûter plus cher que les tokens d’entrée selon le fournisseur et le modèle. Les prix changent régulièrement : il faut donc vérifier la page pricing officielle le jour où l’on prépare un budget.
Le principe business reste utile même sans figer un chiffre : une sortie longue peut coûter nettement plus cher qu’une entrée courte lorsqu’elle est générée souvent.
Exemples de sorties qui peuvent gonfler les coûts :
- Articles longs en plusieurs variantes.
- Rapports d’audit détaillés.
- Code généré avec explications longues.
- Agents qui résument chaque action au lieu de produire une preuve courte.
- Workflows qui recommencent plusieurs fois au lieu de corriger une seule étape.
Le cache peut aider, mais ce n’est pas une baguette magique
OpenAI documente le prompt caching comme un mécanisme automatique sur les prompts éligibles, avec bénéfices possibles sur la latence et le coût lorsque des préfixes identiques sont réutilisés. La documentation indique aussi que les prompts doivent atteindre un seuil minimal et que les contenus statiques doivent être placés au début pour maximiser les cache hits.
Anthropic documente également le prompt caching avec une logique de cache write et cache read, et des durées comme 5 minutes ou 1 heure selon configuration et prix.
La conclusion pratique :
- Le cache aide surtout quand on réutilise le même contexte stable.
- Il fonctionne mieux si les instructions et documents stables sont au début.
- Il ne corrige pas un workflow mal conçu.
- Il ne réduit pas automatiquement tous les coûts.
Mini-calculateur interne
Pour estimer un workflow IA, utilisez un tableau simple avec ces champs.
| Champ | Exemple interne | Comment l’utiliser |
|---|---|---|
| Modèle | À renseigner | Prix input/output à revérifier |
| Input moyen | 20 000 tokens | Prompt + contexte + outils |
| Output moyen | 3 000 tokens | Réponse finale ou rapport |
| Taux cache | 0 %, 50 %, 80 % | Hypothèse à prouver par usage |
| Nombre d’appels | 1 000/mois | Volume réel ou scénario |
| Coût outil | Web search, file search, shell, etc. | Selon fournisseur |
| Coût total | Calculé | Ne pas publier sans preuve |
Ce calculateur ne doit pas afficher de coût officiel tant que les données live ne sont pas consolidées.
Les erreurs qui font exploser la facture
- Envoyer tout le contexte à chaque demande sans séparer stable et variable.
- Demander des réponses longues par défaut.
- Laisser un agent multiplier les recherches sans budget de retrieval.
- Utiliser un modèle trop fort pour une tâche simple.
- Ne pas logger
input_tokens,output_tokenset tokens cachés. - Confondre test ponctuel et coût mensuel à volume réel.
La solution n’est pas de choisir toujours le modèle le moins cher. La solution est de choisir le bon niveau de modèle, le bon contexte, le bon format de sortie et la bonne vérification.
Méthode WG de contrôle
Un workflow IA propre doit stocker au minimum :
- Le modèle utilisé.
- Le nombre d’appels.
- Les tokens input/output.
- Les tokens cachés si disponibles.
- Les outils appelés.
- Le taux d’échec ou de régénération.
- La valeur business du résultat.
Sans cette base, on ne pilote pas un système IA. On consomme une boîte noire.
Aller plus loin
Sources officielles vérifiées
Sources revérifiées le 2026-05-20 avant publication.
- https://developers.openai.com/api/docs/pricing
- https://developers.openai.com/api/docs/guides/prompt-caching
- https://platform.claude.com/docs/en/about-claude/pricing
- https://platform.claude.com/docs/en/build-with-claude/prompt-caching
Note : les prix, noms de modèles et fonctions IA peuvent évoluer. Les sources officielles doivent être revérifiées avant toute décision budgétaire ou technique.