Je bosse comme vous sur pas mal de projets avec Claude Code, et je vois que les coûts en tokens peuvent vite grimper si on ne fait pas un minimum attention, surtout sur des projets ultra-complexes avec beaucoup de lignes de code.
J’essaie déjà quelques trucs simples : éviter de renvoyer trop de contexte, découper les tâches, créer plusieurs agents selon les besoins, simplifier les prompts… mais j’ai l’impression qu’il y a encore beaucoup de marge.
Du coup, je suis curieux d’avoir vos retours :
vous faites quoi concrètement pour réduire les coûts sur vos projets Claude Code ?
Surtout qu’on entre dans une période où le coût des tokens risque d’exploser. Je pense même que l’optimisation des tokens va devenir un vrai métier dans les années à venir.
Et à l’inverse, c’est quoi les erreurs qui vous ont coûté cher au début ?
Lancer plusieurs agents ne change rien côté tokens — tu déplaces juste le contexte dans un autre agent, mais tu en consommes autant au total.
Simplifier les prompts, je ne suis pas sûr que ce soit vraiment bénéfique non plus : si tu donnes moins de contexte à ton IA, elle va devoir explorer davantage ton code par elle-même — ce qui peut coûter autant voire plus.
L’optimisation des tokens, ce n’est pas un métier. La vraie variable de choix, ce sera quel modèle délivre le plus de valeur par token payé.
Ce qu’on vit là, c’est juste une anomalie de marché. Tu fais des projets à 10€ avec Claude Code qui coûteraient 100x, 200x, 500x plus cher avec des devs. Et si tu payais le vrai coût des tokens — 10, 20, 50x ce que tu payes aujourd’hui — tu ne les ferais tout simplement pas. Optimiser ses tokens à la marge, ça ne changera pas grand chose à la viabilité d’un projet si ton modèle coûte x10 demain.
c’est le moment d’avoir 10 abonnements à 200 euros et gaspiller le plus de tokens possible.
J’ai un vrai doute sur le fait que les sous-agents permettent réellement de consommer moins de tokens. Voici ma réflexion :
Dans une conversation Opus avec 1 million de contexte, chaque message que tu envoies coûte de plus en plus cher au fur et à mesure que la conversation s’allonge. Un message identique envoyé au début de la conversation versus après 500 000 tokens de contexte accumulé va coûter significativement plus de tokens.
Du coup, mon hypothèse : si tu délègues les tâches à des sous-agents, ça évite de faire grossir la conversation principale. Résultat, quand tu reinteragis avec ton agent principal, le contexte est plus court et chaque échange coûte moins cher.
En théorie, les conversations à 1 million de tokens sont un gros piège : plus tu laisses la conversation s’allonger, plus chaque nouveau message devient coûteux. Ce qui expliquerait pourquoi beaucoup de gens ont constaté une augmentation de leurs coûts depuis le passage à Opus avec 1 million de contexte, alors qu’avant on était forcé de faire des /compact régulièrement — ce qui maintenait artificiellement un contexte court.
'utilise Claude Code et je n’arrive pas à savoir où j’en
▎ suis en tokens pendant mes conversations. Je sais juste
▎ quand ma limite reset (plan Max/Pro), mais pas combien de
▎ tokens j’ai déjà consommés dans la conversation en cours —
▎ du coup je ne sais jamais à quel moment déclencher un
▎ /compact.
▎
▎ Les outils que j’ai vus (ccusage, ccstatusline) affichent
▎ plein d’infos dont je me fous (coût en $, burn rate, modèle
▎ utilisé, etc.). Moi je veux une statusline ultra minimaliste
▎ qui affiche UNIQUEMENT deux choses :
▎
▎ 1. Nombre de tokens de la conversation en cours + % de la
▎ fenêtre 200k, avec un code couleur (vert <150k, jaune
▎ 150–250k, rouge >250k pour m’alerter quand j’entre dans la
▎ zone où Opus applique le multiplicateur x2)
▎ 2. Temps restant avant le reset de mon bloc 5h
▎
▎ Rien d’autre. Pas de prix, pas de modèle, pas de burn rate.
▎
▎ Installe-moi tout ça : crée le script Python qui parse le
▎ transcript JSONL de la session active pour extraire les
▎ tokens, utilise ccusage (via npx) pour récupérer l’heure de
▎ reset du bloc, enregistre la statusline dans
▎ ~/.claude/settings.json, et teste que ça s’affiche
▎ correctement.
Tu peux aussi demandez lui une récap de la discussion. Ce qu’il reste à faire, faire et pourquoi. Ensuite, tu mets tout ça dans Google doc. Et à la prochaine discussion, tu envoies le Google doc. Et tu demandes s’il a bien compris.
Il me semble que c’est très utile pour tout ce qui est scénario qui sont prédictibles, mais tout ce qui est agent de code type Claude code, c’est pas forcément le meilleur cas d’usage. Mais peut-être que je me trompe.
Je suis en train de tester wozcode en free. J’ai deux comptes max pour ma conso code uniquement et je dois admettre que j’ai dû gagner 15% sur la dernière semaine. Mais Claude est tellement variable sur la qualité et l’utilisation des tokens que je dois encore attendre une semaine pour vraiment dire si c’est efficace. Testé sur Claude code 2.1.114