Vous buildez sur Claude API ou un autre LLM. Les patterns d'orchestration multi-agents, de loops et de harness ne sont pas documentés en clair — on les connaît en production.
À la carte : demi-journée de debugging, journée de design d'architecture, ou retainer mensuel en CTO technique.
Ce sont les briques fondamentales de tout système LLM robuste en production.
Un agent central reçoit la tâche, la décompose, délègue à des sous-agents spécialisés et synthétise leurs sorties. Chaque sous-agent a un contexte minimal, un outil précis, un output schématisé. L'orchestrateur gère les handoffs, la mémoire partagée et les dépendances.
Résultat : des tâches complexes (analyse juridique, génération de rapports, revue de code à grande échelle) que vous ne pouviez pas automatiser deviennent fiables et répétables.
Anti-pattern : Erreur courante : tout mettre dans un seul agent avec un contexte de 200k tokens. Le modèle perd le fil, hallucine, coûte cher.
Loop-until-dry : on relance des agents chercheurs jusqu'à ce que K rounds consécutifs ne trouvent rien de nouveau. Idéal pour l'audit exhaustif, la détection de bugs, la couverture de cas edge. Loop-until-budget : on scale dynamiquement le nombre d'agents selon un budget token défini — plus de budget = plus de profondeur.
Résultat : un système d'audit qui s'arrête quand il a vraiment tout trouvé, pas quand on lui dit d'arrêter. Ou une génération de contenu qui s'adapte au budget alloué sans intervention manuelle.
Anti-pattern : Erreur courante : boucle for(i=0; i<10; i++) avec un compte arbitraire. On rate la queue des cas rares, ou on tourne pour rien.
Le harness est le cadre qui pilote chaque appel agent : forçage du structured output via JSON Schema, validation Zod à réception, retry automatique sur mismatch, abort signal pour les agents fantômes, budget token partagé entre tous les agents du workflow.
Résultat : zéro parsing de texte libre, zéro "le modèle a répondu dans le mauvais format", zéro agent qui tourne en arrière-plan sans qu'on le sache. La fiabilité passe de 70% à 99%+.
Anti-pattern : Erreur courante : parser la réponse texte avec une regex ou un JSON.parse sans validation. Un seul caractère inattendu fait planter le pipeline.
Pipeline : chaque item traverse toutes les étapes en continu, sans attendre les autres. Item A peut être en étape 3 pendant qu'item B est en étape 1. Barrier : on attend que TOUS les items d'une étape soient finis avant de passer à la suivante. À utiliser seulement quand l'étape N a besoin du résultat agrégé de N-1 (déduplication cross-items, early-exit si 0 résultats).
Résultat : un workflow qui traite 50 documents peut être 4x plus rapide en pipeline qu'en mode séquentiel, sans changer une ligne de logique métier.
Anti-pattern : Erreur courante : utiliser parallel() partout "parce que c'est plus propre". Chaque barrier ajoute de la latence — le parallélisme gaspillé annule le gain.
La facture Anthropic peut être divisée par 5 à 20 avec les bons leviers. On les connaît tous.
Réduire 60-90% des coûts sur les prompts système répétitifs. Activé en 2 lignes.
Haiku pour la classification, Sonnet pour la rédaction, Opus pour les décisions critiques. Factor 10x sur les coûts.
Passer 200k tokens à chaque appel = 20x le prix. Synthétiser, summarizer, ne garder que ce qui compte.
Pour les tâches non-temps-réel, le Batch API coupe les coûts par deux avec un délai de quelques heures.
On ne préconise pas d'outils qu'on n'a pas utilisés en production.
À la carte, sans abonnement forcé.
On écoute votre projet, votre stack, vos blocages. On vous dit franchement si on peut vous aider.
Revue architecture, debugging ciblé ou pair programming sur un problème précis.
Design complet d'un système agent, prototype fonctionnel ou refonte d'une architecture existante.
CTO technique à temps partiel : revues régulières, disponibilité async, ownership de l'architecture LLM.
Non. On connaît bien Claude (c'est notre modèle de référence), mais on intervient aussi sur des stacks GPT-4o, Gemini, Llama, ou hybrides. Le conseil est model-agnostic — on recommande ce qui est le mieux pour votre cas.
Les patterns LLM en production (harness, orchestration, cost optimization) ne s'improvisent pas. Vos devs ont peut-être 6 mois d'expérience sur des LLMs, on en a 3+ ans sur des systèmes multi-agents réels. C'est 1 journée de travail commun vs 3 mois d'essais-erreurs.
Les deux. La demi-journée et la journée incluent du code livré (PR, architecture documentée). Le retainer mensuel inclut du travail technique direct sur votre repo.
Un harness est le cadre qui enveloppe chaque appel LLM : il force le structured output, valide le schéma, gère les retries, coupe les agents fantômes et partage le budget token. Sans harness, un pipeline multi-agents est fragile. Avec un bon harness, il tourne en production sans intervention.
Partagez votre projet, votre stack et vos blocages. On vous dit franchement si on peut vous aider et comment.
Prendre rendez-vous