CTO à la Demande — LLM & Agents

Architecture, orchestration et harness pour vos projets Claude

Name: CTO on Demand — LLM Architecture & Orchestration
Price: 500 EUR

Vous buildez sur Claude API ou un autre LLM. Les patterns d'orchestration multi-agents, de loops et de harness ne sont pas documentés en clair — on les connaît en production.

À la carte : demi-journée de debugging, journée de design d'architecture, ou retainer mensuel en CTO technique.

Session découverte gratuite (1h)Voir tous les services

Pour qui ?

Startup qui construit un produit SaaS avec Claude API en cœur

Équipe dev bloquée sur un problème d'orchestration multi-agents

CTO non-tech qui a besoin d'un regard expert avant un recrutement ou un investissement

Projet Claude Code / agents autonomes qui part en production

Facture Anthropic qui explose — architecture LLM à optimiser

Migration d'un système GPT vers Claude, sans tout casser

Les patterns qu'on maîtrise

Ce sont les briques fondamentales de tout système LLM robuste en production.

Architecture

Orchestrateur + sous-agents

Comment ça fonctionne

Un agent central reçoit la tâche, la décompose, délègue à des sous-agents spécialisés et synthétise leurs sorties. Chaque sous-agent a un contexte minimal, un outil précis, un output schématisé. L'orchestrateur gère les handoffs, la mémoire partagée et les dépendances.

Impact business

Résultat : des tâches complexes (analyse juridique, génération de rapports, revue de code à grande échelle) que vous ne pouviez pas automatiser deviennent fiables et répétables.

Anti-pattern : Erreur courante : tout mettre dans un seul agent avec un contexte de 200k tokens. Le modèle perd le fil, hallucine, coûte cher.

Patterns de boucle

Loops : loop-until-dry, loop-until-budget

Comment ça fonctionne

Loop-until-dry : on relance des agents chercheurs jusqu'à ce que K rounds consécutifs ne trouvent rien de nouveau. Idéal pour l'audit exhaustif, la détection de bugs, la couverture de cas edge. Loop-until-budget : on scale dynamiquement le nombre d'agents selon un budget token défini — plus de budget = plus de profondeur.

Impact business

Résultat : un système d'audit qui s'arrête quand il a vraiment tout trouvé, pas quand on lui dit d'arrêter. Ou une génération de contenu qui s'adapte au budget alloué sans intervention manuelle.

Anti-pattern : Erreur courante : boucle for(i=0; i<10; i++) avec un compte arbitraire. On rate la queue des cas rares, ou on tourne pour rien.

Harness

Agent harness : structured output + retry

Comment ça fonctionne

Le harness est le cadre qui pilote chaque appel agent : forçage du structured output via JSON Schema, validation Zod à réception, retry automatique sur mismatch, abort signal pour les agents fantômes, budget token partagé entre tous les agents du workflow.

Impact business

Résultat : zéro parsing de texte libre, zéro "le modèle a répondu dans le mauvais format", zéro agent qui tourne en arrière-plan sans qu'on le sache. La fiabilité passe de 70% à 99%+.

Anti-pattern : Erreur courante : parser la réponse texte avec une regex ou un JSON.parse sans validation. Un seul caractère inattendu fait planter le pipeline.

Orchestration parallèle

Pipeline vs barrier : quand paralléliser

Comment ça fonctionne

Pipeline : chaque item traverse toutes les étapes en continu, sans attendre les autres. Item A peut être en étape 3 pendant qu'item B est en étape 1. Barrier : on attend que TOUS les items d'une étape soient finis avant de passer à la suivante. À utiliser seulement quand l'étape N a besoin du résultat agrégé de N-1 (déduplication cross-items, early-exit si 0 résultats).

Impact business

Résultat : un workflow qui traite 50 documents peut être 4x plus rapide en pipeline qu'en mode séquentiel, sans changer une ligne de logique métier.

Anti-pattern : Erreur courante : utiliser parallel() partout "parce que c'est plus propre". Chaque barrier ajoute de la latence — le parallélisme gaspillé annule le gain.

Réduire les coûts LLM sans sacrifier la qualité

La facture Anthropic peut être divisée par 5 à 20 avec les bons leviers. On les connaît tous.

Prompt caching

Réduire 60-90% des coûts sur les prompts système répétitifs. Activé en 2 lignes.

Model routing

Haiku pour la classification, Sonnet pour la rédaction, Opus pour les décisions critiques. Factor 10x sur les coûts.

Context trimming

Passer 200k tokens à chaque appel = 20x le prix. Synthétiser, summarizer, ne garder que ce qui compte.

Batching asynchrone

Pour les tâches non-temps-réel, le Batch API coupe les coûts par deux avec un délai de quelques heures.

Stack & outils qu'on maîtrise

On ne préconise pas d'outils qu'on n'a pas utilisés en production.

Claude API (Anthropic) — Opus 4 / Sonnet 4 / Haiku 4 — routing par tâche

Vercel AI SDK — Streaming, tool use, structured output natif

MCP (Model Context Protocol) — Serveurs de contexte, outils externes, intégrations

Zod / JSON Schema — Validation structured output, typage des sorties agents

Supabase / pgvector — Mémoire persistante, RAG, historique de conversations

LangChain / LlamaIndex — Quand ça fait sens — souvent un over-kill

Formats & tarifs

À la carte, sans abonnement forcé.

Session découverte

1h — Gratuit

On écoute votre projet, votre stack, vos blocages. On vous dit franchement si on peut vous aider.

Demi-journée

4h — 500 EUR

Revue architecture, debugging ciblé ou pair programming sur un problème précis.

Le plus populaire

Journée complète

8h — 900 EUR

Design complet d'un système agent, prototype fonctionnel ou refonte d'une architecture existante.

Retainer mensuel

10j/mois — sur devis

CTO technique à temps partiel : revues régulières, disponibilité async, ownership de l'architecture LLM.

FAQ

Vous travaillez uniquement avec Claude ?

Non. On connaît bien Claude (c'est notre modèle de référence), mais on intervient aussi sur des stacks GPT-4o, Gemini, Llama, ou hybrides. Le conseil est model-agnostic — on recommande ce qui est le mieux pour votre cas.

On a déjà des devs — pourquoi faire appel à vous ?

Les patterns LLM en production (harness, orchestration, cost optimization) ne s'improvisent pas. Vos devs ont peut-être 6 mois d'expérience sur des LLMs, on en a 3+ ans sur des systèmes multi-agents réels. C'est 1 journée de travail commun vs 3 mois d'essais-erreurs.

Vous produisez du code ou uniquement du conseil ?

Les deux. La demi-journée et la journée incluent du code livré (PR, architecture documentée). Le retainer mensuel inclut du travail technique direct sur votre repo.

C'est quoi un "harness" exactement ?

Un harness est le cadre qui enveloppe chaque appel LLM : il force le structured output, valide le schéma, gère les retries, coupe les agents fantômes et partage le budget token. Sans harness, un pipeline multi-agents est fragile. Avec un bon harness, il tourne en production sans intervention.

Démarrons par un appel de 30 minutes

Partagez votre projet, votre stack et vos blocages. On vous dit franchement si on peut vous aider et comment.

Prendre rendez-vous

WithClaude

CTO à la Demande — LLM & Agents

Architecture, orchestration et harness pour vos projets Claude

Vous buildez sur Claude API ou un autre LLM. Les patterns d'orchestration multi-agents, de loops et de harness ne sont pas documentés en clair — on les connaît en production.

À la carte : demi-journée de debugging, journée de design d'architecture, ou retainer mensuel en CTO technique.

Session découverte gratuite (1h)Voir tous les services

Pour qui ?

Startup qui construit un produit SaaS avec Claude API en cœur

Équipe dev bloquée sur un problème d'orchestration multi-agents

CTO non-tech qui a besoin d'un regard expert avant un recrutement ou un investissement

Projet Claude Code / agents autonomes qui part en production

Facture Anthropic qui explose — architecture LLM à optimiser

Migration d'un système GPT vers Claude, sans tout casser

Les patterns qu'on maîtrise

Ce sont les briques fondamentales de tout système LLM robuste en production.

Architecture

Orchestrateur + sous-agents

Comment ça fonctionne

Impact business

Résultat : des tâches complexes (analyse juridique, génération de rapports, revue de code à grande échelle) que vous ne pouviez pas automatiser deviennent fiables et répétables.

Anti-pattern : Erreur courante : tout mettre dans un seul agent avec un contexte de 200k tokens. Le modèle perd le fil, hallucine, coûte cher.

Patterns de boucle

Loops : loop-until-dry, loop-until-budget

Comment ça fonctionne

Impact business

Anti-pattern : Erreur courante : boucle for(i=0; i<10; i++) avec un compte arbitraire. On rate la queue des cas rares, ou on tourne pour rien.

Harness

Agent harness : structured output + retry

Comment ça fonctionne

Impact business

Résultat : zéro parsing de texte libre, zéro "le modèle a répondu dans le mauvais format", zéro agent qui tourne en arrière-plan sans qu'on le sache. La fiabilité passe de 70% à 99%+.

Anti-pattern : Erreur courante : parser la réponse texte avec une regex ou un JSON.parse sans validation. Un seul caractère inattendu fait planter le pipeline.

Orchestration parallèle

Pipeline vs barrier : quand paralléliser

Comment ça fonctionne

Impact business

Résultat : un workflow qui traite 50 documents peut être 4x plus rapide en pipeline qu'en mode séquentiel, sans changer une ligne de logique métier.

Anti-pattern : Erreur courante : utiliser parallel() partout "parce que c'est plus propre". Chaque barrier ajoute de la latence — le parallélisme gaspillé annule le gain.

Réduire les coûts LLM sans sacrifier la qualité

La facture Anthropic peut être divisée par 5 à 20 avec les bons leviers. On les connaît tous.

Prompt caching

Réduire 60-90% des coûts sur les prompts système répétitifs. Activé en 2 lignes.

Model routing

Haiku pour la classification, Sonnet pour la rédaction, Opus pour les décisions critiques. Factor 10x sur les coûts.

Context trimming

Passer 200k tokens à chaque appel = 20x le prix. Synthétiser, summarizer, ne garder que ce qui compte.

Batching asynchrone

Pour les tâches non-temps-réel, le Batch API coupe les coûts par deux avec un délai de quelques heures.

Stack & outils qu'on maîtrise

On ne préconise pas d'outils qu'on n'a pas utilisés en production.

Claude API (Anthropic) — Opus 4 / Sonnet 4 / Haiku 4 — routing par tâche

Vercel AI SDK — Streaming, tool use, structured output natif

MCP (Model Context Protocol) — Serveurs de contexte, outils externes, intégrations

Zod / JSON Schema — Validation structured output, typage des sorties agents

Supabase / pgvector — Mémoire persistante, RAG, historique de conversations

LangChain / LlamaIndex — Quand ça fait sens — souvent un over-kill

Formats & tarifs

À la carte, sans abonnement forcé.

Session découverte

1h — Gratuit

On écoute votre projet, votre stack, vos blocages. On vous dit franchement si on peut vous aider.

Demi-journée

4h — 500 EUR

Revue architecture, debugging ciblé ou pair programming sur un problème précis.

Le plus populaire

Journée complète

8h — 900 EUR

Design complet d'un système agent, prototype fonctionnel ou refonte d'une architecture existante.

Retainer mensuel

10j/mois — sur devis

CTO technique à temps partiel : revues régulières, disponibilité async, ownership de l'architecture LLM.

FAQ

Vous travaillez uniquement avec Claude ?

On a déjà des devs — pourquoi faire appel à vous ?

Vous produisez du code ou uniquement du conseil ?

Les deux. La demi-journée et la journée incluent du code livré (PR, architecture documentée). Le retainer mensuel inclut du travail technique direct sur votre repo.

C'est quoi un "harness" exactement ?

Démarrons par un appel de 30 minutes

Partagez votre projet, votre stack et vos blocages. On vous dit franchement si on peut vous aider et comment.

Prendre rendez-vous