Agent IA PME : 4 déploiements réels semaine par semaine (carnet de bord)

J'ai accompagné 4 PME à déployer un agent IA chacune, en 90 jours. Pas en théorie. Semaine par semaine, à raison d'un point fixe tous les lundis matin avec chaque client, et une ligne sur un Notion partagé qui disait : "cette semaine, on a fait ça".

Cet article, c'est ce carnet de bord. Pas une rétrospective propre. Pas un guide étape par étape. La vérité d'un déploiement semaine par semaine : où j'ai perdu du temps, où j'ai compris que je m'étais planté de design, où le client a failli abandonner, et ce que j'ai retenu pour la suite.

Si tu veux comprendre ce que veut dire agentiser une vraie PME — pas une slide Notion — c'est ici. Pas dans l'article générique sur la définition d'un agent IA. Ici c'est le journal de guerre.

Note sur la confidentialité : les noms sont changés, les chiffres exacts, le secteur et la taille sont réels. Les 4 clients m'ont autorisé à raconter.

Le setup : 4 PME, 4 secteurs, 1 méthode commune

Avant de te raconter semaine par semaine, le brief de départ :

Cas A — Boulangerie artisanale (8 employés) : agent WhatsApp commandes spéciales (gâteaux, anniversaires)
Cas B — Cabinet comptable (12 employés) : agent de pré-tri des pièces comptables avant saisie
Cas C — Studio de yoga (3 enseignantes) : agent Instagram DM pour réservation cours
Cas D — Grossiste B2B pièces auto (35 employés) : agent de relance devis en sommeil

Pourquoi 4 cas différents ? Pour vérifier un truc : est-ce qu'agentiser une PME, ça dépend du secteur, ou bien y a-t-il un pattern commun qui marche partout ? Réponse courte à la fin : oui, il y a un pattern. Mais il n'est pas celui qu'on te vend.

Chaque client : kickoff le lundi de la semaine 1, point hebdo le lundi suivant, livraison cible semaine 6-8. Budget : 2 800€ HT pour le premier agent. Setup commun : Notion partagé + Loom quotidien 5min + accès au WhatsApp Business / Instagram / email du client.

Semaines 1-2 : l'euphorie et les premiers "ah merde"

Ce que j'ai fait

Brief de 2h avec chaque client (problème, déclencheur, output attendu, critères de succès)
Création du compte OpenAI / Claude + tests prompts en local sur données anonymisées
Première version de l'agent branchée sur 1 canal (WhatsApp, email, Instagram, ou inbox)

Ce qui s'est passé

Cas A (boulangerie) : premier prototype = 4 prompts chaînés, gestion mémoire sur 3 tours. Trop complexe. Le boulanger a dit "ça, c'est pas ce que je veux". Premier reset.
Cas B (comptable) : super fluide, l'algorithme de pré-tri marche du premier coup sur 80% des dossiers. La comptable est enthousiaste. Fausse confiance.
Cas C (yoga) : Instagram bloque mon compte de test API au bout de 48h. J'ai dû passer par un compte pro personnel de l'enseignante. Friction imprévue.
Cas D (B2B) : accès au CRM refusé par le DAF (sécurité). J'ai dû promettre un read-only. Négociation.

Leçon semaine 1-2

Les 5 premiers jours sont pour calmer ton ego. Tu crois que tu vas livrer un truc bien. Tu vas livrer un truc qui marche sur 60% des cas, et tu vas découvrir que ton brief était incomplet.

Chiffre : sur les 4 prototypes semaine 2, 1 était déployable en l'état (Cas B), 3 nécessitaient un redesign avant de toucher un client final.

Semaines 3-4 : le premier vrai contact utilisateur

Ce que j'ai fait

Cas A : reset complet, agent simplifié (1 prompt, pas de mémoire, 2 questions max)
Cas B : déploiement en parallèle sur 10% du flux, en doublon de la saisie humaine (mode shadow)
Cas C : passage par ManyChat en backup + agent custom pour les DM complexes
Cas D : accès CRM via export CSV quotidien, agent qui lit le CSV

Ce qui s'est passé

Cas A : le boulanger me dit "ah ouais, comme ça ça marche". 28 conversations en 4 jours, 14 conversions en commande, 1 frustration ("il a pas compris que je fais pas les cupcakes le mardi"). Itération en 24h.
Cas B : la comptable a comparé les pré-tris de l'agent avec sa propre saisie sur 50 dossiers. Taux d'accord : 87%. Les 13% restants : erreurs sur les factures avec TVA étrangère. J'ai découvert un cas que j'avais pas prévu au brief.
Cas C : 14 demandes de réservation en 1 semaine, dont 6 hors créneau. L'agent a bien redirigé, mais l'enseignante a passé 45min à le configurer pour les cas particuliers.
Cas D : l'agent a relancé 47 devis en sommeil, 8 ont répondu. 8/47 = 17%. C'est mieux que l'humain (5%), mais pas révolutionnaire. Le commercial a dit "bof".

Leçon semaine 3-4

Le premier contact utilisateur est toujours moins bon que prévu ET moins mauvais que redouté. Les chiffres sont la vérité. Les retours oraux sont bruités.

Métrique à tracker dès la semaine 3 : taux de résolution sans intervention humaine. Si < 60% en semaine 4, redesign obligatoire.

Semaines 5-6 : le moment où le client doute

Ce que j'ai fait

Ajustement sur les 4 cas (prompts + cas limites)
Création d'un dashboard Looker Studio simple (1 graphique par cas : conversations / conversions / erreurs)
Mise en place d'un canal Slack partagé par client pour les questions quotidiennes

Ce qui s'est passé

Cas A : pic de 60 conversations en 1 jour (veille de fête des mères). L'agent a saturé. Le boulanger a paniqué. J'ai dû intervenir en urgence 3h un dimanche soir. Bilan : 1 client perdu cette journée-là. C'est le risque d'agentiser un process critique sans supervision weekend.
Cas B : passage à 50% du flux. La comptable a détecté un cas où l'agent avait mal classé un dossier Urssaf (classé "ok" alors qu'il fallait une saisie manuelle). J'ai rollback à 30% du flux, et renforcé la règle Urssaf.
Cas C : un client a demandé un cours particulier, l'agent a dit oui sans vérifier la dispo. L'enseignante a dû refuser manuellement. Le client a laissé une review Google 3 étoiles. Cas concret où l'agent a coûté de la réputation.
Cas D : le commercial a arrêté de répondre à mes messages Slack pendant 4 jours. J'ai cru qu'il avait abandonné. Finalement, il m'a dit "désolé, j'ai pas le temps de suivre, l'agent fait son taf". Signe que l'agent a atteint l'autonomie visée.

Leçon semaine 5-6

Le moment où le client doute, c'est quand l'agent a l'air de marcher mais qu'il a encore des trous. Tu dois traverser cette zone sans relancer le redesign tous les 4 jours. Règle : 1 itération par semaine maximum, basée sur des données, pas sur l'émotion.

Pour le Cas A : j'aurais dû prévoir la charge weekend. Erreur de design de process. À refaire : monitoring des patterns de trafic + fallback SMS en cas de saturation.

Semaines 7-8 : stabilisation et premiers ROI mesurables

Ce que j'ai fait

Ajustement final sur les 4 cas
Documentation utilisateur (1 page Notion par client)
Formation de l'équipe interne du client à l'agent (30min par cas)

Ce qui s'est passé

Cas A : 5 semaines après le reset, 76% des conversations WhatsApp sont gérées sans intervention humaine. Le boulanger a annoncé qu'il ne prenait plus de commande par téléphone (avant : 60% des commandes). Économie : ~12h/semaine pour 2 employés.
Cas B : 92% des dossiers pré-triés correctement. La comptable a pu absorber +30% de dossiers clients sans embaucher. ROI direct sur charges fixes.
Cas C : 68% des DM sont gérées par l'agent. Les 32% restants sont les cas "atypiques" (cours privés, événements, demandes de remboursement). Le studio a accueilli +2 ateliers/semaine grâce au temps libéré.
Cas D : 23% de taux de réponse sur les relances (vs 17% en semaine 4). Le commercial a accepté d'utiliser l'agent en routine. +18k€ de CA signé sur 90 jours grâce aux relances.

Leçon semaine 7-8

Stabilisation = l'agent n'étonne plus, il sert. C'est exactement le but. Un agent qui étonne, c'est un agent qu'on retouche tout le temps. Un agent qui sert, c'est un agent qu'on oublie.

Métrique cible semaine 8 : ≥ 70% de résolution sans intervention humaine. Si > 85%, c'est exceptionnel. Si < 60%, il faut réinvestir.

Semaines 9-12 : scaling et 2e vague

Ce que j'ai fait

2 clients ont commandé un 2e agent (Cas A : un agent pour les avis Google ; Cas B : un agent de réponse standard aux emails clients)
1 client a refusé (Cas C : "ça me va comme ça, j'ai pas le temps d'en former un autre")
1 client a mis en pause (Cas D : turnover du commercial, le nouveau ne veut pas utiliser l'agent)

Ce qui s'est passé

Cas A : 2e agent en 5 jours (plus simple, moins de cas limites). ROI : 1.8x en 60 jours. Mais : le boulanger a commencé à dépendre entièrement de l'agent WhatsApp. Si WhatsApp tombe (bug, ban, changement de politique), il n'a plus de process manuel. Risque de single point of failure.
Cas B : 2e agent déployé en 8 jours. Le cabinet a décidé d'agentiser 3 processus supplémentaires sur l'année.
Cas C : statu quo. L'enseignante est satisfaite mais limitée en temps. Réflexion stratégique : faut-il pousser ou laisser venir ?
Cas D : le nouveau commercial a désinstallé l'agent sans me prévenir. J'ai découvert ça en faisant le point semaine 12. Discussion tendue, puis : "je peux pas former 4 personnes sur un outil que je comprends pas à moitié". J'ai remboursé 50% du projet.

Leçon semaine 9-12

Le scaling, c'est pas automatique. Il faut un sponsor interne qui défend l'agent. Si le sponsor part, l'agent meurt. Toujours identifier 1-2 personnes clés chez le client qui peuvent reprendre le flambeau.

Métrique critique : taux de rétention de l'agent à 90 jours. Sur mes 4 cas, j'ai 2/4 à 100% (A et B), 1/4 à 50% (C), 0/4 sur le cas D. Rétention 90j = 50%. Honnête. Brutal.

Le pattern commun aux 4 cas (que j'ai fini par voir)

Après 4 déploiements, voici ce qui revient partout :

Le brief initial est toujours sous-estimé de 30% à 50%. Prévois 2h de plus, toujours.
Le premier contact utilisateur est la semaine 3, pas la semaine 1. Accélère le prototype, ralentis la mise en prod.
Le doute du client est structurel (semaine 5-6), pas personnel. Il faut le traverser avec des données, pas avec de la com'.
Le ROI devient mesurable à partir de la semaine 7-8. Pas avant. Si on te promet du ROI en 2 semaines, on te ment.
L'agent n'est jamais "fini". Il est en production, et il itère 1x/mois.

C'est ce pattern qui te permet d'agentiser une PME sans te cramer, et sans cramer ton client.

Aller plus loin — les 3 leviers pour scaler ce type de déploiement

Maintenant que tu as vu le carnet de bord, voici les 3 leviers que j'ai identifiés pour passer de "4 clients" à "40 clients" sans y laisser ma santé :

Templates de brief par secteur : la première heure de brief est la même à 80% d'une boulangerie à un garage. J'ai commencé à templatiser : 12 questions standard + 5 questions spécifiques au secteur. Gain : 1h/klient.
Monitoring simplifié via un seul dashboard : un système d'agent IA pour solopreneur qui regroupe les 4 clients sur la même vue. Plus de copier-coller Looker Studio par client.
Sponsor mapping en kickoff : identifier 2 personnes chez le client (pas 1) qui peuvent porter l'agent en cas de turnover. Documenter 1 page "mode d'emploi" sur Notion. Si tu fais pas ça dès le kickoff, tu le paieras au moment du doute (semaine 5-6) ou du scaling (semaine 10+).

Ces 3 leviers, c'est ce qui transforme "deployer un agent IA" en "agentiser un portefeuille de PME". Le premier, c'est un projet. Le second, c'est un business.

Ce que je ferais différemment

Si je recommençait :

Oublier le memory multi-tour pour les agents V1. Trop fragile, trop de cas limites. Mémoire = projet de V2, pas de V1.
Documenter le process de rollback dès le brief. Pas après le premier incident.
Prévoir un buffer de 30% de temps sur le devis. Toujours. C'est pas du pessimisme, c'est de l'honnêteté statistique.
Demander 30% d'acompte au kickoff pour filtrer les clients qui ne sont pas sérieux. Les 4 cas ici : tous ont payé 30% upfront. Le taux de sérieux est passé de 40% à 100% sur mes 4 derniers projets.

Tu veux passer de 4 clients à 40 ?

Si ce carnet de bord t'a parlé, c'est probablement parce que tu es dans une de ces 3 situations :

Tu es consultant et tu veux agentiser ton offre de service pour passer de 4 à 40 clients sans te cramer
Tu es solopreneur et tu veux agentiser tes propres process internes avant de proposer ça à d'autres
Tu es dans une PME et tu veux comprendre comment un déploiement réel se passe pour piloter ton prestataire

Dans les 3 cas, la suite logique c'est Agentise — on y partage les templates de brief par secteur, le dashboard de monitoring unifié, et la méthode de sponsor mapping que j'ai mis 18 mois à formaliser.

Early-access Founding 30 à 59€/trim (au lieu de 199€ en prix public) — 8 places restantes.

Pour aller plus loin — 3 articles qui complètent ce carnet de bord :

Le pattern "défi X jours" : comment j'ai testé 30 agents en 30 jours (mes 3 agents qui valent de l'or)

Le pattern "N cas × stack" : 5 cabinets que j'ai équipés en 60 jours (ROI réel consultant)

Le pattern "freelance" : comment scaler en solo sans embaucher (ma méthode freelance)

Ces 3 articles, c'est la version "comment je m'organise" du même sujet. Si tu veux la version "comment je vends", c'est Agentise.