Le RAG n'est bon que si les connaissances qu'on l'alimente le sont — et la « documentation » de beaucoup d'entreprises est un cimetière de PDF.
Le RAG (Retrieval-Augmented Generation, ou génération augmentée par recherche) consiste à chercher d'abord dans vos documents, puis à laisser l'IA répondre à partir de ce qu'elle trouve — vos politiques, procédures, historiques — et non à partir du web public.
Construire ce corpus, c'est surtout organiser comment vous travaillez déjà. Le texte précédent sur le contexte système expliquait le pourquoi ; celui-ci montre le comment, pas à pas.
En bref
- Commencer par un domaine (RH, sécurité, accueil client) — pas tout le lecteur
- Sources propres, à jour et permissionnées battent le volume brut
- Lié à la gouvernance des données et à un responsable nommé
- Entretien continu — un RAG périmé est pire qu'aucun
Ce qui entre dans une v1
| Inclure | Exclure (d'abord) |
|---|---|
| Politiques et SOP approuvées | Brouillons, « copie de copie » |
| FAQ tenues à jour | Dumps personnels sur le bureau |
| Gabarits et listes stables | Archives projet obsolètes |
| Résolutions tickets (sanitisées) | Fichiers clients non classés |
Même discipline que réduire le pompierage — documenter ce que les gens utilisent vraiment, pas ce qui existe théoriquement.
Dans un pilote PME, trois « listes d'accueil » coexistaient dans courriel, SharePoint et le bureau d'un gestionnaire. La recherche remontait souvent la version la plus vieille. Consolider à un document approuvé par sujet a amélioré les réponses plus qu'un réglage des embeddings (représentations numériques du texte pour la recherche).
Structure que la recherche aime
- Un sujet par document — longs PDF récupèrent mal
- Titres clairs — « Politique vacances 2026 » pas « final_v3_NOUVEAU »
- Métadonnées — propriétaire, date revue, langue, statut (brouillon vs approuvé)
- Version — un emplacement canonique ; archiver l'ancien explicitement
- Accès = permissions existantes — le RAG ne doit pas fuiter ce que SharePoint restreignait déjà
Étapes (4–6 semaines typiques)
Semaines 1–2 — Inventaire et nettoyage
- Lister les 30 questions que le personnel pose souvent
- Identifier quels documents devraient répondre
- Supprimer doublons ; marquer obsolète
Semaine 3 — Index pilote
- Choisir la plateforme selon votre stack (SharePoint, Notion, SaaS RAG, Azure — dépend du contexte)
- Indexer données vert/jaune seulement (classification)
- Tester la recherche sans génération — les bons extraits remontent-ils?
Semaine 4 — Génération avec citations
- Activer les réponses avec liens sources
- Lancer 20 questions test
- Noter : correct, partiel, faux, sans réponse
Semaines 5–6 — HITL (humain dans la boucle) et déploiement
- Revue humaine pour réponses sensibles ou proches du client
- Former : « demander + vérifier la source »
- File de correction des ratés — chaque erreur améliore le corpus
Fraîcheur et propriété
RAG périmé est pire qu'aucun — une citation erronée de politique détruit la confiance.
- Responsable par domaine (RH, ops, TI)
- Revue trimestrielle minimum pour contenu réglementé
- Mise à jour à chaque changement de politique — retirer l'ancien de l'index
Traitez la base de connaissances comme tout actif opérationnel : quelqu'un en est responsable, quelqu'un la révise, et le contenu périmé est retiré — pas laissé indexé « au cas où ».
Permissions et Québec
Renseignements personnels indexés → obligations Loi 25. Corpus français et anglais à tester séparément — la qualité de récupération diffère selon la langue.
Échecs fréquents
- Tout indexer — bruit noie le signal
- Pas de responsable — corpus pourri en six mois
- Sauter les tests de recherche — interface chat directe
- Réponses externes sans revue humaine
Quand le RAG n'est pas la première étape
Si le problème est « aucun processus documenté », régler opérations et irritants d'abord. Le RAG amplifie la structure — il ne la crée pas du chaos.
Quand le domaine pilote est stable, connecter la recherche aux agents seulement quand les réponses sont systématiquement sourcées et revues — pas quand l'interface chat impressionne au jour 1.
Où vous en êtes
Vous avez exploré le multimodal ; ce texte montre comment bâtir le corpus qui ancre l'IA dans vos documents. Prochaine étape : Agents IA autonomes et flux de travail — utiles quand le cadre est clair.
Si vos documents sont dispersés mais que les questions se répètent, Échangeons. On choisira un domaine pilote et un test de recherche simple — avant un nouvel achat d'outil de clavardage.
