Le RAG n'est bon que si les connaissances qu'on l'alimente le sont — et la « documentation » de beaucoup d'entreprises est un cimetière de PDF.

Le RAG (Retrieval-Augmented Generation, ou génération augmentée par recherche) consiste à chercher d'abord dans vos documents, puis à laisser l'IA répondre à partir de ce qu'elle trouve — vos politiques, procédures, historiques — et non à partir du web public.

Construire ce corpus, c'est surtout organiser comment vous travaillez déjà. Le texte précédent sur le contexte système expliquait le pourquoi ; celui-ci montre le comment, pas à pas.

En bref

  • Commencer par un domaine (RH, sécurité, accueil client) — pas tout le lecteur
  • Sources propres, à jour et permissionnées battent le volume brut
  • Lié à la gouvernance des données et à un responsable nommé
  • Entretien continu — un RAG périmé est pire qu'aucun

Ce qui entre dans une v1

InclureExclure (d'abord)
Politiques et SOP approuvéesBrouillons, « copie de copie »
FAQ tenues à jourDumps personnels sur le bureau
Gabarits et listes stablesArchives projet obsolètes
Résolutions tickets (sanitisées)Fichiers clients non classés

Même discipline que réduire le pompierage — documenter ce que les gens utilisent vraiment, pas ce qui existe théoriquement.

Dans un pilote PME, trois « listes d'accueil » coexistaient dans courriel, SharePoint et le bureau d'un gestionnaire. La recherche remontait souvent la version la plus vieille. Consolider à un document approuvé par sujet a amélioré les réponses plus qu'un réglage des embeddings (représentations numériques du texte pour la recherche).

Structure que la recherche aime

  1. Un sujet par document — longs PDF récupèrent mal
  2. Titres clairs — « Politique vacances 2026 » pas « final_v3_NOUVEAU »
  3. Métadonnées — propriétaire, date revue, langue, statut (brouillon vs approuvé)
  4. Version — un emplacement canonique ; archiver l'ancien explicitement
  5. Accès = permissions existantes — le RAG ne doit pas fuiter ce que SharePoint restreignait déjà

Étapes (4–6 semaines typiques)

Semaines 1–2 — Inventaire et nettoyage

  • Lister les 30 questions que le personnel pose souvent
  • Identifier quels documents devraient répondre
  • Supprimer doublons ; marquer obsolète

Semaine 3 — Index pilote

  • Choisir la plateforme selon votre stack (SharePoint, Notion, SaaS RAG, Azure — dépend du contexte)
  • Indexer données vert/jaune seulement (classification)
  • Tester la recherche sans génération — les bons extraits remontent-ils?

Semaine 4 — Génération avec citations

  • Activer les réponses avec liens sources
  • Lancer 20 questions test
  • Noter : correct, partiel, faux, sans réponse

Semaines 5–6 — HITL (humain dans la boucle) et déploiement

  • Revue humaine pour réponses sensibles ou proches du client
  • Former : « demander + vérifier la source »
  • File de correction des ratés — chaque erreur améliore le corpus

Fraîcheur et propriété

RAG périmé est pire qu'aucun — une citation erronée de politique détruit la confiance.

  • Responsable par domaine (RH, ops, TI)
  • Revue trimestrielle minimum pour contenu réglementé
  • Mise à jour à chaque changement de politique — retirer l'ancien de l'index

Traitez la base de connaissances comme tout actif opérationnel : quelqu'un en est responsable, quelqu'un la révise, et le contenu périmé est retiré — pas laissé indexé « au cas où ».

Permissions et Québec

Renseignements personnels indexés → obligations Loi 25. Corpus français et anglais à tester séparément — la qualité de récupération diffère selon la langue.

Échecs fréquents

  • Tout indexer — bruit noie le signal
  • Pas de responsable — corpus pourri en six mois
  • Sauter les tests de recherche — interface chat directe
  • Réponses externes sans revue humaine

Quand le RAG n'est pas la première étape

Si le problème est « aucun processus documenté », régler opérations et irritants d'abord. Le RAG amplifie la structure — il ne la crée pas du chaos.

Quand le domaine pilote est stable, connecter la recherche aux agents seulement quand les réponses sont systématiquement sourcées et revues — pas quand l'interface chat impressionne au jour 1.

Où vous en êtes

Vous avez exploré le multimodal ; ce texte montre comment bâtir le corpus qui ancre l'IA dans vos documents. Prochaine étape : Agents IA autonomes et flux de travail — utiles quand le cadre est clair.

Si vos documents sont dispersés mais que les questions se répètent, Échangeons. On choisira un domaine pilote et un test de recherche simple — avant un nouvel achat d'outil de clavardage.