Bâtir des bases de connaissances pour le RAG

Le RAG n'est bon que si les connaissances qu'on l'alimente le sont — et la « documentation » de beaucoup d'entreprises est un cimetière de PDF.

Le RAG (Retrieval-Augmented Generation, ou génération augmentée par recherche) consiste à chercher d'abord dans vos documents, puis à laisser l'IA répondre à partir de ce qu'elle trouve — vos politiques, procédures, historiques — et non à partir du web public.

Construire ce corpus, c'est surtout organiser comment vous travaillez déjà. Le texte précédent sur le contexte système expliquait le pourquoi ; celui-ci montre le comment, pas à pas.

En bref

Commencer par un domaine (RH, sécurité, accueil client) — pas tout le lecteur
Sources propres, à jour et permissionnées battent le volume brut
Lié à la gouvernance des données et à un responsable nommé
Entretien continu — un RAG périmé est pire qu'aucun

Ce qui entre dans une v1

Inclure	Exclure (d'abord)
Politiques et SOP approuvées	Brouillons, « copie de copie »
FAQ tenues à jour	Dumps personnels sur le bureau
Gabarits et listes stables	Archives projet obsolètes
Résolutions tickets (sanitisées)	Fichiers clients non classés

Même discipline que réduire le pompierage — documenter ce que les gens utilisent vraiment, pas ce qui existe théoriquement.

Dans un pilote PME, trois « listes d'accueil » coexistaient dans courriel, SharePoint et le bureau d'un gestionnaire. La recherche remontait souvent la version la plus vieille. Consolider à un document approuvé par sujet a amélioré les réponses plus qu'un réglage des embeddings (représentations numériques du texte pour la recherche).

Structure que la recherche aime

Un sujet par document — longs PDF récupèrent mal
Titres clairs — « Politique vacances 2026 » pas « final_v3_NOUVEAU »
Métadonnées — propriétaire, date revue, langue, statut (brouillon vs approuvé)
Version — un emplacement canonique ; archiver l'ancien explicitement
Accès = permissions existantes — le RAG ne doit pas fuiter ce que SharePoint restreignait déjà

Étapes (4–6 semaines typiques)

Semaines 1–2 — Inventaire et nettoyage

Lister les 30 questions que le personnel pose souvent
Identifier quels documents devraient répondre
Supprimer doublons ; marquer obsolète

Semaine 3 — Index pilote

Choisir la plateforme selon votre stack (SharePoint, Notion, SaaS RAG, Azure — dépend du contexte)
Indexer données vert/jaune seulement (classification)
Tester la recherche sans génération — les bons extraits remontent-ils?

Semaine 4 — Génération avec citations

Activer les réponses avec liens sources
Lancer 20 questions test
Noter : correct, partiel, faux, sans réponse

Semaines 5–6 — HITL (humain dans la boucle) et déploiement

Revue humaine pour réponses sensibles ou proches du client
Former : « demander + vérifier la source »
File de correction des ratés — chaque erreur améliore le corpus

Fraîcheur et propriété

RAG périmé est pire qu'aucun — une citation erronée de politique détruit la confiance.

Responsable par domaine (RH, ops, TI)
Revue trimestrielle minimum pour contenu réglementé
Mise à jour à chaque changement de politique — retirer l'ancien de l'index

Traitez la base de connaissances comme tout actif opérationnel : quelqu'un en est responsable, quelqu'un la révise, et le contenu périmé est retiré — pas laissé indexé « au cas où ».

Permissions et Québec

Renseignements personnels indexés → obligations Loi 25. Corpus français et anglais à tester séparément — la qualité de récupération diffère selon la langue.

Échecs fréquents

Tout indexer — bruit noie le signal
Pas de responsable — corpus pourri en six mois
Sauter les tests de recherche — interface chat directe
Réponses externes sans revue humaine

Quand le RAG n'est pas la première étape

Si le problème est « aucun processus documenté », régler opérations et irritants d'abord. Le RAG amplifie la structure — il ne la crée pas du chaos.

Quand le domaine pilote est stable, connecter la recherche aux agents seulement quand les réponses sont systématiquement sourcées et revues — pas quand l'interface chat impressionne au jour 1.

Où vous en êtes

Vous avez exploré le multimodal ; ce texte montre comment bâtir le corpus qui ancre l'IA dans vos documents. Prochaine étape : Agents IA autonomes et flux de travail — utiles quand le cadre est clair.

Si vos documents sont dispersés mais que les questions se répètent, Échangeons. On choisira un domaine pilote et un test de recherche simple — avant un nouvel achat d'outil de clavardage.