Le RAG n'est bon que si les connaissances qu'on l'alimente le sont — et la « documentation » de beaucoup d'entreprises est un cimetière de PDF.

La génération augmentée par recherche permet à l'IA de répondre à partir de vos politiques, procédures et historiques — au lieu de deviner. Construire ce corpus, c'est surtout organiser comment vous travaillez déjà. Voici un chemin pratique pour PME et cabinets.

En bref

  • Commencer par un domaine (RH, sécurité, accueil client) — pas tout le lecteur
  • Sources propres, à jour et permissionnées battent le volume
  • Lié au contexte et à la gouvernance des données
  • Entretien continu — nommer un responsable

Ce qui entre dans une v1

InclureExclure (d'abord)
Politiques et SOP approuvéesBrouillons, « copie de copie »
FAQ tenues à jourDumps personnels
Gabarits et listes stablesArchives projet obsolètes
Résolutions tickets (sanitisées)Fichiers clients non classés

Même discipline que réduire le pompierage.

Structure que la recherche aime

  1. Un sujet par document — longs PDF récupèrent mal
  2. Titres clairs — « Politique vacances 2026 » pas « final_v3_NOUVEAU »
  3. Métadonnées — propriétaire, date revue, langue, statut
  4. Version — un emplacement canonique ; archiver l'ancien
  5. Accès = permissions existantes — le RAG ne doit pas fuiter ce que SharePoint restreignait déjà

Étapes (4–6 semaines typiques)

Semaines 1–2 — Inventaire et nettoyage

  • 30 questions que le staff pose souvent
  • Quels docs devraient répondre
  • Supprimer doublons ; marquer obsolète

Semaine 3 — Index pilote

  • Plateforme selon votre stack
  • Index vert/jaune seulement (classification)
  • Tester la recherche sans génération — bons extraits?

Semaine 4 — Génération avec citations

  • Réponses avec liens sources
  • 20 questions test
  • Noter : correct, partiel, faux, sans réponse

Semaines 5–6 — HITL et déploiement

  • Revue humaine pour réponses sensibles
  • Former : « demander + vérifier la source »
  • File de correction des ratés

Fraîcheur et propriété

RAG périmé pire qu'aucun — citation erronée de politique détruit la confiance.

  • Responsable par domaine
  • Revue trimestrielle minimum pour contenu réglementé
  • Mise à jour à chaque changement de politique — retirer l'ancien de l'index

Permissions et Québec

Renseignements personnels indexés → obligations Loi 25. Corpus fr et en à tester séparément.

Échecs fréquents

  • Tout indexer — bruit noie le signal
  • Pas de responsable — corpus pourri en six mois
  • Sauter les tests de recherche — UI chat directe
  • Réponses externes sans revue

Quand le RAG n'est pas la première étape

Si le problème est « aucun processus documenté », régler opérations et irritants d'abord. Le RAG amplifie la structure — il ne la crée pas du chaos.

Pour aller plus loin

Les bases de connaissances sont des actifs opérationnels. Échangeons sur le choix du domaine et les tests de recherche avant un nouvel achat.