Méthodologie
Capture
Chaque corps policier de l'archive est exploré selon une cadence fixe (hebdomadaire pour le palier-priorité 1, aux deux semaines pour le 2, mensuelle pour le 3). Chaque URL capturée est rendue dans un navigateur Chromium sans tête, hachée (SHA-256), stockée dans MinIO, soumise à la Wayback Machine et archive.today, puis épinglée à IPFS. Les sous-ressources sont sérialisées en WARC. La capture est en ajout uniquement — une nouvelle requête produit une nouvelle ligne, pas une mutation.
Extraction
Les captures passent à travers trois paliers d'extracteurs. Les adaptateurs Palier A sont ajustés à la main par source (rapports du directeur de l'UES Ontario, fiches d'enquête du BEI Québec, décisions du directeur civil en chef de l'IIO BC, rapports du directeur SIRT-NL, décisions de l'OCPC sur CanLII). Les modèles Palier B couvrent les familles de documents municipaux. Le Palier C est un repli LLM (Anthropic Claude) qui traite chaque document capturé sans adaptateur dédié.
Détection des suppressions
Quatre familles de détecteurs surveillent les retraits de dossiers. Le Registre exécute les quatre :
- HTTP 404/410/451 — une URL qui retournait 200 est désormais introuvable. Confirmé après trois échecs consécutifs sur au moins sept jours.
- Suppression de contenu — une URL retourne toujours 200 mais le contenu capturé a chuté de plus de 30 % entre captures successives.
- Redirection vers générique — une URL qui servait son propre contenu redirige maintenant (302) vers une des 20 pages d'atterrissage principales de l'agence (accueil, nouvelles, coquille 404). Signalée dès la première observation, une redirection vers l'accueil étant un signal décisif.
- Déréférencement d'index — une URL qui figurait sur une page d'index du même corps policier (avec au moins cinq liens déjà archivés) n'y apparaît plus, alors que l'index lui-même continue de servir du contenu. Détecteur au plus fort signal — c'est une action éditoriale ciblée, pas un lien brisé.
Note de transparence
La note de chaque corps policier est calculée quotidiennement à partir des incidents extraits et des suppressions détectées. Le barème est explicite :
- F — toute suppression confirmée, OU taux d'ordonnances de non-publication ≥ 50 %, OU aucun incident publié (rien n'est probablement publié).
- D — taux d'ordonnances de non-publication ≥ 25 %.
- C — taux d'ordonnances de non-publication ≥ 10 %, ou taux de constat de faute nul.
- B — taux de constat de faute ≥ 5 %.
- A — faible taux d'ordonnances, présence de constats de faute, aucune suppression.
Anonymisation
Le produit public ne publie jamais de noms d'agents. Chaque incident porte un jeton HMAC-SHA256 dérivé d'un sel conservé hors de la base de données applicative ; la rotation du sel re-tokenise tout le corpus, ce qui fait qu'une compromission de la base d'application ne compromet pas la liaison nom→jeton. Les dates sont publiées à la précision trimestrielle seulement ; les dossiers attendent au moins 60 jours après disposition avant publication ; les cellules contenant moins de cinq dossiers similaires sont supprimées ou agrégées vers le haut. Les corps policiers de moins de 50 agents assermentés ne publient que des agrégats annuels. Les ordonnances de non-publication sont respectées sans exception.