Coin des ressources techniques en matière d’AIPRP - Introduction au Service de demande d’AIPRP en ligne et à l’utilisation de l’intelligence artificielle

Contexte/introduction

Bienvenue au Coin des ressources techniques pour l’AIPRP, où l’information et les mises à jour sur le nouveau Service de demande d’AIPRP en ligne seront partagées. Nous construirons ce coin au fur et à mesure, en ajoutant de l’information qui explique notre démarche, et en donnant le statut sur la mise en œuvre du service.

 Le Service de demande d’AIPRP en ligne est un site Web simple et centralisé qui permet aux utilisateurs de remplir des demandes d’accès à l’information et de renseignements personnels et de les soumettre à l’une des institutions assujetties à la Loi sur l’accès à l’information et à la Loi sur la protection des renseignements personnels du gouvernement du Canada.

Le service sera mis en œuvre de façon graduelle et agile. La première phase (que nous appelons version « Bêta ») n’a été publiée qu’auprès de quelques institutions seulement. Ceci nous permettra de tester le service, de recevoir la rétroaction des utilisateurs et d’apporter les corrections nécessaires en cours de route.

Intégration des institutions

Au cours des prochaines années, toutes les institutions assujetties à la Loi sur l’accès à l’information et à la Loi sur la protection des renseignements personnels seront intégrées au Service de demande d’AIPRP en ligne. Dans ce contexte, l’« intégration » signifie que les institutions seront configurées pour tirer parti de toutes les fonctions de l’application, et les utilisateurs pourront leur adresser des demandes initiales d’accès à l’information et de protection des renseignements personnels en utilisant que l’application.

Le plan d’intégration a été divisé en phases, en fonction d’une stratégie qui tient compte des exigences des différents types d’institutions participant au projet. Les phases d’intégration correspondent également aux calendriers cibles et aux itérations prévues du Service de demande d’AIPRP en ligne.

Voici une mise à jour sur l’état de l’intégration. Ceci vous permet de voir l’état de l’intégration et quelles institutions sont intégrées.

État de l’intégration en date du
Intégration partielle 133
Intégration complète 51
Figure 1 : État de l’intégration – Nombre d’institutions intégrées par pourcentage en date du

 

État de l'intégration – Nombre d'institutions intégrées par pourcentage en date du 5 mars 2019
Figure 1 – Version textuelle
Pourcentage d’intégration Nombre d’institutions
100%Note * du tableau 1 51
76-99% 5
51-75% 84
26-50% 21
1-25% 9

Notes du tableau 1

Note 1 du tableau 1

Les institutions intégrées à 100% sont indiquées plus bas.

Retour à la référence de la note * du tableau 1

Les institutions suivantes sont intégrées à 100% :

  • Administration du pipe-line du Nord Canada
  • Administration portuaire de Port Alberni
  • Administration portuaire de Sept-Îles
  • Administration portuaire de Vancouver-Fraser
  • Agence canadienne de développement économique du Nord
  • Agence canadienne d’évaluation environnementale
  • Agence de promotion économique du Canada atlantique
  • Bureau de la sécurité des transports du Canada
  • Bureau du Conseil privé
  • Bureau du surintendant des institutions financières Canada
  • Caisse d’indemnisation pour les accidents ferroviaires impliquant des marchandises désignées
  • Caisse d’indemnisation des dommages dus à la pollution par les hydrocarbures causée par les navires
  • Centre de la sécurité des télécommunications Canada
  • Comité externe d’examen des griefs militaires
  • Commissariat au lobbying du Canada
  • Commission canadienne des droits de la personne
  • Commission canadienne des grains
  • Commission civile d’examen et de traitement des plaintes relatives à la GRC
  • Commission de la fiscalité des premières nations
  • Commission de la fonction publique du Canada
  • Commission de révision agricole du Canada
  • Commission des champs de bataille nationaux
  • Commission des libérations conditionnelles du Canada
  • Commission d’examen des plaintes concernant la police militaire du Canada
  • Commission du droit d’auteur Canada
  • Condition féminine Canada
  • Conseil canadien des relations industrielles
  • Conseil de la radiodiffusion et des télécommunications canadiennes
  • Conseil de recherches en sciences humaines du Canada
  • Conseil de recherches en sciences naturelles et en génie du Canada
  • Conseil des produits agricoles du Canada
  • Conseil d’examen du prix des médicaments brevetés Canada
  • Conseil national de recherches Canada
  • Diversification de l’économie de l’Ouest Canada
  • École de la fonction publique du Canada
  • Infrastructure Canada
  • Instituts de recherche en santé du Canada
  • L’Enquêteur correctionnel Canada
  • Office Canada-Nouvelle-Écosse des hydrocarbures extracôtiers
  • Office des transports du Canada
  • Office national de l’énergie
  • Office national du film
  • Patrimoine canadien
  • Relations Couronne-Autochtones et Affaires du Nord Canada
  • Ressources naturelles Canada
  • Secrétariat du Conseil du Trésor du Canada
  • Service canadien d’appui aux tribunaux administratifs
  • Service des poursuites pénales du Canada
  • Services aux Autochtones Canada
  • Tribunal d’appel des transports du Canada
  • Tribunal des anciens combattants (révision et appel)

Intelligence artificielle

Dans cette mise à jour, nous expliquerons comment le Service de demande d’AIPRP en ligne utilise l’intelligence artificielle (IA).

Nous en sommes à nos premiers efforts pour expliquer l’utilisation d’IA au gouvernement. Nous vous prions de nous faire part de vos commentaires en communiquant avec open.ouvert@tbs-sct.gc.ca.

Quel est l’incidence de notre utilisation de l’intelligence artificielle

Afin de déterminer l’incidence de notre utilisation de l’intelligence artificielle, nous avons utilisé l’outil d’évaluation de l’incidence algorithmique.

Les résultats de cette évaluation démontrent que notre utilisation de l’IA a une incidence socio-économique minime sur les citoyens ainsi que sur les activités du gouvernement.

Utilisation de l’intelligence artificielle

La fonction de recherche offerte dans le cadre du présent site Web utilise l’intelligence artificielle (IA) pour améliorer l’expérience utilisateur.

La première intervention de l’IA s’effectue lorsqu’on recherche de l’information qui a peut-être déjà été divulguée en réponse à une autre demande. Les résultats de la recherche sont fondés sur des renseignements facilement accessibles à partir du site Web du gouvernement ouvert.

La deuxième intervention s’effectue pour aider à déterminer quelle institution peut détenir l’information relative à la demande. La recherche recommandera les institutions qui conviennent le mieux au type de demande. Le moteur de recherche se base sur les données provenant des sources suivantes :

  • Sommaires disponibles sur le gouvernement ouvert
  • Rapports ministériels
  • Grattage des sites web du gouvernement
  • Pages AIPRP des institutions
  • Taxonomies du gouvernement
  • Données maîtres unifiées – schéma organisationnel
  • 2016-17 Partie III – Rapport sur les résultats ministériels

Comment utilisons-nous l’IA?

Il peut être difficile de veiller à ce qu’une recherche Web renvoie tous les bons documents. Le système de recherche tire parti de l’apprentissage automatique pour déterminer les relations contextuelles et latentes qui sont plus fondamentales que les mots-clés. La recherche porte plutôt sur les concepts et la relation entre les recherches antérieures afin d’améliorer la qualité des résultats.

Le système de recherche mis au point utilise des techniques avancées de traitement du langage naturel (TLN) et d’apprentissage automatique pour améliorer la recherche à partir de multiples sources. Cette solution de recherche dépouille des sites Web, des forums ou n’importe quel endroit accessible au public. En allant au-delà de la simple similitude des mots et en privilégiant la « compréhension de la signification » des termes de recherche, cette solution peut comparer les besoins de recherche d’un utilisateur au corpus de documents en temps quasi réel, et revenir avec une liste de tous les documents pertinents ou toutes les composantes de documents qui se rapportent à une recherche donnée ou à un document comparable.

Les synonymes, les abréviations et les coquilles font souvent en sorte que des documents importants sont négligés. En utilisant l’apprentissage automatique avancé et le traitement du langage naturel (TLN), l’algorithme est capable de lire un corpus complet de documents (un site Web organisationnel, un programme de cours et les manuels et activités, etc.). Après avoir lu les documents, le système de recherche fondé sur l’IA est capable de « comprendre » sémantiquement les phrases et les idées; plus que dans le cadre d’un appariement par mot-clé.

Algorithme d’IA

Ce qui suit donnera un aperçu technique de l’algorithme utilisé.

Catégorie d’algorithme utilisé : Traitement du langage naturel.

Modèles utilisés : Tf-idf qui signifie Term frequency-inverse document (fréquence inversée du terme dans les documents) et modèles de similarité cosinus.

Améliorations de l’algorithme Tf-idf

L’algorithme tf-idf est une méthode de pondération de la relation entre deux textes. Le texte d’entrée de l’utilisateur sera comparé à tous les documents déjà publiés en vertu des lois sur l’AIPRP. Les documents publics ayant obtenu les pondérations les plus élevées seront proposés à l’utilisateur.

L’algorithme tf-idf commence par compter le nombre de mots dans la demande qui sont également présents dans chaque document public. Ce nombre est ensuite divisé par la fréquence de chacun des mots appariés. Cette répartition réduit le bruit et tient compte du fait que des mots courants comme « Canada » sont susceptibles de correspondre à de nombreux documents, peu importe la demande d’AIPRP et, par conséquent, que la correspondance n’est pas aussi importante. Il est plus utile de savoir qu’un mot moins courant se trouve à la fois dans la requête de l’utilisateur et dans le document accessible au public.

Tf-idf est essentiellement un algorithme d’appariement de mots. Les mots semblables (inexacts) à la fois dans la requête et dans les documents ne s’inscriront pas comme un appariement si seul l’algorithme Tf-idf intervient. En fait, l’algorithme Tf-idf est à la base de nombreuses plateformes de recherche disponibles sur le marché, dont Apache Solr, qui, aux fins de l’AIPRP, ne produirait pas de résultats pertinents. Ainsi, un certain nombre d’améliorations à l’algorithme Tf-idf ont été apportées

Racinisation

La façon la plus courante d’améliorer l’algorithme Tf-idf est d’utiliser une technique appelée la racinisation. La racinisation est le processus qui consiste à réduire un mot à sa « racine ». Par exemple, la racine du mot « racinisation » est le mot « racine ». Si nous réduisons tous les mots à leur base et que nous cherchons des correspondances, les deux mots « pêche » et « pêcheur » seront proposés comme un appariement. Cette technique fonctionnera de la même façon en anglais et en français.

Mots vides

À mesure que nous dépouillons le contenu pour réduire les mots à leur racine, nous pouvons aussi supprimer les mots vides. Un mot vide est un mot courant qui ne contribue pas à accorder un sens à la phase. Par exemple, si on enlève les mots « le », « la », « les », « un », « une » et « des »  de toute phrase, on peut quand même en déduire le sens général. La suppression des mots d’arrêt améliore la vitesse de traitement de notre algorithme et réduit les fausses correspondances.

Plongement lexical

La racinisation est utile lorsque deux mots partagent la même racine. Souvent, certains mots sont pratiquement les mêmes, mais ne partagent pas une racine commune. Par exemple, « Accès à l’information et protection des renseignements personnels » et « AIPRP » ont exactement le même sens, mais ne partagent aucun mot en commun. Pour que l’algorithme tf-idf enregistre les correspondances pour des mots semblables, il faut une façon de mesurer la proximité, ou la distance, entre deux mots. Par exemple, les mots « enfants » et « tout-petits » devraient être proches, et les mots « moutons » et « lion » devraient être distants. Pour mesurer la distance entre les mots, on peut utiliser un outil qu’on appelle le plongement lexical.

Le plongement lexical est un outil qui convertit un mot en vecteur. Ce vecteur comporte habituellement des centaines de dimensions. Nous avons tendance à utiliser des plongements verticaux qui ont de 100 à 300 dimensions. Même si nous avons un grand nombre de dimensions, nous pouvons calculer la distance entre deux mots de la même façon que nous calculons la distance dans un plus petit nombre de dimensions.

Pour combiner l’algorithme tf-idf et les plongements lexicaux, nous convertissons chaque mot en vecteur par plongement. Nous mesurons ensuite la distance entre chaque mot de l’activité (source) et chaque mot dans le fragment de contenu (cible). Les mots qui sont très proches l’un de l’autre reçoivent une pondération proche de 1 (ou exactement 1 s’il s’agit du même mot) et les mots qui sont très éloignés l’un de l’autre reçoivent une pondération de 0. De cette façon, un mot sera considéré comme un appariement si le sens du mot est semblable.

Réduction de la dimensionnalité

Un plongement lexical convertit un même mot en un vecteur de centaines de chiffres. Cette opération est effectuée pour tous les mots dans tous les documents gouvernementaux accessibles au public. En fin de compte, cette opération génère une énorme quantité de données et ces données doivent être dépouillées et analysées avec chaque demande d’AIPRP. Nous pouvons réduire la quantité de calculs (et par conséquent augmenter le rendement de la recherche) en utilisant un algorithme appelé Singular Value Decomposition (SVD) (Décomposition en valeurs singulières). En bref, le SVD peut être utilisé pour comprimer l’information dans chaque document (et le total des données générées) tout en conservant l’information et préservant l’exactitude de la recherche.