Enseigner les données ouvertes

décembre 16, 2015

Suivre :

  • RSS
  • Citer

Mike Smit est professeur à la School of Information Management à l'Université Dalhousie, à Halifax au Canada. Ses travaux de recherche et d'enseignement portent sur la gestion des données quant aux données ouvertes et volumineuses, la littératie en matière de données, l'incidence de l'information ouverte sur l'engagement civique, et l'interaction entre l'information et les nouvelles technologies (notamment l'informatique en nuage et l'Internet des objets).

Ce qui est formidable au sujet des données ouvertes, c'est qu'elles ne sont pas habituellement diffusées dans un but précis. Nous ne pouvons prédire quel usage les gens feront des données brutes, le pouvoir des données ouvertes résidant dans leur utilisation imprévue qui va au‑delà des intérêts, de la portée et des capacités des gouvernements.

J'utilise les données ouvertes pour enseigner. En tant que professeur à la School of Information Management (École de gestion de l'information) (en anglais) de l'Université Dalhousie, j'enseigne aux étudiants de la maîtrise en bibliothéconomie et en science de l'information (MBSI) et aux professionnels à la mi-carrière inscrits à la maîtrise en gestion de l'information. Travailler avec des données est un aspect important de ces deux grades universitaires, et la visualisation efficace des données est un important résultat d'apprentissage.

Au cours des derniers mois, j'ai demandé aux étudiants de consulter le site ouvert.canada.ca, de trouver un ensemble de données et d'utiliser de manière efficace la visualisation des données pour me raconter quelque chose d'intéressant. Qu'est-ce que j'entends par « quelque chose d'intéressant »? Heureusement pour les étudiants, je trouve beaucoup de choses intéressantes. Ce que je veux, c'est apprendre des choses que j'ignorais et qui ne sont pas évidentes en regardant les données.

Chaque semestre, je suis émerveillé par la créativité des étudiants qui fouillent le portail des données ouvertes du gouvernement du Canada à la recherche d'un ensemble de données qui capte leur attention. Pour les étudiants du Canada, il s'agit d'une occasion de mieux comprendre leur pays d'origine; pour les étudiants étrangers, ils en apprennent un peu plus sur leur pays hôte.

En revoyant de façon générale les objectifs du devoir, il y a lieu de réfléchir à ce qu'un effectif moderne et un bassin moderne de diplômés devraient savoir au sujet du travail avec les données. L'intérêt croissant pour les données ouvertes, combiné au problème de mégadonnées, et le pouvoir de la science des données et des analyses de données, indique que le monde devient de plus en plus riche en données. Toutefois, les données brutes ont un usage limité; nous libérons le potentiel des données lorsque nous pouvons les analyser, les visualiser, créer de l'information et des connaissances à partir d'elles, et ultimement, favoriser la prise de décisions fondées sur des éléments probants.

Je fais partie d'une équipe de chercheurs à l'Université Dalhousie, qui a récemment reçu du financement du Conseil de recherches en sciences humaines pour qu'elle étudie la question suivante : « Comment les institutions d'enseignement postsecondaires au Canada peuvent‑elles outiller les diplômés des connaissances, de la compréhension et des compétences nécessaires pour l'économie du savoir riche en données? Quel niveau de ce que nous appelons « littératie en matière de données » voulons‑nous que les Canadiens possèdent alors que nous envisageons l'avenir des données ouvertes et du gouvernement ouvert?

Ce sont là de grandes questions. Pour l'instant, je dirais que le devoir de visualisation des données ouvertes (en anglais) est un bon début. J'ai inséré un lien vers une copie du devoir que chacun peut utiliser et adapter. Plus bas, j'ai inclus certaines visualisations de données que les étudiants de MBSI ont créées pour que vous puissiez voir de quelle façon les étudiants ont relevé le défi d'extraire des ensembles de données complexes pour en faire des messages clairs.

Figure [01]: Moyennes saisonnières de l'épaisseur de la glace marine

Figure [01] - Version textuelle

Graphique de l'épaisseur moyenne de la glace marine, par mois, de 1947 à 2002. Les lignes de couleurs foncées indiquent la glace la plus épaisse, et le graphique montre que, bien que l'épaisseur de la glace marine varie au cours de l'année, la tendance générale veut que la glace soit plus mince au fil du temps.

Emily Colford (MBSI 2015) a utilisé les données du Programme d'épaisseur de glace canadien, lequel a permis de mesurer l'épaisseur de la glace marine de 1947 à 2002. Puisqu'elle s'est servi de lignes de couleurs claires pour les données les plus récentes, vous pouvez aisément voir l'épaisseur de la glace qui diminue au cours des années (même s'il est difficile de voir chaque ligne, l'objectif principal est de montrer la tendance globale).

Figure [02]: Comparaison des taux hypothécaires et du loyer moyen à Halifax

Figure [02] - Version textuelle

Graphique des taux hypothécaires exprimés en pourcentage et coût de location des loyers à Halifax, de 1987 à 2012. Il illustre une tendance à la hausse du coût de location au fil du temps pour les types d'habitation (trois chambres, deux chambres, une chambre et studio) et un déclin des taux hypothécaires.

Carlisle Kent (maîtrise en gestion des ressources et de l'environnement/MBSI 2016) s'est servi des données de la Société canadienne d'hypothèques et de logement pour comparer les taux hypothécaires avec le loyer moyen à Halifax au cours des 25 dernières années, ce qui a permis d'illustrer l'avantage d'acheter une propriété plutôt que de la louer, et la façon dont cet avantage a changé au fil du temps.

(Sources : Taux des prêts hypothécaires ordinaires, terme de 5 ans et Loyers moyens pour les régions de 10 000 habitants et plus)

Figure [03]: L'utilisation d'Internet par âge et par revenu

Figure [03] - Version textuelle

Un graphique illustrant le pourcentage de gens ayant un accès régulier à Internet, réparti en revenu familial dans le quartile supérieur et en revenu familial dans le quartile inférieur, et par âge.

Accès régulier à Internet, par âge et par revenu
  Revenu familial dans le quartile inférieur Revenu familial dans le quartile supérieur
Individus âgés de 16 à 24 ans 94,65 % 99,1 %
Individus âgés de 25 à 44 ans 88,1 % 98,35 %
Individus âgés de 45 à 64 ans 61,7 % 92,65 %
Individus âgés de 65 ans et plus 26,75 % 68,6 %

Harrison Enman a montré que le fossé numérique (séparation entre les gens ayant un accès Internet régulier et ceux ne l'ayant pas) atteint un sommet chez les personnes âgées dont le revenu familial se situe dans le quartile inférieur (dans les 25 % inférieurs).

(Source : Enquête canadienne sur l'utilisation d'Internet, utilisation d'Internet, selon le lieu et la fréquence d'utilisation)

Remarque : Normalement, on ne relierait pas ces catégories dans un graphique linéaire simple, mais l'effet visuel réussi excuse cette maladresse.

Figure [04]: Situation de famille des hommes incarcérés en comparaison avec celle des hommes canadiens de plus de 18 ans

Figure [04] - Version textuelle

Un diagramme en barres sur la situation de famille, exprimée en pourcentage, d'hommes en liberté par rapport aux hommes canadiens incarcérés de plus de 18 ans, répartie selon les catégories célibataire, union de fait, marié, ex partenaire et inconnu. Proportionnellement, un plus grand nombre d'hommes incarcérés sont célibataires ou en union de fait que dans la population générale. Moins d'hommes incarcérés sont mariés, et environ le même nombre d'hommes sont d'ex partenaires.

Keriann Dowling (MBSI 2014) a souligné, avec ironie, qu'en pourcentage, un nombre beaucoup plus grand d'hommes en prison sont célibataires que dans la population générale.

(Sources : Profil des délinquants 2013-2014 et Estimations de la population, selon l'état matrimonial, le groupe d'âge et le sexe au 1er juillet, Canada, provinces et territoires)

Figure [05]: Les dépenses en alcool par rapport au taux de chômage

Figure [05] - Version textuelle

Un diagramme en barres comparant les dépenses annuelles moyennes en alcool et le taux de chômage en pourcentage au Canada.

Dépenses annuelles moyennes en alcool Taux de chômage en pourcentage
622 $ 8,5 %
672 $ 8,7 %
677 $ 8,5 %
712 $ 8,2 %
721 $ 7,7 %
806 $ 7,3 %
837 $ 6,8 %

Finalement, dans une autre analyse ludique, Andrea Kampen (MBSI 2015) s'est demandé s'il y avait un lien entre le montant d'argent que les Canadiens dépensent en alcool et le taux de chômage. En bref, on peut voir que lorsqu'un plus grand nombre de Canadiens ont un emploi, les dépenses liées à l'alcool augmentent. Je laisserai ici le lecteur tirer ses propres conclusions sur ce fait.

(Sources : Enquête sur les dépenses des ménages, dépenses des ménages au titre des produits du tabac et des boissons alcoolisées, selon les provinces et territoires)

Ajouter un commentaire

Règles de participation

Nous avons hâte de recevoir vos commentaires. Vos idées et vos commentaires sont essentiels au développement du portail du gouvernement ouvert et de l’approche du gouvernement du Canada en matière de gouvernement ouvert.

Même si les commentaires sont modérés, le portail ne censurera aucun commentaire sauf dans les quelques cas précis énoncés ci-dessous. Les comptes des personnes qui ne respectent pas ces règles pourraient être désactivés de façon temporaire ou permanente.

Commentaires et interaction

Notre équipe lira les commentaires et participera aux discussions lorsque ce sera approprié. Vos commentaires et contributions doivent être pertinents et respectueux.

Notre équipe ne s’engagera pas dans les questions partisanes ou politiques et ne répondra pas aux questions qui enfreignent ces modalités.

Notre équipe se réserve le droit de supprimer des commentaires et des contributions, et de bloquer des utilisateurs en fonction des critères ci-dessous :

Les commentaires ou les contributions seront supprimés s'ils :

  • contiennent des renseignements personnels, ou des renseignements protégés ou classifiés du gouvernement du Canada, ou portent atteinte à la propriété intellectuelle ou à un droit de propriété;
  • ne respectent pas les principes de la Charte canadienne des droits et libertés, Loi constitutionnelle de 1982;
  • communiquent des messages racistes, haineux, sexistes, homophobes ou diffamatoires, ou contiennent du matériel obscène ou pornographique ou y font allusion;
  • sont menaçants, violents, intimidants ou harcelants;
  • ne respectent pas les lois fédérales, provinciales ou territoriales du Canada;
  • constituent de l'usurpation d'identité, de la publicité ou un pourriel;
  • encouragent ou incitent toute activité illégale ou criminelle;
  • sont rédigés dans une autre langue que le français ou l'anglais;
  • constituent une violation de cet avis de quelque autre manière que ce soit.

Notre équipe ne peut s’engager à répondre à chaque message ou commentaire qui est publié, mais nous participerons aux conversations lorsque cela est possible. Veuillez prendre note que les réponses seront fournies dans la langue d’origine du commentaire.

Notre équipe répondra aux commentaires dans la langue officielle dans laquelle ils sont affichés. Il se peut que nous répondions dans les deux langues officielles lorsque nous estimons que la réponse présente de l'intérêt pour le grand public.

Commentaires

Soumis par Mike Smit le lun 08/02/2016 - 18:19

Naomi, thanks for your comments - the short response is you do not need to be concerned. A blog post is a very small window into a large curriculum, and while I chose to focus on the "have fun with data" portion of one assignment, being critical consumers and users of data is a core part of my course and the broader curriculum. For example, we talk about spurious correlations, and how data exploration can show correlations and aid in the development of theories, but cannot account for various moderating/confounding variables alone, and many other aspects of being critical thinkers. We talk about how the data we have is the tip of an iceberg, and all the ways in which data can deviate from reality (just like 5 images and a blog post can give the wrong idea about the depth of a curriculum!). Even in the context of data visualization, we talk about different audiences: are you trying to make a point, or inform generally? Are you exploring, or communicating? I am glad you are interested and concerned, though! You may be interested in reading our report on data literacy, http://hdl.handle.net/10222/64578. I would welcome your input. In case anyone else is concerned: this post is not intended to suggest any kind of conclusions about the data. This is about people having fun playing with open data, learning something basic from that data, and more importantly learning about working with and manipulating data in numeric and visual form.

Soumis par Naomi Bloch le lun 01/02/2016 - 20:42

I commend and support this direction in LIS programs. We should be teaching students how to act as responsible data interpreters -- not just for "innovation" purposes, but so they can help their communities begin to use such information to hold parties to account and to address community needs. I would prefer it if we could do this responsibly, by ensuring that basic numeracy lessons, and a fundamental understanding of statistics and research methods are not divorced from the process. Such understanding is necessary so that visualisations are not just "fun" but also reasonable interpretations of reality. Based on the examples in this post, I have some concerns. Most of the above examples appear to be "lying with statistics" -- implying ready associations between semi-arbitrary variables, overlooking confounding variables or methodological data constraints, graphically representing different indices/scales as though they're comparable units of measurement, representing categorical variables as though they're continuous variables, etc. Not to mention a lack of labeling and some missing source citations. Essentially, the students' work (as presented) appears to be a showcase of everything we're afraid of when it comes to sharing data. Maybe this can be addressed by discussing all these issues after the students' "first pass" and then having them re-visit the assignment. But the aim as a whole requires more than a data visualisation course if we hope to produce competent data stewards, facilitators, and users. I hope that we are moving in that direction.
Date de modification :