đŸ«±đŸ»â€đŸ«ČđŸœ Des États pas très unis, des humains et des IA, des cartes en 3 clics, des fréquences sonores et des piles de bouquins

La newsletter qui fait parler les données

Buena Vista Data Club - #8 - novembre 2024

La newsletter qui fait
parler les données

đŸ€ L’équation humains + tech

En bientĂŽt treize ans d’existence, WeDoData aura traversĂ© moult rĂ©volutions technologiques, certaines plus Ă©phĂ©mĂšres que d’autres. Avec Ă  chaque fois, les mĂȘmes interrogations lorsque nous les expĂ©rimentons : permettent-elles Ă  la visualisation de donnĂ©es de bien/mieux s’exprimer ? D’inventer de nouvelles expĂ©riences de dataviz ? De toucher de nouveaux publics ? De promouvoir une meilleure culture des donnĂ©es ? Aujourd’hui, l’IA ne dĂ©roge pas Ă  ces questions chez nous.

✍ Dans cette nouvelle Ă©dition, dĂ©couvrez donc comment nous avons choisi de faire collaborer humains et IA Ă  l’INA.
+ un tuto sur Khartis, l’outil qui vous Ă©vitera tous les piĂšges de la carto
+ des disques et des livres au service la dataviz
+ toujours de folles inspirations

L’équipe de WeDoData

👉 Si vous avez une question, une suggestion de contenu ou de rubrique, n’hĂ©sitez pas Ă  nous Ă©crire : [email protected]

DANS NOTRE RADAR

🌎 Ces data(viz) font l’actu

● Des cƓurs tiraillĂ©s. Moritz Stefaner, cĂ©lĂšbre data-designer, a obtenu les recherches Google des AmĂ©ricains depuis 20 ans et de maniĂšre gĂ©olocalisĂ©e. DĂ©couvrez la visualisation interactive d’un pays dont les territoires se dĂ©forment au rythme des vagues d’intĂ©rĂȘt pour l’immigration, l’avortement, le mariage gay ou encore le contrĂŽle des armes

À prendre le pouls

● Des yeux troublĂ©s. Face au flot d’images qui inondent le web et les rĂ©seaux sociaux, ABC lance une alerte : les outils de dĂ©tection de montages photos n’y voient que du feu face aux images gĂ©nĂ©rĂ©es par des IA. Le mĂ©dia australien dĂ©voile donc des astuces trĂšs concrĂštes pour Ă©duquer votre regard aux incohĂ©rences de ces images : seule planche de salut face Ă  la dĂ©sinformation.
À scruter

● Des corps Ă©chauffĂ©s. Pendant une canicule, la tempĂ©rature ne tombe pas la nuit, une Ă©preuve notamment dans les zones urbaines. Explorant six grandes villes du monde, les journalistes de la SĂŒddeutsche Zeitung nous narrent six nuits d’étĂ© et comment la vivront, les riches d’un cĂŽtĂ© et les pauvres de l’autre.
À dĂ©gouliner

DANS LES COULISSES DE


đŸ€+đŸ€– Comment data.ina a osĂ© la transparence sur un site 100% IA

data.ina.fr - le site qui donne Ă  voir les donnĂ©es de l’INA

Une premiĂšre mondiale. Depuis prĂšs de deux ans, l’Institut National de l’Audiovisuel planche avec WeDoData sur un site inĂ©dit de tendances mĂ©diatiques calculĂ©es par des outils d’IA. Data.ina.fr, c’est son petit nom, a Ă©tĂ© mis en ligne il y a quelques semaines et vous donne Ă  voir, pour la premiĂšre fois, les personnalitĂ©s et les pays les plus mentionnĂ©s depuis 5,5 ans sur les tĂ©lĂ©s đŸ“ș et radios đŸ“» françaises. Il se veut une premiĂšre rĂ©ponse de l’INA Ă  la question : “Comment exploiter et donner du sens Ă  la masse de donnĂ©es que reprĂ©sentent les 25 millions d’heures archivĂ©es dans le cadre du dĂ©pĂŽt lĂ©gal ?”

L’enjeu. Pour accomplir ce dĂ©fi de taille (700 000 heures analysĂ©es), deux types d’outils IA ont Ă©tĂ© identifiĂ©s : celui qui transforme du son 📱 en texte 📝 (la transcription, ici assurĂ©e par Whisper) et celui qui identifie des noms de personnalitĂ©s đŸ·ïž et de lieux📍(la reconnaissance d’entitĂ©s nommĂ©es, ici rĂ©alisĂ©e par TextRazor). Mais quelle attitude adopter face aux biais et hallucinations connus de ces technologies ?

đŸŒĄïž Action N°1 : calculer leur fiabilitĂ©. Cela paraĂźt une Ă©vidence pour les chercheurs, mais cela est plus rare pour un mĂ©dia : assumer une totale transparence sur le taux de confiance des IA utilisĂ©es. Pour cela, l’INA a organisĂ© une “VĂ©ritĂ© terrain”, comme dans tout protocole de recherche : en rĂ©sumĂ©, il a fait analyser les mĂȘmes extraits de tĂ©lĂ©vision et de radio d’un cĂŽtĂ© par les outils d’IA de ce projet et, de l’autre, par des documentalistes de l’INA. La comparaison des rĂ©sultats des deux process donne le taux de fiabilitĂ© de la chaĂźne de traitement IA mise en place par l’INA : 83% pour ce site !

data.ina.fr - schéma - Vérité de terrain sur les IA externes

🔍 Action N°2 : aucun site au monde ne donne Ă  voir les biais de ses IA, rĂ©sultat par rĂ©sultat. L’INA l’a fait en crĂ©ant “le contrĂŽle de pertinence”. MĂ©thode de contrĂŽle Ă  appliquer, outil mĂ©tier Ă  crĂ©er, “Bible” de biais Ă  constituer
 L’INA et WeDoData ont dĂ» tout inventer. Ainsi, une Ă©quipe de documentalistes, ayant une bonne connaissance de l’actualitĂ©, a Ă©tĂ© mobilisĂ©e pour vĂ©rifier de maniĂšre systĂ©matique les Tops 20 mensuels des chaĂźnes de tĂ©lĂ©vision et de radio proposĂ©es sur le site : 1 020 Tops X 20 personnalitĂ©s = 20 400 mĂ©dias ont ainsi Ă©tĂ© visionnĂ©s/Ă©coutĂ©s đŸ€Ż. Ce contrĂŽle unique en son genre consiste, entre autres, Ă  remonter Ă  la source pour vĂ©rifier que la personnalitĂ© citĂ©e apparaĂźt bien dans le mĂ©dia original. Si ce n’est pas le cas, une alerte apparaĂźt sur le site accolĂ©e au nom de cette personnalitĂ© ❗.

data.ina.fr - schéma - Le contrÎle de la pertinence

đŸ’„ Nos biais “prĂ©fĂ©rĂ©s”
À l’avenir, une meilleure prise en compte du contexte dans la phrase permettra aux outils d’IA d’éviter certaines confusions sur ces noms de personnalitĂ©s. En attendant, voici celles qui ont rythmĂ© nos derniers mois de fiabilisation du site :

  • đŸŽŒ Richard Wagner : le compositeur allemand remonte beaucoup dans les rĂ©sultats issus d’IA, alors qu’il s’agit du groupe paramilitaire russe Wagner.

  • đŸȘ¶ Paul Verlaine : le poĂšte français remonte trĂšs haut sur les chaĂźnes d’information en continu. En cause : une confusion avec le groupe Verlaine, entreprise de rĂ©novation Ă©nergĂ©tique, qui s’est offert une campagne de publicitĂ© pendant quelques mois sur ces chaĂźnes.

  • 💉 Boris Johnson, l’ancien Premier ministre britannique, se retrouve trĂšs mentionnĂ© dans l’actualitĂ© Ă  une pĂ©riode Ă©loignĂ©e de son mandat. C’est que l’IA le confond parfois avec le vaccin Johnson & Johnson.

data.ina.fr - Les biais des IA - confusion sur les noms de personnalités - Boris Johnson confondu avec le vaccin Johnson & Johnson

POUR ALLER ENCORE PLUS LOIN

● Les rĂšgles gĂ©nĂ©rales de data.ina.fr ont Ă©tĂ© particuliĂšrement dĂ©taillĂ©es pour offrir toute la transparence possible sur les mĂ©thodes et outils utilisĂ©s

● Pour ce projet, l’INA a rĂ©digĂ© une Charte d’utilisation de l’IA sur data.ina.fr

LES BONS OUTILS

đŸ› ïž On partage nos meilleures astuces

đŸŒ¶ïž Niveau facile
● Pour les poseurs de fanions. Arrive toujours ce moment dans la vie d’un data designer oĂč il faut classer des pays dans un graphique. Et oĂč l’option d’ajouter des drapeaux n’est pas nĂ©gociable. Voici SVG Flag icons, une librairie complĂšte des drapeaux du monde Ă  rĂ©cupĂ©rer, en un clic, au format SVG.

đŸŒ¶ïžđŸŒ¶ïž Niveau moyen
● Pour les podcast lovers. Une fonctionnalitĂ© Ă©tonnante a fait son apparition dans NotebookLM, l’outil IA de gestion de documents de Google : Audio Overview. En plus d’échanger avec un chatbot sur les ressources que vous avez importĂ©es, NotebookLM propose aussi de gĂ©nĂ©rer (et tĂ©lĂ©charger) un podcast oĂč deux anglophones se lancent dans une conversation plus vraie que nature Ă  partir de votre contenu (PDF, sites Web, vidĂ©os YouTube, fichiers audio, Google Docs ou Google Slides). Ils le rĂ©sument, Ă©tablissent des liens entre les sujets et Ă©changent mĂȘme des plaisanteries !

đŸŒ¶ïžđŸŒ¶ïžđŸŒ¶ïž Niveau expert
● Pour les codeurs un peu flemmards. À WeDoData, nous adorons la librairie highcharts.com, car elle offre une palette quasi infinie de customisation de graphiques interactifs. DĂ©sormais, vous pouvez interagir avec son GPT, spĂ©cialement entraĂźnĂ© sur sa documentation. Fournissez lui vos donnĂ©es, et en quelques prompts, il rĂ©alise le graphique souhaitĂ© et vous livre son code.

S’ABONNER

On vous a transféré cette newsletter ?

N’oubliez pas de vous inscrire gratuitement pour recevoir les suivantes

« C’est pas trĂšs carrĂ© cette histoire de ronds. Â»

đŸ˜” Un designer dĂ©semparĂ© đŸ˜”â€đŸ’«

LE COIN DO IT YOURSELF

đŸŒŽïžïž Khartis, un outil simple pour des cartes expertes

Khartis, un outil simple pour des cartes expertes - interface de l’outil

L’intĂ©rĂȘt. Vous voulez vous lancer dans une cartographie, mais vous ne savez pas par quel outil commencer ? Il est clair que dans la jungle des outils existants - Magrit, ArcGIS, QGis, Mapbox, Unfolded, etc. -, on aurait bien besoin
 d’une cartographie des outils de carto !
Voici Khartis, dĂ©veloppĂ© par l’Atelier de cartographie de Sciences Po, qui, en quelques clics (gratuits), vous livrera une carte statistique, tout ceci en vous Ă©vitant les piĂšges tendus par la reprĂ©sentation de donnĂ©es.

Les prĂ©-requis. Aucun, tellement l’outil en ligne vous prend par la main Ă  travers ses 3 Ă©tapes-clĂ©s : donnĂ©es / visualisations / export

Khartis, un outil simple pour des cartes expertes - les 3 étapes : données / visualisations /export

Ce qu’il faut retenir.
🌎 Plusieurs fonds de cartes sont disponibles, mais vous pouvez aussi importer le vĂŽtre. Idem, vous avez la main sur le type de projection et les rĂ©glages de longitude et de rotation.
🧼 DĂšs que vos donnĂ©es sont importĂ©es, l’outil aide Ă  repĂ©rer les erreurs potentielles : celles d’identifiant de pays, de codes INSEE, etc.
📊 En fonction des donnĂ©es fournies, certains types de reprĂ©sentations seront accessibles ou non : impossible de rĂ©aliser un impair.
đŸ“‹ïž Une fois la reprĂ©sentation choisie, vous ĂȘtes guidĂ©s sur l’agencement de vos donnĂ©es : regroupement en classes (au doux nom de “discrĂ©tisation”), valeur de rupture, hachures et/ou gammes de couleurs, etc. L’outil embarque par ailleurs une simulation du rendu pour les dĂ©ficiences visuelles.
đŸ–Œïž L’export de l’image finale peut se faire en PNG ou SVG : ce dernier est idĂ©al pour re-travailler la carte dans un logiciel d’édition d’objet vectoriel (Illustrator, Figma
). Et vous pouvez dĂ©finir les dimensions d’export en pixels.
đŸ–„ïž Khartis peut s’installer directement sur votre ordinateur (Mac, PC ou Linux) pour travailler en local, sans connexion Internet. Attention, Ă  l'heure actuelle, la version hors ligne ne dispose pas des derniĂšres fonctionnalitĂ©s.

POUR ALLER ENCORE PLUS LOIN

● Maütriser Khartis à la perfection ? Suivez le guide et plongez-vous dans la documentation de l’outil.

● L’Atelier de Cartographie de Science-Po ne s’est pas arrĂȘtĂ© en si bon chemin et a dĂ©veloppĂ© un autre outil, Graticule. La promesse ? Votre fond de carte en 5 Ă©tapes.

DIFFUSER

Vous aimez Buena Vista Data Club ?

Partagez-la Ă  vos proches ou votre rĂ©seau en leur transfĂ©rant par mail ‹ou via les rĂ©seaux sociaux

✹ La bonne reco de

Clément, data-designer

Des pochettes d’album “data-driven”

Pochette de disque data-driven - ©Tiziana Alocci - “Path Integral IV”,2020

©Tiziana Alocci - “Path Integral IV”,2020

La data designeuse Tiziana Alocci crĂ©e des pochettes d’albums mixant Ă©motion musicale et data. Tout a commencĂ© en 2019 avec le label berlinois Sum Over Histories et un rituel immuable : l’écoute de l’album pour identifier le morceau le plus “rĂ©sonnant” pour elle. Ce titre devient l’ambassadeur de l'album : c’est Ă  partir de lui qu’elle crĂ©e la visualisation radiale de chaque pochette. Cette derniĂšre mixe le graphique de frĂ©quence du son, mais aussi des marqueurs visuels dĂ©rivĂ©s des sensations ressenties : pointues ou nettes, floues ou ondulĂ©es
 En rĂ©sultent de magnifiques Ɠuvres d’art abstraites Ă  interprĂ©ter librement.

Pochettes de disques data-driven - ©Tiziana Alocci - De gauche Ă  droite : “Trial and Error” EP, 2021 / “Let the Mistery Be” EP, 2021 / “Flageolet” EP, 2021

©Tiziana Alocci - De gauche Ă  droite :‹
“Trial and Error” EP, 2021 / “Let the Mistery Be” EP, 2021 / “Flageolet” EP, 2021

🌐 Retrouvez ses crĂ©ations sur son site Internet 
đŸŽ€ Interview de Tiziana Alocci sur le site Nightingale

DANS NOTRE SAC

đŸȘ Les pĂ©pites data du mois

● C’est flagrant. Cette heatmap d’Information Is Beautiful dĂ©voile les mots de passe Ă  4 chiffres les plus courants : 20 combinaisons reprĂ©sentent 27% des codes dans le monde.

● C’est ondulant. Erin Davis n’a pas seulement rĂ©alisĂ© une carte de toutes les stations de radio aux États-Unis, elle donne aussi Ă  voir subtilement leurs zones de diffusion. Elle explique tout ici.

● C’est bruyant. Ambiance garantie avec les 30 000 sons de la banque sonore de la BBC. Bruits d’animaux, d’environnement naturel, de villes, de machines industrielles
 le tout classĂ© par catĂ©gorie, gĂ©ographie, durĂ©e et en accĂšs libre !

● C’est timbrĂ©. Peter Orntoft met de la dataviz partout : sur des photos, mais aussi sur des timbres. Lors de la derniĂšre prĂ©sidentielle amĂ©ricaine, il avait imaginĂ© cette sĂ©rie de timbres pour dĂ©fendre le vote par correspondance.

La viz de la fin

Pas le temps de lire. Cela fait des semaines que votre livre prend la poussiĂšre sur la table de nuit ? Vous ĂȘtes dĂ©sespĂ©rĂ© car votre ado n’a pas lu un livre de tout l’étĂ© ? Les causes sont multiples, mais les 12 heures passĂ©es chaque semaine, en moyenne en France, sur les rĂ©seaux sociaux n’y sont pas pour rien. Kinokuniya, chaĂźne japonaise de librairies, a eu l’idĂ©e gĂ©niale de matĂ©rialiser ce temps virtuel avec un dispositif de visualisation dĂ©voilant les piles de livres que nous aurions pu lire si l’on s’était dĂ©connectĂ© de chacun de ces rĂ©seaux.

Au mois prochain : RDV le 5 dĂ©cembre !

Avant de nous quitter, quelques dates Ă  ne pas rater :

đŸ‡«đŸ‡· Hackathon GenAI, le 13 novembre Ă  Paris, organisĂ© par Simplon pour OpenAI, avec pour objectif : crĂ©er 8 solutions concrĂštes basĂ©es sur l’IA gĂ©nĂ©rative pour amĂ©liorer l’inclusion et l’accessibilitĂ©.

đŸ‡«đŸ‡· Paris AI Forum 2024, du 19 au 20 novembre Ă  Paris, organisĂ© par WAN-IFRA, l’association mondiale des Ă©diteurs de presse.

đŸ‡ș🇾 Data for Black Lives, du 18 au 20 novembre Ă  Miami, pour initier des changements concrets, via les donnĂ©es, dans la vie des Noirs amĂ©ricains.

WeDoData est un studio de datavisualisation, de design d’informations et de nouvelles narrations : wedodata.fr

Retrouvez-nous sur les rĂ©seaux sociaux :
X-Twitter ‱ Linkedin ‱ Facebook ‱ Instagram ‱ Youtube ‱ Medium

đŸȘƒ On vous a transfĂ©rĂ© cette newsletter ?
Abonnez-vous gratuitement

đŸ“Ș Vous prĂ©fĂ©rez lire cette newsletter en ligne
C’est par là

📡 Vous ne jurez que par un bon vieux flux RSS
Le voici 

👋 Vous voulez dĂ©jĂ  nous quitter ?
DĂ©sabonnez-vous par ici