đŸ€– Spéciale IA : déroutante, créative, massive, accélérante, artistique... et tant d’autres choses

La newsletter qui fait parler les données

Buena Vista Data Club - #6 - septembre 2024 - numéro spécial IA

La newsletter qui fait
parler les données

🎯 IA beaucoup à dire

Pour cette rentrĂ©e, nous vous avons concoctĂ© notre premiĂšre newsletter thĂ©matique : un numĂ©ro spĂ©cial IA. Pourquoi maintenant alors que ces IA gĂ©nĂ©ratives inondent l’actualitĂ© depuis prĂšs de ‹deux ans ? C’est qu’à WeDoData, on prĂ©fĂšre tester les technos avant d’en parler, s’assurer de leurs rĂ©ponses face aux dĂ©fis de la narration data, les pousser dans leurs retranchements, questionner leur fiabilité  Aujourd’hui, aprĂšs des mois de prototypes en tous genres, nous sommes prĂȘts Ă  vous partager nos conseils, nos inspirations, nos tutos et les coulisses d’un premier projet rĂ©alisĂ© Ă  base d’IA. ‹

☄ Dans les prochaines semaines, surveillez bien vos rĂ©seaux car de nombreuses rĂ©alisations nourries d’IA sortiront de nos serveurs : moteur de podcasts boostĂ© Ă  l’IA, Ɠuvre artistique faisant dialoguer des IA entre elles, datavisualisations d’archives massives


Bonne lecture
✍ L’équipe de WeDoData

Si vous avez une question, une suggestion de contenu ou de rubrique, nous sommes ici : hello@wedodata.fr

DANS NOTRE SAC

đŸȘ Les pĂ©pites du mois

● C’est futuriste. PubliĂ©e sur The Pudding, cette enquĂȘte dĂ©goulinante de pixels fluos dĂ©crypte les tendances des scĂ©narios de 200 films de science-fiction de 1950 Ă  nos jours. En rĂ©sumĂ©, toujours plus d’apocalypse, de souffrance et d’inĂ©galitĂ©s


● C’est machinal. Ultime chance de comprendre le machine learning avec ce scrollytelling hyper visuel et pĂ©dagogique - en 13 langues - qui vous initie Ă  tous ses concepts-clĂ©s. Pour cela, il s’appuie sur l’exemple d’un modĂšle algorithmique qui dĂ©tecte si une maison est Ă  New York ou Ă  San Francisco.

● C’est dĂ©visageant. Voici une expĂ©rience dont vous ĂȘtes le hĂ©ros
 et la victime. La dĂ©monstration est imparable pour comprendre les biais des algorithmes de reconnaissance des visages.

● C’est entraĂźnant. Voici une plongĂ©e - rare - dans LAION-5B, un ensemble d’images sur lequel se sont entraĂźnĂ©s Midjourney ou Stable Diffusion. InquiĂ©tant et glaçant sur les innombrables biais et illĂ©galitĂ©s qui le composent.

DANS LES COULISSES DE


đŸ–Œïž+đŸ€– Comment nous avons crĂ©Ă© un gĂ©nĂ©rateur d’expositions artistiques en 3D (grĂące Ă  l’IA)

Kadist.ai : design a virtual exhibition from Kadist’s art collection on any thematic you want - demo

Cliquez sur l’image pour dĂ©couvrir la vidĂ©o de dĂ©mo complĂšte (avec le son)

Le challenge. Au dĂ©part de cette idĂ©e folle, il y a la Fondation KADIST et sa collection de 2 000 Ɠuvres d’art contemporain, trĂšs bien documentĂ©es, mais ne disposant pas de lieu d’exposition. Et si les IA aidaient Ă  faire connaĂźtre plus largement cet ensemble artistique original ? Bienvenue dans les backstages de notre gĂ©nĂ©rateur d’expositions artistiques (dĂ©monstration sur demande).

La botte IA secrĂšte. Un des principes-clĂ©s des LLMs est la transformation de texte en vecteur de hautes dimensions (1 536 dans notre cas) : on parle d’“embeddings”. Quel intĂ©rĂȘt me direz-vous ? Identifier des textes similaires qui auront des vecteurs pointant dans les mĂȘmes directions, comme le schĂ©matise le dessin ci-dessous. C’est cette propriĂ©tĂ© que nous utilisons pour identifier des Ɠuvres d’art traitant d’un sujet commun. AprĂšs un travail d’harmonisation, la documentation des Ɠuvres en notre possession a ainsi Ă©tĂ© vectorisĂ©e : c’est le cƓur du rĂ©acteur de notre gĂ©nĂ©rateur d’expositions.

Kadist.ai : schéma du principe des vecteurs

Représentation simplifiée de vecteurs associés à des éléments de texte

Dis-moi un thĂšme, je te crĂ©erai ton expo. L’utilisateur choisit librement le thĂšme de l’exposition dont il rĂȘve : par exemple, “la crise de la dĂ©mocratie en Occident”. Sa requĂȘte est alors vectorisĂ©e et 12 Ɠuvres pointant sensiblement dans la mĂȘme direction sont rĂ©cupĂ©rĂ©es. ‹À partir de lĂ , nous utilisons une autre IA, la “completion” d’OpenAI, pour crĂ©er une description gĂ©nĂ©rale de cette exposition sur-mesure 📝 en se basant sur les textes des Ɠuvres, puis encore une autre IA, le “text-to-speech” d’OpenAI, pour transcrire les textes 📃 en audio 🔊.

Kadist.ai : navigation dans l’exposition 3D gĂ©nĂ©rĂ©e par l’IA - dĂ©mo

L’accrochage virtuel des Ɠuvres. Dans un espace en 3D (conçu avec le logiciel Blender et la librairie Three.js), les Ɠuvres sont disposĂ©es selon l’ordre proposĂ© par l’IA. L’utilisateur peut alors Ă©voluer dans son exposition 100% personnalisĂ©e, passer sa souris sur chacune des Ɠuvres, Ă©couter ou lire les descriptions. Et lorsqu’il termine sa visite virtuelle, il peut mĂȘme repartir avec un PDF oĂč il gardera une trace des textes gĂ©nĂ©rĂ©s et des Ɠuvres sĂ©lectionnĂ©es pour lui.

Kadist.ai : gĂ©nĂ©ration d’un pdf basĂ©e sur l’exposition gĂ©nĂ©rĂ©e par l’IA


Last but no least. Un grand bravo à Benjamin Grillet, développeur de génie avec qui nous avons la chance de collaborer, et un grand merci à la Fondation KADIST qui nous a fait confiance et ouvert sa collection pour en explorer les possibles.

POUR ALLER ENCORE PLUS LOIN

● Une vidĂ©o efficace de 5 min pour mieux comprendre les embeddings
● Un exemple pour utiliser les embeddings en Python

LES BONS OUTILS

đŸ› ïž On partage nos meilleures astuces

đŸŒ¶ïž Niveau facile
● Pour les flemmards de l’intĂ©gration web. MĂȘme le no-code prĂ©sentait parfois certaines difficultĂ©s. DĂ©sormais, plus aucune excuse pour ne pas crĂ©er votre site web par vous-mĂȘme. Websim.ai le fait pour vous en quelques prompts.

đŸŒ¶ïžđŸŒ¶ïž Niveau moyen
● Pour les maniaques des donnĂ©es. Votre jeu de donnĂ©es n’est pas propre et vous paniquez devant les milliers de lignes Ă  harmoniser ? OpenRefine est notre meilleur alliĂ© depuis prĂšs de 15 ans. Toujours aussi efficace.

đŸŒ¶ïžđŸŒ¶ïžđŸŒ¶ïž Niveau expert
● Pour les prompteurs invĂ©tĂ©rĂ©s. Hugging Face, la plateforme de partage autour de l’IA, nous amĂšne un modĂšle d’IA directement dans le tableur (en l’occurrence Google sheet). Installez Hugging Face on Sheets et vous pourrez interagir en langage naturel avec vos donnĂ©es dans la feuille de calcul. Un outil open source qui ne cesse de s’amĂ©liorer au fil des suggestions des utilisateurs.

S’ABONNER

On vous a transféré cette newsletter ?

N’oubliez pas de vous inscrire gratuitement pour recevoir les suivantes

« L’IA : c’est le pomme F‹
sous stĂ©roĂŻde Â»

💉 Un journaliste h(i)allucinĂ© đŸ’‰

LE COIN DO IT YOURSELF

đŸ§™â€â™€ïž ChatGPT, notre fidĂšle assistant datajournaliste

ChatGPT, notre fidĂšle assistant datajournaliste - cover

L’intĂ©rĂȘt. Vous ĂȘtes face Ă  un bon gros jeu de donnĂ©es. Il est tout propre, mais il vous impressionne, vous ne savez pas par quel bout le prendre. Aucun souci : ChatGPT va vous permettre d’identifier des angles d’attaque et les graphiques les plus pertinents pour les illustrer.

Les prĂ©-requis. Avoir accĂšs Ă  la version payante de ChatGPT qui permet d’utiliser ChatGPT 4o, la derniĂšre version ultra-performante. Et fournir une base de donnĂ©es, sous forme d’un fichier Excel ou CSV.

Le mode d’emploi. Nous avons en mains une floppĂ©e de statistiques sur les Ă©missions CO2 dans le monde (format .xlsx) issues du Global Carbon Atlas. L’Atlas mondial du carbone prĂ©sente en effet toutes les donnĂ©es de rĂ©fĂ©rence utilisĂ©es dans les confĂ©rences internationales sur le climat. Fier crĂ©ateur de ce site, WeDoData le met Ă  jour depuis dix ans.

đŸŽ“ïž Commençons par comprendre ces fameuses donnĂ©es. CrĂ©ons une conversation avec ChatGPT, ajoutons-y notre fichier Excel et demandons lui d’analyser ce document pour fournir de potentiels sujets.

ChatGPT, notre fidĂšle assistant datajournaliste : exemples d’angles proposĂ©s par ChatGPT

🚹 Un angle a retenu notre attention “Évolution des Ă©missions de CO2 par rĂ©gion”. Poursuivons l’échange avec ChatGPT en le questionnant sur les dataviz cohĂ©rentes avec ce sujet.

⛑ ChatGPT nous propose diffĂ©rentes solutions graphiques, il est temps de choisir. Nous tranchons pour une courbe d’évolution des Ă©missions par rĂ©gion (de type “stacked area”). On lui demande de la gĂ©nĂ©rer. Et magie ! La voici en quelques micro-secondes.

ChatGPT, notre fidĂšle assistant datajournaliste : exemple d’un graphique de donnĂ©es “stacked area” proposĂ© par ChatGPT


🎹 Il ne reste plus qu’à “pimper” notre graphique. Nous pouvons demander, par exemple, Ă  GPT de changer les couleurs, de retirer le titre, de grossir, repositionner les lĂ©gendes et mĂȘme de rĂ©aliser
 un Gif.

đŸȘ„ VoilĂ  le rĂ©sultat : il ne reste plus qu’à l’exporter.

ChatGPT, notre fidÚle assistant datajournaliste : résultat final de notre graphique animé en gif et customisé par ChatGPT

Les limites. Si vous ĂȘtes un fĂ©ru des dataviz, vous serez peut-ĂȘtre déçus des propositions de ChatGPT car il reste dans des graphiques assez basiques. Mais c’est la porte d’entrĂ©e idĂ©ale pour les dĂ©butants en quĂȘte de simplicitĂ© et de rapiditĂ©.

POUR ALLER ENCORE PLUS LOIN

● L’équipe de la librairie Highcharts, bien connue des dĂ©veloppeurs de dataviz, a crĂ©Ă© cet outil avec ChatGPT qui vous permettra de gĂ©nĂ©rer des graphiques interactifs avec de simples prompts.

DIFFUSER

Vous aimez Buena Vista Data Club ?

Partagez-la Ă  vos proches ou votre rĂ©seau en leur transfĂ©rant par mail ‹ou via les rĂ©seaux sociaux

✹ La bonne reco de

Clément, data designer

Faire Ă©merger “l’ñme des donnĂ©es”

Dataviz concepts - part 1 to 3” - Kirell Benzi - 2021

“Dataviz concepts - part 1 to 3” - Kirell Benzi - 2021

“À quoi servent les 2,5 quintillions d’octets de donnĂ©es produites chaque jour une fois qu'elles ont Ă©tĂ© collectĂ©es ? Les entreprises les exploitent pour prendre de meilleures dĂ©cisions commerciales. Les scientifiques les analysent pour comprendre notre monde.” Kirell Benzi a dĂ©cidĂ© lui d’en faire des Ɠuvres d'art.

Dataviz concepts - part 1 to 3” - Kirell Benzi - 2021

“Dataviz concepts - part 1 to 3” - Kirell Benzi - 2021

Chercheur en data science, Kirell Benzi commence par façonner ces donnĂ©es, en utilisant des techniques mathĂ©matiques complexes. Le data artiste qu’il est aussi prend le relais et gĂ©nĂšre des images via l'apprentissage automatique. Quelles sont les formes et les couleurs correspondant au message contenu dans ces donnĂ©es ? Comment transmettre des Ă©motions fortes ? Selon lui, tout est dans l'Ă©quilibre entre l'Ăąme et les chiffres.

“On Time” - Kirell Benzi (2014)

“On Time” - Kirell Benzi (2014)

En 2014, il a produit “On Time”, Ɠuvre qui dĂ©coule de l'analyse de 42 millions de positions de piĂ©tons dans la gare de Lausanne. Envie de vous lancer ? Il y a quelques mois, il a fondĂ© la plateforme decode.gl pour partager et enseigner tous ses secrets de crĂ©ation.

🎹 Explorez son portfolio en ligne.

DANS NOTRE AGENDA

🗓 Les dates à venir

đŸ–Œ Apophénies, Interruptions : Artistes et intelligences artificielles au travail. Une installation artistique inĂ©dite faisant converser trois IA sera exposĂ©e au Centre Pompidou du 25 septembre 2024 au 6 janvier 2025. L’artiste Éric Baudelaire l’a crĂ©Ă©e avec la collaboration de WeDoData.

đŸ‡«đŸ‡· Salon de la data et de l’IA propose Ă  Nantes le 17 septembre des dizaines d’ateliers, dĂ©mos et confĂ©rences, avec l’IA en force cette annĂ©e.

đŸ‡”đŸ‡č Data Makers Fest se tient au Portugal, du 23 au 25 septembre, avec une forte prĂ©sence de l’IA dans les interventions.

đŸ‡«đŸ‡· Paris Web, le rendez-vous des professionnels francophones du Web, dĂ©fend du 26 au 28 septembre Ă  Paris, un web accessible et de qualitĂ©.

đŸ‡ș🇾 IEEEVIS 2024, la confĂ©rence annuelle sur la visualisation scientifique, rĂ©unit chercheurs et praticiens du 13 au 18 octobre en Floride (États-Unis) pour Ă©changer sur les derniers outils de visualisation.

La viz de la fin

“Visualization and sonification đŸ„ đŸŽč of the Github commit history of
” est une sĂ©rie de visualisations et sonifications rĂ©alisĂ©e par l’artiste Ren Yuan. Il a rĂ©cupĂ©rĂ© tous les commit Github des plus grandes librairies de code utilisĂ©e en dĂ©veloppement web. Pour ceux qui ne sont pas familiers avec ce jargon, un commit est une mise Ă  jour de code pour faire Ă©voluer ces fameuses librairies.‹ À admirer en les Ă©coutant sur son fil Twitter/X.

“Visualization and sonification đŸ„ đŸŽč of the Github commit history of
” by Ren Yuan

Au mois prochain

WeDoData est un studio de datavisualisation, de design d’informations et de nouvelles narrations : wedodata.fr

Retrouvez-nous sur les rĂ©seaux sociaux :
X-Twitter ‱ Linkedin ‱ Facebook ‱ Instagram ‱ Youtube ‱ Medium

đŸȘƒ On vous a transfĂ©rĂ© cette newsletter ?
Abonnez-vous gratuitement

đŸ“Ș Vous prĂ©fĂ©rez lire cette newsletter en ligne
C’est par là

📡 Vous ne jurez que par un bon vieux flux RSS
Le voici 

👋 Vous voulez dĂ©jĂ  nous quitter ?
DĂ©sabonnez-vous par ici