⛏️ Le scraping ou "gratter" de la data pour tous les niveaux et bien plus encore...

Buena Vista Data Club - #19 - novembre 2025

La newsletter qui fait
parler les données

🤜 Qui a tué l’innovation en dataviz ?

La question lancée par Shirley Wu, l’une des data scientists réputée de notre secteur, nous a fait réagir au sein de WeDoData… et vous aussi visiblement. Vous êtes très nombreux·euses à avoir interagi (plus de 6 500 si on en croit les statistiques) avec notre bilan et des dizaines à avoir partagé votre point de vue sur cette crainte d’une créativité en berne face à la standardisation des productions, notamment dans les médias. 
Nous avons réuni ces contributions dans cet article sur Dataviz Index, le site que nous avons conçu pour s’inspirer et se former à la narration visuelle des données.

Preuve que la créativité reste bien là, voici le menu de cette édition #19 :
⛏️ Notre guide du scraping pour tou·te·s : vous y apprendrez à aspirer de la data avec 3 niveaux de difficulté !
🕶️ Le quiz ultime : DataGuessr, un redoutable challenger
Comment un médecin du XIXe siècle a initié la dataviz
💎 Des inspirations, des outils, des bases de données…

L’équipe de WeDoData
[email protected]

DANS NOTRE RADAR

🌎 Ces data(viz) font l’actu

 Memory politique. Avec ces 20 questions, Le Monde a trouvé le moyen idéal de nous replonger dans les rebondissements des Feux de l’amour... Ah non pardon, dans les trois dernières années du mandat d’Emmanuel Macron. Par un habile système de datation interactif, testez votre maîtrise des nominations de Premiers ministres, des (tentatives) de vote de budget, des motions de censure ou de destitution....
À challenger ici

 Grand remplacement numérique ? The Washington Post a mis en graphiques interactifs les résultats d’une étude d’Anthropic qui a quantifié la propension de l’IA à aider ou à remplacer 700 typologies d’employé·e·s dans leur tâches quotidiennes. Comment ont-ils fait ? Ils ont analysé 1 million de conversations entre les utilisateur·rice·s et leur outil Claude.
À explorer ici (payant)

 Dollars en surchauffe. Les droits de douane dégainés par Trump ces derniers mois fragilisent nombre d’entreprises étrangères, mais aussi les Américain·e·s qui découvrent que leurs médicaments, steaks ou rouges à lèvres viennent principalement de... l’étranger. Pour le concrétiser, Reuters a conçu ce format original, mélange de voyage illustré de port en port, de dataviz et de quiz.
À répondre ici

DANS NOTRE SAC

🍪 Les pépites data du mois

 

Verdi-Ingénierie-rosace-dataviz-villes-france-urbanisme-urban-planning-infographie

 
 C’est étoilé. Voici une vision urbaine renouvelée : les « roses des rues ». Ces radars - réalisés sur plus de 600 villes françaises par Éric Larrey - dévoilent plein de nouveaux aspects : le cercle est divisé par direction cardinale ; les barres bleues indiquent la fréquence ou la densité des rues orientées dans chaque direction ; et plus la barre est longue, plus il y a de rues orientées dans celle-ci. Une approche décalée pour aider à concevoir des villes plus denses et résilientes.

 

RTBF-plein-emploi-belgique-société-économie-line-chart-bulles-dataviz-interactif-karim-douieb

 
 C’est professionnel. Dans ce scrollytelling riche en data, la RTBF revient sur l’objectif ambitieux de la Belgique : atteindre un taux d’emploi de 80 % d’ici 2030. Démarche originale : il s’agit de la datavisualisation complète d’un article d’un professeur d'économie de l’UCLouvain. Ne pas rater le graphique animé de l’évolution de l’emploi qui plonge dans les situations particulières de chaque commune. Cette réalisation pointue est signée Karim Douieb, toujours à la pointe des expérimentations visuelles.

 

Stefan-Pullen-climate-series-changement-climatique-ecologie-poster-print-infographie-photoviz-3d-IA

 
 C’est impactant. The Climate Series est une série de 4 posters réalisés par Stefen Pullen à mi-chemin entre 3D et photoviz, réalisés à partir de Blender. Chacune met en lumière une facette différente du bouleversement climatique de notre planète, attirant l'attention sur les transformations urgentes auxquelles nous sommes confronté·e·s.

 

Sportsball-Chameleon-Visual-Company-infographie-print-dessin-live-motion-video-sport-dataviz

 
 C’est data-dessiné. Depuis 2024, Riley et Claire Martin du studio Chameleon Visual Company animent le compte Instagram Sportsball. Le concept ? Des datavisualisations d’une page dessinées en live, autour de sujets sportifs. Mention spéciale pour cette création qui revient sur la tentative de record de l’athlète Faith Kipyegon pour franchir la barre mythique des 4 minutes par mile.

« Sans Internet, moi je suis rien. »

💾 Internaute désemparé 💾

LE COIN DO IT YOURSELF
scrapping-données-tutoriels-tous-niveaux-data-science-google-sheets-python-instant-scrapper-database

⛏️ Scrapez vos données préférées : notre guide pour tous les niveaux

💎 Dans le monde merveilleux de la datavisualisation, tout est possible… tant qu’on a de la data. Dans le meilleur des cas, elle vous est fournie clé en main, mais le plus souvent, la donnée est devant vous, stockée sur un site web, noyée dans un océan d’informations variées et pas forcément toutes utiles. Il va donc falloir aller la chercher avec des techniques d’automatisation et, souvent, en sortant “le grattoir” (le “scraper” en bon anglais).

Défi : récupérer la liste des plus beaux projets de dataviz mondiaux 🤩
Depuis 2012, le concours des Information is Beautiful Awards récompense chaque année la crème de la datavisualisation mondiale. Une mine d’or pour se constituer une veille solide, alors collectons un maximum d’informations sur ces projets ! Laissez-vous guider étape par étape.

🛠️ Nous vous avons concocté un tutoriel en 3 niveaux de difficulté - et donc de performance - qui vous permettra de “gratter” de la donnée en pagaille. Attention : dans cette newsletter, nous vous présentons juste les atouts et inconvénients de chacune de ces 3 méthodes. Le tutoriel détaillé, pas à pas, est publié en intégralité sur notre nouveau site Dataviz Index.

🧑‍⚖️ Note : Le scraping de données n’est pas illégal en soi, mais devient problématique s’il viole les conditions d’utilisation d’un site, contourne des mesures de protection techniques ou porte sur des données personnelles. La légalité dépend du contexte : ce qui est scrapé, comment et dans quel but.
 
 

scrapping-données-tutoriel-débutant-instant-scrapper

 

scrapping-données-tutoriels-tous-niveaux-data-science-instant-scrapper-database-GIF

 
Pourquoi on vous en parle ? Instant Data Scraper est un plugin qui analyse la structure HTML d’une page web et identifie pour vous les données structurées et les balises. En un clic, vous pourrez donc “aspirer” toutes les données que vous souhaitez sur la page. Bonus : Instant Data Scraper permet de naviguer à travers des pages numérotées et de récupérer ainsi de grandes masses de données.

Les limites. Ce plugin est très pratique pour récupérer en un clic les données d’un tableau ou de cards simples situées sur plusieurs pages. Si nous voulons récupérer des données moins ordonnées, ou que certaines informations sont cachées à différents niveaux hiérarchiques du site, il faut passer au niveau supérieur.
 

scrapping-données-tutoriel-intermédiaire-google-sheets

 
Pourquoi on vous en parle ? Lorsque vous visez une donnée très précise dans une page web, vous pouvez l’extraire simplement, toujours sans coder, à l’aide de Google Sheets et de sa fonction IMPORTXML() (nous vous dévoilions nos fonctions favorites dans une précédente édition). Attention, ce deuxième niveau de difficulté vous amènera à plonger dans la profondeur du code HTML de la page et son lot de balises XML.

Les limites. IMPORTXML() est un outil puissant pour aller chercher des informations d’un site web directement depuis votre Google Sheets, sans avoir à coder. Néanmoins, si vous avez plus d’une cinquantaine d’URL à scraper, vous serez bloqués par le nombre maximum de requêtes… Dans ce cas, passer par du code s’imposera.
 
 

scrapping-données-tutoriel-avancé-python

 
Pourquoi on vous en parle ? Si le code ne vous fait pas peur, la solution la plus performante - mais aussi la plus complexe - pour scraper des données reste l’utilisation de Python. L’une des librairies les plus utiles pour cela est BeautifulSoup, car elle permet de charger le code HTML d’une page et de l’explorer pour extraire les informations voulues. Pour vous mettre le pied à l’étrier et vous faciliter la tâche, nous avons mis sur pied un script sur Google Colab que vous pourrez dupliquer. L’avantage ? C’est collaboratif et vous n’avez pas à installer ni à configurer les librairies sur votre machine.

Les limites. Pour le coup, on peut faire vraiment beaucoup de choses avec Python et BeautifulSoup… tant que le site est “statique”. Pour des sites plus complexes, qui reposent sur des interactions utilisateur·rice·s ou qui sont dynamiques car codés en JavaScript par exemple, des techniques avancées s’imposent. Peut-être l’objet d’un futur tutoriel ?

Retrouvez ici la base intégrale des projets nommés aux “Information is Beautiful Awards” depuis 2012 :

POUR ALLER ENCORE PLUS LOIN

 Pour les sites dynamiques, en JavaScript : vous aurez parfois besoin de simuler une navigation web et donc d’utiliser Selenium.

●️ Avec de l’IA ? Vous pouvez utiliser un LLM pour extraire du contenu d’un code HTML (attention aux hallucinations tout de même). Cette vidéo de Productive Dude vous montre un exemple d’utilisation de n8n et de ChatGPT pour scraper n’importe quel site, notamment des données non structurées 🔥🔥🔥.

EXPLORER

Vous voulez vous inspirer
ou vous former ?

Découvrez les contenus des 18 éditions passées de nos newsletters en les explorant via des thèmes, des formats et même un moteur de recherche.

La bonne reco de…
Clément, data designer de l’équipe

DataGuessr, pour parfaire sa culture data

dataguessr-jeu-fun-ressource-culture-generale-David-Bauer

À WeDoData, nous aimons les jeux… surtout quand ils sont data centrés(1). Voici DataGuessr, conçu et développé par David Bauer : chaque jour, le jeu vous propose un sujet et 7 pays du monde à classer en fonction de leur position dans le classement.

Exemple : quel pays a le plus fort taux d’enfants vaccinés ? En Birmanie, c’est 71 %. Et au Bénin, c’est plus ou moins ? À vous de classer les 7 pays suivants et de viser juste. Spoiler : certains sujets sont vraiment difficiles et les possibilités de se tromper augmentent à chaque étape.

dataguessr-jeu-fun-ressource-culture-generale-David-Bauer-2



Au-delà du simple quiz data, nous avons apprécié les compléments, notamment les liens vers les articles du fameux site OurWorldInData. Pour les impatient·e·s qui ne peuvent pas attendre le quiz du lendemain, retrouvez les sujets passés, classés par thématiques. Et vous verrez aussi le pourcentage de joueur·euse·s ayant trouvé les 7 bonnes réponses pour rassurer - ou pas - votre ego…

(1) Quoi, vous ne connaissez pas nos mots mêlés de la dataviz ?

POUR ALLER ENCORE PLUS LOIN

 Découvrez le portfolio de David Bauer, avec un autre de ses jeux You don’t know Africa

 Encore plus ? Testez Chartle et devinez quel pays se cache derrière chaque courbe d’évolution

DANS NOS BONS PLANS

🛠️ Les ressources du mois

⚒️ Outil
 Dans les coulisses des IA. compar:IA est un outil gratuit qui a deux grandes vertus : découvrir qu’il n’y a pas que ChatGPT dans la vie et dévoiler l’impact environnemental de vos discussions. Votre prompt est ainsi envoyé à deux IA à l’aveugle : indiquez la réponse que vous trouvez la plus pertinente et découvrez le modèle qui est derrière... ainsi que ses émissions de CO2.

📊 Base de données
 Des données mortelles. Alors que nous célébrons nos défunt·e·s, mettons à l’honneur le travail titanesque d’Ariel Karlinsky, spécialiste de démographie, qui centralise des dizaines de sources de données pour proposer la base mondiale de la mortalité dans 127 pays depuis 2015, avec des données à la semaine, au mois ou au trimestre.

⚒️ Outil
 De la créa open bar. Affinity, une suite de logiciels de création graphique concurrente d’Adobe, a été acquise par Canva en 2024 : elle passe aujourd’hui en tout gratuit. Il vous suffira de créer un compte Canva (gratuit) pour la télécharger.

La viz de la fin

Une œuvre de l’histoire de la dataviz, en impression 3D, dans votre salon ? C’est l’incroyable idée d’Alex Selby-Boothroyd, le chef du datajournalisme de “The Economist” qui a repris la carte de John Snow de 1854.
 
C’est l’occasion de replonger dans le travail pionnier de ce médecin anglais qui avait indiqué le nombre de décès du choléra à chaque adresse d’un quartier avec des barres verticales. Une première pour l’époque. La carte avait ainsi rendu évidente une relation causale difficile à percevoir dans des tableaux de chiffres : la densité de malades augmentait à l’approche d’une source d’eau située sur Broad Street. La pompe fut mise hors d’usage et l’épidémie s’éteignit dans la foulée. Snow avait ainsi démontré la puissance de la visualisation de données pour rendre visible l’invisible.

Alex-Selby-Boothroyd-carte-londres-london-cartographie-3D-histoire-dataviz-john-snow-choléra-journalisme-enquete-GIF

© Alex Selby-Boothroyd

Quelques dates avant de se quitter

🇺🇸 Information+, du 14 au 16 novembre aux États-Unis, pour débattre des enjeux professionnels du secteur de la dataviz.
🇲🇾 Conférence internationale sur le journalisme d’investigation GIJC25, du 20 au 24 novembre en Malaisie, pour se former sur les derniers outils et techniques d’investigation.
🇬🇧 JournalismAI festival, du 11 au 12 novembre à Londres, pour mesurer comment l'intelligence artificielle transforme les salles de rédaction. En streaming en s’inscrivant ici.
🇫🇷 “La datavisualisation au XIXe siècle : l'invention de la modernité graphique” est une exposition qui se cache à la Bibliothèque de l’Insee (Montrouge) jusqu’au 20 décembre.
🇫🇷 Le hackathon “Le climat en données”, du 2 au 4 décembre à Toulouse et en ligne, pour “jouer” avec la nouvelle génération de projections climatiques.

WeDoData est un studio de datavisualisations, de design d’informations et de nouvelles narrations : wedodata.fr

Retrouvez-nous sur les réseaux sociaux :
Bluesky • Linkedin • Facebook • Instagram

🪃 On vous a transféré cette newsletter ?
Abonnez-vous gratuitement

📪 Vous préférez lire cette newsletter en ligne
C’est par là

📡 Vous ne jurez que par un bon vieux flux RSS
Le voici 

👋 Vous voulez déjà nous quitter ?
Désabonnez-vous par ici