Méthodologie
La transparence est au cœur de la démarche de Data Race. Cette page explique comment les statistiques mondiales sont collectées, traitées et présentées. Les données ne sont ni modifiées, ni estimées, ni commentées — l'objectif est de présenter les chiffres officiels aussi fidèlement que possible.
Collecte des données
Toutes les données sont collectées de manière programmatique à partir d'API publiques officielles et de fournisseurs de données. Chaque jeu de données est récupéré à l'aide de scripts Python qui se connectent directement aux points de terminaison des fournisseurs, garantissant la reproductibilité et la traçabilité. Aucune saisie manuelle de données n'est impliquée.
- Récupération des données brutes depuis les API officielles et fournisseurs de données (World Bank Open Data, FAOSTAT, Yahoo Finance, etc.)
- Validation de l'intégrité de la réponse — vérification des champs attendus, des types de données et de l'exhaustivité
- Stockage des données validées dans un format tabulaire structuré pour le pipeline de traitement
- Enregistrement de l'URL source, de l'horodatage de récupération et du nombre d'enregistrements pour chaque ensemble de données
Traitement des données
Les données brutes subissent un pipeline de traitement déterministe. Chaque étape est automatisée et produit la même sortie pour une entrée donnée. L'interpolation et l'estimation sont intentionnellement évitées — si un point de données est manquant dans la source, il reste manquant dans l'ensemble de données.
- Identification des entités — codes ISO 3166-1 alpha-3 pour les pays (ex. USA, JPN, DEU), symboles boursiers pour les entreprises (ex. AAPL, MSFT)
- Exclusion des valeurs manquantes — les lacunes sont conservées, jamais remplies par des estimations
- Classification régionale utilisant une cartographie fixe des pays dans 13 régions géographiques
- Calcul du classement pour chaque période — classements mondiaux et au sein de chaque région
- Sortie au format Apache Parquet pour des requêtes efficaces basées sur le navigateur
Calcul du classement
Les classements sont recalculés indépendamment pour chaque période. Seuls les pays ayant des données déclarées pour cette période spécifique sont inclus dans le classement. Cela signifie que le rang d'un pays peut changer non seulement parce que sa valeur a changé, mais aussi parce que d'autres pays ont commencé ou cessé de fournir des données.
- Rang mondial : Position parmi tous les pays disposant de données pour cette période spécifique
- Rang régional : Position au sein de la région géographique attribuée au pays
- Évolution du rang : Différence par rapport à la position du classement de la période précédente (positif = a progressé)
- Évolution sur un an : Variation en pourcentage de la valeur sous-jacente par rapport à la période précédente
- Type de classement : Chaque ensemble de données est classé comme 'best' (plus c'est élevé, mieux c'est, par ex. PIB), 'worst' (plus c'est élevé, pire c'est, par ex. émissions de CO2) ou 'neutral' (aucune direction inhérente, par ex. population)
Visualisation
Les visualisations s'exécutent entièrement dans le navigateur en utilisant DuckDB-Wasm pour les requêtes SQL sur les fichiers Parquet. Aucune donnée n'est envoyée à un serveur. Cette architecture garantit des temps de chargement rapides, une capacité hors ligne et une confidentialité totale des données.
- Course de graphiques à barres : Classements animés des pays montrant l'évolution des positions au fil du temps
- Graphique en ligne : Séries chronologiques historiques avec des info-bulles interactives au survol pour des valeurs détaillées
- Graphique circulaire : Analyse des parts proportionnelles montrant comment le total mondial est réparti
- Carte du monde : Carte thermique géographique avec des échelles de codes couleurs pour les modèles spatiaux
- Tableau de données : Classements triables avec valeurs, changements de rang et comparaisons sur un an
- Tous les graphiques prennent en charge le filtrage régional, l'épinglage de pays et la sélection de la plage de périodes
Qualité des données
Nous privilégions l'exactitude et la transparence par rapport à l'exhaustivité. Plutôt que de combler les lacunes avec des estimations, nous ne montrons que ce que les sources officielles rapportent. Chaque visualisation renvoie à sa source de données d'origine afin que les utilisateurs puissent vérifier les chiffres sous-jacents.
- Utilisation exclusive de données provenant d'organisations et de fournisseurs de données établis avec des méthodologies documentées
- Conservation des valeurs d'origine exactement telles que rapportées — aucun arrondissement, ajustement ou normalisation
- Les données manquantes sont exclues plutôt qu'estimées ou interpolées
- Chaque page d'ensemble de données affiche l'organisation source et un lien direct vers les données d'origine
- La couverture des données (nombre de pays et période de temps) est indiquée sur chaque visualisation
Limites connues
Aucun ensemble de données n'est parfait. Les utilisateurs doivent tenir compte de ces limites lors de l'interprétation des visualisations :
- La disponibilité des données varie considérablement selon le pays et la période — certaines nations ont des données depuis 1960, tandis que d'autres seulement depuis les années 2000
- Les organisations sources peuvent réviser les données historiques rétroactivement, ce qui signifie que les valeurs passées peuvent changer d'une mise à jour à l'autre
- Les changements méthodologiques apportés par les organisations sources (par ex. modifications de la méthode de calcul du PIB) peuvent affecter la comparabilité d'une année sur l'autre
- Les petits pays, les territoires et les nations nouvellement indépendantes ont souvent des données incomplètes ou manquantes
- Les classements ne reflètent que les pays qui ont déclaré des données pour une période donnée — l'absence d'un classement ne signifie pas une valeur nulle