कार्यप्रणाली
पारदर्शिता Data Race के मिशन के मूल में है। यह पृष्ठ बताता है कि वैश्विक आँकड़ों को कैसे एकत्रित, प्रोसेस और प्रस्तुत किया जाता है। डेटा को संशोधित, अनुमानित या संपादित नहीं किया जाता — लक्ष्य आधिकारिक आँकड़ों को यथासंभव निष्ठापूर्वक प्रस्तुत करना है।
डेटा संग्रहण
सभी डेटा आधिकारिक सार्वजनिक API और डेटा प्रदाताओं से प्रोग्रामेटिक रूप से एकत्र किया जाता है। प्रत्येक डेटासेट Python स्क्रिप्ट का उपयोग करके प्राप्त किया जाता है जो प्रदाता के एंडपॉइंट से सीधे जुड़ती हैं, जिससे पुनरुत्पादकता और ट्रेसेबिलिटी सुनिश्चित होती है। कोई मैनुअल डेटा प्रविष्टि शामिल नहीं है।
- आधिकारिक API और डेटा प्रदाताओं (World Bank Open Data, FAOSTAT, Yahoo Finance, आदि) से कच्चा डेटा प्राप्त करना
- प्रतिक्रिया अखंडता को मान्य करना — अपेक्षित फ़ील्ड, डेटा प्रकार और पूर्णता की जाँच करना
- प्रसंस्करण पाइपलाइन के लिए संरचित सारणीबद्ध प्रारूप में मान्य डेटा संग्रहीत करना
- प्रत्येक डेटासेट के लिए स्रोत URL, प्राप्त करने का टाइमस्टैम्प और रिकॉर्ड संख्या लॉग करना
डेटा प्रसंस्करण
कच्चे डेटा को एक नियतात्मक प्रसंस्करण पाइपलाइन से गुजारा जाता है। प्रत्येक चरण स्वचालित है और समान इनपुट दिए जाने पर समान आउटपुट उत्पन्न करता है। प्रक्षेप (इंटरपोलेशन) या अनुमान जानबूझकर नहीं किया जाता — यदि स्रोत से कोई डेटा बिंदु गायब है, तो वह डेटासेट में भी गायब ही रहता है।
- इकाई पहचान — देशों के लिए ISO 3166-1 alpha-3 (उदा. USA, JPN, DEU), कंपनियों के लिए टिकर सिंबल (उदा. AAPL, MSFT)
- गायब मानों का बहिष्करण — अंतराल संरक्षित किए जाते हैं, कभी भी अनुमानों से नहीं भरे जाते
- 13 भौगोलिक क्षेत्रों में देशों की निश्चित मैपिंग का उपयोग करके क्षेत्रीय वर्गीकरण
- प्रत्येक समयावधि के लिए रैंक की गणना — वैश्विक और क्षेत्र-भीतर रैंकिंग दोनों
- कुशल ब्राउज़र-आधारित क्वेरी के लिए अपाचे लकड़ी (Apache Parquet) प्रारूप में आउटपुट
रैंकिंग गणना
रैंकिंग की गणना प्रत्येक समयावधि के लिए स्वतंत्र रूप से की जाती है। केवल उन देशों को रैंकिंग में शामिल किया जाता है जिन्होंने उस विशिष्ट अवधि के लिए डेटा रिपोर्ट किया है। इसका मतलब यह है कि किसी देश की रैंक न केवल इसलिए बदल सकती है क्योंकि उसका मूल्य बदल गया है, बल्कि इसलिए भी क्योंकि अन्य देशों ने रिपोर्ट करना शुरू या बंद कर दिया है।
- वैश्विक रैंक: उस विशिष्ट अवधि के डेटा वाले सभी देशों के बीच स्थिति
- क्षेत्रीय रैंक: देश के निर्दिष्ट भौगोलिक क्षेत्र के भीतर स्थिति
- रैंक परिवर्तन: पिछली अवधि की रैंक स्थिति से अंतर (सकारात्मक = ऊपर गया)
- साल-दर-साल परिवर्तन: पिछली अवधि से मूल मूल्य में प्रतिशत परिवर्तन
- रैंकिंग प्रकार: प्रत्येक डेटासेट को 'best' (जितना अधिक उतना अच्छा, जैसे GDP), 'worst' (जितना अधिक उतना खराब, जैसे CO2 उत्सर्जन) या 'neutral' (कोई अंतर्निहित दिशा नहीं, जैसे जनसंख्या) के रूप में वर्गीकृत किया गया है
दृश्यीकरण
विज़ुअलाइज़ेशन पूरी तरह से ब्राउज़र में Parquet फ़ाइलों पर SQL क्वेरी के लिए DuckDB-Wasm का उपयोग करके चलते हैं। कोई डेटा सर्वर पर नहीं भेजा जाता है। यह वास्तुकला तेज़ लोड समय, ऑफ़लाइन क्षमता और संपूर्ण डेटा गोपनीयता सुनिश्चित करती है।
- बार चार्ट रेस: एनिमेटेड देश रैंकिंग जो दिखाती है कि समय के साथ स्थितियाँ कैसे बदलती हैं
- लाइन चार्ट: विस्तृत मूल्यों के लिए इंटरैक्टिव होवर टूलटिप्स के साथ ऐतिहासिक समय श्रृंखला
- पाई चार्ट: आनुपातिक शेयर विश्लेषण यह दर्शाता है कि वैश्विक कुल कैसे वितरित किया जाता है
- विश्व मानचित्र: स्थानिक पैटर्न के लिए रंग-कोडित पैमानों के साथ भौगोलिक हीटमैप
- डेटा तालिका: मूल्यों, रैंक परिवर्तन और साल-दर-साल तुलना के साथ क्रमबद्ध रैंकिंग
- सभी चार्ट क्षेत्रीय फ़िल्टरिंग, देश पिनिंग और अवधि सीमा चयन का समर्थन करते हैं
डेटा गुणवत्ता
पूर्णता के बजाय सटीकता और पारदर्शिता को प्राथमिकता दी जाती है। अनुमानों के साथ अंतराल को भरने के बजाय, केवल वही दिखाया जाता है जो आधिकारिक स्रोत रिपोर्ट करते हैं। प्रत्येक विज़ुअलाइज़ेशन अपने मूल डेटा स्रोत से वापस लिंक होता है ताकि उपयोगकर्ता अंतर्निहित संख्याओं को सत्यापित कर सकें।
- केवल प्रलेखित कार्यप्रणाली वाले स्थापित संगठनों और डेटा प्रदाताओं के डेटा का उपयोग करें
- मूल मूल्यों को बिल्कुल वैसे ही संरक्षित करें जैसे रिपोर्ट किया गया है — कोई राउंडिंग, समायोजन या सामान्यीकरण नहीं
- गायब डेटा को अनुमानित या इंटरपोलेट करने के बजाय बाहर रखा जाता है
- प्रत्येक डेटासेट पृष्ठ स्रोत संगठन और मूल डेटा के लिए सीधा लिंक प्रदर्शित करता है
- डेटा कवरेज (देशों की संख्या और समय सीमा) हर विज़ुअलाइज़ेशन पर दिखाया गया है
ज्ञात सीमाएँ
कोई भी डेटासेट परिपूर्ण नहीं होता। विज़ुअलाइज़ेशन की व्याख्या करते समय उपयोगकर्ताओं को इन सीमाओं पर विचार करना चाहिए:
- डेटा की उपलब्धता देश और समयावधि के अनुसार काफी भिन्न होती है — कुछ राष्ट्रों के पास 1960 से डेटा है, जबकि अन्य के पास केवल 2000 के दशक से है
- स्रोत संगठन ऐतिहासिक डेटा को पूर्वव्यापी रूप से संशोधित कर सकते हैं, जिसका अर्थ है कि अपडेट के बीच पिछले मान बदल सकते हैं
- स्रोत संगठनों द्वारा पद्धतिगत परिवर्तन (जैसे, GDP गणना विधि में परिवर्तन) साल-दर-साल तुलनीयता को प्रभावित कर सकते हैं
- छोटे देशों, क्षेत्रों और नव स्वतंत्र राष्ट्रों में अक्सर अधूरा या गायब डेटा होता है
- रैंकिंग केवल उन देशों को दर्शाती है जिन्होंने दी गई अवधि के लिए डेटा की सूचना दी थी — रैंकिंग से अनुपस्थिति का मतलब शून्य मूल्य नहीं है