कार्यप्रणाली
पारदर्शिता Data Race के मिशन के मूल में है। यह पृष्ठ बताता है कि वैश्विक आँकड़ों को कैसे एकत्रित, प्रोसेस और प्रस्तुत किया जाता है। डेटा को संशोधित, अनुमानित या संपादित नहीं किया जाता — लक्ष्य आधिकारिक आँकड़ों को यथासंभव निष्ठापूर्वक प्रस्तुत करना है।
डेटा संग्रहण
सभी डेटा आधिकारिक सार्वजनिक API और डेटा प्रदाताओं से प्रोग्रामेटिक रूप से एकत्र किया जाता है। प्रत्येक डेटासेट Python स्क्रिप्ट का उपयोग करके प्राप्त किया जाता है जो प्रदाता के एंडपॉइंट से सीधे जुड़ती हैं, जिससे पुनरुत्पादकता और ट्रेसेबिलिटी सुनिश्चित होती है। कोई मैनुअल डेटा प्रविष्टि शामिल नहीं है।
- आधिकारिक API और डेटा प्रदाताओं (World Bank Open Data, FAOSTAT, Yahoo Finance, आदि) से कच्चा डेटा प्राप्त करना
- प्रतिक्रिया अखंडता को मान्य करना — अपेक्षित फ़ील्ड, डेटा प्रकार और पूर्णता की जाँच करना
- प्रसंस्करण पाइपलाइन के लिए संरचित सारणीबद्ध प्रारूप में मान्य डेटा संग्रहीत करना
- प्रत्येक डेटासेट के लिए स्रोत URL, प्राप्त करने का टाइमस्टैम्प और रिकॉर्ड संख्या लॉग करना
डेटा प्रसंस्करण
कच्चे डेटा को एक नियतात्मक प्रसंस्करण पाइपलाइन से गुजारा जाता है। प्रत्येक चरण स्वचालित है और समान इनपुट दिए जाने पर समान आउटपुट उत्पन्न करता है। प्रक्षेप (इंटरपोलेशन) या अनुमान जानबूझकर नहीं किया जाता — यदि स्रोत से कोई डेटा बिंदु गायब है, तो वह डेटासेट में भी गायब ही रहता है।
- इकाई पहचान — देशों के लिए ISO 3166-1 alpha-3 (उदा. USA, JPN, DEU), कंपनियों के लिए टिकर सिंबल (उदा. AAPL, MSFT)
- गायब मानों का बहिष्करण — अंतराल संरक्षित किए जाते हैं, कभी भी अनुमानों से नहीं भरे जाते
- 13 भौगोलिक क्षेत्रों में देशों की निश्चित मैपिंग का उपयोग करके क्षेत्रीय वर्गीकरण
- प्रत्येक समयावधि के लिए रैंक की गणना — वैश्विक और क्षेत्र-भीतर रैंकिंग दोनों
- ब्राउज़र उपयोग के लिए संरचित डेटा फ़ाइलों में आउटपुट
रैंकिंग गणना
रैंकिंग की गणना प्रत्येक समयावधि के लिए स्वतंत्र रूप से की जाती है। केवल उन देशों को रैंकिंग में शामिल किया जाता है जिन्होंने उस विशिष्ट अवधि के लिए डेटा रिपोर्ट किया है। इसका मतलब यह है कि किसी देश की रैंक न केवल इसलिए बदल सकती है क्योंकि उसका मूल्य बदल गया है, बल्कि इसलिए भी क्योंकि अन्य देशों ने रिपोर्ट करना शुरू या बंद कर दिया है।
- वैश्विक रैंक: उस विशिष्ट अवधि के डेटा वाले सभी देशों के बीच स्थिति
- क्षेत्रीय रैंक: देश के निर्दिष्ट भौगोलिक क्षेत्र के भीतर स्थिति
- रैंक परिवर्तन: पिछली अवधि की रैंक स्थिति से अंतर (सकारात्मक = ऊपर गया)
- साल-दर-साल परिवर्तन: पिछली अवधि से मूल मूल्य में प्रतिशत परिवर्तन
- रैंकिंग प्रकार: प्रत्येक डेटासेट को 'best' (जितना अधिक उतना अच्छा, जैसे GDP), 'worst' (जितना अधिक उतना खराब, जैसे CO2 उत्सर्जन) या 'neutral' (कोई अंतर्निहित दिशा नहीं, जैसे जनसंख्या) के रूप में वर्गीकृत किया गया है
डेटा गुणवत्ता
पूर्णता के बजाय सटीकता और पारदर्शिता को प्राथमिकता दी जाती है। अनुमानों के साथ अंतराल को भरने के बजाय, केवल वही दिखाया जाता है जो आधिकारिक स्रोत रिपोर्ट करते हैं। प्रत्येक विज़ुअलाइज़ेशन अपने मूल डेटा स्रोत से वापस लिंक होता है ताकि उपयोगकर्ता अंतर्निहित संख्याओं को सत्यापित कर सकें।
- केवल प्रलेखित कार्यप्रणाली वाले स्थापित संगठनों और डेटा प्रदाताओं के डेटा का उपयोग करें
- मूल मूल्यों को बिल्कुल वैसे ही संरक्षित करें जैसे रिपोर्ट किया गया है — कोई राउंडिंग, समायोजन या सामान्यीकरण नहीं
- गायब डेटा को अनुमानित या इंटरपोलेट करने के बजाय बाहर रखा जाता है
- प्रत्येक डेटासेट पृष्ठ स्रोत संगठन और मूल डेटा के लिए सीधा लिंक प्रदर्शित करता है
- डेटा कवरेज (देशों की संख्या और समय सीमा) हर विज़ुअलाइज़ेशन पर दिखाया गया है
ज्ञात सीमाएँ
कोई भी डेटासेट परिपूर्ण नहीं होता। विज़ुअलाइज़ेशन की व्याख्या करते समय उपयोगकर्ताओं को इन सीमाओं पर विचार करना चाहिए:
- डेटा की उपलब्धता देश और समयावधि के अनुसार काफी भिन्न होती है — कुछ राष्ट्रों के पास 1960 से डेटा है, जबकि अन्य के पास केवल 2000 के दशक से है
- स्रोत संगठन ऐतिहासिक डेटा को पूर्वव्यापी रूप से संशोधित कर सकते हैं, जिसका अर्थ है कि अपडेट के बीच पिछले मान बदल सकते हैं
- स्रोत संगठनों द्वारा पद्धतिगत परिवर्तन (जैसे, GDP गणना विधि में परिवर्तन) साल-दर-साल तुलनीयता को प्रभावित कर सकते हैं
- छोटे देशों, क्षेत्रों और नव स्वतंत्र राष्ट्रों में अक्सर अधूरा या गायब डेटा होता है
- रैंकिंग केवल उन देशों को दर्शाती है जिन्होंने दी गई अवधि के लिए डेटा की सूचना दी थी — रैंकिंग से अनुपस्थिति का मतलब शून्य मूल्य नहीं है