メソドロジー
透明性はData Raceの根幹です。このページでは、世界的な統計データの収集・処理・提示の方法を説明します。データの変更、推計、編集は行いません。公式の数値を可能な限り忠実に提示することを目指しています。
データ収集
すべてのデータは、公式の公開APIおよびデータプロバイダーからプログラムによって収集されます。各データセットは、提供者のエンドポイントに直接接続するPythonスクリプトを使用して取得され、再現性と追跡可能性を確保しています。手作業によるデータ入力は一切含まれていません。
- 公式APIおよびデータプロバイダー(世界銀行オープンデータ、FAOSTAT、Yahoo Financeなど)から生データを取得
- レスポンスの整合性を検証 — 期待されるフィールド、データ型、完全性を確認
- 検証済みのデータを処理パイプライン用に構造化された表形式で保存
- 各データセットのソースURL、取得タイムスタンプ、レコード数をログに記録
データ処理
生データは決定論的な処理パイプラインを経ます。各ステップは自動化されており、同じ入力であれば同じ出力が生成されます。補間や推計は意図的に避けています。ソースにデータポイントが欠損している場合、データセットでも欠損したままになります。
- エンティティの識別 — 国はISO 3166-1 alpha-3(例: USA、JPN、DEU)、企業はティッカーシンボル(例: AAPL、MSFT)で識別
- 欠損値の除外 — 空白は維持され、推計値で埋められることは決してありません
- 国を13の地理的地域に割り当てる固定マッピングを使用した地域分類
- 各期間の順位計算 — 世界全体および地域内での順位
- ブラウザでの利用に向けた構造化データファイルの出力
順位計算
順位は各期間について独立して再計算されます。その特定の期間のデータを報告した国のみが順位に含まれます。つまり、ある国の順位が変わるのは、その国の値が変化したためだけでなく、他の国が報告を開始または停止したためである可能性もあります。
- 世界順位: その特定の期間のデータを持つすべての国の中での位置
- 地域順位: その国が割り当てられた地理的地域内での位置
- 順位の変動: 前回の期間の順位位置からの差(プラス = 上昇)
- 前年比の変動: 前回の期間からの基礎となる値のパーセンテージ変化
- 順位タイプ: 各データセットは、'best'(高いほど良い、例: GDP)、'worst'(高いほど悪い、例: CO2排出量)、または'neutral'(固有の方向性なし、例: 人口)に分類されます
データ品質
Data Race は完全性よりも正確性と透明性を優先します。推計で空白を埋めるのではなく、公式ソースが報告したものだけを表示します。すべての可視化は元のデータソースにリンクされているため、ユーザーは基礎となる数値を確認できます。
- 文書化された方法論を持つ確立された機関およびデータプロバイダーのデータのみを使用
- 元の値を報告された通りに正確に維持 — 丸め、調整、または正規化は行いません
- 欠損データは推計や補間されるのではなく除外されます
- 各データセットページには、ソース機関と元のデータへの直接リンクが表示されます
- データの対象範囲(国数と期間)はすべての可視化に表示されます
既知の制限事項
完璧なデータセットはありません。ユーザーは可視化を解釈する際、以下の制限事項を考慮する必要があります:
- データの利用可能性は国や期間によって大きく異なります — 1960年からのデータがある国もあれば、2000年代以降のデータしかない国もあります
- ソース機関は過去のデータを遡及的に修正する場合があり、更新の間に過去の値が変更される可能性があります
- ソース機関による方法論の変更(例: GDP計算方法の変更)は、前年比の比較可能性に影響を与える可能性があります
- 小国、領土、および新しく独立した国では、データが不完全または欠損していることがよくあります
- 順位は特定の期間のデータを報告した国のみを反映しています — 順位に存在しないことは、値がゼロであることを意味するわけではありません