メソドロジー

透明性はData Raceの根幹です。このページでは、世界的な統計データの収集・処理・提示の方法を説明します。データの変更、推計、編集は行いません。公式の数値を可能な限り忠実に提示することを目指しています。

データ収集

すべてのデータは、公式の公開APIおよびデータプロバイダーからプログラムによって収集されます。各データセットは、提供者のエンドポイントに直接接続するPythonスクリプトを使用して取得され、再現性と追跡可能性を確保しています。手作業によるデータ入力は一切含まれていません。

公式APIおよびデータプロバイダー（世界銀行オープンデータ、FAOSTAT、Yahoo Financeなど）から生データを取得
レスポンスの整合性を検証 — 期待されるフィールド、データ型、完全性を確認
検証済みのデータを処理パイプライン用に構造化された表形式で保存
各データセットのソースURL、取得タイムスタンプ、レコード数をログに記録

データ処理

生データは決定論的な処理パイプラインを経ます。各ステップは自動化されており、同じ入力であれば同じ出力が生成されます。補間や推計は意図的に避けています。ソースにデータポイントが欠損している場合、データセットでも欠損したままになります。

エンティティの識別 — 国はISO 3166-1 alpha-3（例: USA、JPN、DEU）、企業はティッカーシンボル（例: AAPL、MSFT）で識別
欠損値の除外 — 空白は維持され、推計値で埋められることは決してありません
国を13の地理的地域に割り当てる固定マッピングを使用した地域分類
各期間の順位計算 — 世界全体および地域内での順位
ブラウザでの利用に向けた構造化データファイルの出力

順位計算

順位は各期間について独立して再計算されます。その特定の期間のデータを報告した国のみが順位に含まれます。つまり、ある国の順位が変わるのは、その国の値が変化したためだけでなく、他の国が報告を開始または停止したためである可能性もあります。

世界順位: その特定の期間のデータを持つすべての国の中での位置
地域順位: その国が割り当てられた地理的地域内での位置
順位の変動: 前回の期間の順位位置からの差（プラス = 上昇）
前年比の変動: 前回の期間からの基礎となる値のパーセンテージ変化
順位タイプ: 各データセットは、'best'（高いほど良い、例: GDP）、'worst'（高いほど悪い、例: CO2排出量）、または'neutral'（固有の方向性なし、例: 人口）に分類されます

データ品質

Data Race は完全性よりも正確性と透明性を優先します。推計で空白を埋めるのではなく、公式ソースが報告したものだけを表示します。すべての可視化は元のデータソースにリンクされているため、ユーザーは基礎となる数値を確認できます。

文書化された方法論を持つ確立された機関およびデータプロバイダーのデータのみを使用
元の値を報告された通りに正確に維持 — 丸め、調整、または正規化は行いません
欠損データは推計や補間されるのではなく除外されます
各データセットページには、ソース機関と元のデータへの直接リンクが表示されます
データの対象範囲（国数と期間）はすべての可視化に表示されます

既知の制限事項

完璧なデータセットはありません。ユーザーは可視化を解釈する際、以下の制限事項を考慮する必要があります：

データの利用可能性は国や期間によって大きく異なります — 1960年からのデータがある国もあれば、2000年代以降のデータしかない国もあります
ソース機関は過去のデータを遡及的に修正する場合があり、更新の間に過去の値が変更される可能性があります
ソース機関による方法論の変更（例: GDP計算方法の変更）は、前年比の比較可能性に影響を与える可能性があります
小国、領土、および新しく独立した国では、データが不完全または欠損していることがよくあります
順位は特定の期間のデータを報告した国のみを反映しています — 順位に存在しないことは、値がゼロであることを意味するわけではありません