Data Race

メソドロジー

透明性はData Raceの根幹です。このページでは、世界的な統計データの収集・処理・提示の方法を説明します。データの変更、推計、編集は行いません。公式の数値を可能な限り忠実に提示することを目指しています。

データ収集

すべてのデータは、公式の公開APIおよびデータプロバイダーからプログラムによって収集されます。各データセットは、提供者のエンドポイントに直接接続するPythonスクリプトを使用して取得され、再現性と追跡可能性を確保しています。手作業によるデータ入力は一切含まれていません。

  1. 公式APIおよびデータプロバイダー(世界銀行オープンデータ、FAOSTAT、Yahoo Financeなど)から生データを取得
  2. レスポンスの整合性を検証 — 期待されるフィールド、データ型、完全性を確認
  3. 検証済みのデータを処理パイプライン用に構造化された表形式で保存
  4. 各データセットのソースURL、取得タイムスタンプ、レコード数をログに記録

データ処理

生データは決定論的な処理パイプラインを経ます。各ステップは自動化されており、同じ入力であれば同じ出力が生成されます。補間や推計は意図的に避けています。ソースにデータポイントが欠損している場合、データセットでも欠損したままになります。

  1. エンティティの識別 — 国はISO 3166-1 alpha-3(例: USA、JPN、DEU)、企業はティッカーシンボル(例: AAPL、MSFT)で識別
  2. 欠損値の除外 — 空白は維持され、推計値で埋められることは決してありません
  3. 国を13の地理的地域に割り当てる固定マッピングを使用した地域分類
  4. 各期間の順位計算 — 世界全体および地域内での順位
  5. ブラウザベースの効率的なクエリのためのApache Parquet形式への出力

順位計算

順位は各期間について独立して再計算されます。その特定の期間のデータを報告した国のみが順位に含まれます。つまり、ある国の順位が変わるのは、その国の値が変化したためだけでなく、他の国が報告を開始または停止したためである可能性もあります。

  • 世界順位: その特定の期間のデータを持つすべての国の中での位置
  • 地域順位: その国が割り当てられた地理的地域内での位置
  • 順位の変動: 前回の期間の順位位置からの差(プラス = 上昇)
  • 前年比の変動: 前回の期間からの基礎となる値のパーセンテージ変化
  • 順位タイプ: 各データセットは、'best'(高いほど良い、例: GDP)、'worst'(高いほど悪い、例: CO2排出量)、または'neutral'(固有の方向性なし、例: 人口)に分類されます

可視化

可視化は完全にブラウザ内で実行され、Parquetファイル上のSQLクエリにDuckDB-Wasmを使用します。サーバーにデータは送信されません。このアーキテクチャにより、高速な読み込み時間、オフライン機能、および完全なデータプライバシーが保証されます。

  • バーチャートレース: 時間の経過とともに順位がどのように変化するかを示すアニメーションによる国別順位
  • 折れ線グラフ: 詳細な値を表示するインタラクティブなホバーツールチップを備えた歴史的な時系列
  • 円グラフ: 世界の合計がどのように分布しているかを示す比例シェア分析
  • 世界地図: 空間パターンを示す色分けされたスケールを持つ地理的ヒートマップ
  • データテーブル: 値、順位の変動、前年比の比較を含む並べ替え可能な順位表
  • すべてのチャートで、地域フィルタリング、国の固定表示、および期間範囲の選択をサポート

データ品質

私たちは完全性よりも正確性と透明性を優先します。推計で空白を埋めるのではなく、公式ソースが報告したものだけを表示します。すべての可視化は元のデータソースにリンクされているため、ユーザーは基礎となる数値を確認できます。

  • 文書化された方法論を持つ確立された機関およびデータプロバイダーのデータのみを使用
  • 元の値を報告された通りに正確に維持 — 丸め、調整、または正規化は行いません
  • 欠損データは推計や補間されるのではなく除外されます
  • 各データセットページには、ソース機関と元のデータへの直接リンクが表示されます
  • データの対象範囲(国数と期間)はすべての可視化に表示されます

既知の制限事項

完璧なデータセットはありません。ユーザーは可視化を解釈する際、以下の制限事項を考慮する必要があります:

  • データの利用可能性は国や期間によって大きく異なります — 1960年からのデータがある国もあれば、2000年代以降のデータしかない国もあります
  • ソース機関は過去のデータを遡及的に修正する場合があり、更新の間に過去の値が変更される可能性があります
  • ソース機関による方法論の変更(例: GDP計算方法の変更)は、前年比の比較可能性に影響を与える可能性があります
  • 小国、領土、および新しく独立した国では、データが不完全または欠損していることがよくあります
  • 順位は特定の期間のデータを報告した国のみを反映しています — 順位に存在しないことは、値がゼロであることを意味するわけではありません