Data Race

방법론

투명성은 Data Race의 핵심 원칙입니다. 이 페이지에서는 글로벌 통계 데이터의 수집, 처리 및 제시 방식을 설명합니다. 데이터를 수정하거나 추정하거나 편집하지 않으며, 공식 수치를 가능한 한 충실하게 제시하는 것을 목표로 합니다.

데이터 수집

모든 데이터는 공식 공개 API 및 데이터 제공업체에서 프로그래밍 방식으로 수집됩니다. 각 데이터 세트는 제공자의 엔드포인트에 직접 연결되는 Python 스크립트를 사용하여 가져오므로 재현성과 추적 가능성이 보장됩니다. 수동 데이터 입력은 포함되지 않습니다.

  1. 공식 API 및 데이터 제공업체(World Bank Open Data, FAOSTAT, Yahoo Finance 등)에서 원시 데이터 가져오기
  2. 응답 무결성 검증 — 예상 필드, 데이터 유형 및 완전성 확인
  3. 처리 파이프라인을 위해 검증된 데이터를 구조화된 표 형식으로 저장
  4. 각 데이터 세트의 소스 URL, 가져오기 타임스탬프 및 레코드 수 기록

데이터 처리

원시 데이터는 결정론적 처리 파이프라인을 거칩니다. 각 단계는 자동화되어 있으며 동일한 입력이 주어지면 동일한 출력을 생성합니다. 보간이나 추정은 의도적으로 사용하지 않습니다. 소스에서 데이터 포인트가 누락된 경우 데이터셋에서도 누락된 상태로 유지됩니다.

  1. 엔티티 식별 — 국가는 ISO 3166-1 alpha-3(예: USA, JPN, DEU), 기업은 티커 심볼(예: AAPL, MSFT)로 식별
  2. 결측치 제외 — 공백은 보존되며 추정치로 채워지지 않음
  3. 국가를 13개 지리적 지역으로 매핑하는 고정된 매핑을 사용한 지역 분류
  4. 각 기간에 대한 순위 계산 — 글로벌 및 지역 내 순위 모두 포함
  5. 브라우저 사용을 위한 구조화된 데이터 파일로 출력

순위 계산

순위는 각 기간에 대해 독립적으로 다시 계산됩니다. 해당 특정 기간에 대해 데이터를 보고한 국가만 순위에 포함됩니다. 즉, 국가의 순위는 값이 변경되었기 때문만이 아니라 다른 국가가 보고를 시작하거나 중단했기 때문에 변경될 수도 있습니다.

  • 글로벌 순위: 해당 특정 기간의 데이터가 있는 모든 국가 중 위치
  • 지역 순위: 국가가 할당된 지리적 지역 내 위치
  • 순위 변동: 이전 기간의 순위 위치와의 차이(양수 = 순위 상승)
  • 전년 대비 변동: 이전 기간에 비해 기본 값이 변경된 비율
  • 순위 유형: 각 데이터 세트는 'best'(높을수록 좋음, 예: GDP), 'worst'(높을수록 나쁨, 예: CO2 배출량) 또는 'neutral'(고유한 방향성 없음, 예: 인구)로 분류됨

데이터 품질

Data Race는 완전성보다 정확성과 투명성을 우선시합니다. 추정치로 공백을 채우는 대신 공식 출처에서 보고한 내용만 표시합니다. 사용자가 기본 수치를 확인할 수 있도록 모든 시각화는 원본 데이터 소스로 다시 연결됩니다.

  • 문서화된 방법론이 있는 확립된 기관 및 데이터 제공업체의 데이터만 사용
  • 보고된 대로 원본 값을 정확하게 보존 — 반올림, 조정 또는 정규화 없음
  • 누락된 데이터는 추정되거나 보간되지 않고 제외됨
  • 각 데이터 세트 페이지에는 소스 조직 및 원본 데이터에 대한 직접 링크가 표시됨
  • 데이터 범위(국가 수 및 시간 범위)는 모든 시각화에 표시됨

알려진 한계

완벽한 데이터 세트는 없습니다. 사용자는 시각화를 해석할 때 이러한 한계를 고려해야 합니다.

  • 데이터 가용성은 국가 및 기간에 따라 크게 다릅니다. 어떤 국가는 1960년부터 데이터가 있는 반면 다른 국가는 2000년대부터만 데이터가 있습니다.
  • 소스 기관은 과거 데이터를 소급하여 수정할 수 있으며, 이는 업데이트 사이에 과거 값이 변경될 수 있음을 의미합니다.
  • 소스 기관에 의한 방법론적 변경(예: GDP 계산 방법 변경)은 전년 대비 비교 가능성에 영향을 미칠 수 있습니다.
  • 소규모 국가, 영토 및 신생 독립국은 데이터가 불완전하거나 누락되는 경우가 많습니다.
  • 순위는 특정 기간 동안 데이터를 보고한 국가만 반영합니다. 순위에 없다고 해서 값이 0인 것은 아닙니다.