Data Race

방법론

투명성은 Data Race의 핵심 원칙입니다. 이 페이지에서는 글로벌 통계 데이터의 수집, 처리 및 제시 방식을 설명합니다. 데이터를 수정하거나 추정하거나 편집하지 않으며, 공식 수치를 가능한 한 충실하게 제시하는 것을 목표로 합니다.

데이터 수집

모든 데이터는 공식 공개 API 및 데이터 제공업체에서 프로그래밍 방식으로 수집됩니다. 각 데이터 세트는 제공자의 엔드포인트에 직접 연결되는 Python 스크립트를 사용하여 가져오므로 재현성과 추적 가능성이 보장됩니다. 수동 데이터 입력은 포함되지 않습니다.

  1. 공식 API 및 데이터 제공업체(World Bank Open Data, FAOSTAT, Yahoo Finance 등)에서 원시 데이터 가져오기
  2. 응답 무결성 검증 — 예상 필드, 데이터 유형 및 완전성 확인
  3. 처리 파이프라인을 위해 검증된 데이터를 구조화된 표 형식으로 저장
  4. 각 데이터 세트의 소스 URL, 가져오기 타임스탬프 및 레코드 수 기록

데이터 처리

원시 데이터는 결정론적 처리 파이프라인을 거칩니다. 각 단계는 자동화되어 있으며 동일한 입력이 주어지면 동일한 출력을 생성합니다. 보간이나 추정은 의도적으로 사용하지 않습니다. 소스에서 데이터 포인트가 누락된 경우 데이터셋에서도 누락된 상태로 유지됩니다.

  1. 엔티티 식별 — 국가는 ISO 3166-1 alpha-3(예: USA, JPN, DEU), 기업은 티커 심볼(예: AAPL, MSFT)로 식별
  2. 결측치 제외 — 공백은 보존되며 추정치로 채워지지 않음
  3. 국가를 13개 지리적 지역으로 매핑하는 고정된 매핑을 사용한 지역 분류
  4. 각 기간에 대한 순위 계산 — 글로벌 및 지역 내 순위 모두 포함
  5. 브라우저 기반의 효율적인 쿼리를 위해 Apache Parquet 형식으로 출력

순위 계산

순위는 각 기간에 대해 독립적으로 다시 계산됩니다. 해당 특정 기간에 대해 데이터를 보고한 국가만 순위에 포함됩니다. 즉, 국가의 순위는 값이 변경되었기 때문만이 아니라 다른 국가가 보고를 시작하거나 중단했기 때문에 변경될 수도 있습니다.

  • 글로벌 순위: 해당 특정 기간의 데이터가 있는 모든 국가 중 위치
  • 지역 순위: 국가가 할당된 지리적 지역 내 위치
  • 순위 변동: 이전 기간의 순위 위치와의 차이(양수 = 순위 상승)
  • 전년 대비 변동: 이전 기간에 비해 기본 값이 변경된 비율
  • 순위 유형: 각 데이터 세트는 'best'(높을수록 좋음, 예: GDP), 'worst'(높을수록 나쁨, 예: CO2 배출량) 또는 'neutral'(고유한 방향성 없음, 예: 인구)로 분류됨

시각화

시각화는 Parquet 파일에 대한 SQL 쿼리를 위해 DuckDB-Wasm을 사용하여 브라우저에서 전적으로 실행됩니다. 데이터는 서버로 전송되지 않습니다. 이 아키텍처는 빠른 로드 시간, 오프라인 기능 및 완벽한 데이터 개인 정보 보호를 보장합니다.

  • 막대 그래프 레이스: 시간에 따라 위치가 어떻게 변하는지 보여주는 애니메이션 국가 순위
  • 꺾은선형 차트: 상세한 값을 위한 대화형 호버 도구 설명이 포함된 과거 시계열
  • 원형 차트: 글로벌 총계가 어떻게 분포되어 있는지 보여주는 비례 점유율 분석
  • 세계 지도: 공간 패턴에 대한 색상으로 구분된 척도가 있는 지리적 히트맵
  • 데이터 테이블: 값, 순위 변동 및 전년 대비 비교가 포함된 정렬 가능한 순위
  • 모든 차트는 지역 필터링, 국가 고정 및 기간 범위 선택을 지원합니다.

데이터 품질

우리는 완전성보다 정확성과 투명성을 우선시합니다. 추정치로 공백을 채우는 대신 공식 출처에서 보고한 내용만 표시합니다. 사용자가 기본 수치를 확인할 수 있도록 모든 시각화는 원본 데이터 소스로 다시 연결됩니다.

  • 문서화된 방법론이 있는 확립된 기관 및 데이터 제공업체의 데이터만 사용
  • 보고된 대로 원본 값을 정확하게 보존 — 반올림, 조정 또는 정규화 없음
  • 누락된 데이터는 추정되거나 보간되지 않고 제외됨
  • 각 데이터 세트 페이지에는 소스 조직 및 원본 데이터에 대한 직접 링크가 표시됨
  • 데이터 범위(국가 수 및 시간 범위)는 모든 시각화에 표시됨

알려진 한계

완벽한 데이터 세트는 없습니다. 사용자는 시각화를 해석할 때 이러한 한계를 고려해야 합니다.

  • 데이터 가용성은 국가 및 기간에 따라 크게 다릅니다. 어떤 국가는 1960년부터 데이터가 있는 반면 다른 국가는 2000년대부터만 데이터가 있습니다.
  • 소스 기관은 과거 데이터를 소급하여 수정할 수 있으며, 이는 업데이트 사이에 과거 값이 변경될 수 있음을 의미합니다.
  • 소스 기관에 의한 방법론적 변경(예: GDP 계산 방법 변경)은 전년 대비 비교 가능성에 영향을 미칠 수 있습니다.
  • 소규모 국가, 영토 및 신생 독립국은 데이터가 불완전하거나 누락되는 경우가 많습니다.
  • 순위는 특정 기간 동안 데이터를 보고한 국가만 반영합니다. 순위에 없다고 해서 값이 0인 것은 아닙니다.