방법론

투명성은 Data Race의 핵심 원칙입니다. 이 페이지에서는 글로벌 통계 데이터의 수집, 처리 및 제시 방식을 설명합니다. 데이터를 수정하거나 추정하거나 편집하지 않으며, 공식 수치를 가능한 한 충실하게 제시하는 것을 목표로 합니다.

데이터 수집

모든 데이터는 공식 공개 API 및 데이터 제공업체에서 프로그래밍 방식으로 수집됩니다. 각 데이터 세트는 제공자의 엔드포인트에 직접 연결되는 Python 스크립트를 사용하여 가져오므로 재현성과 추적 가능성이 보장됩니다. 수동 데이터 입력은 포함되지 않습니다.

원시 데이터는 결정론적 처리 파이프라인을 거칩니다. 각 단계는 자동화되어 있으며 동일한 입력이 주어지면 동일한 출력을 생성합니다. 보간이나 추정은 의도적으로 사용하지 않습니다. 소스에서 데이터 포인트가 누락된 경우 데이터셋에서도 누락된 상태로 유지됩니다.

순위는 각 기간에 대해 독립적으로 다시 계산됩니다. 해당 특정 기간에 대해 데이터를 보고한 국가만 순위에 포함됩니다. 즉, 국가의 순위는 값이 변경되었기 때문만이 아니라 다른 국가가 보고를 시작하거나 중단했기 때문에 변경될 수도 있습니다.

글로벌 순위: 해당 특정 기간의 데이터가 있는 모든 국가 중 위치
지역 순위: 국가가 할당된 지리적 지역 내 위치
순위 변동: 이전 기간의 순위 위치와의 차이(양수 = 순위 상승)
전년 대비 변동: 이전 기간에 비해 기본 값이 변경된 비율
순위 유형: 각 데이터 세트는 'best'(높을수록 좋음, 예: GDP), 'worst'(높을수록 나쁨, 예: CO2 배출량) 또는 'neutral'(고유한 방향성 없음, 예: 인구)로 분류됨

시각화는 Parquet 파일에 대한 SQL 쿼리를 위해 DuckDB-Wasm을 사용하여 브라우저에서 전적으로 실행됩니다. 데이터는 서버로 전송되지 않습니다. 이 아키텍처는 빠른 로드 시간, 오프라인 기능 및 완벽한 데이터 개인 정보 보호를 보장합니다.

우리는 완전성보다 정확성과 투명성을 우선시합니다. 추정치로 공백을 채우는 대신 공식 출처에서 보고한 내용만 표시합니다. 사용자가 기본 수치를 확인할 수 있도록 모든 시각화는 원본 데이터 소스로 다시 연결됩니다.

완벽한 데이터 세트는 없습니다. 사용자는 시각화를 해석할 때 이러한 한계를 고려해야 합니다.

데이터 가용성은 국가 및 기간에 따라 크게 다릅니다. 어떤 국가는 1960년부터 데이터가 있는 반면 다른 국가는 2000년대부터만 데이터가 있습니다.
소스 기관은 과거 데이터를 소급하여 수정할 수 있으며, 이는 업데이트 사이에 과거 값이 변경될 수 있음을 의미합니다.
소스 기관에 의한 방법론적 변경(예: GDP 계산 방법 변경)은 전년 대비 비교 가능성에 영향을 미칠 수 있습니다.
소규모 국가, 영토 및 신생 독립국은 데이터가 불완전하거나 누락되는 경우가 많습니다.
순위는 특정 기간 동안 데이터를 보고한 국가만 반영합니다. 순위에 없다고 해서 값이 0인 것은 아닙니다.