Методология

Прозрачность является основой Data Race. На этой странице объясняется, как глобальная статистика собирается, обрабатывается и представляется. Данные не изменяются, не оцениваются и не редактируются — цель состоит в том, чтобы представить официальные цифры максимально точно.

Сбор данных

Все данные собираются программно из официальных публичных API и поставщиков данных. Каждый набор данных извлекается с помощью скриптов Python, которые напрямую подключаются к конечным точкам поставщиков, обеспечивая воспроизводимость и отслеживаемость. Ручной ввод данных не используется.

Извлечение необработанных данных из официальных API и поставщиков данных (World Bank Open Data, FAOSTAT, Yahoo Finance и т.д.)
Проверка целостности ответа — проверка ожидаемых полей, типов данных и полноты
Сохранение проверенных данных в структурированном табличном формате для конвейера обработки
Регистрация исходного URL-адреса, временной метки извлечения и количества записей для каждого набора данных

Обработка данных

Необработанные данные проходят через детерминированный конвейер обработки. Каждый шаг автоматизирован и дает одинаковый результат при одинаковых входных данных. Интерполяция и оценки намеренно исключены — если точка данных отсутствует в источнике, она остается пропущенной и в наборе данных.

Идентификация объектов — коды ISO 3166-1 alpha-3 для стран (например, USA, JPN, DEU), тикеры для компаний (например, AAPL, MSFT)
Исключение пропущенных значений — пробелы сохраняются, никогда не заполняются оценками
Региональная классификация с использованием фиксированного распределения стран по 13 географическим регионам
Расчет рейтинга для каждого периода времени — как глобального, так и внутри региона
Вывод в формат Apache Parquet для эффективных запросов в браузере

Расчет рейтинга

Рейтинги пересчитываются независимо для каждого периода времени. В рейтинг включаются только страны с сообщенными данными за этот конкретный период. Это означает, что рейтинг страны может измениться не только из-за изменения ее показателя, но и из-за того, что другие страны начали или прекратили предоставлять данные.

Глобальный рейтинг: Позиция среди всех стран, имеющих данные за этот конкретный период
Региональный рейтинг: Позиция в пределах назначенного географического региона страны
Изменение рейтинга: Разница с позицией в рейтинге за предыдущий период (положительное значение = поднялся)
Изменение за год: Процентное изменение базового показателя по сравнению с предыдущим периодом
Тип рейтинга: Каждый набор данных классифицируется как 'best' (чем выше, тем лучше, напр. ВВП), 'worst' (чем выше, тем хуже, напр. выбросы CO2) или 'neutral' (нет встроенного направления, напр. население)

Визуализация

Визуализации выполняются полностью в браузере с использованием DuckDB-Wasm для SQL-запросов к файлам Parquet. Данные не отправляются на сервер. Эта архитектура обеспечивает быстрое время загрузки, возможность работы в автономном режиме и полную конфиденциальность данных.

Гонка столбчатых диаграмм: Анимированные рейтинги стран, показывающие изменение позиций с течением времени
Линейный график: Исторические временные ряды с интерактивными всплывающими подсказками для просмотра подробных значений
Круговая диаграмма: Анализ пропорциональных долей, показывающий распределение глобальной суммы
Карта мира: Географическая тепловая карта с цветовой шкалой для отображения пространственных закономерностей
Таблица данных: Сортируемые рейтинги со значениями, изменениями рейтинга и сравнениями по годам
Все диаграммы поддерживают региональную фильтрацию, закрепление стран и выбор диапазона периодов

Качество данных

Мы отдаем приоритет точности и прозрачности перед полнотой. Вместо того чтобы заполнять пробелы оценками, мы показываем только то, что сообщают официальные источники. Каждая визуализация содержит ссылку на исходный источник данных, чтобы пользователи могли проверить базовые цифры.

Использование данных только из признанных организаций и поставщиков данных с документированными методологиями
Сохранение исходных значений точно в том виде, в котором о них сообщается — без округления, корректировки или нормализации
Пропущенные данные исключаются, а не оцениваются или интерполируются
На странице каждого набора данных отображается организация-источник и прямая ссылка на исходные данные
Охват данных (количество стран и временной диапазон) показан на каждой визуализации

Известные ограничения

Идеальных наборов данных не существует. Пользователи должны учитывать эти ограничения при интерпретации визуализаций:

Доступность данных значительно варьируется в зависимости от страны и периода времени — по некоторым странам есть данные с 1960 года, в то время как по другим только с 2000-х годов
Организации-источники могут пересматривать исторические данные задним числом, что означает, что прошлые значения могут изменяться между обновлениями
Методологические изменения в организациях-источниках (например, изменения метода расчета ВВП) могут повлиять на сопоставимость показателей за год
Малые страны, территории и новые независимые государства часто имеют неполные или отсутствующие данные
Рейтинги отражают только те страны, которые предоставили данные за определенный период — отсутствие в рейтинге не означает нулевое значение