Data Race

Metodologia

A transparência é fundamental para o Data Race. Esta página explica como as estatísticas globais são recolhidas, processadas e apresentadas. Os dados não são modificados, estimados nem editorializados — o objetivo é apresentar os números oficiais com a maior fidelidade possível.

Recolha de Dados

Todos os dados são recolhidos de forma programática a partir de APIs públicas oficiais e fornecedores de dados. Cada conjunto de dados é obtido usando scripts Python que se conectam diretamente aos endpoints dos fornecedores, garantindo reprodutibilidade e rastreabilidade. Não está envolvida qualquer introdução manual de dados.

  1. Obtenção de dados em bruto a partir de APIs oficiais e fornecedores de dados (World Bank Open Data, FAOSTAT, Yahoo Finance, etc.)
  2. Validação da integridade da resposta — verificação dos campos esperados, tipos de dados e completude
  3. Armazenamento dos dados validados em formato tabular estruturado para o fluxo de processamento
  4. Registo do URL de origem, timestamp da recolha e número de registos para cada conjunto de dados

Processamento de Dados

Os dados em bruto passam por um fluxo de processamento determinístico. Cada etapa é automatizada e produz o mesmo resultado face aos mesmos dados de entrada. A interpolação ou estimativa é intencionalmente evitada — se um ponto de dados estiver em falta na fonte, permanecerá em falta no conjunto de dados.

  1. Identificação de entidades — ISO 3166-1 alpha-3 para países (ex: USA, JPN, DEU), símbolos de cotação para empresas (ex: AAPL, MSFT)
  2. Exclusão de valores em falta — as lacunas são preservadas, nunca preenchidas com estimativas
  3. Classificação regional utilizando um mapeamento fixo de países para 13 regiões geográficas
  4. Cálculo do ranking para cada período de tempo — rankings globais e dentro da região
  5. Saída para formato Apache Parquet para consultas eficientes baseadas no browser

Cálculo de Ranking

Os rankings são recalculados de forma independente para cada período de tempo. Apenas os países com dados reportados para esse período específico são incluídos no ranking. Isto significa que o ranking de um país pode mudar não só porque o seu valor mudou, mas também porque outros países começaram ou deixaram de reportar.

  • Ranking Global: Posição entre todos os países com dados para esse período específico
  • Ranking Regional: Posição dentro da região geográfica atribuída ao país
  • Mudança de Ranking: Diferença em relação à posição no ranking do período anterior (positivo = subiu)
  • Variação Homóloga: Variação percentual no valor subjacente em relação ao período anterior
  • Tipo de Classificação: Cada conjunto de dados é classificado como 'best' (maior é melhor, ex. PIB), 'worst' (maior é pior, ex. emissões de CO2) ou 'neutral' (sem direção inerente, ex. população)

Visualização

As visualizações são executadas inteiramente no browser utilizando DuckDB-Wasm para consultas SQL em ficheiros Parquet. Nenhum dado é enviado para um servidor. Esta arquitetura garante tempos de carregamento rápidos, capacidade offline e total privacidade dos dados.

  • Corrida de Gráficos de Barras: Rankings de países animados mostrando como as posições mudam ao longo do tempo
  • Gráfico de Linhas: Séries temporais históricas com dicas interativas ao passar o rato para valores detalhados
  • Gráfico Circular: Análise de quota proporcional mostrando como o total global está distribuído
  • Mapa Mundo: Mapa de calor geográfico com escalas codificadas por cores para padrões espaciais
  • Tabela de Dados: Rankings ordenáveis com valores, mudanças de ranking e comparações homólogas
  • Todos os gráficos suportam filtragem regional, fixação de países e seleção de intervalo de períodos

Qualidade dos Dados

Priorizamos a precisão e a transparência em detrimento da completude. Em vez de preencher lacunas com estimativas, mostramos apenas o que as fontes oficiais reportam. Cada visualização tem um link para a sua fonte de dados original para que os utilizadores possam verificar os números subjacentes.

  • Utilização exclusiva de dados de organizações e fornecedores de dados estabelecidos com metodologias documentadas
  • Preservação dos valores originais exatamente como reportados — sem arredondamentos, ajustes ou normalização
  • Os dados em falta são excluídos em vez de serem estimados ou interpolados
  • A página de cada conjunto de dados apresenta a organização de origem e um link direto para os dados originais
  • A cobertura de dados (número de países e intervalo de tempo) é mostrada em cada visualização

Limitações Conhecidas

Nenhum conjunto de dados é perfeito. Os utilizadores devem considerar estas limitações ao interpretar as visualizações:

  • A disponibilidade de dados varia significativamente consoante o país e o período de tempo — algumas nações têm dados desde 1960, enquanto outras apenas a partir da década de 2000
  • As organizações de origem podem rever dados históricos retroativamente, o que significa que os valores passados podem mudar entre atualizações
  • Mudanças metodológicas por parte das organizações de origem (ex: mudanças no método de cálculo do PIB) podem afetar a comparabilidade homóloga
  • Pequenos países, territórios e nações recentemente independentes têm frequentemente dados incompletos ou em falta
  • Os rankings refletem apenas os países que reportaram dados para um determinado período — a ausência num ranking não significa valor zero