Phương pháp luận
Sự minh bạch là cốt lõi trong sứ mệnh của Data Race. Trang này giải thích cách dữ liệu được thu thập, xử lý và trình bày. Dữ liệu không bị sửa đổi, ước tính hay biên tập — mục tiêu là trình bày các số liệu chính thức một cách trung thực nhất có thể.
Thu thập Dữ liệu
Tất cả dữ liệu được thu thập có lập trình từ các API công khai chính thức và nhà cung cấp dữ liệu. Mỗi bộ dữ liệu được lấy bằng các tập lệnh Python kết nối trực tiếp với các endpoint của nhà cung cấp, đảm bảo khả năng tái tạo và truy xuất nguồn gốc. Không có nhập dữ liệu thủ công.
- Lấy dữ liệu thô từ các API chính thức và nhà cung cấp dữ liệu (World Bank Open Data, FAOSTAT, Yahoo Finance, v.v.)
- Xác thực tính toàn vẹn của phản hồi — kiểm tra các trường dự kiến, kiểu dữ liệu và tính đầy đủ
- Lưu trữ dữ liệu đã xác thực ở định dạng bảng có cấu trúc cho quy trình xử lý
- Ghi nhật ký URL nguồn, dấu thời gian lấy dữ liệu và số lượng bản ghi cho mỗi tập dữ liệu
Xử lý Dữ liệu
Dữ liệu thô trải qua một quy trình xử lý xác định. Mỗi bước được tự động hóa và tạo ra cùng một đầu ra khi có cùng một đầu vào. Việc nội suy hoặc ước tính được cố ý tránh — nếu một điểm dữ liệu bị thiếu từ nguồn, nó vẫn sẽ bị thiếu trong tập dữ liệu đầu ra.
- Xác định thực thể — ISO 3166-1 alpha-3 cho quốc gia (vd: USA, JPN, DEU), ký hiệu mã chứng khoán cho công ty (vd: AAPL, MSFT)
- Loại trừ giá trị bị thiếu — các khoảng trống được giữ nguyên, không bao giờ được lấp đầy bằng các ước tính
- Phân loại khu vực sử dụng ánh xạ cố định các quốc gia vào 13 khu vực địa lý
- Tính toán thứ hạng cho mỗi khoảng thời gian — cả thứ hạng toàn cầu và trong khu vực
- Xuất sang định dạng Apache Parquet để truy vấn hiệu quả trên trình duyệt
Tính toán Thứ hạng
Thứ hạng được tính toán lại một cách độc lập cho mỗi khoảng thời gian. Chỉ các quốc gia có dữ liệu được báo cáo cho khoảng thời gian cụ thể đó mới được đưa vào bảng xếp hạng. Điều này có nghĩa là thứ hạng của một quốc gia có thể thay đổi không chỉ vì giá trị của nó thay đổi, mà còn vì các quốc gia khác bắt đầu hoặc ngừng báo cáo.
- Thứ hạng Toàn cầu: Vị trí trong số tất cả các quốc gia có dữ liệu cho khoảng thời gian cụ thể đó
- Thứ hạng Khu vực: Vị trí trong khu vực địa lý được chỉ định của quốc gia
- Thay đổi Thứ hạng: Chênh lệch so với vị trí thứ hạng của kỳ trước (dương = tăng hạng)
- Thay đổi So với Cùng kỳ Năm trước: Phần trăm thay đổi của giá trị cơ sở so với kỳ trước
- Loại Xếp hạng: Mỗi tập dữ liệu được phân loại là 'best' (cao hơn thì tốt hơn, vd: GDP), 'worst' (cao hơn thì tệ hơn, vd: lượng khí thải CO2) hoặc 'neutral' (không có hướng cố hữu, vd: dân số)
Trực quan hóa
Việc trực quan hóa chạy hoàn toàn trong trình duyệt sử dụng DuckDB-Wasm cho các truy vấn SQL trên các tệp Parquet. Không có dữ liệu nào được gửi đến máy chủ. Kiến trúc này đảm bảo thời gian tải nhanh, khả năng ngoại tuyến và quyền riêng tư dữ liệu hoàn toàn.
- Cuộc đua Biểu đồ Cột: Bảng xếp hạng quốc gia dạng hoạt hình cho thấy vị trí thay đổi như thế nào theo thời gian
- Biểu đồ Đường: Chuỗi thời gian lịch sử với các chú giải tương tác khi di chuột để xem giá trị chi tiết
- Biểu đồ Tròn: Phân tích tỷ lệ phần trăm cho thấy tổng số toàn cầu được phân bổ như thế nào
- Bản đồ Thế giới: Bản đồ nhiệt địa lý với thang đo được mã hóa bằng màu sắc cho các mô hình không gian
- Bảng Dữ liệu: Bảng xếp hạng có thể sắp xếp với các giá trị, thay đổi thứ hạng và so sánh với cùng kỳ năm trước
- Tất cả các biểu đồ đều hỗ trợ lọc theo khu vực, ghim quốc gia và chọn phạm vi thời gian
Chất lượng Dữ liệu
Chúng tôi ưu tiên tính chính xác và minh bạch hơn là tính đầy đủ. Thay vì lấp đầy khoảng trống bằng các ước tính, chúng tôi chỉ hiển thị những gì các nguồn chính thức báo cáo. Mỗi biểu đồ trực quan đều liên kết lại với nguồn dữ liệu gốc để người dùng có thể xác minh các con số cơ sở.
- Chỉ sử dụng dữ liệu từ các tổ chức và nhà cung cấp dữ liệu có uy tín với phương pháp luận được ghi chép lại
- Giữ nguyên các giá trị ban đầu chính xác như được báo cáo — không làm tròn, điều chỉnh hoặc chuẩn hóa
- Dữ liệu bị thiếu bị loại trừ chứ không phải được ước tính hay nội suy
- Mỗi trang tập dữ liệu hiển thị tổ chức nguồn và liên kết trực tiếp đến dữ liệu gốc
- Độ bao phủ dữ liệu (số lượng quốc gia và khoảng thời gian) được hiển thị trên mỗi biểu đồ trực quan
Hạn chế đã biết
Không có tập dữ liệu nào là hoàn hảo. Người dùng nên xem xét những hạn chế này khi diễn giải các biểu đồ trực quan:
- Tính khả dụng của dữ liệu thay đổi đáng kể theo quốc gia và khoảng thời gian — một số quốc gia có dữ liệu từ năm 1960, trong khi những quốc gia khác chỉ có từ những năm 2000
- Các tổ chức nguồn có thể sửa đổi dữ liệu lịch sử theo hồi tố, có nghĩa là các giá trị trong quá khứ có thể thay đổi giữa các bản cập nhật
- Những thay đổi về phương pháp luận từ các tổ chức nguồn (vd: thay đổi phương pháp tính GDP) có thể ảnh hưởng đến khả năng so sánh giữa các năm
- Các quốc gia nhỏ, vùng lãnh thổ và các quốc gia mới độc lập thường có dữ liệu không đầy đủ hoặc bị thiếu
- Bảng xếp hạng chỉ phản ánh các quốc gia đã báo cáo dữ liệu cho một khoảng thời gian nhất định — sự vắng mặt trong bảng xếp hạng không có nghĩa là giá trị bằng không