
Để đối phó với khối lượng dữ liệu ngày càng tăng, nghiên cứu định lượng trong khoa học xã hội ngày càng phụ thuộc vào các phương pháp thống kê suy luận thống kê phức tạp. Trong bài viết này, Kevin R. Murphy lập luận rằng, dù những phương pháp này có thể mang lại nhiều giá trị, chúng không nên làm lu mờ tầm quan trọng của các thống kê mô tả vốn dĩ đơn giản hơn, nhưng lại đóng vai trò quan trọng trong việc truyền đạt ý nghĩa nghiên cứu đến các nhà hoạch định chính sách và những người sử dụng kết quả nghiên cứu khác.
Nghiên cứu trong khoa học xã hội và hành vi ngày càng dựa nhiều vào các phương pháp thống kê phức tạp để giải thích dữ liệu. Khi các nhà nghiên cứu bắt đầu đưa “dữ liệu lớn” (tức các tập dữ liệu cực lớn, thường được thu thập tự động, với bốn đặc trưng: khối lượng, tốc độ, đa dạng, độ tin cậy) vào công trình của mình, xu hướng phụ thuộc vào các phương pháp phức tạp để lọc và phân tích dữ liệu sẽ còn tăng mạnh. Trình độ phân tích thống kê cao hơn chắc chắn mang lại lợi ích, giúp giải quyết những câu hỏi mà các công cụ đơn giản không thể xử lý. Nhưng đồng thời, nó cũng kéo theo nhiều thách thức.
Thứ nhất, khi phân tích thống kê trở nên phức tạp hơn, khả năng nhà nghiên cứu và độc giả hiểu được những gì phân tích này có thể hoặc không thể chỉ ra lại giảm xuống.
Thứ hai, bằng chứng cho thấy rõ ràng: khi phân tích thống kê càng phức tạp, nguy cơ mắc lỗi nghiêm trọng trong phân tích và diễn giải càng cao.
Thứ ba, nhiều phương pháp phổ biến trong khoa học xã hội và hành vi lại dựa nặng, thậm chí độc quyền, vào một công cụ đang dần mất uy tín trong cộng đồng khoa học: kiểm định giả thuyết không. Các quyết định then chốt thường dựa vào việc xác định một tham số trong mô hình thống kê có ý nghĩa thống kê hay không. Với các thống kê đơn giản (ví dụ: hệ số tương quan giữa hai biến, sự khác biệt giữa vài giá trị trung bình), kiểm định khá dễ hiểu. Nhưng khi phân tích phức tạp hơn, các thành phần chính của kiểm định (ví dụ: sai số chuẩn của tham số trong mô hình) cũng phức tạp lên, khiến khó hiểu vì sao một tham số nào đó khác 0 một cách có ý nghĩa.
Có lẽ hạn chế lớn nhất của các phương pháp phức tạp là chúng khiến các nhà nghiên cứu khó truyền đạt một cách rõ ràng, chính xác đến khách hàng, thân chủ, nhà hoạch định chính sách, hay bất kỳ ai sử dụng kết quả nghiên cứu để xây dựng giải pháp hoặc chính sách. Thay vì mang lại hiểu biết tốt hơn về hành vi con người, các phương pháp phức tạp thường chỉ làm người dùng cuối thêm rối rắm, khiến biên tập viên và phản biện bối rối, và tạo ra một màn sương mù khó xuyên qua quanh phát hiện nghiên cứu. Trớ trêu thay, hầu như bài báo nào trong khoa học xã hội và hành vi cũng có sẵn một công cụ quan trọng để giải quyết vấn đề này – đó chính là bảng 1, bảng thống kê mô tả thường xuất hiện nhưng lại bị lãng quên trong gần như mọi báo cáo nghiên cứu.
Có lẽ hạn chế lớn nhất của các phương pháp phức tạp là chúng khiến nhà nghiên cứu khó giao tiếp một cách rõ ràng, chính xác với những người cần kết quả.
Trong hơn 40 năm qua, Kevin R. Murphy đã phản biện hàng nghìn bài báo và báo cáo nghiên cứu. Trong lĩnh vực tâm lý học tổ chức, gần như lúc nào tác giả cũng chỉ nhắc đến bảng 1 một lần (ví dụ: “Các thống kê mô tả được trình bày ở Bảng 1”), rồi bỏ qua nó. Sự quan tâm đến thống kê mô tả xuất phát từ việc phản biện nhiều bài cho các tạp chí hàng đầu, nơi mà ý tưởng và diễn giải của tác giả rõ ràng là bất khả thi khi đối chiếu với thống kê mô tả trong bảng 1. Ví dụ, có những bài viết về cách tổ chức phản ứng với khủng hoảng thiếu hụt nguồn lực, nhưng bảng 1 lại cho thấy hầu như không tổ chức nào trong mẫu nghiên cứu thực sự thiếu hụt. Nhiều nghiên cứu khẳng định biến Z trung gian mối quan hệ giữa X và Y, trong khi bảng 1 lại cho thấy: (a) X không liên quan tới Y, tức không có gì để trung gian, hoặc (b) Z chẳng liên quan gì đến X hay Y, tức không thể đóng vai trò trung gian. Kinh nghiệm nghiên cứu, phản biện và biên tập dẫn đến kết luận rằng tầm quan trọng của bảng trong một bài báo nghiên cứu thường tỷ lệ nghịch với số thứ tự bảng. Nói cách khác, bảng 1 mới là bảng quan trọng nhất, chứ không phải bảng chỉ nên lướt qua rồi bỏ. Và càng đi sâu vào những phân tích phức tạp hơn (ví dụ bảng 10), thì khả năng nội dung đúng và dễ hiểu càng giảm.
Thống kê mô tả cần giữ hai vai trò then chốt trong mọi nghiên cứu. Thứ nhất, chúng là công cụ giao tiếp chính. Chúng ta đang sống trong kỷ nguyên vàng của trực quan hóa dữ liệu: các ngôn ngữ phân tích (như R) và phần mềm thống kê hiện có cung cấp những công cụ mạnh mẽ để trực quan hóa và truyền đạt ý nghĩa dữ liệu, nhưng lại ít được khai thác. Nếu muốn giao tiếp hiệu quả với nhà hoạch định chính sách hay người dùng ngoài giới học thuật, đồ họa và thống kê mô tả chính là công cụ hữu ích nhất. Thứ hai, thống kê mô tả nên giữ vai trò “gác cổng”. Nghĩa là, trước khi lao vào phân tích phức tạp, ta phải kiểm tra xem ý tưởng của mình có khả thi không, và có thể kiểm chứng được với dữ liệu trong tay không. Trong một bài báo gần đây, Murphy đề xuất rằng: “Bất kỳ kết quả nào được rút ra từ phân tích dữ liệu phức tạp nhưng không thể chứng minh ít nhất là hợp lý dựa trên các thống kê đơn giản ở bảng 1 (ví dụ: trung bình, độ lệch chuẩn, hệ số tương quan) thì cần bị coi là đáng ngờ và phải diễn giải hết sức thận trọng.”
Phân tích thống kê phức tạp có thể mang lại hiểu biết quý giá, nhưng nếu không thể chứng minh ý tưởng ít nhất là có thể xảy ra dựa trên thông tin ở bảng 1, bạn sẽ gặp hai vấn đề. Một là, bạn có thể sai – thậm chí sai nghiêm trọng – mà không có cách nào biết đúng sai. Hai là, bạn sẽ khó truyền đạt được với người ngoài giới chuyên môn. Chú ý nhiều hơn tới bảng 1 sẽ giúp nghiên cứu của bạn tốt hơn và có tác động thực sự. Đã đến lúc phải trao lại vị trí xứng đáng cho thống kê mô tả.
Dịch từ LSE
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.