Liệu “Trình diện dữ liệu” có phải là tương lai của nghiên cứu xã hội thực nghiệm?

Xem xét tổng quan về lịch sử nghiên cứu xã hội thực nghiệm và cách nhà nước sử dụng nó, Steve Fuller lập luận rằng khi công việc phân tích dữ liệu dần được chuyển sang cho các tổ chức thương mại phi chính phủ, các nhà nghiên cứu và công chức có thể học hỏi và tận dụng phong cách thực nghiệm của ‘trình diện dữ liệu’ (data surfacing) do các công ty phân tích dữ liệu triển khai.

Ảnh: Infographics + Data Visualization via Behance | CC BY-NC-ND 4.0

Từ dữ liệu của nhà nước đến quyền lực dữ liệu tư nhân

Công chức nhà nước từng là đối tượng chính của việc thu thập dữ liệu có hệ thống về sức khỏe và tài sản của người dân. Nhưng cho đến đầu thế kỷ XIX, những dữ liệu này chủ yếu được thu thập nhằm kiểm kê phục vụ mục đích thuế, thương mại hoặc chiến tranh. Chính các nhà Công lợi Anh (English Utilitarians) đã nhận ra rằng dữ liệu không chỉ mang tính thống kê mà còn có thể được sử dụng một cách năng động, với tầm nhìn về các xu hướng tương lai, hướng tới sự tiến bộ thông qua các can thiệp có chiến lược của nhà nước. Thêm vào  đó, các nhà thực chứng người Pháp đã sắp xếp dữ liệu xoay quanh một chuẩn mực và các sai lệch của nó, từ đó diễn giải tình trạng sức khỏe hay bệnh lý của xã hội.

Đến năm 1870, cách tiếp cận kép này đối với ‘thống kê’ đã trở nên phổ biến, dẫn đến niềm tin rằng, chẳng hạn: nước Đức thống nhất của Bismarck đang “trỗi dậy” ở châu Âu, Pháp đang “suy tàn” và Anh đã “vươn quá xa” với các cam kết đế quốc.

Kể từ đó, nghiên cứu xã hội thực nghiệm đã thay đổi đáng kể. Mặc dù thuật ngữ ‘thống kê’ (statistics) ban đầu phản ánh mối quan tâm của nhà nước đối với dữ liệu, nhưng ngày nay nhà nước không còn là bên thu thập và sử dụng dữ liệu chủ yếu ở quy mô lớn nữa. Hơn thế nữa, các phương pháp thu thập dữ liệu của nhà nước thậm chí có thể không còn tinh vi, đáng tin cậy hơn so với các viện nghiên cứu tư nhân hoặc các công ty thương mại. Ngoại lệ đáng chú ý là Trung Quốc, nơi mô hình tư bản nhà nước của họ phụ thuộc vào việc chia sẻ dữ liệu giữa nhóm ngành công và tư.

Thời đại hậu sự thật và sự hoài nghi công khai đối với dữ liệu nghiên cứu

Hiện nay, có một cảm giác chung rằng chúng ta đang sống trong “thời đại hậu sự thật” (post-truth). Tuy nhiên, hậu sự thật không phải là sự từ chối các sự thật. Ngược lại, đó là hệ quả của việc ngày càng có nhiều bên có khả năng sản xuất, thu thập và phân phối dữ liệu – nền tảng để suy luận ra sự thật. Điều này làm lung lay khái niệm mặc định về cái gì là thật hay giả. Công chúng ngày nay hiểu rằng các nhà nghiên cứu có thể cố tình giấu giếm thông tin, thậm chí nói dối nhằm làm sai lệch kết quả nghiên cứu.

Nóivề sự trỗi dậy của truyền thông đại chúng trong thời kỳ Cộng hòa Weimar, Elisabeth Noelle-Neumann từng mô tả một hiện tượng tương tự mà bà gọi là ‘xoắn ốc im lặng’ (spiral of silence). Theo đó, các tiếng nói chiếm ưu thế sẽ dìm những quan điểm đối lập xuống, cho đến khi những người này bất ngờ xuất hiện vào thời điểm bỏ phiếu kín, giống như “đám đông im lặng’ (silent majority) theo như cách gọi của Tổng thống Mỹ Richard Nixon.

Dư luận và sự tích hợp dữ liệu – Những thách thức ban đầu của nghiên cứu xã hội thực nghiệm

Thành công của nghiên cứu xã hội thực nghiệm trong lịch sử phụ thuộc vào một mối quan hệ bất cân xứng giữa nhà nghiên cứu và đối tượng nghiên cứu. Những công cụ để xây dựng và phá vỡ sự bất cân xứng này đã được đặt nền móng vào đầu thế kỷ XX.

Năm 1908, Graham Wallas, một trong những giảng viên chính trị sáng lập của LSE, đã chỉ ra rằng các cuộc khảo sát và thăm dò dư luận có thể khai thác những xu hướng vô thức trong tập thể—những xu hướng thường không được bộc lộ qua bầu cử hay hành vi mua bán. Khi được kết tinh thành dữ liệu, những thông tin này có thể được sử dụng làm bằng chứng về những quan điểm mà ngay cả chính người được hỏi cũng chưa từng suy nghĩ rõ ràng.

Walter Lippmann là một trong những học trò của Wallas, sau này trở thành nhà báo có ảnh hưởng nhất nước Mỹ thế kỷ XX. Ông lập luận rằng “dư luận” chỉ là một thực thể giả tưởng do các cuộc thăm dò và khảo sát tạo ra, nhưng không vì thế mà nó kém quyền lực. Do đó, ông kêu gọi nhà nước cấp phép cho tất cả các hoạt động khảo sát dư luận, nhưng đề xuất này đã bị phớt lờ.. Hệ quả là ngày nay, cả nhà nước và  tư nhân đều phải tìm cách “chiều lòng” hoặc lảng tránh dư luận, trong khi giới học thuật trở thành đại diện cung cấp dữ liệu chất lượng cao cho mọi bên sử dụng.

Từ khai thác dữ liệu đến “trình diện dữ liệu”

Sự xuất hiện của dữ liệu lớn (big data) đã làm thay đổi cuộc chơi. Nếu trước đây, dữ liệu được tạo ra thông qua sự tham gia có ý thức của người được nghiên cứu, thì dữ liệu lớn chủ yếu bao gồm thông tin mà đối tượng để lại một cách vô thức khi họ duyệt web, nhấp chuột hay bày tỏ cảm xúc trực tuyến. Trong bối cảnh này, “khai thác dữ liệu” (data mining) đã trở thành chiến lược phổ biến, nơi các thuật toán được triển khai để lọc ra đúng những gì khách hàng cần và bỏ qua phần còn lại như nhiễu.

Tuy nhiên, công ty phân tích dữ liệu Palantir lại có cách tiếp cận khác gọi là “trình diện dữ liệu” (data surfacing). Thay vì chỉ lấy thông tin theo yêu cầu, Palantir cho rằng mọi dữ liệu đều có thể hữu ích. Họ sắp xếp và hiển thị dữ liệu theo cách giúp người dùng nhận ra các xu hướng hoặc thông tin quan trọng mà họ có thể đã bỏ qua.

Cách tiếp cận này có thể được so sánh với phương pháp “lý thuyết nền tảng” (grounded theory) trong nghiên cứu xã hội, nơi nhà nghiên cứu không áp đặt giả thuyết trước mà để dữ liệu tự tiết lộ các mô hình. Điều này cũng giống như cách mà Palantir nhìn nhận về với dữ liệu lớn: xem nó như một đối tượng nghiên cứu thay vì chỉ là một nguồn tài nguyên để khai thác theo nhu cầu sẵn có.

Lời kết: Liệu “trình diện dữ liệu” có phải là tương lai của nghiên cứu thực nghiệm?

Nếu các công ty phân tích dữ liệu như Palantir thực sự cung cấp quyền truy cập toàn diện và hiệu quả vào tất cả các dữ liệu có thể khai thác, thì điều này có khả năng định nghĩa lại cách mà các nhà nghiên cứu tiếp cận dữ liệu.

Thiên kiến xác nhận (confirmation bias) không chỉ xuất hiện trong khai thác dữ liệu thương mại mà còn phổ biến trong cả sản xuất tri thức học thuật, nơi mà phần lớn các nghiên cứu không được trích dẫn hoặc đọc rộng rãi do không phù hợp với các xu hướng. Palantir có thể mở ra một cách tiếp cận mới, nơi trọng tâm không còn là khai thác dữ liệu theo nhu cầu có sẵn, mà là khám phá ý nghĩa sâu rộng của dữ liệu như một thực thể động.

Nếu vậy, có lẽ nghiên cứu xã hội thực nghiệm cần một sự điều chỉnh lớn để tận dụng tối đa tiềm năng của dữ liệu lớn trong tương lai.

Dịch từ LSE

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm