Khoa học xã hội và cuộc khủng hoảng niềm tin: Khi một nửa các nghiên cứu không thể tái lập

Kết quả từ một đại dự án kéo dài nhiều năm đã phơi bày một sự thật trần trụi về độ tin cậy của các công trình khoa học, nhưng đồng thời cũng mở ra một tia hy vọng mới cho tương lai.

Hàng trăm nhà khoa học đã rà soát kỹ lưỡng hàng nghìn bài báo nghiên cứu trong khuôn khổ một dự án trọng điểm nhằm xác định liệu các thí nghiệm và phân tích dữ liệu có thể lặp lại được hay không.

Ảnh: chụp bởi Kelly Sikkema via Unsplash | Unsplash License

Một đại dự án kéo dài bảy năm, khảo sát 3.900 bài báo khoa học xã hội, đã khép lại với một phát hiện đáng suy ngẫm: các nhà nghiên cứu chỉ có thể tái lập kết quả của một nửa số nghiên cứu mà họ đã thử nghiệm.

John Ioannidis, một nhà khoa học tại Đại học Stanford (California), người không trực tiếp tham gia chương trình này, nhận định rằng các kết luận từ sáng kiến mang tên Dự án Hệ thống hóa Niềm tin vào Nghiên cứu và Bằng chứng Mở (SCORE) là điều đã được “nhiều người dự đoán”. Ông cho rằng dù quy mô và phạm vi của dự án rất ấn tượng, nhưng kết quả lại “không gây ngạc nhiên”, bởi chúng tương đồng với những phát hiện từ các nghiên cứu nhỏ hơn trước đó.

Văn hóa “xuất bản hay là chết” (publish or perish) được xem là nguyên nhân chính dẫn đến cuộc khủng hoảng về khả năng tái lập kết quả nghiên cứu.

Các nhà nghiên cứu đã đi sâu tìm hiểu “cuộc khủng hoảng” về độ tin cậy của các kết quả khoa học trong hơn một thập kỷ qua. Họ nhận thấy rằng nhiều thí nghiệm khoa học không thể lặp lại – không chỉ trong lĩnh vực khoa học xã hội mà còn lan sang cả y sinh học.

Những phát hiện của SCORE – được đúc kết từ công trình của 865 nhà khoa học khi rà soát các bài báo công bố trên 62 tạp chí thuộc các lĩnh vực kinh tế, giáo dục, tâm lý học và xã hội học – không nhất thiết đồng nghĩa với việc nền khoa học đang vận hành kém hiệu quả. Theo Tim Errington, trưởng bộ phận nghiên cứu tại Trung tâm Khoa học Mở (đơn vị điều phối một phần dự án), một số kết quả không thể lặp lại có thể do sai sót khách quan hoặc số ít trường hợp hành vi sai trái. Tuy nhiên, SCORE nhận thấy rằng trong nhiều trường hợp, các bài báo đơn giản là không cung cấp đủ dữ liệu hoặc chi tiết kỹ thuật để người sau có thể tái lập thí nghiệm một cách chính xác. Các phương pháp hoặc mô hình phân tích mới cũng có thể dẫn đến những kết quả khác biệt một cách hợp lệ. Điều này có nghĩa là, thay vì tiếp nhận các bài báo một cách hời hợt, giới nghiên cứu nên xem mỗi công trình là “một mảnh ghép trong bức tranh tổng thể”, Errington nhấn mạnh.

Kết quả nghiên cứu của dự án đã được công bố hôm nay qua ba bài báo trên tạp chí Nature. Nhóm SCORE đã kiểm chứng xem các kết quả công bố trước đó có còn đứng vững hay không dựa trên ba tiêu chí: khả năng tái lập phân tích, tính bền vững và khả năng sao chép thí nghiệm. Dự án được Cơ quan Dự án Nghiên cứu Tiên tiến Quốc phòng Hoa Kỳ tài trợ, với mục tiêu cuối cùng là xây dựng các công cụ tự động nhằm định chuẩn điểm tin cậy cho các phát hiện khoa học xã hội.

Ông Ioannidis nhận định dự án SCORE “mang lại hy vọng rằng cộng đồng khoa học hiện đang nhìn nhận những vấn đề then chốt này một cách cực kỳ nghiêm túc”.

Kiểm tra, kiểm tra lại và lặp lại.

Một trong những thước đo độ tin cậy của một bài báo là khả năng tái lập (reproducibility) – nghĩa là khi phân tích chính xác cùng một bộ dữ liệu phải cho ra cùng một kết quả. Khi các thành viên nhóm SCORE nỗ lực tái lập phân tích dữ liệu của 600 bài báo, họ nhận thấy chỉ có 145 bài cung cấp đủ chi tiết để thực hiện. Và trong số này, chỉ 53% có thể tái lập sao cho kết quả khớp chính xác. Tuy nhiên, Errington lý giải rằng nhiều thất bại có thể bắt nguồn từ việc các nhà nghiên cứu của dự án phải tự phỏng đoán quy trình hoặc khôi phục dữ liệu thô. Việc chia sẻ dữ liệu mở và minh bạch hóa phương pháp luận sẽ là chìa khóa để giải quyết vấn đề này.

Dự án nghiên cứu quy mô lớn về khả năng tái lập kết quả đã thất bại trong việc xác thực hàng chục nghiên cứu y sinh học.

Nhóm SCORE cũng kiểm tra tính vững chắc của các nghiên cứu: liệu một phương án phân tích thay thế hợp lý trên cùng dữ liệu gốc có cho ra kết luận tương đương hay không. Trong số 100 bài báo được soi xét, khoảng ba phần tư đã vượt qua bài kiểm tra. Tuy nhiên, có 2% trường hợp phân tích mới lại đưa ra kết luận trái ngược hoàn toàn với bản gốc. “Điều đó thật đáng lo ngại,” Errington nói. Ông cho biết thêm, các công cụ tự động mới nổi chạy nhiều kịch bản phân tích khả thi trên cùng một dữ liệu – một kỹ thuật gọi là phân tích đa vũ trụ – có thể cải thiện tính bền vững của các nghiên cứu trong tương lai bằng cách cho phép các nhà nghiên cứu đối soát các phương pháp khác nhau trước khi công bố.

Cuối cùng, SCORE thử nghiệm khả năng sao chép (replicability) của các bài báo – nhiệm vụ thách thức nhất trong cả ba. Các nhà nghiên cứu đã cố gắng lặp lại toàn bộ thí nghiệm bằng cách thu thập và phân tích dữ liệu mới từ đầu. Trong số 164 nghiên cứu mục tiêu, họ chỉ có thể sao chép thành công 49% với ý nghĩa thống kê rõ ràng. Con số này gần như tương đồng với kết quả từ các nỗ lực tái lập khoa học trước đây.

Các nghiên cứu tiền nhiệm từng cố gắng nâng cao tỷ lệ tái lập bằng cách áp dụng các quy trình thí nghiệm chi tiết và tối ưu nhất. Một nghiên cứu đáng chú ý năm 2023, do một trong những lãnh đạo của SCORE đồng tác giả, đã cho thấy kết quả ấn tượng khi tuân thủ các quy trình như vậy, nhưng sau đó đã bị rút lại vào năm 2024 do những lo ngại về thủ tục thực hiện.

Dựa trên kết quả của SCORE và các dự án tương tự, nhà kinh tế học Abel Brodeur, người sáng lập Viện Nghiên cứu Sao chép tại Đại học Ottawa, cho biết ông luôn giữ thái độ hoài nghi trước các bài báo mới công bố. Ông chia sẻ: “Tôi sẽ chờ đợi nhiều năm để xem có thêm các nghiên cứu khác thực hiện phân tích tương đương và tìm ra kết quả tương tự hay không” trước khi thực sự tin tưởng vào bất kỳ phát hiện nào.

Độc lập với SCORE, Brodeur đã công bố một bài báo trên tạp chí Nature tuần này về khả năng tái lập và tính ổn định của các nghiên cứu kinh tế và chính trị. Sử dụng hai chiến lược – đánh giá bởi các chuyên gia độc lập và tổ chức các sự kiện kiểm chứng nhóm trong một ngày – ông và các đồng nghiệp đã thu được kết quả khả quan hơn so với SCORE. Trong số 110 bài báo, 85% có thể tái lập bằng phương pháp tính toán. Một lý do khả thi là nhóm nghiên cứu chỉ xem xét các công trình công bố trong giai đoạn 2022–2023, thời điểm mà theo Brodeur, các chuẩn mực về công khai dữ liệu và mã nguồn đã tốt hơn nhiều so với trước đây. Trong khi đó, các bài báo của SCORE trải dài từ năm 2009 đến 2018. “Mọi thứ đang chuyển biến tốt hơn”, Brodeur khẳng định.

Kiểm tra khả năng dự đoán

Theo Errington, vì các nỗ lực tái lập thủ công rất tốn kém và mất thời gian, việc ứng dụng các công cụ tự động – bao gồm cả trí tuệ nhân tạo – để dự đoán tính hợp lý của một bài báo sẽ mang lại lợi ích to lớn cho ngành khoa học.

Liệu trí tuệ nhân tạo có đang dẫn đến cuộc khủng hoảng về khả năng tái lập kết quả trong khoa học?

Giá trị của các công cụ này thường được định chuẩn dựa trên khả năng của con người, vì vậy nhóm SCORE đã bắt đầu bằng việc kiểm tra xem con người có thể dự đoán chính xác khả năng tái lập của các bài báo hay không. Hai chiến lược đã được thử nghiệm: một qua thị trường dự đoán trực tuyến và một qua thảo luận nhóm có cấu trúc. Theo bản thảo đăng tải trên máy chủ lưu trữ bản thảo MetaArXiv hôm nay, các chiến lược này đạt độ chính xác từ 76% đến 78%.

Những nỗ lực ban đầu của nhóm SCORE nhằm thực hiện điều tương tự với các công cụ tự động đời cũ đã không mang lại hiệu quả. Tuy nhiên, chưa có nhóm nào trong số đó sử dụng các mô hình trí tuệ nhân tạo hiện đại như các mô hình ngôn ngữ lớn.

Andrew Tyner tại Trung tâm Khoa học Mở đang dẫn đầu một Thử thách Dự đoán Khả năng Tái tạo độc lập với SCORE, hiện đang thử nghiệm các công cụ tính toán tiên tiến hơn, bao gồm cả các mô hình ngôn ngữ lớn. Cuộc thi này sẽ trao giải thưởng tiền mặt cho những giải pháp xuất sắc nhất.

Trong vòng đầu tiên vào tháng 10 năm ngoái, mười đội sử dụng trí tuệ nhân tạo đã đạt điểm số thấp hơn cả mức độ ngẫu nhiên. Nhưng đến vòng thứ hai vừa kết thúc tháng trước, mô hình trí tuệ nhân tạo tốt nhất đã đạt độ chính xác 68,5%. Vòng thứ ba hiện vẫn đang tiếp diễn.

Errington nhận định những kết quả này rất đáng khích lệ, cho thấy trí tuệ nhân tạo một ngày nào đó sẽ hữu ích trong việc thẩm định khoa học. Dù vậy, ông cũng lưu ý rằng chúng ta vẫn còn một chặng đường dài phía trước: “Chúng ta thậm chí còn chưa tiến đến gần đích.”

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm