Lần đầu tiên có công cụ AI phát hiện gian lận trong bình duyệt khoa học

Gian lận trong bình duyệt khoa học đang là vấn đề nhức nhối hơn nhiều người nghĩ. Và lần đầu tiên, một nhà xuất bản đã phát triển được công cụ trí tuệ nhân tạo chuyên dùng để phát hiện loại gian lận này.

Ảnh: Ladybug and Robot via Behance | CC BY-NC-ND 4.0

Bình duyệt khoa học là gì, và tại sao lại bị làm giả?

Trước khi một bài báo khoa học được đăng lên tạp chí, nó phải trải qua bước bình duyệt — tức là được các chuyên gia độc lập đọc và nhận xét, nhằm đảm bảo chất lượng nghiên cứu. Đây là cơ chế kiểm soát chất lượng nền tảng của xuất bản học thuật.

Chính vì vai trò quan trọng đó, bình duyệt cũng trở thành mục tiêu của gian lận. Một số cá nhân hoặc nhóm có tổ chức sẽ viết những bài bình duyệt hời hợt, sao chép từ mẫu có sẵn, thậm chí trùng lặp hoàn toàn với nhau — mục đích là giúp các bản thảo “lách” qua quy trình kiểm duyệt, hoặc cố tình nhét vào bài bình duyệt những trích dẫn đến công trình của chính họ để tăng chỉ số ảnh hưởng. Hiện tượng này được các nhà nghiên cứu gọi là “xưởng bình duyệt” (review mills).

Vấn đề đang lớn đến mức nào?

Các con số thống kê cho thấy đây không phải chuyện nhỏ lẻ.

Nhà xuất bản PLOS (Mỹ) cho biết từ năm 2024 đến 2026, họ đã phải điều tra khoảng 150 bài báo vì nghi ngờ gian lận trong bình duyệt, kết quả là 40 bài bị rút hoàn toàn và 55 bài khác bị gắn cờ cảnh báo.

Hai nghiên cứu độc lập về các bài bình duyệt công khai cũng phát hiện hàng trăm trường hợp đánh giá có dấu hiệu sao chép từ một mẫu chung: cách diễn đạt giống nhau, lỗi đánh máy giống nhau, và đều trích dẫn bài báo của chính người đánh giá.

Bà Renee Hoch, trưởng bộ phận đạo đức xuất bản tại PLOS, nhận định thẳng thắn: “Tôi nghi ngờ rằng những gì chúng tôi phát hiện mới chỉ là phần nổi của một tảng băng rất lớn.”

Công cụ mới hoạt động như thế nào?

Để đối phó với tình trạng này, Nhà xuất bản Vật lý học (IOPP) tại Bristol, Anh, đã phát triển Công cụ Kiểm tra Bình duyệt Trùng lặp (Duplicate Review Checker – DRC) và chính thức triển khai trên toàn bộ các tạp chí của mình từ ngày 5 tháng 5 vừa qua.

Công cụ này hoạt động theo hai bước:

  • Bước 1: Một mô hình AI quét toàn bộ kho dữ liệu của nhà xuất bản và tìm ra 50 báo cáo bình duyệt có nội dung gần giống nhất với bài đang được kiểm tra.
  • Bước 2: Một thuật toán so sánh văn bản phân tích kỹ từng ký tự giữa các báo cáo đó để xác định mức độ trùng lặp cụ thể.

Kết quả thử nghiệm trên gần nửa triệu báo cáo bình duyệt trong giai đoạn 2020–2025 cho thấy: gần 2.500 báo cáo trùng lặp từ 60% trở lên, trong đó 785 báo cáo trùng từ 80% trở lên, và 89 trường hợp là bản sao y hệt.

Thách thức phía trước

Dù đây là bước tiến đáng kể, vẫn còn một rào cản lớn: bài bình duyệt ở hầu hết các tạp chí đều được bảo mật, nên rất khó phát hiện trùng lặp giữa các nhà xuất bản khác nhau. Công cụ hiện tại của IOPP chỉ so sánh trong phạm vi dữ liệu nội bộ của họ.

Ông René Aquarius, nhà nghiên cứu liêm chính học thuật tại Đại học Radboud (Hà Lan), cho rằng công cụ sẽ thực sự phát huy sức mạnh khi nhiều nhà xuất bản cùng chia sẻ dữ liệu với nhau. IOPP cho biết đang xúc tiến kế hoạch này.

Bà Hoch của PLOS cũng lưu ý thêm một thách thức không kém phần phức tạp: ngay cả khi phát hiện được gian lận, các nhà xuất bản vẫn phải cân nhắc thận trọng trước khi xử lý, bởi bản thân nghiên cứu trong bài báo đó vẫn có thể hoàn toàn hợp lệ.

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm