Trong giới học thuật, số lượt trích dẫn là một trong những chỉ số quan trọng nhất để đánh giá năng lực của một nhà khoa học. Các chỉ số dựa trên trích dẫn như h-index, i10-index hay impact factor đã trở thành “thước đo thành công khoa học”, góp phần quyết định việc cấp học bổng, thăng chức, hoặc tuyển dụng giảng viên. Tuy nhiên, chính sự lệ thuộc quá mức vào các con số này đã tạo ra áp lực và khuyến khích những hành vi gian lận trong học thuật. Trong số các hình thức thao túng trích dẫn, từ tự trích dẫn, trao đổi trích dẫn giữa đồng nghiệp, đến việc bị ép buộc trích dẫn (coercive citations), thì việc mua trích dẫn là hành vi gây sốc và trực diện nhất – nhưng vẫn ít được nghiên cứu. Nghiên cứu mới đây của Ibrahim và cộng sự (2024) đã cung cấp bằng chứng xác thực cho thấy việc mua bán trích dẫn hoàn toàn có thật – và điều này đang diễn ra ngay trên Google Scholar, một trong những nền tảng phổ biến hiện nay trong việc tra cứu và theo dõi hồ sơ học thuật.

Từ công cụ phổ biến đến điểm mù trong kiểm soát
Trong một khảo sát với hơn 30.000 giảng viên đến từ 10 trường đại học hàng đầu thế giới, phần lớn người tham gia cho biết họ dựa vào số lượng trích dẫn khi đánh giá ứng viên trong quá trình tuyển dụng hoặc thăng chức. Trong số đó, hơn 60% sử dụng Google Scholar để tra cứu chỉ số trích dẫn – nhiều hơn tất cả các nền tảng khác cộng lại. Dù các ngành học không khác biệt nhiều về việc có xem xét trích dẫn hay không, thì mức độ sử dụng Google Scholar lại có sự chênh lệch rõ rệt: giảng viên trong lĩnh vực Khoa học Máy tính và Khoa học Xã hội có xu hướng sử dụng Google Scholar nhiều hơn đáng kể so với giảng viên ngành Khoa học Tự nhiên. Những con số này cho thấy ảnh hưởng ngày càng sâu rộng của Google Scholar – nhưng cũng đồng thời đặt ra câu hỏi: liệu một công cụ miễn phí, không kiểm duyệt, lại dễ tạo hồ sơ như Google Scholar có đáng tin cậy đến vậy?
Từ câu hỏi đó, nhóm nghiên cứu đã chuyển hướng sang điều tra các dấu hiệu bất thường trong hơn 1,6 triệu hồ sơ học thuật. Họ phát hiện nhiều hồ sơ có biểu hiện “tăng trưởng trích dẫn” phi lý – và lần theo các dấu vết, họ phát hiện ra một dịch vụ chuyên bán trích dẫn. Để kiểm chứng, họ tạo ra một hồ sơ học thuật hoàn toàn giả mạo: 20 bài báo giả được tạo bởi trí tuệ nhân tạo, đứng tên một tác giả không có thật. Sau khi liên hệ với dịch vụ tăng trích dẫn, họ thành công mua được 50 lượt trích dẫn chỉ trong vòng vài tuần với chi phí thấp.
Dấu hiệu của việc thao túng có hệ thống
Phân tích sâu hơn cho thấy mô hình thao túng trích dẫn có thể được tổ chức khá tinh vi. Một số bài viết trích dẫn cùng một tác giả tới 45 lần, và hầu như toàn bộ các bài này đều trích dẫn đúng một nhóm bài viết giống nhau từ tác giả đó. Trong một số trường hợp, 90% tài liệu tham khảo trong bài viết là dành cho một tác giả duy nhất – điều này gần như không thể xảy ra một cách tự nhiên. Nhiều trích dẫn không hề xuất hiện trong phần nội dung chính của bài, chỉ nằm trong phần tài liệu tham khảo, cho thấy chúng không liên quan gì đến nội dung – chỉ đơn giản được đưa vào để tăng số lượng trích dẫn cho tác giả được nhắm đến. Một ví dụ gây sốc: một bài báo dài chỉ hai trang, có đúng một trích dẫn trong nội dung, nhưng lại liệt kê 29 lần trích dẫn cùng một tác giả trong phần tài liệu tham khảo.
Khi so sánh các hồ sơ khả nghi với những học giả tương đương về lĩnh vực, tuổi nghề và số lượng công bố, sự khác biệt trở nên rõ rệt. Những tác giả bị nghi ngờ có lượng trích dẫn tăng đột biến trong một năm cụ thể, không giống với mức tăng đều đặn ở nhóm đối chứng. Khi đối chiếu số lượt trích dẫn giữa Google Scholar và cơ sở dữ liệu Scopus – nơi chỉ chấp nhận các tạp chí đã qua kiểm duyệt – hơn 96% trích dẫn của các tác giả khả nghi không xuất hiện trong Scopus, so với mức sụt giảm 43% ở nhóm đối chứng.
Khả năng thao túng thuật toán
Điều đáng quan ngại là bất kỳ ai cũng có thể tạo ra một hồ sơ học thuật giả trên Google Scholar và nhanh chóng đạt được hàng trăm lượt trích dẫn, chỉ bằng cách đăng tải bài viết kém chất lượng lên các máy chủ lưu trữ bản thảo chưa qua phản biện (preprint servers), hoặc thông qua các dịch vụ tăng h-index trôi nổi. Nhóm nghiên cứu đã phát hiện 114 hồ sơ có dấu hiệu thao túng trích dẫn, phần lớn đến từ các nguồn không qua phản biện như arXiv, OSF, Authorea hay ResearchGate. Từ đó, họ tạo một nhân vật giả – một “nhà khoa học” làm việc tại một trường đại học không tồn tại, chuyên nghiên cứu về “Fake News” – và “trang bị” cho nhân vật này 20 bài báo do ChatGPT tạo ra, tất cả chỉ trích dẫn lẫn nhau và không nhắc đến bất kỳ nhà nghiên cứu thực sự nào.
Các bài báo này được đăng lên ba nền tảng Authorea, OSF và ResearchGate. Google Scholar sau đó đã tự động thu thập và lập chỉ mục các trích dẫn trong đó, tạo thành một hồ sơ với 380 lượt trích dẫn và h-index là 19. Thậm chí, một số bài viết chứa trích dẫn đến các bài báo… không hề tồn tại, nhưng Google Scholar vẫn chấp nhận và tính điểm như bình thường. Một chi tiết đặc biệt nguy hiểm là: ngay cả sau khi các bài viết đã bị xóa khỏi máy chủ (ví dụ như Authorea), các trích dẫn từ bài đó vẫn tiếp tục tồn tại trên Google Scholar. Người dùng có thể tạo bài viết giả mạo, để các trích dẫn được thu thập, rồi xóa bài viết khỏi nơi lưu trữ – xóa mọi dấu vết gian lận trước mắt người quan sát thông thường. Có đến 32% số bài viết từng trích dẫn các tác giả đáng ngờ đã không còn tồn tại trên các máy chủ, nhưng trích dẫn từ chúng thì vẫn đang góp phần nâng điểm cho các hồ sơ học thuật trên Google Scholar.
Không chỉ dừng lại ở thao túng bằng hồ sơ ảo, nhóm nghiên cứu còn mua được 50 lượt trích dẫn cho “nhân vật giả” từ một trang web quảng cáo dịch vụ “Tăng h-index và lượt trích dẫn”. Trích dẫn được tạo từ 5 bài báo có chứa số lượng lớn các tham chiếu vô nghĩa – trong đó nhiều trích dẫn không hề xuất hiện trong nội dung chính mà chỉ được liệt kê trong phần tài liệu tham khảo. Khi mở rộng phân tích, họ nhận thấy rằng nhiều tác giả khác cũng có dấu hiệu mua trích dẫn, khi cùng xuất hiện trong những bài báo này với số lần trích dẫn giống hệt nhau, cho cùng một nhóm bài viết. Điều này cho thấy khả năng rất cao rằng các trích dẫn này được “bán sỉ” – nghĩa là một bài viết giả sẽ “gánh” trích dẫn cho nhiều khách hàng cùng lúc.
Khi số liệu đánh giá học thuật bị bóp méo
Các bài báo chứa trích dẫn mua không chỉ xuất hiện đơn lẻ mà tập trung thành cụm trong cùng một tạp chí. Bằng cách phân tích mạng lưới các bài báo có số lượng trích dẫn trùng nhau cao bất thường, nhóm nghiên cứu phát hiện nhiều cụm bài viết cùng lặp lại danh sách trích dẫn giống nhau – biểu hiện rõ rệt của thao túng có hệ thống. Có tác giả được trích dẫn tới 30 bài giống hệt nhau từ 5 bài viết khác nhau. Có tác giả khác được trích dẫn 33 bài giống nhau từ 8 bài khác nhau. Việc mua bán trích dẫn không còn là trường hợp cá biệt, mà có thể là một thị trường ngầm hoạt động có tổ chức, đang làm méo mó nghiêm trọng cách đo lường thành tựu học thuật trên nền tảng như Google Scholar.
Khác với các hành vi như tự trích dẫn hay tạo “liên minh trích dẫn” (citation cartel), việc mua trích dẫn hoàn toàn không để lại dấu vết rõ ràng trong mạng lưới trích dẫn, khiến việc phát hiện gần như bất khả thi nếu chỉ dựa vào dữ liệu thuần túy. Một số trường hợp còn vượt xa mọi ngưỡng bất hợp lý từng được ghi nhận: có tác giả được trích dẫn 2.025 lần từ đúng 45 bài báo trong cùng một năm, hay một bài báo dài 3 trang liệt kê hơn 200 tài liệu tham khảo – trong đó có 167 lần trích dẫn cùng một tác giả. Những chỉ số đó, dù có vẻ ấn tượng, không phản ánh giá trị học thuật, mà là biểu hiện của sự thao túng có chủ đích.
Nghiên cứu cũng chỉ ra hai điểm yếu trầm trọng của Google Scholar. Thứ nhất, nền tảng này không cung cấp dữ liệu về các trích dẫn “đi ra” từ một bài báo, khiến việc phát hiện các cụm trích dẫn bất thường trở nên cực kỳ khó khăn. Thứ hai, cơ chế lập chỉ mục gần như không kiểm duyệt, cho phép các bài viết giả mạo, không có giá trị học thuật, được hiển thị ngang hàng với các nghiên cứu nghiêm túc. Tình trạng này càng đáng lo ngại khi các ủy ban tuyển dụng và thăng tiến tại các trường đại học hàng đầu vẫn phụ thuộc nặng nề vào chỉ số trích dẫn từ Google Scholar, bất chấp những lời cảnh báo ngày càng rõ ràng hơn.
Một thị trường ngầm trong thời đại AI?
Kết quả cho thấy tồn tại mối liên hệ giữa gian lận trích dẫn và các hoạt động xuất bản phi đạo đức như xuất bản săn mồi (predatory publishing), nhà máy sản xuất bài báo (paper mills), và giờ đây là “nhà máy trích dẫn” (citation mills) – những nơi chuyên cung cấp trích dẫn ảo cho người mua. Các bài báo chứa trích dẫn được mua thường được công bố trong cùng một số đặc biệt của một tạp chí có kiểm duyệt yếu, và không hề liên quan gì đến chủ đề chính của tạp chí – ví dụ như bài viết về chính trị, tôn giáo hay tin giả trong một tạp chí chuyên ngành hóa học. Điều đáng lo ngại là trong kỷ nguyên trí tuệ nhân tạo, việc thao túng trích dẫn sẽ ngày càng dễ dàng hơn. AI có thể tạo ra các bài báo “giả nhưng trông thật”, và “gieo trích dẫn” có chủ đích vào phần tài liệu tham khảo. Khi các nền tảng hiện tại vẫn có thể bị đánh lừa bởi các văn bản do AI tạo ra, nguy cơ xuất hiện các mạng lưới gian lận học thuật tự động hóa quy mô lớn là hoàn toàn hiện thực.
Để đối phó, các cơ sở dữ liệu như Google Scholar hay Scopus nên phát triển thêm các chỉ số phản ánh mức độ tập trung trích dẫn, chẳng hạn như c2-index hoặc adjusted c2-index, nhằm phát hiện những hồ sơ có dấu hiệu gian lận. Đồng thời, các hệ thống đánh giá học thuật nên cung cấp thông tin về nguồn gốc trích dẫn – ví dụ: bài trích dẫn có thuộc tạp chí có bình duyệt không, có nằm trong Q1 hay không, hay có phải là bài hội nghị uy tín? Những chỉ số này không chỉ giúp phân biệt trích dẫn chất lượng và trích dẫn rác, mà còn khuyến khích hành vi học thuật lành mạnh.
Cuối cùng, các ủy ban tuyển dụng và thẩm định học thuật cần nhận thức rõ về các hình thức thao túng trích dẫn hiện nay. Khi chỉ số trích dẫn có thể dễ dàng bị “thổi phồng” một cách giả tạo, việc đánh giá nghiên cứu và con người không thể chỉ dựa vào con số. Điều này đặc biệt quan trọng trong bối cảnh thành công học thuật vẫn gắn chặt với vị thế, giới tính, và danh tiếng – những yếu tố vốn đã tạo nên bất bình đẳng trong khoa học. Vì thế, hơn bao giờ hết, đã đến lúc đặt lại câu hỏi: chúng ta đang đánh giá điều gì – thành tựu khoa học, hay khả năng thao túng hệ thống?
Chi tiết nghiên cứu
Ibrahim, H., Liu, F., Zaki, Y., & Rahwan, T. (2024). Google Scholar is manipulatable. arXiv preprint arXiv:2402.04607
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.