Những người đăng bài lần đầu trên nền tảng lâu đời này nay cần có sự bảo chứng từ một tác giả đã có tên tuổi.

Máy chủ tiền xuất bản arXiv — nơi lưu trữ gần 3 triệu bản thảo, chủ yếu trong các lĩnh vực khoa học máy tính, vật lý và toán học — vừa thiết lập một rào cản mới đối với những người gửi bài lần đầu.
Trước đây, người muốn nộp bài lên arXiv lần đầu chỉ cần có một địa chỉ email gắn với một cơ sở học thuật hoặc nghiên cứu uy tín, chẳng hạn như một trường đại học. Tuy nhiên, một quy định được áp dụng từ ngày 21 tháng 1 nay yêu cầu những người đăng bài lần đầu phải được một tác giả arXiv đã có uy tín trong cùng lĩnh vực chuyên môn bảo chứng. Những người đã từng đăng bài trước đó trong cùng một chuyên mục học thuật trên arXiv thì không cần sự bảo chứng này.
Theo Ralph Wijers, nhà thiên văn học tại Đại học Amsterdam và là chủ tịch hội đồng biên tập arXiv, động thái này nhằm đối phó với làn sóng gia tăng các bài nộp gian lận. Ông cho biết một tỷ lệ lớn trong số đó được tạo ra bằng trí tuệ nhân tạo (AI). Quy định mới chủ yếu nhằm “ngăn chặn những người rất trẻ, thiếu kỹ năng, cố gắng khởi đầu bằng cách gửi những thứ rác rưởi lên arXiv,” ông nói.
“Đối với arXiv, đây chắc chắn là một cách tiếp cận hợp lý,” Brian Nosek, giám đốc điều hành Trung tâm Khoa học Mở (Center for Open Science), đơn vị vận hành Hạ tầng Khoa học Mở (Open Science Framework – OSF), nhận định. OSF là một nền tảng lưu trữ nhiều máy chủ tiền xuất bản do cộng đồng điều hành. Theo ông, các máy chủ tiền xuất bản khác cũng đang gặp khó khăn tương tự với các bài nộp do AI tạo ra. Tuy nhiên, ông lưu ý rằng với các máy chủ nhỏ hơn, ít tên tuổi hơn, việc yêu cầu sự bảo chứng từ một tác giả khác có thể loại trừ những nhà nghiên cứu hợp pháp nhưng không có mạng lưới quan hệ học thuật mạnh.
ArXiv đã phát triển mạnh mẽ kể từ khi ra mắt năm 1991 và hiện nhận khoảng 20.000 bài nộp mỗi tháng, trải rộng trên tám lĩnh vực học thuật khác nhau. Các bản thảo này không qua phản biện khoa học, nhưng được khoảng 300 tình nguyện viên là chuyên gia kiểm duyệt nhằm bảo đảm nội dung là “phù hợp và đúng chủ đề”, chẳng hạn như loại bỏ các bài đạo văn hoặc không mang tính khoa học. Phần lớn những bài bị từ chối, theo Wijers, là “rác rưởi quá rõ ràng, chỉ cần liếc qua là đủ”. Ví dụ như “một bài dài bốn trang nhưng có tới 50 tiểu mục, trong đó một số tiểu mục thậm chí không có nội dung văn bản”.
Wijers cho biết trong nhiều năm, tỷ lệ bài bị từ chối trung bình chỉ khoảng 4%. Khi ChatGPT ra mắt vào năm 2022, nhóm điều hành lo ngại rằng arXiv sẽ bắt đầu nhận được nhiều bản thảo giả do các mô hình ngôn ngữ lớn (LLM) viết ra, nhưng một cách đáng ngạc nhiên, đến hết năm 2024 họ vẫn chưa thấy sự thay đổi nào. “Một vài đồng nghiệp của tôi nói rằng: cứ chờ xem,” Wijers nhớ lại. Bắt đầu từ đầu năm 2025, số lượng bài “rác AI” tăng theo cấp số nhân, khởi đầu trong lĩnh vực khoa học máy tính rồi lan sang các lĩnh vực khác. Tỷ lệ từ chối hiện nay đã tăng lên khoảng 10% đến 12%, theo ước tính của ông.
Vào tháng 10 năm 2025, arXiv thực hiện bước đi đầu tiên khi thông báo sẽ không còn chấp nhận các bài “tổng quan” hoặc “bài viết lập trường” trong lĩnh vực khoa học máy tính, trừ khi những bài này đã được phản biện và chấp nhận bởi một tạp chí hoặc hội nghị khoa học. Sau đó, trang này chuyển sang yêu cầu bảo chứng tác giả — một biện pháp đã được thử nghiệm trong chuyên mục toán học suốt tháng 12 và nay đã được áp dụng trên toàn bộ nền tảng.
Wijers cho biết “gần như toàn bộ rác AI đều đến từ những người gửi bài lần đầu”. Nhiều người trong số đó là các nhà nghiên cứu rất trẻ, có thể đang cố gắng xây dựng hồ sơ công bố để phục vụ cho việc xin học cao học hoặc xin việc làm. Ông cho rằng họ có thể không nhận thức được rằng arXiv có cơ chế kiểm duyệt.
Theo Nosek, các máy chủ tiền xuất bản khác cũng ghi nhận sự gia tăng của nội dung kém chất lượng do AI tạo ra — bao gồm cả dịch vụ tiền xuất bản đa lĩnh vực do OSF vận hành, vốn đã ngừng nhận bài mới từ tháng 8 năm 2025 “vì phần lớn các bài nộp đều có chất lượng rất thấp”. PsyArXiv, một máy chủ tiền xuất bản tâm lý học do cộng đồng điều hành trong OSF, cũng đã chuyển từ hình thức kiểm duyệt sau khi đăng sang kiểm duyệt trước khi đăng vì lý do tương tự.
Wijers cho rằng biện pháp bảo vệ mới là cần thiết, một phần vì các LLM sẽ ngày càng cải thiện, khiến việc phân biệt giữa bài giả do AI tạo ra và nghiên cứu hợp pháp trở nên khó khăn, thậm chí là không thể đối với các kiểm duyệt viên. Ông hy vọng rằng các công ty phát triển chatbot, chẳng hạn như OpenAI, sẽ hỗ trợ arXiv trong việc sàng lọc những nội dung này trong tương lai.
Tuy nhiên, việc tự động loại trừ toàn bộ văn bản do AI viết cũng có mặt hạn chế. Nhiều tác giả, đặc biệt là những người không sử dụng tiếng Anh như ngôn ngữ mẹ đẻ, dùng LLM để làm mượt câu chữ. ArXiv hiện cũng yêu cầu tất cả các công trình viết bằng ngôn ngữ khác phải kèm theo bản dịch đầy đủ sang tiếng Anh, và bản dịch này có thể được tạo bằng các công cụ tự động. “Tỷ lệ các bài viết bằng tiếng Anh vụng về đang giảm rất nhanh,” Wijers nói, và ông xem đây là một tín hiệu tích cực.
Dịch từ Science
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.









