AI đang viết bao nhiêu công trình khoa học?

Câu hỏi tưởng đơn giản này hóa ra lại rất khó trả lời, và những gì các nhà nghiên cứu đang phát hiện ra khiến không ít người lo ngại.

Ảnh: One Year of illustration | 2025 via Behance | CC BY-NC-ND 4.0

Vấn đề đang đặt ra là gì?

Kể từ khi ChatGPT ra mắt vào cuối năm 2022, trí tuệ nhân tạo đã len lỏi vào hầu hết mọi lĩnh vực, trong đó có cả nghiên cứu khoa học. Ngày càng nhiều bài báo khoa học được viết một phần hoặc toàn bộ bằng AI, kéo theo một mối lo ngại lớn: nếu các công trình kém chất lượng hoặc thậm chí hoàn toàn bịa đặt được tạo ra hàng loạt bằng AI, hệ thống kiểm soát chất lượng hiện tại của khoa học có còn đủ sức gánh không?

Bà Maria Antoniak, nhà khoa học máy tính tại Đại học Colorado Boulder, nói thẳng: “Giới học thuật đang biến động ngay trước mắt chúng ta theo những cách mà chúng ta hoàn toàn chưa chuẩn bị kịp.”

Ông Richard She, nhà sinh học tế bào gốc tại Đại học Công nghệ Nanyang (Singapore), so sánh đây như thể một cuộc chạy đua vũ trang của giới học th: một bên là những người lạm dụng AI, bên kia là những người đang cố gắng kiểm soát và phát hiện nó.

Con số thực tế đang ở mức nào?

Một số nghiên cứu gần đây đã cố gắng đo lường quy mô của vấn đề này.

Trong các tạp chí khoa học: Một nghiên cứu công bố tháng 4 năm nay đã quét gần 7.000 tóm tắt bản thảo gửi đến tạp chí Organization Science từ đầu năm 2021 đến tháng 2 năm 2026. Kết quả cho thấy số lượng bài gửi tăng 42% kể từ khi ChatGPT ra mắt, và mức tăng này chủ yếu do AI thúc đẩy. Đến tháng 2 năm nay, số bài có hơn 70% nội dung do AI tạo ra đã tăng gấp đôi so với đầu năm 2024. Hơn 30% báo cáo bình duyệt cũng chứa một phần nội dung do AI viết.

Trong các tạp chí hàng đầu: Ông She đã kiểm tra khoảng 5.000 bài báo y sinh học đăng trên Science, NatureCell trong năm ngoái. Ông tìm thấy 6 bài bị xác định là do AI viết hoàn toàn, và cứ 8 bài thì có 1 bài chứa một phần nội dung AI. Ông cảnh báo: “Chúng ta đang ở những giọt đầu tiên của một cơn bão sắp ập đến.”

Trên các kho lưu trữ bản thảo: Bà Antoniak và đồng nghiệp đã phân tích hơn 124.000 bản thảo đăng trên arXiv trong giai đoạn 2020–2025. Riêng trong lĩnh vực khoa học máy tính, tỷ lệ bài bình duyệt chứa nội dung AI tăng từ khoảng 7% năm 2023 lên tới 43% năm 2025.

Tại sao khó đo lường chính xác?

Dù các con số trên đã đủ gây chú ý, thực tế là chúng ta vẫn chưa có cách đo lường thực sự đáng tin cậy. Có một số nguyên nhân:

Thứ nhất, hầu hết các công cụ phát hiện AI hiện tại không phân biệt được đâu là văn bản được AI viết hoàn toàn và đâu là văn bản chỉ được chỉnh sửa nhờ AI — hai trường hợp có mức độ nghiêm trọng rất khác nhau.

Thứ hai, các công cụ này đôi khi nhầm lẫn, gắn cờ cả những văn bản do con người viết là “do AI tạo ra”.

Thứ ba, AI ngày càng giỏi hơn trong việc tạo ra văn bản giống con người, và người dùng cũng ngày càng tìm cách “làm nhạt” dấu vết AI để qua mặt các bộ phát hiện.

Ông Mohammad Hosseini, chuyên gia đạo đức nghiên cứu tại Đại học Northwestern (Mỹ), nhắc nhở rằng trong khi các công cụ phát hiện chưa đủ chín, chúng ta nên thận trọng với bất kỳ con số thống kê nào về mức độ AI trong văn liệu khoa học — kể cả những con số trong chính bài này.

Tương lai sẽ đi về đâu?

Giới nghiên cứu đang thử nghiệm một số hướng tiếp cận mới. Một trong số đó là kỹ thuật “đóng dấu mờ” (watermarking), tức là nhúng vào văn bản AI những dấu hiệu vô hình mà con người không thể nhận ra nhưng máy tính có thể phát hiện. Một hội nghị khoa học lớn gần đây đã dùng kỹ thuật này để phát hiện bài bình duyệt do AI viết, dẫn đến việc từ chối 497 bài tham dự.

Tuy nhiên, tất cả những công cụ này vẫn đang trong giai đoạn sơ khai. Và cuộc đua giữa AI tạo sinh và AI phát hiện dự kiến sẽ còn tiếp tục leo thang trong nhiều năm tới.

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm