
Các nhà nghiên cứu tranh luận liệu những công trình “mới” do AI tạo ra có thực chất đang sử dụng ý tưởng của người khác mà không ghi công hay không.
Tháng 1 vừa qua, Byeongjun Park, một nhà nghiên cứu về trí tuệ nhân tạo (AI), nhận được một email bất ngờ. Hai nhà nghiên cứu từ Ấn Độ cho biết một bản thảo do AI tạo ra đã sử dụng phương pháp từ một trong những bài báo của ông mà không trích dẫn nguồn.
Park tìm bản thảo đó. Nó chưa được xuất bản chính thức, mà chỉ được đăng trực tuyến (xem go.nature.com/45pdgqb) như một trong số nhiều bài báo được tạo ra bởi một công cụ gọi là The AI Scientist — được công bố năm 2024 bởi các nhà nghiên cứu tại Sakana AI, một công ty ở Tokyo.
The AI Scientist là một ví dụ về nghiên cứu hoàn toàn tự động trong lĩnh vực khoa học máy tính. Công cụ này sử dụng một mô hình ngôn ngữ lớn (LLM) để tạo ra ý tưởng, tự viết và chạy mã lệnh, sau đó viết kết quả thành một bài báo khoa học và được ghi rõ là do AI tạo ra. Nhóm phát triển cho biết đây là bước khởi đầu để các hệ thống AI tự tạo ra phát hiện khoa học mới.
Park nhận thấy công trình của AI không sao chép trực tiếp nghiên cứu của mình. Nó đề xuất một kiến trúc mới cho mô hình khuếch tán (diffusion models) — loại mô hình đứng sau các công cụ tạo ảnh trong khi bài báo của Park thì tập trung vào việc cải thiện cách huấn luyện những mô hình đó. Nhưng theo ông, hai công trình có những phương pháp tương tự nhau. “Tôi rất ngạc nhiên khi thấy phương pháp cốt lõi giống với bài báo của tôi đến vậy” – Park, hiện công tác tại Viện Khoa học và Công nghệ Tiên tiến Hàn Quốc (KAIST) ở Daejeon, cho biết.
Hai nhà nghiên cứu đã gửi email cho Park, Tarun Gupta và Danish Pruthi, là các nhà khoa học máy tính tại Viện Khoa học Ấn Độ ở Bengaluru. Họ cho rằng vấn đề không chỉ dừng lại ở bài báo của Park.
Tháng 2, Gupta và Pruthi công bố rằng họ đã phát hiện nhiều ví dụ về các bản thảo do AI tạo ra, mà theo ý kiến chuyên gia bên ngoài mà họ tham khảo, đã sử dụng ý tưởng của người khác mà không ghi nhận, dù không sao chép nguyên văn câu chữ.
Gupta và Pruthi cho rằng điều này tương đương với việc các công cụ phần mềm đạo văn ý tưởng, mặc dù những người tạo ra chúng không có ý định đó. Theo họ, một phần đáng kể ý tưởng nghiên cứu do LLM tạo ra trông có vẻ mới mẻ bề ngoài nhưng thực chất là đạo văn tinh vi, khiến việc xác minh tính nguyên gốc trở nên khó khăn.
Tháng 7, nghiên cứu của họ đã giành giải “bài báo xuất sắc” tại hội nghị Hiệp hội Ngôn ngữ học Tính toán (ACL) ở Vienna.
Tuy nhiên, một số phát hiện của họ bị tranh cãi. Nhóm phát triển The AI Scientist nói với Nature rằng họ phản đối mạnh mẽ kết luận của Gupta và Pruthi, và không chấp nhận rằng có sự đạo văn nào xảy ra trong các trường hợp được nhóm tác giả đưa ra. Riêng trong trường hợp của Park, một chuyên gia độc lập cho rằng phương pháp của bản thảo AI không trùng lặp đủ nhiều với bài báo của Park để bị coi là đạo văn. Và bản thân ông Park cũng dè dặt, không muốn dùng từ “đạo văn” mà chỉ thừa nhận có sự trùng lặp mạnh về phương pháp.
Cuộc tranh luận về The AI Scientist gợi cho chúng ta thấy còn có mối quan ngại lớn hơn. Hằng năm có quá nhiều bài báo được công bố, đặc biệt trong khoa học máy tính, đến mức các nhà nghiên cứu đã khó khăn trong việc xác định liệu ý tưởng của chúng có thực sự mang tính đổi mới hay không, theo Joeran Beel, chuyên gia về học máy (machine learning) và khoa học thông tin tại Đại học Siegen, Đức.
Nếu nhiều công cụ dựa trên LLM được dùng để tạo ý tưởng, điều này có thể làm xói mòn sâu hơn việc ghi nhận công lao trí tuệ trong khoa học. Vì LLM hoạt động một phần bằng cách pha trộn và nội suy văn bản từ dữ liệu huấn luyện, việc chúng vay mượn từ các nghiên cứu trước đó là điều tự nhiên, theo Parshin Shojaee, nhà khoa học máy tính tại Trung tâm Nghiên cứu Virginia Tech – Arlington.
Vấn đề đạo văn ý tưởng, dù ít được bàn tới, vốn đã là một vấn đề trong các bài báo do con người viết, theo Debora Weber-Wulff, nhà nghiên cứu đạo văn tại Đại học Khoa học Ứng dụng, Berlin. Bà dự đoán tình trạng này sẽ trầm trọng hơn với các công trình do AI tạo ra. Nhưng, khác với hình thức đạo văn quen thuộc như sao chép hoặc viết lại câu chữ, việc chứng minh sự tái sử dụng ý tưởng lại rất khó.
Điều đó khiến cho việc tự động kiểm tra tính mới hay tính nguyên gốc của ý tưởng khó theo kịp tốc độ mà AI có thể tạo ra các bản thảo khoa học.
“Không có cách nào tối ưu để chứng minh đạo văn trong ý tưởng.” Weber-Wulff nói.
Các phương pháp trùng lặp
Gupta và Pruthi đặt câu hỏi: ngay cả những hệ thống AI được thiết kế với thiện chí cũng có thể vô tình sử dụng ý tưởng hoặc phương pháp của người khác.
Họ chú ý vấn đề này sau nghiên cứu năm 2024 của Chenglei Si (ĐH Stanford), nơi cả con người và LLMs được yêu cầu tạo “ý tưởng nghiên cứu mới”. Dù có bước kiểm tra tính mới, một số ý tưởng AI vẫn giống với công trình trước. Ví dụ, một ý tưởng AI bị cho là vay mượn từ bản thảo 2023. Si thừa nhận có sự tương đồng ở “cấp độ khái quát”, còn tác giả bản thảo 2023 nói ý tưởng AI “rất giống” với bài của họ.
Để kiểm chứng, Gupta và Pruthi phân tích 4 đề xuất của Si, 10 bản thảo của Sakana AI và 36 đề xuất họ tự tạo. 13 chuyên gia đánh giá mức trùng lặp theo thang 5 điểm. Kết quả: 12 công trình đạt mức 4–5 (24%), hoặc 18 (36%) nếu tính cả trường hợp tác giả gốc không phản hồi.
Một bản thảo AI khác của Sakana, từng vượt qua phản biện tại hội nghị ICLR, bị cho là lấy ý chính từ một nghiên cứu năm 2015 mà không trích dẫn. Tác giả công trình gốc khẳng định bài AI “không mới”, chất lượng thấp và thiếu trích dẫn, nhưng còn băn khoăn có nên gọi đó là “đạo văn” hay không, vì AI không có ý thức cố tình bỏ sót.
Phản bác
Nhóm đứng sau The AI Scientist (Oxford, British Columbia) phản hồi Nature, khẳng định: “Các cáo buộc đạo văn là sai… vô căn cứ, không chính xác, cực đoan và nên bị bỏ qua”. Họ cho rằng hai bản thảo của AI Scientist có giả thuyết và ứng dụng khác, chỉ chia sẻ một số yếu tố phương pháp. Các công trình mà Gupta và Pruthi nêu ra chỉ là những tài liệu lẽ ra nên được trích dẫn, và “không hơn thế”. Nhóm thừa nhận bỏ sót Park và Krueger, song nhấn mạnh việc này rất thường xuyên xảy ra với tác giả con người.
Ben Hoover (Georgia Tech) chấm mức tương đồng giữa bài AI và ông Park là 3: chất lượng AI thấp hơn, đáng lẽ phải trích dẫn, nhưng “không đến mức gọi là đạo văn”. Ông cho rằng Gupta và Pruthi chỉ đang dựa trên “sự giống nhau bề mặt”. Ionescu cũng chấm 2–3.
Ngược lại, Park đánh giá mức trùng lặp là 5, phản ánh “tương đồng phương pháp đáng chú ý”, nhưng vẫn thừa nhận chưa chắc phù hợp với định nghĩa pháp lý hay đạo đức về đạo văn.
Thế nào là đạo văn
Một phần tranh cãi bắt nguồn từ cách hiểu khác nhau về khái niệm “đạo văn”, đặc biệt khi nói đến trùng lặp về ý tưởng hoặc phương pháp. Weber-Wulff cho biết các nhà nghiên cứu đạo văn có quan điểm khác với một số nhà khoa học máy tính trong cuộc tranh luận này.
“Đạo văn là một từ chúng ta nên và thực tế chỉ dùng cho những trường hợp gian lận có chủ đích, nghiêm trọng,” nhóm The AI Scientist viết, và cho rằng Gupta và Pruthi “hoàn toàn đi chệch khỏi quy ước học thuật về thế nào là đạo văn”. Nhưng Weber-Wulff phản đối: bà cho rằng không nên tính đến yếu tố “cố ý”. “Máy móc thì không có ý định,” bà nói. “Chúng ta không có cơ chế tốt để giải thích vì sao hệ thống đưa ra một điều gì đó, nó lấy từ đâu, vì các hệ thống này không được thiết kế để đưa ra trích dẫn.”
Định nghĩa mà Weber-Wulff ưa chuộng về đạo văn là: một bản thảo “sử dụng từ ngữ, ý tưởng hoặc sản phẩm trí tuệ thuộc về một người hoặc nguồn xác định khác mà không ghi rõ nguồn, trong một bối cảnh có kỳ vọng chính đáng về quyền tác giả gốc”. Định nghĩa này do Teddi Fishman, cựu giám đốc Trung tâm Quốc tế về Liêm chính Học thuật (Mỹ), đưa ra.
Pruthi cho rằng mặc dù việc xác định đạo văn có tính chủ quan, nhưng các trường hợp được chấm 4 hoặc 5 trong thang đo của họ là “đủ nghiêm trọng để nếu người ta biết đến, chắc chắn sẽ phản đối”.
Si và nhóm The AI Scientist đều cho rằng Gupta và Pruthi cũng có thể tìm ra những ví dụ tương tự trong các bài báo do con người viết — vay mượn ý tưởng từ công trình trước mà không ghi nhận — nếu họ yêu cầu chuyên gia tìm.
Gupta và Pruthi thừa nhận điều này. Trong nghiên cứu, họ có thử so sánh bằng cách phân tích phản biện của hàng trăm bài báo trong hội nghị khoa học máy tính, và lập luận rằng chỉ 1–5% số phản biện này đề cập đến đạo văn ở mức tương đương điểm 4 hoặc 5. Tuy nhiên, họ không mời chuyên gia đánh giá trực tiếp các bài báo do con người viết, như đã làm với các bài của AI.
Nhóm The AI Scientist cũng nói rằng họ đã nêu rõ trong bài báo của mình rằng công cụ thường mắc lỗi trích dẫn; rằng nó cần trích dẫn nhiều hơn; và rằng các nhà nghiên cứu nên tự thẩm định đầu ra của công cụ.
“Học thuyết của chúng tôi là một minh chứng cho thấy giờ đây đã có thể tạo ra bài báo khoa học bằng AI, dù chưa hoàn hảo,” nhóm viết. “Cuối cùng, The AI Scientist và các hệ thống tương tự sẽ sớm tạo ra những khám phá khoa học hiển nhiên và lớn lao.”
Họ cũng cho rằng “AI tạo ra khoa học có nhiều lợi ích lớn”, rằng phần mềm sẽ cải thiện dần, và hiện tại công cụ này nên chủ yếu được dùng để gợi ý ý tưởng, còn các nhà nghiên cứu không nên tin tưởng hoàn toàn mà cần xác minh kết quả.
Làm thế nào để kiểm tra tính mới
Câu hỏi liệu có thể tự động kiểm tra độ mới của các công trình do AI tạo ra và đảm bảo chúng trích dẫn đúng nguồn hay không vẫn là một thách thức lớn.
The AI Scientist dùng quy trình tìm kiếm và đánh giá trên Semantic Scholar để kiểm tra tính mới, nhưng các chuyên gia cho rằng phương pháp này đơn giản, dễ bỏ sót công trình quan trọng và khó phát hiện sự trùng lặp ở cấp độ ý tưởng. Thử nghiệm với Turnitin và OpenScholar cũng cho thấy các công cụ này không phát hiện được hầu hết trường hợp trùng lặp.
Nhiều nhà nghiên cứu nhận định “tính mới” mang tính chủ quan và khó chuẩn hóa. Dù còn hạn chế, các công cụ AI tạo ý tưởng sẽ tiếp tục tồn tại, nên điều quan trọng là tìm cách sử dụng chúng đúng đắn.
Một số nhà nghiên cứu cho rằng khó thể cải thiện công cụ tạo ý tưởng khoa học bằng AI nếu chưa giải quyết tốt vấn đề phát hiện đạo văn. Min-Yen Kan (ĐH Quốc gia Singapore) nhấn mạnh: công cụ vẫn sẽ tồn tại, quan trọng là phải dùng đúng cách. Si cũng cho rằng cần đặt ra tiêu chuẩn cao hơn về tính mới và chất lượng nghiên cứu khi làm việc với các hệ thống AI.
Dịch từ Nature
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.









