Theo một nghiên cứu được công bố Cell Reports Physical Science, một công cụ học máy có thể dễ dàng phát hiện các bài báo trong lĩnh vực hóa học được viết bằng ChatGPT. Công cụ này được chứng minh rằng nó hoạt động tốt hơn các công cụ hiện tại, hứa hẹn giúp các nhà xuất bản học thuật xác định các bài viết được tạo bởi AI.
Đồng tác giả của nghiên cứu, Heather Desaire, một nhà hóa học tại Đại học Kansas, cho biết: “Hầu hết các nghiên cứu khác đều muốn tạo ra một công cụ phát hiện AI tổng quát cho mọi loại tài liệu. Tuy nhiên, chúng tôi tạo ra một công cụ chỉ tập trung vào tài liệu trong một lĩnh vực cụ thể, nhằm hướng đến độ chính xác tối đa trong việc phát hiện các tài liệu do AI tạo ra.”
Desaire cho biết phát hiện này cho thấy các công cụ phát hiện AI có thể được cải thiện hiệu quả bằng cách điều chỉnh phần mềm cho phù hợp với các loại văn bản, lĩnh vực cụ thể.
Các yếu tố giọng văn/phong cách viết
Desaire và cộng sự lần đầu tiên mô tả công cụ phát hiện ChatGPT của họ vào tháng 6/2023, khi họ áp dụng nó cho các bài viết thuộc chuyên mục Góc nhìn trên tạp chí Science. Bằng cách sử dụng học máy, công cụ sẽ kiểm tra 20 đặc điểm phong cách viết của AI, bao gồm sự thay đổi về độ dài câu, tần suất của một số từ, và các dấu câu để xác định liệu ChatGPT đã viết đoạn văn đó hay không. Các phát hiện cho thấy rằng công cụ chỉ cần sử dụng một tập hợp nhỏ các yếu tố để đạt được mức độ chính xác cao.
Trong nghiên cứu mới nhất, công cụ này đã được huấn luyện bằng các phần mở đầu (Introduction) của các bài báo từ 10 tạp chí hóa học do Hiệp hội Hóa học Hoa Kỳ (ACS – American Chemical Society) xuất bản. Desaire cho biết nhóm đã chọn phần mở đầu vì phần này của bài báo khá dễ viết đối với ChatGPT khi nó có khả năng truy cập đến các tài liệu trong lĩnh vực. Các nhà nghiên cứu đã huấn luyện công cụ của họ dựa trên phần giới thiệu do con người viết từ các 100 bài báo được xuất bản trên ACS. Sau đó, nhóm nghiên cứu dùng ChatGPT-3.5 tạo ra 200 phần giới thiệu, với 100 phần giới thiệu được tạo nên từ việc chỉ cung cấp tiêu đề bài báo, và 100 còn lại được tạo nên nhờ việc cung cấp cho ChatGPT phần tóm tắt.
Khi thử nghiệm trên phần giới thiệu do con người viết và phần giới thiệu do AI tạo ra từ cùng một tạp chí, công cụ này đã xác định các phần do ChatGPT-3.5 viết dựa trên tiêu đề với độ chính xác 100%. Đối với phần giới thiệu do ChatGPT tạo dựa trên phần tóm tắt, độ chính xác thấp hơn một chút, ở mức 98%. Công cụ này cũng hoạt động tốt với văn bản được viết bởi ChatGPT-4, phiên bản mới nhất của OpenAI. Để so sánh hiệu quả, một trình phát hiện AI khác là ZeroGPT đã xác định phần giới thiệu do AI viết với độ chính xác chỉ khoảng 35–65%, tùy thuộc vào phiên bản ChatGPT được sử dụng và liệu phần giới thiệu được tạo từ tiêu đề hay phần tóm tắt của bài báo. Một công cụ phân loại văn bản do chính OpenAI, nhà sản xuất của ChatGPT, sản xuất, cũng có hiệu quả kém – nó có thể phát hiện các phần giới thiệu do AI viết với độ chính xác chỉ khoảng 10–55%.
Trình phát hiện ChatGPT mới thậm chí còn hoạt động tốt với phần giới thiệu từ các tạp chí mà nó chưa được huấn luyện. Đồng thời, nó cũng có thể phát hiện được văn bản do AI tạo ra từ những yêu cầu khác nhau, bao gồm cả những yêu cầu nhằm mục đích gây nhầm lẫn cho các trình phát hiện AI. Tuy nhiên, công cụ này chỉ hoạt động với các bài báo khoa học. Khi đưa ra những bài báo bình thường, công cụ không thể nhận ra chúng là do con người viết.
Các vấn đề rộng hơn
Debora Weber-Wulff, một nhà khoa học máy tính nghiên cứu về đạo văn tại Đại học Khoa học Ứng dụng HTW Berlin, cho biết những gì các tác giả đang làm là “một nỗ lực tuyệt vời”. Nhiều công cụ hiện có cố gắng xác định tính nguyên bản bằng cách tìm kiếm các khuôn mẫu trong văn bản do AI tạo ra thay vì xem xét các đặc điểm của phong cách viết, tuy nhiên việc sử dụng trắc lượng cú pháp là điều rất mới mẻ.
Nhưng Weber-Wulff cũng chỉ ra rằng có những vấn đề khác thúc đẩy việc sử dụng ChatGPT trong giới học thuật. Cô lưu ý rằng việc sử dụng AI trong viết học thuật có thể đến xuất phát từ lý do nhiều nhà nghiên cứu đang chịu áp lực phải nhanh chóng hoàn thành các bài báo, hay họ có thể đang không coi quá trình viết bài báo là một phần quan trọng của khoa học. Các công cụ phát hiện AI sẽ không giải quyết được gốc rễ của những vấn đề này, cũng như không thể được kỳ vọng là một giải pháp phần toàn năng cho một vấn đề hiện tại.
Dịch từ Nature
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 4 / 5. Số đánh giá: 1
Chưa có đánh giá.