Công cụ AI phát hiện lỗi trong các bài nghiên cứu: một phong trào đang trên đà phát triển

Các công cụ AI phổ biến đang được sử dụng để rà soát các bài nghiên cứu, nhưng các nhà nghiên cứu cảnh báo về những rủi ro đi kèm.

Ảnh: Error Screen Animations via Behance | CC BY-NC-ND 4.0

Cuối năm ngoái, các phương tiện truyền thông trên toàn thế giới đã cảnh báo rằng các dụng cụ nấu ăn bằng nhựa màu đen có chứa phụ gia chống cháy (chất có khả năng dẫn đến ung thư) ở mức đáng lo ngại. Tuy nhiên, sau đó người ta phát hiện rằng rủi ro này đã bị thổi phồng quá mức do sai sót của một phép tính trong nghiên cứu ban đầu: hóa chất chính được cho là đã vượt quá giới hạn an toàn, trong khi thực tế lại thấp hơn giới hạn đó mười lần. Các nhà nghiên cứu nhạy bén đã nhanh chóng chỉ ra rằng một mô hình trí tuệ nhân tạo (AI) có thể đã phát hiện ra lỗi này chỉ trong vài giây.

Sự cố này đã thúc đẩy hai dự án sử dụng AI để tìm lỗi trong các tài liệu khoa học. Trong đó, dự án Black Spatula sử dụng công cụ AI truy cập mở, hiện đã phân tích khoảng 500 bài báo để tìm lỗi. Nhóm nghiên cứu, gồm khoảng tám nhà phát triển chính và hàng trăm cố vấn tình nguyện, vẫn chưa công bố các lỗi này; thay vào đó, họ đang tiếp cận trực tiếp với các tác giả bị ảnh hưởng. Theo Joaquin Gulloso, một nhà nghiên cứu AI độc lập ở Cartagena, Colombia, người giúp điều phối dự án. “Công cụ này đã phát hiện ra rất nhiều lỗi,” Gulloso cho biết. “Danh sách rất dài. Thật điên rồ.”

Dự án còn lại có tên là YesNoError, được lấy cảm hứng từ dự án Black Spatula, theo lời người sáng lập kiêm doanh nhân AI Matt Schlicht. Dự án này được tài trợ bởi một loại tiền mã hóa riêng, và đang đặt mục tiêu cao hơn nữa. “Tôi tự hỏi, tại sao không kiểm tra toàn bộ các bài báo nhỉ?” Schlicht nói. Anh cho biết công cụ AI của họ đã phân tích hơn 37.000 bài báo chỉ trong hai tháng. Trang web của họ đánh dấu các bài được phát hiện có lỗi – nhiều lỗi trong số này vẫn chưa được con người xác minh, mặc dù Schlicht nói rằng YesNoError có kế hoạch thực hiện việc này trên quy mô lớn. Hiện tại, trang web YesNoError liệt kê các lỗi không có thật và sáng kiến này vẫn chưa công bố đầy đủ hiệu quả hoạt động của công cụ.

Cả hai dự án đều muốn các nhà nghiên cứu sử dụng công cụ của họ trước khi gửi bài đến tạp chí, và các tạp chí sử dụng chúng trước khi xuất bản – nhằm mục đích tránh lỗi và các gian lận lọt vào trong tài liệu khoa học.

Các dự án này đã nhận được sự ủng hộ một cách thận trọng từ các nhà điều tra học thuật làm việc trong lĩnh vực liêm chính khoa học. Tuy nhiên, cũng có những lo ngại về rủi ro tiềm ẩn, ví dụ như việc các công cụ này có thể bị sử dụng sai mục đích hoặc bị sử dụng khi chưa hoàn thiện. Mức độ chính xác trong việc phát hiện lỗi và tính xác thực của các phát hiện này cần được làm rõ. Theo Michèle Nuijten, nhà nghiên cứu về siêu khoa học tại Đại học Tilburg, Hà Lan. “Nếu bạn bắt đầu chỉ trích ai đó mà sau đó hóa ra họ không mắc lỗi, thì việc này có thể dẫn đến tổn hại đến danh tiếng,” bà nói.

Những người khác bổ sung rằng dù có rủi ro và các dự án cần cẩn trọng trong tuyên bố của mình, mục tiêu của họ là đúng đắn. Việc xuất bản hàng loạt các bài báo kém chất lượng thì dễ hơn nhiều so với việc thu hồi chúng, theo James Heathers, nhà siêu khoa học pháp y tại Đại học Linnaeus ở Växjö, Thụy Điển. AI có thể được sử dụng như một bước đầu để sàng lọc các bài báo cần xem xét kỹ hơn, Heathers nói, người từng là cố vấn cho Dự án Black Spatula. “Dù vẫn còn là khởi đầu, nhưng tôi ủng hộ các sáng kiến này,” ông nói thêm.

Thám tử AI

Nhiều nhà nghiên cứu đã dành cả sự nghiệp để phát hiện các vấn đề về liêm chính trong các bài nghiên cứu – và các công cụ kiểm tra một số khía cạnh của bài viết hiện đã tồn tại. Nhưng những người ủng hộ hy vọng rằng AI có thể thực hiện kiểm tra ở phạm vi rộng hơn trong một lần và xử lý được số lượng bài báo lớn hơn.

Cả Dự án Black Spatula và YesNoError đều sử dụng các mô hình ngôn ngữ lớn (LLMs) để phát hiện nhiều loại lỗi trong các bài báo, bao gồm lỗi về nội dung, tính toán, phương pháp luận và trích dẫn.

Các hệ thống này đầu tiên sẽ trích xuất thông tin, bao gồm cả bảng biểu và hình ảnh, từ các bài báo. Sau đó, chúng tạo ra một loạt chỉ dẫn phức tạp, gọi là “lệnh”, để hướng dẫn một mô hình “tư duy” – một loại LLM chuyên biệt – hiểu được nội dung đang xem xét và loại lỗi cần phát hiện. Mô hình có thể phân tích một bài nhiều lần, mỗi lần để tìm loại lỗi khác nhau, hoặc để đối chiếu lại kết quả. Chi phí để phân tích mỗi bài dao động từ 15 cent đến vài đô la, tùy thuộc vào độ dài bài viết và số lượng câu lệnh được sử dụng.

Tỷ lệ nhận diện sai – những trường hợp AI cho rằng có lỗi dù thực tế không có – là một rào cản lớn. Hiện tại, hệ thống của Dự án Black Spatula mắc sai về lỗi khoảng 10% số lần, theo Gulloso. Mỗi “lỗi” bị cáo buộc phải được kiểm tra với các chuyên gia trong lĩnh vực này, và việc tìm ra chúng là nút thắt lớn nhất của dự án, theo Steve Newman, kỹ sư phần mềm và doanh nhân đã sáng lập dự án.

Cho đến nay, nhóm của Schlicht tại YesNoError mới chỉ định lượng tỷ lệ nhận diện sai trên khoảng 100 lỗi toán học mà AI tìm thấy trong lượt kiểm tra đầu tiên gồm 10.000 bài báo. Theo Schlicht, trong số 90% tác giả phản hồi, tất cả ngoại trừ một người đều đồng ý rằng lỗi mà AI phát hiện là đúng. Trong tương lai, YesNoError có dự định hợp tác với ResearchHub, một nền tảng trả tiền mã hóa cho các tiến sĩ để thực hiện bình duyệt. Khi AI đã kiểm tra một bài, YesNoError sẽ kích hoạt yêu cầu xác minh kết quả, mặc dù điều này vẫn chưa được bắt đầu.

Nhận diện sai

Hiện tại, trang web YesNoError chứa nhiều kết quả nhận diện sai, theo Nick Brown, nhà nghiên cứu về liêm chính khoa học tại Đại học Linnaeus. Trong số 40 bài được cho là có vấn đề, ông tìm thấy 14 nhận diện sai (ví dụ: mô hình cho rằng một hình ảnh được nhắc trong bài không xuất hiện, trong khi thực tế là có). “Phần lớn vấn đề mà chúng phát hiện có vẻ là lỗi về cách diễn đạt”, và nhiều phát hiện là sai, ông nói.

Brown lo ngại rằng nỗ lực này sẽ tạo ra một “cơn lũ” cho cộng đồng khoa học phải xử lý, cũng như tạo ra sự xôn xao về những lỗi nhỏ như lỗi đánh máy, vốn nên được phát hiện trong quy trình bình duyệt (cả hai dự án chủ yếu kiểm tra các bài báo trên các kho lưu trữ bản thảo chưa xuất bản). Trừ khi công nghệ được cải thiện đáng kể, “điều này sẽ tạo ra khối lượng công việc khổng lồ mà không mang lại lợi ích rõ ràng nào,” Brown nói. “Tôi thấy điều này cực kỳ ngờ nghệch.”

Schlicht cho biết nhóm YesNoError đang nỗ lực giảm tỷ lệ nhận diện sai đến mức thấp nhất có thể. “Việc xác định lỗi nhỏ trong các bài nghiên cứu nghe có vẻ vụn vặt, nhưng như chúng ta đã thấy với bài nghiên cứu gần đây về độ độc hại của dụng cụ nấu ăn bằng nhựa đen, chỉ một số 0 thừa cũng có thể tạo ra tác động lớn đến thế giới.” Schlicht nói YesNoError đã tham khảo ý kiến các học giả và sẵn sàng nhận thêm phản hồi từ cộng đồng.

YesNoError có kế hoạch để các chủ sở hữu tiền mã hóa của họ quyết định bài báo nào sẽ được kiểm tra trước. Ý tưởng là tập trung vào các bài thu hút sự quan tâm công chúng, nhưng Brown lo ngại quá trình này có thể nhắm vào các nghiên cứu nhạy cảm về chính trị, chẳng hạn như khoa học khí hậu.

Nếu được thực hiện đúng cách, Brown cho rằng những nỗ lực này có thể phơi bày những sự thật khó chịu. “Giả sử ai đó tạo ra được một công cụ thật sự tốt… thì trong một số lĩnh vực, tôi cảm thấy nó sẽ giống như bật đèn trong căn phòng đầy gián vậy,” ông nói.

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm