Ngày càng có nhiều nghiên cứu cho thấy AI tạo sinh được sử dụng một cách rộng rãi trong các ấn phẩm nghiên cứu. Đối mặt với sự gia tăng liên tục về số lượng bài báo, biên tập viên và người phản biện nên áp dụng các công cụ AI để thực hiện đánh giá thống kê và phương pháp luận, cho phép họ tập trung vào các lĩnh vực đòi hỏi chuyên môn của con người.
Trí tuệ nhân tạo đang thay đổi khoa học và rõ ràng xuất bản khoa học cần phải bắt kịp với sự thay đổi này. Báo cáo 10 công nghệ mới nổi hàng đầu năm 2024 của Diễn đàn Kinh tế Thế giới nhấn mạnh rằng hàng tỷ đô tiền tài trợ đã được đổ vào AI chỉ riêng cho hoạt động khám phá khoa học.
AI hiện đã được ứng dụng rộng rãi trong nghiên cứu, từ việc khám phá ra các họ kháng sinh mới cho đến nghiên cứu vô số hiện tượng xã hội và văn hóa. Hội đồng cố vấn khoa học và công nghệ của Tổng thống Hoa Kỳ (The United States’ President’s Council of Advisors on Science and Technology – PCAST) đã tuyên bố: “AI có tiềm năng biến đổi mọi ngành khoa học và nhiều khía cạnh trong cách chúng ta làm khoa học”. Tiềm năng biến đổi của AI còn nằm ở lượng nghiên cứu khoa học được tạo ra, đề cập trong báo cáo Trí tuệ nhân tạo trong khoa học năm 2023 của OECD: “Nâng cao năng suất nghiên cứu có thể là mục đích có giá trị kinh tế và xã hội nhất trong tất cả các mục đích sử dụng AI”.
Các nhà xuất bản giờ phải thích nghi và đổi mới giống như thời kì chuyển đổi từ in ấn sang kỹ thuật số vào cuối thế kỷ 20. Tuy nhiên, quy trình phản biện đặt ra một thách thức đối với điều này. Các nhà nghiên cứu đã dành ra khoảng 100 triệu giờ cho việc phản biện, một con số được ước tính vào năm 2020 và có thể tăng theo cấp số nhân nếu người bình duyệt không được hỗ trợ. Một số người coi hệ thống hiện tại đã đạt công suất tối đa, một số lại lập luận rằng “khoa học theo lượng” (science-at-volume) được AI hỗ trợ có thể dẫn đến “sự ảo tưởng về hiểu biết”, tức là sự gia tăng đáng kể về năng suất và sản lượng khoa học không phù hợp với sự hiểu biết và phán đoán của con người.
Đối với tình trạng này, câu trả lời là đáp ứng bình duyệt tương tự như nghiên cứu. Để người bình duyệt sử dụng hiệu quả chuyên môn của mình, chúng ta cần phát triển cũng như tin tưởng hơn vào các công cụ xác định tính liêm chính trong nghiên cứu và bình duyệt, được AI hỗ trợ thực hiện những phần việc nặng nhọc. Bước đầu tiên là phải ngăn chặn khoa học gian lận, “khoa học xấu” xâm nhập vào quy trình bình duyệt bằng cách “lấy độc trị độc”, tương tự như cách lĩnh vực an ninh mạng và tài chính tận dụng khả năng của AI để xử lý lượng dữ liệu khổng lồ, xác định các bất thường với tốc độ mà khả năng phát hiện của con người không thể sánh kịp. Như vậy, các công cụ AI dùng để xác định liêm chính trong nghiên cứu đã được ra đời, như AIRA của Frontiers gồm một loạt các công cụ AI giải quyết các khía cạnh khác nhau của gian lận nghiên cứu, hay Trung tâm liêm chính STM (STM Integrity Hub) được tạo ra bởi Hiệp hội các nhà xuất bản khoa học, kỹ thuật và y khoa quốc tế (The International Association of Scientific, Technical and Medical Publishers – STM) để tổng hợp và khai thác những đổi mới trong công nghệ trên khắp các nhà xuất bản nghiên cứu.
Mặc dù đây là những bước đi tích cực đối với các nhà xuất bản nhằm bảo vệ liêm chính trong nghiên cứu, thách thức lớn nhất họ phải đối mặt liên quan đến AI không phải là những hành vi có hại của một số ít người, mà là việc nhiều người tích cực áp dụng các công cụ AI để đẩy nhanh quá trình nghiên cứu.
Vậy, cần phải làm gì? Các nhà xuất bản cần vượt qua những hạn chế ban đầu với AI và các mô hình ngôn ngữ lớn (LLM), bao gồm dữ liệu có sẵn để đào tạo các mô hình này, cũng như nhận ra tiềm năng của bình duyệt hỗ trợ bởi AI. Dữ liệu mở là một ví dụ ban đầu của xu hướng này. Một nguyên lý cốt lõi của phong trào khoa học mở, dữ liệu mở cho phép AI, trong khám phá khoa học, tạo ra kết nối giữa dữ liệu có thể tương tác, được tạo ra bởi các nhóm nghiên cứu khác nhau. Khi dữ liệu khoa học hỗ trợ bởi AI tăng lên và phức tạp hơn, nhiệm vụ chính của người bình duyệt – là phát hiện ra các lỗi phương pháp luận và thống kê trong các bản thảo – đồng thời trở nên khó khăn. Vấn đề thường càng trầm trọng hơn do một số nhà nghiên cứu thiếu sự đào tạo về thống kê nâng cao và chuyên môn. Do đó, sự kết hợp giữa AI và khoa học mở/dữ liệu mở có tiềm năng tăng cường sự khám phá, đổi mới khoa học; mặt khác, điều này cũng tạo ra các tổ hợp dữ liệu phức tạp, tăng nguy cơ đưa lỗi vào các tập dữ liệu.
Ví dụ, một nhóm khoa học hàng đầu đã tạo ra một bộ dữ liệu gốc với mục đích tốt, sử dụng máy học để xác định các hệ vi sinh vật liên quan đến ung thư. Bình duyệt hậu xuất bản đã chỉ ra vấn đề trong dữ liệu này cũng như “làn sóng” các nghiên cứu sau đó sử dụng và tin rằng bộ dữ liệu này hợp lý. Kéo theo đó, hàng loạt bài báo bị rút bỏ và các cuộc điều tra có liên quan được tiến hành. Đứng trên góc nhìn của nhà xuất bản và bình duyệt, câu hỏi đặt ra là làm thế nào để ngăn những dữ liệu này khỏi nhập vào ghi chép khoa học? Có thể nói, tất cả chúng ta vẫn đang trong giai đoạn chuyển tiếp, khi các nhà nghiên cứu và nhà xuất bản tiếp tục học hỏi từ những sự cố tương tự, điều chỉnh các phương pháp nghiên cứu cũng như quy trình bình duyệt khi việc sử dụng AI và LLM trong nghiên cứu trở nên phổ biến.
Các nhà xuất bản có quy mô và chuyên môn công nghệ để thử nghiệm và phát triển các công cụ trong không gian này. Với sự xuất hiện trên nền tảng trực tuyến của nhiều ứng dụng AI trong nghiên cứu khoa học, không ai mong muốn cũng như không hề khả thi khi dựa vào một nhóm nhỏ người bình duyệt thống kê để thực hiện các công việc nặng nhọc với dữ liệu ngày càng phức tạp, được tạo ra với tốc độ chóng mặt. Các công cụ của nhà xuất bản nên hỗ trợ cả tác giả và người bình duyệt bằng cách phát hiện các lỗi hoặc bất thường về thống kê một cách tự động và chính xác, đề xuất các phương pháp thống kê phù hợp cũng như cung cấp phân tích sơ bộ về dữ liệu của các nhà nghiên cứu. Nếu có thể đạt được điều này, thì ngay cả với các tập dữ liệu lớn do AI tạo ra, quy trình bình duyệt vẫn sẽ hoạt động mạnh mẽ mà được sắp xếp hợp lý, giải phóng người bình duyệt để tập trung vào các khía cạnh quan trọng khác của bản thảo.
Rõ ràng rằng, bình duyệt không thể duy trì ở trạng thái hiện tại khi AI làm tăng sản lượng khoa học. Bên cạnh đó, khi khối lượng nghiên cứu tăng lên, sự hợp tác và đổi mới là cần thiết để bảo vệ diễn ngôn khoa học và tính liêm chính của các ghi chép khoa học. Xuất bản chéo, hợp tác nghiên cứu chéo từ phòng thí nghiệm đến trang của nhà xuất bản diễn ra như thế nào và có thể được thúc đẩy ra sao? Liệu có thể phát triển các công cụ AI đủ tiên tiến để phát hiện dữ liệu lớn bị lỗi trước khi nó được lưu vào các ghi chép khoa học không? Hệ thống cảnh báo toàn nhà xuất bản (tương tự như cảnh báo an ninh mạng) sẽ hoạt động như thế nào để chia sẻ thông tin tình báo, ngăn chặn việc lan truyền các dữ liệu và phân tích bị lỗi?
AI trong khoa học và xuất bản đang ở những bước đầu tiên, nhưng đã là một thực tế cần được giải quyết và phát triển hơn nữa. Chúng ta cần cùng nhau mở ra một con đường hướng tới tiềm năng của AI trong đổi mới khoa học.
Dịch từ LSE
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.