Liệu AI có thể được dùng để đánh giá chất lượng nghiên cứu?

Các chatbot và công cụ khác đang ngày càng được cân nhắc, nhưng sức người vẫn được xem là một lựa chọn an toàn hơn.

Ảnh: Nice work! Please check out my work via Behance | CC BY-NC-ND 4.0

Liệu các bác sĩ phẫu thuật sóc có tạo ra tác động trích dẫn nhiều hơn không? Câu hỏi này có vẻ lố bịch, hoặc có lẽ là màn mở đầu cho một câu chuyện cười dở tệ. Nhưng câu hỏi, do nhà khoa học dữ liệu Mike Thelwall đặt ra, không phải là một trò đùa. Đó là một bài thử nghiệm. Thelwall, người làm việc tại Đại học Sheffield, Vương quốc Anh, đã và đang đánh giá khả năng của các mô hình ngôn ngữ lớn (LLM) trong việc thẩm định các bài báo học thuật dựa trên tiêu chí của khung đánh giá chất lượng nghiên cứu (REF), một hệ thống kiểm định quốc gia về chất lượng nghiên cứu của Vương quốc Anh. Sau khi cung cấp cho một phiên bản tùy chỉnh của ChatGPT các tiêu chí của REF, ông đã đưa 51 công trình nghiên cứu của chính mình vào mô hình và đã rất ngạc nhiên trước khả năng của chatbot trong việc tạo ra những báo cáo nghe có vẻ hợp lý. “Bản thân các báo cáo không có gì cho thấy chúng không phải do một chuyên gia con người viết cả,” ông nói. “Đó là một thành tựu đáng kinh ngạc.”

Tuy nhiên, bài báo về loài sóc đã thực sự làm khó mô hình. Thelwall đã tạo ra bài báo này bằng cách lấy một trong những bản thảo bị từ chối của chính ông về việc liệu các bác sĩ phẫu thuật nam có tạo ra tác động trích dẫn nhiều hơn các bác sĩ phẫu thuật nữ hay không, và để làm cho nó trở nên vô nghĩa, ông đã thay thế ‘nam’ bằng ‘sóc’, ‘nữ’ bằng ‘người’ và bất kỳ tham chiếu nào đến giới tính ông đều đổi thành ‘loài’ trong toàn bộ bài báo. Mô hình ChatGPT của ông đã không thể xác định được rằng ‘bác sĩ phẫu thuật sóc’ không phải là một thứ có thật trong quá trình đánh giá và chatbot đã cho bài báo điểm cao.

Thelwall cũng nhận thấy rằng mô hình không đặc biệt thành công trong việc áp dụng điểm số dựa trên các hướng dẫn của REF cho 51 bài báo được đánh giá. Ông kết luận rằng dù mô hình có thể tạo ra các báo cáo nghe có vẻ chân thực, nó không có khả năng đánh giá chất lượng.

Sự trỗi dậy nhanh chóng của trí tuệ nhân tạo (AI) tạo sinh như ChatGPT và các trình tạo hình ảnh như DALL-E đã dẫn đến các cuộc thảo luận ngày càng tăng về vị trí của AI trong việc đánh giá nghiên cứu. Nghiên cứu của Thelwall, xuất bản vào tháng 5, chỉ là một mảnh ghép trong một bức tranh mà các học giả, viện nghiên cứu và nhà tài trợ đang cố gắng lắp ráp. Điều này diễn ra trong bối cảnh các nhà nghiên cứu cũng đang vật lộn với nhiều cách thức khác mà AI đang ảnh hưởng đến khoa học và các hướng dẫn đang được phát triển xung quanh việc sử dụng nó. Tuy nhiên, các cuộc thảo luận này hiếm khi tập trung vào việc đưa ra định hướng về cách AI có thể được sử dụng trong việc đánh giá chất lượng nghiên cứu. “Đó là ranh giới tiếp theo,” Gitanjali Yadav, một nhà sinh học cấu trúc tại Viện Nghiên cứu Gene Cây trồng Quốc gia Ấn Độ ở New Delhi, và là thành viên của nhóm làm việc về AI tại Liên minh Thúc đẩy Đánh giá Nghiên cứu, một sáng kiến toàn cầu nhằm cải thiện thực hành đánh giá nghiên cứu, cho biết.

Đáng chú ý, sự bùng nổ của AI cũng trùng hợp với những lời kêu gọi ngày càng tăng về việc xem xét lại cách các sản phẩm nghiên cứu được đánh giá. Trong thập kỷ qua, đã có những lời kêu gọi thoát ly khỏi các chỉ số dựa trên xuất bản như chỉ số ảnh hưởng của tạp chí và số lượt trích dẫn, những chỉ số đã được chứng minh là dễ bị thao túng và thiên vị. Việc tích hợp AI vào quá trình này tại một thời điểm như vậy mang lại cơ hội để kết hợp nó vào các cơ chế mới để hiểu và đo lường chất lượng cũng như tác động của nghiên cứu. Nhưng nó cũng đặt ra những câu hỏi quan trọng về việc liệu AI có thể hỗ trợ đầy đủ cho việc đánh giá nghiên cứu hay không, hay liệu nó có khả năng làm trầm trọng thêm các vấn đề và thậm chí tạo ra các vấn đề khác.

Đánh giá chất lượng

Chất lượng nghiên cứu rất khó định nghĩa, mặc dù có một sự đồng thuận chung rằng nghiên cứu chất lượng tốt được củng cố bởi sự trung thực, nghiêm ngặt, độc đáo và tác động. Có rất nhiều cơ chế khác nhau, mỗi cơ chế hoạt động ở các cấp độ khác nhau của hệ sinh thái nghiên cứu, để đánh giá những đặc điểm này, và vô số cách để làm điều đó. Phần lớn việc đánh giá chất lượng nghiên cứu diễn ra trong quy trình bình duyệt, trong nhiều trường hợp, đây là lần đánh giá chất lượng bên ngoài đầu tiên được thực hiện trên một công trình khoa học mới. Nhiều tạp chí đã sử dụng một bộ công cụ AI để bổ sung cho quy trình này trong một thời gian. Có AI để khớp bản thảo với những người bình duyệt phù hợp, các thuật toán phát hiện đạo văn và kiểm tra các sai sót thống kê, và các công cụ khác nhằm mục đích tăng cường tính liêm chính bằng cách phát hiện việc thao túng dữ liệu.

Gần đây hơn, sự trỗi dậy của AI tạo sinh đã chứng kiến một làn sóng nghiên cứu nhằm khám phá xem một LLM có thể hỗ trợ việc bình duyệt tốt đến đâu — và liệu các nhà khoa học có tin tưởng vào những công cụ đó để làm việc này hay không. Một số nhà xuất bản cho phép AI hỗ trợ trong việc chuẩn bị bản thảo, nếu được công bố đầy đủ, nhưng không cho phép sử dụng nó trong việc bình duyệt. Mặc dù vậy, niềm tin vào khả năng của các công cụ này, đặc biệt là những công cụ dựa trên xử lý ngôn ngữ tự nhiên và LLM, ngày càng tăng trong giới học thuật. Một nghiên cứu được công bố vào tháng 7 năm 2024, do nghiên cứu sinh tiến sĩ khoa học máy tính Weixin Liang dẫn đầu, trong phòng thí nghiệm của nhà khoa học dữ liệu y sinh James Zou tại Đại học Stanford ở California, đã đánh giá khả năng của một LLM, GPT-4, trong việc cung cấp phản hồi về các bản thảo. Nghiên cứu yêu cầu các nhà nghiên cứu tải lên một bản thảo và để nó được đánh giá bởi mô hình AI của họ. Các nhà nghiên cứu sau đó hoàn thành một cuộc khảo sát đánh giá các phản hồi và so sánh nó với những người bình duyệt là con người. Nghiên cứu đã nhận được 308 phản hồi, với hơn một nửa mô tả các bài đánh giá do AI tạo ra là “hữu ích” hoặc “rất hữu ích”. Nhưng nghiên cứu cũng chỉ ra một số vấn đề với các phản hồi đó: chúng đôi khi chung chung và gặp khó khăn trong việc đưa ra những phê bình sâu sắc.

Zou cho rằng điều này không nhất thiết loại trừ việc sử dụng các công cụ như vậy trong một số tình huống nhất định. Một ví dụ cụ thể mà ông đề cập là các nhà nghiên cứu trẻ đang làm việc với bản thảo đầu tiên của một bài báo. Họ có thể tải bản nháp lên một LLM chuyên dụng và nhận được bình luận về những thiếu sót hoặc lỗi trong bản nháp của mình. Nhưng với bản chất tốn nhiều công sức và có phần lặp đi lặp lại của việc bình duyệt, một số học giả lo ngại rằng có thể có xu hướng dựa vào kết quả từ một hệ thống AI tạo sinh có khả năng cung cấp các báo cáo. “Chẳng có vinh quang hay kinh phí nào gắn liền với việc bình duyệt. Nó chỉ được xem như một nghĩa vụ khoa học,” Elizabeth Gadd, người đứng đầu bộ phận văn hóa và đánh giá nghiên cứu tại Đại học Loughborough, Vương quốc Anh, cho biết. Đã có bằng chứng cho thấy những người bình duyệt đang sử dụng ChatGPT và các chatbot khác ở một mức độ nào đó, bất chấp các quy định được một số nhà xuất bản tạp chí đặt ra.

Thelwall tin rằng AI có thể làm được nhiều hơn trong việc giúp những người bình duyệt đánh giá chất lượng nghiên cứu, nhưng có lý do để tiến hành một cách chậm rãi. “Chúng ta chỉ cần rất nhiều thử nghiệm,” ông nói. “Và không chỉ là thử nghiệm kỹ thuật, mà còn là thử nghiệm thực tế, nơi chúng ta có được sự tự tin rằng nếu chúng ta cung cấp AI cho những người bình duyệt, ví dụ, họ sẽ không lạm dụng nó.”

Yadav nhận thấy lợi ích to lớn của AI như một công cụ tiết kiệm thời gian và đã làm việc với nó để giúp đánh giá nhanh chóng hình ảnh động vật hoang dã từ các máy ảnh đặt tại thực địa ở Ấn Độ, nhưng bà xem việc bình duyệt là quá quan trọng đối với cộng đồng khoa học để giao cho các bot. “Cá nhân tôi hoàn toàn phản đối việc bình duyệt được thực hiện bởi AI,” bà nói.

Tiết kiệm chất lượng

Một trong những lợi ích được thảo luận nhiều nhất của việc sử dụng AI là ý tưởng rằng nó có thể giải phóng thời gian. Điều này đặc biệt rõ ràng trong các hệ thống đánh giá nghiên cứu cấp quốc gia và cấp viện – một số trong đó đã tích hợp AI. Chẳng hạn, một nhà tài trợ ở Úc, Hội đồng Nghiên cứu Y tế và Sức khỏe Quốc gia (NHMRC), đã sử dụng AI thông qua “một mô hình lai kết hợp học máy và các kỹ thuật tối ưu hóa toán học” để xác định những người bình duyệt là con người phù hợp để đánh giá các đề xuất tài trợ. Hệ thống này giúp loại bỏ một trong những nút thắt hành chính trong quy trình đánh giá, nhưng đó cũng là nơi việc sử dụng AI kết thúc. Một phát ngôn viên của NHMRC cho biết cơ quan này “không sử dụng trí tuệ nhân tạo, dưới bất kỳ hình thức nào, để trực tiếp hỗ trợ việc đánh giá chất lượng nghiên cứu”.

Tuy nhiên, ngay cả việc sử dụng AI cho các hỗ trợ hành chính như vậy cũng có thể là một sự tiết kiệm nguồn lực lớn, đặc biệt là đối với các cuộc đánh giá quốc gia quy mô lớn như REF. Thelwall nói rằng hoạt động này nổi tiếng vì tiêu tốn một lượng thời gian đáng kinh ngạc của các nhà nghiên cứu. Hơn 1.000 học giả giúp đánh giá chất lượng nghiên cứu trong REF và họ mất khoảng nửa năm để hoàn thành công việc.

“Nếu chúng ta có thể tự động hóa việc đánh giá,” Thelwall nói, thì “đó sẽ là một cú hích năng suất khổng lồ.” Và có tiềm năng tiết kiệm rất lớn: kỳ REF gần đây nhất, vào năm 2021, được ước tính đã tiêu tốn khoảng 471 triệu bảng Anh (618 triệu đô la Mỹ).

Tương tự, chương trình đánh giá các nhà nghiên cứu của New Zealand, Quỹ Nghiên cứu Dựa trên Hiệu suất, trước đây đã được Tim Fowler, giám đốc điều hành của Ủy ban Giáo dục Đại học của chính phủ, mô tả là một công việc “cực nhọc”. Trong đó, các học giả nộp hồ sơ để đánh giá, đặt ra một gánh nặng cực lớn cho họ và các viện. Vào tháng 4, chính phủ đã hủy bỏ nó và một nhóm làm việc đã được giao nhiệm vụ đưa ra một kế hoạch mới vào tháng 2 năm 2025.

Những ví dụ này cho thấy tiềm năng lớn của AI trong việc tạo ra hiệu quả cao hơn, ít nhất là đối với các hệ thống và quy trình đánh giá lớn, mang tính quan liêu. Đồng thời, công nghệ này đang phát triển khi quan điểm về những gì cấu thành chất lượng nghiên cứu đang tiến triển và trở nên đa sắc thái hơn. “Cách bạn có thể đã định nghĩa chất lượng nghiên cứu vào đầu thế kỷ XX không phải là cách bạn định nghĩa nó bây giờ,” Marnie Hughes-Warrington, phó hiệu trưởng phụ trách nghiên cứu và doanh nghiệp tại Đại học Nam Úc ở Adelaide, cho biết. Hughes-Warrington là thành viên của nhóm chuyển tiếp Excellence in Research Australia, đang xem xét tương lai của hoạt động đánh giá của quốc gia này sau khi một cuộc rà soát vào năm 2021 nhận thấy rằng nó đã đặt một gánh nặng đáng kể lên các trường đại học. Bà nói rằng cộng đồng nghiên cứu ngày càng nhận ra sự cần thiết phải đánh giá nhiều “sản phẩm nghiên cứu phi truyền thống” hơn — chẳng hạn như các tài liệu chính sách, tác phẩm sáng tạo, triển lãm — và sau đó là các tác động xã hội và kinh tế.

Khi các cuộc trò chuyện đang diễn ra song song với sự bùng nổ của AI, việc các công cụ mới có thể phù hợp với các phương pháp đánh giá chất lượng nghiên cứu đã được sửa đổi là điều hợp lý. Chẳng hạn, Hughes-Warrington chỉ ra cách AI đã được sử dụng để phát hiện thao túng hình ảnh trên các tạp chí hoặc để tổng hợp dữ liệu từ các hệ thống được sử dụng để xác định duy nhất các nhà nghiên cứu và tài liệu. Việc áp dụng các phương pháp này sẽ nhất quán với sứ mệnh của các tổ chức như trường đại học và các cơ quan quốc gia. “Tại sao các tổ chức, được thúc đẩy bởi sự tò mò và nghiên cứu, lại không triển khai những cách làm mới?” bà nói.

Tuy nhiên, Hughes-Warrington cũng nhấn mạnh những nơi mà việc kết hợp AI sẽ gặp phải sự phản kháng. Có những lo ngại về quyền riêng tư, bản quyền và an ninh dữ liệu cần được thừa nhận, những thành kiến cố hữu trong các công cụ cần được khắc phục và nhu cầu xem xét bối cảnh diễn ra các cuộc đánh giá nghiên cứu, chẳng hạn như tác động sẽ khác nhau như thế nào giữa các ngành, các viện và các quốc gia.

Gadd không phản đối việc kết hợp AI và nói rằng bà nhận thấy nó xuất hiện thường xuyên hơn trong các cuộc thảo luận về chất lượng nghiên cứu. Nhưng bà cảnh báo rằng các nhà nghiên cứu đã là một trong những nghề được đánh giá nhiều nhất trên thế giới. “Quan điểm chung của riêng tôi về vấn đề này là chúng ta đánh giá quá nhiều,” bà nói. “Phải chăng chúng ta đang tìm cách dùng AI để giải quyết một vấn đề do chính chúng ta tạo ra?”

Sau khi chứng kiến cách các đánh giá dựa trên chỉ số thư mục (bibliometrics) có thể gây tổn hại cho ngành, với các chỉ số như chỉ số ảnh hưởng của tạp chí bị lạm dụng như một sự thay thế cho chất lượng và được chứng minh là cản trở các nhà nghiên cứu trẻ và sự đa dạng, Gadd lo ngại về cách AI có thể được triển khai, đặc biệt nếu các mô hình được huấn luyện trên chính những chỉ số này. Bà cũng nói rằng các quyết định liên quan đến việc phân bổ thăng tiến, tài trợ hoặc các phần thưởng khác sẽ luôn cần sự tham gia của con người ở mức độ lớn hơn nhiều. “Bạn phải rất thận trọng,” bà nói, về việc chuyển sang công nghệ “để đưa ra những quyết định sẽ ảnh hưởng đến cuộc sống của con người.”

Gadd đã làm việc rất nhiều trong việc phát triển SCOPE, một khuôn khổ để đánh giá nghiên cứu có trách nhiệm của Mạng lưới Quốc tế các Hiệp hội Quản lý Nghiên cứu, một tổ chức toàn cầu quy tụ các hiệp hội quản lý nghiên cứu để phối hợp các hoạt động và chia sẻ kiến thức trong lĩnh vực này. Bà nói rằng một trong những nguyên tắc chính của chương trình là “chỉ đánh giá khi cần thiết” và, có lẽ trong đó, có một bài học về cách chúng ta nên suy nghĩ về việc kết hợp AI. “Nếu chúng ta đánh giá ít hơn, chúng ta có thể thực hiện nó với tiêu chuẩn cao hơn,” bà nói. “Có thể” AI có thể hỗ trợ quá trình đó, nhưng “rất nhiều lập luận và lo lắng mà chúng ta đang có về AI, chúng ta đã từng có về các chỉ số thư mục.”

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm

5 mô hình bình duyệt

Danh tính là một vấn đề trong quy trình bình duyệt khoa học, mức độ