Liệu ChatGPT có thể đánh giá chất lượng nghiên cứu?

Việc đánh giá chất lượng nghiên cứu vốn tốn nhiều thời gian và công sức. Do vậy, một số tạp chí đã tích hợp công nghệ tự động hóa phần nào cho một số khâu trong quy trình này như kiểm tra đạo văn, lựa chọn và phân công người đánh giá, hay kiểm tra các phân tích thống kê trong nghiên cứu đã được tự động hóa để tiết kiệm thời gian. Ngoài ra, cũng có những nỗ lực nhằm tự động hóa hoàn toàn một số loại hình đánh giá, ví dụ như sử dụng trắc lượng thư mục (bibliometrics) hoặc trí tuệ nhân tạo (AI) thay thế. Ngày này, với sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) với khả năng phức tạp và tinh vi, mở ra câu hỏi liệu các LLM như ChatGPT có thể hỗ trợ các nhà phê bình khoa học đánh giá từng bài báo nghiên cứu hay không?

Ảnh: Ladybug & Robot via Behance | CC BY-NC-ND 4.0

Sự xuất hiện của các Mô hình Ngôn ngữ Lớn (LLMs) và khả năng đánh giá nghiên cứu

Không thể phủ nhận rằng, sự ra đời của các Mô hình Ngôn ngữ Lớn (LLMs) như ChatGPT với khả năng xử lý văn bản và hình ảnh đã mở ra một hướng đi mới cho việc đánh giá nghiên cứu. LLMs hoạt động bằng cách xử lý khối lượng lớn tài liệu và học các lớp mô hình từ chúng, giúp chúng trở thành chuyên gia ngữ pháp có năng lực cao trong các nhiệm vụ ngôn ngữ học cấp cao như dịch thuật, phân tích sắc thái và trả lời câu hỏi. Ngoài ra, chúng có thể viết các các đoạn code ngắn theo yêu cầu và có thể giúp ích trong việc trích xuất thông tin. ChatGPT có khả năng trả lời các câu hỏi một cách hiệu quả, chính xác và đầy đủ thông tin, thậm chí đạt đến mức độ vượt qua các kỳ thi đại học và các bài thi lấy chứng chỉ chuyên môn.

Về lý thuyết, một Mô hình Ngôn ngữ Lớn (LLM) có thể thay thế cho người phản biện khoa học bằng cách đánh giá chất lượng bài báo khoa học, đặc biệt là nếu được cung cấp hướng dẫn về cách thực hiện đánh giá. Tuy nhiên, mặc dù LMM có khả năng trả lời câu hỏi ấn tượng, công nghệ này cũng có hạn chế tiềm ẩn cần lưu ý. LLM có thể tạo ra những câu trả lời sai lệch hoặc không đầy đủ nhưng theo một cách tinh vi, khiến người dùng khó nhận ra.

Nhận thức được vấn đề này, Thelwall (2024) đã tiến hành nghiên cứu đánh giá khả năng của ChatGPT-4 trong việc ước tính chất lượng bài báo khoa học dựa trên các tiêu chí chất lượng REF 2021 (REF, 2019ab). Để thực hiện, nhà nghiên cứu đã xây dựng một mô hình đánh giá nghiên cứu sử dụng ChatGPT, dựa trên các hướng dẫn chấm điểm đã được công bố của Khung đánh giá tính xuất sắc nghiên cứu của Anh Quốc (Research Excellence Framework – REF 2021). Mô hình này sau đó được áp dụng cho 51 bài báo của tác giả và so sánh kết quả với đánh giá chất lượng do chính tác giả đưa ra. 

Khung đánh giá tính xuất sắc nghiên cứu REF 2021

Khung đánh giá tính xuất sắc nghiên cứu (REF) ở Anh Quốc  là một đánh giá quốc gia định kỳ về quy trình nghiên cứu, môi trường và tác động xã hội tại các trường đại học công lập và các tổ chức nghiên cứu do chính phủ tài trợ. Nó kế thừa Đánh giá nghiên cứu (RAE), với các phiên bản bao gồm REF 2014, REF2021 và REF 2029 (dự kiến). Kết quả đánh giá chủ yếu dựa trên việc chấm điểm  đầu ra nghiên cứu của tổ chức đó, với điểm số được sử dụng để phân bổ toàn bộ khoản trợ cấp nghiên cứu theo khối của Vương quốc Anh cho đến lần đánh giá tiếp theo.

REF2021 được chia thành 34 Đơn vị Đánh giá (UoA), mỗi đơn vị tương ứng với một lĩnh vực học thuật lớn (ví dụ: UoA 8 là Hóa học) hoặc một tập hợp các lĩnh vực liên quan (ví dụ: UoA 24 là Khoa học Thể thao và Tập luyện, Giải trí và Du lịch). Mỗi bài báo hoặc sản phẩm khác được chấm điểm chất lượng theo thang điểm sau: 4* (hàng đầu thế giới), 3* (xuất sắc quốc tế), 2* (được công nhận quốc tế) hoặc 1* (được công nhận quốc gia). Mỗi Bảng chính đưa ra giải thích về các cấp độ này và chúng được công khai (REF, 2019ab). Một số sản phẩm cũng được chấm điểm 0 vì nằm ngoài phạm vi đánh giá hoặc có chất lượng thấp. Mỗi sản phẩm chủ yếu được chấm điểm bởi hai đánh giá viên từ UoA có liên quan, những người đồng ý về điểm số. Trong một số UoA, họ có thể tham khảo một tập hợp nhỏ các số liệu đo lường thư mục được chuẩn hóa do nhóm REF cung cấp, nhưng những số liệu này ít có ảnh hưởng (Wilsdon et al., 2015) vì vậy điểm REF gần như hoàn toàn phản ánh đánh giá của chuyên gia.

Kết quả cho thấy rằng ChatGPT-4 có thể tạo ra các bản tóm tắt tài liệu và cơ sở đánh giá chất lượng có vẻ hợp lý, phù hợp với các tiêu chí REF. Mặc dù điểm đánh giá từng bài báo của ChatGPT-4 có tương quan yếu với đánh giá của tác giả (r = 0,281), nhưng điểm đánh giá trung bình sau 15 lần lặp lại của ChatGPT-4 lại có mối liên hệ cao hơn và đáng tin cậy hơn với đánh giá của tác giả (điểm tương quan là 0,509). Do đó, việc lấy trung bình điểm từ nhiều vòng đánh giá của ChatGPT-4 có vẻ hiệu quả hơn so với điểm riêng lẻ. Tương quan tích cực có thể là do ChatGPT-4 có khả năng trích xuất các tuyên bố về tầm quan trọng, tính chặt chẽ và tính độc đáo của tác giả từ bên trong mỗi bài báo. Tác giả  cũng lưu ý thêm răng, nếu loại bỏ các bài báo yếu nhất ra khỏi đánh giá, thì tương quan với điểm trung bình (r = 0,200) giảm xuống dưới mức có ý nghĩa thống kê, cho thấy ChatGPT-4 gặp khó khăn trong việc đánh giá chi tiết.

Tuy nhiên, tác giả thừa nhận rằng, nghiên cứu này có một số hạn chế lớn về mặt phương pháp: không có nhóm kiểm soát, không thử nghiệm nhiều cấu hình của ChatGPT, tính đại diện thấp khi các bài báo được đánh giả chỉ đến từ một tác giả và lĩnh vực chuyên môn duy nhất và hầu hết các kết quả dựa trên việc tự đánh giá chất lượng của các bài báo. Một vấn đề khác là LLM đang phát triển nhanh chóng và kết quả sẽ thay đổi liên lục. 

Tác giả kết luận rằng, ChatGPT 4.0 có thể viết các bài đánh giá REF hợp lý cho các bài báo khoa học, tuy nhiên có khả năng yếu trong việc ước tính điểm REF. Điều này có thể xuất phát từ việc phân biệt nghiên cứu chất lượng cao (trên 2* theo REF) với nghiên cứu chất lượng thấp. Cách chính xác nhất để sử dụng ChatGPT cho điểm chất lượng là chạy nhiều lần và lấy điểm trung bình. Ngoài ra, cần chuẩn hóa điểm vì ChatGPT có xu hướng mặc định cho hầu hết các bài báo một điểm nhất định (ví dụ: 3*). Báo cáo đánh giá của ChatGPT chủ yếu dựa trên thông tin về tầm quan trọng, tính chặt chẽ và tính độc đáo có trong chính bài báo. Hiện chưa rõ lý do tại sao nó có thể chấm điểm bài báo với một mức độ chính xác nhất định, nhưng có thể là do nó suy luận dựa trên tuyên bố của tác giả trong bài báo thay vì sử dụng thông tin bên ngoài. Do đó, nên tránh sử dụng ChatGPT để đánh giá chất lượng bài báo cho đến khi có thể phát triển chiến lược kỹ thuật nhắc nhở tốt hơn hoặc chiến lược hiện tại hiệu quả hơn trên các LLM mới.

Thêm vào đó, xét về mặt đạo đức và pháp lý, việc sử dụng LLM như ChatGPT để đánh giá tài liệu chưa được công khai 

là không trung thực và có thể vi phạm bản quyền. Ngay cả các tài liệu đã được công bố nhưng không phải truy cập mở cũng có thể gặp vấn đề về pháp lý khi tải lên. Tác giả đề xuất rằng nên tránh sử dụng ChatGPT cho tất cả các mục đích đánh giá nghiên cứu cho đến khi vấn đề bản quyền được làm rõ hoặc có được sự cho phép rõ ràng từ chủ sở hữu bản quyền, cũng như có một chiến lược kỹ thuật nhắc nhở hiệu quả được phát triển và xác nhận. 

Dịch từ Sciencedo

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm