Kỹ năng nghiên cứu

Dữ liệu là nền tảng của nghiên cứu nhưng tại sao chúng ta không thể trích dẫn chúng?

Tháng 11 29, 2023
7:15 Sáng

Lương Ánh Nguyệt

Việc thiếu trích dẫn và thiếu mô tả chi tiết về các bộ dữ liệu trong các công bố học thuật đã làm hạn chế tiềm năng của dữ liệu, cũng như giảm tính khả lập và độ tin cậy của các phát hiện khoa học.

Ảnh: Global Digitization via Public Domain Pictures | CC0 1.0

Ngay từ khi chập chững vào con đường nghiên cứu, hẳn nhà khoa học nào cũng được hướng dẫn về tầm quan trọng của việc trình bày và trích dẫn các tài liệu tham khảo đã xuất bản trước đó. Chúng ta được dạy rằng quy trình này tạo cơ sở vững chắc cho những kết luận trong nghiên cứu của mình. Thế mà trích dẫn các bộ dữ liệu lại là một câu chuyện khác, mặc dù bản chất nhìn chung là như nhau. Các nhà nghiên cứu ngày nay nhiệt tình đón nhận các kho lưu trữ dữ liệu kỹ thuật số có thể được chia sẻ và cập nhật dễ dàng, nhưng không phải lúc nào họ cũng trích dẫn các bộ dữ liệu từ các tài nguyên này trong các bài báo của mình.

Ngoài việc bộ dữ liệu sẽ nhận được sự công nhận xứng đáng, việc trích dẫn dữ liệu tạo điều kiện thuận lợi cho quá trình xác minh độ tin cậy và khả năng nhân rộng kết quả nghiên cứu. Nó cũng giúp nhà nghiên cứu, cơ quan tài trợ và các đơn vị liên quan nắm được dữ liệu được sử dụng như thế nào, bởi ai, ở đâu trong cộng đồng khoa học. Những thước đo này rất quan trọng để đánh giá tác động của nhóm tác giả đứng đằng sau bộ dữ liệu, vì vậy trích dẫn chính xác, đầy đủ là rất cần thiết.

Trong một thập kỷ vừa qua, các nhà xuất bản lớn như Nature và các kho lưu trữ dữ liệu đã có những bước tiến đáng kể trong việc nâng cao nhận thức về trích dẫn dữ liệu trong cộng đồng khoa học, đồng thời các cơ quan chính sách khoa học như AGU (Liên minh Địa vật lý Hoa Kỳ) cũng khuyến nghị điều này. Tuy nhiên, bất chấp những nỗ lực nói trên, chúng tôi nhận thấy vẫn cần có một cách tiếp cận mới để quảng bá và đẩy mạnh việc trích dẫn dữ liệu trong các ấn phẩm khoa học.

Thu thập các chỉ số về trích dẫn dữ liệu

Các trung tâm dữ liệu như Hệ thống Quan sát Trái đất của NASA (EOSDIS DAACs), nơi lưu trữ và phân phối một lượng lớn dữ liệu về môi trường, đã ủng hộ việc trích dẫn dữ liệu trong nhiều năm. EOSDIS DAACs sử dụng các chỉ số về trích dẫn dữ liệu, chẳng hạn như số lần một bộ dữ liệu được trích dẫn mỗi năm và các bộ dữ liệu thường nào được sử dụng cùng nhau, để đánh giá phạm vi sử dụng và tác động của tập dữ liệu mà họ cung cấp. Việc này giống hệt như cách chỉ số của trích dẫn tài liệu tham khảo truyền thống hoạt động. Các đơn vị khác của NASA cũng đã phát triển các quy trình riêng để thu thập các chỉ số trích dẫn dữ liệu định kỳ.

Thông thường, đây là công việc của thủ thư. Quy trình thu thập khá khác nhau giữa các trung tâm dữ liệu, nhưng đều khá thủ công và tốn thời gian, bao gồm tìm kiếm từ khóa và tập hợp các kết quả. Ngày nay, phương pháp tự động sử dụng Scopus hoặc DataCite, mặc dù đang dần được cải thiện, vẫn chiếm chưa đến 60% lượng kết quả bằng phương pháp thủ công. Hiệu suất kém này chủ yếu vì các lý do sau: thiếu mô tả cụ thể khi sử dụng các tập dữ liệu trong nghiên cứu đã xuất bản, thiếu tham chiếu tương tự như mã định danh tài liệu số (DOIs) cho dữ liệu, và không có sẵn các giao diện lập trình ứng dụng API nguồn mở mạnh mẽ để quét các bài báo.

Tuy nhiên, cũng có những tín hiệu đáng mừng. Sự phát triển của các công cụ tìm kiếm tài liệu học thuật chẳng hạn như Google Scholar và việc áp dụng các tiêu chuẩn siêu dữ liệu để tối ưu hóa công cụ tìm kiếm (chẳng hạn như tiêu chuẩn do schema.org cung cấp) đã giảm bớt gánh nặng cho các thủ thư trong việc thu thập các chỉ số. Thêm nữa, chúng ta có quyền hy vọng vào các kỹ thuật máy học, tìm kiếm tạp chí mở, và sự áp dụng rộng rãi của DOIs dữ liệu để dần hoàn thiện phương pháp thu thập tự động.

Khám phá các xu hướng kết nối bằng các chỉ số này

Các nhà tài trợ và thành viên của các dự án nghiên cứu có thể dựa vào các chỉ số trích dẫn để đánh giá tác động của các khoản đầu tư nghiên cứu của họ, còn các trung tâm dữ liệu cần để nắm được mối liên hệ giữa các lĩnh vực nghiên cứu khác nhau. Ví dụ, một đơn vị khác của NASA – Trung tâm Dữ liệu kinh tế xã hội và Ứng dụng (SEDAC) đã sử dụng các chỉ số trích dẫn dữ liệu để hiểu tính liên kết liên ngành của dữ liệu kinh tế xã hội và dữ liệu không gian địa lý viễn thám trong các nghiên cứu đã xuất bản. Thông tin này giúp SEDAC biết được tác động của các bộ dữ liệu của họ trong các lĩnh vực và ứng dụng khác nhau của xã hội.

Khi có trong tay thông tin về tất cả các trích dẫn của một bộ dữ liệu cụ thể, người dùng có thể dễ dàng nhìn ra các phương pháp xử lý dữ liệu nào thường được dùng cho bộ dữ liệu đó, để tham khảo cho nghiên cứu của họ. Các trung tâm dữ liệu có thể dựa vào đó để cải thiện chất lượng dịch vụ, chẳng hạn như các dịch vụ tải xuống hoặc tăng khả năng được tìm kiếm của tập dữ liệu để người dùng mạng dễ dàng tìm thấy với từ khóa thích hợp hơn.

Dữ liệu không được công nhận một cách đầy đủ, chính xác – Inadequate Acknowledgments

Khi phân tích danh mục các ấn phẩm DAACs thu thập được từ năm 1997 đến nay, chúng tôi quan sát thấy các bộ dữ liệu chỉ được đề cập đến trong phần “Lời cảm ơn” (Acknowledgments) của các bài báo thay vì dưới dạng các trích dẫn chuẩn xác ở phần “Nguồn tham khảo” (Bibliography). Tỷ lệ trích dẫn dữ liệu ở Bibliography dao động từ 25-80% tùy năm, và mục tiêu hướng tới là 100%. Trong thực tế, đôi khi hoàn cảnh không có phép tác giả mô tả chi tiết bộ dữ liệu – ví dụ như nếu số từ trong bản thảo bị giới hạn. Vấn đề chủ yếu ở đây hơn 60% các bài báo thiếu mô tả chi tiết và thiếu trích dẫn đến các bộ dữ liệu, ngay cả khi DOI của bộ dữ liệu đó có tồn tại.

Ví dụ, tác giả các bài báo thường không cung cấp các thông tin cụ thể về phiên bản dữ liệu, ngày truy cập, địa chỉ mà người dùng cuối tải xuống hay phạm vi trong thời gian và không gian của dữ liệu. Đáng buồn là những lời giới thiệu chung chung như “dữ liệu nhiệt độ được tải xuống từ PO.DAAC” và “dữ liệu MODIS – Terra được lấy từ NSIDC” không cung cấp đủ chi tiết để xác định chính xác tập dữ liệu lại rất phổ biến trong các công bố đã xuất bản. Terra hay MODIS có liên quan đến hàng chục thậm chí hàng trăm bộ dữ liệu, rất khó để dựa vào những giới thiệu đó để truy ngược lại phương pháp nghiên cứu và phân tích của các bộ dữ liệu nguồn. Thủ thư sẽ phải đọc toàn bộ bài báo để xác định bộ dữ liệu nào được sử dụng, mà có thể khả năng chính xác vẫn không cao nếu bài báo nằm ngoài phạm vi chuyên môn của họ. Việc xác định này càng khó hơn với các ấn phẩm có tuổi. Những sự mơ hồ này gây khó khăn cho việc tái lập nghiên cứu và theo dõi về lâu dài, mà đây lại chính là nền tảng để khoa học phát triển.

Hướng tới một viễn cảnh bền vững cho trích dẫn dữ liệu

Tựu chung lại, có hai vấn đề nổi cộm hiện nay: thứ nhất, các bộ dữ liệu không được trích dẫn thường xuyên và đủ độ cụ thể;, thứ hai, các phương pháp thủ công để quét và ráp các bài báo với các tập dữ liệu đang trở nên lạc hậu kém hiệu quả. Mối liên hệ giữa các nghiên cứu và các bộ dữ liệu được sử dụng cần phải minh bạch, để đảm bảo rằng công trình đó đáng tin cậy và có thể tái lập. Nếu không, nhiều bộ dữ liệu sẽ bị đánh giá thấp thậm chí không được sử dụng, đồng thời việc ghi nhận những đóng góp của chúng cho khoa học sẽ bị hạn chế.

Chỉ có khoảng một nửa số tạp chí hiện nay cung cấp hướng dẫn cách trích dẫn dữ liệu. Các nhà xuất bản tạp chí nên yêu cầu không chỉ trích dẫn mà phải trích đầy đủ, cụ thể để biến thực hành này thành thông lệ. Các nhà xuất bản, biên tập viên và người phản biện nên nhấn mạnh vào tính cụ thể này và tiến hành kiểm tra định ky. Những cuộc kiểm tra rà soát như vậy sẽ giúp thay đổi dần các chuẩn mực hiện hành. Chính các nhà khoa học cũng có thể đóng góp vào quá trình thay đổi này bằng cách tự thực hành và chỉ ra các sai phạm ở người khác.

Ngoài ra, các trung tâm dữ liệu phải tăng cường độ phủ sóng của họ và sử dụng thêm các công cụ để làm cho việc trích dẫn trở nên hấp dẫn hơn với người dùng. Ví dụ như đơn giản hóa việc trích dẫn dữ liệu qua các công cụ hỗ trợ xuất bản như EndNote hoặc LaTeX hoặc tích hợp xuất trích dẫn ở ngay các trang cung cấp dữ liệu giống như “Cite this article” hay gặp ở các tạp chí.

Thêm nữa, nếu việc xuất bản các bộ dữ liệu được tính vào thước đo đánh giá hiệu suất nghiên cứu ở các trường học và đơn vị nghiên cứu, thì nhận thức trong việc sử dụng và công nhận các bộ dữ liệu sẽ được nâng cao. Như một lẽ tự nhiên các nhà khoa học sẽ có ý thức hơn trong việc trích dẫn dữ liệu.

Chúng tôi tin tưởng rằng với những nỗ lực phối hợp của cộng đồng nghiên cứu để áp dụng trích dẫn dữ liệu, chúng ta có thể nhanh chóng nhìn thấy những thay đổi tích cực như AGU đã khẳng định: “…[việc này] có ích cho khoa học trong thế kỷ 21 và rất cần thiết trong việc đưa chúng ta tiến gần hơn đến một viễn cảnh dữ liệu mở, sẵn có và hữu ích”.

Dịch từ Data sets are foundational to research. Why don’t we cite them?

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Dữ liệu là nền tảng của nghiên cứu nhưng tại sao chúng ta không thể trích dẫn chúng?

Lương Ánh Nguyệt

Thu thập các chỉ số về trích dẫn dữ liệu

Khám phá các xu hướng kết nối bằng các chỉ số này

Dữ liệu không được công nhận một cách đầy đủ, chính xác – Inadequate Acknowledgments

Hướng tới một viễn cảnh bền vững cho trích dẫn dữ liệu

Có thể bạn quan tâm

Khi AI nói dối

Suy ngẫm về khái niệm “Educate” trong bối cảnh giáo dục hiện đại

Không nên dùng SSCI để làm căn cứ đánh giá nữa

Khi AI nói dối

Suy ngẫm về khái niệm “Educate” trong bối cảnh giáo dục hiện đại

Không nên dùng SSCI để làm căn cứ đánh giá nữa

Chính sách Truy cập Mở – Thành bại tại chi tiết

Tin Hot

Khi AI nói dối

Suy ngẫm về khái niệm “Educate” trong bối cảnh giáo dục hiện đại

Tin đang nổi

Khi AI nói dối

Suy ngẫm về khái niệm “Educate” trong bối cảnh giáo dục hiện đại

Không nên dùng SSCI để làm căn cứ đánh giá nữa

Chính sách Truy cập Mở – Thành bại tại chi tiết

Theo dõi

Tin ảnh

More Interesting News

Khi AI nói dối

Suy ngẫm về khái niệm “Educate” trong bối cảnh giáo dục hiện đại