Liệu sự biến mất của các kho lưu trữ dữ liệu nghiên cứu có trở thành mối đe dọa tới khoa học mở và các tài liệu học thuật?

Các kho lưu trữ dữ liệu nghiên cứu (research data repositories) đóng một vai trò quan trọng trong việc đảm bảo nghiên cứu có khả năng tái lập, nhân rộng và tái sử dụng. Tuy nhiên, cơ sở hạ tầng hỗ trợ chúng có thể không bền vững. Dựa trên một tập dữ liệu mới, Dorothea Strecker (Đại học Humboldt Berlin), Heinz Pampel (Đại học Humboldt Berlin), Rouven Schabinger (Nền tảng dịch vụ thư viện Thụy Sĩ – the Swiss Library Service Platform) và Nina Leonie Weisweiler (Hiệp hội Helmholtz) đã tìm hiểu về mức độ phổ biến của việc đóng cửa các kho dữ liệu và gợi ý những điều có thể thực hiện nhằm lưu trữ dữ liệu trong thời gian dài.

Ảnh: Technologist Magazine – Open Science Feature via Behance | CC BY-NC-ND 4.0

Các kho lưu trữ dữ liệu nghiên cứu, như Zenodo hay UK Data Archive, là những cơ sở hạ tầng thông tin chuyên ngành tập trung vào quá trình lựa chọn và phổ biến dữ liệu nghiên cứu. Một trong những nhiệm vụ chính của các kho lưu trữ là duy trì các bộ dữ liệu của họ một cách lâu dài, như có thể thấy trong ví dụ về TRUST Principle, hoặc trong yêu cầu của tổ chứng cấp chứng nhận CoreTrustSeal. Lưu trữ dài hạn là một điều kiện tiên quyết cho các thực hành dữ liệu phổ biến khác như tái sử dụng hay trích dẫn dữ liệu.

Để dữ liệu có thể sử dụng được, các cơ sở hạ tầng dữ liệu lưu trữ chúng cũng cần duy trì hoạt động. Tuy vậy, quá trình vận hành các kho dữ liệu nghiên cứu phải đối mặt với các thách thức, mà đôi khi, bởi những lý do khác nhau, chúng vẫn đóng cửa bất kể cố gắng nỗ lực nhất. Các nghiên cứu trước đây cho thấy việc đóng cửa các kho dữ liệu là điều đã được dự đoán. Tuy nhiên, những nghiên cứu gần đây bị giới hạn trong các lĩnh vực và loại kho lưu trữ cụ thể.

Tìm hiểu về việc đóng cửa các kho lưu trữ

Nhóm tác giả đã tìm hiểu về hiện tượng các kho lưu trữ dữ liệu ngừng hoạt động từ khía cạnh cơ sở hạ tầng, đồng thời cố gắng ước tính ảnh hưởng của việc đóng cửa kho lưu trữ đến tính sẵn có của dữ liệu. 

Để có được cái nhìn tổng quát về sự đóng cửa của các kho lưu trữ, nhóm tác giả lấy mẫu dựa trên hệ thống đăng kí re3data – một nguồn thông tin về các kho lưu trữ dữ liệu nghiên cứu toàn diện nhất, với hơn 3000 bản ghi. Sau khi xem xét từng kho dữ liệu được hệ thống đăng kí coi là ngừng hoạt động, cùng với các tiêu chí khác, 191 kho lưu trữ được xác định đã đóng cửa. Để thu thập thông tin về quá trình đóng cửa, nhóm nghiên cứu phân tích trang web của các kho dữ liệu, bao gồm cả phiên bản hiện tại và phiên bản được lưu trữ bởi Internet Archive, cũng như phân tích tài liệu bổ sung, như bộ dữ liệu mô tả các kho lưu trữ. Tập dữ liệu kết quả được công bố và dùng lại miễn phí.

Các phát hiện chỉ ra việc đóng cửa các kho lưu trữ không phải hiếm thấy: 6.2% tổng lượng kho dữ liệu được thống kê trên re3data đã ngừng hoạt động. Từ khi hệ thống đăng kí này được ra mắt vào năm 2012, mỗi năm có ít nhất là một kho lưu trữ bị đóng cửa (hình 1). Độ tuổi trung bình của các kho lưu trữ này khi đóng cửa là 12 năm.

Hình minh hoạ: Số lượng các kho lưu trữ đóng cửa mỗi năm, được chỉ mục bởi re3data

Với phần lớn các kho lưu trữ trong mẫu (120), nguyên nhân ngừng hoạt động vẫn chưa rõ. Trong số còn lại, những rủi ro dẫn đến việc đóng cửa được biết là tổ chức hoạt động kém (37), vấn đề kinh tế (27), do phần cứng/phần mềm đã lỗi thời (5), tấn công từ bên ngoài (2) và sự lỗi thời của phương tiện truyền thông (1).

Nhóm nghiên cứu cũng xem xét hai chiến lược mà các kho lưu trữ có thể sử dụng để tránh mất mát dữ liệu: Duy trì quyền truy cập hạn chế vào dữ liệu (như thông qua giao diện FTP đơn giản) và di chuyển dữ liệu (chuyển quyền giám sát dữ liệu sang kho lưu trữ khác). Kết quả cho thấy 12% kho lưu trữ trong mẫu duy trì quyền truy cập hạn chế vào dữ liệu và 44% di chuyển dữ liệu trước khi ngừng hoạt động. 47.1% kho lưu trữ không cho thấy sử dụng chiến lược nào, đồng nghĩa với việc phải đối mặt với nguy cơ cao mất dữ liệu vĩnh viễn sau khi ngưng hoạt động.

Quản lý rủi ro ngừng hoạt động

Việc đóng kho lưu trữ không hề hiếm gặp và điều này cần được lên kế hoạch trước. Tuy nhiên, lên kế hoạch để lưu trữ dài hạn dữ liệu nghiên cứu là một thách thức, bởi hàng loạt yếu tố có thể khiến cả dữ liệu và kho lưu trữ dữ liệu đó đối mặt với các rủi ro. Chỉ hơn nửa kho lưu trữ trong mẫu có những chiến lược cụ thể để giảm thiểu mất mát dữ liệu. Cũng cần lưu ý rằng, không có chiến lược nào trong số chúng đưa ra một giải pháp lâu dài, thay vào đó, việc duy trì cơ sở hạ tầng dữ liệu đòi hỏi những nỗ lực không ngừng. Gánh nặng duy trì cơ sở hạ tầng và lưu trữ dữ liệu chỉ đặt trên vai của các kho lưu trữ đơn lẻ; hệ thống lưu trữ tương đương với hệ thống dành cho tài liệu học thuật, như CLOCKSS, không được phổ biến rộng rãi và khó tìm thấy. Sự cộng tác các kho lưu trữ trong lĩnh vực này có thể giúp làm giảm nguy cơ mất dữ liệu vĩnh viễn.

Nhìn chung, nghiên cứu đã cho thấy tình trạng thiếu hụt thông tin về quá trình đóng cửa kho lưu trữ dữ liệu. vấn đề này có thế được giải quyết bởi hệ thống đăng kí, nơi dành riêng cho việc cung cấp các thông tin chi tiết hơn về quá trình đóng cửa hay trang chuyển đổi cơ sở dữ liệu, hướng nhóm người sử dụng dữ liệu tiềm năng đến các trang lưu trữ mới sau khi di chuyển dữ liệu.

Các phát hiện chứng minh việc đóng cửa kho lưu trữ vẫn xảy ra và có thể khiến dữ liệu bị mất đi vĩnh viễn. Cần có những cuộc thảo luận rộng rãi hơn trong cộng đồng học thuật để xác định mức độ nghiêm trọng của vấn đề này. Việc tái sử dụng và trích dẫn dữ liệu ngày càng được thúc đẩy bởi các tạp chí, nhà tài trợ và các bên liên quan. Nếu những hoạt động này trở nên phổ biến hơn, việc mất dữ liệu có thể trở thành mối đe dọa đối với sự tồn tại lâu dài của tài liệu học thuật. Tuy nhiên, vẫn cần phải xem việc ứng dụng hoạt động này phát triển như thế nào, và liệu các bộ dữ liệu bị mất vĩnh viễn có được trích dẫn hay không. Nhóm tác giả hy vọng bài viết sẽ bổ sung thêm cho những cuộc thảo luận rất cần thiết này.

Bài đăng này dựa trên bài viết của các tác giả, Disappearing repositories: Taking an infrastructure perspective on the long-term availability of research data, được xuất bản trên Quantitative Science Studies.

Dịch từ LSE

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm

Tin Hot

Tin đang nổi

Theo dõi

Tin ảnh