Kho tàng tài liệu học thuật kỹ thuật số đứng trước nguy cơ thâm hụt

Trong quá khứ, việc lưu trữ các tài liệu học thuật phụ thuộc vào các bản in vật lý được lưu giữ bởi các cơ quan khác nhau ở nhiều nơi trên thế giới. Về nguyên tắc, việc lưu trữ kỹ thuật số cũng tương tự như vậy. Tuy nhiên, dựa trên một nghiên cứu sử dụng dữ liệu DOI của Crossref (Crossref là một tổ chức phi lợi nhuận về hạ tầng số mở dành cho cộng đồng nghiên cứu học thuật toàn cầu), Martin Eve tìm thấy bằng chứng cho thấy tiêu chuẩn hiện tại của việc lưu trữ kỹ thuật số có thể không đảm bảo được việc duy trì độ chính xác và ổn định các bản lưu tài liệu học thuật.


Chúng ta đã quen thuộc với sự sẵn có của các tài liệu học thuật kỹ thuật số. Hầu hết tất cả các tạp chí học thuật hiện nay đều có thể truy cập kỹ thuật số và việc chúng có sẵn trên mạng được coi là điều hiển nhiên.

Chúng ta cũng biết rằng toàn bộ tri thức trong nghiên cứu đều phụ thuộc vào tính liên tục có sẵn của các tài liệu. Như Anthony Grafton đã viết trong cuốn lịch sử về chú thích (footnote) của mình, ‘chú thích, mang tính phụ thuộc vào văn hóa và dễ sai sót, là cơ sở duy nhất chúng ta có thể dựa vào để tin tưởng và khẳng định rằng các quan điểm về quá khứ được trích dẫn từ những nguồn xác thực’. Tuy nhiên, nếu chúng ta không thể truy cập vào những nguồn thông tin đó một cách liên tục, thì chúng ta không thể tin tưởng vào nó.

Trong vai trò là Nhà phát triển R&D tại Crossref, Martin Eve đã tiến hành một thí nghiệm để xác định số lượng tài liệu học thuật kỹ thuật số được lưu trữ đầy đủ. Điều kiện của việc là thành viên Crossref và việc xác định mã định danh tài liệu số (DOI) là các nhà xuất bản phải cố gắng đảm bảo rằng tài liệu có mã DOI tương ứng được đặt ở các kho lưu trữ thuộc bên thứ ba.

Eve đã xem xét 7,5 triệu DOI và kiểm tra chúng tại danh mục tài liệu của các kho lưu trữ học thuật lớn: Cariniana, CLOCKSS, HathiTrust, Internet Archive/FATCAT, LOCKSS, PKP PLN, Portico và Scholars Portal. Hầu hết các kho lưu trữ này chỉ xác định rằng họ đã lưu giữ một Tập (volume) hoặc Số (issue) thay vì một tệp cụ thể , vì vậy Eve đã phải đối chiếu giữa siêu dữ liệu của tài liệu và thông tin của nơi chứa tài liệu theo kho lưu trữ cung cấp.

Tất nhiên, những kho lưu trữ này không toàn diện. Những tài liệu được kiểm tra hoàn toàn có thể xuất hiện ở các nơi khác, như Figshare, được hỗ trợ bởi hệ thống bảo tồn kỹ thuật số Chronopolis tại Đại học California, San Diego. Nhiều tài liệu cũng được lưu trữ trong các kho lưu trữ truy cập mở xanh. Tuy nhiên, những kho lưu trữ được nhắc tới ở trên đã cung cấp một bức tranh tương đối toàn cảnh để đánh giá tình hình.

Kết quả cho thấy một viễn cảnh không mấy khả quan cho nền tảng số của giới học thuật trong tương lai. Chỉ có 0,96% các thành viên của Crossref lưu trữ hơn 75% nội dung của họ trong 3 kho lưu trữ (được liệt kê ở trên) trở lên. Một tỷ lệ nhỏ hơn, 8,5%, lưu trữ hơn 50% nội dung của họ trong 2 kho lưu trữ hoặc nhiều hơn. Tuy nhiên, có nhiều thành viên (57,7%) chỉ đạt ngưỡng có 25% tài liệu của họ trong một kho lưu trữ duy nhất. Đáng lo ngại nhất là, theo bộ dữ liệu của Eve, có tới 32,9% thành viên Crossref không có bất kỳ phương thức lưu trữ kỹ thuật số đáng tin nào khác.

Hình 1: Tình trạng lưu trữ của các thành viên Crossref

Tình hình cũng không khá hơn khi  xem xét bản thân các công trình. Trong tổng số 7.438.037 công trình được kiểm tra, có 5.913.102 bản lưu (preservation instances). Đây là một thuật ngữ chỉ số lượng bản sao được lưu trữ. Do đó, một tác phẩm được bảo quản trong ba kho lưu trữ sẽ có ba ‘bản lưu’.. Có 4.342.368 tài liệu được kiểm tra (chiếm 58,38% tổng số tài liệu) có ít nhất một bản lưu. Tuy nhiên, 2.056.492 tài liệu (27,64%) có vẻ như chưa được lưu trữ. 13,98% còn lại đã bị loại khỏi mẫu nghiên cứu hoặc do quá mới  (được xuất bản trong năm nghiên cứu), không phải là bài báo tạp chí, hoặc không đủ dữ liệu ngày tháng để xác định nguồn gốc.

Một câu hỏi khác có thể nhận kỹ thuật số những kết quả trên là: Những kiểu thành viên Crossref nào lưu trữ tốt? Và những bên nào cần chú tâm hơn trong vấn đề này? Mặc dù các nhà xuất bản lớn với nguồn lực dồi dào thuộc danh mục thành viên Crossref có doanh thu cao nhất được trông đợi là sẽ có những phương thức lưu trữ tốt nhất nhưng chỉ một trong số họ (Elsevier) được cho là thực hiện tốt việc này. Trong khi đó, các thành viên ‘nhỏ hơn’ (kể cả những thành viên có doanh thu xuất bản khoảng 50 triệu USD) lại có kết quả tệ hơn. Cuối cùng, các nhà xuất bản có doanh thu xuất bản dưới 1 triệu USD khó đạt được mức độ lưu trữ tốt nhất.

Vậy, chúng ta có thể kết luận gì từ những điều trên? Năm 2005, Don Waters, Cán bộ Chương trình Cấp cao về Truyền thông Học thuật tại Quỹ Andrew W. Mellon đã biên tập một tuyên bố đồng thuận trong bản tin của Hiệp hội Thư viện Nghiên cứu, có tựa đề ‘Hành động Khẩn cấp Cần thiết để Bảo tồn các Tạp chí Học thuật kỹ thuật số’. Nhiều lời kêu gọi trong đó đã được chú ý; chúng ta có các kho lưu trữ có thể cung cấp mức độ dịch vụ tối thiểu và trên hết là một sơ đồ nhận dạng liên tục toàn diện. Những nỗ lực gần đây như Dự án JASPER cũng đã nhấn mạnh tầm quan trọng của việc lưu trữ trong thế giới mới của xuất bản truy cập mở.

Tuy nhiên, như nghiên cứu này cho thấy, tình trạng lưu trữ kỹ thuật số của các tạp chí vẫn còn rất mong manh vào năm 2024 và những lời kêu gọi chưa được đáp ứng đầy đủ. Một phần đáng kể, khoảng 28%, các bài báo trên tạp chí học thuật có mã DOI dường như không được bảo tồn, đe dọa cả hệ thống định danh liên tục và chuỗi trích dẫn có thể kiểm chứng mà chúng lẽ ra phải đảm bảo. Điều này xác nhận những phát hiện của các nghiên cứu khác đã xem xét về sự biến mất của các tạp chí truy cập mở. 

Tất nhiên, đây không chỉ là vấn đề giới hạn trong các tạp chí học thuật; việc lưu trữ các tài nguyên kỹ thuật số đều đặt ra những thách thức. Sự sẵn có của tài liệu, một khía cạnh về lưu trữ được nghiên cứu trong bài viết này, cũng không phải vấn đề quan trọng nhất. Thật vậy, lưu trữ kỹ thuật số là một hoạt động liên tục do đó đòi hỏi phải tái đầu tư và tái tạo liên tục. Trong những năm tới, việc xem xét các tác động môi trường của chiến lược lưu trữ cũng sẽ rất nhận được nhiều sự quan tâm.

Mặc dù những thiếu sót trong việc lưu trữ khó có thể được giải quyết trong tương lai gần, nhưng việc hành động ngay bây giờ sẽ cải thiện tình hình và giúp bảo vệ tài liệu học thuật kỹ thuật số.

Lược dịch từ LSE

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm

Tin Hot

Tin đang nổi

Theo dõi

Tin ảnh