Từ các dự án sinh thái học kéo dài hàng thập kỷ cho tới những nghiên cứu y sinh quy mô lớn, dữ liệu khoa học luôn cần được cập nhật và bảo tồn để đảm bảo tính minh bạch, khả năng truy xuất và tái lập kết quả. Tuy nhiên, việc duy trì nhiều phiên bản dữ liệu và trích dẫn đúng chuẩn vẫn là thách thức với nhiều nhóm nghiên cứu. Các chuyên gia đã đưa ra năm khuyến nghị giúp nhà khoa học quản lý dữ liệu một cách hệ thống và bền vững hơn.
Từ năm 1977, các nhà khoa học thuộc Dự án Portal đã đều đặn theo dõi sự tương tác giữa các loài gặm nhấm, kiến và thực vật và cách chúng phản ứng trước biến đổi khí hậu tại một vùng đất ở Arizona (Mỹ). Những năm đầu, dữ liệu chỉ được chia sẻ không chính thức. Đến thập niên 2000, nhóm bắt đầu công bố các bài báo dữ liệu định kỳ, mỗi bài ghép chung thông tin mới và cũ để đảm bảo cơ sở dữ liệu luôn được cập nhật.
“Thu thập dữ liệu không phải là việc làm một lần rồi thôi,” Ethan White – nhà khoa học dữ liệu môi trường tại Đại học Florida, người hợp tác với dự án từ năm 2002 – chia sẻ. Nhờ công cụ mới, nhóm đã tự động hóa và hiện đại hóa quy trình. Năm 2019, White cùng đồng nghiệp thiết lập hệ thống quản lý dữ liệu dựa trên GitHub, Zenodo và Travis CI, vừa giữ dữ liệu luôn tươi mới, vừa lưu lại tất cả phiên bản cũ. Tới nay, kho Zenodo của họ đã có hơn 600 phiên bản. “Chúng tôi muốn cập nhật thường xuyên nhưng vẫn đảm bảo bất kỳ ai cũng có thể tìm đúng bộ dữ liệu đã dùng trong phân tích cũ,” ông nói.
Không chỉ sinh thái học dài hạn mới cần cập nhật và lưu giữ dữ liệu. Trong nhiều lĩnh vực, nhà nghiên cứu liên tục chỉnh sửa, mở rộng, thậm chí thay đổi toàn diện bộ dữ liệu của mình – và vẫn tiếp tục xuất bản công trình khoa học. Tuy nhiên, Crystal Lewis – chuyên gia tư vấn quản lý dữ liệu ở Missouri – cho rằng hầu như không có hướng dẫn thống nhất, khi đưa ra nhận định rằng: “Không có tiêu chuẩn chung nào cho kho lưu trữ; và tạp chí cũng ít khi nói rõ cách chỉnh sửa hay trích dẫn dữ liệu mới, nên ai cũng làm theo cách riêng của mình”.
Việc thực hành năm gợi ý sau sẽ giúp việc cập nhật và trích dẫn dữ liệu của bạn trở nên rõ ràng và hệ thống hơn.
1. Chọn kho lưu trữ dữ liệu
Thay vì để dữ liệu trên website cá nhân hoặc dịch vụ đám mây vốn có nguy cơ mất hoặc khó tìm lại, hãy sử dụng các kho lưu trữ khoa học. Đây là nơi đảm bảo lưu trữ lâu dài, có nhiều bản sao dự phòng và gán mã định danh bền vững (persistent identifier) để dễ dàng tra cứu. Tùy lĩnh vực, bạn có thể chọn kho chuyên ngành như GenBank (dữ liệu gene) hoặc các kho tổng quát như Zenodo, Dryad, Figshare, Dataverse. Một số trường đại học và cơ quan tài trợ cũng cung cấp kho riêng, kèm hỗ trợ kỹ thuật.
2. Tạo nhiều phiên bản dữ liệu
Khi bổ sung hoặc chỉnh sửa, hãy tạo phiên bản dữ liệu mới thay vì ghi đè lên dữ liệu cũ. Cách này giúp tái lập kết quả cũ và theo dõi sự thay đổi theo thời gian, đồng thời tránh nhầm lẫn khi bạn quay lại sau nhiều tháng. Nhiều kho như Zenodo tự động cấp DOI riêng cho từng phiên bản và một DOI tổng liên kết tất cả. Nếu không dùng kho, bạn vẫn có thể quản lý phiên bản thủ công qua tên tệp hoặc công cụ như GitHub.
3. Quy ước tên tệp và thuật ngữ
Đặt tên tệp thống nhất, có ngày tháng (ví dụ: YYYYMMDD_tenfile), và lưu vào thư mục hợp lý để dễ nhận diện. Song song, cần ghi siêu dữ liệu (metadata) mô tả biến số, cấu trúc tệp và thuật ngữ đã sử dụng. Điều này đặc biệt quan trọng với dữ liệu y sinh, nơi các định nghĩa và truy vấn có thể thay đổi theo thời gian.
4. Viết nhật ký thay đổi
Nhật ký nên ghi rõ ngày, số phiên bản và nội dung chỉnh sửa, từ việc thêm biến số, sửa lỗi, đến thay đổi phần mềm hoặc phương pháp thu thập. Một số nhóm, như của Ethan White, duy trì cả “bài báo dữ liệu” cập nhật định kỳ để công khai chi tiết thay đổi. Đây là cách minh bạch hóa tiến trình và giúp cộng đồng khoa học theo dõi sự phát triển của bộ dữ liệu.
5. Cập nhật công nghệ
Dữ liệu trên 5 năm tuổi có nguy cơ khó truy cập do thiết bị và định dạng lỗi thời. Hãy lưu ở nhiều định dạng, ưu tiên định dạng mở như CSV, và định kỳ chuyển đổi sang chuẩn mới. Một số kho sẽ tự động hỗ trợ chuyển đổi khi tiêu chuẩn thay đổi. Nếu không, bạn cần chủ động xuất lại dữ liệu để tránh nguy cơ mất mát hoàn toàn.
Trong bối cảnh dữ liệu nghiên cứu ngày càng đóng vai trò then chốt, việc duy trì, chuẩn hóa và bảo tồn các phiên bản không chỉ giúp khoa học minh bạch hơn mà còn bảo vệ thành quả nghiên cứu, đảm bảo chúng tiếp tục phục vụ cho cộng đồng khoa học trong tương lai.