
Miguel Acevedo là một nhà sinh thái học hoang dã tại Đại học Florida. Ông có một đề tài nghiên cứu về sốt rét ở thằn lằn, là một mô hình nghiên cứu về sinh thái và tiến hóa của bệnh truyền qua vector (vật trung gian). Một đồng nghiệp của ông cũng đã từng thực hiện chủ đề nghiên cứu này tại cùng một địa điểm ở Puerto Rico từ những năm 1990, và Acevedo muốn kết hợp dữ liệu cũ của đồng nghiệp với dữ liệu mới của mình để thực hiện một phân tích dài hạn.
Nói thì dễ hơn làm. Trong khi dữ liệu của Acevedo được nhập bằng mẫu chuẩn hóa, dữ liệu của vị đồng nghiệp được ghi chép trong sổ tay, bảng Excel và bản đồ vẽ tay. Các cột không nhất quán, đơn vị khác nhau, và không rõ các điểm lấy mẫu. Cuối cùng, việc đáng ra chỉ mất một buổi sáng lại kéo dài đến “sáu hoặc bảy tháng”, Acevedo nói. “Có rất nhiều việc, và chẳng có gì thú vị.”
Dữ liệu không chỉ được dùng một lần bởi người thu thập chúng, mà còn có thể được các nhà nghiên cứu khác tái sử dụng cho nghiên cứu mới. Càng ngày càng nhiều nhà nghiên cứu nộp dữ liệu kèm theo bài báo của họ, do yêu cầu từ các quỹ tài trợ, nhà xuất bản cùng với sự tập trung ngày càng lớn vào khoa học mở và khả năng tái lập nghiên cứu. Chính sách dữ liệu nghiên cứu của Springer Nature, nhà xuất bản của Nature, “vô cùng khuyến khích tất cả các tập dữ liệu hỗ trợ phân tích và kết luận của bài báo được công khai vào thời điểm xuất bản” và bắt buộc “chia sẻ các loại dữ liệu được cộng đồng công nhận”. Tuy nhiên, không phải tạp chí nào cũng yêu cầu tác giả cung cấp dữ liệu. Một số tác giả còn từ chối vì sợ bị “cướp” ý tưởng hoặc do thiếu thời gian.
Vậy làm sao để công bố một bộ dữ liệu có thể sử dụng và có chất lượng?
1. Soạn thảo siêu dữ liệu (Metadata)
Nếu có một thứ giúp tối đa hóa giá trị dữ liệu, đó là “siêu dữ liệu, siêu dữ liệu, siêu dữ liệu”, theo Patricia Soranno, nhà khoa học môi trường tại Đại học Bang Michigan.
Siêu dữ liệu là dữ liệu mô tả dữ liệu, ví dụ như dấu thời gian và vị trí lưu với ảnh từ điện thoại. Siêu dữ liệu giải thích ý nghĩa dữ liệu và là chìa khóa để làm cho dữ liệu FAIR – dễ tìm (findable), dễ truy cập (accessible), có thể tương tác (interoperable) và tái sử dụng (reusable). “Dữ liệu mà không có siêu dữ liệu giống như bộ Lego mà không có hướng dẫn”, Acevedo chia sẻ.
Tùy từng thí nghiệm mà siêu dữ liệu cần sử dụng là khác nhau. Theo Sarah Supp, nhà sinh thái học tại Đại học Denison, có thể chỉ cần một tệp README liệt kê thời gian, địa điểm và cách dữ liệu được thu thập, người thu thập, giấy phép mà theo đó dữ liệu được công bố, mức độ hoàn thiện và tình trạng dữ liệu (như còn thô hay đã xử lý).
Nên có một “codebook” – bản tổng hợp các mã – bao gồm định nghĩa các biến thí nghiệm, đơn vị, từ viết tắt, khoảng giá trị dự kiến và cách biểu thị dữ liệu bị thiếu (ví dụ như dùng “NA”). Nếu có nhiều bảng hoặc tệp, hãy giải thích mối quan hệ giữa chúng. Nếu phần mềm được sử dụng để xử lý dữ liệu, hãy nêu chi tiết công cụ, số phiên bản và tham số chạy, theo Anne Brown, nhà khoa học phát triển sản phẩm tại Bayer US Crop Science. Các mẫu tệp README, từ điển dữ liệu và tóm tắt dự án đã được Crystal Lewis, chuyên gia tư vấn quản lý dữ liệu nghiên cứu tại St. Louis, Missouri, chia sẻ trên X.
Đối với Acevedo, việc thực hành tốt siêu dữ liệu đã giúp dự án sốt rét ở thằn lằn của ông có thể duy trì. Ông nói: “Nó giống như học hỏi từ một chấn thương.”
2. Chia sẻ nhiều hơn
Với những con số thô, các thử nghiệm thăm dò thất bại và tập dữ liệu cuối cùng đã được xử lý, “vào cuối mỗi dự án, thực ra có hàng nghìn phiên bản dữ liệu,” Ciera Martinez, nhà khoa học dữ liệu nghiên cứu tại Trung tâm Eric và Wendy Schmidt về Khoa học Dữ liệu và Môi trường, cho biết. Vậy các nhà khoa học nên công bố phiên bản nào?
“Nếu có thể, bạn hãy chia sẻ cả dữ liệu thô và dữ liệu đã xử lý”, theo Karthik Ram, nhà khoa học dữ liệu tại Viện Khoa học Dữ liệu Berkeley. Dữ liệu đã xử lý là cơ sở của phân tích, nhưng dữ liệu thô cho phép các nhà nghiên cứu khác kiểm tra giả định và chiến lược xử lý của bạn.
Tuy nhiên, dữ liệu thô có thể cồng kềnh và tốn kém để lưu trữ. Khi đó, Martinez cho rằng một “nguyên tắc hợp lý” là công bố dữ liệu được sử dụng để tạo ra các hình minh họa trong bài báo.
Ngoài ra, theo Brown, việc công bố dữ liệu không phải để cho xong mà nên phục vụ cộng đồng khoa học. Vì vậy, bạn có thể tự hỏi mình liệu người khác có thể cần gì từ dữ liệu này và họ sẽ sử dụng chúng như thế nào. “Biết điều đó giúp bạn hiểu rằng, OK, nếu các nhà nghiên cứu khác sẽ sử dụng dữ liệu này thì tôi cần đảm bảo họ có thể hiểu nó.”
3. Tuân thủ chuẩn mực
Mỗi dự án đều khác nhau, kì vọng về dữ liệu nào nên được công bố và cách thức công bố cũng khác nhau. Vì vậy, hãy tìm hướng dẫn từ các cộng đồng lớn. Nhiều ngành có kho dữ liệu chuyên biệt, chẳng hạn như GenBank cho chuỗi DNA và Protein DataBank cho cấu trúc protein. Dữ liệu cũng có thể được đăng lên các kho lưu trữ chung như Zenodo, Figshare và Dryad. Theo Brown, bạn hãy hỏi nhà xuất bản (hoặc bên tài trợ) xem họ có nơi lưu trữ và định dạng tệp ưa thích không. Jacqueline Campbell, nhà di truyền học thực vật tại USDA, Ames, Iowa gợi ý bạn có thể tham khảo thủ thư tài nguyên của tổ chức bạn.
Các bộ dữ liệu nhỏ có thể được đưa lên GitHub, nhưng điều này không đảm bảo tính lâu dài. Ethan White, nhà khoa học dữ liệu môi trường tại Đại học Florida, cảnh báo rằng dữ liệu có thể bị xóa hoặc sửa đổi bất cứ lúc nào, vì vậy hãy lưu trữ dữ liệu tại các trang chính thức.
“Không bao giờ đăng dữ liệu lên các trang web cá nhân” theo Tracy Chen, nhà phân tích khoa học tại Viện Khoa học Ngoại hành tinh NASA. Nếu bạn thay đổi công việc hoặc nghỉ hưu, liên kết đến trang cá nhân có thể trở nên lỗi thời.
4. Xem xét định dạng
Dữ liệu nên ở định dạng tệp mở, không độc quyền; nếu không thì người khác có thể không đọc được, theo Ellen Bledsoe, giảng viên khoa học dữ liệu sinh thái tại Đại học Arizona. Bledsoe đã gặp vấn đề này khi phải trích xuất dữ liệu từ Lotus 1-2-3 – một phần mềm bảng tính thương mại nay đã lỗi thời.
Các định dạng tệp văn bản, chẳng hạn CSV (giá trị phân tách bằng dấu phẩy), có thể được đọc bởi nhiều công cụ và ngôn ngữ lập trình, đáp ứng tiêu chí ‘I’ trong dữ liệu FAIR. Không giống như tệp nhị phân, cách tệp văn bản thay đổi theo thời gian rất dễ theo dõi. Trên hết, tránh sử dụng tệp PDF cho bảng dữ liệu, vì bảng tính có thể dễ dàng nhập vào phần mềm, trong khi bảng trong PDF phải nhập thủ công – một quá trình chậm chạp, đau khổ và dễ lỗi.
5. Bao gồm code
Nếu bạn sử dụng code để phân tích dữ liệu, hãy công bố chúng cùng với dữ liệu. Code cho thấy các bước mà bạn đã thực hiện và quyết định của bạn, và cung cấp một phiên bản chi tiết hơn của phần phương pháp. Trước khi công bố, hãy kiểm tra xem code có chạy trong một môi trường tính toán sạch (không có đối tượng trong bộ nhớ) không. Xóa các yếu tố phụ thuộc vào máy tính, chẳng hạn như đường dẫn tệp cố định. Thêm chú thích để giải thích những gì bạn đang làm và chi tiết cách chạy mã, theo John Guerra Gómez, nhà khoa học máy tính tại Đại học Northeastern. “Hãy nghĩ như một nhà du hành thời gian. Tôi muốn phiên bản John trong tương lai biết gì về điều này?”
Kari Jordan, giám đốc điều hành của The Carpentries, cho rằng nên tìm một đối tác cùnglập trình. The Carpentries, có trụ sở tại Oakland, California, tổ chức các hội thảo về tính toán khoa học và phân tích dữ liệu, và một trong những điểm nhấn của khóa đào tạo giảng viên là “không bao giờ dạy một mình”. Jordan nói: “Không bao giờ dạy một mình, không học một mình, đừng làm bất cứ điều gì một mình.”
Ví dụ, bạn có thể nhờ một lập trình viên có trình độ cao hơn cung cấp phản hồi: “Có điểm nào quan trọng mà bạn có thể làm để code dễ hiểu hơn không?” Phản hồi điển hình của White là đề xuất chia các khối code dài thành các hàm rời rạc, loại bỏ code lặp, đảm bảo tên hàm và biến có tính mô tả. Supp nói, nếu một bên thứ ba có thể hiểu và chạy code của bạn, “bạn có lẽ đã làm khá tốt trong việc làm cho code dễ đọc”.
6. Nghĩ đến khả năng truy cập
Các dự án dữ liệu lớn thường yêu cầu một mức cơ sở hạ tầng kỹ thuật nhất định từ phía người dùng tiềm năng. Và họ thường đưa ra giả định về cách mọi người sẽ truy cập, truy vấn và thao tác với dữ liệu.
Những giả định này thường không đúng, Sabina Leonelli, giảng viên triết học và lịch sử khoa học tại Đại học Exeter, Vương quốc Anh nói. “Ý tưởng rằng bạn đang tạo ra các nền tảng có thể sử dụng phổ biến, có thể tái sử dụng vô hạn, trên thực tế lại thất bại vì không tính đến việc có nhiều nhóm trên thế giới đang làm việc trong các điều kiện khác nhau.”
Lời khuyên của Leonelli: hãy tham khảo các tổ chức như Liên minh Dữ liệu Nghiên cứu hoặc Ủy ban Dữ liệu của Hội đồng Khoa học Quốc tế để nhận phản hồi về các tiêu chuẩn và giả định dữ liệu của bạn. Và, nếu có thể, hãy cân nhắc “các giải pháp công nghệ thấp”, bà nói. Chẳng hạn, bạn có thể phát triển cơ sở dữ liệu phiên bản băng thông thấp hoặc phát hành hình ảnh với cả độ phân giải thấp và cao.
Nếu không xem xét một loạt các yêu cầu, Leonelli cho rằng, kết quả sẽ là một tài nguyên mà chỉ bạn và những người như bạn mới có thể sử dụng. “Bạn có nguy cơ tạo ra một tài nguyên không tính đến bất kỳ nhu cầu nào trong số đó.”
7. Hãy bắt đầu
Theo Bledsoe, khoa học mở không phải trò chơi “tất cả hoặc không gì cả”; điều gì bạn làm cũng đều mang lại giá trị. “Ngay cả khi không đạt được đúng chuẩn, làm được 20% cũng quý giá.”
Vì vậy, hãy công bố dữ liệu của bạn – điều đó giúp người tiêu thụ dữ liệu phân tích được nhiều hơn và cho người cung cấp dữ liệu nhiều cơ hội hợp tác hơn.
Supp thừa nhận, việc chia sẻ cũng đáng sợ, vì nó đồng nghĩa với việc phơi bày bản thân ra cho mọi người soi xét. “Điều đó có một mức độ gây tổn thương nhất định,” bà nói. “Nhưng đó cũng là cách chúng ta tiến bộ.”
Dịch từ Nature
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.









