Dữ liệu - ADuBiz

Làm sao để dữ liệu khoa học dễ dàng tiếp cận, tìm kiếm và hữu ích?

Ngô Quỳnh Hương — Mon, 08 Dec 2025 02:13:26 +0000

Ảnh: The World of Arçelik via Behance | CC BY–NC–ND 4.0

Miguel Acevedo là một nhà sinh thái học hoang dã tại Đại học Florida. Ông có một đề tài nghiên cứu về sốt rét ở thằn lằn, là một mô hình nghiên cứu về sinh thái và tiến hóa của bệnh truyền qua vector (vật trung gian). Một đồng nghiệp của ông cũng đã từng thực hiện chủ đề nghiên cứu này tại cùng một địa điểm ở Puerto Rico từ những năm 1990, và Acevedo muốn kết hợp dữ liệu cũ của đồng nghiệp với dữ liệu mới của mình để thực hiện một phân tích dài hạn.

Nói thì dễ hơn làm. Trong khi dữ liệu của Acevedo được nhập bằng mẫu chuẩn hóa, dữ liệu của vị đồng nghiệp được ghi chép trong sổ tay, bảng Excel và bản đồ vẽ tay. Các cột không nhất quán, đơn vị khác nhau, và không rõ các điểm lấy mẫu. Cuối cùng, việc đáng ra chỉ mất một buổi sáng lại kéo dài đến “sáu hoặc bảy tháng”, Acevedo nói. “Có rất nhiều việc, và chẳng có gì thú vị.”

Dữ liệu không chỉ được dùng một lần bởi người thu thập chúng, mà còn có thể được các nhà nghiên cứu khác tái sử dụng cho nghiên cứu mới. Càng ngày càng nhiều nhà nghiên cứu nộp dữ liệu kèm theo bài báo của họ, do yêu cầu từ các quỹ tài trợ, nhà xuất bản cùng với sự tập trung ngày càng lớn vào khoa học mở và khả năng tái lập nghiên cứu. Chính sách dữ liệu nghiên cứu của Springer Nature, nhà xuất bản của Nature, “vô cùng khuyến khích tất cả các tập dữ liệu hỗ trợ phân tích và kết luận của bài báo được công khai vào thời điểm xuất bản” và bắt buộc “chia sẻ các loại dữ liệu được cộng đồng công nhận”. Tuy nhiên, không phải tạp chí nào cũng yêu cầu tác giả cung cấp dữ liệu. Một số tác giả còn từ chối vì sợ bị “cướp” ý tưởng hoặc do thiếu thời gian.

Vậy làm sao để công bố một bộ dữ liệu có thể sử dụng và có chất lượng?

1. Soạn thảo siêu dữ liệu (Metadata)

Nếu có một thứ giúp tối đa hóa giá trị dữ liệu, đó là “siêu dữ liệu, siêu dữ liệu, siêu dữ liệu”, theo Patricia Soranno, nhà khoa học môi trường tại Đại học Bang Michigan.

Siêu dữ liệu là dữ liệu mô tả dữ liệu, ví dụ như dấu thời gian và vị trí lưu với ảnh từ điện thoại. Siêu dữ liệu giải thích ý nghĩa dữ liệu và là chìa khóa để làm cho dữ liệu FAIR – dễ tìm (findable), dễ truy cập (accessible), có thể tương tác (interoperable) và tái sử dụng (reusable). “Dữ liệu mà không có siêu dữ liệu giống như bộ Lego mà không có hướng dẫn”, Acevedo chia sẻ.

Tùy từng thí nghiệm mà siêu dữ liệu cần sử dụng là khác nhau. Theo Sarah Supp, nhà sinh thái học tại Đại học Denison, có thể chỉ cần một tệp README liệt kê thời gian, địa điểm và cách dữ liệu được thu thập, người thu thập, giấy phép mà theo đó dữ liệu được công bố, mức độ hoàn thiện và tình trạng dữ liệu (như còn thô hay đã xử lý).

Nên có một “codebook” – bản tổng hợp các mã – bao gồm định nghĩa các biến thí nghiệm, đơn vị, từ viết tắt, khoảng giá trị dự kiến và cách biểu thị dữ liệu bị thiếu (ví dụ như dùng “NA”). Nếu có nhiều bảng hoặc tệp, hãy giải thích mối quan hệ giữa chúng. Nếu phần mềm được sử dụng để xử lý dữ liệu, hãy nêu chi tiết công cụ, số phiên bản và tham số chạy, theo Anne Brown, nhà khoa học phát triển sản phẩm tại Bayer US Crop Science. Các mẫu tệp README, từ điển dữ liệu và tóm tắt dự án đã được Crystal Lewis, chuyên gia tư vấn quản lý dữ liệu nghiên cứu tại St. Louis, Missouri, chia sẻ trên X.

Đối với Acevedo, việc thực hành tốt siêu dữ liệu đã giúp dự án sốt rét ở thằn lằn của ông có thể duy trì. Ông nói: “Nó giống như học hỏi từ một chấn thương.”

2. Chia sẻ nhiều hơn

Với những con số thô, các thử nghiệm thăm dò thất bại và tập dữ liệu cuối cùng đã được xử lý, “vào cuối mỗi dự án, thực ra có hàng nghìn phiên bản dữ liệu,” Ciera Martinez, nhà khoa học dữ liệu nghiên cứu tại Trung tâm Eric và Wendy Schmidt về Khoa học Dữ liệu và Môi trường, cho biết. Vậy các nhà khoa học nên công bố phiên bản nào?

“Nếu có thể, bạn hãy chia sẻ cả dữ liệu thô và dữ liệu đã xử lý”, theo Karthik Ram, nhà khoa học dữ liệu tại Viện Khoa học Dữ liệu Berkeley. Dữ liệu đã xử lý là cơ sở của phân tích, nhưng dữ liệu thô cho phép các nhà nghiên cứu khác kiểm tra giả định và chiến lược xử lý của bạn.

Tuy nhiên, dữ liệu thô có thể cồng kềnh và tốn kém để lưu trữ. Khi đó, Martinez cho rằng một “nguyên tắc hợp lý” là công bố dữ liệu được sử dụng để tạo ra các hình minh họa trong bài báo.

Ngoài ra, theo Brown, việc công bố dữ liệu không phải để cho xong mà nên phục vụ cộng đồng khoa học. Vì vậy, bạn có thể tự hỏi mình liệu người khác có thể cần gì từ dữ liệu này và họ sẽ sử dụng chúng như thế nào. “Biết điều đó giúp bạn hiểu rằng, OK, nếu các nhà nghiên cứu khác sẽ sử dụng dữ liệu này thì tôi cần đảm bảo họ có thể hiểu nó.”

3. Tuân thủ chuẩn mực

Mỗi dự án đều khác nhau, kì vọng về dữ liệu nào nên được công bố và cách thức công bố cũng khác nhau. Vì vậy, hãy tìm hướng dẫn từ các cộng đồng lớn. Nhiều ngành có kho dữ liệu chuyên biệt, chẳng hạn như GenBank cho chuỗi DNA và Protein DataBank cho cấu trúc protein. Dữ liệu cũng có thể được đăng lên các kho lưu trữ chung như Zenodo, Figshare và Dryad. Theo Brown, bạn hãy hỏi nhà xuất bản (hoặc bên tài trợ) xem họ có nơi lưu trữ và định dạng tệp ưa thích không. Jacqueline Campbell, nhà di truyền học thực vật tại USDA, Ames, Iowa gợi ý bạn có thể tham khảo thủ thư tài nguyên của tổ chức bạn.

Các bộ dữ liệu nhỏ có thể được đưa lên GitHub, nhưng điều này không đảm bảo tính lâu dài. Ethan White, nhà khoa học dữ liệu môi trường tại Đại học Florida, cảnh báo rằng dữ liệu có thể bị xóa hoặc sửa đổi bất cứ lúc nào, vì vậy hãy lưu trữ dữ liệu tại các trang chính thức.

“Không bao giờ đăng dữ liệu lên các trang web cá nhân” theo Tracy Chen, nhà phân tích khoa học tại Viện Khoa học Ngoại hành tinh NASA. Nếu bạn thay đổi công việc hoặc nghỉ hưu, liên kết đến trang cá nhân có thể trở nên lỗi thời.

4. Xem xét định dạng

Dữ liệu nên ở định dạng tệp mở, không độc quyền; nếu không thì người khác có thể không đọc được, theo Ellen Bledsoe, giảng viên khoa học dữ liệu sinh thái tại Đại học Arizona. Bledsoe đã gặp vấn đề này khi phải trích xuất dữ liệu từ Lotus 1-2-3 – một phần mềm bảng tính thương mại nay đã lỗi thời.

Các định dạng tệp văn bản, chẳng hạn CSV (giá trị phân tách bằng dấu phẩy), có thể được đọc bởi nhiều công cụ và ngôn ngữ lập trình, đáp ứng tiêu chí ‘I’ trong dữ liệu FAIR. Không giống như tệp nhị phân, cách tệp văn bản thay đổi theo thời gian rất dễ theo dõi. Trên hết, tránh sử dụng tệp PDF cho bảng dữ liệu, vì bảng tính có thể dễ dàng nhập vào phần mềm, trong khi bảng trong PDF phải nhập thủ công – một quá trình chậm chạp, đau khổ và dễ lỗi.

5. Bao gồm code

Nếu bạn sử dụng code để phân tích dữ liệu, hãy công bố chúng cùng với dữ liệu. Code cho thấy các bước mà bạn đã thực hiện và quyết định của bạn, và cung cấp một phiên bản chi tiết hơn của phần phương pháp. Trước khi công bố, hãy kiểm tra xem code có chạy trong một môi trường tính toán sạch (không có đối tượng trong bộ nhớ) không. Xóa các yếu tố phụ thuộc vào máy tính, chẳng hạn như đường dẫn tệp cố định. Thêm chú thích để giải thích những gì bạn đang làm và chi tiết cách chạy mã, theo John Guerra Gómez, nhà khoa học máy tính tại Đại học Northeastern. “Hãy nghĩ như một nhà du hành thời gian. Tôi muốn phiên bản John trong tương lai biết gì về điều này?”

Kari Jordan, giám đốc điều hành của The Carpentries, cho rằng nên tìm một đối tác cùnglập trình. The Carpentries, có trụ sở tại Oakland, California, tổ chức các hội thảo về tính toán khoa học và phân tích dữ liệu, và một trong những điểm nhấn của khóa đào tạo giảng viên là “không bao giờ dạy một mình”. Jordan nói: “Không bao giờ dạy một mình, không học một mình, đừng làm bất cứ điều gì một mình.”

Ví dụ, bạn có thể nhờ một lập trình viên có trình độ cao hơn cung cấp phản hồi: “Có điểm nào quan trọng mà bạn có thể làm để code dễ hiểu hơn không?” Phản hồi điển hình của White là đề xuất chia các khối code dài thành các hàm rời rạc, loại bỏ code lặp, đảm bảo tên hàm và biến có tính mô tả. Supp nói, nếu một bên thứ ba có thể hiểu và chạy code của bạn, “bạn có lẽ đã làm khá tốt trong việc làm cho code dễ đọc”.

6. Nghĩ đến khả năng truy cập

Các dự án dữ liệu lớn thường yêu cầu một mức cơ sở hạ tầng kỹ thuật nhất định từ phía người dùng tiềm năng. Và họ thường đưa ra giả định về cách mọi người sẽ truy cập, truy vấn và thao tác với dữ liệu.

Những giả định này thường không đúng, Sabina Leonelli, giảng viên triết học và lịch sử khoa học tại Đại học Exeter, Vương quốc Anh nói. “Ý tưởng rằng bạn đang tạo ra các nền tảng có thể sử dụng phổ biến, có thể tái sử dụng vô hạn, trên thực tế lại thất bại vì không tính đến việc có nhiều nhóm trên thế giới đang làm việc trong các điều kiện khác nhau.”

Lời khuyên của Leonelli: hãy tham khảo các tổ chức như Liên minh Dữ liệu Nghiên cứu hoặc Ủy ban Dữ liệu của Hội đồng Khoa học Quốc tế để nhận phản hồi về các tiêu chuẩn và giả định dữ liệu của bạn. Và, nếu có thể, hãy cân nhắc “các giải pháp công nghệ thấp”, bà nói. Chẳng hạn, bạn có thể phát triển cơ sở dữ liệu phiên bản băng thông thấp hoặc phát hành hình ảnh với cả độ phân giải thấp và cao.

Nếu không xem xét một loạt các yêu cầu, Leonelli cho rằng, kết quả sẽ là một tài nguyên mà chỉ bạn và những người như bạn mới có thể sử dụng. “Bạn có nguy cơ tạo ra một tài nguyên không tính đến bất kỳ nhu cầu nào trong số đó.”

7. Hãy bắt đầu

Theo Bledsoe, khoa học mở không phải trò chơi “tất cả hoặc không gì cả”; điều gì bạn làm cũng đều mang lại giá trị. “Ngay cả khi không đạt được đúng chuẩn, làm được 20% cũng quý giá.”

Vì vậy, hãy công bố dữ liệu của bạn – điều đó giúp người tiêu thụ dữ liệu phân tích được nhiều hơn và cho người cung cấp dữ liệu nhiều cơ hội hợp tác hơn.

Supp thừa nhận, việc chia sẻ cũng đáng sợ, vì nó đồng nghĩa với việc phơi bày bản thân ra cho mọi người soi xét. “Điều đó có một mức độ gây tổn thương nhất định,” bà nói. “Nhưng đó cũng là cách chúng ta tiến bộ.”

Dịch từ Nature

Bài viết Làm sao để dữ liệu khoa học dễ dàng tiếp cận, tìm kiếm và hữu ích? đã xuất hiện đầu tiên vào ngày ADuBiz.

Nguồn ảnh cho AI có thể được thu thập một cách có trách nhiệm

Nguyễn Thái Bình An — Tue, 25 Nov 2025 02:33:09 +0000

Một bộ dữ liệu hình ảnh chất lượng cao cho thấy các công ty công nghệ hoàn toàn có thể đạt được sự “đồng thuận có hiểu biết” và tránh thiên kiến dữ liệu mà không cần tốn kém quá nhiều tiền bạc.

Ảnh: Data Loyalty via Behance | CC BY-NC-ND 4.0

Có một sự thật gần như ai cũng thừa nhận: các ứng dụng AI tạo sinh phổ biến hiện nay được xây dựng dựa trên dữ liệu thu thập từ Internet. Phần lớn việc này được thực hiện mà không có sự đồng thuận và không hề đền bù cho những cá nhân có dữ liệu bị cào theo cách đó.

Tuy nhiên, một bài báo nghiên cứu mới đây cho thấy, đối với hình ảnh, vẫn có một cách làm khác khả thi hơn. Các nhà nghiên cứu tại tập đoàn công nghệ và giải trí khổng lồ Sony đã mô tả một bộ dữ liệu gồm các hình ảnh được thu thập có nguồn gốc trách nhiệm, có thể dùng để đánh giá chuẩn độ chính xác của AI tạo sinh. Công việc này rất phức tạp nhưng không hề tốn kém khủng khiếp. Chi phí thu thập dữ liệu – dưới 1 triệu USD – chỉ như muối bỏ bể đối với nhiều công ty công nghệ.

Các nhà quản lý và nhà tài trợ cần lưu ý điều này. Những ai đang tham gia vào các vụ kiện tụng liên quan đến việc liệu có được phép scraping dữ liệu của người dân – dưới bất kỳ hình thức nào – để huấn luyện và kiểm thử các mô hình AI tạo sinh hay không, cũng nên chú ý. Việc tạo ra dữ liệu mang tính đại diện và có nguồn gốc trách nhiệm là hoàn toàn khả thi khi các lo ngại về sự đồng thuận và độ chính xác được giải quyết rõ ràng.

Cũng có một thông điệp quan trọng dành cho các tập đoàn: đây là cơ hội để các công ty hợp tác vì lợi ích chung. Có những lúc các hãng cần cạnh tranh, nhưng cũng có những lúc họ phải hợp tác. Trên các trang báo này, chúng tôi thường kêu gọi cải thiện sự hợp tác. Nếu cần một ví dụ điển hình về lý do tại sao sự hợp tác như vậy là cần thiết, thì chính là đây.

Không còn nghi ngờ gì nữa, thông tin kỹ thuật số cá nhân (đôi khi có thể định danh được) đã bị sử dụng để xây dựng các ứng dụng AI tạo sinh. Dữ liệu này bao gồm nội dung từ blog, mạng xã hội, hình ảnh và video thường có mặt người, cũng như các tác phẩm có bản quyền như tranh, điêu khắc, sách, nhạc và phim.

Hầu hết các quốc gia đều có luật quản lý việc thu thập dữ liệu. Các luật này bao gồm yêu cầu phải xin phép để bảo vệ quyền riêng tư và quyền sở hữu trí tuệ của người dân. Việc xin phép thường đòi hỏi bên thu thập dữ liệu phải giải thích mục đích sử dụng, cung cấp khả năng từ chối và, khi thích hợp, bồi thường cho người cung cấp dữ liệu.

Bất chấp điều này, các công ty phát triển những mô hình ngôn ngữ lớn công khai lớn nhất lại thường không tuân thủ quy trình này. Trong một số trường hợp, các hãng lập luận rằng không cần sự đồng thuận nếu ai đó đã công khai tài liệu trên Internet, và hành động của họ cấu thành việc sử dụng hợp lý (fair use) dữ liệu công khai. Đây là một quan điểm gây tranh cãi và đang bị các cơ quan quản lý cũng như các tổ chức đại diện cho chủ sở hữu bản quyền (như nhà văn và nghệ sĩ) đặt dấu hỏi.

Đây chính là điểm khác biệt của bộ dữ liệu mới – được gọi là Fair Human-Centric Image Benchmark (FHIBE). Alice Xiang, giám đốc quản trị AI toàn cầu của Sony, cùng các đồng nghiệp đã đạt được sự “đồng thuận có hiểu biết” cho 10.318 hình ảnh của 1.981 cá nhân đến từ 81 quốc gia trong bộ dữ liệu này. Mỗi cá nhân được thông báo bằng ngôn ngữ dễ hiểu về dữ liệu nào cần thiết và cách chúng được sử dụng – các ứng dụng liên quan đến thực thi pháp luật, quân sự, vũ khí và giám sát bị cấm rõ ràng theo điều khoản sử dụng. Những người tham gia được trả tiền cho tư liệu của họ và có thể rút lui bất cứ lúc nào.

FHIBE cũng khác biệt so với các bộ dữ liệu ảnh hiện có ở một khía cạnh quan trọng khác: nó bao gồm tỷ lệ người và ảnh lớn hơn nhiều từ các quốc gia ở Châu Phi, Châu Á và Châu Đại Dương. Hơn nữa, trong bộ dữ liệu FHIBE, người tham gia tự cung cấp tuổi, nguồn gốc tổ tiên, vị trí địa lý và đại từ nhân xưng, loại bỏ nhu cầu phải dùng thuật toán để đoán các đặc điểm này dựa trên tên hoặc ngoại hình. Điều này rất quan trọng vì nó có nghĩa là dữ liệu FHIBE phản ánh thế giới thực chính xác hơn so với nhiều bộ dữ liệu lệch lạc được tập hợp từ dữ liệu scraped trên web.

Ngoài việc là một bằng chứng quan trọng về tính khả thi, nghiên cứu này cung cấp một cách để các công ty benchmark độ chính xác của các ứng dụng hình ảnh AI hiện có. Các nhà nghiên cứu cũng nên tận dụng cơ hội này để điều tra một số câu hỏi lớn chưa có lời giải. Ví dụ: Liệu có thể tạo ra một bộ dữ liệu tương tự để đánh giá độ chính xác của các công cụ AI dựa trên văn bản không? Làm thế nào để sản xuất dữ liệu có nguồn gốc trách nhiệm ở quy mô đủ lớn để huấn luyện các mô hình ngôn ngữ lớn, và quy mô đó nên là bao nhiêu?

Xiang và nhóm nghiên cứu của bà đã chỉ ra cách sản xuất và kiểm thử các hệ thống AI có trách nhiệm. Họ đã chọn một bài toán khó, nhưng đây không nên là cuộc chiến của riêng họ. Những người khác cần tham gia vào nỗ lực này để chúng ta có thể xây dựng các ứng dụng AI theo những tiêu chuẩn cao nhất về độ chính xác và đạo đức.

Dịch từ Nature

Bài viết Nguồn ảnh cho AI có thể được thu thập một cách có trách nhiệm đã xuất hiện đầu tiên vào ngày ADuBiz.

Để chính sách xã hội đi đúng hướng: Cần có số liệu riêng cho nam và nữ

Dương Trâm Anh — Sun, 05 Oct 2025 21:00:00 +0000

Ảnh của tác giả Marek Studzinski via Unsplash

Vào năm 2022, Cơ quan Liên Hợp Quốc về Bình đẳng giới và Trao quyền cho Phụ nữ (UN Women) đã ước tính rằng chúng ta sẽ cần tới 22 năm nữa mới có thể thu thập đủ dữ liệu về giới. Việc này là cần thiết để đánh giá chính xác tiến độ thực hiện các Mục tiêu Phát triển Bền vững (SDGs). Chúng ta có thể lấp đầy khoảng trống dữ liệu này bằng cách tìm hiểu kỹ hơn về những rào cản hiện có và khám phá các giải pháp mới để tăng cường thu thập số liệu có phân tách theo giới tính.

Việc thu thập và sử dụng các loại số liệu dữ liệu phân tách theo giới tính và giới đóng vai trò rất quan trọng. Nó giúp chúng ta hiểu rõ và giải quyết các vấn đề bất bình đẳng khi xây dựng chính sách ở mọi cấp độ, từ địa phương cho đến quốc tế, dựa trên bằng chứng thực tế thay vì phỏng đoán. Ngược lại, nếu thiếu những số liệu được phân tách rõ ràng như vậy, các chính sách công và nghiên cứu học thuật – từ y khoa đến khoa học xã hội – sẽ rất dễ đưa ra một cái nhìn sai lệch hoặc phiến diện về thực tế liên quan đến giới.

Trên thực tế, cách thức thu thập, tiếp cận và sử dụng các số liệu này ở mỗi quốc gia là rất khác nhau. Sự khác biệt này là do mỗi quốc gia và đơn vị cung cấp dữ liệu lại có một quy trình riêng để khai thác số liệu thống kê về giới. Việc thu thập và công bố những số liệu này phụ thuộc vào nhiều yếu tố như: quy định pháp luật, chính sách, cách thức hoạt động và những bên tham gia. Sự phức tạp của quy trình này được thể hiện rất rõ trong “Khảo sát Toàn cầu về Thống kê Giới” của Cục Thống kê Liên Hợp Quốc (kết quả sơ bộ được công bố năm 2024). Hiện nay, một số đơn vị đã thu thập và sử dụng tốt loại dữ liệu này cho hầu hết các báo cáo phân tích của mình. Tuy nhiên, trong các lĩnh vực khác như an sinh xã hội, những số liệu này không chỉ ít được thu thập hơn mà còn chưa được tận dụng hết để đưa ra các thống kê sâu hơn về giới.

Việc thu thập, xử lý và công bố các số liệu có phân tách theo giới là một công việc rất phức tạp. Vì vậy, việc lấp đầy khoảng trống dữ liệu này không hề dễ dàng. Nhiệm vụ này phải bắt đầu từ các cơ quan thống kê chính thống, đòi hỏi họ phải đầu tư mạnh mẽ vào nguồn nhân lực và cách thức quản trị dữ liệu. Hơn nữa, các đơn vị cung cấp dữ liệu độc lập và tư nhân cũng cần tham gia vào các phương pháp thu thập mới, nhằm xây dựng một hệ thống theo dõi và thu thập có cấu trúc về các vấn đề liên quan đến giới. Khó khăn không chỉ dừng lại ở đó. Các rào cản kỹ thuật như thiếu khung chính sách phù hợp hay ngân sách hạn hẹp lại càng trở nên phức tạp hơn bởi các vấn đề chính trị xoay quanh những chính sách về đa dạng, công bằng và hòa nhập hiện nay.

Lược dịch từ Cambridge Core blog

Bài viết Để chính sách xã hội đi đúng hướng: Cần có số liệu riêng cho nam và nữ đã xuất hiện đầu tiên vào ngày ADuBiz.

Năm khuyến nghị dành cho nhà khoa học cho việc cập nhật dữ liệu nghiên cứu

Lăng Uyển Nhi — Mon, 29 Sep 2025 01:52:13 +0000

Từ các dự án sinh thái học kéo dài hàng thập kỷ cho tới những nghiên cứu y sinh quy mô lớn, dữ liệu khoa học luôn cần được cập nhật và bảo tồn để đảm bảo tính minh bạch, khả năng truy xuất và tái lập kết quả. Tuy nhiên, việc duy trì nhiều phiên bản dữ liệu và trích dẫn đúng chuẩn vẫn là thách thức với nhiều nhóm nghiên cứu. Các chuyên gia đã đưa ra năm khuyến nghị giúp nhà khoa học quản lý dữ liệu một cách hệ thống và bền vững hơn.

Ảnh: Facebook reactions | data visualization / infographic via Behance | CC BY-NC-ND 4.0

Từ năm 1977, các nhà khoa học thuộc Dự án Portal đã đều đặn theo dõi sự tương tác giữa các loài gặm nhấm, kiến và thực vật và cách chúng phản ứng trước biến đổi khí hậu tại một vùng đất ở Arizona (Mỹ). Những năm đầu, dữ liệu chỉ được chia sẻ không chính thức. Đến thập niên 2000, nhóm bắt đầu công bố các bài báo dữ liệu định kỳ, mỗi bài ghép chung thông tin mới và cũ để đảm bảo cơ sở dữ liệu luôn được cập nhật.

“Thu thập dữ liệu không phải là việc làm một lần rồi thôi,” Ethan White – nhà khoa học dữ liệu môi trường tại Đại học Florida, người hợp tác với dự án từ năm 2002 – chia sẻ. Nhờ công cụ mới, nhóm đã tự động hóa và hiện đại hóa quy trình. Năm 2019, White cùng đồng nghiệp thiết lập hệ thống quản lý dữ liệu dựa trên GitHub, Zenodo và Travis CI, vừa giữ dữ liệu luôn tươi mới, vừa lưu lại tất cả phiên bản cũ. Tới nay, kho Zenodo của họ đã có hơn 600 phiên bản. “Chúng tôi muốn cập nhật thường xuyên nhưng vẫn đảm bảo bất kỳ ai cũng có thể tìm đúng bộ dữ liệu đã dùng trong phân tích cũ,” ông nói.

Không chỉ sinh thái học dài hạn mới cần cập nhật và lưu giữ dữ liệu. Trong nhiều lĩnh vực, nhà nghiên cứu liên tục chỉnh sửa, mở rộng, thậm chí thay đổi toàn diện bộ dữ liệu của mình – và vẫn tiếp tục xuất bản công trình khoa học. Tuy nhiên, Crystal Lewis – chuyên gia tư vấn quản lý dữ liệu ở Missouri – cho rằng hầu như không có hướng dẫn thống nhất, khi đưa ra nhận định rằng: “Không có tiêu chuẩn chung nào cho kho lưu trữ; và tạp chí cũng ít khi nói rõ cách chỉnh sửa hay trích dẫn dữ liệu mới, nên ai cũng làm theo cách riêng của mình”.

Việc thực hành năm gợi ý sau sẽ giúp việc cập nhật và trích dẫn dữ liệu của bạn trở nên rõ ràng và hệ thống hơn.

1. Chọn kho lưu trữ dữ liệu

Thay vì để dữ liệu trên website cá nhân hoặc dịch vụ đám mây vốn có nguy cơ mất hoặc khó tìm lại, hãy sử dụng các kho lưu trữ khoa học. Đây là nơi đảm bảo lưu trữ lâu dài, có nhiều bản sao dự phòng và gán mã định danh bền vững (persistent identifier) để dễ dàng tra cứu. Tùy lĩnh vực, bạn có thể chọn kho chuyên ngành như GenBank (dữ liệu gene) hoặc các kho tổng quát như Zenodo, Dryad, Figshare, Dataverse. Một số trường đại học và cơ quan tài trợ cũng cung cấp kho riêng, kèm hỗ trợ kỹ thuật.

2. Tạo nhiều phiên bản dữ liệu

Khi bổ sung hoặc chỉnh sửa, hãy tạo phiên bản dữ liệu mới thay vì ghi đè lên dữ liệu cũ. Cách này giúp tái lập kết quả cũ và theo dõi sự thay đổi theo thời gian, đồng thời tránh nhầm lẫn khi bạn quay lại sau nhiều tháng. Nhiều kho như Zenodo tự động cấp DOI riêng cho từng phiên bản và một DOI tổng liên kết tất cả. Nếu không dùng kho, bạn vẫn có thể quản lý phiên bản thủ công qua tên tệp hoặc công cụ như GitHub.

3. Quy ước tên tệp và thuật ngữ

Đặt tên tệp thống nhất, có ngày tháng (ví dụ: YYYYMMDD_tenfile), và lưu vào thư mục hợp lý để dễ nhận diện. Song song, cần ghi siêu dữ liệu (metadata) mô tả biến số, cấu trúc tệp và thuật ngữ đã sử dụng. Điều này đặc biệt quan trọng với dữ liệu y sinh, nơi các định nghĩa và truy vấn có thể thay đổi theo thời gian.

4. Viết nhật ký thay đổi

Nhật ký nên ghi rõ ngày, số phiên bản và nội dung chỉnh sửa, từ việc thêm biến số, sửa lỗi, đến thay đổi phần mềm hoặc phương pháp thu thập. Một số nhóm, như của Ethan White, duy trì cả “bài báo dữ liệu” cập nhật định kỳ để công khai chi tiết thay đổi. Đây là cách minh bạch hóa tiến trình và giúp cộng đồng khoa học theo dõi sự phát triển của bộ dữ liệu.

5. Cập nhật công nghệ

Dữ liệu trên 5 năm tuổi có nguy cơ khó truy cập do thiết bị và định dạng lỗi thời. Hãy lưu ở nhiều định dạng, ưu tiên định dạng mở như CSV, và định kỳ chuyển đổi sang chuẩn mới. Một số kho sẽ tự động hỗ trợ chuyển đổi khi tiêu chuẩn thay đổi. Nếu không, bạn cần chủ động xuất lại dữ liệu để tránh nguy cơ mất mát hoàn toàn.

Trong bối cảnh dữ liệu nghiên cứu ngày càng đóng vai trò then chốt, việc duy trì, chuẩn hóa và bảo tồn các phiên bản không chỉ giúp khoa học minh bạch hơn mà còn bảo vệ thành quả nghiên cứu, đảm bảo chúng tiếp tục phục vụ cho cộng đồng khoa học trong tương lai.

Dịch từ Nature

Bài viết Năm khuyến nghị dành cho nhà khoa học cho việc cập nhật dữ liệu nghiên cứu đã xuất hiện đầu tiên vào ngày ADuBiz.

Sự nghiệp nghiên cứu: Khác biệt giữa các quốc gia và cơ sở dữ liệu toàn cầu mới

Nguyễn Thái Bình Ai — Tue, 02 Sep 2025 05:57:20 +0000

Một công cụ trực tuyến vừa ra mắt bởi Đài quan sát Sự nghiệp Nghiên cứu và Đổi mới (ReICO) cho phép so sánh mức lương, cơ hội nghề nghiệp và nhiều chỉ số khác của giới nghiên cứu trên toàn thế giới.

Ảnh: Little Scientist vie Behance | CC BY-NC-ND 4.0

Lưu ý: Bài viết được dịch hoàn toàn bởi ChatGPT mà không đi qua khâu hiệu đính

Những câu hỏi lớn của giới khoa học

Các nhà khoa học ở quốc gia nào được trả lương cao nhất? Bằng tiến sĩ có mang lại sự ổn định việc làm nhiều hơn bằng thạc sĩ? Sau khi tốt nghiệp, các tiến sĩ thường làm việc ở những lĩnh vực nào?

Trước đây, những câu hỏi này rất khó tìm câu trả lời chính xác. Nhưng hiện nay, với cơ sở dữ liệu mới của ReICO, thông tin từ 53 quốc gia đã được tập hợp trong một nền tảng duy nhất, giúp các nhà hoạch định chính sách cải thiện điều kiện làm việc và hỗ trợ các nhà khoa học lựa chọn con đường sự nghiệp phù hợp.

Lần đầu có một “bản đồ sự nghiệp nghiên cứu” toàn cầu

“Việc có một nguồn dữ liệu tập trung, đáng tin cậy để so sánh sự nghiệp nghiên cứu giữa các quốc gia là vô cùng hữu ích,” Nicola Dengo, Phó chủ tịch tổ chức nghiên cứu trẻ Eurodoc nhận định. Tuy nhiên, ông cũng cảnh báo: nếu mỗi quốc gia không tích cực tham gia, dự án khó có thể phát huy hết tiềm năng.

Trong khi số lượng nhà nghiên cứu tăng mạnh trên toàn cầu, những lo ngại về điều kiện làm việc và tính bền vững của nghề nghiên cứu cũng ngày càng lớn. Dữ liệu ở từng nước thường rời rạc, thiếu nhất quán. “Không có dữ liệu đáng tin cậy và có thể so sánh, các quốc gia không thể đánh giá hệ thống của mình, xác định thách thức hay đo lường hiệu quả chính sách,” Neda Bebiroglu, chuyên gia từ Bỉ, chia sẻ.

ReICO ra đời để lấp khoảng trống này. Được OECD và Ủy ban châu Âu đồng tài trợ, dự án không chỉ tổng hợp dữ liệu công khai mà còn thiết lập mạng lưới hợp tác với 45 quốc gia, trong đó 31 nước đã cung cấp dữ liệu mới chưa từng được công bố.

Một vài phát hiện thú vị

Người dùng có thể khám phá dữ liệu qua các bảng tương tác trên website ReICO. Một số kết quả đáng chú ý:

Trong số 19 quốc gia có dữ liệu thu nhập so sánh, tiến sĩ ở Mỹ được trả cao nhất, sau điều chỉnh sức mua: khoảng 126.300 USD/năm, theo sau là Thụy Sĩ, Hà Lan và Na Uy.
Về chênh lệch giới, Colombia gần như đạt bình đẳng thu nhập, trong khi tại Ý, nữ tiến sĩ chỉ nhận được 62%lương so với đồng nghiệp nam.
Luxembourg ghi nhận mức “hút chất xám” cao nhất (+4,62% nhà nghiên cứu trong năm 2023), còn Nam Phi chịu “chảy máu chất xám” nặng nhất (-1,88%).

Vẫn còn nhiều thách thức

ReICO mới phát triển trong 1 năm và hiện ở phiên bản thử nghiệm. Nền tảng dự kiến sẽ cập nhật dữ liệu hằng năm, đồng thời bổ sung thông tin về kỹ năng, vai trò trong doanh nghiệp – nơi ngày càng nhiều nhà nghiên cứu làm việc.

Tuy vậy, thách thức vẫn còn lớn. “Dữ liệu về nghiên cứu sau tiến sĩ (postdoc) gần như trống rỗng. Ngay cả những con số cơ bản như thời hạn hợp đồng trung bình cũng thiếu, khiến khó xây dựng chính sách hiệu quả,” Bebiroglu cho biết. Ngoài ra, cách gọi tên và mô hình sự nghiệp nghiên cứu khác nhau giữa các quốc gia cũng gây khó khăn cho việc chuẩn hóa và so sánh.

Một bước đi đúng hướng

Dù còn hạn chế, các chuyên gia đều đánh giá cao nỗ lực này. “Chúng ta thật sự cần một hệ thống như ReICO để hoạt động. Nó là nền tảng để giải quyết tận gốc những vấn đề của nghề nghiên cứu,” Nicola Dengo nhấn mạnh.

Dịch từ Science

Bài viết Sự nghiệp nghiên cứu: Khác biệt giữa các quốc gia và cơ sở dữ liệu toàn cầu mới đã xuất hiện đầu tiên vào ngày ADuBiz.

Không cần phải tốn thời gian tìm kiếm các nghiên cứu tái lập nữa: cơ sở dữ liệu crowdsourced đã giải quyết vấn đề này

Ngô Quỳnh Hương — Mon, 17 Mar 2025 23:47:19 +0000

Ảnh: Mohawk Digital, paper promotion via Behance | CC BY-ND 4.0

Nghiên cứu tái lập, tức là các nghiên cứu kiểm định lại kết quả của những nghiên cứu đi trước, thường khiến các học giả mất nhiều thời gian và công sức để tìm ra. Việc tìm nhà tài trợ, tạp chí để đăng bài, hay đơn giản là tìm lại các nghiên cứu tái lập khi chúng được công bố, đều gặp nhiều khó khăn vì thường chúng không được liên kết trực tiếp với các nghiên cứu gốc.

Một cơ sở dữ liệu được mô tả trong một bài preprint được đăng vào tháng 4, nhằm giải quyết vấn đề này bằng cách lưu trữ các nghiên cứu tái lập trong lĩnh vực khoa học xã hội. Dự án được ra mắt như một phần của sáng kiến Framework for Open and Reproducible Research Training (FORRT), giúp các nhà nghiên cứu hiểu và áp dụng các nguyên tắc khoa học mở và tính tái lập trong nghiên cứu của mình.

Tại sao lại tạo ra cơ sở dữ liệu này?

Nhóm điều hành mong muốn các nghiên cứu tái lập có thể được chấp nhận công bố một cách khách quan. Trong quá khứ, việc công bố một bài báo tái lập thường gặp rất nhiều khó khăn, đặc biệt là khi kết quả của nghiên cứu không đưa ra được một thông tin mới hoàn toàn.

Crowdsourced còn giúp theo học giả trên toàn thế giới có một công cụ tìm kiếm riêng trỏ đến các công trình nghiên cứu tái lập. Nếu bạn đang muốn tái lập một nghiên cứu và muốn (1) đọc các bài báo tái lập khác để tham khảo cách họ triển khai nội dung và (2) kiểm tra liệu ý tưởng tái lập của mình đã bị tái lập trước hay không, cơ sở dữ liệu này dành cho bạn.

Dự án bắt đầu với tâm lý học, vốn bị ảnh hưởng nặng nề bởi cuộc khủng hoảng tái lập, và đã mở rộng sang các nghiên cứu trong lĩnh vực phán đoán và ra quyết định (judgement and decision-making), tiếp thị, y học. Nhóm điều hành đang tìm hiểu các lĩnh vực khác để hiểu cách các nhà khoa học tiến hành nghiên cứu tái lập và ý nghĩa của tái lập trong bối cảnh đó.

Ai có thể mong muốn sử dụng cơ sở dữ liệu này?

Tác giả của một giáo trình về tâm lý học xã hội nói rằng ông ấy không thể dễ dàng sàng lọc 50 trang tài liệu tham khảo của mình để tìm kiếm các nghiên cứu tái lập. Hiện tại, ông ấy có thể nhập tài liệu tham khảo vào cơ sở dữ liệu này và kiểm tra những nghiên cứu đã được tái lập.

Cơ sở dữ liệu cũng có thể được sử dụng để xác định hiệu quả của một số quy trình nhất định bằng cách theo dõi lịch sử tái lập của các nghiên cứu. Ví dụ, ngày nay, các học giả được yêu cầu đăng ký trước các nghiên cứu của họ – công bố thiết kế nghiên cứu, giả thuyết và kế hoạch phân tích trước khi tiến hành nghiên cứu – và công khai dữ liệu của họ trực tuyến miễn phí. Dựa trên kinh nghiệm, nhóm điều hành muốn xem xét liệu các can thiệp như thế này có ảnh hưởng đến khả năng tái lập của một nghiên cứu hay không.

Cơ sở dữ liệu được cập nhật như thế nào?

Hiện tại, đây là một bảng tính trực tuyến được tạo ra bằng cách thêm thủ công các phát hiện gốc, các nghiên cứu tái lập và kết quả của chúng. Cho đến nay, cơ sở dữ liệu có hơn 3.300 mục được nhập vào – là các kết quả tái lập – trong số chưa đầy 1.100 nghiên cứu ban đầu. Thường có nhiều phát hiện trong một nghiên cứu; một nghiên cứu tái lập có thể tái lập bốn phát hiện khác nhau, tạo thành bốn mục nhập.

Có hàng trăm tình nguyện viên đang thu thập các bản tái lập và ghi lại các nghiên cứu trên bảng tính. Bạn có thể chỉ cần nhập một nghiên cứu để có thể tìm thấy nó, hoặc bao gồm cả nghiên cứu gốc và các kết quả tái lập.

Nhóm điều hành đang liên hệ với các nhóm thực hiện nhiều nghiên cứu tái lập cũng như kêu gọi mọi người thêm các nghiên cứu của họ. Đây là một nỗ lực huy động cộng đồng, mà phần lớn trong số đó dựa trên Dự án tái lập và đảo ngược FORRT (FORRT replications and reverses project), cũng dựa trên nguồn lực cộng đồng. Dự án này nhằm mục đích đối chiếu các bản tái lập và ‘hiệu ứng đảo ngược’ trong khoa học xã hội, khi các nỗ lực tái lập có kết quả ngược lại so với bản gốc.

Quy trình này có được tự động hóa không?

Nhóm điều hành đang tìm cách tự động hóa quy trình này. Chẳng hạn, họ đang làm việc trên một mẫu bản thảo có thể đọc bằng máy, trong đó mọi người có thể nhập bản thảo của họ và tự động đọc vào cơ sở dữ liệu.

Dự án có thể tự động nhận dạng DOI và kiểm tra chéo chúng với tất cả các nghiên cứu gốc trong cơ sở dữ liệu xem có trùng khớp không. Nhóm điều hành đang nỗ lực biến cơ sở dữ liệu thành một công cụ tìm kiếm, nhưng hiện tại điều này vượt quá khả năng và nguồn lực của họ.

Cơ sở dữ liệu này có cung cấp bất kỳ dữ liệu nào về các bản tái lập lưu trữ không?

Trong trang web dự án, có một công cụ theo dõi quá trình tái lập, nơi bạn có thể xem tỷ lệ phần trăm các nghiên cứu có thể tái lập được những phát hiện ban đầu và những nghiên cứu không làm được như vậy.

Tại phiên bản cơ sở dữ liệu mà nhóm nghiên cứu sẽ ra mắt trong những tháng tới, người dùng có thể chọn tiêu chí để đánh giá liệu một nghiên cứu có thành công trong việc tái lập các phát hiện ban đầu hay không. Hiện tại, tất cả đều dựa trên độ lớn của hệ số ảnh hưởng – thước đo mối quan hệ giữa hai biến – đối với cả nghiên cứu ban đầu và các nghiên cứu tái tạp, nhưng có nhiều tiêu chí và số liệu khác về thành công của việc tái lập vẫn đang được xem xét.

Nhóm điều hành cũng có kế hoạch ra mắt một tạp chí bình duyệt, truy cập mở tại FORRT để xuất bản các nghiên cứu tái lập từ nhiều lĩnh vực khác nhau.

Lược dịch từ Nature

Bài viết Không cần phải tốn thời gian tìm kiếm các nghiên cứu tái lập nữa: cơ sở dữ liệu crowdsourced đã giải quyết vấn đề này đã xuất hiện đầu tiên vào ngày ADuBiz.

Thách thức xã hội và dữ liệu định tính lớn đòi hỏi một kỷ nguyên mới về chủ nghĩa thực dụng phương pháp luận (methodological pragmatism)

Lương Thúy Hà — Mon, 26 Aug 2024 05:04:00 +0000

Cuộc tranh luận định tính-định lượng, vốn là nét đặc trưng của nghiên cứu khoa học xã hội, đã dần trở thành một rào cản. Alex Gillespie, Vlad Glăveanu và Constance de Saint-Laurent trong cuốn sách truy cập mở mới của họ đã lập luận: “Chủ nghĩa thực dụng và Phương pháp luận”, rằng việc giải quyết các thách thức đương thời đòi hỏi phải nắm bắt các cơ hội của dữ liệu định tính lớn (big qualitative data) với một cách tiếp cận thực dụng về mặt phương pháp luận.

Các phương pháp “cổ điển” mà chúng ta sử dụng ngày nay trong tâm lý học và khoa học xã hội như bảng câu hỏi và phỏng vấn, mặc dù có vẻ tương đối cố định, nhưng chúng là sản phẩm của các phản ứng tích lũy cho những mối quan ngại trong bối cảnh lịch sử cụ thể. Các phương pháp này đã phù hợp trong một thế giới mà các nhà nghiên cứu không thể tiếp cận được những gì mọi người đã làm hoặc nói, và ngay cả khi họ có thể, cũng không có công cụ phân tích chúng trên quy mô lớn. Bảng câu hỏi và phỏng vấn đáp ứng mối quan tâm của thế kỷ 20 (được định hình bởi chủ nghĩa thực dân (colonialism), chủ nghĩa tư bản (capitalism) và các cuộc đấu tranh ý thức hệ (ideological battles) thời kỳ Chiến tranh Lạnh) với mong muốn thấu hiểu, phân loại và lập bản đồ các ý kiến và niềm tin.

Tuy nhiên, những gì các nhà khoa học xã hội phải đối mặt ngày nay lại hoàn toàn khác biệt do sự kết tinh của hai xu hướng lịch sử. Xu hướng đầu tiên liên quan đến bản chất của những vấn đề chúng ta đang đối mặt. Sự bất bình đẳng, tình trạng khẩn cấp về khí hậu và các cuộc chiến tranh ngày càng trầm trọng do sự trỗi dậy chung của chủ nghĩa dân tộc (nationalism), chủ nghĩa dân túy (populism), và đặc biệt là các diễn ngôn và hệ tư tưởng hậu sự thật (post-truth). Chủ nghĩa dân tộc và chủ nghĩa dân túy không phải là mới, nhưng quy mô và sự tinh vi của thông tin sai lệch đang đe dọa làm suy yếu khả năng đối phó của tập thể đối với các thách thức chung.

Thường chúng ta chỉ nghe nói đến kỷ nguyên của ‘dữ liệu lớn’ (big data), nhưng có một điều ít được nhắc đến hơn: đây thực tế là kỷ nguyên của ‘dữ liệu định tính lớn’ (big qualitative data).

Xu hướng thứ hai liên quan đến công nghệ và sự phát triển vượt bậc của nó, đặc biệt là sự tích lũy chưa từng có của lượng dữ liệu tự nhiên (dấu vết kỹ thuật số – digital footprints), cùng với các phương pháp phân tích dữ liệu ngày càng tối ưu (bao gồm các mô hình AI truyền thống và AI có khả năng sáng tạo (generative AI)). Thường chúng ta chỉ nghe nói đến kỷ nguyên của ‘dữ liệu lớn’, nhưng có một điều ít được nhắc đến hơn: đây thực tế là kỷ nguyên của ‘dữ liệu định tính lớn’. Các tập dữ liệu lớn nhất là dữ liệu định tính không có cấu trúc (mỗi phút có thêm 2,5 triệu lượt tìm kiếm văn bản trên Google, 500 nghìn bức ảnh trên Snapchat, 500 giờ video trên YouTube). Những đột phá lớn của AI tận dụng nguồn dữ liệu này, giúp chúng dễ dàng xử lý và mang lại giá trị cho nghiên cứu xã hội.

Hai xu hướng này đã thúc đẩy sự gia tăng của các nghiên cứu sử dụng phương pháp hỗn hợp (mixed methods research). “Cuộc chiến hệ hình” (paradigm wars) của những năm 80 và 90, với quan điểm loại trừ lẫn nhau giữa phương pháp định tính và định lượng – vốn được củng cố bởi các lập trường nhận thức luận theo chủ nghĩa kiến tạo cực đoan (fundamentalist constructionist epistemological stance) và chủ nghĩa hiện thực (realist epistemological stance) – đang dần đi đến hồi kết. Những thách thức mà chúng ta phải đối mặt quá lớn để có thể giải quyết một cách ngây thơ bằng bộ công cụ bị giới hạn bởi hệ tư tưởng gắn với phương pháp nghiên cứu cụ thể nào đó. Mặc dù các phương pháp định lượng vẫn chiếm ưu thế, nhưng việc đề cao tính “vượt trội” của một phương pháp này mà loại trừ các phương pháp khác là không khả thi.

Các sinh viên và học giả trong lĩnh vực khoa học xã hội ngày càng quen thuộc với câu thần chú “Tùy thuộc vào câu hỏi nghiên cứu”. Tuy nhiên, câu hỏi then chốt là phương pháp nào phù hợp với câu hỏi nào, và làm thế nào có thể kết hợp những cách tiếp cận này để thực hiện nghiên cứu xã hội đáp ứng các thách thức thời đại?

Ngoài ra, bối cảnh xã hội ngày nay đặt ra nhiều thách thức cho quá trình nghiên cứu, bao gồm việc xác định mục tiêu tri thức, lựa chọn loại dữ liệu phù hợp, phát triển kỹ năng phân tích, hướng tới tạo ra tác động thực tế, cùng với nhiều yếu tố khác. Các phương pháp nghiên cứu không thể phân chia một cách rạch ròi hoặc đánh giá chỉ dựa trên những kết quả tổng quát nữa, chẳng hạn như ‘phát hiện các xu hướng chung’ (định lượng) hay ‘xem xét chi tiết tình huống cụ thể’ (định tính). Để giải quyết các thách thức phức tạp hiện tại và tận dụng các cơ hội của dữ liệu định tính lớn, chúng ta cần những phương pháp cho phép thực hiện cả hai điều này cùng một lúc.

Đây chính là cách tiếp cận được gọi là chủ nghĩa thực dụng phương pháp luận (methodological pragmatism). Chủ nghĩa thực dụng là một triết lý được phát triển vào đầu thế kỷ 20 tại Hoa Kỳ, nảy sinh từ niềm tin lạc quan vào sự phát triển của một quốc gia non trẻ, đề cao vai trò hành động của con người và cho rằng giá trị của tri thức được đánh giá dựa trên những kết quả thực tế mà nó mang lại. Tuy nhiên, bất chấp tác động sâu rộng trong tâm lý học, giáo dục và chính trị, vai trò của chủ nghĩa thực dụng chưa được khai thác triệt để trong phương pháp luận khoa học xã hội. Với những tiềm năng xoay quanh dữ liệu định tính lớn và những tiến bộ trong trí tuệ nhân tạo (AI), đã đến lúc sử dụng chủ nghĩa thực dụng để định hướng những thách thức hiện tại của chúng ta và tận dụng tối đa các cơ hội mới. Cách tiếp cận thực dụng thúc đẩy các nhà nghiên cứu chấp nhận tính đa nguyên (pluralism) và thách thức các nhị nguyên (dichotomies), điều chỉnh phương pháp cho phù hợp với bối cảnh và trên hết là suy nghĩ một cách sáng tạo về phương pháp luận. Chủ nghĩa thực dụng có tính bao hàm bởi các phương pháp không được đánh giá theo nhận thức luận của chúng, mà được xem xét dựa trên những gì chúng đóng góp để giải quyết thách thức đang hiện hữu.

Chủ nghĩa thực dụng về phương pháp luận mở ra cơ hội để chúng ta nhìn nhận lại về các phương pháp nghiên cứu. Phân tích cụ thể dưới góc nhìn này cho thấy, dữ liệu định tính và định lượng gắn bó chặt chẽ với nhau – mọi dữ liệu đều bắt đầu ở dạng định tính, và điểm mấu chốt nằm ở việc xác định mức độ chuẩn hóa sao cho phù hợp với mục tiêu nghiên cứu. Vì vậy, chúng ta hoàn toàn có thể vừa đánh giá mức độ mọi người tán thành với một vấn đề (câu hỏi khảo sát truyền thống) vừa tìm hiểu họ thực sự nghĩ gì về nó (cách tiếp cận định tính truyền thống), khi có khả năng phân tích văn bản nâng cao trên lượng dữ liệu định tính dồi dào trong xã hội hiện đại. Sự tích hợp sâu sắc giữa các phương pháp định tính và định lượng đang ngày càng khả thi, giúp nâng cao năng lực của các nhà nghiên cứu xã hội.

Chủ nghĩa thực dụng không xem các phương pháp như những quy trình cô lập được sử dụng để tìm ra ‘chân lý’, mà là những công cụ do chúng ta cùng nhau xây dựng và sử dụng để mở rộng khả năng tư duy và hành động trong xã hội hiện đại với những vấn đề phức tạp và dữ liệu định tính lớn đang phát triển mạnh mẽ. Lăng kính thực dụng thách thức chúng ta, không chỉ dừng lại ở quan sát, mà chủ động thay đổi thế giới thông qua việc tưởng tượng những tiềm năng mới. Nói ngắn gọn, chủ nghĩa thực dụng cung cấp một khuôn khổ để giúp các nhà nghiên cứu hướng tới tương lai, suy ngẫm một cách phản biện về tri thức và những mục đích tri thức đó phục vụ, qua đó giải quyết những thách thức và nắm bắt những cơ hội của thời đại.

Lược dịch từ LSE

Bài viết Thách thức xã hội và dữ liệu định tính lớn đòi hỏi một kỷ nguyên mới về chủ nghĩa thực dụng phương pháp luận (methodological pragmatism) đã xuất hiện đầu tiên vào ngày ADuBiz.

AI sẽ tiếp tục “học” như thế nào?

Duy Vũ — Wed, 21 Aug 2024 02:45:00 +0000

Stack Overflow, Yelp, Reddit, Flickr, Goodreads, Tumblr là những trang web ra đời vào những năm 2008-2010, sau đó mau chóng thu hút được hàng chục triệu lượt truy cập trong thời gian ngắn. Giai đoạn này còn được gọi là “Kỷ nguyên Web 2.0”, trùng với giai đoạn Google đang trải qua một thời kỳ phát triển thần kỳ. Điểm chung của những trang web này là nội dung của chúng đến từ việc “trích xuất” tri thức từ người dùng thông qua các chuỗi bài (thread) hỏi đáp, sau đó được tổ chức lại bởi trang web và phân bổ đến người cần tìm kiếm câu trả lời cho vấn đề hoặc mối quan tâm của họ. Các trang web này và Google phụ thuộc với nhau theo một cơ chế đôi bên cùng có lợi: thông qua việc chỉ mục những dự án tập hợp tri thức đám đông này, Google có thể có được một nguồn tài nguyên thông tin hữu ích khổng lồ một cách miễn phí, và đổi lại các trang web kia có thể thu hút một lượng lớn người truy cập thông qua Google. Việc Google tham lam thu thập dữ liệu từ các “Web 2.0” được biện hộ rằng thực tế rằng nó đã hướng người dùng đến nguồn của các nội dung ấy. Thậm chí, Google còn có một chỉ số để đo mức độ thành công của thuật toán tìm kiếm dựa vào việc người dùng rời khỏi trang tìm kiếm nhanh thế nào. Nếu thời gian càng ngắn, thì nó mang ý nghĩa rằng Google đã đưa ra đúng câu trả lời cho câu hỏi của người dùng.

Tuy nhiên, tình trạng này thay đổi nhanh chóng khi Google ra mắt OneBox, một tính năng cho phép người dùng có thể tìm được câu trả lời ngay lập tức ở khu vực phía trên các kết quả tìm kiếm. Ví dụ như khi bạn tìm kiếm giờ chiếu phim, bạn sẽ thấy bảng giờ phim xuất hiện ở một hộp văn bản phía trên các trang web chỉ đến các rạp phim. Tính năng này đã cản trở dòng truy cập đến các trang web vốn cung cấp chính những thông tin ấy cho Google. Để có được dữ liệu cho tính năng này, Google thậm chí đã bị cáo buộc ăn cắp dữ liệu từ các nguồn khác, gây nên thiệt hại đáng kể đến các trang web ấy.

Với OneBox, Google ngày càng tiện lợi và mạnh mẽ hơn, đồng thời “ăn cắp” lượng truy cập đến các trang web khác. Ước lượng rằng có đến 80% người tìm kiếm rời Google mà không bấm vào bất kỳ liên kết nào sau khi họ có kết quả họ cần ở OneBox. Nhiều Web 2.0, vốn phụ thuộc vào những nội dung được tạo bởi người dùng, đã chứng kiến sự suy giảm lượt truy cập đến trang web của họ, đồng thời, nhiều người còn cảm thấy rằng chất lượng thông tin của các trang web này dần trở nên tệ đi. Chỉ có một vài ngoại lệ tiếp tục duy trì được chất lượng của mình.

Ngày nay, các mô hình ngôn ngữ lớn (LLM – Large Language Model), như ChatGPT của OpenAI và Bard của Google, đang tiếp nối OneBox “tiêu hóa” các nội dung trên Web một cách triệt để. Câu hỏi đặt ra là liệu cách tiếp cận này có bền vững, khi trí thông minh của LLM phụ thuộc hoàn toàn vào kho dữ liệu do con người viết ra – những di sản của trí thông minh của chính chúng ta.

Nguồn dữ liệu của các LLM đến từ các nền tảng chuyên cung cấp thông tin như Stack Overflow, Reddit, và Wikipedia. Các trang web huy động tri thức đám đông này đã sử dụng nhiều cơ chế khác nhau như điểm thưởng, tiền, huy hiệu, phần thưởng để khích lệ sự đóng góp của cộng đồng, qua đó giúp những người khác có được thông tin mình cần. Thế nhưng, những người dùng và đóng góp cho các nền tảng này đã không biết rằng công sức của mình trở thành “cám” cho những mô hình ngôn ngữ lớn tiêu thụ. Nếu biết, họ có quyền yêu cầu được trả thù lao, hoặc ít nhất là họ cần được ghi nhận cho công sức của mình. Gần đây, cả Reddit và Stack Overflow đã phản ứng bằng cách tuyên bố rằng khi các công ty khi cần một lượng dữ liệu lớn, họ cần phải chi trả một khoản tiền cho các nền tảng này.

Chatbot đang làm giảm lượng truy cập đến các nền tảng huy động tri thức cộng đồng, “bỏ đói” chính những người đã tạo ra những dữ liệu ấy ngay từ đầu. Điển hình, bằng cách “học” Stack Overflow, ChatGPT đã trở thành một lập trình viên xuất sắc, và người ta đã không cần tìm đến Stack Overflow nữa. Theo một nghiên cứu gần đây, các nhà nghiên cứu ước tính các bài viết mới trên Stack Overflow đã giảm 60% kể từ thời điểm phát hành ChatGPT. Việc này trở thành một vấn đề lớn đối với AI. Có thể AI chỉ có thể quét toàn bộ trang web một lần để thu thập dữ liệu, và nếu nó muốn tiếp tục thông minh hơn, nó sẽ cần thêm những kho kiến thức mới. Vậy, những kho này đến từ đâu?

Các công ty AI đã chuyển sự chú ý của mình sang một nguồn dữ liệu tiềm năng khác: các cuộc trò chuyện giữa người dùng và chatbot. Tất cả người sử dụng chatbot như Bard hay ChatGPT đang tham gia một bài huấn luyện khổng lồ cho các LLM này. Sự thật là, việc các công ty này cung cấp miễn phí dịch vụ của họ có thể hiểu rằng dữ liệu người dùng đáng giá hơn nhiều so với tiền: tất cả những gì người dùng nói với chatbot sẽ thành nguyên liệu cho các mô hình ngôn ngữ lớn của họ. Hơn nữa, chúng ta không chỉ trò chuyện mà còn nhập cả email, tài liệu, code, hợp đồng, v.v.. Hiện tại, có những giới hạn trong việc ta có thể nhập bao nhiêu dữ liệu vào chatbot, nhưng giới hạn này sẽ dần được loại bỏ khi chúng ta đang nạp cho chúng một lượng lớn dữ liệu hằng ngày.

Sẽ không lâu nữa, rất nhiều trong số chúng ta sẽ “nhồi nhét” cả những tài liệu nhạy cảm nhất vào các mô hình ngôn ngữ này. Chưa có chatbot nào yêu cầu truy cập vào hộp thư điện tử, tin nhắn, lịch hay ghi chú của chúng ta, nhưng nếu có một trợ lý ảo AI xuất hiện, có thể nhiều người sẽ rất muốn cấp quyền truy cập vào các dữ liệu riêng tư ấy cho LLM. Các trợ lý AI ảo này sẽ theo dõi cả những hoạt động của chúng ta trên internet, và có thể ChatGPT sẽ trở thành một loại “đa mô hình”, không chỉ ngôn ngữ, mà còn có thể tạo ra hình ảnh, video, và âm thanh. Chúng ta sử dụng ngôn ngữ dưới dạng nói nhiều hơn là dạng viết, và những LLM này sẽ có thể thay chúng ta trình bày trong các buổi họp, trả lời điện thoại cho chúng ta, thậm chí là các giao tiếp hằng ngày khác.

Những mô hình ngôn ngữ lớn trải qua một quá trình gọi là “Học Tăng cường từ Phản hồi Con người” (RLHF – Reinforcement Learning from Human Feedback). Về cơ bản, những người kiểm định (tester) sẽ trò chuyện với mô hình chưa hoàn thiện và đánh giá chất lượng phản hồi của chatbot. Các mô hình sẽ học từ những đánh giá đó, tự động chỉnh sửa sao cho phản hồi của chúng trùng với ý muốn của người hỏi. Quá trình này thường rất tốn kém, nhưng bây giờ nó có thể thực hiện một cách miễn phí, với quy mô lớn hơn, thông qua việc trò chuyện với những người dùng thật trên toàn thế giới. Nhờ vậy, ChatGPT dường như rất xuất sắc trong việc hiểu điều bạn muốn hỏi và biết cách đưa ra một câu trả lời hoàn hảo. Bạn thậm chí còn không phải đưa ra feedback, mà GPT-4 thông minh đến mức chúng có thể tự phân tích đoạn hội thoại để biết được câu trả lời của mình đã thỏa mãn bạn chưa. Khi một mô hình thành công, chúng có thể giúp cho các mô hình khác: ví dụ như Bard, một LLM của Google và là đối thủ của ChatGPT, được cho rằng đã sử dụng các đoạn hội thoại của ChatGPT được đăng tải công khai để huấn luyện (tuy nhiên Google đã phủ nhận điều này).

Việc sử dụng một chatbot để huấn luyện một chatbot khác đã dần giúp các mô hình này đạt được mục tiêu tối thượng của chúng, đó là hoàn toàn loại bỏ con người ra khỏi chu trình. Có lẽ giới hạn cơ bản của những mô hình ngôn ngữ lớn ngày nay chính là việc chúng phụ thuộc vào kiến thức được tạo ra bởi con người. Việc LLM có thể tạo ra kiến thức cho chính mình sẽ tạo nên một bước phát triển đột phá, và giải pháp tiềm năng chính là sử dụng dữ liệu tổng hợp (synthetic data). Đây là những dữ liệu được tạo ra bằng các thuật toán thay vì đến từ chất liệu thực tế. Ví dụ như các hình ảnh có thể được xoay ngang, thu nhỏ, phản chiếu để tạo thành 8 đến 16 biến thể khác nhau để đưa vào các mạng nơ-ron nhân tạo (Neural network), hay việc các nhà phát triển sử dụng các hàng triệu trình mô phỏng với các điều kiện thời tiết địa, hình khác nhau để huấn luyện AI điều khiển các mẫu xe tự hành.

Dữ liệu tổng hợp có tiềm năng rất lớn để tạo ra được một thuật toán phát triển trí tuệ nhân tạo liên tục và tự động, tương tự như những mô hình đã có của cờ vua và cờ vây – luôn tự học từ những ván cờ đã diễn ra. Thông qua mỗi ván đấu, AI sẽ có thể lưu trữ được dữ liệu, phân tích ván đấu, và tạo ra một phiên bản cải thiện hơn một chút, và sau đó phiên bản tốt hơn một chút sẽ lại đối đầu với phiên bản tốt hơn một chút của nó và lại tiếp tục cải thiện không ngừng. Bằng cách này, nó có thể khám phá tối đa những tình huống có thể xảy ra, điều mà con người vẫn chưa thể làm được.

Dù mang lại nhiều khả năng vượt trội, dữ liệu tổng hợp không phải là không có vấn đề. Bởi vì một lý do tất yếu là, dù thông minh đến đâu, chúng ta cũng không thể tìm tìm ra cái mới chỉ bằng cách xem lại những gì bản thân đã biết. Trong một nghiên cứu gần đây, các nhà nghiên cứu đã đào tạo một mô hình trí tuệ nhân tạo thông qua tổng hợp những những hình ảnh mà nó đã tạo ra, sau đó sử dụng mô hình kết quả để cố gắng tạo ra nhiều dữ liệu con. Kết quả cho thấy chất lượng của mô hình đã thực sự xuống cấp, và chỉ được cải thiện khi kho dữ liệu được cập nhật thêm hình ảnh mới.

Đối với cờ vua và cờ vây, mô hình học tập hoàn toàn có thể khép kín do những quy tắc của trò chơi này sẽ không thay đổi, và bị giới hạn trong phạm vi bàn cờ. Vì vậy, vẫn chưa gì có thể đảm bảo AI có thể “tự chơi” để truy xuất ra những ý tưởng mới hoặc cách tiếp cận mới về các vấn đề phức tạp hơn ở thế giới thực. Khác với con người, luôn tò mò tìm kiếm các tri thức mới và dùng việc học là phương tiện để đạt đến mục tiêu ấy, AI “học” nhưng không có động lực nào: chúng chỉ nhập một lượng lớn dữ liệu mà không quan tâm đến nội dung trong đó.

Một bước nhảy vọt lớn trong lĩnh vực trí tuệ nhân tạo sẽ xuất hiện khi LLM bắt đầu tỏ ra tò mò hoặc buồn chán. Sự tò mò và buồn chán nghe có vẻ như thuộc về bộ não con người, nhưng chúng hoàn toàn có thể được tạo ra bên trong AI. Chatbot ngày nay có xu hướng “bịa” ra mọi thứ. Căn nguyên của việc này xuất phát từ việc AI không thể biết chính nó có kiến thức như thế nào. Khi các nhà nghiên cứu bắt đầu giải quyết vấn đề làm sao để cho mô hình của họ có thể thể hiện được sự tự tin và trích dẫn được nguồn thông tin chính xác: họ đang làm cho chatbot trở nên đáng tin cậy hơn, đồng thời trang bị cho chúng một loại kiến thức cơ bản về bản thân. Một AI có thể soi chiếu hàng loạt bản ghi cuộc trò chuyện của chính nó và “học” được rằng nó đã bịa ra một số thông tin, từ đó, như đã nói ở trên, chúng sẽ tạo ra một phiên bản tốt hơn một chút để cải thiện mảng thông tin ấy. Mô hình này cũng sẽ chủ động hướng đến những nguồn liên quan đến các chủ đề mà nó ít thông tin nhất – điều rất giống với sự tò mò của con người.

Nếu không thể tìm thấy nguồn dữ liệu phù hợp, chatbot có thể yêu cầu người dùng cung cấp thêm thông tin. Trong tương lai, có một phiên bản của ChatGPT sẽ có thể đặt câu hỏi cho người dùng. Dựa vào những câu hỏi và chủ đề thường được đề cập, nó sẽ thực sự tò mò về người dùng. Không chỉ vậy, nó có thể hỏi về tình hình kinh tế thế giới, những phương pháp chữa ung thư mới nhất… Một hệ thống như vậy sẽ giống như Stack Overflow, Wikipedia và Reddit kết hợp lại – ngoại trừ việc, thay vì kiến thức được công khai, nó sẽ chỉ được tích lũy trong sự tự vận hành của một trí tuệ nhân tạo. Chỉ trong vài năm gần đây, chúng ta đã phát triển từ một thế giới trong đó AI chỉ đơn thuần phản hồi lại tri thức mà con người cho phép nó biết cho đến bây giờ, khi chúng có thể tự tổng hợp và tự củng cố tất cả những tri thức đang có trên internet. Trong tương lai, sau khi học cách rút ra những kiến thức mới từ chúng ta, có thể AI sẽ bắt đầu tạo ra một số kiến thức mới của riêng mình.

Quá trình này sẽ đưa chúng ta đến đâu? Stack Overflow đặc biệt vì nó rút ra những kinh nghiệm thực tế thông qua lập trình viên sử dụng, từ đó cô đọng và sắp xếp lại phần kiến thức ấy và tự học từ dữ liệu ấy. Tiếp tục phát triển, ta có thể tạo ra một AI khám phá các nguồn dữ liệu thông qua nói chuyện trực tiếp với các lập trình viên, từ đó tạo ra vô hạn các phiên bản tốt hơn của chính nó, cho đến khi nó tốt hơn Stack Overflow. Trong cuốn tiểu thuyết “The Diamond Age”, Neal Stephenson đã tưởng tượng ra một cuốn sách có trí tuệ nhân tạo tên “A Young Lady’s Illustrated Primer”; thực tế, đó chính là chatbot, được thiết kế đặc biệt để dạy cho nhân vật chính mọi thứ cô ấy cần biết, với những bài học luôn được trình bày ở cấp độ phù hợp với sự tò mò và năng lực của nhân vật chính. Nói cách khác, AI có thể tạo ra một chương trình giảng dạy hoàn hảo cho con người dựa trên kinh nghiệm chính nó đã tự học từ những phiên bản tốt hơn từng chút một của bản thân mình.

Một nguồn tài nguyên như vậy sẽ là một lợi ích lớn cho loài người. Kiến thức của nhân loại tăng lên mỗi giây, và theo một nghĩa nào đó, vượt qua tốc độ phát triển của internet hiện tại. Mặt khác, việc cung cấp cho mỗi người một người thủ thư thay vì cả thư viện có thể không phải là lựa chọn tốt, vì chúng ta sẽ không còn khả năng tự do đi lang thang trong vô vàn tri thức. Một thế giới trong đó AI sẽ là trung gian truyền đạt tri thức của toàn bộ vũ trụ đến con người có vẻ sẽ vừa thuận tiện và vừa đe doạ chính chúng ta.

Một thời kỳ hoàng kim của việc sản xuất kiến thức do con người lãnh đạo, được hỗ trợ bởi AI, sẽ có thể được mở ra trong tương lai gần, và nó sẽ tạo tiền đề cho sự phát triển không ngừng của AI. Chung quy lại, sẽ tốt hơn nếu có những mô hình tôn trọng kiến thức của con người và khuyến khích con người tìm đến tri thức mới, thay vì những mô hình coi con người chỉ là những nấc thang để đạt đến những tri thức mới mà nó muốn.

Dịch từ Newyorker

Bài viết AI sẽ tiếp tục “học” như thế nào? đã xuất hiện đầu tiên vào ngày ADuBiz.

Dữ liệu case study của emerald: tài nguyên hữu ích cho nghiên cứu và học tập

Lăng Uyển Nhi — Tue, 09 Apr 2024 04:22:00 +0000

Emerald publishing là một trong những nhà xuất bản hàng đầu trên thế giới chuyên cung cấp các tài liệu học thuật và nghiên cứu chuyên sâu trong nhiều lĩnh vực, bao gồm quản trị, kinh doanh, khoa học xã hội, giáo dục và các lĩnh vực khác. Một trong những sản phẩm nổi bật của Emerald là dữ liệu case study, một kho tàng phong phú các nghiên cứu tình huống (case study) được thực hiện tại các tổ chức và doanh nghiệp thực tế, giúp người học và các nhà nghiên cứu có được cái nhìn sâu sắc về các tình huống cụ thể trong ngành và lĩnh vực nghiên cứu.

Ảnh: Blog illustrations for Monograph via Behance | CC BY-NC-ND 4.0

Khái niệm và vai trò của case study trong nghiên cứu

Case study là một phương pháp nghiên cứu phổ biến, trong đó người nghiên cứu xem xét một tình huống cụ thể trong thế giới thực để hiểu rõ hơn về các yếu tố tác động, quy trình, kết quả và bài học rút ra. Các nghiên cứu tình huống có thể được áp dụng trong nhiều lĩnh vực, từ kinh doanh và quản trị cho đến y tế, giáo dục và công nghệ. Mục tiêu của việc sử dụng case study là cung cấp cho người học và các nhà nghiên cứu một cái nhìn trực quan và thực tế về cách lý thuyết được áp dụng trong các tình huống thực tế.

Emerald case study là một bộ sưu tập nghiên cứu tình huống, được phát triển bởi Emerald, nơi người dùng có thể truy cập vào hàng ngàn bài nghiên cứu từ các tổ chức và doanh nghiệp trên toàn cầu. Những case study này không chỉ mô tả các tình huống thực tế mà còn phân tích chi tiết các quyết định quản lý, giải pháp, cũng như kết quả và các yếu tố ảnh hưởng đến các quyết định đó.

Các lợi ích khi sử dụng dữ liệu case study của emerald

Tính thực tiễn cao

Một trong những ưu điểm nổi bật của Emerald case study là tính thực tiễn của các tình huống được nghiên cứu. Những nghiên cứu tình huống này được xây dựng từ các tình huống thực tế trong các tổ chức và doanh nghiệp, do đó người đọc có thể dễ dàng áp dụng các bài học rút ra vào các tình huống thực tế trong công việc, học tập hoặc nghiên cứu của mình.

Phân tích chi tiết

Mỗi case study của Emerald không chỉ đơn thuần kể lại câu chuyện mà còn đi sâu vào phân tích các yếu tố tác động đến kết quả. Người đọc sẽ được cung cấp thông tin về bối cảnh, các quyết định đã được đưa ra, các chiến lược và giải pháp được áp dụng, cũng như các kết quả đạt được. Các phân tích này giúp người học và các nhà nghiên cứu hiểu rõ hơn về quy trình ra quyết định trong thực tế.

Ứng dụng đa dạng

Emerald cung cấp các case study trong nhiều lĩnh vực khác nhau như quản trị kinh doanh, tiếp thị, chiến lược, quản lý nhân sự, hệ thống thông tin và nhiều lĩnh vực khác. Điều này giúp người dùng có thể dễ dàng tìm kiếm và lựa chọn các nghiên cứu tình huống phù hợp với nhu cầu nghiên cứu của mình. Các case study này không chỉ hữu ích cho sinh viên mà còn cho các nhà nghiên cứu, giảng viên, và chuyên gia trong ngành.

Hỗ trợ giảng dạy và học tập

Emerald cung cấp nhiều tài liệu bổ sung như câu hỏi thảo luận, bài tập nghiên cứu, và các hướng dẫn giảng dạy, giúp giảng viên dễ dàng tích hợp các case study vào các khóa học của mình. Các sinh viên có thể áp dụng lý thuyết học được vào các tình huống thực tế để phát triển kỹ năng phân tích và giải quyết vấn đề.

Khả năng tiếp cận mọi lúc, mọi nơi

Dữ liệu case study của Emerald được cung cấp dưới dạng trực tuyến, cho phép người dùng dễ dàng truy cập vào bất kỳ lúc nào và từ bất kỳ đâu. Điều này đặc biệt hữu ích đối với sinh viên và các nhà nghiên cứu có nhu cầu tìm kiếm tài liệu nghiên cứu chất lượng cao mà không bị giới hạn về địa lý hay thời gian.

Cách sử dụng dữ liệu case study của emerald

Để sử dụng dữ liệu case study của Emerald, người dùng có thể thực hiện theo các bước đơn giản sau:

Truy cập vào emerald insight

Để truy cập các nghiên cứu tình huống của Emerald, người dùng cần đăng nhập vào Emerald Insight, nền tảng cung cấp tất cả các tài liệu học thuật và nghiên cứu của Emerald. Đây là nơi bạn có thể tìm kiếm các nghiên cứu tình huống theo chủ đề, lĩnh vực, tổ chức, hoặc các từ khóa cụ thể.

Tìm kiếm và lọc kết quả

Emerald cung cấp một công cụ tìm kiếm mạnh mẽ cho phép người dùng tìm kiếm các case study theo các tiêu chí khác nhau, chẳng hạn như lĩnh vực nghiên cứu, năm xuất bản, tác giả, tổ chức, hoặc các chủ đề cụ thể.

Đọc và tải xuống case study

Sau khi tìm thấy nghiên cứu tình huống phù hợp, người dùng có thể đọc bản tóm tắt (abstract) hoặc tải xuống toàn bộ nghiên cứu tình huống (thường ở dạng pdf) để nghiên cứu chi tiết hơn.

Sử dụng case study trong nghiên cứu và giảng dạy

Các case study có thể được sử dụng để hỗ trợ trong việc giảng dạy, nghiên cứu hoặc làm bài tập nhóm. Người học có thể phân tích các tình huống, đưa ra các giải pháp thay thế, và thảo luận về các kết quả có thể đạt được trong các tình huống khác nhau.

Kết luận

Dữ liệu case study của Emerald là một nguồn tài liệu quý giá, cung cấp cho người học và các nhà nghiên cứu cái nhìn sâu sắc về các tình huống thực tế trong các tổ chức và doanh nghiệp. Các nghiên cứu tình huống này không chỉ giúp người dùng hiểu rõ hơn về các chiến lược và quyết định trong quản lý, mà còn phát triển các kỹ năng phân tích và giải quyết vấn đề. Với tính thực tiễn cao, tính ứng dụng đa dạng và sự hỗ trợ từ các công cụ trực tuyến, Emerald là một nguồn tài nguyên tuyệt vời cho bất kỳ ai đang tìm kiếm thông tin chất lượng trong các lĩnh vực nghiên cứu khác nhau.

Bài viết Dữ liệu case study của emerald: tài nguyên hữu ích cho nghiên cứu và học tập đã xuất hiện đầu tiên vào ngày ADuBiz.

Kho tàng tài liệu học thuật kỹ thuật số đứng trước nguy cơ thâm hụt

Đoàn Trà My — Wed, 27 Mar 2024 03:30:44 +0000

Trong quá khứ, việc lưu trữ các tài liệu học thuật phụ thuộc vào các bản in vật lý được lưu giữ bởi các cơ quan khác nhau ở nhiều nơi trên thế giới. Về nguyên tắc, việc lưu trữ kỹ thuật số cũng tương tự như vậy. Tuy nhiên, dựa trên một nghiên cứu sử dụng dữ liệu DOI của Crossref (Crossref là một tổ chức phi lợi nhuận về hạ tầng số mở dành cho cộng đồng nghiên cứu học thuật toàn cầu), Martin Eve tìm thấy bằng chứng cho thấy tiêu chuẩn hiện tại của việc lưu trữ kỹ thuật số có thể không đảm bảo được việc duy trì độ chính xác và ổn định các bản lưu tài liệu học thuật.

Chúng ta đã quen thuộc với sự sẵn có của các tài liệu học thuật kỹ thuật số. Hầu hết tất cả các tạp chí học thuật hiện nay đều có thể truy cập kỹ thuật số và việc chúng có sẵn trên mạng được coi là điều hiển nhiên.

Chúng ta cũng biết rằng toàn bộ tri thức trong nghiên cứu đều phụ thuộc vào tính liên tục có sẵn của các tài liệu. Như Anthony Grafton đã viết trong cuốn lịch sử về chú thích (footnote) của mình, ‘chú thích, mang tính phụ thuộc vào văn hóa và dễ sai sót, là cơ sở duy nhất chúng ta có thể dựa vào để tin tưởng và khẳng định rằng các quan điểm về quá khứ được trích dẫn từ những nguồn xác thực’. Tuy nhiên, nếu chúng ta không thể truy cập vào những nguồn thông tin đó một cách liên tục, thì chúng ta không thể tin tưởng vào nó.

Trong vai trò là Nhà phát triển R&D tại Crossref, Martin Eve đã tiến hành một thí nghiệm để xác định số lượng tài liệu học thuật kỹ thuật số được lưu trữ đầy đủ. Điều kiện của việc là thành viên Crossref và việc xác định mã định danh tài liệu số (DOI) là các nhà xuất bản phải cố gắng đảm bảo rằng tài liệu có mã DOI tương ứng được đặt ở các kho lưu trữ thuộc bên thứ ba.

Eve đã xem xét 7,5 triệu DOI và kiểm tra chúng tại danh mục tài liệu của các kho lưu trữ học thuật lớn: Cariniana, CLOCKSS, HathiTrust, Internet Archive/FATCAT, LOCKSS, PKP PLN, Portico và Scholars Portal. Hầu hết các kho lưu trữ này chỉ xác định rằng họ đã lưu giữ một Tập (volume) hoặc Số (issue) thay vì một tệp cụ thể , vì vậy Eve đã phải đối chiếu giữa siêu dữ liệu của tài liệu và thông tin của nơi chứa tài liệu theo kho lưu trữ cung cấp.

Tất nhiên, những kho lưu trữ này không toàn diện. Những tài liệu được kiểm tra hoàn toàn có thể xuất hiện ở các nơi khác, như Figshare, được hỗ trợ bởi hệ thống bảo tồn kỹ thuật số Chronopolis tại Đại học California, San Diego. Nhiều tài liệu cũng được lưu trữ trong các kho lưu trữ truy cập mở xanh. Tuy nhiên, những kho lưu trữ được nhắc tới ở trên đã cung cấp một bức tranh tương đối toàn cảnh để đánh giá tình hình.

Kết quả cho thấy một viễn cảnh không mấy khả quan cho nền tảng số của giới học thuật trong tương lai. Chỉ có 0,96% các thành viên của Crossref lưu trữ hơn 75% nội dung của họ trong 3 kho lưu trữ (được liệt kê ở trên) trở lên. Một tỷ lệ nhỏ hơn, 8,5%, lưu trữ hơn 50% nội dung của họ trong 2 kho lưu trữ hoặc nhiều hơn. Tuy nhiên, có nhiều thành viên (57,7%) chỉ đạt ngưỡng có 25% tài liệu của họ trong một kho lưu trữ duy nhất. Đáng lo ngại nhất là, theo bộ dữ liệu của Eve, có tới 32,9% thành viên Crossref không có bất kỳ phương thức lưu trữ kỹ thuật số đáng tin nào khác.

Hình 1: Tình trạng lưu trữ của các thành viên Crossref

Tình hình cũng không khá hơn khi xem xét bản thân các công trình. Trong tổng số 7.438.037 công trình được kiểm tra, có 5.913.102 bản lưu (preservation instances). Đây là một thuật ngữ chỉ số lượng bản sao được lưu trữ. Do đó, một tác phẩm được bảo quản trong ba kho lưu trữ sẽ có ba ‘bản lưu’.. Có 4.342.368 tài liệu được kiểm tra (chiếm 58,38% tổng số tài liệu) có ít nhất một bản lưu. Tuy nhiên, 2.056.492 tài liệu (27,64%) có vẻ như chưa được lưu trữ. 13,98% còn lại đã bị loại khỏi mẫu nghiên cứu hoặc do quá mới (được xuất bản trong năm nghiên cứu), không phải là bài báo tạp chí, hoặc không đủ dữ liệu ngày tháng để xác định nguồn gốc.

Một câu hỏi khác có thể nhận kỹ thuật số những kết quả trên là: Những kiểu thành viên Crossref nào lưu trữ tốt? Và những bên nào cần chú tâm hơn trong vấn đề này? Mặc dù các nhà xuất bản lớn với nguồn lực dồi dào thuộc danh mục thành viên Crossref có doanh thu cao nhất được trông đợi là sẽ có những phương thức lưu trữ tốt nhất nhưng chỉ một trong số họ (Elsevier) được cho là thực hiện tốt việc này. Trong khi đó, các thành viên ‘nhỏ hơn’ (kể cả những thành viên có doanh thu xuất bản khoảng 50 triệu USD) lại có kết quả tệ hơn. Cuối cùng, các nhà xuất bản có doanh thu xuất bản dưới 1 triệu USD khó đạt được mức độ lưu trữ tốt nhất.

Vậy, chúng ta có thể kết luận gì từ những điều trên? Năm 2005, Don Waters, Cán bộ Chương trình Cấp cao về Truyền thông Học thuật tại Quỹ Andrew W. Mellon đã biên tập một tuyên bố đồng thuận trong bản tin của Hiệp hội Thư viện Nghiên cứu, có tựa đề ‘Hành động Khẩn cấp Cần thiết để Bảo tồn các Tạp chí Học thuật kỹ thuật số’. Nhiều lời kêu gọi trong đó đã được chú ý; chúng ta có các kho lưu trữ có thể cung cấp mức độ dịch vụ tối thiểu và trên hết là một sơ đồ nhận dạng liên tục toàn diện. Những nỗ lực gần đây như Dự án JASPER cũng đã nhấn mạnh tầm quan trọng của việc lưu trữ trong thế giới mới của xuất bản truy cập mở.

Tuy nhiên, như nghiên cứu này cho thấy, tình trạng lưu trữ kỹ thuật số của các tạp chí vẫn còn rất mong manh vào năm 2024 và những lời kêu gọi chưa được đáp ứng đầy đủ. Một phần đáng kể, khoảng 28%, các bài báo trên tạp chí học thuật có mã DOI dường như không được bảo tồn, đe dọa cả hệ thống định danh liên tục và chuỗi trích dẫn có thể kiểm chứng mà chúng lẽ ra phải đảm bảo. Điều này xác nhận những phát hiện của các nghiên cứu khác đã xem xét về sự biến mất của các tạp chí truy cập mở.

Tất nhiên, đây không chỉ là vấn đề giới hạn trong các tạp chí học thuật; việc lưu trữ các tài nguyên kỹ thuật số đều đặt ra những thách thức. Sự sẵn có của tài liệu, một khía cạnh về lưu trữ được nghiên cứu trong bài viết này, cũng không phải vấn đề quan trọng nhất. Thật vậy, lưu trữ kỹ thuật số là một hoạt động liên tục do đó đòi hỏi phải tái đầu tư và tái tạo liên tục. Trong những năm tới, việc xem xét các tác động môi trường của chiến lược lưu trữ cũng sẽ rất nhận được nhiều sự quan tâm.

Mặc dù những thiếu sót trong việc lưu trữ khó có thể được giải quyết trong tương lai gần, nhưng việc hành động ngay bây giờ sẽ cải thiện tình hình và giúp bảo vệ tài liệu học thuật kỹ thuật số.

Lược dịch từ LSE

Bài viết Kho tàng tài liệu học thuật kỹ thuật số đứng trước nguy cơ thâm hụt đã xuất hiện đầu tiên vào ngày ADuBiz.