Ai sẽ kiểm soát tri thức trong thời đại của trí tuệ nhân tạo?

Ảnh: Igor Omilaev on Unsplash | Unsplash License

Bối cảnh

Sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) đang tái định hình quy trình sản xuất tri thức, đồng thời đặt ra những thách thức cấp bách cho lĩnh vực truyền thông nghiên cứu và xuất bản. Dựa trên khảo sát định tính từ hơn 850 tác giả sách học thuật, chúng tôi ghi nhận làn sóng quan ngại sâu sắc về việc sử dụng trái phép các ấn phẩm có bản quyền để huấn luyện các công cụ trí tuệ nhân tạo (AI). Dù không phản đối AI tạo sinh, phần lớn tác giả khẳng định rằng 3 yếu tố là (1) sự đồng thuận, (2) ghi công và (3) bồi thường là những điều kiện không thể thương lượng. Trong khi cuộc chiến pháp lý về việc liệu việc huấn luyện mô hình ngôn ngữ lớn (LLM) trên nội dung có bản quyền có được xem là “sử dụng hợp lý” hay không vẫn chưa có hồi kết, các đại học và nhà xuất bản phải chủ động thiết lập khung cấp phép minh bạch, đảm bảo hài hòa các yếu tố pháp lý, đạo đức và nhận thức luận. Những quyết định này không chỉ định hình tương lai của quyền tác giả mà còn củng cố niềm tin của công chúng vào cách tri thức được tạo ra và quản trị trong kỷ nguyên số.

Các tổ chức nghiên cứu hiện đang đứng giữa ranh giới của tiềm năng đột phá và những hiểm họa khôn lường. Một mặt, LLM hứa hẹn cách mạng hóa khám phá khoa học; mặt khác, chúng đe dọa trực tiếp đến tính liêm chính của nội dung và quyền lợi của người sáng tạo. Trong bối cảnh niềm tin vào các định chế đang suy giảm và vấn nạn tin giả bủa vây, câu hỏi cốt lõi đặt ra là: Làm thế nào chúng ta có thể tạo dựng niềm tin và kiểm chứng các tuyên bố được đưa ra, bao gồm cả các tuyên bố khoa học? Sau cùng, ai sẽ là người nắm giữ vận mệnh của tri thức nhân loại?

Nghiên cứu được tiến hành

Để trả lời cho câu hỏi trên, vào cuối năm 2024, nhà xuất bản MIT Press đã thực hiện cuộc  khảo sát với sự tham gia của 6.000 tác giả về quan điểm huấn luyện LLM, thu về hơn 850 phản hồi định tính từ các học giả toàn cầu, đặc biệt là nhóm ngành STEAM. Mục tiêu cốt lõi của cuộc khảo sát là định hướng chính sách cấp phép và hợp tác của các nhà xuất bản, đảm bảo sự tương thích với lợi ích của những tác giả của các công trình chuyên khảo. Các phản hồi ẩn danh từ các đáp viên cho thấy một làn sóng bất bình sâu sắc trước thực trạng dữ liệu bị khai thác tràn lan mà không có sự cho phép. Nhiều tác giả coi việc huấn luyện trên nội dung có bản quyền là hành vi bóc lột thương mại, đồng thời cảnh báo rằng sự phát triển không kiểm soát của LLM đang đe dọa trực tiếp đến sứ mệnh theo đuổi chân lý của các nghiên cứu. Dù vậy, đa số vẫn ủng hộ các quan hệ đối tác được kiểm soát chặt chẽ giữa các nhà xuất bản học thuật với các nhà phát triển mô hình LLM, với điều kiện các tiêu chuẩn về minh bạch, ghi công và đồng thuận phải được tôn trọng. Các điều kiện cũng bao gồm bồi thường công bằng, không chỉ vì lợi ích cá nhân mà còn nhằm duy trì sự tồn tại của các nhà xuất bản học thuật phi lợi nhuận như các nhà xuất bản đại học và hiệp hội khoa học. Dù tính pháp lý của việc thu thập dữ liệu không phép vẫn đang chờ phán quyết từ tòa án, nhưng những hệ lụy về mặt nhận thức luận đã hiện hữu. Tác giả không đơn thuần là “người sản xuất nội dung”; họ còn là những người kiến tạo nên các sản phẩm diễn giải nguyên bản về thế giới ví dụ như một cuốn sách mang lại chiều sâu nhận thức mà các nền tảng mạng xã hội không bao giờ chạm tới được. Sau cùng, giới học giả mong muốn khai thác tiềm năng của AI nhưng không chấp nhận đánh đổi động lực sáng tạo các tác phẩm trí tuệ có chiều sâu.

Nghiên cứu đã cho thấy kết quả là một thái độ nhất quán: các tác giả không bài trừ AI tạo sinh, nhưng họ phản đối kịch liệt các mô hình khai thác dữ liệu không kiểm soát, đồng thời lo ngại về hệ lụy lâu dài của trí tuệ nhân tạo đối với hệ sinh thái khoa học. Một bộ phận tác giả thể hiện thái độ đặc biệt gay gắt qua những phản hồi như: “Tuyệt đối không!” hay “Tôi cực kỳ phản đối việc chiếm dụng tác phẩm của mình theo cách này.” Những hoài nghi này tập trung vào ba nhóm vấn đề chính. Thứ nhất là độ tin cậy khi LLM bị coi là những cỗ máy tạo “ảo giác”, sản sinh nội dung mơ hồ và sai lệch. Thứ hai là về môi trường khi việc sử dụng và vận hành các mô hình LLM tiêu thụ tài nguyên nước khổng lồ và đẩy nhanh biến đổi khí hậu. Thứ ba là đạo đức nghiên cứu việc ứng dụng LLM cho thấy sự thiếu đảm bảo rằng đầu ra của AI sẽ tuân thủ các chuẩn mực đạo đức mà giới học giả đang theo đuổi. Thứ tư là nhận thức luận với nguy cơ tri thức bị “làm phẳng”. Một tác giả cảnh báo: “Sự tập trung và chiều sâu của con người bị xóa nhòa; các ý tưởng cốt lõi bị nhào nặn lẫn lộn, làm mất đi mọi sắc thái tinh tế”. 

Trong khi đó, có tới 50% tác giả sẵn sàng ủng hộ cấp phép nếu được đảm bảo về bồi thường phù hợp và ghi nhận tác giả. Một số chấp nhận trong sự cam chịu vì coi đây là xu thế tất yếu; số khác lại lạc quan hơn, xem đây là cơ hội để lan tỏa ý tưởng vào “ngân hàng tri thức toàn cầu”, nâng cao chất lượng AI hoặc tạo ra nguồn thu mới cho các nhà xuất bản học thuật. Đặc biệt, chỉ 3% tác giả ủng hộ việc khai thác hoàn toàn không kiểm soát và 3% khác chấp nhận sử dụng không thù lao (miễn là được ghi danh). Những người này tin rằng huấn luyện AI thuộc phạm vi “sử dụng hợp lý” (fair use) và mong muốn ý tưởng của mình được lan tỏa rộng rãi nhất có thể trong di sản tri thức nhân loại. 

Trong số các vấn đề được nêu ra, vấn đề ghi nhận tác quyền được cho là vấn đề không thể thương lượng. Ghi công (attribution) không chỉ là vấn đề danh tiếng cá nhân mà còn là cơ chế cốt lõi để xác lập tính hợp lệ của tri thức học thuật. Dù là chuẩn mực tối thiểu trong các giấy phép mở như CC BY, việc ghi công lại là một thách thức kỹ thuật đối với LLM. Các phương thức huấn luyện tiêu chuẩn hiện nay thường trộn lẫn dữ liệu khiến việc truy xuất nguồn gốc trở nên bất khả thi. Các tác giả yêu cầu các nhà cung cấp LLM phải áp dụng các giải pháp như RAG (Retrieval-Augmented Generation) để gắn nội dung phản hồi với nguồn cụ thể. Họ khẳng định: AI phải tuân thủ các tiêu chuẩn ghi công và chống đạo văn nghiêm ngặt như con người. Ngược lại, nhiều học giả hoài nghi rằng bản chất xác suất của LLM, vốn chỉ nối các từ theo thuật toán, sẽ mãi mãi không bao giờ đạt được sự kiểm soát chất lượng như một văn bản học thuật đích thực. Bên cạnh đó, nhiều ý kiến lo ngại AI tạo sinh sẽ làm triệt tiêu động lực sáng tạo, khiến tác giả trở nên “dư thừa” và làm trầm trọng thêm sự bất bình đẳng trong ngành xuất bản. Giới học giả chỉ trích việc các tập đoàn công nghệ thu lợi khổng lồ từ dữ liệu nghiên cứu (vốn được tài trợ bởi ngân sách công) trong khi người dùng phải trả tiền để tiếp cận dịch vụ của họ. Các mô hình thù lao được đề xuất rất đa dạng: từ thanh toán một lần, phí cấp phép hàng năm đến chia sẻ lợi nhuận. Mức kỳ vọng dao động từ vài xu lẻ đến hàng trăm nghìn đô la mỗi đầu sách. Tuy nhiên, mục tiêu chung vẫn là đảm bảo bồi thường công bằng để duy trì các nhà xuất bản đại học và hiệp hội khoa học, những định chế vốn đang đối mặt với nhiều khó khăn tài chính.

Những nghi vấn cần được giải quyết 

Dù mục tiêu chính của khảo sát là về cơ chế cấp phép, các tác giả đã mở rộng thảo luận sang hàng loạt vấn đề mang tính hệ thống: từ việc thông tin sai lệch làm xói mòn hệ sinh thái tri thức, chi phí môi trường của LLM, cho đến những thách thức về đạo đức nghiên cứu và nguy cơ đào sâu bất bình đẳng kinh tế. Dẫu vậy, một luồng quan điểm lạc quan vẫn tồn tại: sách học thuật có thể trở thành nguồn lực quý giá cho công nghệ mới, miễn là các nhà xuất bản thiết lập được các quan hệ đối tác chiến lược, bảo vệ thỏa đáng lợi ích của giới trí thức và các định chế nghiên cứu.

Tuy vậy, hiện vẫn chưa có sự thống nhất về một khuôn khổ pháp lý tối ưu để bảo vệ quyền lợi tác giả. Các ý kiến chia làm hai thái cực: một bên kiên quyết yêu cầu luật bản quyền phải ngăn chặn việc thương mại hóa nội dung cho các công ty AI; bên kia lại sẵn sàng chia sẻ tài nguyên không vụ lợi. Trong khi chờ đợi phán quyết từ tòa án về khái niệm “sử dụng hợp lý”, ranh giới giữa bảo hộ và chia sẻ vẫn là một chủ đề gây tranh cãi gay gắt. Tương tự, mô hình Truy cập Mở (Open Access) cũng trở thành tâm điểm của sự bất đồng. Nhiều học giả phản đối quan điểm cho rằng tài liệu mở thì mặc nhiên được phép dùng để huấn luyện LLM mà không cần ràng buộc. Họ nhấn mạnh rằng các mô hình AI phải tuân thủ nghiêm ngặt các điều khoản ghi nhận nguồn của giấy phép mở, điều mà hầu hết các nền tảng hiện nay đều phớt lờ. Như một tác giả đã khẳng định sắc sảo: “Truy cập mở không đồng nghĩa với việc mở cửa cho hành vi chiếm đoạt ý tưởng hay tước đoạt công lao”.

Dịch từ Scholarly Kitchen

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm