Ai đang nắm quyền kiểm soát trong kỉ nguyên AI? (Phần 2)

Sự trỗi dậy của các mô hình ngôn ngữ lớn (Large Language Models – LLMs) đang tái định hình lại quá trình tạo ra tri thức, và việc này đang tạo ra nhiều khoảng trống trong các hoạt động truyền thông và xuất bản nghiên cứu trên quy mô rộng. Dữ liệu khảo sát định tính từ 850 tác giả sách học thuật đến từ nhiều lĩnh vực và cơ quan khác nhau cho thấy mối lo ngại lớn về việc sử dụng trái phép các ấn phẩm khoa học có bản quyền để đào tạo AI. Hầu hết các tác giả này không phản đối việc sử dụng AI tạo sinh, nhưng họ đặc biệt nhấn mạnh các điều kiện về đồng thuận, ghi công, và bồi thường khi công trình của họ được sử dụng. Và trong khi những quan ngại về pháp lý liên quan đến việc sử dụng hợp lý (fair use) các nội dung còn bản quyền để huấn luyện LLMs còn đang diễn ra, các trường đại học và nhà xuất bản cần có những phương án chủ động xây dựng các khung cấp phép LLM minh bạch, đảm bảo tôn trọng quyền tác giả và xem xét đầy đủ các phương diện pháp lý, đạo đức và cả về mặt nhận thức luận. Bởi lẽ những điều này sẽ định hình tác quyền và tính liêm chính khoa học trong tương lai, cũng như niềm tin của công chúng về việc tri thức được tạo nên, tiếp cận và quản lý thể nào trong thời đại số. Bài chia sẻ trước đã thảo luận về kết quả khảo sát, bài đăng này sẽ đưa ra những khuyến nghị cho các bên liên quan.

Ảnh: Steve A Johnson on Unsplash | Unsplash License

Triển khai hoạt động hoạch định kịch bản với sự tham gia của đa dạng các bên liên quan.

Hiện nay, cộng đồng nghiên cứu vẫn đang tháo gỡ các vấn đề phức tạp liên quan đến huấn luyện AI sử dụng các nội dung đã công bố và dữ liệu nghiên cứu, cùng với đó là sự cấp bách để giải quyết các quan ngại liên quan đến việc sử dụng nội dung không được cấp phép cùng với nhu cầu huấn luyện mô hình sử dụng các nguồn thông tin đáng tin cậy. Trong bối cảnh đó, nghiên cứu từ các bên liên quan là cần thiết để làm sáng tỏ những vấn đề về pháp lý, đạo đức và tính ứng dụng cũng như đưa ra những chỉ dẫn ban đầu. Và lý tưởng nhất, những nghiên cứu này sẽ cần tính toán đến nhiều viễn cảnh, hướng đi và những ảnh hưởng mô hình lâu dài để có thể đưa ra những khuyến nghị về việc sử dụng nội dung khoa học và học thuật.

Ủng hộ cơ chế cấp phép dựa trên sự đồng thuận của tác giả

Quyền quyết định đối với cách thức tác phẩm được sử dụng thế nào cần phải thuộc về tác giả. Điều đó được chỉ ra rõ trong khảo sát khi phần lớn các tác giả đều ủng hộ cơ chế cấp phép dựa trên sự đồng thuận, với xu hướng ưu tiên mô hình “opt-in”, nghĩa là tác giả phải tự nguyện đồng ý thì hệ thống mới được sử dụng tác phẩm và dữ liệu đó vào việc đào tạo dữ liệu. Bên cạnh đó, chúng tôi cũng khuyến nghị áp dụng mô hình “opt-in” mặc định với các thỏa thuận cấp phép sách, ít nhất cho đến khi những khúc mắc về các tác động dài hạn được làm rõ. Còn trong trường hợp buộc phải áp dụng cơ chế “opt-out” thì sao? Câu trả lời là cần phải đảm bảo quy trình này được hiển thị rõ ràng và dễ tiếp cận, bởi cơ chế này này có thể sẽ dẫn đến tình trạng thiếu sự đồng thuận thực chất khi người dùng không tìm thấy phương án từ chối hoặc không biết rằng mình có quyền từ chối.

Thiết lập các thoả thuận hợp tác ngắn hạn

Trong bối cảnh AI tạo sinh đang phát triển rất nhanh, những bên liên quan nên thiết lập các thỏa thuận ngắn hạn, có thể được đàm phán lại tại những mốc thời điểm được lên kế hoạch trước (ví dụ, mỗi hai năm một lần). Ngoài ra, việc thiết lập các cơ chế kiểm soát nhằm đảm bảo các bên sử dụng dữ liệu phải tuân thủ đúng phạm vi được cấp phép cũng vô cùng quan trọng.

Yêu cầu mọi đầu ra của LLM có ghi nhận nguồn

Các đối tác phát triển AI cần phải xây dựng hệ thống có khả năng truy xuất nguồn gốc, đồng thời đầu tư vào hạ tầng theo dõi nguồn gốc như gắn thẻ siêu dữ liệu (Metadata tagging), hoặc đồ thị tri thức (Knowledge graphs). Thay vì chỉ dạy AI học vẹt từ dữ liệu cũ (pre-training), nên ưu tiên các phương pháp như Truy xuất thông tin thực tế (Retrieval-Augmented Generation – RAG) hoặc Giao thức Ngữ cảnh Mô hình (Model Context Protocols – MCP). Điều này giúp AI trích dẫn nguồn tài liệu đáng tin cậy hơn, đồng thời giúp tác giả dễ dàng thay đổi hoặc gỡ bỏ dữ liệu nếu sau này các điều khoản bản quyền có sự thay đổi..

Sàng lọc đối tác AI ở khía cạnh trách nhiệm xã hội và môi trường

Có nhiều tổ chức quan tâm đến việc cấp phép sử dụng các công trình khoa học và học thuật, nhưng mức độ cam kết của họ với các giá trị hướng đến lợi ích xã hội là khác nhau. Bởi vậy các bên liên quan cần xem xét các tác động liên quan đến môi trường (ví dụ như ảnh hưởng tới khí hậu) và cam kết hướng tới cộng đồng của các đối tác phát triển AI. Quan trọng không kém cũng cần phải cân nhắc đến liệu rằng các mô hình AI họ đang phát triển có dễ dàng tiếp cận tới các cộng đồng khác nhau hay không? Và liệu chi phí để những cộng đồng này tiếp cận tới công nghệ của các công ty này có phù hợp hay không? Những tiêu chí, băn khoăn này nên được đưa vào như thước đo đánh giá trong Hồ sơ mời đề xuất  (Requests for Proposals – RFPs) và rất cần được thảo luận trong quá trình đàm phán cấp phép.

Quyền lợi pháp lý của tác giả cần được minh bạch

Nguyên tắc sử dụng hợp lý (fair use) theo luật bản quyền Hoa Kỳ cho phép sử dụng các tài nguyên có bản quyền mà không cần xin phép cho một số mục đích như phê bình, bình luận, đưa tin, giảng dạy, học thuật, nghiên cứu hoặc châm biếm, ở một mức độ giới hạn nhất định. Vì vậy, cần làm rõ với các tác giả rằng việc huấn luyện LLM hiện vẫn đang nằm trong “vùng xám” pháp lý, bởi những mô hình này có thể  tạo ra những nội dung có thể cạnh tranh trực tiếp trên thị trường với chính nội dung gốc mà chúng đã học theo. Và do đó, luật pháp sẽ phải quyết định việc sử dụng này có thuộc dạng fair use không tuỳ vào từng trường hợp cụ thể, tuỳ vào phân tích các tác động thương mại tới tác giả và những nhà sở hữu nội dung ở mỗi trường hợp.

Một băn khoăn cũng lớn không kém đó là liệu huấn luyện LLM có thể được bảo vệ cùng logic pháp lý với khai thác văn bản và dữ liệu (text and data mining – TDM) hay không? Chúng ta biết rằng TDM là trường hợp ngoại lệ về “sử dụng mang tính biến đổi” (transformative use) để được miễn trừ vi phạm bản quyền. Tuy nhiên hãy nhớ rằng hai thực hành này có thể trông giống nhau, nhưng chúng phục vụ mục tiêu khác nhau. Mỗi thực hành sử dụng các kỹ thuật xử lý dữ liệu, thuật toán, nguồn lực tính toán, mô hình học và đầu ra sản phẩm cũng rất riêng.

Kết luận

Trong kỉ nguyên LLM đang phát triển một cách chóng mặt, nhiều câu hỏi đang được đặt ra về việc tiếp cận những tri thức đáng tin cậy và cả những phương pháp sản xuất các tri thức mới. Đáng chú ý nhất cần kể đến việc những mô hình LLMs phổ biến nhất là những mô hình đang thu phí người dùng) và cũng chính là những bên được cho là thiếu minh bạch nhất. Việc sử dụng hàng loạt các công trình đã xuất bản để huấn luyện LLM còn làm gia tăng sâu hơn tư nhân hoá tri thức. Không thể phủ nhận rằng dữ liệu huấn luyện chất lượng cao có thể cải thiện hiệu suất mô hình, nhưng cũng cần nhớ rằng LLMs vẫn có những giới hạn nhất định như dễ bị thao túng, dễ thiên lệch và có thể can thiệp vào chính các nội dung dữ liệu. Thêm vào đó, chưa có bằng chứng thuyết phục cho thấy hiện tượng “ảo giác” của LLMs có thể được cải thiện khi sử dụng nội dung huấn luyện chất lượng cao hơn.Khẩu hiệu “đầu vào chất lượng, đầu ra sẽ chất lượng”  (quality in, quality out) vốn thường được dùng trong các thảo luận về huấn luyện LLM, có vẻ chỉ là một biện minh đạo đức để sử dụng các công bố khoa học cho việc huấn luyện mà không cần xin phép.. Nhiều người cho rằng hiện tượng ảo giác của LLM mang tính chất đặc thù hệ thống hơn là lỗi kỹ thuật đơn thuần.

Vậy chúng ta cần làm gì để giảm thiểu những rủi ro kể trên? Trước nhất, cộng đồng học thuật cần chủ động tham gia vào việc thiết kế các công nghệ AI tạo sinh, phối hợp với các bên có chuyên môn pháp lý và tổ chức để xây dựng các chính sách dựa trên bằng chứng, nhằm củng cố hệ sinh thái nghiên cứu. Những quyết định ở cấp độ tổ chức liên quan đến AI tạo sinh cũng cần phải có mô hình hoá kịch bản một cách chủ động, tránh những rủi ro có thể phát sinh từ việc bỏ qua những yếu tố quan trọng, nền tảng do tính phức tạp hay chỉ tập trung vào lợi ích ngắn hạn. Một bài học xương máu mà chúng ta đã học được gần đây liên quan đến truy cập mở (open access) – khi mục đích ban đầu là mở rộng khả năng tiếp cận tri thức đã bị lợi dụng, biến thành tư nhân hóa và thương mại hoá xuất bản khoa học và học thuật. Đây chính là hậu quả dễ thấy nhất của việc hoạch định chính sách chưa đầy đủ, và phần nào việc này đã thúc đẩy thị trường tạp chí xuất bản thay đổi quá nhanh thay vì để nó tiến hóa dần dần.

Cuối cùng thì cách thức và điều kiện để đưa các công trình khoa học và học thuật đã xuất bản vào huấn luyện các mô hình ngôn ngữ lớn (LLM) không chỉ đơn thuần là một cuộc tranh luận về bản quyền, bởi có thể vấn đề này không chỉ nằm ở việc quản trị bằng học thuyết hiện hành và các phán quyết pháp lý. Sâu hơn nữa, đây là câu hỏi về ai là người định nghĩa và kiểm soát những gì được coi là tri thức đáng tin cậy trong thời đại số. Sự tương ứng không chính xác giữa ngôn từ và ý nghĩa của chúng từ lâu đã là một lĩnh vực nghiên cứu học thuật, và LLM vừa làm trầm trọng hóa, vừa làm lu mờ vấn đề này. Nếu cộng đồng học thuật không hành động, chúng ta sẽ góp phần làm sâu sắc thêm khoảng cách giữa truyền thông và sự thật, đồng thời, đối mặt với nguy cơ để cho công trình của các nhà khoa học và học giả bị chiếm dụng bởi các tổ chức tư nhân, những bên không có trách nhiệm giải trình với sứ mệnh của các tổ chức nghiên cứu. 

Như một tác giả đã nhận định: “Tại sao tôi lại muốn làm giàu cho các nền tảng công nghệ khổng lồ của Mỹ trong khi tôi không nhận lại được lợi ích gì cho bản thân mình? Các nhà xuất bản như MIT Press rất mạnh. Thực tế họ nắm giữ vị trí trung tâm, họ sở hữu dữ liệu huấn luyện chất lượng cao cho mô hình của họ, thứ mà các công ty như OpenAI khao khát có được. Điều này không chỉ mang lại cho họ lợi nhuận… mà còn trao cho họ khả năng và quyền định hình tương lai mà chúng ta sẽ buộc phải sống trong đó.”

Vậy thì để xây dựng các hệ thống AI mới hỗ trợ việc sản xuất tri thức đáng tin cậy, dễ tiếp cận và có thể kiểm chứng, các lãnh đạo đại học, nhà xuất bản và các bên liên quan khác cần hành động nhanh chóng. Các bên cần phối hợp với nhau nhằm xây dựng các khung chính sách bảo vệ lợi ích của tác giả, duy trì tính liêm chính của khoa học và học thuật, cũng như gìn giữ tương lai của tri thức.

Dịch từ Scholarly Kitchen

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm