Các nhà phát triển trí tuệ nhân tạo đang mua quyền truy cập vào các tập dữ liệu quan trọng chứa các bài báo nghiên cứu – điều này đặt ra nhiều câu hỏi đáng lo ngại về vấn đề bản quyền.
Các nhà xuất bản khoa học đang bán quyền truy cập vào các bài nghiên cứu của các nhà khoa học cho các công ty công nghệ để họ có thể sử dụng những bài báo này để huấn luyện các phần mềm trí tuệ nhân tạo (AI). Điều này khiến nhiều nhà khoa học cảm thấy không hài lòng vì họ cho rằng việc làm này được thực hiện khi họ không cho phép. Việc sử dụng các bài báo khoa học để huấn luyện AI đang đặt ra nhiều câu hỏi về việc liệu có vi phạm bản quyền hay không, đặc biệt là khi ngày càng có nhiều phần mềm trò chuyện thông minh (chatbot) được phát triển dựa trên AI.
Các chuyên gia dự đoán rằng hầu hết các bài nghiên cứu khoa học sẽ sớm được sử dụng để huấn luyện một mô hình ngôn ngữ lớn (LLM). Các nhà khoa học đang tìm cách để bảo vệ quyền lợi của mình và đảm bảo rằng các công trình của họ được sử dụng một cách công bằng và minh bạch.
Tháng trước, nhà xuất bản học thuật của Anh, Taylor & Francis, đã bán một lượng lớn dữ liệu của họ cho Microsoft với giá 10 triệu đô la, Microsoft sẽ dùng dữ liệu này để cải thiện các phần mềm trí tuệ nhân tạo của mình. Và vào tháng 6, một nhà xuất bản khác là Wiley đã kiếm được 23 triệu đô la khi cho phép một công ty công nghệ lớn sử dụng nội dung của họ để huấn luyện các mô hình AI.
Lucy Lu Wang, một nhà nghiên cứu AI tại Đại học Washington Ở Seattle, cho biết hầu hết mọi thứ chúng ta đọc trực tuyến, dù là trên các kho lưu trữ truy cập mở hay các kho lưu trữ khác, đều có khả năng đã được đưa vào một LLM. Một khi một bài báo đã được sử dụng để huấn luyện một AI, chúng ta không thể xóa nó ra khỏi mô hình AI đó nữa.
Bộ dữ liệu lớn
LLM học hỏi từ một lượng lớn dữ liệu thu thập được từ Internet. Chúng phân tích và tìm ra các mẫu trong hàng tỷ từ và cụm từ để có thể tạo ra văn bản một cách trôi chảy và tự nhiên.
Các phần mềm trí tuệ nhân tạo sáng tạo học hỏi từ một lượng lớn dữ liệu để tạo ra văn bản, hình ảnh hoặc thậm chí là các đoạn mã máy tính. Các bài báo khoa học rất hữu ích cho việc huấn luyện LLM bởi vì chúng chứa nhiều thông tin quan trọng và được viết rất chi tiết. Stefan Baack, một chuyên gia về trí tuệ nhân tạo, cho biết các bài báo khoa học là nguồn dữ liệu rất giá trị để phát triển các phần mềm này.
Khi được huấn luyện với một lượng lớn bài báo khoa học, các phần mềm trí tuệ nhân tạo có thể hiểu và suy luận về các vấn đề khoa học tốt hơn. Giáo sư Wang, người đã tạo ra một bộ dữ liệu khổng lồ gồm hàng triệu bài báo khoa học, cho biết việc huấn luyện LLM trên bộ dữ liệu này giúp chúng trở nên thông minh hơn trong việc tìm kiếm thông tin và hiểu ý nghĩa của các bài báo.
Ngày càng có nhiều công ty lớn mua lại những bộ dữ liệu chất lượng cao để phát triển trí tuệ nhân tạo. Ví dụ, Financial Times đã bán thông tin của họ cho OpenAI (công ty tạo ra ChatGPT) và Reddit cũng đã bán cho Google. Các công ty này muốn sử dụng những dữ liệu này để cải thiện các sản phẩm AI của mình. Đây là một xu hướng mới và có thể sẽ còn nhiều giao dịch tương tự như vậy trong tương lai. Các nhà xuất bản khác cũng đang cân nhắc việc bán dữ liệu của mình để tránh trường hợp bị người khác lấy cắp thông tin một cách trái phép.
Thông tin bí mật
Nhiều công ty phát triển các mô hình AI rất kín tiếng về nguồn dữ liệu mà họ sử dụng để huấn luyện AI. Họ thường không công khai danh sách các bài báo khoa học đã được sử dụng để tạo nên AI của mình. Điều này khiến chúng ta khó biết chính xác những thông tin nào đã được AI học hỏi. Baack nói rằng: “Chúng ta không biết có gì trong đó”.
Các nhà khoa học đã phát hiện ra rằng các công ty này thường lấy thông tin từ các kho lưu trữ mở như arXiv và PubMed, nhưng cũng có thể lấy trộm thông tin từ các bài báo trả phí. Việc xác định chính xác một bài báo cụ thể có được sử dụng để huấn luyện AI hay không là rất khó. Tuy nhiên, các nhà khoa học đã tìm ra một số cách để kiểm tra, chẳng hạn như so sánh câu văn trong bài báo với câu trả lời của AI.
Một cách khác để kiểm tra xem một bài báo có được sử dụng để huấn luyện một mô hình AI hay không là sử dụng một kỹ thuật gọi là “tấn công suy luận thành viên’. Ý tưởng của phương pháp này rất đơn giản: Khi một mô hình AI được hỏi về một điều mà nó đã từng được học, nó sẽ trả lời một cách tự tin hơn. Nhóm của De Montjoye đã phát triển một phương pháp đặc biệt gọi là “bẫy bản quyền”, để áp dụng kỹ thuật này cho các LLM.
Để tạo ra một cái bẫy, các nhà nghiên cứu đã nghĩ ra những câu văn nghe có vẻ hợp lý nhưng thực ra lại vô nghĩa. Sau đó, họ giấu những câu này vào trong một lượng lớn văn bản, ví dụ như viết bằng màu trắng trên nền trắng hoặc ẩn đi ở những vị trí mà mắt thường không nhìn thấy được. Nếu một LLM cảm thấy “bối rối” hơn khi gặp phải một câu chưa từng xuất hiện so với một câu đã bị giấu đi, điều đó có nghĩa là mô hình này đã từng “nhìn thấy” những câu bị giấu trước đây “đó là bằng chứng thống kê cho thấy các bẫy đã được nhìn thấy trước đó”, ông nói.
Câu hỏi về bản quyền
Ngay cả khi chúng ta có bằng chứng cho thấy một LLM lớn đã được “học” từ một văn bản cụ thể, việc xác định xem điều này có vi phạm bản quyền hay không vẫn còn gây tranh cãi. Các nhà xuất bản cho rằng việc sử dụng văn bản có bản quyền để huấn luyện AI mà không xin phép là vi phạm luật. Tuy nhiên, một số người lại cho rằng LLM không hề “sao chép” nguyên văn mà chỉ “học hỏi” và ‘sáng tạo’ ra những thứ mới dựa trên những gì chúng đã học được.
Kiện tụng có thể giúp giải quyết vấn đề này. Một vụ kiện quan trọng đang diễn ra giữa tờ báo New York Times và các công ty Microsoft và OpenAI. Tờ báo này cáo buộc hai công ty trên đã sử dụng các bài báo của họ để huấn luyện các phần mềm trí tuệ nhân tạo của mình mà không xin phép. Vụ kiện này có thể tạo ra một tiền lệ quan trọng cho các vụ kiện tương tự trong tương lai.
Nhiều nhà nghiên cứu rất vui khi thấy tác phẩm của mình được được đưa vào dữ liệu đào tạo LLM, đặc biệt là khi điều này giúp cho các phần mềm này trở nên thông minh hơn. “Cá nhân tôi không cảm thấy phiền nếu có một phần mềm chat viết theo phong cách của tôi”, Baack chia sẻ. Tuy nhiên, ông cũng thừa nhận rằng công việc của các nhà nghiên cứu như ông không bị đe dọa nhiều bằng các nghề khác như nghệ sĩ hay nhà văn, những người có thể bị ảnh hưởng bởi sự phát triển của trí tuệ nhân tạo.
Các nhà khoa học cá nhân hiện nay không có nhiều quyền kiểm soát tác phẩm của mình. Nếu nhà xuất bản quyết định bán quyền truy cập vào bài báo của họ, các nhà khoa học gần như không có cách nào để ngăn cản. Hơn nữa, khi một bài báo được công khai, rất khó để biết chính xác bài báo đó đã được sử dụng như thế nào và ai đã sử dụng nó.
Một số nhà nghiên cứu, trong đó có de Montjoye, cảm thấy thất vọng. Họ muốn có những phần mềm trí tuệ nhân tạo thông minh, nhưng đồng thời cũng muốn chúng phải công bằng và minh bạch. Tuy nhiên, đến thời điểm hiện tại, chúng ta vẫn chưa tìm ra được cách để làm được điều đó.
Dịch từ Nature
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.