
Lưu ý: Bài viết này được dịch hoàn toàn bởi Gemini và không đi qua khâu hiệu đính.
Các chương trình tự động thu thập dữ liệu để huấn luyện các công cụ trí tuệ nhân tạo đang làm quá tải các trang web học thuật.
Vào tháng 2 vừa qua, trang web lưu trữ hình ảnh trực tuyến DiscoverLife, nơi chứa gần ba triệu bức ảnh về các loài khác nhau, đã bắt đầu nhận hàng triệu lượt truy cập mỗi ngày – cao hơn rất nhiều so với bình lượng bình thường. Đôi khi, lượng truy cập tăng vọt này cao đến mức làm chậm trang web khiến nó không thể sử dụng được. Thủ phạm ư? Chính là các bot.
Các chương trình tự động này, với mục đích “cào” một lượng lớn nội dung từ các trang web, đang ngày càng trở thành vấn đề đau đầu đối với các nhà xuất bản học thuật và các nhà nghiên cứu đang quản lý các trang web lưu trữ các bài báo, cơ sở dữ liệu và các tài nguyên khác.
Phần lớn lưu lượng truy cập của bot đến từ các địa chỉ IP ẩn danh, và sự gia tăng đột ngột này đã khiến nhiều chủ sở hữu trang web nghi ngờ rằng các công cụ web-scraping này đang thu thập dữ liệu để huấn luyện các công cụ trí tuệ nhân tạo (AI) tạo sinh như chatbot và công cụ tạo ảnh.
“Hiện tại đang là thời kỳ hỗn loạn,” Andrew Pitts, giám đốc điều hành của PSI, một công ty ở Oxford, Anh, chuyên cung cấp kho lưu trữ toàn cầu các địa chỉ IP đã được xác thực cho cộng đồng truyền thông học thuật, cho biết. “Vấn đề lớn nhất là lượng yêu cầu truy cập trang web quá lớn, điều này đang gây áp lực lên hệ thống của họ. Nó tốn kém và gây gián đoạn cho người dùng thực.”
Những người quản lý các trang web bị ảnh hưởng đang tìm cách chặn các bot và giảm thiểu sự gián đoạn mà chúng gây ra. Nhưng đây không phải là một nhiệm vụ dễ dàng, đặc biệt đối với các tổ chức có nguồn lực hạn chế. Michael Orr, một nhà động vật học tại Bảo tàng Lịch sử Tự nhiên Bang Stuttgart ở Đức, nói: “Những dự án nhỏ hơn này có thể biến mất nếu những vấn đề kiểu này không được giải quyết.”
Lũ lụt Bot
Bot internet đã xuất hiện từ hàng thập kỷ nay, và một số thì hữu ích. Ví dụ, Google và các công cụ tìm kiếm khác có bot quét hàng triệu trang web để xác định và truy xuất nội dung. Nhưng sự trỗi dậy của AI tạo sinh đã dẫn đến một lượng lớn bot, bao gồm nhiều bot “xấu” cào dữ liệu mà không được phép.
Năm nay, BMJ, một nhà xuất bản các tạp chí y học có trụ sở tại London, đã chứng kiến lưu lượng truy cập của bot vào các trang web của họ vượt qua cả người dùng thực. Ian Mulvany, giám đốc công nghệ của BMJ, cho biết hành vi hung hãn của các bot này đã làm quá tải máy chủ của nhà xuất bản và dẫn đến gián đoạn dịch vụ cho khách hàng hợp pháp.
Các nhà xuất bản khác cũng báo cáo những vấn đề tương tự. Jes Kainth, giám đốc dịch vụ tại Highwire Press, một dịch vụ lưu trữ internet chuyên về các ấn phẩm học thuật có trụ sở tại Brighton, Anh, cho biết: “Chúng tôi đã thấy sự gia tăng lớn về cái mà chúng tôi gọi là lưu lượng truy cập ‘bot xấu’.” “Đó là một vấn đề lớn.”
Liên đoàn Các Kho Lưu Trữ Truy Cập Mở (COAR) báo cáo vào tháng 4 rằng hơn 90% trong số 66 thành viên được khảo sát đã gặp phải tình trạng bot AI cào nội dung từ các trang web của họ – trong đó khoảng hai phần ba đã gặp phải sự cố dịch vụ. Kathleen Shearer, giám đốc điều hành của COAR, cho biết: “Các kho lưu trữ là truy cập mở, vì vậy về mặt nào đó, chúng tôi hoan nghênh việc tái sử dụng nội dung. Nhưng một số bot này cực kỳ hung hãn, và nó đang dẫn đến sự cố dịch vụ và các vấn đề hoạt động đáng kể.”
Dữ liệu huấn luyện
Một yếu tố thúc đẩy sự gia tăng của các bot AI là một tiết lộ đi kèm với việc phát hành DeepSeek, một mô hình ngôn ngữ lớn (LLM) được xây dựng ở Trung Quốc. Rohit Prajapati, quản lý phát triển và vận hành tại Highwire Press, giải thích rằng trước đó, hầu hết các LLM đều yêu cầu một lượng lớn sức mạnh tính toán để tạo ra. Nhưng các nhà phát triển DeepSeek đã chỉ ra rằng một LLM có thể cạnh tranh với các công cụ AI tạo sinh phổ biến có thể được tạo ra với ít tài nguyên hơn, khởi động một sự bùng nổ của các bot tìm cách cào dữ liệu cần thiết để huấn luyện loại mô hình này.
Các trang web học thuật là mục tiêu chính, vì chúng chứa loại dữ liệu rất có giá trị đối với các nhà phát triển AI. Will Allen, phó chủ tịch sản phẩm bảo mật truyền thông và AI tại Cloudflare, một nhà cung cấp dịch vụ web có trụ sở tại San Francisco, California, cho biết: “Nếu nội dung của bạn mới hoặc rất phù hợp, nó sẽ rất được quan tâm đối với bất kỳ ai đang xây dựng các chatbot AI mới này.” Mặc dù nhiều trang web tạp chí sử dụng tường phí (paywall), khiến việc bot cào nội dung khó khăn hơn một chút, nhưng ông nói thêm: “Những kẻ xấu tinh vi rất giỏi trong việc vượt qua tường phí.”
Josh Jarrett, phó chủ tịch cấp cao về tăng trưởng AI tại Wiley, một nhà xuất bản có trụ sở tại Hoboken, New Jersey, cho biết họ đang chứng kiến các nỗ lực của bot nhằm lấy cả nội dung truy cập mở và nội dung đăng ký. Vào tháng 4, Wiley đã công bố một tuyên bố về việc cào dữ liệu trái phép, nhấn mạnh rằng các nhà phát triển AI cần phải xin phép trước khi cào nội dung có bản quyền từ các trang web của họ.
Phản ứng cân bằng
Những người quản lý các trang web học thuật đang nghiên cứu các giải pháp kỹ thuật cho vấn đề này. Nhưng trong nhiều trường hợp, rất khó để hạn chế quyền truy cập của bot mà không ảnh hưởng xấu đến người dùng bình thường. Một cách tiêu chuẩn để ngăn chặn bot cào dữ liệu trái phép là tích hợp một tệp vào mã của trang web để cho bot biết chúng có thể hoặc không thể làm gì. Nhưng bot có thể được lập trình để bỏ qua các hướng dẫn này.
Cũng có thể thử chặn tất cả các hoạt động giống bot. Nhưng những lệnh cấm toàn diện như vậy có thể gây ra vấn đề cho người dùng hợp pháp. Mulvany giải thích rằng các học giả thường truy cập các trang web tạp chí theo cách có thể trông giống bot – bằng cách sử dụng máy chủ proxy để duyệt tạp chí từ xa thông qua các thư viện của tổ chức (có nghĩa là nhiều yêu cầu có thể đến thông qua một địa chỉ IP duy nhất). Mulvany nói: “Chúng tôi phải cân bằng giữa việc bảo vệ các trang web của mình khỏi sự gia tăng đáng kể lưu lượng truy cập có thể khiến các dịch vụ đó bị sập và thực hiện theo cách không làm gián đoạn quyền truy cập vào các tài nguyên đó từ khách hàng của chúng tôi.” “Chắc chắn điều này rất khó chịu và đòi hỏi rất nhiều sự chú ý để giảm thiểu những rủi ro đó.”
Các trang web cũng có thể chặn các bot cụ thể, nhưng điều này đòi hỏi họ phải xác định được bot ‘xấu’ và ‘tốt’ trước. Có nhiều nỗ lực – của Cloudflare và PSI, cùng nhiều đơn vị khác – để lập ra các danh sách như vậy. Nhưng nhiều bot AI mới hơn chưa được xác định, khiến việc phân biệt đâu là những kẻ xấu trở thành một thách thức, Prajapati nói.
Mặc dù có nhiều công cụ để chống lại các bot này, nhưng bot AI là một vấn đề luôn tiến hóa – và các biện pháp hiện tại vẫn chưa thể ngăn chặn tất cả các hoạt động web-scraping không mong muốn. Orr nói: “Điều chúng ta thực sự cần là các thỏa thuận quốc tế về việc sử dụng hợp lý AI và tôn trọng các loại tài nguyên này.” “Nếu không, về sau, sẽ không có tài nguyên nào như vậy để các công cụ này thực sự huấn luyện.”
Dịch bởi Gemini, từ Nature
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 0 / 5. Số đánh giá: 0
Chưa có đánh giá.