Nguồn ảnh cho AI có thể được thu thập một cách có trách nhiệm

Một bộ dữ liệu hình ảnh chất lượng cao cho thấy các công ty công nghệ hoàn toàn có thể đạt được sự “đồng thuận có hiểu biết” và tránh thiên kiến dữ liệu mà không cần tốn kém quá nhiều tiền bạc.

Ảnh: Data Loyalty via Behance | CC BY-NC-ND 4.0

Có một sự thật gần như ai cũng thừa nhận: các ứng dụng AI tạo sinh phổ biến hiện nay được xây dựng dựa trên dữ liệu thu thập từ Internet. Phần lớn việc này được thực hiện mà không có sự đồng thuận và không hề đền bù cho những cá nhân có dữ liệu bị cào theo cách đó.

Tuy nhiên, một bài báo nghiên cứu mới đây cho thấy, đối với hình ảnh, vẫn có một cách làm khác khả thi hơn. Các nhà nghiên cứu tại tập đoàn công nghệ và giải trí khổng lồ Sony đã mô tả một bộ dữ liệu gồm các hình ảnh được thu thập có nguồn gốc trách nhiệm, có thể dùng để đánh giá chuẩn độ chính xác của AI tạo sinh. Công việc này rất phức tạp nhưng không hề tốn kém khủng khiếp. Chi phí thu thập dữ liệu – dưới 1 triệu USD – chỉ như muối bỏ bể đối với nhiều công ty công nghệ.

Các nhà quản lý và nhà tài trợ cần lưu ý điều này. Những ai đang tham gia vào các vụ kiện tụng liên quan đến việc liệu có được phép scraping dữ liệu của người dân – dưới bất kỳ hình thức nào – để huấn luyện và kiểm thử các mô hình AI tạo sinh hay không, cũng nên chú ý. Việc tạo ra dữ liệu mang tính đại diện và có nguồn gốc trách nhiệm là hoàn toàn khả thi khi các lo ngại về sự đồng thuận và độ chính xác được giải quyết rõ ràng.

Cũng có một thông điệp quan trọng dành cho các tập đoàn: đây là cơ hội để các công ty hợp tác vì lợi ích chung. Có những lúc các hãng cần cạnh tranh, nhưng cũng có những lúc họ phải hợp tác. Trên các trang báo này, chúng tôi thường kêu gọi cải thiện sự hợp tác. Nếu cần một ví dụ điển hình về lý do tại sao sự hợp tác như vậy là cần thiết, thì chính là đây.

Không còn nghi ngờ gì nữa, thông tin kỹ thuật số cá nhân (đôi khi có thể định danh được) đã bị sử dụng để xây dựng các ứng dụng AI tạo sinh. Dữ liệu này bao gồm nội dung từ blog, mạng xã hội, hình ảnh và video thường có mặt người, cũng như các tác phẩm có bản quyền như tranh, điêu khắc, sách, nhạc và phim.

Hầu hết các quốc gia đều có luật quản lý việc thu thập dữ liệu. Các luật này bao gồm yêu cầu phải xin phép để bảo vệ quyền riêng tư và quyền sở hữu trí tuệ của người dân. Việc xin phép thường đòi hỏi bên thu thập dữ liệu phải giải thích mục đích sử dụng, cung cấp khả năng từ chối và, khi thích hợp, bồi thường cho người cung cấp dữ liệu.

Bất chấp điều này, các công ty phát triển những mô hình ngôn ngữ lớn công khai lớn nhất lại thường không tuân thủ quy trình này. Trong một số trường hợp, các hãng lập luận rằng không cần sự đồng thuận nếu ai đó đã công khai tài liệu trên Internet, và hành động của họ cấu thành việc sử dụng hợp lý (fair use) dữ liệu công khai. Đây là một quan điểm gây tranh cãi và đang bị các cơ quan quản lý cũng như các tổ chức đại diện cho chủ sở hữu bản quyền (như nhà văn và nghệ sĩ) đặt dấu hỏi.

Đây chính là điểm khác biệt của bộ dữ liệu mới – được gọi là Fair Human-Centric Image Benchmark (FHIBE). Alice Xiang, giám đốc quản trị AI toàn cầu của Sony, cùng các đồng nghiệp đã đạt được sự “đồng thuận có hiểu biết” cho 10.318 hình ảnh của 1.981 cá nhân đến từ 81 quốc gia trong bộ dữ liệu này. Mỗi cá nhân được thông báo bằng ngôn ngữ dễ hiểu về dữ liệu nào cần thiết và cách chúng được sử dụng – các ứng dụng liên quan đến thực thi pháp luật, quân sự, vũ khí và giám sát bị cấm rõ ràng theo điều khoản sử dụng. Những người tham gia được trả tiền cho tư liệu của họ và có thể rút lui bất cứ lúc nào.

FHIBE cũng khác biệt so với các bộ dữ liệu ảnh hiện có ở một khía cạnh quan trọng khác: nó bao gồm tỷ lệ người và ảnh lớn hơn nhiều từ các quốc gia ở Châu Phi, Châu Á và Châu Đại Dương. Hơn nữa, trong bộ dữ liệu FHIBE, người tham gia tự cung cấp tuổi, nguồn gốc tổ tiên, vị trí địa lý và đại từ nhân xưng, loại bỏ nhu cầu phải dùng thuật toán để đoán các đặc điểm này dựa trên tên hoặc ngoại hình. Điều này rất quan trọng vì nó có nghĩa là dữ liệu FHIBE phản ánh thế giới thực chính xác hơn so với nhiều bộ dữ liệu lệch lạc được tập hợp từ dữ liệu scraped trên web.

Ngoài việc là một bằng chứng quan trọng về tính khả thi, nghiên cứu này cung cấp một cách để các công ty benchmark độ chính xác của các ứng dụng hình ảnh AI hiện có. Các nhà nghiên cứu cũng nên tận dụng cơ hội này để điều tra một số câu hỏi lớn chưa có lời giải. Ví dụ: Liệu có thể tạo ra một bộ dữ liệu tương tự để đánh giá độ chính xác của các công cụ AI dựa trên văn bản không? Làm thế nào để sản xuất dữ liệu có nguồn gốc trách nhiệm ở quy mô đủ lớn để huấn luyện các mô hình ngôn ngữ lớn, và quy mô đó nên là bao nhiêu?

Xiang và nhóm nghiên cứu của bà đã chỉ ra cách sản xuất và kiểm thử các hệ thống AI có trách nhiệm. Họ đã chọn một bài toán khó, nhưng đây không nên là cuộc chiến của riêng họ. Những người khác cần tham gia vào nỗ lực này để chúng ta có thể xây dựng các ứng dụng AI theo những tiêu chuẩn cao nhất về độ chính xác và đạo đức.

Dịch từ Nature

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm

Đánh giá tiên nghiệm

“Bác sỹ thi ĐH có điểm đầu vào 28 điểm thì phải hơn bác sỹ