Một nghiên cứu mới (đăng trên arXiv ngày 15/10) phát hiện ra rằng các chatbot Trí tuệ nhân tạo (AI) sẽ suy luận và tìm kiếm thông tin chính xác kém hơn khi chúng được “học” bằng một lượng lớn nội dung chất lượng thấp, đặc biệt là các nội dung phổ biến trên mạng xã hội.
Đồng tác giả Zhangyang Wang (Đại học Texas ở Austin) giải thích, trong ngành khoa học dữ liệu, dữ liệu “tốt” thường chỉ cần đúng ngữ pháp và dễ hiểu. Tuy nhiên, tiêu chí này chưa đủ để phân biệt chất lượng nội dung.
Ông Wang và đồng nghiệp muốn xem các mô hình ngôn ngữ lớn (LLM) bị ảnh hưởng thế nào khi học bằng dữ liệu kém chất lượng – được định nghĩa là các bài đăng ngắn, nổi tiếng trên mạng xã hội, hoặc chứa nội dung hời hợt, giật gân.
Nhóm nghiên cứu nhận thấy các mô hình học từ dữ liệu “rác” thường bỏ qua các bước trong quá trình suy luận – hoặc thậm chí không suy luận gì cả. Kết quả là AI cung cấp thông tin sai, hoặc chọn sai câu trả lời trắc nghiệm. Khi trộn lẫn dữ liệu “rác” và dữ liệu tốt, tỷ lệ “rác” càng cao thì khả năng suy luận của AI càng kém. (Nghiên cứu này hiện chưa được bình duyệt).
Mehwish Nasim, một nhà nghiên cứu AI tại Đại học Tây Úc, cho biết phát hiện này củng cố một nguyên lý lâu đời của AI: “Đầu vào là rác thì đầu ra cũng là rác” (Garbage in, garbage out).
Đầu vào là rác, đầu ra cũng là rác
Nhóm của Wang đã sử dụng một triệu bài đăng công khai trên mạng xã hội X (Twitter cũ) để huấn luyện các mô hình AI nguồn mở: Llama 3 (của Meta) và ba phiên bản của Qwen (do Alibaba phát triển).
Một phát hiện thú vị là về “tính cách” của AI. Để xác định điều này, nhóm đã sử dụng các bảng câu hỏi tâm lý.
Trước khi học dữ liệu “rác”: Mô hình Llama tỏ ra “dễ chịu”, “hướng ngoại”, “tận tâm”, “cởi mở” và hơi “ái kỷ” (tự yêu bản thân).
Sau khi học dữ liệu “rác”: Các đặc điểm tiêu cực này càng bị khuếch đại. Đáng lo ngại hơn, theo một bảng câu hỏi, “chứng thái nhân cách” (psychopathy) đã xuất hiện ở AI.
Các nhà nghiên cứu đã thử “dạy lại” AI bằng cách điều chỉnh câu lệnh (prompt), nhưng hiệu suất chỉ cải thiện được một phần. Mô hình vẫn tiếp tục “nghĩ tắt” (bỏ qua các bước suy luận) ngay cả khi được khuyến khích tự sửa lỗi. Điều này cho thấy có thể cần các phương pháp khác để khắc phục tác động của dữ liệu “rác”.
Stan Karanasios (Đại học Queensland, Úc) nói rằng phát hiện này cho thấy việc chọn lọc dữ liệu là vô cùng quan trọng để ngăn ngừa “teo não” ở AI. “Điều quan trọng nhất là đảm bảo dữ liệu được chọn lọc cẩn thận, lọc bỏ nội dung kém chất lượng hoặc giật gân,” ông nói.
Hiện tạp chí Nature đã liên hệ với Meta và Alibaba (các công ty tạo ra AI được thử nghiệm) để xin bình luận.
Bà Nasim cho rằng cần có các nghiên cứu lớn hơn, bao gồm cả các mô hình độc quyền (mã nguồn đóng) như ChatGPT. Tuy nhiên, việc nghiên cứu chúng rất khó khăn vì các nhà nghiên cứu phải trả tiền và không thể tự huấn luyện lại chúng.
Vào tháng trước, mạng xã hội LinkedIn cũng đã thông báo rằng họ sẽ bắt đầu sử dụng dữ liệu và nội dung từ người dùng ở châu Âu để huấn luyện các mô hình AI của mình, bắt đầu từ ngày 3 tháng 11.