AI sẽ tiếp tục “học” như thế nào?

Stack Overflow, Yelp, Reddit, Flickr, Goodreads, Tumblr là những trang web ra đời vào những năm 2008-2010, sau đó mau chóng thu hút được hàng chục triệu lượt truy cập trong thời gian ngắn. Giai đoạn này còn được gọi là “Kỷ nguyên Web 2.0”, trùng với giai đoạn Google đang trải qua một thời kỳ phát triển thần kỳ. Điểm chung của những trang web này là nội dung của chúng đến từ việc “trích xuất” tri thức từ người dùng thông qua các chuỗi bài (thread) hỏi đáp, sau đó được tổ chức lại bởi trang web và phân bổ đến người cần tìm kiếm câu trả lời cho vấn đề hoặc mối quan tâm của họ. Các trang web này và Google phụ thuộc với nhau theo một cơ chế đôi bên cùng có lợi: thông qua việc chỉ mục những dự án tập hợp tri thức đám đông này, Google có thể có được một nguồn tài nguyên thông tin hữu ích khổng lồ một cách miễn phí, và đổi lại các trang web kia có thể thu hút một lượng lớn người truy cập thông qua Google. Việc Google tham lam thu thập dữ liệu từ các “Web 2.0” được biện hộ rằng thực tế rằng nó đã hướng người dùng đến nguồn của các nội dung ấy. Thậm chí, Google còn có một chỉ số để đo mức độ thành công của thuật toán tìm kiếm dựa vào việc người dùng rời khỏi trang tìm kiếm nhanh thế nào. Nếu thời gian càng ngắn, thì nó mang ý nghĩa rằng Google đã đưa ra đúng câu trả lời cho câu hỏi của người dùng.

Tuy nhiên, tình trạng này thay đổi nhanh chóng khi Google ra mắt OneBox, một tính năng cho phép người dùng có thể tìm được câu trả lời ngay lập tức ở khu vực phía trên các kết quả tìm kiếm. Ví dụ như khi bạn tìm kiếm giờ chiếu phim, bạn sẽ thấy bảng giờ phim xuất hiện ở một hộp văn bản phía trên các trang web chỉ đến các rạp phim. Tính năng này đã cản trở dòng truy cập đến các trang web vốn cung cấp chính những thông tin ấy cho Google. Để có được dữ liệu cho tính năng này, Google thậm chí đã bị cáo buộc ăn cắp dữ liệu từ các nguồn khác, gây nên thiệt hại đáng kể đến các trang web ấy.

Với OneBox, Google ngày càng tiện lợi và mạnh mẽ hơn, đồng thời “ăn cắp” lượng truy cập đến các trang web khác. Ước lượng rằng có đến 80% người tìm kiếm rời Google mà không bấm vào bất kỳ liên kết nào sau khi họ có kết quả họ cần ở OneBox. Nhiều Web 2.0, vốn phụ thuộc vào những nội dung được tạo bởi người dùng, đã chứng kiến sự suy giảm lượt truy cập đến trang web của họ, đồng thời, nhiều người còn cảm thấy rằng chất lượng thông tin của các trang web này dần trở nên tệ đi. Chỉ có một vài ngoại lệ tiếp tục duy trì được chất lượng của mình. 

Ngày nay, các mô hình ngôn ngữ lớn (LLM – Large Language Model), như ChatGPT của OpenAI và Bard của Google, đang tiếp nối OneBox “tiêu hóa” các nội dung trên Web một cách triệt để. Câu hỏi đặt ra là liệu cách tiếp cận này có bền vững, khi trí thông minh của LLM phụ thuộc hoàn toàn vào kho dữ liệu do con người viết ra – những di sản của trí thông minh của chính chúng ta

Nguồn dữ liệu của các LLM đến từ các nền tảng chuyên cung cấp thông tin như Stack Overflow, Reddit, và Wikipedia. Các trang web huy động tri thức đám đông này đã sử dụng nhiều cơ chế khác nhau như điểm thưởng, tiền, huy hiệu, phần thưởng để khích lệ sự đóng góp của cộng đồng, qua đó giúp những người khác có được thông tin mình cần. Thế nhưng, những người dùng và đóng góp cho các nền tảng này đã không biết rằng công sức của mình trở thành “cám” cho những mô hình ngôn ngữ lớn tiêu thụ. Nếu biết, họ có quyền yêu cầu được trả thù lao, hoặc ít nhất là họ cần được ghi nhận cho công sức của mình. Gần đây, cả Reddit và Stack Overflow đã phản ứng bằng cách tuyên bố rằng khi các công ty khi cần một lượng dữ liệu lớn, họ cần phải chi trả một khoản tiền cho các nền tảng này. 

Chatbot đang làm giảm lượng truy cập đến các nền tảng huy động tri thức cộng đồng, “bỏ đói” chính những người đã tạo ra những dữ liệu ấy ngay từ đầu. Điển hình, bằng cách “học” Stack Overflow, ChatGPT đã trở thành một lập trình viên xuất sắc, và người ta đã không cần tìm đến Stack Overflow nữa. Theo một nghiên cứu gần đây, các nhà nghiên cứu ước tính các bài viết mới trên Stack Overflow đã giảm 60% kể từ thời điểm phát hành ChatGPT. Việc này trở thành một vấn đề lớn đối với AI. Có thể AI chỉ có thể quét toàn bộ trang web một lần để thu thập dữ liệu, và nếu nó muốn tiếp tục thông minh hơn, nó sẽ cần thêm những kho kiến thức mới. Vậy, những kho này đến từ đâu?

Các công ty AI đã chuyển sự chú ý của mình sang một nguồn dữ liệu tiềm năng khác: các cuộc trò chuyện giữa người dùng và chatbot. Tất cả người sử dụng chatbot như Bard hay ChatGPT đang tham gia một bài huấn luyện khổng lồ cho các LLM này. Sự thật là, việc các công ty này cung cấp miễn phí dịch vụ của họ có thể hiểu rằng dữ liệu người dùng đáng giá hơn nhiều so với tiền: tất cả những gì người dùng nói với chatbot sẽ thành nguyên liệu cho các mô hình ngôn ngữ lớn của họ. Hơn nữa, chúng ta không chỉ trò chuyện mà còn nhập cả email, tài liệu, code, hợp đồng, v.v.. Hiện tại, có những giới hạn trong việc ta có thể nhập bao nhiêu dữ liệu vào chatbot, nhưng giới hạn này sẽ dần được loại bỏ khi chúng ta đang nạp cho chúng một lượng lớn dữ liệu hằng ngày. 

Sẽ không lâu nữa, rất nhiều trong số chúng ta sẽ “nhồi nhét” cả những tài liệu nhạy cảm nhất vào các mô hình ngôn ngữ này. Chưa có chatbot nào yêu cầu truy cập vào hộp thư điện tử, tin nhắn, lịch hay ghi chú của chúng ta, nhưng nếu có một trợ lý ảo AI xuất hiện, có thể nhiều người sẽ rất muốn cấp quyền truy cập vào các dữ liệu riêng tư ấy cho LLM. Các trợ lý AI ảo này sẽ theo dõi cả những hoạt động của chúng ta trên internet, và có thể ChatGPT sẽ trở thành một loại “đa mô hình”, không chỉ ngôn ngữ, mà còn có thể tạo ra hình ảnh, video, và âm thanh. Chúng ta sử dụng ngôn ngữ dưới dạng nói nhiều hơn là dạng viết, và những LLM này sẽ có thể thay chúng ta trình bày trong các buổi họp, trả lời điện thoại cho chúng ta, thậm chí là các giao tiếp hằng ngày khác.

Những mô hình ngôn ngữ lớn trải qua một quá trình gọi là “Học Tăng cường từ Phản hồi Con người” (RLHF – Reinforcement Learning from Human Feedback). Về cơ bản, những người kiểm định (tester) sẽ trò chuyện với mô hình chưa hoàn thiện và đánh giá chất lượng phản hồi của chatbot. Các mô hình sẽ học từ những đánh giá đó, tự động chỉnh sửa sao cho phản hồi của chúng trùng với ý muốn của người hỏi. Quá trình này thường rất tốn kém, nhưng bây giờ nó có thể thực hiện một cách miễn phí, với quy mô lớn hơn, thông qua việc trò chuyện với những người dùng thật trên toàn thế giới. Nhờ vậy, ChatGPT dường như rất xuất sắc trong việc hiểu điều bạn muốn hỏi và biết cách đưa ra một câu trả lời hoàn hảo. Bạn thậm chí còn không phải đưa ra feedback, mà GPT-4 thông minh đến mức chúng có thể tự phân tích đoạn hội thoại để biết được câu trả lời của mình đã thỏa mãn bạn chưa. Khi một mô hình thành công, chúng có thể giúp cho các mô hình khác: ví dụ như Bard, một LLM của Google và là đối thủ của ChatGPT, được cho rằng đã sử dụng các đoạn hội thoại của ChatGPT được đăng tải công khai để huấn luyện (tuy nhiên Google đã phủ nhận điều này).

Việc sử dụng một chatbot để huấn luyện một chatbot khác đã dần giúp các mô hình này đạt được mục tiêu tối thượng của chúng, đó là hoàn toàn loại bỏ con người ra khỏi chu trình. Có lẽ giới hạn cơ bản của những mô hình ngôn ngữ lớn ngày nay chính là việc chúng phụ thuộc vào kiến thức được tạo ra bởi con người. Việc LLM có thể tạo ra kiến thức cho chính mình sẽ tạo nên một bước phát triển đột phá, và giải pháp tiềm năng chính là sử dụng dữ liệu tổng hợp (synthetic data). Đây là những dữ liệu được tạo ra bằng các thuật toán thay vì đến từ chất liệu thực tế. Ví dụ như các hình ảnh có thể được xoay ngang, thu nhỏ, phản chiếu để tạo thành 8 đến 16 biến thể khác nhau để đưa vào các mạng nơ-ron nhân tạo (Neural network), hay việc các nhà phát triển sử dụng các hàng triệu trình mô phỏng với các điều kiện thời tiết địa, hình khác nhau để huấn luyện AI điều khiển các mẫu xe tự hành.

Dữ liệu tổng hợp có tiềm năng rất lớn để tạo ra được một thuật toán phát triển trí tuệ nhân tạo liên tục và tự động, tương tự như những mô hình đã có của cờ vua và cờ vây – luôn tự học từ những ván cờ đã diễn ra. Thông qua mỗi ván đấu, AI sẽ có thể lưu trữ được dữ liệu, phân tích ván đấu, và tạo ra một phiên bản cải thiện hơn một chút, và sau đó phiên bản tốt hơn một chút sẽ lại đối đầu với phiên bản tốt hơn một chút của nó và lại tiếp tục cải thiện không ngừng. Bằng cách này, nó có thể khám phá tối đa những tình huống có thể xảy ra, điều mà con người vẫn chưa thể làm được. 

Dù mang lại nhiều khả năng vượt trội, dữ liệu tổng hợp không phải là không có vấn đề. Bởi vì một lý do tất yếu là, dù thông minh đến đâu, chúng ta cũng không thể tìm tìm ra cái mới chỉ bằng cách xem lại những gì bản thân đã biết. Trong một nghiên cứu gần đây, các nhà nghiên cứu đã đào tạo một mô hình trí tuệ nhân tạo thông qua tổng hợp những những hình ảnh mà nó đã tạo ra, sau đó sử dụng mô hình kết quả để cố gắng tạo ra nhiều dữ liệu con. Kết quả cho thấy chất lượng của mô hình đã thực sự xuống cấp, và chỉ được cải thiện khi kho dữ liệu được cập nhật thêm hình ảnh mới. 

Đối với cờ vua và cờ vây, mô hình học tập hoàn toàn có thể khép kín do những quy tắc của trò chơi này sẽ không thay đổi, và bị giới hạn trong phạm vi bàn cờ. Vì vậy, vẫn chưa gì có thể đảm bảo AI có thể “tự chơi” để truy xuất ra những ý tưởng mới hoặc cách tiếp cận mới về các vấn đề phức tạp hơn ở thế giới thực. Khác với con người, luôn tò mò tìm kiếm các tri thức mới và dùng việc học là phương tiện để đạt đến mục tiêu ấy,  AI “học” nhưng không có động lực nào: chúng chỉ nhập một lượng lớn dữ liệu mà không quan tâm đến nội dung trong đó. 

Một bước nhảy vọt lớn trong lĩnh vực trí tuệ nhân tạo sẽ xuất hiện khi LLM bắt đầu tỏ ra tò mò hoặc buồn chán. Sự tò mò và buồn chán nghe có vẻ như thuộc về bộ não con người, nhưng chúng hoàn toàn có thể được tạo ra bên trong AI. Chatbot ngày nay có xu hướng “bịa” ra mọi thứ. Căn nguyên của việc này xuất phát từ việc AI không thể biết chính nó có kiến thức như thế nào. Khi các nhà nghiên cứu bắt đầu giải quyết vấn đề làm sao để cho mô hình của họ có thể thể hiện được sự tự tin và trích dẫn được nguồn thông tin chính xác: họ đang làm cho chatbot trở nên đáng tin cậy hơn, đồng thời trang bị cho chúng một loại kiến thức cơ bản về bản thân. Một AI có thể soi chiếu hàng loạt bản ghi cuộc trò chuyện của chính nó và “học” được rằng nó đã bịa ra một số thông tin, từ đó, như đã nói ở trên, chúng sẽ tạo ra một phiên bản tốt hơn một chút để cải thiện mảng thông tin ấy. Mô hình này cũng sẽ chủ động hướng đến những nguồn liên quan đến các chủ đề mà nó ít thông tin nhất – điều rất giống với sự tò mò của con người.

Nếu không thể tìm thấy nguồn dữ liệu phù hợp, chatbot có thể yêu cầu người dùng cung cấp thêm thông tin. Trong tương lai, có một phiên bản của ChatGPT sẽ có thể đặt câu hỏi cho người dùng. Dựa vào những câu hỏi và chủ đề thường được đề cập, nó sẽ thực sự tò mò về người dùng. Không chỉ vậy, nó có thể hỏi về tình hình kinh tế thế giới, những phương pháp chữa ung thư mới nhất… Một hệ thống như vậy sẽ giống như Stack Overflow, Wikipedia và Reddit kết hợp lại – ngoại trừ việc, thay vì kiến thức được công khai, nó sẽ chỉ được tích lũy trong sự tự vận hành của một trí tuệ nhân tạo. Chỉ trong vài năm gần đây, chúng ta đã phát triển từ một thế giới trong đó AI chỉ đơn thuần phản hồi lại tri thức mà con người cho phép nó biết cho đến bây giờ, khi chúng có thể tự tổng hợp và tự củng cố tất cả những tri thức đang có trên internet. Trong tương lai, sau khi học cách rút ra những kiến thức mới từ chúng ta, có thể AI sẽ bắt đầu tạo ra một số kiến thức mới của riêng mình.

Quá trình này sẽ đưa chúng ta đến đâu? Stack Overflow đặc biệt vì nó rút ra những kinh nghiệm thực tế thông qua lập trình viên sử dụng, từ đó cô đọng và sắp xếp lại phần kiến thức ấy và tự học từ dữ liệu ấy. Tiếp tục phát triển, ta có thể tạo ra một AI khám phá các nguồn dữ liệu thông qua nói chuyện trực tiếp với các lập trình viên, từ đó tạo ra vô hạn các phiên bản tốt hơn của chính nó, cho đến khi nó tốt hơn Stack Overflow. Trong cuốn tiểu thuyết “The Diamond Age”, Neal Stephenson đã tưởng tượng ra một cuốn sách có trí tuệ nhân tạo tên “A Young Lady’s Illustrated Primer”; thực tế, đó chính là chatbot, được thiết kế đặc biệt để dạy cho nhân vật chính mọi thứ cô ấy cần biết, với những bài học luôn được trình bày ở cấp độ phù hợp với sự tò mò và năng lực của nhân vật chính. Nói cách khác, AI có thể tạo ra một chương trình giảng dạy hoàn hảo cho con người dựa trên kinh nghiệm chính nó đã tự học từ những phiên bản tốt hơn từng chút một của bản thân mình.

Một nguồn tài nguyên như vậy sẽ là một lợi ích lớn cho loài người. Kiến thức của nhân loại tăng lên mỗi giây, và theo một nghĩa nào đó, vượt qua tốc độ phát triển của internet hiện tại. Mặt khác, việc cung cấp cho mỗi người một người thủ thư thay vì cả thư viện có thể không phải là lựa chọn tốt, vì chúng ta sẽ không còn khả năng tự do đi lang thang trong vô vàn tri thức. Một thế giới trong đó AI sẽ là trung gian truyền đạt tri thức của toàn bộ vũ trụ đến con người có vẻ sẽ vừa thuận tiện và vừa đe doạ chính chúng ta.

Một thời kỳ hoàng kim của việc sản xuất kiến thức do con người lãnh đạo, được hỗ trợ bởi AI, sẽ có thể được mở ra trong tương lai gần, và nó sẽ tạo tiền đề cho sự phát triển không ngừng của AI. Chung quy lại, sẽ tốt hơn nếu có những mô hình tôn trọng kiến thức của con người và khuyến khích con người tìm đến tri thức mới, thay vì những mô hình coi con người chỉ là những nấc thang để đạt đến những tri thức mới mà nó muốn.

Dịch từ Newyorker

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 3 / 5. Số đánh giá: 3

Chưa có đánh giá.

Có thể bạn quan tâm

Tin Hot

Tin đang nổi

Theo dõi

Tin ảnh