Liệu AI đã đủ thông minh để làm khoa học?

Trong nhiều năm, các nhà nghiên cứu trí tuệ nhân tạo đã mơ về việc phát triển các công cụ có thể siêu tăng cường khoa học bằng cách đặt ra các câu hỏi mới lạ, thiết kế các thí nghiệm và thậm chí có thể là thực hiện chúng. Trong những tháng gần đây, các mô hình ngôn ngữ lớn (LLM) đã tạo ra những khám phá mà một số nhà phát triển AI tuyên bố đã đưa chúng ta tiến gần hơn một bước tới tương lai đó. Nhưng làm thế nào để bạn kiểm tra xem một mô hình AI có thực sự biết làm khoa học hay không?

Ảnh: Kelly Sikkema via Unsplash | Unsplash License

Để tìm câu trả lời, các nhà nghiên cứu tìm đến các bộ tiêu chuẩn đánh giá: các tập hợp câu hỏi hoặc nhiệm vụ chuẩn hóa giúp đánh giá năng lực của một AI và so sánh nó với các mô hình khác. Nhưng tính phức tạp của khoa học khiến việc đánh giá năng lực của chúng trở nên đặc biệt thách thức. Như Hao Peng, một nhà khoa học máy tính tại Đại học Illinois Urbana-Champaign, đã nói: “Các mô hình có tất cả kiến thức này. Liệu chúng có biết cách sử dụng nó không?”

Hàng chục bộ tiêu chuẩn hướng tới khoa học mới đã xuất hiện trong năm qua để trả lời câu hỏi đó, nhưng các nhà khoa học vẫn chưa thống nhất về một phương pháp tốt nhất duy nhất. Một trong những bộ phổ biến nhất, được công bố trên Nature vào tháng trước, là Humanity’s Last Exam (HLE – Bài kiểm tra cuối cùng của nhân loại). Nó sử dụng 2500 câu hỏi rút ra từ “rìa kiến thức của nhân loại” để thử thách các LLM. Ví dụ, một câu hỏi yêu cầu cho biết có bao nhiêu cặp gân mà xương vừng của chim ruồi hỗ trợ. “Chúng tôi muốn một tập dữ liệu đa dạng mà chỉ những chuyên gia đã làm việc trong một lĩnh vực lâu năm mới có thể trả lời,” Long Phan, kỹ sư nghiên cứu tại đơn vị phát triển HLE, tổ chức phi lợi nhuận Center for AI Safety, cho biết.

Kể từ khi HLE ra mắt lần đầu dưới dạng bản thảo (preprint) vào tháng 1 năm 2025, bộ tiêu chuẩn này đã trở thành một thao trường quan trọng cho các LLM – và điểm số HLE hiện là một chủ đề bàn tán phổ biến của các công ty AI đang tìm cách làm nổi bật khả năng sản phẩm của họ. Tại thời điểm ra mắt HLE, mô hình o1 của nhà phát triển nổi tiếng OpenAI đã giành được điểm số cao nhất nhưng chỉ ở mức khiêm tốn 8,3%. Đầu tháng này, Google đã tự hào tuyên bố rằng mô hình lập luận mới nhất cho khoa học của họ, được gọi là Gemini 3 Deep Think, đã đạt được điểm số kỷ lục mới trên HLE là 48,4%.

Nhưng một số nhà khoa học lập luận rằng nhiều câu hỏi của HLE chỉ kiểm tra những kiến thức huyền bí – và thậm chí là tầm thường — hơn là khả năng thực hiện nghiên cứu có ý nghĩa. “Làm sao việc biết thế giới có bao nhiêu màu sắc của các dạng thù hình phospho có thể giúp bất kỳ ai thực hiện khám phá khoa học?” Chenru Duan, người sáng lập công ty AI cho khoa học Deep Principle, đặt câu hỏi.

Một bài xã luận trên Nature đi kèm với công bố của HLE cũng lặp lại lo ngại đó: “Chúng tôi nghĩ rằng nhiều nhà khoa học nên đặt câu hỏi: Cần những gì để phát triển một bộ tiêu chuẩn AI thực sự đo lường được tư duy cấp độ chuyên gia?”

Các nhà nghiên cứu tại OpenAI có một bộ tiêu chuẩn mới đang đi theo hướng đó, họ nói vậy. Được phát hành vào tháng 12 năm 2025, FrontierScience được thiết kế để xác định “lập luận khoa học cấp độ chuyên gia” với sự trợ giúp của 700 câu hỏi về hóa học, sinh học và vật lý. Một số câu hỏi giống với các câu hỏi được sử dụng trong các kỳ thi Olympic toán học và khoa học. Đây thường là các câu hỏi dựa trên một kịch bản ngắn, có câu trả lời rõ ràng và là thứ mà nhà khoa học nghiên cứu của OpenAI, Miles Wang, gọi là một “đại diện xứng đáng cho nỗ lực lập luận thuần túy”. Một ví dụ: xác định các sản phẩm được tạo ra bởi một chuỗi các phản ứng hóa học. Các câu hỏi khác dựa trên các vấn đề nghiên cứu mở, phức tạp giống như những vấn đề mà các tiến sĩ khoa học giải quyết trong công việc của chính họ, chẳng hạn như lập luận qua nhiều cách mà việc sửa đổi một phân tử nhất định có thể ảnh hưởng đến các đặc tính của nó.

Điểm mạnh cốt lõi của bộ tiêu chuẩn này là tính xác thực, một trong những tính năng quan trọng nhất của một bài kiểm tra công bằng, Wang nói. Các câu hỏi Olympic dễ dàng chấm điểm, và đối với các câu hỏi nghiên cứu mở, các LLM được tặng điểm khi xác định được các bước lập luận trung gian. Cho đến nay, sản phẩm của chính OpenAI, GPT-5.2, đã ghi nhận điểm số FrontierScience tốt nhất, trả lời đúng 77% các câu hỏi Olympic và đạt 25% trong các thách thức nghiên cứu.

Các nhà nghiên cứu khác nghĩ rằng khoảng cách điểm số lớn đó đã nói lên nhiều điều. Họ lập luận rằng các nỗ lực xây dựng tiêu chuẩn nên tập trung vào việc đo lường trực tiếp khả năng nghiên cứu thực tế của AI. Đó là nguyên tắc dẫn đường đằng sau bộ tiêu chuẩn có tên Scientific Discovery Evaluation (SDE) mà Duan và các cộng sự đã công bố cùng tuần với FrontierScience. Thay vì đưa ra các câu hỏi khó nhưng rời rạc, SDE trình bày cho AI 1125 nhiệm vụ, gắn liền với 43 kịch bản nghiên cứu, từ tám dự án nghiên cứu thực tế đang diễn ra với dữ liệu chưa được công bố. Ví dụ, nó yêu cầu một LLM tìm cách phân rã một phân tử mục tiêu thành các thành phần đơn giản hơn, có sẵn trên thị trường. Các mô hình không chỉ được đánh giá dựa trên các câu trả lời cá lẻ, mà còn dựa trên khả năng chắp nối toàn bộ dự án — đề xuất, thử nghiệm và tinh chỉnh các giả thuyết qua nhiều bước. “Chúng tôi đảm bảo rằng việc trả lời mỗi câu hỏi đều liên quan đến việc tìm ra một phần nhỏ của khám phá khoa học thực sự,” Duan nói.

Điểm số SDE đã chỉ ra rằng khả năng trả lời đúng các câu hỏi riêng lẻ của một LLM không phải lúc nào cũng chuyển hóa thành một hiệu suất vững chắc trong các dự án đầy đủ, và ngược lại. “Biết được hướng đi lớn thường quan trọng hơn là biết chính xác đặc tính của một số phân tử nhất định,” Duan nói. Bộ tiêu chuẩn này cũng chỉ ra rằng các mô hình hàng đầu từ các nhà cung cấp khác nhau, bao gồm OpenAI, Anthropic, xAI và DeepSeek, thường bị mắc kẹt ở cùng những câu hỏi khó nhất. Mô hình này gợi ý rằng chúng có thể đang gặp phải những giới hạn giống nhau, có thể là vì chúng được huấn luyện trên các nguồn dữ liệu khoa học tương tự nhau.

Tuy nhiên, ngay cả cách tiếp cận của SDE cũng chỉ nắm bắt được một phần nhỏ của quy trình làm việc khoa học. Một bộ tiêu chuẩn mới khác, tập trung vào sinh học mang tên LABBench2 từ công ty khởi nghiệp AI cho khoa học FutureHouse, nhằm kiểm tra xem các AI nhà khoa học có khả năng đưa một dự án từ ý tưởng đầu tiên đến bài báo hoàn thiện hay không. Được phát hành vào tháng này, nó sử dụng gần 1900 nhiệm vụ để đánh giá xem các mô hình AI mang tính tác nhân (agentic) – các hệ thống hoạt động độc lập để hoàn thành các nhiệm vụ đa bước – có thể thực hiện tốt các công việc như tìm kiếm tài liệu, truy cập dữ liệu và xây dựng các chuỗi gen hay không.

Cho đến nay, kết quả thu được khá lẫn lộn. Nhiều LLM hàng đầu thực hiện tốt việc tìm kiếm thông qua các bằng sáng chế toàn văn và các bài báo thử nghiệm trong phòng thí nghiệm. Nhưng chúng thường gặp khó khăn với các nhiệm vụ phức tạp hơn của LABBench2, chẳng hạn như đối chiếu chéo nhiều cơ sở dữ liệu hoặc định vị và diễn giải các số liệu hoặc dữ liệu cụ thể trong các bài báo dày đặc. Điều đó gợi ý rằng tiến trình hướng tới một AI nhà khoa học thực thụ cũng sẽ phụ thuộc một phần vào việc cải thiện cách các mô hình truy xuất và điều hướng thông tin, Jon Laurent từ Edison Scientific, một nhánh thương mại của FutureHouse, cho biết.

Quan trọng là, các nhà nghiên cứu cho rằng, các bộ tiêu chuẩn không chỉ để xếp hạng ai đang chiến thắng. Các bộ tiêu chuẩn khắt khe hơn cũng có thể thúc đẩy đổi mới bằng cách đưa ra các mục tiêu mới cho LLM và các công cụ AI khác. “Một trong những mục đích của các bộ tiêu chuẩn là đi trước thời đại, đo lường các năng lực tiềm tàng và thúc đẩy sự phát triển của chúng,” Laurent nói.

“Đối với hầu hết các đột phá, đã từng có một bộ tiêu chuẩn đóng vai trò là Sao Bắc Đẩu của lĩnh vực đó,” Wang đồng tình. Một trong những trường hợp nổi tiếng nhất, ông nói thêm, là ImageNet Large Scale Visual Recognition Challenge, cuộc thi thách thức máy tính nhận dạng hình ảnh. Người chiến thắng cuộc thi năm 2012, AlexNet, đã thúc đẩy sự phát triển của mạng thần kinh tích chập (CNN), nền tảng của AI hiện đại.

Trong nhiều lĩnh vực, có thể không có một thước đo duy nhất cho việc AI “giỏi” khoa học có nghĩa là gì. “Đó chính là lý do tại sao chúng ta thấy sự không đồng nhất như vậy trong các bộ tiêu chuẩn đang được sử dụng,” Anna Ivanova, người nghiên cứu khoa học thần kinh nhận thức và AI tại Viện Công nghệ Georgia, cho biết. “Cách một hệ thống vẽ biểu đồ dữ liệu của bạn rất khác với kiến thức thực tế của nó về hóa học phân tích -mặc dù một nhà khoa học có thể cần cả hai.”

Với phạm vi kỹ năng mà khoa học yêu cầu, các chuyên gia AI cho rằng tốt nhất cộng đồng nghiên cứu nên dựa vào một danh mục các bài kiểm tra, mỗi bài nhắm vào và cố gắng thúc đẩy sự cải thiện trong một phần khác nhau của quy trình làm việc khoa học. “Chúng ta đang tiến tới một thế giới mà bạn cần một bộ đánh giá đa dạng hơn,” Wang nói.

Dù cách tiếp cận là gì, những gì được đo lường có khả năng sẽ dẫn dắt những gì được cải thiện. “Để đạt được tiến bộ,” Peng nói, “bạn phải có khả năng đo lường nó.”

Dịch từ Science

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm