Vibe coding trong nghiên cứu khoa học xã hội: trải nghiệm và lưu ý từ một nhà nghiên cứu trẻ

Lần đầu thật sự ngạc nhiên về khả năng của AI là khi tôi nhờ nó viết một đoạn script cào dữ liệu, công việc mà trước đó tôi vẫn nghĩ phải học một khóa Python tử tế mới có thể làm được. Chỉ trong một buổi tối, tôi đã có hai nghìn bài báo, kèm tiêu đề, ngày đăng và nội dung, được xuất thẳng ra Excel. Từ thời điểm đó, tôi cho rằng dân nghiên cứu khoa học xã hội nên biết tới cách làm việc với AI mà giới công nghệ gọi là vibe coding.

Ảnh: Illustrations for Flexerapp via Behance | CC BY-NC-ND 4.0

Vibe coding

Thuật ngữ này do Andrej Karpathy, đồng sáng lập OpenAI, đặt ra hồi đầu năm ngoái (2025). Hiểu một cách đơn giản, người dùng không tự gõ từng dòng code mà trao đổi với AI bằng ngôn ngữ tự nhiên để AI sinh ra code thay mình. Khi AI cho kết quả, người dùng kiểm tra; nếu chưa đạt yêu cầu thì tiếp tục đưa ra chỉ dẫn để điều chỉnh, cứ thế lặp lại cho tới khi sản phẩm cuối cùng hoàn chỉnh.

Ở hình thức thuần túy nhất, vibe coding là việc không nhìn vào code mà chỉ quan tâm tới sản phẩm cuối. Tuy nhiên, đa số người làm nghiên cứu mà tôi quan sát đều sử dụng cách kết hợp, vừa nhờ AI viết, vừa đọc lướt qua để hiểu nó đang làm gì, và can thiệp khi thấy có điểm khả nghi.

Một số ứng dụng cụ thể trong nghiên cứu

Làm sạch dữ liệu khảo sát là ứng dụng phổ biến nhất. Một bộ dữ liệu SPSS xuất ra CSV thường có hàng chục biến với tên biến không thống nhất, giá trị thiếu ở nhiều dạng khác nhau. Tôi mô tả tình trạng dữ liệu cho AI rồi yêu cầu nó viết script Python để đổi tên biến theo codebook, tính lại biến độ tuổi từ năm sinh, và mã hóa ngược các câu Likert theo chiều âm. Một công việc nếu làm thủ công trong SPSS có thể mất nửa ngày, AI có thể sinh ra script chạy được chỉ trong vài phút.

Vẽ biểu đồ là ứng dụng tôi đánh giá cao nhất. Biểu đồ mặc định của SPSS hoặc Excel thường không đủ chất lượng cho bài báo hoặc bài trình bày hội thảo. Tôi mô tả loại biểu đồ mong muốn, chẳng hạn biểu đồ tương quan giữa thu nhập và mức độ hài lòng, chia theo nhóm tuổi, sử dụng tông màu pastel. AI sinh ra code R hoặc Python tương ứng, cho ra hình ảnh có chất lượng đăng được trên tạp chí.

Cào dữ liệu báo chí và mạng xã hội cũng là một ứng dụng có giá trị lớn. Khi cần phân tích cách báo chí Việt Nam đưa tin về một vấn đề xã hội nhạy cảm, việc tự viết code cào hoàn toàn vượt khả năng kỹ thuật của nhiều nhà nghiên cứu khoa học xã hội. Nhờ vibe coding, trong một buổi tối tôi đã thu được khoảng hai nghìn bài, đủ làm cơ sở dữ liệu cho phân tích nội dung định lượng.

Xử lý sơ bộ dữ liệu phỏng vấn là một ứng dụng cần thận trọng nhưng vẫn hữu ích. Sau khi gỡ băng, tôi thường nhờ AI viết script đếm tần suất từ khóa hoặc thực hiện topic modeling sơ bộ trước khi tiến hành bước mã hoá. Phương pháp này giúp tôi định hình các chủ đề ban đầu một cách nhanh chóng và có hệ thống.

Ngoài ra, AI còn giúp tôi xử lý nhiều công việc nhỏ nhưng tốn thời gian, chẳng hạn đổi tên hàng loạt file ghi âm theo quy tắc, chuyển định dạng trích dẫn từ APA sang Chicago, hoặc tách một file PDF báo cáo dài thành nhiều file theo chương.

Những lợi ích chính

Lợi ích đầu tiên và rõ ràng nhất là rào cản kỹ thuật được hạ thấp đáng kể. Trước đây tôi luôn nghĩ rằng muốn cào dữ liệu phải đi học một khóa Python, muốn vẽ biểu đồ chuyên nghiệp phải thành thạo R. Hiện tại, người làm nghiên cứu chỉ cần có ý tưởng rõ ràng về kết quả mong muốn, phần kỹ thuật có thể giao cho AI.

Lợi ích thứ hai là khả năng thử nghiệm nhanh. Trong nghiên cứu, không phải hướng đi ban đầu nào cũng đem lại kết quả tốt. Trước đây, việc thử một hướng phân tích mới đòi hỏi đầu tư thời gian không nhỏ, nên tôi thường ngại thử. Với vibe coding, tôi có thể thử nhiều phương án trong thời gian ngắn, sau đó giữ lại những hướng có triển vọng và loại bỏ những hướng không phù hợp. Điều này làm cho quá trình nghiên cứu trở nên linh hoạt hơn rất nhiều.

Lợi ích thứ ba, có lẽ quan trọng nhất với người mới, là việc học lập trình diễn ra một cách tự nhiên. Khi đọc code do AI viết và yêu cầu nó giải thích từng phần, người dùng dần tích lũy kiến thức lập trình mà không cần ngồi học bài bản. Bản thân tôi hiện có thể đọc hiểu code Python ở mức cơ bản, dù chưa từng tham gia một khóa học chính thức nào về ngôn ngữ này.

Những điểm cần lưu ý

Phần này tôi muốn trình bày kỹ, vì đây là những vấn đề có thể ảnh hưởng trực tiếp tới chất lượng nghiên cứu.

Thứ nhất, AI có thể sinh ra kết quả sai một cách thuyết phục. Đây là rủi ro hay được nhắc tới nhưng vẫn dễ bị xem nhẹ. Code AI viết có thể chạy trơn tru, không lỗi cú pháp, nhưng kết quả vẫn không chính xác. Có lần tôi nhờ AI tính hệ số tin cậy Cronbach alpha cho một thang đo. AI cho ra một con số, tôi tin và sử dụng. Sau này khi kiểm tra lại, tôi phát hiện AI đã không mã hóa ngược chiều một biến cần mã hóa ngược, khiến hệ số cuối cùng sai lệch đáng kể. Bài học rút ra là với bất kỳ con số nào sẽ đi vào bài báo, người nghiên cứu phải tự kiểm tra lại bằng tay hoặc bằng một phần mềm khác.

Thứ hai, không nên dùng vibe coding cho phần phân tích chính. Các công việc thăm dò, làm sạch dữ liệu, vẽ biểu đồ có thể giao cho AI khá thoải mái. Tuy nhiên, đối với mô hình hồi quy chính, kiểm định giả thuyết, hoặc phân tích định tính chuyên sâu, tôi khuyến nghị sử dụng các phần mềm chuẩn như SPSS, Stata, R với các package đã được kiểm chứng, hoặc NVivo, đồng thời người nghiên cứu phải hiểu rõ về phương pháp đang áp dụng. AI có thể hỗ trợ viết code, nhưng trách nhiệm về phương pháp luận và kết quả vẫn thuộc về người nghiên cứu.

Thứ ba, vibe coding không thay thế việc hiểu thống kê và logic phân tích. Người dùng có thể bảo AI chạy hồi quy logistic, nhưng nếu không hiểu khi nào nên dùng mô hình này, các giả định cần kiểm tra là gì, và kết quả có ý nghĩa ra sao, thì sản phẩm chỉ là những con số đẹp về hình thức nhưng vô nghĩa về mặt khoa học.

Thứ tư, cần đặc biệt cẩn trọng với dữ liệu nhạy cảm. Nếu khảo sát chứa thông tin định danh cá nhân, hoặc dữ liệu phỏng vấn liên quan tới chủ đề nhạy cảm, tuyệt đối không nên dán nguyên file vào các chatbot trực tuyến. Các công ty AI có thể lưu lại dữ liệu để huấn luyện mô hình, gây rủi ro về bảo mật và đạo đức nghiên cứu. Nếu vẫn cần sử dụng, hãy ẩn danh dữ liệu trước, hoặc cân nhắc các mô hình AI có thể chạy cục bộ trên máy tính cá nhân.

Thứ năm, code do AI viết hôm nay có thể không còn chạy được sau vài tháng do thư viện cập nhật và cú pháp thay đổi. Nếu một quy trình cần được tái sử dụng nhiều lần, chẳng hạn cho một dự án theo dõi dài hạn, người nghiên cứu nên đầu tư thời gian học chính thức hoặc nhờ chuyên gia viết lại một cách chỉn chu sau khi đã thử nghiệm xong ý tưởng bằng vibe coding.

Một số khuyến nghị

Đầu tư công sức cho prompt là việc đầu tiên cần làm. Mô tả càng chi tiết về dữ liệu, biến số, và kết quả mong muốn, chất lượng code AI sinh ra càng cao. Một prompt sơ sài thường dẫn tới kết quả sơ sài.

Luôn yêu cầu AI giải thích đoạn code nó vừa viết. Việc này vừa giúp người dùng kiểm tra logic, vừa giúp tích lũy kiến thức lập trình theo thời gian.

Duy trì một thư viện prompt cá nhân là cách tiết kiệm thời gian hiệu quả. Tôi có một file riêng để ghi lại các prompt hữu ích, và khi gặp công việc tương tự thì sử dụng lại có điều chỉnh, thay vì viết từ đầu.

Không cần ngại khi bản thân không biết lập trình. Tôi thấy nhiều đồng nghiệp ngành xã hội có tâm lý mặc cảm khi nhìn người khác dùng AI viết code. Thực ra đây chỉ là một công cụ, không khác gì SPSS hay NVivo về bản chất. Biết cách sử dụng hiệu quả là đủ.

Quan trọng nhất, cần coi AI là trợ lý chứ không phải đồng tác giả. Các công việc tư duy cốt lõi như đặt câu hỏi nghiên cứu, lựa chọn phương pháp, diễn giải kết quả, và đặt phát hiện vào bối cảnh lý thuyết phải thuộc về người nghiên cứu. Đây là phần không thể giao cho AI, vì đó chính là giá trị của người làm khoa học.

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm