Chọn mẫu hệ thống (systematic sampling) là một phương pháp lấy mẫu xác suất nhằm lấy mẫu (sample) đại diện từ một quần thể (population). Khi sử dụng phương pháp này, các nhà nghiên cứu bắt đầu tại một điểm ngẫu nhiên và sau đó tại mỗi khoảng lấy mẫu cố đinh gồm n phần tử của quần thể tính từ điểm ngẫu nhiên đó, chọn mẫu thứ n. Giống như các phương pháp lấy mẫu xác suất khác, các nhà nghiên cứu phải xác định quần thể họ muốn nghiên cứu trước khi lấy mẫu.
Các nhà nghiên cứu sử dụng phương pháp chọn mẫu hệ thống vì nó dễ thực hiện hơn phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) – vốn có thể phải thực hiện khá cồng kềnh với các quần thể lớn. Phương pháp chọn mẫu hệ thống là một quy trình đơn giản hơn vì chỉ cần lựa chọn mẫu đầu tiên một cách ngẫu nhiên, sau đó khoảng lấy mẫu cố định sẽ hoàn thiện phần còn lại của quy trình. Mặc dù quy trình thực hiện đơn giản hơn, phương pháp chọn mẫu hệ thống vẫn có thể chọn ra các mẫu có tính đại diện cho quần thể một cách trung thực.
Chọn mẫu hệ thống còn có một lợi ích khác như không yêu cầu trước một danh sách quần thể đầy đủ, trong khi phương pháp lấy mẫu ngẫu nhiên đơn giản cần phải có danh sách đó.
Bài phân tích sau đây sẽ phân tích sâu hơn về cách tiến hành chọn mẫu hệ thống trong trường hợp có và không có danh sách quần thể. Sau đó, sẽ điểm qua một số nhược điểm tiềm ẩn của phương pháp này và cách giảm thiểu tác động của những nhược điểm đó.
Chọn mẫu hệ thống trong trường hợp có danh sách quần thể
Khi có danh sách quần thể đầy đủ, chọn mẫu hệ thống có quy trình gần giống chọn mẫu ngẫu nhiên đơn giản. Quá trình này chỉ yêu cầu nhìn vào danh sách và chọn các mẫu thứ n trong danh sách. Hãy tưởng tượng nhà nghiên cứu đang lấy mẫu học sinh trong một quận và có danh sách tất cả học sinh tại quận đó. Đơn giản người này chỉ cần bắt đầu tại một điểm ngẫu nhiên trong danh sách và sau đó cứ chọn người thứ 50 trong mỗi 50 học sinh Bùm! Vậy là đã có một mẫu đại diện của các học sinh trong quận.
Các lưu ý về danh sách
Khi tiến hành chọn mẫu hệ thống, cần phải hiểu quy luật được dùng để sắp xếp danh sách.
Tốt nhất là danh sách nên được sắp xếp theo thứ tự ngẫu nhiên hoặc giả ngẫu nhiên (ví dụ: theo thứ tự bảng chữ cái) vì chọn mẫu hệ thống sẽ tương tự lấy mẫu ngẫu nhiên đơn giản. Một cách làm khác là sắp xếp danh sách theo thứ tự giảm dần / tăng dần theo một đặc điểm nào đó. Trong trường hợp này, chọn mẫu hệ thống vẫn có xu hướng chọn một mẫu đại diện vì quy trình cũng bắt đầu tại một điểm ngẫu nhiên và lấy mẫu tại các khoảng đều đặn cho đến kết thúc danh sách.
Ví dụ: trong một công ty, bạn có thể sắp xếp danh sách theo số năm kinh nghiệm tăng dần. Trong trường hợp này, chọn mẫu hệ thống sẽ bắt đầu với các thành viên mới gia nhập công ty rồi tới những người có nhiều kinh nghiệm hơn. Tuy nhiên, có thể thấy là không nhất thiết phải sắp xếp theo kinh nghiệm để có được mẫu đại diện.
Hãy chú ý đến các chu kỳ hoặc quy luật trong danh sách quần thể vì chúng có thể khiến việc chọn mẫu hệ thống tạo ra mẫu có thiên kiến nhất định, không mang tính đại diện. Ví dụ: nếu nhà nghiên cứu có một danh sách xoay quanh mười phòng ban trong một công ty, thì mỗi mẫu quan sát thứ 10 hoặc 20 sẽ là người từ cùng một phòng ban! Người này cần hiểu danh sách của mình và nhận biết bất kỳ quy luật ngầm nào trong danh sách.
Nếu danh sách của bạn có một quy luật có vấn đề, chỉ cần sắp xếp lại danh sách để loại bỏ quy luật đó! Sau đó tiến hành chọn mẫu hệ thống. Các nhà thống kê coi việc sắp xếp theo thứ tự bảng chữ cái là có thể chấp nhận được đối với việc chọn mẫu hệ thống. Ví dụ: với công ty có mười phòng ban, bạn có thể sắp xếp lại danh sách theo thứ tự bảng chữ cái, theo năm kinh nghiệm hoặc ngẫu nhiên để loại bỏ quy luật vòng lặp theo phòng ban.
Tính khoảng lấy mẫu cố định
Để tiến hành chọn mẫu hệ thống, cần tính toán khoảng lấy mẫu cố định.
Lấy kích thước của quần thể và chia cho kích thước mẫu mục tiêu để tính khoảng lấy mẫu (n). Sau đó, chọn mọi mẫu thứ n trong danh sách.
Khoảng lấy mẫu cố định (n) = Cỡ quần thể / Cỡ mẫu
Ví dụ: nếu quy mô quần thể của bạn là 20.000 người và muốn mẫu có quy mô 500 người, thì cần chọn mỗi người thứ 40 trong danh sách (20.000 / 500 = 40).
Trước khi chọn mẫu, các nhà nghiên cứu nên chọn ngẫu nhiên điểm bắt đầu trong danh sách và chọn khoảng lấy mẫu cố định. Đưa ra những quyết định trước giúp tránh rủi ro thao túng dữ liệu!
Chọn mẫu hệ thống trong trường hợp không có danh sách quần thể
Không giống như lấy mẫu ngẫu nhiên đơn giản và lấy mẫu phân tầng (stratified sampling), chọn mẫu hệ thống có thể được sử dụng trong trường hợp không có danh sách quần thể đầy đủ. Cách chọn mẫu này, do đó, là một lựa chọn tốt cho những nhóm quần thể khó lưu trữ dữ liệu đầy đủ, chẳng hạn như nhóm người vô gia cư, đơn giản vì danh sách này không tồn tại. Yêu cầu chính là các nhà nghiên cứu biết cách xác định vị trí của những nhóm quần thể này, hiểu được thói quen của nhóm và có thể tương tác với nhóm. Mặc dù việc lấy mẫu không thể hoàn hảo trong những trường hợp này, ít nhất chọn mẫu hệ thống là một lựa chọn khả thi, không giống như các phương pháp lấy mẫu khác yêu cầu danh sách đầy đủ.
Ví dụ: bạn muốn khảo sát khách hàng tại một cửa hàng nhưng không có danh sách đầy đủ tất cả khách hàng. Thay vào đó, bạn có thể sử dụng phương pháp chọn mẫu hệ thống và thực hiện khảo sát cho mọi khách hàng thứ 20 rời cửa hàng. Phương pháp này khả thi vì khách hàng rời đi một cách ngẫu nhiên.
Khi sử dụng phương pháp chọn mẫu hệ thống theo cách này, cần hiểu kỹ về hành vi của quần thể. Ví dụ: có thể có nhiều loại khách hàng khác nhau trong cửa hàng vào những thời điểm khác nhau. Cửa hàng có thể đón nhiều khách là người đã nghỉ hưu hơn vào ban ngày các ngày trong tuần, đón nhiều thanh thiếu niên sau giờ học và những người đi làm vào buổi tối và cuối tuần. Và, nếu cửa hàng có nhiều chi nhánh, sẽ cần phải lấy mẫu ở các chi nhánh khác nhau.
Việc sử dụng phương pháp chọn mẫu hệ thống mà không có danh sách đòi hỏi phải lập kế hoạch cẩn thận về thời gian và địa điểm lấy mẫu; cần chọn mẫu từ tất cả các nhóm con theo tỷ lệ chính xác. Việc làm này sẽ mất khá nhiều công sức để tiến hành! Tuy nhiên, nếu không có danh sách quần thể, sẽ cần sử dụng một phương pháp như chọn mẫu hệ thống để có được mẫu đại diện cho quần thể một cách hợp lý.
Trong khi đó, lấy mẫu theo cụm (cluster sampling) không yêu cầu danh sách quần thể đầy đủ nhưng yêu cầu danh sách một phần của quần thể. Chọn mẫu thuận tiện (convenience sampling) cũng không cần danh sách nhưng kết quả lại ít hữu ích nhất.
Hạn chế của Chọn mẫu hệ thống
Qua những phân tích trên, có thể thấy rằng chọn mẫu hệ thống mang lại những lợi ích quan trọng như sự đơn giản và không yêu cầu danh sách quần thể đầy đủ. Tuy nhiên, phương pháp này cũng có một số nhược điểm tiềm ẩn.
Các vòng lặp trong danh sách
Nếu sử dụng danh sách quần thể, phương pháp chọn mẫu hệ thống rất giống phương pháp lấy mẫu ngẫu nhiên đơn giản. Tuy nhiên, chất lượng của mẫu cuối cùng phụ thuộc vào việc danh sách có các vòng lặp hay không. Một danh sách với các vòng lặp có thể cho ra mẫu không có tính đại diện tốt. Suy cho cùng, việc chọn mẫu hệ thống trong trường hợp có danh sách quần thể vẫn không hoàn toàn ngẫu nhiên như chọn mẫu ngẫu nhiên đơn giản. May mắn thay, có thể thực hiện một số kỹ thuật phòng ngừa đơn giản để hạn chế rủi ro này. Ví dụ: các nhà thống kê coi việc sắp xếp danh sách theo thứ tự bảng chữ cái là đủ ngẫu nhiên và có thể loại bỏ bất kỳ vòng lặp nào khỏi danh sách!
Thao túng dữ liệu
Bất cứ khi nào các nhà nghiên cứu tạo ra một hệ thống không ngẫu nhiên, việc làm này sẽ tăng khả năng thao túng dữ liệu, ngay cả khi vô tình. Do phương pháp này cho phép các nhà nghiên cứu được chọn cả điểm bắt đầu và khoảng lấy mẫu cố định, nguy cơ thao túng dữ liệu là dễ hiểu. Tuy nhiên, nếu yêu cầu các nhà nghiên cứu đưa ra những quyết định chọn điểm bắt đầu và khoảng lấy mẫu cố định ngay từ trước khi nghiên cứu thì rủi ro này có thể được giảm thiểu.
Nguồn
Jim Frost. (n.d.). Systematic Sampling. StatisticsByJim.
--- Bài viết này có hữu ích không? ---
Nhấn sao để đánh giá!
Đánh giá trung bình 3.7 / 5. Số đánh giá: 3
Chưa có đánh giá.