Phương pháp chọn mẫu ngẫu nhiên đơn giản

Phương pháp chọn mẫu ngẫu nhiên đơn giản (SRS – simple random sampling) là phương pháp lấy mẫu bằng cách chọn ngẫu nhiên một số khách thể từ quần thể (population). Toàn bộ cá thể trong quần thể đều có xác suất được chọn như nhau. Phương pháp này nhằm tạo nên các mẫu có độ đại diện cao và không thiên vị.

Ảnh: Fausto Montanari via Behance | CC BY-NC-ND 4.0

Ví dụ như bạn chọn 1000 người từ một thị trấn có dân số 100,000 người, mỗi người sẽ có 1000/100000 = 0.01 khả năng được chọn. Đây chỉ là một phép tính rất đơn giản và không đòi hỏi thêm bất cứ thông tin nào về thành phần dân số thị trấn ấy, nói cách khác, đây là lấy mẫu ngẫu nhiên đơn giản.

Phương pháp chọn mẫu ngẫu nhiên đơn giản giúp đảm bảo mẫu phản ánh được quần thể. Quá trình lẫy mấu sẽ lấy cá thể ở các tập hợp con lớn thường xuyên hơn các tập hợp con bé hơn. Để dễ hiểu, cho rằng thị trấn đó có thành phần dân số A với 40,000 người và thành phần dân số B với 10,000 người. Sử dụng SRS với xác suất 0.01, quá trình lấy mẫu sẽ đưa ra kết quả với 400 người từ thành phần A và 100 từ thành phần B. Quá trình này luôn đưa ra một mẫu mà các tập hợp con đều được đại diện với tỷ lệ tương đương với tỷ lệ của toàn bộ quần thể. Bạn không cần phải biết chi tiết về toàn bộ các tập con của quần thể để có thể dùng phương pháp này.

Cách sử dụng phương pháp chọn mẫu ngẫu nhiên đơn giản

Thực hành phương pháp SRS đòi hỏi bạn phải có danh sách toàn bộ thành viên trong quần thể. Ngoài ra bạn cũng đảm bảo mình có thể liên lạc và vận động những người được chọn tham gia vào nghiên cứu của mình.

Để thực hành chọn mẫu ngẫu nhiên đơn giản, hãy làm theo các bước dưới đây:

  1. Xác định quần thể
  2. Tạo một danh sách có toàn bộ thành viên của quần thể
  3. Cho mỗi thành viên một số ngẫu nhiên
  4. Dùng công cụ tạo số ngẫu nhiên để chọn mẫu cho đến khi đủ số lượng bạn cần

Trong trường hợp quần thể không quá lớn, bạn có thể dùng một hệ thống sổ xố để chọn ra mẫu, ví dụ như cho toàn bộ những mẩu giấy có tên của thành viên vào một chiếc mũ và bốc ngẫu nhiên. Ở các quần thể lớn, các nhà nghiên cứu thường dùng máy tính để chọn mẫu một cách ngẫu nhiên từ dữ liệu của họ.

Ví dụ về chọn mẫu ngẫu nhiên

Hãy tưởng tượng ta đang nghiên cứu một thị trấn có 100,000 dân và chúng ta muốn sử dụng SRS để có được một mẫu có kích cỡ là 1000. Bước đầu tiên, chúng ta cần xác định quần thể, ở đây chúng ta quy ước rằng đó là những người đang sinh sống ở thị trấn, trả thuế cho tòa thị chính và không nhỏ hơn 18 tuổi.

Bước tiếp theo, chúng ta cần tạo một danh sách có toàn bộ các cư dân đạt các tiêu chí trên, Có thể chúng ta sẽ làm việc với văn phòng thuế của tòa thị chính để có được danh sách. Hãy nhớ là phải thêm tất cả những cư dân đạt điều kiện vào danh sách và không được bỏ sót người nào.

Cuối cùng, chúng ta cần chọn ra một mẫu một cách ngẫu nhiên từ danh sách. Chúng ta có thể dùng chương trình máy tính để làm việc này. Hoặc ta sẽ in những tờ giấy nhỏ có chứa tên của từng người một và bốc ra 1000 cái tên từ chiếc hộp kín.

Lợi ích của phương pháp chọn mẫu ngẫu nhiên đơn giản

Rất nhiều nhà thống kê cho rằng SRS chính là chuẩn mực của việc tạo nên các mẫu có tính đại diện cao, vì toàn bộ quá trình diễn ra một cách ngẫu nhiên sẽ giảm thiểu khả năng nhà nghiên cứu thiên vị khi lấy mẫu, cho dù họ không cố ý làm vậy. Khi tìm hiểu sâu hơn nữa, bạn sẽ biết còn có rất nhiều các cách lấy mẫu khác giúp giảm bớt những khó khăn khi lấy mẫu trong thế giới thực. Thật không may, những cách ấy có thể vô tình tạo nên những mẫu sai lệch.

Về mặt quy trình, SRS chính là các đơn giản nhất để có được một mẫu không thiên vị. Dù nhà nghiên cứu cần có một danh sách chứa toàn bộ toàn thể, nhưng họ không cần phải có những thông tin khác về quần thể đó như là các tập hợp con, các đặc tính của nó.

Ngược lại, những cách lấy mẫu phức tạp hơn đòi hỏi nhà nghiên cứu phải hiểu được bản chất của quần thể, sau đó dùng những kiến thức đó để lên trước kế hoạch. Họ sẽ phải chia quần thể thành những tầng hoặc những khối khác nhau và phải thực hiện những quy trình khác trước khi bắt đầu lấy mẫu. Với SRS, bạn đơn giản chỉ cần rút một số cá thể từ danh sách ra cho đến khi bạn có đủ số lượng. 

Bởi SRS thường cho ra kết quả không thiên vị và phản ánh hoàn hảo quần thể, cách này rất hữu hiệu để những nhà thống kê cần mẫu để suy luận thuộc tính của quần thể (thống kê suy diễn – inferential statistics). Trong một nghiên cứu, việc có được một mẫu có tính đại diện cao sẽ cải thiện cả nội hiệu lực và ngoại hiệu lực. Sau khi lấy mẫu ngẫu nhiên đơn giản, bạn có thể dùng phương pháp kiểm định giả thiết thống kê để dùng mẫu làm cơ sở đưa ra kết luận cho quần thể.

Hạn chế của phương pháp chọn mẫu ngẫu nhiên đơn giản

Dù cho SRS có rất nhiều lợi ích, tuy nhiên nó cũng có những hạn chế đáng kể

Danh sách quần thể

Đầu tiên và trước nhất, phương pháp này đôi lúc sẽ khá cồng kềnh và đòi hỏi nguồn lực lớn nếu như quần thể của ta lớn. Bạn sẽ cần một danh sách chứa toàn bộ thành viên của quần thể, riêng việc này đã là một rào cản tương đối lớn. Nếu như danh sách đó chưa được lập ra, bạn sẽ phải cân nhắc một lượng tài nguyên đáng kể để lập nên một danh sách như vậy. Một danh sách không hoàn thiện sẽ làm kết quả của bạn bị sai lệch và chỉ có một danh sách hoàn thiện mới cho phép nhà nghiên cứu phân chia đều xác suất được chọn cho toàn bộ quần thể.

Hậu cần

Sau đó bạn sẽ phải liên lạc và giao tiếp với toàn bộ những người mà bạn đã chọn. Tùy thuộc vào bản chất nghiên cứu của bạn, quá trình này có thể rất đất đỏ và tốn thời gian nếu những người tham gia trải dài trên một khu vực địa lý rộng lớn, đặc biệt là khi bạn đang cần một mẫu có kích thước lớn hơn.

Thiếu đi đại diện từ các nhóm siêu nhỏ

Dù cho toàn bộ quá trình là ngẫu nhiên, SRS vẫn có thể bỏ qua một số thành phần con quan trọng và một số đặc tính của quần thể. Ví dụ như một thị trấn có 100000 cư dân, tưởng tượng ta đang đặc biệt quan tâm đến việc khảo sát những người lớn hơn 90 tuổi. Bạn lên kế hoạch để thu thập một mẫu có kích cỡ là 1000, tức là 1 trên 100 cư dân. Tuy nhiên, chỉ có 50 người trong thị trấn lớn hơn 90 tuổi. Mẫu của bạn có thể sẽ không có bất kỳ ai trong nhóm quan trọng này. Và dù nếu có, con số sẽ rất nhỏ để có thể cung cấp một bức tranh rõ rệt về nhóm này.

SRS có thể thất bại trong việc đưa ra dữ liệu chính xác về một nhóm nhỏ cụ thể cũng như sự khác biệt giữa các thành phần. Những cách chọn mẫu khác có thể đảm bảo nhóm nhỏ vẫn có một số lượng hiệu quả để có thể đưa ra một bức tranh rõ ràng và tăng khả năng so sánh giữa các nhóm.

So sánh chọn mẫu ngẫu nhiên đơn giản và các phương pháp khác

Bởi vì bạn cần danh sách toàn bộ quần thể, cách chọn mẫu ngẫu nhiên đơn giản sẽ khả thi nhất ở các mẫu tương đối nhỏ và đã được xác định. Ví dụ như, nếu bạn đang khảo sát một công ty thì có thể bạn sẽ dễ dàng có được danh sách nhân viên từ phòng HR, thực hiện SRS sẽ không quá khó khăn. Còn những quần thể lớn hơn sẽ đòi hỏi nhiều thời gian và công sức hơn chỉ để lập một danh sách hoàn chỉnh. SRS là một lựa chọn tốt nếu như bạn không có quá nhiều hiểu biết về quần thể ngoài thành viên của nó.

Những cách chọn mẫu khác sẽ hiệu quả hơn khi việc tạo nên một danh sách chứa toàn bộ quần thể quá khó khăn, khi quần thể của bạn quá lớn và phân tán, hoặc khi bạn cần đảm bảo sự đại diện đầy đủ của từng thành phần con. Những phương pháp khác có thể không yêu cầu phải thu thập một danh sách đầy đủ và giảm nhẹ sự đau đầu của nhà nghiên cứu trong việc liên lạc người tham gia ở các nghiên cứu trải rộng về địa lý.

Ví dụ như, một cơ quan thăm dò ý kiến quốc gia thường cân nhắc những phương pháp khác SRS để đánh giá sự khác nhau giữa các thành phần con, như là giới tính, dân tộc và độ tuổi.

Không như SRS, những phương pháp này thường yêu cầu bạn phải có hiểu biết rất rõ về quần thể của mình. Hãy cân nhắc những phương pháp sau đây khi bạn vẫn muốn có một mẫu có tính đại diện cao mà không cần dùng SRS:

  • Chọn mẫu hệ thống (systematic sampling: Sử dụng một điểm khởi đầu ngẫu nhiên rồi sau đó lấy mẫu cách khoảng cố định. Cách này không cần danh sách của toàn quần thể.
  • Chọn mẫu phân tầng (stratified sampling): Chia quần thể thành những tầng khác nhau. Hãy đảm bảo rằng mẫu luôn bao gồm các thành phần con cụ thể và phân biệt rõ ràng sự khác nhau giữa chúng.
  • Chọn mẫu theo cụm (cluster sampling): Chia quần thể thành nhiều nhóm sao cho các nhóm phản ánh đầy đủ quần thể. Sau đó bạn chọn ngẫu nhiên một tập hợp con từ các nhóm. Cách này sẽ giảm đi yêu cầu phải có một danh sách hoàn chỉnh và làm dịu đi các vấn đề liên lạc và vận động.

Trái với các phương pháp lấy mẫu có tính đại diện cao, hãy tìm hiểu về lấy mẫu thuận tiện (convenience sampling), cách này thường sẽ tạo ra một mẫu có độ thiên vị cao.

Dịch từ Statistics by Jim

--- Bài viết này có hữu ích không? ---

Nhấn sao để đánh giá!

Đánh giá trung bình 0 / 5. Số đánh giá: 0

Chưa có đánh giá.

Có thể bạn quan tâm

Tin Hot

Tin đang nổi

Theo dõi

Tin ảnh