Hướng dẫn lựa chọn model xử lý thống kê phù hợp - Statistical Test Selection Tool [Facebook]
Phần khó nhất của câu chuyện xử lý thống kê là giai đoạn bắt đầu (cần phải biết rõ nên bắt đầu từ đâu? và tại sao lại bắt đầu ở chỗ đó mà không phải chỗ khác) hay còn gọi là cách tiếp cận vấn đề phù hợp với case/dataset quan tâm. Và một trong những cái khó nhất ở giai đoạn này chính là tìm ra một mô hình xử lý thống kê phù hợp với bản chất bộ dữ liệu bạn đang có. (tạm dịch từ trang 388, Crawley, Michael J. The R Book. 2nd ed. Chichester, West Sussex, United Kingdom: Wiley, 2013.)
Như vậy, việc hiểu rõ cả bản chất bộ dữ liệu (đặc điểm dữ liệu) thuộc nhóm định tính hay định lượng, biến liên tục hay phân loại theo sơ đồ này https://tuhocr.netlify.app/tong-quat.svg (cũng là sơ đồ căn bản để ta có cơ sở import dataset vào R để lưu trong các đối tượng phù hợp như dataframe, vector hay matrix). Đồng thời, ta cần hiểu rõ bản chất của từng công cụ kiểm định thống kê (tools for statistical tests) để lựa chọn cách kiểm định phù hợp với dataset (lựa model toán phù hợp với dataset, chứ không ép dataset raw data vào một mô hình toán cứng nhắc vì như vậy là không đúng bản chất xử lý thống kê).
OK, thống nhất ở cách nhìn nhận vấn đề như trên thì bạn sẽ có 1 nhu cầu rất tự nhiên là: "Giá như có ai đó đã xem qua hết một lượt các thể loại dữ liệu thường gặp và đề xuất các phương pháp xử lý thống kê phù hợp cho dataset đó thì hay biết mấy!"
Đúng là như vậy, và mình giới thiệu các bạn nỗ lực hệ thống hóa các phương pháp kiểm định thống kê theo kiểu cây quyết định để trợ giúp cho nhà nghiên cứu (là bạn) trong việc nên lựa chọn cách kiểm định thống kê nào là phù hợp với câu hỏi/giả thuyết nghiên cứu của bạn về bộ dataset hiện có.
1/ Đầu tiên là bạn có thể xem cuốn Statistical Rethinking này https://www.facebook.com/groups/tuhocr/posts/896183334787712/ có một sơ đồ khá hoàn chỉnh overview về quy trình chọn lựa các test thống kê căn cứ trên các chỉ số thường gặp trong bộ dữ liệu (vd nếu data không có phân bố chuẩn thì nên chọn phương pháp nào phù hợp).
2/ Nếu bạn cần thêm 1 nguồn nữa kiểm chứng xem sơ đồ này có ổn hay không, thì bạn tham khảo trang https://inspect-lb.org/statistical-tests/ của một nhóm nghiên cứu y sinh đa ngành (Created in January 2018, INSPECT-LB – a non-profit, independent research group of motivated multi-university and multidisciplinary researchers and academics) về hướng dẫn lựa chọn các test thống kê phù hợp. Trên này cũng có công cụ Bias Inspector giúp đánh giá các điểm bias trong nghiên cứu. Cách tiếp cận của nhóm này rất trực tiếp, bạn chọn đặc điểm dataset sau đó có các câu hỏi về dataset đó nếu dữ liệu của bạn có chứa đặc điểm nào thì công cụ này sẽ recommend bạn nên dùng test kiểm định đó cho phù hợp.
3/ Trên internet cũng có một số trang về quy trình lựa chọn kiểm định thống kê, ví dụ trang này https://statkat.com/statistical-technique-selection/tool-for-selecting-a-statistical-technique.php hướng dẫn chi tiết hơn kèm theo công thức toán của phép kiểm định đó.
Nhìn chung, theo thời gian thì kinh nghiệm xử lý và biện luận kết quả thống kê từ các loại dataset khác nhau đã được các nhóm nghiên cứu họ tích lũy lại và hệ thống hóa dần dần. Do đó ngày nay việc tìm kiếm cách biện luận dữ liệu không còn khó khăn như trước nữa. Câu chuyện còn lại là bạn cần nắm vững tool R là phần mềm giúp bạn xử lý nhanh gọn lẹ các phép kiểm định thống kê này, và xuất ra file báo cáo ở dạng PDF hay HTML qua rmarkdown giúp viết báo cáo khả lập nhanh chóng. Vì vậy, cách tiếp cận của mình khi training R cho học viên qua các chuyên đề ở www.tuhocr.com về câu chuyện thống kê là mình tập trung hướng dẫn cách sử dụng R (hiểu R hoạt động như thế nào) vì đây là mảng kiến thức cũng còn khá mới ở VN, còn việc ráp code R vào xử lý và biện luận kết quả thống kê thì chúng ta yên tâm là khối kiến thức này đã hoàn chỉnh cho những case thông thường, còn những dataset hay câu hỏi phức tạp hơn thì luôn có các group chuyên ngành để giải đáp cho bạn, một khi, bạn đã *sẵn sàng*.
Chúc mọi người cuối tuần vui vẻ. Happy learning small things everyday.