Mình chuyên đào tạo kỹ năng R cho các bạn làm nghiên cứu ở nhiều lĩnh vực, vì vậy lộ trình kèm R 1:1 sẽ bao gồm các nội dung linh hoạt thay đổi theo nhu cầu thực tế của các bạn. Dưới đây là các mục chúng ta sẽ làm việc cùng nhau qua các buổi học.
Nội dung này hoàn toàn có thể thiết kế training theo nhóm nghiên cứu nhỏ từ 2-4 bạn hoặc nhiều hơn. Bạn liên hệ trực tiếp với mình để trao đổi cụ thể về nhu cầu đào tạo kỹ năng R cho team làm việc của bạn nhé.
Lưu ý: Một số link truy cập tài liệu sẽ cần có mật khẩu, bạn cần đăng ký học viên R để tải tài liệu về nhé.
Nội dung này ta sẽ học từ section 7 đến 22 trong chuyên đề 1 Coding in R.
Mình sẽ vào máy tính của bạn qua UltraViewer (nếu bạn dùng Windows) hoặc AnyDesk/RuskDesk (nếu bạn dùng MacOS) và code R trên máy tính của bạn, tập trung giải thích về định nghĩa vector trong R và các kỹ thuật subset vector, index, trích xuất dữ liệu từ data frame. Đây là nội dung quan trọng nhất của lộ trình học 1:1 vì cốt lõi của R là đưa toàn bộ dữ liệu về vector để tính toán, do đó ta nắm chắc cơ chế mà R treat dữ liệu ở dạng vector thì các nội dung sau này sẽ học rất nhanh.
Ta áp dụng cách viết báo cáo khả lập sử dụng R Markdown để thuận tiện xuất kết quả và ghi nhớ câu lệnh trong quá trình học. Thông thường ta sẽ học trong 3 buổi để đi qua các lệnh cơ bản về vector, data frame và kỹ thuật subset dữ liệu.
Nội dung này ta sẽ thực hành trên bộ dataset FAOSTAT gồm 3 triệu dòng dữ liệu tương ứng chuyên đề 1+ R Crash Course.
Mình sẽ hướng dẫn bạn các lệnh reshape data dạng long và dạng wide, các lệnh điều kiện if else for loop để trích data theo nhu cầu thường gặp. Các lệnh tạo bảng tần số, crosstab và một số lệnh thống kê mô tả thường dùng. Ta cũng học cách áp dụng package dplyr để sắp xếp dữ liệu, qua lệnh arrange(), mutate(), case_when(), summarize() và dấu pipe operator %>% hay dấu |> để truyền dữ liệu theo chain.
Để thống kê mô tả nhanh dữ liệu, ta sẽ học package table1 cũng như các lệnh tóm tắt dữ liệu nhanh gọn như aggregate(), group_by().
Các bạn ngành y có thể áp dụng package compareGroups để tính Odds Ratios hay p-value cho kiểm định Chi-squared xuất ra bảng kết quả cho toàn bộ dataset.
Ta sẽ cần 3 buổi để đi kỹ các lệnh và tình huống thường gặp qua các bài tập homework, mình sẽ hướng dẫn bạn các cách tiếp cận khác nhau để xử lý hiệu quả bằng R. Đến giai đoạn này bạn đã sẵn sàng để học các chuyên đề nâng cao R một cách thuận lợi.
Để có một khung kiến thức bao quát các lệnh xử lý thống kê thường quy, mình sẽ hướng dẫn theo nội dung sách The R Book, cuốn này do Prof. Michael J. Crawley chủ biên (background biology).
Concept thống kê về các dạng distribution cũng như các bài giảng theo chuyên đề tham khảo ở trang SOGA-R.
Chủ đề kiểm định thống kê t-test, Wilcoxon, kiểm định tham số, kiểm định phi tham số, phân tích power analysis ta sẽ tham khảo ở tài liệu R Companion và Hypothesis testing. Các bạn ngành y, sinh học có thể tham khảo thêm cuốn Introductory Biostatistics của Prof. Le T. Chap. Các tài liệu này mình đã tổng hợp, kèm theo dataset để thuận tiện thực hành.
Chủ đề phân tích nhân tố factor analysis, EFA, CFA, SEM ta sẽ điểm qua các tài liệu được tập hợp ở đây [link]. Cách tiếp cận là mình sẽ hướng dẫn bạn ráp code R theo các ví dụ trong tài liệu và phân tích, biện luận kết quả theo hướng dẫn trong sách. Việc này giúp bạn nhanh chóng đọc tài liệu, kế thừa kinh nghiệm từ các thầy đã tổng hợp.
Phân tích model biến trung gian mediation, biến điều tiết moderator theo hướng dẫn của Prof. David A. Kenny [link].
Tài liệu nhiều quá? Có cách nào học nhanh và dễ hiểu không?
Đừng lo, mình sẽ đi cùng với bạn qua các tài liệu này và diễn giải lại cho bạn theo cách dễ hiểu, thực hành kiểm chứng câu lệnh trong R để bạn thực sự nắm được các model thống kê áp dụng vào case study của bạn. Lộ trình ta sẽ dành 6 buổi để làm rõ các chủ đề thống kê cơ bản để hình dung tổng quát câu chuyện, sau đó sẽ đi sâu hơn vào các chủ đề bạn quan tâm.