page left

Chương trình Workshop

Phân tích số liệu và biểu đồ bằng R

Bài 1. Giới thiệu R, một phần mềm (hay nói đúng hơn là một ngôn ngữ thống kê học) dùng cho phân tích số liệu và vẽ biều đồ. Nội dung gồm có: hướng dẫn cách tải phần mềm R và thư viện của R cho phân tích số liệu; cách nhập dữ liệu vào R; cách biên tập dữ liệu sao cho R có thể xử lí; và một số phương pháp tính toán đơn giản.

Bài 2. Thống kê mô tả. “Vạn sự khởi đầu nan”, học là phải học từ căn bản. Do đó, chủ trương của phần này không phải là tính toán, mà sẽ chú trọng đến ý nghĩa và khái niệm của một số phương pháp phân tích thống kê mô tả, như ý nghĩa và sự khác biệt giữa quần thể (population) và mẫu (sample), giữa thông số (parameters) và ước số (estimates), giữa độ lệch chuẩn (standard deviation) và sai số chuẩn (standard error), v.v… Nhiều người vẫn tưởng mình thông hiểu các khái niệm này, nhưng rất tiếc là rất nhiều người hiểu sai, cho nên cần phải ôn một số khái niệm căn bản đó.

Bài 3. Phân tích bằng biểu đồ. Biểu đồ là một phương tiện không thể thiếu được trong phân tích số liệu, và cách thức thiết kế biểu đồ đòi hỏi một suy nghĩ cẩn thận. Trong bài này, tôi sẽ giới thiệu một số biểu đồ thông dụng trong phân tích thống kê, và cách vẽ chúng bằng ngôn ngữ R.

Bài 4. Phân tích thống kê mô tả, bao gồm kiểm định thống kê hai nhóm (two-sample tests) như kiểm định t, kiểm định Chi bình phương (Chi square test), kiểm định nhị phân (Binomial test), và một số phương pháp kiểm định phi thông số (non-parametric tests).

Bài 5. Kiểm định thống kê hơn 2 nhóm bao gồm phân tích phương sai (analysis of variance) đơn giản và phân tích phương sai đa chiều. Ngoài ra, sẽ bàn qua về các hình thức thí nghiệm cross-over và factorial cùng những phương pháp phương sai để phân tích các thí nghiệm này.

Bài 6. Phân tích hồi qui tuyến tính (linear regression analysis) sẽ giới thiệu mô hình và ý nghĩa (cách diễn dịch) của các thông số trong mô hình. Sẽ bàn qua phân tích hồi qui tuyến tính nhiều biến (tức multiple linear regression), và các phương pháp [mới] để tìm một “mô hình tối ưu”. Khái niệm về một mô hình tối ưu cũng sẽ được giới thiệu.

Bài 7. Phân tích hồi qui logistic (logistic regression model) là một trong những phát triển mới trong ngành thống kê học, rất có ích cho việc phân tích các biến phi liên tục hay các biến chỉ có hai giá trị (như sống/chết, có/không, thích/không thích, v.v…). Mô hình phân tích hồi qui logistic cũng sẽ được bàn thảo bằng những ví dụ cụ thể và thực tế.

Bài 8. Ước tính cỡ mẫu (sample size determination) là một bước cực kì quan trọng trong bất cứ một công trình nghiên cứu nào, cho nên trong phần này, tôi sẽ bàn qua khái niệm “power” và hai loại sai số (type I và type II errors) trong suy luận khoa học, cùng ảnh hưởng của chúng đến việc ước tính cỡ mẫu. Sau khi bàn qua các khái niệm này, tôi sẽ giới thiệu một số phương pháp tính cỡ mẫu bằng R.

Bài 9. Phân tích tổng hợp (meta-analysis) là một phương pháp được phát triển vào thập niên 1970s để tổng hợp các nghiên cứu một cách có hệ thống. Cho đến nay phương pháp này được ứng dụng cực kì rộng rãi trong tất cả các bộ môn khoa học. Do đó, tôi sẽ nhân cơ hội giới thiệu mô hình và phương pháp phân tích tổng hợp bằng R.

Tất cả các bài giảng sẽ được minh họa bằng những ví dụ cụ thể, và kèm theo mã R để học viên có thể tự mình phân tích. Ngoài ra, các mã và dữ liệu (datasets) sử dụng trong lớp học sẽ được đưa lên mạng để học viên có thể tải về máy tính mà không cần phải gõ lại.