Bài 1. Giới thiệu R, một phần mềm (hay nói đúng hơn
là một ngôn ngữ thống kê học) dùng cho phân tích số liệu và vẽ biều
đồ. Nội dung gồm có: hướng dẫn cách tải phần mềm R và thư viện của
R cho phân tích số liệu; cách nhập dữ liệu vào R; cách biên tập dữ
liệu sao cho R có thể xử lí; và một số phương pháp tính toán đơn
giản.
Bài 2. Thống kê mô tả. “Vạn sự khởi đầu nan”, học là
phải học từ căn bản. Do đó, chủ trương của phần này không phải là
tính toán, mà sẽ chú trọng đến ý nghĩa và khái niệm
của một số phương pháp phân tích thống kê mô tả, như ý nghĩa và sự
khác biệt giữa quần thể (population) và mẫu (sample), giữa thông số
(parameters) và ước số (estimates), giữa độ lệch chuẩn (standard
deviation) và sai số chuẩn (standard error), v.v… Nhiều người vẫn
tưởng mình thông hiểu các khái niệm này, nhưng rất tiếc là rất nhiều
người hiểu sai, cho nên cần phải ôn một số khái niệm căn bản đó.
Bài 3. Phân tích bằng biểu đồ. Biểu đồ là một phương
tiện không thể thiếu được trong phân tích số liệu, và cách thức
thiết kế biểu đồ đòi hỏi một suy nghĩ cẩn thận. Trong bài này, tôi
sẽ giới thiệu một số biểu đồ thông dụng trong phân tích thống kê, và
cách vẽ chúng bằng ngôn ngữ R.
Bài 4. Phân tích thống kê mô tả, bao gồm kiểm định
thống kê hai nhóm (two-sample tests) như kiểm định t, kiểm định Chi
bình phương (Chi square test), kiểm định nhị phân (Binomial test),
và một số phương pháp kiểm định phi thông số (non-parametric tests).
Bài 5. Kiểm định thống kê hơn 2 nhóm bao gồm phân
tích phương sai (analysis of variance) đơn giản và phân tích phương
sai đa chiều. Ngoài ra, sẽ bàn qua về các hình thức thí nghiệm
cross-over và factorial cùng những phương pháp phương sai để phân
tích các thí nghiệm này.
Bài 6. Phân tích hồi qui tuyến tính (linear regression
analysis) sẽ giới thiệu mô hình và ý nghĩa (cách diễn dịch) của
các thông số trong mô hình. Sẽ bàn qua phân tích hồi qui tuyến tính
nhiều biến (tức multiple linear regression), và các phương pháp
[mới] để tìm một “mô hình tối ưu”. Khái niệm về một mô hình tối ưu
cũng sẽ được giới thiệu.
Bài 7. Phân tích hồi qui logistic (logistic regression
model) là một trong những phát triển mới trong ngành thống kê
học, rất có ích cho việc phân tích các biến phi liên tục hay các
biến chỉ có hai giá trị (như sống/chết, có/không, thích/không thích,
v.v…). Mô hình phân tích hồi qui logistic cũng sẽ được bàn thảo
bằng những ví dụ cụ thể và thực tế.
Bài 8. Ước tính cỡ mẫu (sample size determination) là
một bước cực kì quan trọng trong bất cứ một công trình nghiên cứu
nào, cho nên trong phần này, tôi sẽ bàn qua khái niệm “power” và hai
loại sai số (type I và type II errors) trong suy luận khoa học, cùng
ảnh hưởng của chúng đến việc ước tính cỡ mẫu. Sau khi bàn qua các
khái niệm này, tôi sẽ giới thiệu một số phương pháp tính cỡ mẫu bằng
R.
Bài 9. Phân tích tổng hợp (meta-analysis) là một
phương pháp được phát triển vào thập niên 1970s để tổng hợp các
nghiên cứu một cách có hệ thống. Cho đến nay phương pháp này được
ứng dụng cực kì rộng rãi trong tất cả các bộ môn khoa học. Do đó,
tôi sẽ nhân cơ hội giới thiệu mô hình và phương pháp phân tích tổng
hợp bằng R.
Tất cả các bài
giảng sẽ được minh họa bằng những ví dụ cụ thể, và kèm theo mã R để
học viên có thể tự mình phân tích. Ngoài ra, các mã và dữ liệu
(datasets) sử dụng trong lớp học sẽ được đưa lên mạng để học viên có
thể tải về máy tính mà không cần phải gõ lại.