1. Bước 1: Thống kê mô tả (Descriptive Statistics)
Đây là bước "vẽ chân dung" mẫu nghiên cứu của bạn. Trước khi tìm hiểu sâu xa, bạn phải cho hội đồng khoa học biết: bệnh nhân của bạn là ai, bao nhiêu tuổi, nam hay nữ, tình trạng bệnh lúc nhập viện ra sao.
Cách trình bày phụ thuộc hoàn toàn vào loại biến số:
Biến định tính (Danh định / Thứ tự): Phân loại thành các nhóm (ví dụ: Giới tính, Nhóm máu, Mức độ bệnh).
Cách mô tả: Dùng Tần số (n) và Tỷ lệ phần trăm (%).
Ví dụ: Có 45 bệnh nhân nam, chiếm 60%.
Biến định lượng (Liên tục / Rời rạc): Các con số đo lường được (ví dụ: Tuổi, Huyết áp, Nồng độ Glucose, Chiều cao).
Nếu dữ liệu phân bố chuẩn (Hình quả chuông): Dùng Số trung bình (Mean) và Độ lệch chuẩn (SD). Ví dụ: Tuổi trung bình là 55 ± 12.
Nếu dữ liệu phân bố không chuẩn (Bị lệch): Dùng Trung vị (Median) và Khoảng tứ phân vị (IQR). Ví dụ: Thời gian nằm viện trung vị là 7 ngày (IQR: 5 - 10). Thời gian nằm viện hiếm khi phân bố chuẩn vì có vài bệnh nhân nằm viện rất lâu kéo dãn dữ liệu.
2. Bước 2: Thống kê suy luận (Inferential Statistics)
Bước này dùng để so sánh các nhóm hoặc tìm mối liên quan giữa 2 biến số (Bivariate analysis). Để chọn đúng phép kiểm (Test), bạn cần xác định xem mình đang so sánh loại biến số nào với nhau.
Bảng hướng dẫn chọn phép kiểm thống kê cơ bản:
| Mục tiêu phân tích | Đặc điểm biến số | Phép kiểm thống kê (Test) |
|---|---|---|
| So sánh 2 tỷ lệ (Ví dụ: Tỷ lệ tử vong giữa nhóm dùng thuốc A và thuốc B) | Cả 2 biến đều là Định tính | Chi-square (Khi-bình phương) hoặc Fisher's Exact (nếu cỡ mẫu nhỏ). |
| So sánh 2 số trung bình (Ví dụ: Huyết áp trung bình giữa nam và nữ) | 1 biến Định tính (2 nhóm) & 1 biến Định lượng (Phân bố chuẩn) | T-test độc lập (Independent T-test). |
| So sánh > 2 số trung bình (Ví dụ: Chỉ số BMI giữa 3 nhóm: Suy dinh dưỡng, Bình thường, Béo phì) | 1 biến Định tính (>2 nhóm) & 1 biến Định lượng (Phân bố chuẩn) | Phân tích phương sai ANOVA. |
| So sánh trước - sau (Ví dụ: Điểm đau VAS trước và sau khi tiêm thuốc 1 giờ) | 1 biến Định lượng đo trên CÙNG 1 người ở 2 thời điểm | T-test bắt cặp (Paired T-test). |
| Tìm mối tương quan (Ví dụ: Liên quan giữa tuổi bệnh nhân và mức lọc cầu thận eGFR) | Cả 2 biến đều là Định lượng | Hệ số tương quan Pearson (phân bố chuẩn) hoặc Spearman (không chuẩn). |
Lưu ý quan trọng: Nếu biến định lượng của bạn không có phân bố chuẩn, bạn không được dùng T-test hay ANOVA, mà phải dùng các phép kiểm phi tham số tương ứng (Mann-Whitney U, Kruskal-Wallis, Wilcoxon).
3. Bước 3: Phân tích đa biến (Multivariable Analysis)
Trong y học, một căn bệnh hiếm khi do một nguyên nhân duy nhất gây ra. Ví dụ: Bạn thấy nhóm uống cà phê có tỷ lệ nhồi máu cơ tim cao hơn. Nhưng thực tế, những người uống cà phê lại thường hay hút thuốc lá. Vậy nhồi máu cơ tim do cà phê hay do thuốc lá?
Lúc này, các phép kiểm ở Bước 2 (chỉ xét 2 biến) sẽ bị sai lệch. Bạn cần đưa tất cả các yếu tố vào một mô hình hồi quy (Regression model) để "kiểm soát" các yếu tố gây nhiễu.
Hồi quy tuyến tính (Linear Regression): Dùng khi hậu quả (Biến phụ thuộc) là một biến định lượng (Ví dụ: Dự đoán con số huyết áp tâm thu).
Hồi quy Logistic (Logistic Regression): Dùng khi hậu quả là một biến định tính nhị giá (Ví dụ: Sống/Chết, Mắc bệnh/Không mắc bệnh).
4. Hiểu đúng về giá trị p (p-value) và Khoảng tin cậy 95% (95% CI)
Rất nhiều báo cáo tại bệnh viện mắc một lỗi kinh điển: Thần thánh hóa giá trị p.
p-value < 0.05: Chỉ mang ý nghĩa là "Sự khác biệt này có thể không phải do ngẫu nhiên". Nó KHÔNG có nghĩa là sự khác biệt đó có giá trị trên lâm sàng. Ví dụ, một loại thuốc mới làm giảm huyết áp 0.5 mmHg so với thuốc cũ, thống kê ra p < 0.01. Về mặt toán học là có ý nghĩa, nhưng về mặt lâm sàng, giảm 0.5 mmHg không mang lại lợi ích thực tế nào cho bệnh nhân.
Khoảng tin cậy 95% (95% CI): Đây mới là con số các bác sĩ nên quan tâm. Nó cho biết giới hạn thực tế của kết quả nằm ở đâu. Nếu 95% CI rất hẹp, kết quả của bạn rất đáng tin cậy. Nếu CI quá rộng, cỡ mẫu của bạn có thể chưa đủ lớn.
- Đăng nhập để gửi ý kiến