Về phương pháp thống kê xử lý dữ liệu điều tra tình trạng tài chính người bệnh 2014

Posted on August 30, 2014 by

3


Op-Economica, 30-8-2014 — Cách đây 3 tuần, chúng tôi đề xuất việc nghiên cứu về tình trạng tài chính (năng lực thanh toán chi phí y tế) của bệnh nhân dựa trên việc trực tiếp khảo sát từ mẫu ngẫu nhiên trên địa bàn Hà Nội. (về việc khảo sát và mục đích, tham khảo bài cũ: Nghiên cứu về điều kiện kinh tế của bệnh nhân).

Đến hôm nay, trước ngày nghỉ lễ, số ca điều trị có dữ liệu chất lượng tốt đã thu được n=88. Cũng không hẳn là nhiều, nhưng bước đầu là con số không bé, và là kết quả đáng trân trọng của bác Kiên Cường. Có thể thấy là dữ liệu thu về đang tăng theo luật đường cong kinh nghiệm theo từng tuần: n_{T1}=25; n_{T2}=28; n_{T3}=35.

Như vậy, cho dù gián đoạn 2 ngày nghỉ lễ tuần tới, hết tuần đầu tháng 9-2014, số lượng ca điều trị thu hồi được chắc chắn vượt 100, một mốc quan trọng đầu tiên. Tối thiểu, n=200 đã cho phép mẫu có giá trị kết luận tương đối khả quan. Trường hợp mẫu tốt được cho là nằm trong khoảng (500,1000) ca.

Như vậy, phần công sức khó nhọc, nhiều trăn trở của bác Cường, sớm muộn rồi cũng về đích, và mục tiêu mẫu ngẫu nhiên ~500 ca điều trị hoàn toàn khả thi trước khi năm 2014 kết thúc.

Vấn đề tiếp theo là phương pháp thống kê để xử lý dữ liệu khảo sát thu được. Có mấy vấn đề chúng tôi phải đặc biệt lưu ý trong khi nghiên cứu và lựa chọn phương pháp thống kê như sau:

  1. Nghiên cứu này không thuộc nhóm ‘replication study,’ do đó không nên trông đợi vào việc tìm kiếm một mô hình đã có, gần tương đương để tái sử dụng.
  2. Nhiều loại biến có đặc tính khác nhau xuất hiện trong dữ liệu thu về: 1) Biến nhị thức (vd: Có bảo hiểm y tế hay Không có); 2) Biến ‘categorical’ (vd: “Tình trạng sức khỏe khi bắt đầu điều trị” hay “Mức độ hài lòng với dịch vụ y tế nhận được”: 4 mức phân biệt); 3) Biến liên tục (vd: “Thu nhập của bệnh nhân”, “Số ngày điều trị”, hay “Tỷ lệ viện phí được BHYT thanh toán”).
  3. Khi dữ liệu lớn lên, trên 200 ca, việc ‘tổ chức lại’ sẽ rất tốn kém thời gian, vì thế một cấu trúc dataset được thiết kế hợp lý từ đầu sẽ tiết kiệm cái công chia tách, ‘đầu cơ’ khả năng có quan hệ thống kê, điều chỉnh các ‘phạm trù’ giá trị của dữ liệu, v.v.. Nhưng việc này phải rất cận thận, vì thế nào là ‘hợp lý’ lại phụ thuộc vào lựa chọn phương pháp thống kê nào. Rõ ràng là ‘chicken-and-egg,’ chứ còn gì nữa.

Tuy nhiên, dựa trên các đặc tính căn bản, và ‘dự báo’ về kích thước mẫu, logic hình thành quan hệ các biến nằm trong dữ liệu điều tra, chúng tôi khoanh vùng vào phương pháp ‘categorical data analysis,’ do vài thuận lợi căn bản sau đây:

Có thể thiết lập nhiều bảng dữ liệu đếm nhiều chiều. Khả năng tìm thấy tương quan một một số cấu trúc bảng nhỏ từ mẫu tổng (dữ liệu tập con) sẽ tăng lên cao.

Việc đưa biến liên tục vào trong các mô hình không gặp khó khăn, và có thể sử dụng các loại link function khác nhau (cho biến nhị phân, Poisson, v.v..).

Có thể thay đổi mô hình hồi quy khá linh hoạt, không đòi hỏi việc xây dựng lại dataset (trên thực tế cùng lắm là loại bỏ bớt các biến không có ảnh hưởng).

Ngôn ngữ R giúp tăng năng lực tính toán với tốc độ rất tốt.

Để thực hiện những công việc này, những tài liệu tối thiểu cần tham khảo bao gồm 5 tài liệu dưới đây:

Tôi xin nhấn mạnh đây là những tài liệu tối thiểu, và mới chỉ đủ cho phương pháp luận xử lý thống kê, và nhấn mạnh vào căn cứ khoa học dựa trên kết quả thống kê toán, chứ tuyệt nhiên chưa hề có các khảo sát lý thuyết, thực nghiệm về vấn đề và câu hỏi nghiên cứu liên quan. (Nội dung đó không đề cập ở đây.)

Rõ ràng là công việc còn rất nhiều, kể cả vấn đề kích thước mẫu, và đặc biệt còn nhiều với việc xây dựng các giả thiết về quan hệ, thực hành kiểm định, và tìm hiểu ý nghĩa của kết quả thu được.

Tuy nhiên, việc khoanh vùng lại về phương pháp là bước tiến quan trọng, và cho thấy rằng, tiếp tục đi tới phía trước là sẽ có kết quả (lớn bé thì còn tùy và thực tế dữ liệu).

Sử dụng ngôn ngữ mạnh về xử lý thống kê như R (hiện đang là Release 3.0.2 có thể download từ website CRAN) rất thú vị. R được sử dụng ngày càng rộng rãi, và có đồ họa rất đẹp. Một nghiên cứu trước cho cái đồ thị đẹp (và cũng không kém phần gây tò mò) dưới đây (hình ảnh trích xuất thẳng từ R có thể ra file pdf, jpg, png, eps cho \LaTeX):

pcaChúng tôi sẽ tiếp tục cập nhật các tiến bộ của nghiên cứu này định kỳ, khoảng 3-4 tuần một lần.


© 2014 Làng Ộp | Op-Economica.