Phân tích hồi quy nhị phân Binary Logistic trong SPSS

1. Khái niệm hồi quy nhị phân (Binary Logistic)

Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1. 

Trên thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,... mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,... Những biến nghiên cứu có 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 và 1 - được gọi là biến nhị phân.

Hồi quy nhị phân Binary Logistic

Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thường vì nó sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ có hai biểu hiện thì không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường.

2. Phương trình hồi quy nhị phân

Phương trình hồi quy nhị phân Binary Logistic có dạng:
Hồi quy nhị phân Binary Logistic
Trong đó: 
Hồi quy Binary Logistic trong SPSS
Ứng dụng rất mạnh của hồi quy nhị phân Binary Logistic là khả năng dự báo. Từ phương trình hồi quy, chúng ta có phương trình mô hình hàm dự báo như sau:
Hồi quy nhị phân Binary Logistic
Trong đó Pi = E(Y = 1/X) = P(Y = 1) gọi là xác suất để sự kiện xảy ra (Y = 1) khi biến độc lập X có giá trị cụ thể X.

3. Thực hành phân tích hồi quy nhị phân trên SPSS

Thực hiện phân tích hồi quy nhị phân bằng phần mềm SPSS ở ví dụ dưới dây. Đây là nghiên cứu của một ngân hàng nhằm xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị, 0 biểu hiện ý nghĩa không trả được nợ, 1 biểu hiện ý nghĩa trả được nợ. Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:
  1. Trình độ học vấn (HocVan) mang giá trị: 1 - THCS, THPT; 2 - Cao đẳng; 3 - Đại học; 4 - Sau đại học
  2. Độ tuổi (Tuoi)
  3. Thu nhập hàng tháng (ThuNhap - ĐVT: triệu đồng)
Thực hiện hồi quy nhị phân trên phần mềm SPSS 20. Chúng ta vào Analyze > Regression > Binary Logistic.

Hồi quy Binary Logistic trong SPSS

Đưa biến phụ thuộc Y vào mục Dependent. Đưa các biến độc lập vào mục Covariates.

Hồi quy Binary Logistic trong SPSS

Tại mục Options. Tích vào hàng Classification plots, chọn Continue để quay lại cửa sổ ban đầu.

Hồi quy Binary Logistic trong SPSS

Tại mục Method, chọn phương pháp Enter. Tiếp tục nhấp vào OK để xuất các bảng kết quả.

Hồi quy Binary Logistic trong SPSS

Bảng Case Processing Summary cho chúng ta các thông tin mô tả đặc điểm dữ liệu đưa vào phân tích hồi quy nhị phân. Cụ thể ở đây, có 300 quan sát được đưa vào phân tích (Included in Analysis), không có quan sát nào bị thiếu số liệu (Missing Cases), không có quan sát nào không được chọn (Unselected Cases).
Hồi quy Binary Logistic trong SPSS

Bảng Dependent Variable Encoding cho biết biến phụ thuộc đang mang 2 giá trị, "Không được vay vốn" mã hóa là 0 và "Được vay vốn" mã hóa là 1.

Hồi quy Binary Logistic trong SPSS

Phần tiếp theo là mục Block 0. Chúng ta sẽ bỏ qua phần này bởi vì các kết quả phân tích ở Block 0 nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.

Hồi quy Binary Logistic trong SPSS

Bảng đầu tiên là Omnibus Tests of Model Coefficients. Bảng này cho kết quả phân tích các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy mô hình Logistic. Do ở đây chúng ta dùng phương pháp Enter đưa các biến độc lập vào cùng một lần nên chỉ xuất hiện Step 1 trong kết quả thống kê. Trường hợp dùng các phương pháp khác bảng này sẽ có thêm các Step 2, 3, 4 tùy số lượng biến đưa vào.

Cột Chi-square và Sig. thể hiện kết quả của kiểm định Chi bình phương, đây là kiểm định để xem hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không. Do phương pháp được chọn là Enter nên 3 giá trị sig của Step, Block và Model đều như nhau (hiện không có nhiều tài liệu đề cập đến việc chạy hồi quy Logistic bằng các phương pháp khác). Trong trường hợp này, sig của cả 3 chỉ số này đều bằng 0.000 < 0.05 (độ tin cậy 95%) nên mô hình hồi quy có ý nghĩa thống kê.

Hồi quy Binary Logistic trong SPSS

Bảng Model Summary cho kết quả tóm tắt của mô hình. Cột -2 Log likelihood (ký hiệu à -2LL) là một thông số để xem xét so sánh giữa các mô hình hồi quy với nhau, mô hình nào có -2LL nhỏ hơn sẽ tốt hơn. Thông số này không mang nhiều ý nghĩa nếu không có sự so sánh với mô hình hồi quy khác.

Hai cột Cox & Snell R Square và Nagelkerke R Square là giá trị R bình phương giả. Hồi quy logistic không sử dụng giá trị R bình phương giống với hồi quy tuyến tính. Cũng giống như -2LL, 2 chỉ số này dùng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc để xem mô hình nào tốt hơn. Mô hình tốt hơn sẽ có R bình phương lớn hơn.

Hồi quy nhị phân trong SPSS

Bảng Classification Table cho thấy phân loại đối tượng trả được nợ và không trả được nợ theo hai tiêu chí: quan sát thực tế và dự đoán. Ý nghĩa:
  • Trong 129 trường hợp quan sát không trả được nợ, thì dự đoán có 127 trường hợp không trả được, tỉ lệ dự đoán đúng là 127/129 = 98.4%.
  • Trong 171 trường hợp quan sát trả được nợ, dự đoán có 167 trường hợp trả được, tỉ lệ dự đoán đúng là 167/171 = 97.7%.
Như vậy, tỷ lệ trung bình dự đoán đúng là (98.4 + 97.7)/2 = 98.0%.

Hồi quy nhị phân trong SPSS

Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Chúng ta sẽ quan tâm cột Sig của kiểm định Wald đầu tiên (kiểm định Wald dùng để kiểm tra biến độc lập có ý nghĩa trong mô hình hồi quy hay không). Cụ thể trong trường hợp này, Sig kiểm định Wald của các các biến độc lập đều nhỏ hơn 0.05 (độ tin cậy 95%), như vậy cả 3 biến HocVan, Tuoi và ThuNhap đều có sự ảnh hưởng lên khả năng trả nợ.

Cột B là hệ số hồi quy của các biến độc lập, giá trị này có thể âm hoặc dương. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (trường hợp biến độc lập có Sig kiểm định Wald > 0.05 sẽ không được đưa vào phương trình hồi quy):
Hồi quy nhị phân trong SPSS
Chúng ta có thể diễn giải ý nghĩa của các hệ số hồi quy Binary Logistic như sau. Học vấn cao, thu nhập cao, độ tuổi cao đều làm tăng khả năng trả nợ, trong đó biến HocVan có tác động mạnh nhất lên khả năng trả nợ (có hệ số B cao nhất), tiếp đến là Tuoi và cuối cùng là ThuNhap.

Một điểm rất mạnh của hồi quy nhị phân đó chính là khả năng dự báo. Sử dụng ví dụ ở trên, giả sử có anh Nguyễn Văn A đến ngân hàng vay vốn, hanh A cung cấp đầy đủ các thông tin như sau: 
  • Học vấn: 2 - Cao đẳng
  • Độ tuổi: 35 tuổi
  • Thu nhập: 17 triệu/tháng
Thế vào phương trình mô hình dự báo ta có:
Hồi quy nhị phân Binary Logistic
Mô hình Binary Logistic cho biết khả năng trả được nợ của người này là 60.18% > 50% = 0.5. Như vậy ngân hàng có thể xem xét cho anh A vay vì khả năng thu hồi nợ ở mức chấp nhận được.

** Lưu ý quan trọng:
Đối với dạng mô hình nghiên cứu mà các biến độc lập đều sử dụng Likert, các bạn không nên sử dụng hồi quy nhị phân Binary Logistic. Bởi đặc trưng của Likert là thang đo ảo với giá trị 1-3, 1-5, 1-7.... sẽ không cho ra một phương trình mô hình dự báo có ý nghĩa. Bạn sẽ không sử dụng được khả năng dự báo của hồi quy nhị phân.

--------
Nếu bạn gặp khó khăn khi thực hiện phân tích hồi nhị phân Binary Logistic vì mô hình bị loại hết các biến độc lập quan trọng, bạn có thể tham khảo dịch vụ phân tích SPSS của mình ở đây hoặc liên hệ trực tiếp email phamlocblog@gmail.com. Dịch vụ mình cung cấp giúp bạn khắc phục được tình trạng bị loại bỏ biến tốt, làm cho mô hình tốt hơn, đáp ứng các tiêu chuẩn kiểm định.