Mình check inbox của các bạn cũng như là comment dưới các bài viết về SPSS, có rất nhiều thắc mắc. Đa phần, các vấn đề này khá nhỏ nên mình không thể trình bày thành 1 bài viết riêng cho từng thắc mắc, nên hôm nay mình sẽ tổng hợp các thắc mắc đó vào chung trong bài viết này. Nếu nó quá dài, mình sẽ chia làm các phần 2, 3... về sau. OK, không vòng vo nữa, mình sẽ đi vào từng thắc mắc của các bạn theo kiến thức mình có:
1. Cronbach Alpha trước hay EFA trước? Sao có bài lại chạy cái này trước, có bài lại chạy cái kia trước?
EFA trước áp dụng cho mô hình mới toanh bạn tự xây dựng. Mô hình có sẵn thì Cronbach Alpha trước.
Với các đề tài bạn chưa có mô hình, bạn chỉ liệt kê được một lượng lớn biến quan sát dựa trên chương cơ sở lý luận, bạn chưa biết phân nhóm và đặt tên như thế nào mới là hợp lý. Khi đó bạn dùng EFA trước để SPSS phân nhóm giúp bạn, từ đó bạn có thể có được mô hình sơ bộ, điều chỉnh lại tí xíu và dựa trên các biến được gom chung về một nhân tố để đặt tên nhân tố. Tham khảo ý kiến chuyên gia (giảng viên chẳng hạn) để chốt mô hình và tiến hành khảo sát sơ bộ.
Với các đề tài bạn sử dụng mô hình có sẵn rồi thì cứ Cronbach Alpha trước mà làm.
** Nguồn: Suy luận, không có nguồn cụ thể.2. Khi chạy EFA thì có loại bỏ mấy biến bị loại ở Cronbach Alpha đi không?
Câu trả lời: Có. Biến bị đánh giá không đóng góp vào độ tin cậy của thang đo nghĩa là biến rác, mà rác thì cần loại bỏ triệt để để nó không ảnh hưởng đến những kết quả kiểm định về sau
** Nguồn: Suy luận, không có nguồn cụ thể.
** Nguồn: Suy luận, không có nguồn cụ thể.
3. Tương quan Pearson giữa biến độc lập và biến phụ thuộc là 0.4 thì có phải biến độc lập giải thích 40% biến phụ thuộc không?
Câu trả lời: Không. Trong tương quan Pearson, không có sự phân biệt biến độc lập, biến phụ thuộc, vai trò 2 biến là ngang nhau. Không được dùng "biến này giải thích biến kia". Tương quan hiểu nôm na có thể là quan hệ tương tự, tương đồng nhau. Nghĩa là, giữa 2 biến này mức độ tương đồng nhau khoảng 40%.
** Nguồn: Bộ 2 cuốn sách SPSS thầy Hoàng Trọng và cô Mộng Ngọc.
** Nguồn: Bộ 2 cuốn sách SPSS thầy Hoàng Trọng và cô Mộng Ngọc.
4. Trong Pearson, mối tương quan 2 biến cho sig > 0.05 thì kết luận giữa chúng không có tương quan đúng không?
Câu trả lời: Sai. Chỉ có thể kết luận giữa chúng không có mối quan hệ "tương quan tuyến tính". Bởi vì sig > 0.05 sẽ cho ra 2 trường hợp: không có bất kỳ tương quan nào hoặc là đang xảy ra mối quan hệ tương quan phi tuyến tính (không phải dạng đường thẳng, ví dụ: parabol, hypebol, đồ thị hàm số sin, cos...)
** Nguồn: Bộ 2 cuốn sách SPSS thầy Hoàng Trọng và cô Mộng Ngọc.
** Nguồn: Bộ 2 cuốn sách SPSS thầy Hoàng Trọng và cô Mộng Ngọc.
5. Tại sao bạn nói sig giữa các biến độc lập trong tương quan Pearson càng lớn hơn 0.05 thì càng tốt, trong khi mình xem các clip SPSS trên mạng bài của họ đều có sig tương quan Pearson giữa các biến độc lập là 0.00?
Đúng vậy, sig giữa các biến độc lập nếu càng lớn hơn 0.05 càng tốt, nhưng nhỏ hơn 0.05 cũng không sao cả, nếu không có đa cộng tuyến xảy ra. Bởi vì giống như tên gọi của nó, biến độc lập nghĩa là tính độc lập và khác biệt giữa các biến là rất cao, không biến nào mang đặc điểm của biến khác hết. Nếu một khi tính độc lập này bị phá vỡ, đồng nghĩa có ít nhất có 1 cặp biến độc lập có tương quan cao, ví dụ là tương quan tuyến tính cao trong Pearson. Khi đó sig mối quan hệ của cặp biến này trong Pearson sẽ nhỏ hơn 0.05 và hệ số tương quan Pearson khá cao. Như mình cũng đã trình bày trong bài viết về tương quan Pearson ở đây, khi mối tương quan tuyến tính giữa 2 biến độc lập cao có khả năng sẽ xảy ra hiện tượng đa cộng tuyến. Hiện tượng đa cộng tuyến này có ảnh hưởng tiêu cực tới bài nghiên cứu, làm sai lệch các kết quả nghiên cứu và không ai mong muốn bài nghiên cứu của mình xảy ra đa cộng tuyến cả.
Chốt vấn đề:
- Sig giữa các cặp biến độc lập trong Pearson lớn hơn 0.05 sẽ ít có khả năng xảy ra đa cộng tuyến. Điều này sẽ tốt cho bài nghiên cứu.
- Sig giữa các biến độc lập trong Pearson nhỏ hơn 0.05 vẫn không sao, chúng ta tiếp tục xem xét hệ số Pearson, nếu nó rất cao khoảng 0,6 trở lên thì bạn cần phải ĐẶT NGHI NGỜ có khả năng xảy ra đa cộng tuyến. Các bạn lưu ý, ở Pearson chúng ta chỉ nghi ngờ có khả năng xảy ra đa cộng tuyến chứ không có bất kỳ một căn cứ nào để khẳng định chắc chắn xảy ra đa cộng tuyến. Chúng ta sẽ giải quyết nghi ngờ đó ở hệ số VIF khi phân tích hồi quy đa biến.
** Nguồn: Suy luận, không có nguồn cụ thể.
Chốt vấn đề:
- Sig giữa các cặp biến độc lập trong Pearson lớn hơn 0.05 sẽ ít có khả năng xảy ra đa cộng tuyến. Điều này sẽ tốt cho bài nghiên cứu.
- Sig giữa các biến độc lập trong Pearson nhỏ hơn 0.05 vẫn không sao, chúng ta tiếp tục xem xét hệ số Pearson, nếu nó rất cao khoảng 0,6 trở lên thì bạn cần phải ĐẶT NGHI NGỜ có khả năng xảy ra đa cộng tuyến. Các bạn lưu ý, ở Pearson chúng ta chỉ nghi ngờ có khả năng xảy ra đa cộng tuyến chứ không có bất kỳ một căn cứ nào để khẳng định chắc chắn xảy ra đa cộng tuyến. Chúng ta sẽ giải quyết nghi ngờ đó ở hệ số VIF khi phân tích hồi quy đa biến.
** Nguồn: Suy luận, không có nguồn cụ thể.
6. Khi mình chạy tương quan Pearson, sig giữa biến độc lập và biến phụ thuộc lớn hơn 0.05. Vậy mình có nên loại biến này rồi mới chạy hồi quy không?
Câu trả lời là tùy bạn và tùy giảng viên hướng dẫn của bạn. Nếu giảng viên của bạn yêu cầu loại, bạn nên loại trước khi chạy hồi quy. Còn theo ý kiến của mình, mình sẽ không loại nhân tố này mà tiếp tục sử dụng nó ở bước hồi quy.
Tương quan Pearson chỉ xét mối quan hệ tuyến tính giữa 2 biến, nghĩa là không xét trong bối cảnh đặt chung 2 biến này với các biến độc lập còn lại mà cô lập hoàn toàn 2 biến so với các biến khác. Nhưng trên thực tế, các biến độc lập thường có xu hướng tác động qua lại lẫn nhau, tùy nó là ít hay nhiều mà thôi. Ví dụ: Các yếu tố TIỀN LƯƠNG, ĐỒNG NGHIỆP, GIÁM ĐỐC, MÔI TRƯỜNG LÀM VIỆC ảnh hưởng đế SỰ HÀI LÒNG của nhân viên. Chúng ta hoàn toàn khó có thể cô lập từng biến độc lập ra để đánh giá tầm ảnh hưởng của nó với biến phụ thuộc là sự hài lòng. Bởi vì tiền lương nhiều khi nó lại liên quan đến đồng nghiệp, đồng nghiệp thấu hiểu nhau, biết năng lực của nhau, mức lương nhận được 2 người chấp nhận và hài lòng. Giả dụ trường hợp 2 người đồng nghiệp ít thân thiết nhau, chỉ biết nhau như vậy qua công việc, làm khối lượng công việc như nhau nhưng lương người này lại cao hơn người kia khiến người kia không hài lòng và giữ ấm ức trong người. Nhưng thực chất thì làm cùng một lượng công việc như nhau nhưng người có lương cao hơn lại làm hiệu quả hơn, tối về làm thêm chẳng hạn..., nhưng do giữa 2 người này không có mối quan hệ thân thiết, không hiểu nhau, nói với nhau về công việc nên không ai biết người kia đã làm những gì. Dẫn đến những khúc mắc về lương bổng và làm cho một người không hài lòng lắm về công việc.
Đấy là một ví dụ thực tế về việc các biến độc lập thường sẽ có một mối quan hệ ngầm với nhau. Nên khi xét mối quan hệ giữa biến độc lập với biến phụ thuộc, chúng ta nên đặt chúng vào tổng thể cùng các biến khác để tăng tính khách quan, thực tế cho việc đánh giá. Vậy nên có rất nhiều trường hợp các bộ data nghiên cứu, khi chạy Pearson thì biến độc lập bị loại nhưng khi chạy hồi quy đa biến thì biến này lại cho kết quả khá tốt.
Chốt vấn đề: Các bạn nên ưu tiên kết quả ở hồi quy đa biến hơn là kết quả ở Pearson nhé.
** Nguồn: Suy luận, không có nguồn cụ thể.
Tương quan Pearson chỉ xét mối quan hệ tuyến tính giữa 2 biến, nghĩa là không xét trong bối cảnh đặt chung 2 biến này với các biến độc lập còn lại mà cô lập hoàn toàn 2 biến so với các biến khác. Nhưng trên thực tế, các biến độc lập thường có xu hướng tác động qua lại lẫn nhau, tùy nó là ít hay nhiều mà thôi. Ví dụ: Các yếu tố TIỀN LƯƠNG, ĐỒNG NGHIỆP, GIÁM ĐỐC, MÔI TRƯỜNG LÀM VIỆC ảnh hưởng đế SỰ HÀI LÒNG của nhân viên. Chúng ta hoàn toàn khó có thể cô lập từng biến độc lập ra để đánh giá tầm ảnh hưởng của nó với biến phụ thuộc là sự hài lòng. Bởi vì tiền lương nhiều khi nó lại liên quan đến đồng nghiệp, đồng nghiệp thấu hiểu nhau, biết năng lực của nhau, mức lương nhận được 2 người chấp nhận và hài lòng. Giả dụ trường hợp 2 người đồng nghiệp ít thân thiết nhau, chỉ biết nhau như vậy qua công việc, làm khối lượng công việc như nhau nhưng lương người này lại cao hơn người kia khiến người kia không hài lòng và giữ ấm ức trong người. Nhưng thực chất thì làm cùng một lượng công việc như nhau nhưng người có lương cao hơn lại làm hiệu quả hơn, tối về làm thêm chẳng hạn..., nhưng do giữa 2 người này không có mối quan hệ thân thiết, không hiểu nhau, nói với nhau về công việc nên không ai biết người kia đã làm những gì. Dẫn đến những khúc mắc về lương bổng và làm cho một người không hài lòng lắm về công việc.
Đấy là một ví dụ thực tế về việc các biến độc lập thường sẽ có một mối quan hệ ngầm với nhau. Nên khi xét mối quan hệ giữa biến độc lập với biến phụ thuộc, chúng ta nên đặt chúng vào tổng thể cùng các biến khác để tăng tính khách quan, thực tế cho việc đánh giá. Vậy nên có rất nhiều trường hợp các bộ data nghiên cứu, khi chạy Pearson thì biến độc lập bị loại nhưng khi chạy hồi quy đa biến thì biến này lại cho kết quả khá tốt.
Chốt vấn đề: Các bạn nên ưu tiên kết quả ở hồi quy đa biến hơn là kết quả ở Pearson nhé.
** Nguồn: Suy luận, không có nguồn cụ thể.
Bình thường bạn nha. Hệ số hồi quy (hệ số B, hệ số Beta) âm nghĩa là biến đó tác động nghịch đến biến phụ thuộc. Khi biến độc lập đó tăng thì biến phụ thuộc sẽ giảm.
** Nguồn: Suy luận, không có nguồn cụ thể.
** Nguồn: Suy luận, không có nguồn cụ thể.
7. Ma trận xoay không hiện khi chạy EFA cho biến phụ thuộc, như vậy có loại bỏ biến phụ thuộc không ?
Ma trận xoay hiện ra nếu kết quả xoay ra được từ 2 nhân tố trở lên. Với trường hợp biến phụ thuộc, đa phần các bạn xoay nhân tố chỉ có một nhân tố được trích. Khi đó ma trận xoay sẽ không xuất hiện mà chỉ có 1 dòng thông báo Only one component was extracted. The solution cannot be rotated.
** Nguồn: Suy luận, không có nguồn cụ thể.
** Nguồn: Suy luận, không có nguồn cụ thể.