- Dữ liệu minh hoạ phân cụm
- Phân cụm và các phương pháp phân cụm
- Phân cụm 2 bước (two-step cluster)
- Thực hành phân cụm K-means
- Thực hành phân cụm thứ bậc (Hierarchical cluster)-HCA
- Phân cụm cho các biến quan sát
- Mô tả các cụm thu được
- Tìm hiểu cơ chế của các biến độc lập trong việc phân cụm
- Hãy cẩn trọng khi thực hiện phân cụm!
Đây là thủ tục phân cụm đơn giản nhất trên SPSS nên sẽ được giới thiệu đầu tiên
Nội dung chính (Nếu bạn chưa đăng nhập, nhiều nội dung có thể đã bị ẩn đi)
Thao tác trên SPSS
Bắt đầu với bộ dữ liệu bank cluster.sav gồm 5 biến số score 1-5 là các biến liên tục và biến phân loại City (=1 nếu ở thành phố, =0 nếu khác)
Quy trình như hình minh hoạ
Tại đây ta tiếp tục
+(1) đưa các biến phân loại vào ô Categorical variables
+(2) đưa các biến liên tục vào ô continuous variables
+(3) chỉ định số cụm tối đa có thể thu được tại ô number clusters (theo chế độ mặc định là 15, tối đa bạn có thể thay thành số quan sát trừ 1, nhưng ta hãy cứ để mặc định nhé)
Tại cửa số output click như hình vẽ nếu muốn phần mềm tạo thêm cột dữ liệu phân nhóm cho các biến quan sát. Lựa chọn này ta chỉ nên thục hiện lần cuối sau khi đã có thủ tục phân cụm tối ưu. Tại đây mình click để làm ví dụ
Cuối cùng nhấn Continue > Ok để chạy
Tiếp tục tới với Output
Đọc kết quả
Đây là thủ tục khá mới trên SPSS kể cả bản 22 hay 26
Tạm thời ta nhận được kết quả rằng phần mềm đã dùng 6 biến đầu vào chia các quan sát thành 3 cụm. Chất lượng của phép phân cụm ở mức trung bình (fair). Tất nhiên nếu được ở mức good hay tiệm cận nó thì rất tốt
Ta sẽ phải click vào hình trên để đi đến kết quả chi tiết
Tại đây phần mềm phân làm 2 cửa số, thể hiện kết quả cũng khá tương đồng. Mình sẽ đọc tất cả để các bạn nắm được và lựa chọn thuyết mình kết quả phù hợp
Tại cửa số bên trái
+(1) Nhấn vào View > Cluster bạn sẽ nhận được báo cáo về
+(2) Số phần tử cụm và tỷ lệ %
+(3) Mức độ quan trọng của các biến số trong viếc phân loại (từ trên xuống dưới theo thứ tự giảm dần) cũng như giá trị trung bình của các biến liên tục theo từng nhóm và tỷ lệ % các giá trị theo từng nhóm của biến phân loại. Theo kết quả này thì score5 có mức độ quan trọng cao nhất, tiếp đó là biến City, score3,..... và cuối cùng là score1
Với cửa sổ bên tay phải
Mặc định phần mềm báo cáo tổng quat về % các cụm, sô phần tử cụm nhỏ nhất và lớn nhất cùng tỷ số phần tử cụm lớn nhất chia cho cụm nhỏ nhất
Nhấn View > Predictor Importance sẽ nhận được báo cáo về mức độ quan trọng của từng biến
Nếu dùng của số bên phải bạn xem được của tất cả các biến, Nhưng nếu dùng bên này sẽ xem được của tối đa là 10 biến thôi nhé
Một số quy định rằng mức 0.4 trở lên là quan trọng; một số cho răng là 0.5. Các này sẽ tuỳ các bạn phân tích cho hợp lý nhé
Chỉ định trước số cụm
Ví dụ bạn muốn thử nghiệm với số cụm định sẵn bạn có thể quay lại phần cài đặt. Tại mục cài đặt số lượng cụm được phân mình sẽ fix cứng luôn. Trong ví dụ này mình thử với số cụm bằng 2
Thử xem, kết quả nhé
Và chúng ta được một kết quả có vẻ tốt hơn kết quả cũ phải không?
Ví dụ về một kết quả tốt
còn nữa ...