- Dữ liệu minh hoạ phân cụm
- Phân cụm và các phương pháp phân cụm
- Phân cụm 2 bước (two-step cluster)
- Thực hành phân cụm K-means
- Thực hành phân cụm thứ bậc (Hierarchical cluster)-HCA
- Phân cụm cho các biến quan sát
- Mô tả các cụm thu được
- Tìm hiểu cơ chế của các biến độc lập trong việc phân cụm
- Hãy cẩn trọng khi thực hiện phân cụm!
Cập nhật: 17/09/2021 bởi admin0
Nội dung chính (Nếu bạn chưa đăng nhập, nhiều nội dung có thể đã bị ẩn đi)
Thao tác trên SPSS
Tiếp tục với bộ dữ liệu Player2019.sav
Tại cửa số K- means
+(1) đưa tất cả các biến sử dụng để phân cụm vào. Lưu ý phần mềm không nhận các biến phân loại, do đó nếu có biến phân loại các bạn chuyển nó thành biến giả trước nhé
+(2) chỉ định số cụm. Nếu ví dụ này mình để 2 cụm thì có thể được kết quả như two-step, nên mình sẽ để thử là 8
+(3) thì các bạn cứ để mặc định nhé. Tất nhiên có thể chuyên sang lựa chọn chỉ phân cụm. 2 lựa chọn có thể cho 2 kết quả khác nhau. Các bạn có thể thử thấy kết quả nào ổn thì nhận
Tại cửa sổ Iterate bạn sẽ có quyền lựa chọn về số lẫn lặp tối đa. Mặc định là 10, tuy nhiên nếu thích bạn cứ tăng lên tuỳ thích, máy sẽ chạy lâu hơn và nóng hơn tý những được kết quả chính xác hơn. Mỗi bước phần mềm sẽ tính lại tâm cụm và chia lại phần tử. Ý tưởng của lựa chọn này là chỉ định số lần tối đa nó được làm, tức là có thể không đi đến nghiệm triệt để nhưng cũng sẽ thu được nghiệm xấp xỉ. Nhắc lại thêm rằng nghiệm của phép phân cụm này không phải duy nhất
Xem lại về thuật toán phân cụm K-means: https://vaxidi.com/phan-cum/3#Phan_cum_khong_thu_bac_K-means
Ở đây mình cài thử giá trị 100 nhé
Tiếp theo, tại mục Save
Bạn có thẻ lưu lại giá trị thành viên nhóm và khoảng cách tới tâm nhóm. Tốt nhất ta chỉ làm khi đã chọn được số nhóm OK
Tại mục Options
Ta có 3 lựa chọn, chỉ nên dùng cái số 1 và 2
+(1) Xem lịch sử điều chỉnh các tâm cụm
+(2) Một bảng ANOVA, lat ta sẽ phần tích
+(3) Là bảng chi tiết phân cụm cho từng quan sát. Lựa chọn này mà chạy trên các bộ dữ liệu lớn thì rất tốn màn hình luôn (và chắc chắn sẽ không đọc đến)