Hãy cẩn trọng khi thực hiện phân cụm!

This entry is part 9 of 9 in the series Phân tích cụm- Cluster

Cập nhật: 14/10/2021 bởi admin0

Nhân dịp trao đổi với 1 số bạn về vấn đề phân cụm, mình có một vi dụ nhỏ viết thành 1 bài viết để truyền tải tới các bạn 2 thông điệp

+(1) là Hãy cẩn trọng khi thực hiện phân cụm. Hãy chỉ nên xem đó là mộ công cụ tham khảo cho việc phân nhóm các biến quan sát

+(2) là Máy tính là công cụ rất mạnh mẽ nhưng cũng rất khô khan và cứng nhắc. Hãy sử dụng nó như một công cụ để phục vụ chúng ta chứ đừng miễn cưỡng để nó ra quyết định. Mọi quyết định phải là của con người.

Ví dụ sau áp dụng thuật toán phân cụm K-means

Trong 1 lớp học có 20 em, có 6 em thi được điểm 4; 5 em được điểm khoảng 5-6; 5 em được điểm 7-8 và 4 em được điểm 9-10. Nếu các bạn dung tiêu chuản điểm số để xếp các em đó vào các nhóm yếu – trung bình- khá – giỏi thì rất tường minh. Bất kể các học sinh nào khác có điểm số xác định các bạn chỉ cần áp vào để phân loại học sinh đó. Vậy có 6 em yếu, 5 em TB, 5 khá và 4 giỏi. Lúc này nếu chỉ định phân 4 cụm bạn sẽ thu được kết quả như vậy- xem QLC1. Nếu phải chia hoặc sinh vào nhóm đạt và không đạt tất nhiên chúng ta chia 6 em điểm 4 vào nhóm không đạt và , 14 em còn lại vào nhóm đạt. Tuy nhiên nếu bảo phần mềm phân thành 2 cụm tất nhiên nó sẽ chia đôi thành 2 nhóm 7 trở xuống và 8 trở lên-xem QLC2. Vậy đây có phải là 1 tiêu chuẩn phân cụm hợp lý?

Nếu bây giờ bạn cho thêm 80 học sinh điểm 0 vào danh sách và chỉ định chia 4 cụm, kết quả sẽ như QLC3,Lúc này dùng 4 chữ yếu- trung bình- khá – giỏi để mô tả cho 4 nhóm liệu có hợp lý?

Nếu bạn tiếp tục chia là 2 nhóm đạt và không đạt thì kết quả sẽ như QLC4. Vậy cuối cùng thì tiêu chuẩn để chia các nhóm của bạn là gì? Mục đích là gì? Bạn muốn nói với những em 4 điểm rằng hãy cố gắng thêm 1 chút để tiến lên mức đạt hay nói với các em ấy là hãy làm cho nhiều đứa dốt đi- chỉ cần nhiều đứa dốt hơn em thì rồi 1 ngày em cũng sẽ tiên lên mức đạt! Rõ ràng thuật toán phân cụm chỉ nên được dùng nếu bạn không có 1 tiêu chuẩn cụ thể để phân cụm trước và nó cũng chỉ có tính chất để tham khảo mà thôi.

 

Series Navigation<< Tìm hiểu cơ chế của các biến độc lập trong việc phân cụm