Divisão Treino/Teste no K-means
No K-means, não existe separação tradicional entre treino e teste, pois não há rótulo a ser previsto. Todo o conjunto de dados é utilizado para formar os clusters, já que o objetivo é identificar padrões de forma não supervisionada.
A avaliação do modelo é feita por métricas específicas de agrupamento, como o silhouette score, que mede o quão bem cada ponto está agrupado em relação aos outros clusters. Também é fundamental visualizar os agrupamentos para interpretar os resultados, como realizado no notebook com gráficos de dispersão dos clusters formados pelo K-means.
No notebook, utilizamos o silhouette score para avaliar a qualidade dos agrupamentos e gráficos para visualizar a separação dos clusters. Essa abordagem permite interpretar se os grupos encontrados fazem sentido e se estão bem definidos.
from sklearn.metrics import silhouette_score
sil_score = silhouette_score(X, clusters)
print(f'Silhouette Score: {sil_score:.3f}')
💡 Em clustering, a avaliação é feita por métricas como silhouette score e visualização dos agrupamentos, e não por acurácia em dados de teste.