Skip to content

10. Avaliação do Modelo K-means

A avaliação do modelo K-means é fundamental para garantir que os agrupamentos encontrados realmente fazem sentido. O silhouette score mede o quão bem cada ponto está inserido em seu cluster, variando de -1 (agrupamento ruim) até 1 (clusters bem definidos). Valores próximos de zero indicam sobreposição entre grupos.

Além das métricas numéricas, a visualização dos clusters permite interpretar a separação dos grupos, identificar possíveis outliers e validar se os resultados são coerentes com o esperado. Essas análises ajudam a ajustar o número de clusters e a qualidade do pré-processamento.

# Silhouette Score
sil_score = silhouette_score(X, clusters)
print(f'Silhouette Score: {sil_score:.3f}')

# Visualização dos clusters (usando duas notas para plot 2D)
plt.figure(figsize=(8,6))
sns.scatterplot(x='math score', y='reading score', hue='cluster', data=df_encoded, palette='Set1')
plt.title('Clusters formados pelo K-means')
plt.savefig('imagens/clusters_kmeans.png')
plt.show()
  • Silhouette Score: 0.32 (exemplo)

💡 O silhouette score indica o quão bem os dados foram agrupados. Valores próximos de 1 indicam clusters bem definidos. A visualização permite interpretar a separação dos grupos.