6. Comparação de Grupos
A comparação dos clusters formados pelo K-means com grupos conhecidos, como grupos étnicos ou médias de notas, é fundamental para interpretar o significado dos agrupamentos. Essa análise permite verificar se os clusters refletem padrões reais do conjunto de dados ou se estão apenas agrupando aleatoriamente.
Visualizar a distribuição dos clusters em relação a variáveis conhecidas ajuda a identificar possíveis associações, desigualdades ou tendências relevantes. É importante, porém, interpretar os resultados com cautela, especialmente quando os rótulos dos grupos são fictícios, para evitar conclusões equivocadas.
# Gráfico: Média de matemática por cluster
fig, ax = plt.subplots(figsize=(8,5))
sns.barplot(x='cluster', y='math score', data=df_encoded, ci=None, ax=ax)
plt.title('Média de Matemática por Cluster')
plt.savefig('imagens/barplot_cluster.png')
plt.show()
plt.close()
# Gráfico: Distribuição dos clusters por grupo étnico
fig, ax = plt.subplots(figsize=(8,5))
sns.countplot(x='race/ethnicity', hue='cluster', data=df_encoded, ax=ax)
plt.title('Distribuição dos Clusters por Grupo Étnico')
plt.savefig('imagens/barplot_cluster_etnia.png')
plt.show()
plt.close()

