7. Pré-processamento dos Dados

O pré-processamento é fundamental para garantir que o K-means funcione corretamente. A codificação transforma variáveis categóricas em valores numéricos, tornando-as compatíveis com o algoritmo. Já a normalização das variáveis numéricas é essencial porque o K-means é sensível à escala dos dados: variáveis com valores maiores podem dominar a formação dos clusters se não forem padronizadas.

Essas etapas aumentam a qualidade dos agrupamentos, tornando os resultados mais interpretáveis e confiáveis.

Código

# Codificação das variáveis categóricas
df_encoded = df.copy()
categorical_cols = df_encoded.select_dtypes(include=['object']).columns
for col in categorical_cols:
    df_encoded[col] = LabelEncoder().fit_transform(df_encoded[col])

# Normalização das variáveis numéricas
scaler = StandardScaler()
features = ['math score', 'reading score', 'writing score']
df_encoded[features] = scaler.fit_transform(df_encoded[features])
df_encoded.head()