8. Pré-processamento dos Dados
Nesta etapa, codificamos variáveis categóricas para que possam ser utilizadas em modelos de machine learning. O LabelEncoder transforma textos em números, facilitando o processamento pelo algoritmo.
# Verificar valores ausentes
print('Valores nulos por coluna:')
print(df.isnull().sum())
# Codificar variáveis categóricas
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
# Lista de colunas categóricas
cat_cols = ['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']
for col in cat_cols:
df[col] = le.fit_transform(df[col])
print('Exemplo de dados após codificação:')
df.head()
Após a codificação, todas as variáveis categóricas passam a ser representadas por números inteiros, permitindo o uso em modelos de árvore de decisão.