Skip to content

3. Análise Exploratória dos Dados

Nesta etapa, além de checar o formato, tipos de dados, valores nulos e estatísticas das notas, é fundamental analisar a distribuição das variáveis, identificar possíveis outliers e entender as correlações entre as variáveis numéricas.

Essas análises ajudam a selecionar as variáveis mais relevantes para o agrupamento, identificar a necessidade de normalização e antecipar possíveis desafios, como variáveis com escalas muito diferentes ou presença de dados extremos. Uma análise exploratória bem feita aumenta as chances de obter clusters significativos e interpretáveis.

print('Formato do dataset:', df.shape)
df.info()
print('\nValores nulos por coluna:')
print(df.isnull().sum())
print('\nEstatísticas das notas:')
print(df[['math score', 'reading score', 'writing score']].describe())