Skip to content

3. Análise Exploratória dos Dados

Esta etapa inicial da análise exploratória é essencial para conhecer a estrutura do dataset e identificar possíveis problemas logo no começo. Além de checar o formato, tipos de dados e valores nulos, é recomendável também: - Observar estatísticas descritivas com df.describe() para entender a distribuição das variáveis numéricas. - Verificar a presença de valores duplicados com df.duplicated().sum(). - Analisar possíveis outliers ou inconsistências nos dados.

Essas verificações ajudam a fundamentar decisões sobre limpeza, transformação e modelagem dos dados, tornando o processo de classificação mais seguro e eficiente.

print('Formato do dataset:', df.shape)
df.info()
print('\nValores nulos por coluna:')
print(df.isnull().sum())
print('\nEstatísticas das notas:')
print(df[['math score', 'reading score', 'writing score']].describe())