Skip to content

4. Análise Exploratória dos Dados

A análise estatística das notas é fundamental para identificar tendências gerais, dispersão dos dados e possíveis discrepâncias. Compreender a média, desvio padrão e extremos permite antecipar desafios, como a presença de alunos com desempenho muito diferente da maioria (outliers) ou a necessidade de normalização para comparações justas entre disciplinas.

# Estatísticas descritivas das colunas de notas
print('Estatísticas das notas:')
df[['math score', 'reading score', 'writing score']].describe()

As notas apresentam média próxima de 66-69, com desvio padrão em torno de 15. Os valores mínimos e máximos mostram que há estudantes com desempenho muito baixo e muito alto.


5. Visualização de Distribuições das Notas

Visualizações gráficas, como histogramas e boxplots, são essenciais para revelar padrões que não aparecem apenas nas estatísticas numéricas. Elas permitem observar a simetria das distribuições, a presença de caudas longas, agrupamentos inesperados e valores extremos. Essas informações são valiosas para orientar o pré-processamento dos dados e a escolha de técnicas de modelagem mais adequadas.

import os
from IPython.display import Image, display
os.makedirs('imagens', exist_ok=True)

fig, axes = plt.subplots(1, 3, figsize=(18, 5))
for idx, col in enumerate(['math score', 'reading score', 'writing score']):
    sns.histplot(df[col], bins=20, ax=axes[idx], kde=True)
    axes[idx].set_title(f'Distribuição: {col}')
plt.tight_layout()
plt.savefig('imagens/histograma_notas.png')
plt.show()
display(Image(filename='imagens/histograma_notas.png'))

plt.figure(figsize=(10, 6))
sns.boxplot(data=df[['math score', 'reading score', 'writing score']])
plt.title('Boxplot das Notas')
plt.savefig('imagens/boxplot_notas.png')
plt.show()
display(Image(filename='imagens/boxplot_notas.png'))

Os histogramas mostram que as notas têm distribuição aproximadamente normal, com leve assimetria. O boxplot evidencia a presença de alguns outliers, principalmente nas notas mais baixas. Histograma das notas Boxplot das notas