4. Análise Exploratória dos Dados
A análise estatística das notas é fundamental para identificar tendências gerais, dispersão dos dados e possíveis discrepâncias. Compreender a média, desvio padrão e extremos permite antecipar desafios, como a presença de alunos com desempenho muito diferente da maioria (outliers) ou a necessidade de normalização para comparações justas entre disciplinas.
As notas apresentam média próxima de 66-69, com desvio padrão em torno de 15. Os valores mínimos e máximos mostram que há estudantes com desempenho muito baixo e muito alto.
5. Visualização de Distribuições das Notas
Visualizações gráficas, como histogramas e boxplots, são essenciais para revelar padrões que não aparecem apenas nas estatísticas numéricas. Elas permitem observar a simetria das distribuições, a presença de caudas longas, agrupamentos inesperados e valores extremos. Essas informações são valiosas para orientar o pré-processamento dos dados e a escolha de técnicas de modelagem mais adequadas.
import os
from IPython.display import Image, display
os.makedirs('imagens', exist_ok=True)
fig, axes = plt.subplots(1, 3, figsize=(18, 5))
for idx, col in enumerate(['math score', 'reading score', 'writing score']):
sns.histplot(df[col], bins=20, ax=axes[idx], kde=True)
axes[idx].set_title(f'Distribuição: {col}')
plt.tight_layout()
plt.savefig('imagens/histograma_notas.png')
plt.show()
display(Image(filename='imagens/histograma_notas.png'))
plt.figure(figsize=(10, 6))
sns.boxplot(data=df[['math score', 'reading score', 'writing score']])
plt.title('Boxplot das Notas')
plt.savefig('imagens/boxplot_notas.png')
plt.show()
display(Image(filename='imagens/boxplot_notas.png'))

