12. Relatório Final
Objetivo do Projeto
O objetivo deste projeto foi utilizar o algoritmo Random Forest para prever o desempenho dos alunos em matemática, com base em variáveis socioeconômicas e escolares, utilizando o conjunto de dados "Students Performance in Exams" do Kaggle.
Principais Etapas
-
Análise Exploratória: Estatísticas descritivas mostraram médias próximas de 66-69 para as notas, sem valores ausentes relevantes. As distribuições das notas são aproximadamente normais.
-
Visualização: Gráficos de histograma e boxplot evidenciaram padrões e pequenas diferenças entre grupos, como gênero.
-
Correlação: Forte correlação entre as notas de leitura e escrita (coeficiente > 0.95), indicando que alunos com bom desempenho em uma dessas disciplinas tendem a ir bem na outra.
-
Pré-processamento: As notas foram normalizadas e valores ausentes tratados, garantindo dados prontos para modelagem.
-
Divisão Treino/Teste: O dataset foi dividido em 80% treino e 20% teste, permitindo avaliação justa do modelo.
-
Treinamento: O modelo Random Forest foi treinado com 100 árvores e profundidade máxima de 5, obtendo bom ajuste aos dados.
-
Avaliação:
- MSE: 0.00347
-
R²: 0.8575
-
O modelo apresentou excelente desempenho, explicando cerca de 86% da variância das notas de matemática.
-
As variáveis mais importantes para a predição foram: reading score, writing score e gênero masculino.
Conclusões
-
O Random Forest mostrou-se eficaz para prever o desempenho dos alunos, com alta precisão e robustez.
-
As notas de leitura e escrita são os principais fatores para prever o desempenho em matemática, reforçando a importância de habilidades multidisciplinares.
-
Diferenças entre grupos (gênero, preparação) são pequenas, mas podem ser exploradas para políticas educacionais.
-
O modelo pode ser utilizado para identificar alunos em risco e propor intervenções personalizadas.
Recomendações
- Investir em programas que desenvolvam habilidades de leitura e escrita pode impactar positivamente o desempenho em matemática.