2. Carregamento do Dataset
O carregamento correto do dataset é fundamental para garantir a qualidade da análise. Antes de iniciar a classificação, é importante conferir se os dados foram lidos corretamente, inspecionar as primeiras linhas (df.head()), verificar os tipos de cada coluna (df.dtypes) e analisar se há valores ausentes ou inconsistentes.
Compreender o significado de cada coluna é essencial para selecionar as variáveis mais relevantes para a classificação. No contexto do KNN, variáveis como notas, gênero, grupo étnico e curso preparatório podem influenciar diretamente o desempenho do modelo, exigindo atenção especial ao pré-processamento e à escolha dos atributos.
Amostra dos dados carregados:
| gender | race/ethnicity | parental level of education | lunch | test preparation course | math score | reading score | writing score |
|---|---|---|---|---|---|---|---|
| female | group B | bachelor's degree | standard | none | 72 | 72 | 74 |
| female | group C | some college | standard | completed | 69 | 90 | 88 |
| female | group B | master's degree | standard | none | 90 | 95 | 93 |