2. Carregamento do Dataset
O carregamento correto do dataset é fundamental para garantir a qualidade da análise. Antes de iniciar o agrupamento, é importante conferir se os dados foram lidos corretamente, inspecionar as primeiras linhas (df.head()), verificar os tipos de cada coluna (df.dtypes) e analisar se há valores ausentes ou inconsistentes.
Compreender o significado de cada coluna é essencial para selecionar as variáveis mais relevantes para o agrupamento. No contexto do K-means, variáveis numéricas como as notas são especialmente importantes, mas características como gênero, grupo étnico e curso preparatório também podem fornecer insights valiosos após o pré-processamento adequado.
Amostra dos dados carregados:
| gender | race/ethnicity | parental level of education | lunch | test preparation course | math score | reading score | writing score |
|---|---|---|---|---|---|---|---|
| female | group B | bachelor's degree | standard | none | 72 | 72 | 74 |
| female | group C | some college | standard | completed | 69 | 90 | 88 |
| female | group B | master's degree | standard | none | 90 | 95 | 93 |