Skip to content

2. Carregamento do Dataset

O carregamento correto do dataset é fundamental para garantir a qualidade da análise. Antes de iniciar a classificação, é importante conferir se os dados foram lidos corretamente, inspecionar as primeiras linhas (df.head()), verificar os tipos de cada coluna (df.dtypes) e analisar se há valores ausentes ou inconsistentes.

Compreender o significado de cada coluna é essencial para selecionar as variáveis mais relevantes para a classificação. No contexto do KNN, variáveis como notas, gênero, grupo étnico e curso preparatório podem influenciar diretamente o desempenho do modelo, exigindo atenção especial ao pré-processamento e à escolha dos atributos.

import kagglehub

# Baixar o dataset do Kaggle
path = kagglehub.dataset_download("spscientist/students-performance-in-exams")
print("Path to dataset files:", path)

# Carregar o arquivo CSV
csv_path = path + "/StudentsPerformance.csv"
df = pd.read_csv(csv_path)
df.head()

Amostra dos dados carregados:

gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
female group B bachelor's degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master's degree standard none 90 95 93