2. Carregamento do Dataset

O carregamento correto do dataset é fundamental para garantir a qualidade da análise. Antes de iniciar a classificação, é importante conferir se os dados foram lidos corretamente, inspecionar as primeiras linhas (df.head()), verificar os tipos de cada coluna (df.dtypes) e analisar se há valores ausentes ou inconsistentes.

Compreender o significado de cada coluna é essencial para selecionar as variáveis mais relevantes para a classificação. No contexto do KNN, variáveis como notas, gênero, grupo étnico e curso preparatório podem influenciar diretamente o desempenho do modelo, exigindo atenção especial ao pré-processamento e à escolha dos atributos.

CódigoResultado

import kagglehub

# Baixar o dataset do Kaggle
path = kagglehub.dataset_download("spscientist/students-performance-in-exams")
print("Path to dataset files:", path)

# Carregar o arquivo CSV
csv_path = path + "/StudentsPerformance.csv"
df = pd.read_csv(csv_path)
df.head()

Amostra dos dados carregados:

gender	race/ethnicity	parental level of education	lunch	test preparation course	math score	reading score	writing score
female	group B	bachelor's degree	standard	none	72	72	74
female	group C	some college	standard	completed	69	90	88
female	group B	master's degree	standard	none	90	95	93