Skip to content

2. Carregamento do Dataset

O carregamento correto do dataset é fundamental para garantir a qualidade da análise. Antes de iniciar o agrupamento, é importante conferir se os dados foram lidos corretamente, inspecionar as primeiras linhas (df.head()), verificar os tipos de cada coluna (df.dtypes) e analisar se há valores ausentes ou inconsistentes.

Compreender o significado de cada coluna é essencial para selecionar as variáveis mais relevantes para o agrupamento. No contexto do K-means, variáveis numéricas como as notas são especialmente importantes, mas características como gênero, grupo étnico e curso preparatório também podem fornecer insights valiosos após o pré-processamento adequado.

import kagglehub

# Baixar o dataset do Kaggle
path = kagglehub.dataset_download("spscientist/students-performance-in-exams")
print("Path to dataset files:", path)

# Carregar o arquivo CSV
csv_path = path + "/StudentsPerformance.csv"
df = pd.read_csv(csv_path)
df.head()

Amostra dos dados carregados:

gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
female group B bachelor's degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master's degree standard none 90 95 93