Skip to content

2. Carregar o Dataset

O carregamento correto do dataset é um dos passos mais importantes em qualquer projeto de ciência de dados. Garantir que os dados estejam íntegros, completos e bem compreendidos é fundamental para evitar erros nas etapas seguintes.

Ao baixar dados de fontes externas como o Kaggle, é importante sempre verificar a estrutura dos arquivos, o formato (CSV, Excel, etc.) e a codificação dos dados. Após o carregamento, recomenda-se inspecionar as primeiras linhas do DataFrame (df.head()), verificar o tipo de cada coluna (df.dtypes) e conferir se há valores ausentes ou inconsistentes.

Além disso, entender o significado de cada coluna e suas categorias é essencial para uma análise responsável e para evitar interpretações equivocadas. No caso deste dataset, os rótulos dos grupos étnicos são anonimizados, reforçando a importância de tratar os dados com ética e respeito à privacidade.

Nota sobre os grupos étnicos: Os nomes dos grupos (A, B, C, D, E) são fictícios e não correspondem a etnias reais. O Kaggle utiliza esses rótulos para preservar o anonimato dos participantes, portanto não é possível identificar as etnias reais.

import kagglehub

# Baixar o dataset do Kaggle
path = kagglehub.dataset_download("spscientist/students-performance-in-exams")
print("Path to dataset files:", path)

# Carregar o arquivo CSV
csv_path = path + "/StudentsPerformance.csv"
df = pd.read_csv(csv_path)
df.head()

Amostra dos dados carregados:

gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
female group B bachelor's degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master's degree standard none 90 95 93