09. Divisão Treino/Teste

O conjunto de dados é dividido em dados de treino e teste, garantindo que o modelo seja avaliado de forma justa e sem sobreajuste.

Código utilizado:

target = "math score"
features = [col for col in df.columns if col not in [target]]
X = pd.get_dummies(df[features], drop_first=True)
y = df[target]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Complemento: Arquivos X_train.csv, X_test.csv, y_train.csv, y_test.csv foram gerados. Os dados foram divididos em 80% treino e 20% teste. Essa divisão permite avaliar o modelo de forma justa, evitando sobreajuste.