8. Divisão dos Dados em Treino e Teste

A separação dos dados em conjuntos de treino e teste é essencial para avaliar a capacidade de generalização do modelo KNN. O conjunto de treino é utilizado para ajustar o modelo, enquanto o conjunto de teste serve para medir o desempenho em dados totalmente novos.

Essa estratégia ajuda a evitar o overfitting, que ocorre quando o modelo aprende padrões específicos demais do conjunto de treino e perde a capacidade de prever corretamente em situações reais. Uma avaliação justa depende dessa divisão, garantindo que os resultados reflitam o potencial do modelo em cenários práticos.

CódigoResultado

from sklearn.model_selection import train_test_split

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
print('Formato treino:', X_train.shape, y_train.shape)
print('Formato teste:', X_test.shape, y_test.shape)

Formato treino: (800, X) (800,) Formato teste: (200, X) (200,)

A divisão garante avaliação justa e evita overfitting. Segue boas práticas de machine learning.