8. Divisão dos Dados em Treino e Teste
A separação dos dados em conjuntos de treino e teste é essencial para avaliar a capacidade de generalização do modelo KNN. O conjunto de treino é utilizado para ajustar o modelo, enquanto o conjunto de teste serve para medir o desempenho em dados totalmente novos.
Essa estratégia ajuda a evitar o overfitting, que ocorre quando o modelo aprende padrões específicos demais do conjunto de treino e perde a capacidade de prever corretamente em situações reais. Uma avaliação justa depende dessa divisão, garantindo que os resultados reflitam o potencial do modelo em cenários práticos.
Formato treino: (800, X) (800,) Formato teste: (200, X) (200,)
A divisão garante avaliação justa e evita overfitting. Segue boas práticas de machine learning.