Skip to content

Divisão dos Dados

A divisão dos dados é uma etapa essencial para garantir que o modelo de Machine Learning seja avaliado de forma justa e confiável. Consiste em separar o conjunto de dados em grupos distintos, geralmente em treino e teste (ou validação), permitindo que o modelo aprenda com uma parte dos dados e seja avaliado com outra, nunca vista durante o treinamento.

Principais objetivos: - Evitar overfitting (quando o modelo aprende demais os dados de treino e não generaliza) - Medir o desempenho real do modelo em dados novos - Permitir ajustes e validação de hiperparâmetros

A divisão pode ser feita de diferentes formas, como holdout, k-fold cross-validation ou leave-one-out, dependendo do tamanho e da natureza do conjunto de dados.

Divisão dos Dados: