O ato de pré-processar o dado para que o mesmo esteja pronto para utilizarmos nos algoritmos de ML. Nem todos os algoritmos ganham precisão com o pré-processamento. É necessário analisar caso a caso e realizar testes, anotando métricas, para entender o melhor comportamento de cada.
Utilizaremos o pandas e o scikit-learn
pandas
: controle dos dados que utilizaremosscikit-learn
:E duas base de dados:
O processo até começar a implementar um algoritmo é longo. Devemos começar carregando uma base de dados com o panda
, com isso vamos limpar os valores inconsistentes e preencher valores faltantes. Feito isto, devemos realizar o escalonamento de atributos (para deixar na mesma escala) e transformar de variáveis categóricas. Com os dados prontos, vamos avaliar os algoritmos possíveis pra escolher o com melhor desempenho na nossa solução.
A documentação de alguns métodos de algumas bibliotecas utiliza estas nomenclaturas.