O ato de pré-processar o dado para que o mesmo esteja pronto para utilizarmos nos algoritmos de ML. Nem todos os algoritmos ganham precisão com o pré-processamento. É necessário analisar caso a caso e realizar testes, anotando métricas, para entender o melhor comportamento de cada.

Utilizaremos o pandas e o scikit-learn

E duas base de dados:


O processo até começar a implementar um algoritmo é longo. Devemos começar carregando uma base de dados com o panda, com isso vamos limpar os valores inconsistentes e preencher valores faltantes. Feito isto, devemos realizar o escalonamento de atributos (para deixar na mesma escala) e transformar de variáveis categóricas. Com os dados prontos, vamos avaliar os algoritmos possíveis pra escolher o com melhor desempenho na nossa solução.

Tipos de variáveis

A documentação de alguns métodos de algumas bibliotecas utiliza estas nomenclaturas.

Numéricas

Categóricas


BD de crédito