Pré-processamento

O ato de pré-processar o dado para que o mesmo esteja pronto para utilizarmos nos algoritmos de ML. Nem todos os algoritmos ganham precisão com o pré-processamento. É necessário analisar caso a caso e realizar testes, anotando métricas, para entender o melhor comportamento de cada.

Utilizaremos o pandas e o scikit-learn

pandas: controle dos dados que utilizaremos
scikit-learn:

E duas base de dados:

Dados de crédito: histórico de empréstimo de clientes
Censo:

O processo até começar a implementar um algoritmo é longo. Devemos começar carregando uma base de dados com o panda, com isso vamos limpar os valores inconsistentes e preencher valores faltantes. Feito isto, devemos realizar o escalonamento de atributos (para deixar na mesma escala) e transformar de variáveis categóricas. Com os dados prontos, vamos avaliar os algoritmos possíveis pra escolher o com melhor desempenho na nossa solução.

Tipos de variáveis

A documentação de alguns métodos de algumas bibliotecas utiliza estas nomenclaturas.

Numéricas

Contínuas: Números reais/float (ex: temperatura, altura, peso, salário...)
Discretas: Conjunto de valores inteiros finitos (ex: contagem de alguma coisa)

Categóricas

Nominal: Variáveis não mensuráveis e não ordenáveis (ex: cor dos olhos, gênero, ID...)
Ordinal: Categorização sob uma ordenação (ex: tamanho de roupa)

BD de crédito