Teoria da indução de regras, com os algoritmos OneR e PRISM.

Implementação com a biblioteca orange (usada para aprendizado de máquina e mineração de dados), usando o módulo CN2 na nossa base de risco de crédito, pois o sci-kit learn não possui os algoritmo OneR e PRISM.

Baseline classifier (classificador base): MajorityLearner

Funcionamento

Lendo o dataset, o algoritmo gera regras lógicas para chegar às classificações do dataset e gera a regra default.

Exemplo, no dataset de risco de crédito (que pega renda anual, etc, e identifica qual o risco de emprestar crédito pra pessoa), o algoritmo cria várias regras lógicas (se X > A e Y ≤ Z então CLASSIFICAÇÃO) e, a cada nova predição, passa-se por cada regra para achar a classificação certa.

Algoritmo OneR

O OneR vai gerar apenas uma regra baseado no dataset.

A premissa dele é testar coisas simples primeiro e achar um atributo só que faça todos os trabalhos. Para isto, o algoritmo pega todos os atrbutos do dataset e monta uma condicional lógica e classifica (ex: se RENDA ≤ [um dos valores ordinais do atributo] ENTÃO [uma das classes]). Com uma condicional lógica para cada atributo, o algoritmo contabiliza a quantidade de erros. O atributo com menos erros ao total, é o atributo escolhido.

Recomendado apenas para casos muito simples.

Algoritmo PRISM

Gera uma regra para cada classificação, de resto, igual ao OneR.

Vantagens

Facilmente compreensível
Modelo de análise leve

Desvantagens

Mais lento e, normalmente, não apresentam resultados melhores que as árvores de decisão