Baseado em probabilidade (Teorema de Bayes). O algoritmo monta uma tabela de probabilidade baseado na base.

Exemplos de utilização: filtro de spam, mineração de emoção (em textos), separação de documentos

Funcionamento

Pega o dataset e monta uma tabela de probabilidade.

Base: Risco de crédito

Tabela de probabilidade (exemplo da base)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8c27515f-ead3-44e7-bcc2-1cc65c2c0705/tabelaProbabilidade_riscoCredito.png

Com a tabela de probabilidade montada, o algoritmo receberá um novo objeto com seus atributos. Vamos pegar a coluna de cada atributo do novo objeto (por exemplo: boa história de crédito, dívida alta, nenhuma garantia e renda maior que 35 mil) e, para cada classe (linhas da nossa tabela), vamos aplicar a fórmula da probabilidade (?) [não sei se é esse o nome, mas desta forma fica fácil entender).

P(Alto) = 6/14 * 1/6 * 4/6 * 6/6 * 1/6 = 0,0079

P(Moderado) = ...

P(Baixo) = ...

Para conseguirmos a probabilidade em porcentagem, temos que pegar os resultados dos cálculos acima e somar. Na nossa tabela, teremos 0,0645. Este valor representa o nosso 100%. Agora, vamos dividir o resultado do cálculo de cada classe acima e dividir pelo total. O resultado da divisão deverá ser multiplicado por 100. Desta forma:

P(Alto) = 0,0079 / 0,0645 * 100 = 12,24%

Correção Laplaciana

Quando temos atributos da nossa tabela de probabilidade com o valor zerado, o nosso cálculo resultará em 0 e não teremos um resultado. Para isto, existe a correção laplaciana.

A correção irá "adicionar um novo registro" para que o nosso zero torne-se um 1/x. Por exemplo, olhando a tabela, não temos um registro com um histórico de crédito ruim e com risco de crédito baixo (está zerado). Então vamos adicionar um novo registro, logo todas as células da linha do risco de crédito baixo serão x/6 (ou seja, 5 + 1) e o cabeçalho da linha será 6/15 (já que adicionamos um novo revistro). Da mesma forma, o cabeçalho da coluna da história de crédito ruim agora será 5, já que adicionamos um registro novo.

Vantagens