Material - SOL - Professor | PUC Goiás

Propaganda
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
I.3 Indução de Árvores de Decisão
Nesta seção serão apresentados alguns conceitos básicos da técnica de indução
de árvores de decisão a partir de um exemplo sobre o efeito dos raios solares
sobre algumas pessoas (Winston 1992), mostrado na Tabela 4, obtida a partir de
observações.
NOME
CABELO
ALTURA
PESO
PROTETOR QUEIMADO
Sara
Loiro
Média
Baixo
Não
Sim
Diana
Loiro
Alta
Médio
Sim
Não
Alexandre
Preto
Baixa
Médio
Sim
Não
Ana
Loiro
Baixa
Médio
Não
Sim
Emília
Ruivo
Média
Alto
Não
Sim
Pedro
Preto
Alta
Alto
Não
Não
João
Preto
Média
Alto
Não
Não
Cátia
Loiro
Baixa
Baixo
Sim
Não
Tabela 4 – Efeito dos Raios Solares sobre Algumas Pessoas
Os atributos com seus respectivos valores, que foram analisados para cada
pessoa, estão listados abaixo:
Atributos
Identificação
Valores
Cabelo
loiro, preto, ruivo
Altura
baixa, média, alta
Peso
baixo, médio, alto
Protetor
sim, não
128
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
A classificação foi feita para o atributo categórico queimado, com os valores: sim
ou não.
O número de combinações dos valores dos atributos é 54. Este valor é obtido pela
multiplicação dos números de possíveis valores para cada atributo:
Cabelo = 3 (loiro, preto, ruivo);
Altura = 3 (baixa, média, alta);
Peso = 3 (baixo, médio, alto); e
Protetor = 2 (sim, não).
Ou seja, o resultado é obtido pela multiplicação destes valores: 3 * 3 * 3 * 2 = 54.
A probabilidade de uma nova ocorrência ter as mesmas propriedades de um caso
já observado é calculada pela divisão do número de casos já observados dividido
pelo número total de casos possíveis, ou seja, 8 / 54 = 0,15. Isto indica que a
probabilidade de uma nova informação casar exatamente com um dos casos já
observados é 15%.
Na prática, a probabilidade pode ser bem menor, pois pode haver muito mais
atributos e muito mais valores a eles associados. Por exemplo, supondo existir 12
atrubutos, cada um com 5 possíveis valores e cada valor aparecendo com igual
freqüência, haveria 512 combinações. Se a tabela tivesse um milhão de casos, a
probabilidade de um novo caso ser igual a um já existente seria cerca de 0,4 %
(= 1 milhão / 512 ).
Portanto, pode ser impraticável classificar um caso desconhecido buscando um
casamento exato com propriedades de casos conhecidos e classificados.
Os dados poderiam ser tratados com um espaço de características no qual
poderia-se buscar um casamento parcial. Porém, em não se sabendo quais
propriedades são importantes, pode-se encontrar um vizinho próximo devido a um
alinhamento coincidente de propriedades irrelevantes.
129
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Uma outra alternativa seria utilizar um procedimento de teste de propriedades que
classificasse corretamente cada um dos casos conhecidos, podendo ser usado
para classificar corretamente novos casos.
Os testes envolvidos podem ser arrranjados numa árvore de identificação, isto é,
numa árvore de decisão na qual cada conjunto de possíveis conclusões é
estabelecido implicitamente por uma lista de amostras de classes conhecidas,
como pode ser observado nas Figuras 11 e 12.
Cabelo
loiro
preto
ruivo
Alexandre
Pedro
João
Protetor
não
Sara
Ana
não
Diana
Cátia
Figura 11 – Árvore de Decisão Consistente com o Conjunto de Casos e com
a Intuição sobre os Efeitos dos Raios Solares na Pele das Pessoas
OBS – Em todas as Figuras desta seção, para facilitar o entendimento ao leitor, as
pessoas classificadas com atributo categórico com valor “sim”, estão destacadas
em negrito, para diferenciar das outras classificadas com valor “não”.
130
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Altura
alta
baixa
média
Diana
Pedro
Peso
Cabelo
baixo
ruivo
médio
loiro
preto
alto
Sara
Peso
Cabelo
loiro
Alexandre
baixo
médio
Cátia
ruivo
preto
alto
Emília
Ana
João
Figura 12 – Árvore de Decisão Consistente com o Conjunto de Casos, porém
Inconsistente com a Intuição sobre os Efeitos dos Raios Solares na Pele das
Pessoas
Intuitivamente, a árvore da Figura 11 parece ser melhor que a da Figura 12.
Porém, para um programa chegar a esta conclusão seria necessário um
especialista registrar estas informações ou então basear-se nos fundamentos da
lâmina de Occam e na teoria da Informação que serão descritos em seguida.
131
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Lâmina de Occam
O fundamento da lâmina de Occam (Occam’s razor) é baseado na teoria do
filósofo Ockham, que viveu no século XIII, de que o mundo é inerentemente
simples. Aplicando este fundamento às árvores de decisão pode-se concluir que a
menor árvore de identificação que for consistente com as amostras (casos) será
aquela que mais provavelmente irá classificar corretamente casos desconhecidos.
E a questão deixa, portanto, de ser “qual é a árvore de identificação correta?” e
passa a ser “como construir a menor árvore de identificação?”.
Para construir a menor árvore de identificação procura-se partir da característica
mais relevante, mais discriminante e a partir dela, descer a árvore. O objetivo é
selecionar o teste para o nó raiz que melhor divida os casos em subconjuntos
homogêneos (com a mesma classificação) e assim sucessivamente até que todos
os subconjuntos sejam homogêneos. Comparando-se os resultados obtidos nas
Figuras 13, 14, 15 e 16, observa-se que o teste da cor do cabelo (Figura 13) faz
uma melhor divisão dos casos em subconjuntos homogêneos. A Figura 17 mostra
que após isolar pessoas loiras, o teste de uso de protetor solar é o que faz a
melhor divisão desse conjunto em subconjuntos homogêneos.
132
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Teoria da Informação
A teoria da informação fornece uma fórmula para avaliar a desordem (entropia) de
uma árvore de decisão:
Desordem Média =
∑
Desordem Média =
∑ (nb / ni) * (∑ − nbc / nb log 2 nbc / nb)
b
((peso (do ramo)) * ( ∑ desordem de um ramo))
c
Onde:
nb = número de exemplos no ramo b;
ni = número de exemplos em todos os ramos; e
nbc = número de exemplos no ramo b da classe c.
Se um dado conjunto tivesse membros de apenas duas classes, por exemplo, A e
B, e o número de membros de cada classe fosse perfeitamente balanceado, a
desordem seria máxima e igual a 1:
Desordem =
∑ − nbc / nb log 2nbc / nb
c
Desordem = − 1 / 2 log 21 / 2 − 1 / 2 log 21 / 2 = ½ + ½ = 1
Por outro lado, se houvesse apenas membros da classe A ou apenas membros da
classe B, a desordem seria zero, pois no limite, quando x tende a zero, x log 2 x é
zero:
Desordem = − 1 / 1 log 21 − 0 / 1 log 20 = 0 – 0 = 0
Aplicando a fórmula da Desordem Média ao teste da cor do cabelo, obtém-se:
133
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Desordem Média = 4 / 8( −2 / 4 Log 22 / 4 − 2 / 4 log 22 / 4)
(para loiro)
+ 1/8 * 0
(para ruivo)
+ 3/8 * 0
(para preto)
= 0,5
Fazendo o mesmo para os outros testes obtém-se:
Teste
Desordem
Cabelo
0.5
Altura
0,69
Peso
0,94
Protetor
0,61
Após a seleção do teste do cabelo, para separar as pessoas do conjunto Sara,
Diana, Ana e Cátia, tem-se:
Teste
Desordem
Altura
0,5
Peso
1
Protetor
0
134
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Cabelo
preto
loiro
Sara
ruivo
Emília
Alexandre
Diana
Pedro
Ana
João
Cátia
Figura 13 – Teste da Cor do Cabelo
Peso
baixo
Sara
médio
alto
Diana
Emília
Alexandre
Pedro
Ana
João
Figura 14 – Teste do Peso
135
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Altura
baixa
alta
média
Alexandre
Sara
Diana
Ana
Emília
Pedro
Cátia
Figura 15 – Teste da Altura
Protetor
não
sim
Sara
Diana
Ana
Alexandre
Emília
Cátia
João
Pedro
Figura 16 – Teste de Uso de Protetor Solar
136
Edited by Foxit PDF Editor
Copyright (c) by Foxit Software Company, 2004 - 2007
For Evaluation Only.
Altura
baixa
média
Ana
alta
Diana
Sara
Cátia
Peso
alto
baixo
médio
Sara
Diana
Cátia
Ana
Protetor
não
sim
Sara
Diana
Ana
Cátia
Figura 17 – Teste de Uso de Protetor Solar após Isolar Pessoas Loiras
137
Download