Aprendizagem2

Propaganda
Universidade Federal de Campina Grande
Departamento de Sistemas e Computação
Curso de Bacharelado em Ciência da Computação
Inteligência Artificial I
Aprendizagem
(Parte II)
Prof.a Joseana Macêdo Fechine
[email protected]
Carga Horária: 60 horas
DSC/CCT/UFC
G
Aprendizagem
Tópicos

Aprendizagem

Árvores de decisão
2
DSC/CCT/UFCG
INDUÇÃO por
ÁRVORES de DECISÃO
DSC/CCT/UFCG

Indução mediante árvores de decisão - uma das
formas mais simples de algoritmos de
aprendizagem e também de muito sucesso.

Entrada: um objeto ou situação descrito por um
conjunto de propriedades ou atributos;

Saída: uma decisão.

Árvore de decisão: formada por um conjunto de
nós de decisão, perguntas, que permitem a
classificação de cada caso.
3
INDUÇÃO por
ÁRVORES de DECISÃO

Aprendizagem de uma árvore de decisão com
exemplos:



DSC/CCT/UFCG
Situações em que se têm exemplos previamente
classificados com regras desconhecidas que se pretendem
aprender (descobrir).

Essas classificações podem ter sido feitas por um
especialista que queremos imitar ou traduzir em medidas
difíceis ou caras de obter (por exemplo, medidas realizadas
por testes destrutivos).

Pode-se substituir o especialista por uma árvore de
decisão.
Aprendizagem, Estimação, Treinamento: Partindo de
exemplos, "adivinhar" a árvore.
Árvore de Decisão: Conjunto de “nós de decisão” e “folhas”
que implementam um modelo de classificação.
4
INDUÇÃO por
ÁRVORES de DECISÃO

A partir de um conjunto de propriedades, decide sim
ou não.

Representação de árvores de decisão



Cada nó interno testa um atributo
Cada ramo corresponde a um valor do atributo
Cada folha atribui uma classificação
5
DSC/CCT/UFCG
INDUÇÃO por
ÁRVORES de DECISÃO

Exemplo - descrito pelos valores dos atributos e o
valor do predicado meta.

Valor do predicado meta - chamado classificação
do exemplo.

Se o predicado meta é verdadeiro para algum
exemplo, tem-se o exemplo positivo, caso
contrário exemplo negativo.

O conjunto completo de exemplos é chamado
conjunto de treinamento.
6
DSC/CCT/UFCG
Expressividade de árvores de
decisão

Qualquer função booleana pode ser escrita como
uma árvore de decisão.
7
DSC/CCT/UFCG
O problema com a Ad trivial

Algoritmo de aprendizagem em árvore de decisão
(Ad):

A idéia é testar o atributo mais importante – aquele que
faz a maior diferença para a classificação de um exemplo.

Obter a classificação correta com pequeno nº de testes =
caminhos curtos e árvore pequena.
Limitação: A árvore memoriza as observações. Ela não extrai
qualquer padrão dos exemplos e, assim, não podemos esperar que
ela esteja apta a extrapolar para exemplos não vistos antes.
8
DSC/CCT/UFCG
Expressividade de árvores de
decisão

Árvores de decisão servem para alguns tipos de
funções e não são boas para outros.

Infelizmente, não existe uma espécie de
representação que seja eficiente para todos os tipos
de funções.
9
DSC/CCT/UFCG
INDUÇÃO por
ÁRVORES de DECISÃO

EXEMPLO no domínio do restaurante:

O objetivo é aprender uma definição para o predicado
meta Esperará, em que a definição é expressa como
uma árvore de decisão.
Clientes?
Nenhum
Não
alguns
Sim
cheio
EsperaEstimada?
>60
30-60
Não
Alternativa?
Não
Reserva?
Não
Sim
Bar?
Sim
Sex/Sab?
Não
0-10
Sim
Faminto?
Sim
Não
10-30
Não
Sim
Sim
Alternativa?
Sim
Não
Sim
Sim
Sim
Chovendo?
Não
Sim
Não
Sim
Não
Sim
Não
Sim
10
DSC/CCT/UFCG
Exemplo
Restaurante ...

Exemplo: Esperar ou não uma mesa em um restaurante?

Atributos disponíveis:










Alternativa: há um outro restaurante apropriado por perto?
Bar: o restaurante tem uma área de bar confortável para
esperar?
Sex/Sab: verdadeiro às sextas e sábados
Faminto: Estamos com fome?
Clientes: Quantas pessoas estão no restaurante?
Preço: A faixa de preços do restaurante
Chovendo: Está chovendo do lado de fora?
Reserva: Fizemos uma reserva?
Tipo: Qual o tipo do restaurante?
Espera estimada: A espera estimada pelo gerente
11
DSC/CCT/UFCG
Exemplo
Restaurante ...
Clientes?
Nenhum
Não
alguns
Sim
cheio
EsperaEstimada?
>60
30-60
Não
Alternativa?
Não
Reserva?
Não
Sim
Bar?
Não
Não
DSC/CCT/UFCG
Sim
Sim
Sim
Sex/Sab?
Não
0-10
Sim
Faminto?
Sim
Não
10-30
Não
Sim
Sim
Alternativa?
Sim
Não
Sim
Sim
Sim
Chovendo?
Não
Sim
Não
Sim
12
Expressividade de árvores de
decisão

Qualquer hipótese de árvore de decisão específica para o
predicado meta VaiEsperar pode ser vista como uma asserção
da forma:
∀s VaiEsperar(s)  (P1(s) v P2(s) v ... v Pn(s))

Cada condição Pi(s) é uma conjunção de testes que pode
corresponder a um caminho da raiz até uma folha da árvore
com resultado positivo.

A árvore pode ser representada por uma conjunção de
implicações individuais que correspondem aos caminhos que
vão da raiz até o nó folha Sim.
13
DSC/CCT/UFCG
Expressividade de árvores de
decisão

Não é possível utilizar árvores de decisão para
representar testes que se referem a dois ou mais
objetos diferentes
∃ r2 Perto(r2, r) ^ Preço(r, p) ^ Preço(r2, p2) ^ MaisBarato(p2, p)
14
DSC/CCT/UFCG
Conjunto de treinamento para o exemplo do restaurante
Ex
Alt
Bar
Sex
Fam
Cli
Pre
Chu
Res
Tipo
Tem
Meta
X1
Sim
Não
Não
Sim
Alg
$$$
Não
Sim
Fra
0-10
Sim
X2
Sim
Não
Não
Sim
Che
$
Não
Não
Tai
30-60
Não
X3
Não
Sim
Não
Não
Alg
$
Não
Não
Ham
0-10
Sim
X4
Sim
Não
Sim
Sim
Che
$
Sim
Não
Tai
10-30
Sim
X5
Sim
Não
Sim
Não
Che
$$$
Não
Sim
Fra
>60
Não
X6
Não
Sim
Não
Sim
Alg
$$
Sim
Sim
Ita
0-10
Sim
X7
Não
Sim
Não
Não
Ne
$
Sim
Não
Ham
0-10
Não
X8
Não
Não
Não
Sim
Alg
$$
Sim
Sim
Tai
0-10
Sim
X9
Não
Sim
Sim
Não
Che
$
Sim
Não
Ham
>60
Não
X10
Sim
Sim
Sim
Sim
Che
$$$
Não
Sim
Ita
10-30
Não
X11
Não
Não
Não
Não
Ne
$
Não
Não
Tai
0-10
Não
X12
Sim
Sim
Sim
Sim
Che
$
Não
Não
Ham
30-60
Sim15
DSC/CCT/UFCG
Aplicação do algoritmo de
aprendizagem
DSC/CCT/UFCG
alternativa?
Ex Alt
Bar
Sex
Meta
X1
Sim
Não
Não
Sim
1 3 4 6 8 12
sim
X2
Sim
Não
Não
Não
2 5 7 9 10 11
X3
Não
Sim
Não
1 4 12
3 6 8
X4
Sim
Não
Sim
2 5 10
7 9 11
X5
Sim
Não
Sim
X6
Não
Sim
Não
X7
Não
Sim
Não
X8
Não
Não
Não
sim
X9
Não
Sim
Sim
X10 Sim
Sim
Sim
X11 Não
Não
Não
X12 Sim
Sim
Sim
não
Bar?
Sex/Sab?
não
sim
não
4 12
1 3 6 8
3 6 12
1 4 8
5 9 10
2 7 11
7 9 10
2 5 11
16
Casos a considerar na escolha
de um novo atributo

Se existem alguns exemplos positivos e alguns negativos,
escolha o melhor atributo para dividi-los;

Se todos os exemplos restantes forem positivos (ou negativos),
terminamos;

Se não resta nenhum exemplo, nenhum exemplo deste tipo foi
observado, retornamos a maioria do nó pai;

Não resta nenhum atributo mas há exemplos positivos e
negativos – descrições iguais com classificações diferentes =
ruído nos dados.
17
DSC/CCT/UFCG
Árvore resultante da
aplicação do algoritmo
Clientes?
Nenhum
Não
alguns
cheio
Sim
Faminto?
Não
Sim
Não
Tipo?
Fra
Sim
O algoritmo poderia
encontrar uma Ad diferente
para o mesmo conjunto de
treinamento?
Ita
Não
Qual seria?
Tai
Ham
Sex/sab?
Sim
Não
Sim
Não
Sim
19
DSC/CCT/UFCG
A árvore resultante

É diferente da árvore original.

Mas a hipótese concorda com todos os exemplos.

E é consideravelmente mais simples do que a árvore
original.

Chovendo e Reserva ficaram de fora porque a árvore
não necessita destes para classificar os exemplos.

Mas nunca viu um caso de espera de 0-10 min e o
restaurante cheio

Para um caso no qual faminto é falso a Ad informa que não
devemos esperar.
20
DSC/CCT/UFCG
Escolha de testes de
atributos


Esquema de aprendizagem da Ad

Projetado para minimizar a profundidade da árvore final

Idéia: escolher o atributo que melhor fornece uma
classificação exata dos exemplos
Atributo perfeito: divide os exemplos em conjuntos
que são todos positivos ou todos negativos


Clientes não é perfeito, mas é “bastante bom”
Atributo inútil: deixa os conjuntos de exemplos com
a mesma proporção do conjunto original

Tipo é um atributo “realmente inútil”
21
DSC/CCT/UFCG
O algoritmo de aprendizagem

É um bom algoritmo se ele produz hipóteses que
classificam (predizem) bem exemplos ainda não
vistos

A predição é boa se ela se torna verdadeira

Como avaliar a qualidade de uma hipótese?
 Podemos checar sua previsão com uma
classificação correta que já conhecemos
 Conjunto de exemplos conhecidos = conjunto de
testes
22
DSC/CCT/UFCG
Metodologia para avaliação de
desempenho de um algoritmo
1. Coletar um grande conjunto de exemplos
2. Dividi-lo em dois conjuntos disjuntos

Conjunto de treinamento e conjunto de teste
3. Aplicar o algoritmo ao conjunto de treinamento,
gerando uma hipótese h
4. Medir a quantidade de exemplos do conjunto de
teste classificados corretamente por h
5. Repetir as etapas 2 a 4 para


Diferentes tamanhos de conjuntos de treinamento
Diferentes conjuntos de treinamento de cada tamanho
23
DSC/CCT/UFCG
Curva de aprendizagem

É traçada com o conjunto de dados obtidos da
metodologia anterior.

Conjunto de treinamento aumenta => qualidade da
previsão aumenta.

Bom sinal de que existe um padrão nos dados e o
algoritmo está capturando este padrão.
24
DSC/CCT/UFCG
Curva de aprendizagem
Curva de aprendizagem para o algoritmo de árvore de decisão sobre 100 exemplos
gerados aleatoriamente no domínio do restaurante. O gráfico resume 20 testes.
Observação: É um bom sinal de que existe realmente algum padrão nos
dados e de que o algoritmo de aprendizagem o está incorporando.
DSC/CCT/UFCG
25
Problemas gerais: overfitting

Overfitting (hiper-especialização):


Evitar encontrar uma “regularidade” muito restrita nos dados
Soluções:


validação cruzada
poda
26
DSC/CCT/UFCG
Validação Cruzada


Serve para evitar overfitting e para averiguar robustez dos
resultados
Algoritmo
1) Divide o conjunto de exemplos em dois sub-conjuntos:
conjuntos de treinamento (TR) e de teste (TE)
2) Usa indução para gerar hipótese H sobre TR
3) Mede percentagem de erro de H aplicada à TE
4) Repete passos 1-3 com diferentes tamanhos de TE e TR, e
tendo elemento escolhidos aleatoriamente
Treinamento
Teste
27
DSC/CCT/UFCG
Exemplos Práticos

Exemplos:
 Diagnóstico médico e de equipamentos
 Análise de crédito
 Recuperação de Informação
 GASOIL


Sistema de separação de gás-óleo em plataformas de
petróleo.
Piloto automático de um Cessna
Treinado por três pilotos;
 Obteve um desempenho melhor do que os três.

28
DSC/CCT/UFCG
Download