Incerteza Disciplina: Inteligência Artificial Prof.: Cedric Luiz de Carvalho Tópicos Introdução Representação da incerteza Probabilidade condicional e incondicional Inferência probabilística Inferência Bayesiana Regras de Bayes Aplicação da Regra de Bayes Referências Introdução Nos processos de inferência vistos: um fato é verdadeiro um fato é falso um fato é desconhecido Pode-se haver casos onde: um fato é provavelmente verdadeiro mundo aleatório distribuição das pessoas que ficarão doentes durante uma epidemia de dengue mundo não aleatório, mas não temos acesso a todos os dados: a probabilidade de um determinado remédio combater certa doença em um paciente Irrigação Um agricultor ativa um sistema de irrigação apenas nas épocas mais secas (primavera e inverno). Em outras estações, deve existir chuva suficiente. Tanto a irrigação quanto a chuva podem deixar a varanda da casa do agricultor (próxima à área plantada) muito molhada. O chão da varanda, quando molhado, fica muito escorregadio. Como: Representar de modo simples as relações de causalidade? Analisar os efeitos de cada variável sobre estas relações? Tomar decisões com base nestes efeitos? O Dilema do Prisioneiro (1) Três prisioneiros (A, B e C) julgados por assassinato e em prisão preventiva. Amanhã será o julgamento, e apenas um será condenado à prisão O guarda da prisão é amigo do juiz, e já sabe quem será condenado No meio da noite, o prisioneiro A chama o guarda e pede que este entregue uma carta a um prisioneiro que será libertado O Dilema do Prisioneiro (2) Uma hora depois, A chama o guarda novamente e diz: “Acho que você pode me dizer para quem deu a carta. Isto não muda a minha situação, já que eu já sei que um deles vai ser libertado mesmo, independente do meu julgamento.” O guarda concorda e diz: “Dei a carta ao prisioneiro B.” O Dilema do Prisioneiro (3) A não consegue mais dormir. Passa a noite pensando: “Antes do guarda falar, as minhas chances de ser condenado eram de 1 em 3. Agora que ele falou algo que eu considerava irrelevante (ou seja, o nome de alguém que será libertado), as minhas chances de ser condenado passaram para 1 em 2... Onde foi que eu errei?” O Dilema do Prisioneiro (4) MORAL DA ESTÓRIA: MODELAGEM DE PROBLEMAS ENVOLVENDO INCERTEZA DEVE SER FEITA COM MUITO CUIDADO!!! Incerteza (1) Agente lógico conhece todos fatos sobre o ambiente definirá seus planos de ações em muitos casos não terá nenhuma ação Exemplo: Plano A90 A imperfeição da informação é geralmente conhecida na literatura de sistemas baseados em conhecimento por incerteza Incerteza (2) Termo é muito restritivo o que se convenciona chamar de tratamento de incerteza pode, na verdade, estar endereçando outras imperfeições da informação: imprecisão, conflito, ignorância parcial etc. As informações podem variar de perfeitas a completamente imperfeitas Representação de Incerteza (1) Informação perfeita: A aula começa às 8h Informação imprecisa: A aula começa entre 8h e 9h Informação incerta: Eu acho que a aula começa às 8h Informação vaga: A aula começa lá pelas 8h Informação probabilista: É provável que a aula comece às 8h Representação de Incerteza (2) Informação possibilista: É possível que a aula comece às 8h Informação inconsistente: Maria disse que a aula começa às 8h mas João disse que ele começa às 10h Informação incompleta: Eu não sei a que horas a aula começa, mas normalmente na UFG as aulas começam às 8h Ignorância Total: Eu não faço a menor idéia do horário da aula Representação de Incerteza (3) O que fazer então? Depende da importância relativa das várias metas e das probabilidades da sua ocorrência Conhecimento com Incerteza Sistemas de diagnósticos (1) sempre trabalham com incerteza conserto de carro, medicina, mercado, leis Regra de diagnóstico ∀ p sintoma (p, dor de garganta) ⇒ doença (p, gripe) A doença (causa do sintoma) pode ser outra. ∀ p sintoma (p, dor de garganta) ⇒ doença (p, gripe) v doença(p, dengue) ... Conhecimento com Incerteza (2) Regra causal ∀ p doença (p, gripe) ⇒ sintoma (p,dor de garganta) Há circunstâncias em que a doença não provoca o sintoma. A conexão entre antecedente e conseqüente não é uma implicação lógica em nenhuma direção Conhecimento com Incerteza (3) Agentes em Lógica de Primeira Ordem enfrentam dificuldades em situações onde: o agente não tem acesso a todo o ambiente o agente tem uma compreensão incompleta ou incorreta do ambiente Conhecimento com Incerteza (4) A lógica de primeira ordem falha no domínio de diagnóstico médico devido a: “preguiça”: existem causas ou conseqüências demais a considerar ignorância não existe uma teoria completa para o domínio ignorância teórica: prática: não podemos fazer todos os testes necessários para o diagnóstico perfeito Conhecimento com Incerteza (5) Na lógica de predicados é fácil representar: todas as lojas estão fechadas aos domingos ninguém vive mais de 150 anos carros de bombeiros são sempre vermelhos Mas não fatos tão simples: a maioria das lojas está fechada aos domingos quase ninguém vive mais de 100 anos normalmente os carros de bombeiros são vermelhos Conhecimento com Incerteza (6) Nestes casos, o conhecimento do agente pode apenas prover um grau de crença nas sentenças relevantes O uso da teoria da probabilidade grau de crença: 0 – 1 Exemplo: P(gripe|dor de garganta) = 0.8 Conhecimento com Incerteza (7) Resume a nossa incerteza oriunda da falta de conhecimento preciso e completo sobre o problema Se acredita que o paciente tem 80% de chances de ter gripe se ele estiver com dor de garganta não é certeza absoluta O grau de crença pode ser derivado: dados estatísticos regras gerais combinação de evidências Conhecimento com Incerteza (8) Probabilidade 0.8 não significa 80% de verdade 80% de crença do médico Quando se fala de probabilidade neste contexto, não se faz referência a números, e sim, a um tipo de raciocínio “A chance de que um paciente portador do sintoma S apresente no futuro próximo a doença D é p” A verdade desta afirmação não é o valor preciso de p, mas um valor de crença do médico dependendo das evidências do mundo Conhecimento com Incerteza (9) Dificuldades na implementação de sistemas usando grau de crença: como as probabilidades devem ser interpretadas como elas podem ser combinadas umas com as outras como eventos separados (dependentes) podem ser tratados de modo que a mesma evidência não conte mais de uma vez quanto esforço deve ser gasto para difundir mudanças de probabilidade por todo os sistema A B, crença P1 B C, crença P2 E se a confiança em A mudar, B e C também devem mudar Decisões racionais Incerteza muda o caminho dos agentes para tomar decisões plano A90 plano A120 Preferências entre diferentes possibilidades Teoria da decisão teoria da probabilidade + teoria da utilidade Notação probabilística Linguagem para representar e raciocinar com conhecimento incerto: a natureza das sentenças com o grau de crença a dependência do grau de crença na experiência do agente Extensão da lógica proposicional Proposições (1) Grau de crença são aplicados as proposições Variáveis randômicas parte do mundo inicialmente desconhecidas Domínio das variáveis randômicas: booleana ou proposicional: Febre <true, false> discreta: <finito ou infinito> Mês <Janeiro, ..., Dezembro> contínua: Temperatura [0, 1] Temperatura = 25,6 Temperatura < 26 Eventos atômicos Especificação completa do estado do mundo cujo agente está incerto atribuição do mundo de valores para todas as variáveis Exemplo: as variáveis do meu mundo gripe: verdadeiro ou falso dor de garganta: verdadeiro ou falso Quatro eventos atômicos distintos Grau de crença (probabilidade) A dependência do grau de crença na experiência do agente é refletida: probabilidade probabilidade a priori (incondicional) condicional Probabilidade incondicional (1) A priori (incondicional) calculado antes do agente receber percepções (evidências) Exemplo P(Gripe=true) ou P(gripe) = 0.1 Grau de crença na ausência de qualquer outra informação Probabilidade incondicional (2) A probabilidade de todos os valores possíveis de uma variável randômica P(Tempo = sol) = 0.7 P(Tempo = chuva) = 0.2 P(Tempo = nublado) = 0.08 P(Tempo = neve) = 0.02 Ou P(Tempo) = <0.7, 0.2, 0.08, 0.02> Chamada: Distribuição de probabilidade da variável Tempo Probabilidade incondicional (3) A expressão: P(Tempo, Gripe) Tabela de probabilidades 4 x 2 entradas Chamada: Distribuição de Probabilidade Conjunta Conjunto completo das variáveis Tempo, Dor de Garganta e Gripe: Distribuição de Probabilidade Conjunta Completa Probabilidade condicional (1) Calculado de acordo com as evidências disponíveis evidências: percepções que o agente recebeu até um dado momento Exemplo: P(gripe | dor de garganta) = 0.8 P(gripe | ¬dor de garganta) = 0.2 Se o paciente tem dor de garganta e nenhuma outra informação é apresentada, então a probabilidade do paciente ter gripe é de 80% Probabilidade condicional (2) P(gripe | dor de garganta)= 0.8 dado que dor de garganta é tudo que conheço, a chance de gripe (vista por mim) é de 80% Errado “se tenho dor de garganta então 80% de estar de gripe” Se sabemos mais, isto é, a evidência da gripe é também observada, então: P(gripe | dor de garganta, gripe) = 1 Probabilidade condicional (3) OBS: a nova evidência pode ser inútil P(gripe | dor de garganta, lua cheia) = P(gripe | dor de garganta) = 0.8 Probabilidade condicional (4) Probabilidade incondicional um caso especial da probabilidade condicional: P(gripe | ) = P(gripe) Podem ser definidas em termos de probabilidades incondicionais Probabilidade condicional (a posteriori) de A dado que B ocorreu é definida por P(A | B) = P(A ^B) , P(B) quando P(B) > 0 Probabilidade condicional (5) Pode também ser escrita (mais natural) P(A ^ B) = P(A | Β) P(B) - Regra do produto B forma um “contexto” para o evento A Também pode ser escrita: P(A ^ B) = P(B | Α) P(A) Axiomas da probabilidade (1) Semântica das declarações probabilísticas 0 ≤ P(a) ≤ 1 P(true) = 1 e P(false) = 0 Probabilidade da disjunção P(a ν b) = P(a) + P(b) – P(a ^ b) Axiomas da probabilidade (2) Distribuição de Probabilidade Conjunta em qualquer conjunto de variáveis deve ser 1 Se for inconsistente um agente não pode raciocinar Inferência probabilística (1) Usando Distribuição de Probabilidade Conjunta Completa base de conhecimento Um modelo probabilista de um domínio consiste de um conjunto de variáveis aleatórias que podem assumir valores particulares com certas probabilidades Inferência probabilística (2) • Três variáveis booleanas: • Tabela de 2 x 2 x 2 dor de garganta ¬dor de garganta febre ¬febre febre ¬febre gripe 0.108 0.012 0.072 0.008 ¬gripe 0.016 0.064 0.144 0.576 Inferência probabilística (3) Os eventos atômicos são mutuamente exclusivos e coletivamente exaustivos (axiomas da probabilidade) Para o exemplo acima anterior a soma de todas as probabilidades = 1.0 Probabilidade incondicional P(gripe) = 0.108 + 0.012 + 0.072 + 0.008 = 0.2 Inferência probabilística (4) Probabilidades incondicional: P(gripe ν dor de garganta) = 0.108 + 0.012 + 0.072 + 0.008 + 0.016 + 0.06 = 0.28 Inferência probabilística (5) Probabilidade de estar gripado dado uma dor de garganta: P(gripe | dor de garganta) = P(gripe ^ dor de garganta) P(dor de garganta) = 0.108 + 0.012 0.108 + 0.012 + 0.016 + 0.064 = 0.6 Inferência probabilística (6) Probabilidade de não se estar gripado dado uma dor de garganta: P(¬gripe | dor de garganta) = P(¬gripe ^ dor de garganta) P(dor de garganta) = 0.016 + 0.064 0.108 + 0.012 + 0.016 + 0.064 = 0.4 Inferência probabilística: problemas Problema real: Enorme quantidade de variáveis randômicas Variáveis discretas, e também contínuas! Para um domínio com n variáveis booleanas O(2n) tamanho da tabela O(2n) tempo de processamento da tabela Milhares de variáveis randômicas Tabela de distribuição de probabilidade conjunta é impraticável Independência (1) Pela tabela anterior adicionar uma quarta variável: Tempo P(Dor de garganta, Febre, Gripe, Tempo) 32 entradas Qual a relação entre: P(dor de garganta, febre, gripe) P(dor de garganta, febre, gripe, Tempo = sol) Independência (2) P(dor de garganta, febre, gripe, Tempo = sol) Regra do produto = P(Tempo = sol | dor de garganta, febre, gripe) * P(dor de garganta, febre, gripe) = P(Tempo = sol | dor de garganta, febre, gripe) = P(Tempo = sol) Logo, se pode deduzir: P(Dor de garganta, Febre, Gripe, Tempo) = P(Tempo) P(Dor de garganta, Febre, Gripe) Independência (3) Tabela original de 32 entradas Com a independência de proposições: uma tabela de 8 entradas e outra de 4 entradas Reduzem as informações necessárias para especificar a distribuição de probabilidade conjunta Difícil separar conjuntos de variáveis por independência Inferência Bayesiana (1) A teoria da probabilidade adota a frase epistêmica “...posto que C é conhecido” como uma primitiva da linguagem. Sintaticamente isto é denotado por: P(A | C) = p ,onde A é uma dada proposição Inferência Bayesiana (2) Esta frase combina as noções de conhecimento e crença pela atribuição à A de um grau de crença p, dado o conhecimento de C C é chamado de “contexto da crença em A”, e a notação P(A | C) é chamada “Probabilidade Condicional de Bayes” Inferência Bayesiana (3) O teorema de Bayes provê a base para o tratamento da imperfeição da informação ele computa a probabilidade de um dado evento, dado um conjunto de observações A regra de Bayes expressa as probabilidades incondicionais em termos das probabilidades condicionais (mais fáceis de obter/estimar) Permite obter probabilidades desconhecidas a partir de probabilidades conhecidas Inferência Bayesiana (4) Seja: P(Hi | E) a probabilidade de que a hipótese Hi seja verdadeira dada a evidência E. P(E | Hi) a probabilidade que a evidência E será observada se a hipótese Hi for verdadeira. P(Hi) a probabilidade “a priori” que a hipótese Hi é veradeira na ausência de qualquer evidência específica K o número de hipóteses possíveis Inferência Bayesiana (5) O teorema de Bayes é formulado como: P(Y | X) = P(X | Y) * P(Y) P(X) A probabilidade condicional, P(Y | X), dos eventos X e Y pode ser vista como uma quantificação da relação de causa e efeito entre X e Y: X é a evidência que suporta a hipótese Y Inferência Bayesiana (6) Para o caso de termos mais de uma evidência: P(Y | X, e ) = P(X | Y, e) * P(Y, e) P(X | e) Aplicação da Regra de Bayes: Diagnóstico Médico • Seja: P(M|S) = P(S|M)P(M) M = doença meningite S = rigidez no pescoço • Um Doutor sabe: P(S | M) = 0.5 P(M) = 1/50000 P(S) = 1/20 P(S) = 0,5*(1/50000) = 0,0002 1/20 A probabilidade de uma pessoa ter meningite dado que ela está com rigidez no pescoço é 0,02% ou ainda 1 em 5000. Diagnóstico de roubo Temos: P(alarme | roubo) = 0,95 P(alarme | ~roubo) = 0,01 P(roubo) = 0,0001 Então: P(roubo | alarme) = 0,00941 = 0,9% Este valor pode ser intuitivamente entendido quando verificamos que as chances de haver um roubo e o alarme tocar são muito pequenas em relação às chances de haver um alarme falso. Probabilidade Condicional e Independência (1) Informações probabilísticas são interessantes na seguinte forma P(efeito | causa) Duas ou mais evidências (usando regra de Bayes) P(dor_no_braço ^ braço_inchado | braço_quebrado) É necessário conhecer as probabilidades condicionais das conjunções para cada valor de braço_quebrado duas variáveis: 2 2 n variaveis: 2n Probabilidade Condicional e Independência (2) Pode-se tentar simplificar a expressão através de afirmações adicionais sobre o domínio a noção de independência dor_no_braço e braço_inchado não são independentes Cada uma é causada diretamente pelo braço_quebrado, mas nenhuma tem efeito direto na outra Probabilidade Condicional e Independência (3) Esta propriedade é escrita como P(dor_no_braço ^ braço_inchado|braço_quebrado) = P(dor_no_braço|braço_quebrado) P( braço_inchad|braço_quebrado) Esta expressão significa a independência condicional de dor_no_braço e braço_inchado dado braço_quebrado Probabilidade Condicional e Independência (4) Podemos processar cada pedaço separadamente Independência condicional é crucial para o funcionamento eficaz de sistemas probabilísticos Probabilidade Condicional e Independência (5) Seja X e Y independentes P(X | Y,Z) = P(X|Z) Isso quer dizer que se o objetivo é saber a probabilidade de X então tanto faz o valor de Y se você já sabe o valor de Z Exemplo: Trovão é condicionalmente independente de Chuva, dado Relâmpago: P(Trovão | Chuva, Relâmpago) = P(Trovão | Relâmpago) Probabilidade Condicional e Independência (6) Uma outra equação que pode ser usada P(Dor de garganta, Febre, Gripe) =P(Dor de garganta, Febre | Gripe) P(Gripe) =P(Dor de garganta | Gripe) P(Febre | Gripe) P(Gripe) Para todos os n sintomas que são condicionalmente independentes dado gripe, o tamanho da representação é: O(n), ao invés de O(2n) Diagnóstico de investimento (1) Supondo as evidências: e1 = solteiro e2 = salário_alto e3 = jovem Apoiam as hipóteses: h1 = investidor_de_alto_risco h2 = investidor_de_baixo_risco Sendo mutualmente exclusivas e exaustivas: P(h1 ^ h2) = 0 P(h1) = 1 - P(h2) Diagnóstico de investimento (2) Assumindo os conhecimentos do especialista, que estima as probabilidades posteriores: P(H=h1) = 0.3 P(E=e1|H=h1) = 0.6 P(E=e2|H=h1) = 0.2 P(E=e3|H=h1) = 0.5 Diagnóstico de investimento (2) Assumindo os conhecimentos do especialista, que estima as probabilidades posteriores: P(H=h2) = 0.7 P(E=e1|H=h2) = 0.3 P(E=e2|H=h2) = 0.8 P(E=e3|H=h2) = 0.2 Diagnóstico de investimento (2) Regra de Bayes: Problemas (1) Este tipo de método precisa trabalhar com um número MUITO grande de probabilidades ( P(Hi) e P(Ej/Hi) ) para cada evidência Ej e hipóteses Hi Dificuldade em se estimar estas probabilidades a priori de Ei e Hi Regra de Bayes: Problemas (2) A regra de Bayes assume que os antecedentes Ei são independentes. Isto nem sempre é verdadeiro no caso das doenças, posto que alguns sintomas poderiam ser evidência de outros A base de conhecimento tem que ser completa todas as evidências relevantes às hipóteses consideradas devem estar explícitas na base de conhecimento Regra de Bayes: Problemas (3) Se as probabilidades a priori e as probabilidades condicionais são baseadas em contagens de freqüências e estatísticas, temos que assegurar que o número de amostras é representativo o suficiente para obter probabilidades precisas: algumas vezes as bases de dados não são corretas e precisas o suficiente para que sua soma seja igual a 1.0 Solução: Redes de Crenças: Belief Networks / Bayesian Belief Networks (BBN) Referências Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach Prentice-Hall.