VINÍCIUS ALVES SILVA MODELAGEM E DESENVOLVIMENTO DE UM MECANISMO DE CONDICIONAMENTO PARA A ARQUITETURA ARTÍFICE Belo Horizonte – MG Outubro de 2008 VINICIUS ALVES SILVA MODELAGEM E DESENVOLVIMENTO DE UM MECANISMO DE CONDICIONAMENTO PARA A ARQUITETURA ARTÍFICE Dissertação apresentada ao Curso de Mestrado em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, como requisito parcial à obtenção do título de Mestre em Modelagem Matemática e Computacional. Linha de pesquisa: Sistemas Inteligentes Orientador: Prof. Dr. Henrique Elias Borges Centro Federal de Educação Tecnológica de Minas Gerais M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO Belo Horizonte – MG Outubro de 2008 Dedico este trabalho aos meus pais João e Maria das Graças pelo amor, motivação e apoio que sempre me deram no curso de toda a minha vida. Obrigado, sem vocês isto não seria possível. Agradecimentos Ao meu orientador, Prof. Dr. Henrique Elias Borges, pelas diretrizes de pesquisa, pelo incentivo, amizade e paciência durante a realização deste trabalho. Agradeço mais ainda pelo apoio e pela confiança em mim depositada em vários momentos conturbados que passei durante essa caminhada. Serei eternamente grato. À DEUS pela saúde, força e proteção. À minha namorada Patrícia, pelo carinho, paciência e compreensão pelos momentos em que estive ausente. À minha família que sempre me incentivou e me apoiou. Aos meus amigos da minha terrinha (a pequenina Pimenta/MG) pelo apoio e momentos de descontração. À PRODEMGE - Companhia de Tecnologia da Informação do Estado de Minas Gerais pelo incentivo a mim concedido. Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI, do CEFET-MG. Aos amigos da Diretoria de Pesquisa e Pós-Graduação do CEFET-MG, que sempre me apoiaram nos bons momentos em que convivemos durante parte desse meu trabalho. Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG). ’Educai as crianças e não será preciso castigar os homens.’ Pitágoras (582a.C - 497a.C) Resumo Agentes autônomos vêm sendo freqüentemente definidos como agentes capazes de se adaptarem às mudanças que ocorrem em seu ambiente. Contudo, para exercer tal autonomia um agente artificial inspirado biologicamente deverá possuir um mecanismo que o permita aprender, em sua ontogenia e a partir de suas próprias experiências, como se comportar em cada situação. Dos processos de aprendizagem os mais basais, e que estão presentes para boa parte dos seres vivos, são aqueles envolvendo aprendizagem por associação. Essa forma de aprendizagem ocorre via processos de condicionamento clássico e operante. No primeiro, são forjadas associações entre estímulos neutros advindos do ambiente e estímulos não-condicionados, responsáveis por disparar respostas reflexas inatas, de modo que a presença do estímulo neutro antecipa o disparo da resposta reflexa. Já o condicionamento operante possibilita ao agente associar uma ação voluntária realizada à conseqüência imediata dessa ação, de modo que, em experiências futuras e sob a mesma situação, seu comportamento seja modulado pelas suas experiências passadas, após serem valoradas cognitivo-emocionalmente. Neste contexto, o presente trabalho propôs um modelo de mecanismo de condicionamento, tanto clássico como operante, para a arquitetura ARTÍFICE, concebida para a criação de linhagens de Agentes de Software Cognitivos e Situados (ASCS). Para avaliar a funcionalidade dos mecanismos de aprendizagem associativa desenvolvidos e incorporados à arquitetura Artífice, foi utilizada uma aplicação de vida artificial em 2D, na qual foram realizados alguns experimentos computacionais visando comprovar a capacidade de aprendizagem, auto-regulação e adaptação do ASCS. Nestes experimentos, um ASCS mostrou-se capaz de construir um repertório de comportamentos aprendidos no curso de sua vida por meio de processos de condicionamento clássico e operante, que o manteve vivo e adaptado ao seu ambiente. Para tanto, o ASCS manteve a regulação emocional de suas necessidades corpóreas de fome e sono, encontrando comida e comendo-a e dormindo quando tinha sono, ao mesmo tempo em que evitava interações com os objetos presentes no seu ambiente que o faziam sentir dor. PALAVRAS-CHAVE: Condicionamento Clássico, Condicionamento Operante, Aprendizagem Associativa, Agentes Autônomos, Cognição Incorporada. Abstract Autonomous agents are frequently defined as entities which are capable to adapt to changes occurring in their environment. However, in order to exercise this autonomy, a biologically inspired artificial agent must embody some mechanism that allows it to learn, from its own experiences, how to behave properly in each situation. Associative learning is one of the simplest forms of learning processes, being present in most of living beings. This form of learning occurs through processes known as classical and operant conditioning. In the first case, associations are established between an unconditioned stimulus, responsible for triggering innate reflex responses, and an initially neutral stimulus, such that the presence of this neutral stimulus, under suitable conditions, is enough to elicit the reflex response. So, classical conditioning plays the role of an anticipatory mechanism for involuntary responses. On the other hand, operant conditioning refers to the process of association of a voluntary action taken with its immediate outcome. Hence, the living being can learn how to select his next action guided by his own past experiences, after they was cognitive and emotionally evaluated. Within this context, the present work proposes a model of the classic and operant conditioning mechanism and implements it in the Artífice architecture for the construction of Cognitive and Situated Software Agents (CSSA). To evaluate the mechanisms of associative learning developed, a 2D artificial life application was instantiated from the Artífice architecture, and some computational experiments has been made to show the CSSA’s new capabilities of associative learning, self-regulation and adaptation. In these experiments, a CSSA was able to build a repertoire of behaviours learned in his ontogeny, through processes of classical and operant conditioning, which kept it alive and adapted to its environment. In order to do this, the CSSA kept the emotional regulation of its bodily needs of hunger and sleep, finding and eating food and getting some sleep periodically, while wandering in its environment and avoiding interactions with some objects that make it feel pain. KEYWORDS: Classical Conditioning, Operant Conditioning, Associative Learning, Autonomous Agents, Embodied Cognition. Lista de Figuras 1 Abordagem cognitiva tradicional. . . . . . . . . . . . . . . . . . . . . . p. 17 2 Abordagem cognitiva contemporânea. . . . . . . . . . . . . . . . . . . p. 17 3 Modelo conceitual inicial da arquitetura ARTÍFICE. . . . . . . . . . . . p. 19 4 ASCS em seus domínios fenomênicos. . . . . . . . . . . . . . . . . . p. 20 5 Diagrama de blocos do modelo proposto por Campos (2006). . . . . . p. 22 6 Circularidade da relação emoção-cognição. . . . . . . . . . . . . . . . p. 24 7 Equipamento usado por Pavlov para captar informações fisiológicas sobre o sistema gastrointestinal. . . . . . . . . . . . . . . . . . . . . . p. 31 8 Procedimento de aquisição do condicionamento clássico. . . . . . . . p. 33 9 Curva Aquisição-Extinção do aprendizado. . . . . . . . . . . . . . . . p. 34 10 Curva Aquisição-Extinção do aprendizado em simulação e em condições reais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35 11 Procedimento de aquisição do condicionamento de ordem mais elevada p. 36 12 Alterações na ativação de neurônios dopaminérgicos em experimentos de condicionamento clássico. . . . . . . . . . . . . . . . . . . . . . p. 38 13 Relação da contiguidade temporal no condicionamento clássico. . . . p. 40 14 Thorndike e a lei do efeito. . . . . . . . . . . . . . . . . . . . . . . . . . p. 42 15 Repetidos pareamentos entre um determinado estado e a conseqüência recebida no mesmo permite ao organismo antecipar a conseqüência denotada quando o estado for novamente vivenciado no futuro. . . 16 p. 48 O reforço das associações entre um estado, ação e conseqüência: Se uma ação é executada enquanto o organismo se encontra em um determinado estado leva a uma conseqüência prazerosa, então esse cenário é reforçado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 48 17 O Modelo da Amídala. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Representação temporal de um estímulo condicionado e a manuten- p. 54 ção e uso do erro de predição. . . . . . . . . . . . . . . . . . . . . . . p. 57 19 Darwin VII em seu ambiente. . . . . . . . . . . . . . . . . . . . . . . . p. 59 20 Esquema do sistema nervoso de Darwin VII. . . . . . . . . . . . . . . p. 59 21 Procedimento de aquisição do condicionamento clássico pela Darwin VII. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 p. 61 O mecanismo de seleção de ação baseado em comportamentos. Com base nas entradas sensoriais e nos drives, cada comportamento indica sua motivação para atuar, aquele que tiver o maior valor será selecionado e suas ações irão para os atuadores. . . . . . . . . . . . 23 p. 64 Aprendizado associativo, dos sensores à memória associativa. Os sensores recebem os estímulos externos que são mantidos na memória de trabalho, e usados pela memória associativa para criar diferentes relações entre estímulos. . . . . . . . . . . . . . . . . . . . . . 24 p. 65 Reforço e Enfraquecimento de associações. (a) Quando co-ocorrem a existência de um estímulo visual e de um estímulo auditivo nas memórias de trabalho, a associação entre eles é reforçada e então inibida contra alterações. (b) Quando estes estímulos saem da memória de trabalho, as associações da qual fazem parte na memória associativa são enfraquecidas se não estiverem inibidas. . . . . . . . . . . . p. 66 25 Diagrama de classes do mecanismo de condicionamento clássico. . . p. 71 26 Diagrama de blocos do mecanismo de condicionamento clássico. . . p. 73 27 Interações entre componentes da arquitetura na resposta não-elaborada. p. 74 28 Captação de estímulos neutros pareados com estímulos não-condicionados por componentes Reflex. . . . . . . . . . . . . . . . . . . . . . . . . . 29 Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 1; λ = 100. 30 p. 75 . . . . p. 77 Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 0,5; λ = 100. . . . p. 77 31 Curvas de aquisição/extinção do condicionamento em função do número de experiências vivenciadas. A diferença entre os processos de aquisição e extinção no modelo de Rescorla e Wagner (1972) é controlada pelo valor da variável λ. A variável β representa o peso do estimulo não-condicionado na variação da taxa do condicionamento. . 32 p. 79 O reforço/inibição das associações entre um estímulo, ação e conseqüência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80 33 Diagrama de classes do mecanismo de condicionamento operante. . p. 81 34 Probabilidade de seleção das ações para os objetos do mundo em que o ASCS esteja inserido. . . . . . . . . . . . . . . . . . . . . . . . . p. 82 35 Ajuste das probabilidades de seleção das ações ao longo do tempo . p. 86 36 Circularidade da relação entre a avaliação parcial e completa no condicionamento operante. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 87 37 ASCS-em-seu-ambiente. . . . . . . . . . . . . . . . . . . . . . . . . . p. 92 38 Momento em que o ASCS percebe o estímulo olfativo emitido por Green Apple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 96 39 Aquisição do condicionamento clássico. . . . . . . . . . . . . . . . . . p. 97 40 Deslocamento da resposta reflexa. . . . . . . . . . . . . . . . . . . . . p. 98 41 Extinção do condicionamento clássico. . . . . . . . . . . . . . . . . . . p. 99 42 Curva de condicionamento clássico em condições naturais - Maçã vermelha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100 43 Curva de condicionamento clássico em condições naturais - Maçã Verde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101 44 Curva de condicionamento clássico em condições naturais - Pedra. . p. 101 45 Curva de condicionamento clássico em condições naturais - Totem. . p. 102 46 Tempo médio para o ASCS comer maçãs para 3 níveis iniciais distintos de condicionamento operante. . . . . . . . . . . . . . . . . . . . . p. 105 47 Intervalo de tempo médio gasto para encontrar e comer maçãs para os 3 níveis iniciais de condicionamento. . . . . . . . . . . . . . . . . . p. 106 48 Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial baixo. . . . . . . p. 107 49 Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial médio . . . . . . p. 108 50 Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial alto. . . . . . . . p. 108 51 Gráfico da função arousal. . . . . . . . . . . . . . . . . . . . . . . . . . p. 109 52 Tempo médio de sobrevivência do ASCS num ambiente aleatório para 3 níveis de condicionamento. . . . . . . . . . . . . . . . . . . . . . . . p. 111 53 Expectativa esperada pela interação com os componentes de software.p. 111 Lista de Tabelas 1 Contingências do reforçamento. . . . . . . . . . . . . . . . . . . . . . p. 44 2 Componentes reflexos. . . . . . . . . . . . . . . . . . . . . . . . . . . p. 94 3 Affordances consideradas na aplicação. . . . . . . . . . . . . . . . . . p. 95 4 Nível de condicionamento operante inicial para os experimentos. . . . p. 104 Lista de Abreviaturas e Siglas ASCS Agente de Software Cognitivo e Situado CR Conditioned Response CS Conditioned Stimulus CSSA Cognitive and Situated Software Agent GPSI Grupo de Pesquisa em Sistemas Inteligentes LSI Laboratório de Sistemas Inteligentes NS Neutral Stimulus UML Unified Modeling Language UR Unconditioned Response US Unconditioned Stimulus Sumário 1 Introdução p. 16 1.1 O Projeto ARTÍFICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18 1.2 Relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 26 1.4 Escopo do trabalho de pesquisa . . . . . . . . . . . . . . . . . . . . . p. 27 1.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27 1.6 Estrutura da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28 2 O papel dos condicionamentos clássico e operante na aprendizagem associativa p. 30 2.1 Condicionamento Clássico . . . . . . . . . . . . . . . . . . . . . . . . p. 31 2.1.1 Inspiração da Psicologia para a modelagem do mecanismo de condicionamento clássico . . . . . . . . . . . . . . . . . . . . . p. 32 2.1.1.1 p. 35 Condicionamento de ordem mais elevada . . . . . . . 2.1.2 Inspiração da Biologia para a modelagem do mecanismo de condicionamento . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 2.1.2.1 Deslocamento da resposta reflexa . . . . . . . . . . . p. 37 2.1.2.2 Contigüidade temporal para a aquisição do condicionamento . . . . . . . . . . . . . . . . . . . . . . . . . p. 39 2.2 Condicionamento Operante . . . . . . . . . . . . . . . . . . . . . . . . p. 41 2.2.1 Inspiração da psicologia para a modelagem do mecanismo de condicionamento operante . . . . . . . . . . . . . . . . . . . . p. 42 2.2.1.1 p. 43 Contingências de reforçamento . . . . . . . . . . . . 2.2.1.2 Modelagem e o processo de aprendizagem . . . . . . p. 46 2.2.1.3 Extinção . . . . . . . . . . . . . . . . . . . . . . . . . p. 46 2.2.2 Inspiração da biologia para a modelagem do mecanismo de condicionamento operante . . . . . . . . . . . . . . . . . . . . p. 47 2.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 3 Alguns modelos computacionais envolvendo aprendizagem associativa p. 52 3.1 O modelo da Amígdala . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52 3.1.1 Algumas considerações sobre o modelo . . . . . . . . . . . . . p. 55 3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56 3.2.1 Algumas considerações sobre o modelo . . . . . . . . . . . . . p. 57 3.3 A arquitetura Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58 3.3.1 Algumas considerações sobre o modelo . . . . . . . . . . . . . p. 62 3.4 Comunicação simbólica entre criaturas . . . . . . . . . . . . . . . . . p. 62 3.4.1 Algumas considerações sobre o modelo . . . . . . . . . . . . . p. 66 3.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67 4 Proposta de modelo conceitual para o mecanismo de condicionamento 4.1 O mecanismo de condicionamento clássico . . . . . . . . . . . . . . . p. 69 p. 69 4.1.1 Sobre a modelagem do mecanismo de condicionamento clássico p. 70 4.1.2 A dinâmica de operação do mecanismo de condicionamento clássico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 72 4.2 O mecanismo de condicionamento operante . . . . . . . . . . . . . . p. 80 4.2.1 Sobre a modelagem do mecanismo de condicionamento operante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 81 4.2.2 A dinâmica de operação do mecanismo de condicionamento operante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83 4.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Experimentos computacionais, análise e discussão dos resultados p. 88 p. 91 5.1 A aplicação ALifeWorld - 0.9 . . . . . . . . . . . . . . . . . . . . . . . p. 91 5.1.1 A aplicação ALifeWorld - 0.9 . . . . . . . . . . . . . . . . . . . p. 93 5.2 Experimentos envolvendo o condicionamento clássico . . . . . . . . . p. 95 5.3 Experimentos envolvendo o condicionamento operante . . . . . . . . p. 102 5.3.1 Experimentos envolvendo a modelagem do comportamento . . p. 102 5.3.2 Condicionamento x seleção de ações . . . . . . . . . . . . . . p. 104 5.3.3 Condicionamento x sobrevivência . . . . . . . . . . . . . . . . p. 107 5.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 112 6 Conclusão p. 113 6.1 Principais contribuições deste trabalho . . . . . . . . . . . . . . . . . . p. 114 6.2 Perspectivas de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . p. 114 6.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 115 Referências p. 117 Anexo A -- Diagrama de classes da arquitetura Artífice 0.9 p. 120 16 1 Introdução Um dos grandes desafios das ciências cognitivas é conseguir mapear os processos que permitem agentes autônomos aprender a se adaptar às mudanças que ocorrem em seu ambiente. Entretanto, para tentar explicar e modelar tais processos, vale destacar que os termos envolvidos, como aprendizado, cognição, autonomia, entre outros, não têm um significado em si, mas que os conceitos expressos por tais termos são construções históricosócio-culturais. Assim, antes de se começar a explicar e modelar como ocorre o aprendizado e como surge a autonomia de um agente, é imprescindível que se deixe claro e explícito qual é o ’pano de fundo’ sobre o qual esta temática será desenvolvida. Fundamentalmente, levando-se em consideração questões de natureza ontológica e epistemológica, as ciências cognitivas podem ser divididas, de um modo geral e amplo, em abordagens tradicionais e contemporâneas (doravante abordagens situacionistas) (SANTOS, 2003). Em relação às abordagens tradicionais, o estatuto ontológico da realidade têm como princípio básico a dicotomia entre sujeitos (epistêmicos) e objetos, em que o mundo dos objetos existe independentemente de um sujeito, conforme mostrado na Figura 1. Quanto à questão epistemológica, de vez que o sujeito epistêmico ’pertence’ a um mundo (o da mente) que é ’diferente’ do mundo real (o dos objetos), cabe ao sujeito apenas, e tão somente, representá-lo em sua mente. O aprendizado, portanto, consiste em capturar informações e propriedades intrínsecas dos objetos, construir representações delas em sua mente (i.e., criar símbolos), estabelecer associações entre estas representações e manipular simbolicamente tais representações, inclusive criando recursivamente representações de representações, para apreender o mundo real e, assim, conhecê-lo. Neste contexto, o conhecimento é algo substantivo (símbolos que representam). Já as ciências cognitivas situacionistas contestam essa separabilidade e defendem como questão ontológica que sujeitos e objetos compõem de forma inseparável um 1 Introdução 17 mundo único e indivisível; é o que mostra a Figura 2. Quanto à questão epistemológica, os situacionistas argumentam que, sendo o mundo indissociável, não há o que ser representado na mente dos sujeitos, portanto, sujeitos e objetos co-existem e co-evoluem, cada qual modulando e sendo modulado pelo outro, no curso de suas interações (MATURANA; VARELA, 2001). Desta maneira, o aprendizado ocorre mediante as experiências do sujeito com o resto-do-mundo, i.e., o conhecimento não é composto por um conjunto de símbolos manipuláveis, mas por um conjunto de experiências vivenciadas do sujeito-em-seu-ambiente. Neste sentido o conhecimento não é substantivo, sendo que o que se pode falar é do ato de conhecer, Figura 1: Abordagem cognitiva tradicional. Figura 2: Abordagem cognitiva contemporânea. 1.1 O Projeto ARTÍFICE 18 verbo, ação, ou melhor, inter-ação. Em síntese, o processo cognitivo é compreendido como uma co-evolução do sujeito e seu ambiente. Para maiores detalhes acerca das abordagens tradicionais e situacionistas das ciências cognitivas, refira-se a Santos (2003) e referências lá citadas. De acordo com a abordagem situacionista e contestando as ciências cognitivas tradicionais, que adotam uma perspectiva um tanto quanto ’mecanicista’ para um sistema tão dinâmico como a cognição, vista de um ponto biológico, o GPSI - Grupo de Pesquisa em Sistemas Inteligentes do CEFET/MG iniciou o desenvolvimento do projeto ’ARTÍFICE - Arquitetura Flexível para a Criação de Linhagens de Agentes de Software Cognitivos e Situados’ (BORGES, 2002), no contexto do qual o presente trabalho está inserido. Para uma melhor contextualização do trabalho, a próxima seção apresentará brevemente alguns conceitos do Projeto Artífice. 1.1 O Projeto ARTÍFICE O projeto ARTÍFICE foi concebido por Borges (2002) com o objetivo de ser uma arquitetura flexível para criação de Agentes de Softwares Cognitivos e Situados (doravante ASCS). Como dito, este projeto está fundamentado na perspectiva situacionista, por esse motivo o mesmo integra conceitos da cognição situada (CLANCEY, 1997) e busca principalmente na biologia e psicologia inspiração para definir o processo cognitivo de seus agentes inteligentes. Desde a criação da arquitetura, vários trabalhos foram desenvolvidos para compor sua estrutura. Dentre eles, dois são fundamentais para o entendimento e desenvolvimento do projeto proposto. O primeiro deles foi feito por Santos (2003) que tomou como inspiração o processo cognitivo dos organismos biológicos multicelulares com sistema nervoso e concebeu um modelo conceitual inicial da arquitetura (Figura 3). Em seu trabalho, Santos (2003) proporcionou um arcabouço teórico e consistente sobre as ciências cognitvas, elucidando em seguida os detalhes que a abordagem situada impõe ao desenvolvimento de sistemas inteligentes. Dentre esses detalhes, podemos destacar a modelagem da arquitetura considerando dois domínios fenomênicos (Figura 4): domínio das interações e relações e domínio da dinâmica interna (estrutural). O primeiro se refere ao agente como uma totalidade interagindo com o seu meio e o segundo ao funcionamento interno do agente, ou seja, seus componen- 1.1 O Projeto ARTÍFICE Figura 3: Modelo conceitual inicial da arquitetura ARTÍFICE. Fonte: Santos (2003). 19 1.1 O Projeto ARTÍFICE 20 tes internos e relacionamentos entre eles. Mantendo a plausibilidade biológica, Santos (2003) representa os principais aspectos Figura 4: ASCS em seus domínios fenomênicos. Fonte: Santos (2003). da cognição humana embutindo no agente dois sub-sistemas, denominados cognitivo e não-cognitivo. Esses sub-sistemas dão ao agente a característica de agente de software cognitivo e situado, ou simplesmente, ASCS. O sistema cognitivo compõe o sistema nervoso do agente e o não-cognitivo os demais órgãos que compõem o organismo, e que não têm função cognitiva. A interação entre os componentes do agente, que agora podem ser classificados de acordo com sua função cognitiva ou não-cognitiva, ocorre através de componentes sensores e efetores pela troca de estímulos. A organização do sistema nervoso do ASCS é baseada na Teoria de Seleção de Grupos Neuronais (TNGS) de Eldeman (EDELMAN, 1987). Cada componente do sistema cognitivo possui uma estrutura ’física’ que funcionalmente está em analogia com um conjunto de grupos neuronais. Esta estrutura, uma vez acoplada com outra estrutura de outro componente produz outro tipo de estrutura que pode ser categorizado como um mapa local. Estes por sua vez poderão ser categorizados como um mapa global, composto por um conjunto de mapas locais. Ao possibilitar categorizações simples e categorizações de categorizações, pretendeu-se embutir na arquitetura ARTÍFICE a proposta de Eldeman para a organização funcional do córtex dos humanos. Para maiores detalhes sobre o modelo inicial da arquitetura, ver Santos (2003). 1.1 O Projeto ARTÍFICE 21 No segundo trabalho, Campos (2006) elaborou o modelo conceitual para o processo cognitivo-emocional da arquitetura, ’espinha-dorsal’ do processo de aprendizado do agente. O presente trabalho estenderá a versão da arquitetura resultante da pesquisa de Campos (2006), portanto o mesmo será explicado com mais detalhes. O modelo desenvolvido compreende a dinâmica interna entre os componentes da arquitetura, baseado nas características do aprendizado situado (MATURANA; VARELA, 2001); (SANTOS, 2003); (CLANCEY, 1997), destacando a influência das emoções neste processo. O foco principal é a dinâmica das interações externas (domínio do comportamento) e internas (domínio estrutural interno) do ASCS, que fazem surgir o aprendizado. A modelagem possui como fundamento básico a interação entre os componentes do ASCS e o não-determinismo destas interações, onde cada uma delas apenas desencadeia mudanças nos componentes envolvidos. As mudanças desencadeadas são determinadas pela estrutura interna dos componentes e não pela interação em si. As interações entre os componentes ocorrem pela troca de estímulos, que foram divididos em dois grupos: estímulos puramente internos ao ASCS e estímulos advindos do ambiente. Segundo Maturana (1997), toda ação ocorre sob uma certa emoção, ou seja, não há nada que o organismo faça sem que esse esteja imerso sobre um domínio emocional1 . Em consonância com essa definição, Campos (2006) caracterizou a interação circular entre homeostase , emoção e cognição. Essa relação pode ser observada quando se analisa uma seqüência de ações do ASCS. Na Figura 5 tem-se um diagrama em blocos do modelo desenvolvido onde é possível verificar as relações previstas entre as funções cognitivas e emocionais. Essa relação é intermediada pela memória de longo prazo e a memória de trabalho. Cabe destacar que as emoções modulam o comportamento do ASCS por meio de suas tendências para ações, considerando as possibilidades para ação em um determinado momento e em certa situação. Vale lembrar que o comportamento não será determinado exclusivamente pela emoção, pois serão consideradas as possibilidades para ação em cada momento ou situação (affordances). Para melhor esclarecer esta modulação, deve-se considerar um conjunto hipotético de emoção, situação, affordance e ação. Por exemplo, sob a emoção de fome, que tem associadas as tendências para ação: comer, vaguear e aproximar; dada a situação em que o organismo está em contato com um objeto, as possibilidades para ação (affordances) então se 1 Por emoção Maturana (1997) compreende uma pré-disposição corporal, precisa e defnida, para a realização de uma ação 1.1 O Projeto ARTÍFICE 22 Mundo artificial ASCS Sistema Nervoso Affordance Córtex sensório Função emocional Córtex efetor Sistema periférico Ação Sistema sensóriomotor Tendências para ação Arousal Eficiência comportamental Função cognitiva Avaliação completa Sistema auxiliar Sistema de persistência Avaliação reflexo/instinto Avaliação parcial Sistema valoracional Componentes de software Memória de trabalho Memória de longo prazo Estrutura Figura 5: Diagrama de blocos do modelo proposto por Campos (2006). Fonte: Campos (2006) 1.1 O Projeto ARTÍFICE 23 restringem a comer ou evitar esse objeto. De acordo com o referencial utilizado por Campos (2006), as emoções foram classificadas sob a perspectiva evolutiva, permitindo desta maneira a interação entre cognição e emoção em níveis mais básicos, presentes até mesmo em organismos pouco evoluídos. No contexto do modelo atual, as emoções mais simples referem-se à manutenção do equilíbrio homeostático do ASCS. Isto significa que cada emoção terá um nível de arousal (ativação), e a variação desses níveis afetam o comportamento do ASCS via mecanismo de adequação de sua eficiência comportamental, em prol do seu objetivo maior, neste caso, que é restaurar seu equilíbrio homeostático. Conforme pode ser visto na Figura 5, o modelo realiza uma avaliação das experiências do ASCS, tanto na função emocional, quanto na função cognitiva. Em consonância com a perspectiva situada, essa avaliação não depende somente da experiência em si, mas sim do estado interno do organismo na situação corrente. Como resultado das avaliações realizadas, o modelo contempla também três níveis de resposta (ao longo do eixo neural) para cada interação ocorrida no domínio do comportamento, sendo elas: não-elaborada, semi-elaborada e elaborada. A resposta não-elaborada ocorre a nível da medula espinhal e compreende reações de maior relevância no aspecto interno, embora existam comportamentos externos observáveis relacionados a ela, como os reflexos automáticos. Já a resposta semi-elaborada, que ocorre a nível sub-cortical, corresponde a uma resposta emocional da situação vivenciada pelo agente. A resposta elaborada, que ocorre a nível cortical, corresponde a uma resposta emocional-cognitiva voluntária. Após a resposta não-elaborada, o appraisal emocional gera uma gestalt (ainda parcial) semi-elaborada, e num segundo momento o appraisal emocional-cognitivo gera uma nova gestalt (completa) mais elaborada, pois é voluntária e envolve raciocínio e escolhas, é capaz de corrigir ou coordenar o resultado do appraisal imediatamente anterior, proporcionando uma característica importante no comportamento final: a autoregulação emocional. A interação entre o appraisal emocional (parcial) e o appraisal emocional-cognitivo (completo), além de ocorrer através da troca de estímulos, utiliza os recursos da memória de curto prazo e memória de longo prazo (IZQUIERDO, 2002). Estes dois tipos de memória estão hoje modelados de forma simplificada, mas obedecendo ao conceito principal que as distingue. Sendo assim, na memória de curto prazo será possível verificar a última ação recémexecutada pelo agente e na memória de longo prazo aquelas que foram valoradas con- 1.1 O Projeto ARTÍFICE 24 forme um significado emocional. Por meio da memória de curto prazo será possível ao appraisal parcial valorar a ação recém-executada. Uma vez valorada emocionalmente, esta ação torna-se uma experiência e passa a fazer parte da memória de longo prazo, esta entendida como um conjunto de experiências anteriormente valoradas. Vale ressaltar que o appraisal completo se utiliza dessas experiências anteriormente valoradas para decidir a melhor ação, dentre as possíveis, para executar naquela situação. A Figura 6 demonstra a circularidade da relação emoção-cognição presente no modelo. As setas contínuas demonstram o acesso direto às memórias e a seta pontilhada a Figura 6: Circularidade da relação emoção-cognição. Fonte: Campos (2006) interação através de estímulo entre o appraisal parcial e o appraisal completo. Em (A), a ação escolhida pelo appraisal completo é executada pelos efetores e imedia- 1.2 Relevância 25 tamente esta ação é registrada na memória de trabalho. O appraisal parcial já pode então valorar esta ação, segundo o estado emocional atual, identificando se a ação foi ’boa’ ou ’ruim’, avaliando, para isto, seu estado emocional anterior e subseqüente à ação (B). Caso ocorra a valoração, uma experiência é registrada na memória de longo prazo (C), compondo mais um critério de avaliação a ser consultado pelo appraisal completo nas próximas decisões (D). O appraisal parcial envia um estímulo ao appraisal completo (E), correspondente à uma nova situação, para que o appraisal completo possa definir a nova ação a executar e o ciclo se repete. Vale destacar que o agente não é deliberativo, ou seja, as ações mencionadas correspondem a ações selecionadas e executadas, pois o agente não realiza um planejamento para o seu comportamento. 1.2 Relevância O condicionamento tem sido estudado em vários contextos e áreas. O condicionamento clássico envolve a aprendizagem em que estímulos neutros puramente sensoriais vem a despertar respostas reflexas inatas. O condicionamento operante, por sua vez, lida com a aprendizagem em que a frequência das respostas voluntárias emitidas pelo organismo mudam em função de suas consequências. Em relação à área de sistemas inteligentes, vários trabalhos utilizam os conceitos do condicionamento clássico e operante para tentar modelar e construir mecanismos de software e/ou hardware capazes de conceber e ajustar alguns padrões de comportamento em prol das suas necessidades e de acordo com as transformações ocorridas em seu ambiente (MORéN, 2002), (KRICHMAR; EDELMAN, 2002). Esse trabalho se torna relevante ao apresentar um referencial teórico do condicionamento de abrangência interdisciplinar, utilizando aspectos da biologia, psicologia, neurociência e utilizar os conceitos levantados para conceber novas estratégias de implementação de mecanismos artificiais, sempre buscando dar maior plausibilidade biológica ao modelo proposto. No âmbito do GPSI este trabalho se apresenta relevante pelos seguintes motivos: 1. constitui o agente de processos de aprendizagem associativa, baseados nos princípios do condicionamento clássico e operante; 1.3 Objetivos 26 2. permite ao agente associar estímulos neutros puramente sensoriais advindos do ambiente a estímulos não-condicionados que disparam uma resposta reflexa inata. 3. permite ao agente associar a conseqüência emocional decorrente de uma ação, aumentando a freqüência futura de ações que tenham levado a conseqüências apetitivas e diminuindo a freqüência de ações que tenham levado a conseqüências aversivas; 4. permite ao agente a constituição dos construtos básicos para a formação da sua memória, associando estímulos e também conseqüências recebidas mediante suas interações com o ambiente em que vive. 1.3 Objetivos O objetivo geral deste trabalho é desenvolver um mecanismo de condicionamento, tanto clássico como operante, que possibilite o reforço/inibição das ações executadas pelo ASCS permitindo que o mesmo tenha capacidade de adaptar seu comportamento em prol de suas necessidades e frente às mudanças que ocorrem no meio em que esteja inserido. Para tanto, este trabalho se propõe aos seguintes objetivos específicos: 1. compor um referencial teórico consistente sobre o condicionamento clássico e operante e a implicância do mesmo na construção e modelagem de Agentes de Software Cognitivos e Situados; 2. modelar o Mecanismo de Condicionamento para os Agentes de Software Cognitivos e Situados com base no referencial teórico obtido, visando tanto quanto possível, uma maior plausibilidade biológica; 3. implementar o Mecanismo de Condicionamento, conforme a modelagem proposta; 4. acoplar o mecanismo à Arquitetura Artífice; 5. desenvolver uma prova de conceito, instanciando uma aplicação de vida artificial em duas dimensões com intuito de verificar os comportamentos emergentes do 1.4 Escopo do trabalho de pesquisa 27 ASCS, influenciados pelos processos de aprendizagem associativa associados ao agente. . 1.4 Escopo do trabalho de pesquisa O objeto de pesquisa deste trabalho é realizar um levantamento bibliográfico sobre o condicionamento em uma perspectiva da psicologia e da biologia para fundamentar a modelagem e implementação de um mecanismo de condicionamento composto de dois subsistemas referentes aos condicionamentos clássico e operante. O mecanismo de condicionamento clássico permitirá ao agente criar um repertório básico comportamental associando estímulos neutros puramente sensoriais advindos do ambiente a estímulos não-condicionados que disparam respostas reflexas inatas, ou seja, respostas de origem filogenética. O mecanismo de condicionamento operante, por sua vez, proverá ao agente a capacidade de criar um repertório de ações mais elaborado, realizando a inibição/reforço das ações executadas mediante as conseqüências recebidas pelas suas experiências. Como prova de conceito, propõe-se acoplar o mecanismo de condicionamento na versão da arquitetura produzida com o trabalho de Campos (2006), com intuito de verificar a associação de estímulos neutros puramente sensoriais advindos do ambiente a estímulos com uma importância inata e o aumento/diminuição da freqüência das ações executadas decorrente das conseqüências recebidas pelas interações do agente com o meio em que vive. 1.5 Metodologia O desenvolvimento deste trabalho envolveu conceitos que perpassam várias áreas do conhecimento, fazendo-se necessário o levantamento bibliográfico para sua fundamentação e o estudo das tecnologias envolvidas para a modelagem e implementação do mesmo. Estas etapas são apresentadas a seguir: 1. revisar a literatura referente às ciências cognitivas, condicionamento clássico e operante sob a perspectiva da biologia e da psicologia e a utilização do condicionamento para modelagem e construção de agentes autônomos; 1.6 Estrutura da dissertação 28 2. estudar a arquitetura ARTÍFICE, em sua versão 0.7.5, que será o ponto de partida para este trabalho; 3. abstrair processos de condicionamento de comportamento que unifique, tanto quanto possível, os pontos de vista da biologia e da psicologia; 4. modelar em software a abstração feita, levando em consideração o formato arquitetônico da Artífice versão 0.7.5; 5. implementar o mecanismo resultante da modelagem realizada e acoplá-lo à nova versão da arquitetura ARTÍFICE produzida; 6. executar experimentos computacionais com a aplicação de vida artificial em 2D produzida por Campos (2006), visando comprovar a viabilidade e o correto funcionamento da arquitetura para a criação de ASCS; 7. analisar criticamente a nova versão da arquitetura produzida.. 1.6 Estrutura da dissertação A dissertação está organizada da seguinte forma: • Capítulo 2: esse capítulo é utilizado para detalhar os conceitos de condicionamento, tanto clássico como operante, vistos sob pontos de vista da biologia e psicologia, pois o entendimento destes conceitos será relevante para a compreensão do restante do trabalho. • Capítulo 3: neste capítulo serão apresentados trabalhos que utilizam o condicionamento para modelagem e construção de agentes de software e robôs. • Capítulo 4: apresenta o modelo conceitual proposto para o mecanismo de condicionamento em detalhes, destacando as opções de modelagem. • Capítulo 5: esse capítulo é dedicado à análise e discussão dos resultados dos experimentos computacionais realizados em uma aplicação de vida artificial em 2D. 1.6 Estrutura da dissertação 29 • Capítulo 6: neste capitulo são apresentadas as conclusões e dadas sugestões para possíveis trabalhos a serem realizados posterior a este, também são destacadas as principais contribuições do trabalho. 30 2 O papel dos condicionamentos clássico e operante na aprendizagem associativa O presente trabalho almeja acoplar à arquitetura Artífice um mecanismo que permitirá ao ASCS ’aprender’ a adaptar-se às mudanças que ocorrem no ambiente em que está inserido. Conforme discutido no capítulo 1, o termo ’aprendizado’ não tem um significado em si, carregando consigo várias conotações que são empregadas nas mais diversas áreas e níveis. No âmbito do projeto Artífice (BORGES, 2002), a aprendizagem é compreendida sob um ponto de vista biológico e, mais especificamente, sob uma perspectiva etológica (MATURANA; VARELA, 2001). Para qualquer ser vivo, aprender a se comportar para se adaptar ao meio em que vive é uma característica crucial para a sua sobrevivência. Alguns comportamentos são inatos, resultantes do processo de evolução da espécie (filogenia). Embora na maioria das espécies simples (do ponto de vista filogenético) tais comportamentos sejam plenamente suficientes para assegurar a sobrevivência do organismo, no que diz respeito às espécies mais evoluídas (e.g. mamíferos), tal repertório de comportamentos é insuficiente. Por outro lado, outros comportamentos são aprendidos e forjados a partir da interação do organismo com o seu ambiente (ontogenia). Estes comportamentos são constantemente ajustados e modificados levando em consideração o estado interno do organismo e as conseqüências resultantes das suas interações com o seu ambiente, naquele instante (CATANIA, 1999). Aprendizado é, mesmo neste contexto específico, um conceito não muito facilmente definido. Ocorre quando um comportamento passa a ter uma maior probabilidade de ser selecionado, face alguma circunstância, na forma de imprinting, na adaptação de comportamento motor para as mudanças do corpo (isto incluiria mudanças no tamanho do corpo e proporções da fase de infância para adulto, bem como ferimentos ou 2.1 Condicionamento Clássico 31 deficiências), entre outros (CATANIA, 1999) (MORéN, 2002). Todos estes são, sem sombra de dúvida, casos de adaptação do comportamento às circunstâncias, embora nem todos os autores considerem esses processos como ’aprendizagem’. Entre os processos de aprendizado que consideram o ato de aprender como um ajuste do comportamento às circunstancias, possivelmente o que apresenta maior coerência com o arcabouço teórico-situacionista são os condicionamentos clássico e operante. 2.1 Condicionamento Clássico O condicionamento começou a ser estudado de uma maneira sistemática no início do século XX pelo fisiologista russo Ivan Pavlov (PAVLOV, 1927), durante suas pesquisas relacionadas com o entendimento do processo da digestão, que lhe valeram o Prêmio Nobel de 1904. Pavlov realizava experimentos com cães utilizando um equipamento para observar como o corpo regula a produção de ácido gástrico e saliva, sob a apresentação de comida (Figura 7). Com os progressos da pesquisa, Pavlov registrou um fenômeno que iria conduzi-lo Figura 7: Equipamento usado por Pavlov para captar informações fisiológicas sobre o sistema gastrointestinal. Fonte: Morén (2002). a uma nova e inesperada direção. Pavlov percebeu um fenômeno e o rotulou de ’salivação psíquica’ - o cão começava a salivar antes mesmo de visualizar o alimento. 2.1 Condicionamento Clássico 32 Descobriu-se eventualmente que o cão reagia a um som provocado pelo equipamento utilizado na pesquisa (Figura 7), que era percebido pelo animal. Para isolar o fenômeno, ele gradualmente eliminou todos os estímulos estranhos e indesejáveis que poderiam afetar o processo, simplificando o experimento ao ponto de ser capaz de apresentar um único estímulo, ao qual o animal reagiria a ele exclusivamente. Essa correlação entre um estímulo (som) e uma resposta (salivação) foi denominada por ele de ’condicionamento’. 2.1.1 Inspiração da Psicologia para a modelagem do mecanismo de condicionamento clássico O que Pavlov havia descoberto tornou-se a base do que é comumente conhecido hoje como Condicionamento Clássico - o processo de aprendizagem que envolve respostas reflexas, em que um estímulo neutro passa a eliciar uma resposta reflexa já existente (GLASSMAN, 2006). Os estudos originais de Pavlov tornaram-se tão conhecidos a ponto de serem objetos de piada (como o psicólogo que salivava ao ouvir o nome ’Pavlov’). Em síntese, ele descobriu que tocando um sino e imediatamente dando ao cão alguma comida, o sino passava a evocar a mesma resposta reflexa que a própria comida, ou seja, a salivação. Como mostraram os extensos estudos da digestão realizados por Pavlov, a salivação diante da presença de comida é uma resposta reflexa neural básica que não requer aprendizagem, isto é, são inatas. Respostas reflexas (e elas existem em todas as espécies, desde vermes até humanos) são tidas no condicionamento clássico como respostas não-condicionadas (doravante UR - do inglês, unconditioned response). Para todo reflexo, há algum estímulo que eliciará a resposta reflexa (como a comida para a salivação, a luz para a contração da pupila, etc...). Esse estímulo que elicia uma resposta não-condicionada é denominado estímulo não-condicionado (US - do inglês, unconditioned stimulus). Como o termo ’condicionado’ se refere a aprendido, o termo não-condicionado refere-se à natureza não aprendida dos reflexos. Se os reflexos são involuntários (não são aprendidos), então que tipo de aprendizagem ocorre no condicionamento clássico? Pavlov notou que a aprendizagem é baseada na criação de uma associação entre dois estímulos - no caso do cão, entre o sino e a comida. Tocar o sino inicialmente não tinha efeito sobre o reflexo de salivação, era um estímulo neutro (NS - do inglês, neutral stimulus), ou seja, um estímulo que não 2.1 Condicionamento Clássico 33 produz uma resposta específica além de provocar atenção, comportamento definido por alguns autores por reação do ’que é isto?’ (IZQUIERDO, 2002). Para criar ou constituir esta associação entre NS (som do sino) e US (comida), os estímulos devem ser apresentados emparelhados. Dito de outra forma, o NS deve ser apresentado e logo em seguida (dentro de uma curta janela de tempo) o US deve ser apresentado. Caso NS seja apresentado após ou muito antes (fora dos limites da janela de tempo) de US não ocorrerá a associação, significando que o condicionamento está intimamente ligado à capacidade de um estímulo atuar como um sinal de que US irá ocorrer. Depois de repetidos emparelhamentos entre a comida colocada na boca do cão e o som do sino, este passou a eliciar a salivação. Neste ponto, o som tornou-se um estímulo condicionado (CS - do inglês, conditioned stimulus) e a salivação resultante tornou-se a resposta condicionada (CR - do inglês, conditioning response), de forma que o som prediz a ocorrência de comida e antecipa a resposta reflexa, no caso a salivação, associada a ela. A aprendizagem não envolve uma nova resposta, consiste apenas em criar uma associação entre os dois estímulos (CS e US). O processo relatado anteriormente é a fase de ’Aquisição’ do aprendizado e pode ser descrito esquematicamente como apresentado na Figura 8: Como descrito anteriormente, a aquisição do aprendizado ocorrido com o condiciona- Figura 8: Procedimento de aquisição do condicionamento clássico. mento clássico pode conduzir a uma aprendizagem que é, com freqüência, altamente adaptativa. No entanto, as conexões criadas entre um estímulo não-condicionado e 2.1 Condicionamento Clássico 34 um estímulo condicionado não são persistentes. Caso fossem, elas poderiam transformar o organismo em um ’museu de antiguidades’ levando-o a ter um comportamento baseado em situações passadas e, consequentemente, poderia não ser mais útil ou até prejudicial ao atual momento. Por exemplo, uma pessoa que quebrou o braço pode continuar a protegê-lo (devido a dor associado a lesão original) muito depois de a cura ter sido estabelecida. Esse comportamento seria mal adaptativo, pois a resposta seria inadequada para a atual situação (CATANIA, 1999). Interessado no grau de permanência do condicionamento, Pavlov depois de condicionar um cão a salivar diante do som do sino (CS), continuou a tocar somente o sino, mas não fornecer a comida (US). Sob essas condições, a resposta condicionada foi tornando-se cada vez mais fraca, até que finalmente cessou. Ele então denominou essa cessação da resposta condicionada quando o CS é apresentado repetidamente sem estar associado a um US de ’extinção’. Um gráfico do nível da resposta apresentada ao CS em relação ao tempo/experiências (curva Aquisição-Extinção) é demonstrado na Figura 9. Vale frisar que as curvas apresentadas na Figura 9 são apenas para fins de explica- Figura 9: Curva Aquisição-Extinção do aprendizado. Adaptado de Morén (2002). ção, ou atingidas em experimentos cuidadosamente preparados em laboratório. Em condições naturais, o organismo vivencia várias situações em que estímulos condicionados e não-condicionados são percebidos em determinadas experiências empa- 2.1 Condicionamento Clássico 35 relhados e em outras desemparelhados, resultando em uma constante ’oscilação’ da curva de condicionamento, como pode ser visto na Figura 10. De um modo geral, o processo de condicionamento clássico parece ser bem simples. Figura 10: Curva Aquisição-Extinção do aprendizado em simulação e em condições reais. Adaptado de Rescorla e Wagner (1972). Mas se analisarmos que esse mecanismo ainda vem sendo pesquisado e contestado mesmo depois de quase cem anos do seu descobrimento, nos leva a crer que esse simples mecanismo não é tão simples assim. 2.1.1.1 Condicionamento de ordem mais elevada Como visto anteriormente, os princípios do condicionamento proporcionam um mecanismo em que estímulos neutros podem vir a eliciar uma resposta reflexa (após o condicionamento), servindo como um sinal que permite a antecipação de um estímulo não-condicionado, que pode ser útil para o organismo. Porém, às vezes encontramos situações em que o estímulo condicionado parece não ter uma conexão direta com um estímulo não-condicionado. Por exemplo, uma criança apenas escuta a palavra bolo e começa a salivar. Pavlov propôs um mecanismo para essas associações e o chamou de Condiciona- 2.1 Condicionamento Clássico 36 mento de Ordem mais Elevada, em que um estímulo condicionado previamente estabelecido é usado ’como se fosse um’ estímulo não-condicionado para criar condicionamento a um novo estímulo (GLASSMAN, 2006). No experimento, depois de treinar o cão a salivar com o som de um sino (CS), ele introduziu um novo estímulo, um quadrado negro, que foi repetidas vezes associado ao som do sino (mas não a comida). Depois de vários emparelhamentos, o quadrado negro apresentado sozinho tendeu a eliciar a salivação (Figura 11). Pavlov denominou esse evento de Condicionamento de Segunda Ordem. Figura 11: Procedimento de aquisição do condicionamento de ordem mais elevada 2.1.2 Inspiração da Biologia para a modelagem do mecanismo de condicionamento Ao longo da história de evolução de um determinado organismo (filogenia), uma série de padrões de respostas reflexas vão sendo fixadas para a sua espécie levando em consideração os estímulos que possuem uma relevância direta para sua melhor adaptação com o meio em que vive. Para qualquer organismo, conseguir associar as características do seu nicho a esses estímulos é crucial para a sua sobrevivência. Desempenhando essa função, o Condicionamento Clássico é considerado um mecanismo de aprendizado associativo básico e pode ser encontrado em quase todas, senão todas, as espécies. Ele desenvolve um papel importante no desenvolvimento 2.1 Condicionamento Clássico 37 do organismo, permitindo-o associar estímulos neutros puramente sensoriais advindos do ambiente a estímulos com uma significância biológica inata determinada pela sua estrutura interna, como por exemplo estímulos que podem machucá-lo ou fazer com que o mesmo perca ou adquira recursos que alterem o seu equilíbrio homeostático (BALKENIUS; MORéN, 1998). Duas características notáveis do Condicionamento Clássico vem sendo abordadas pela Biologia e servindo de inspiração para modelagem e construção de agentes autônomos artificiais (SCHULTZ, 1997), (KRICHMAR; EDELMAN, 2002): deslocamento da resposta reflexa provocada pelo estímulo condicionado e a contiguidade temporal para aquisição do condicionamento. Os dois assuntos serão discutidos nas seções seguintes. 2.1.2.1 Deslocamento da resposta reflexa O trabalho de (SCHULTZ, 1997) tem sido utilizado como inspiração para a modelagem do deslocamento da resposta reflexa provocada pelo estímulo condicionado em vários trabalhos referentes ao desenvolvimento de agentes artificiais bio-inspirados, com destaque para a arquitetura Darwin de Gerald Edelman, vencedor do prêmio Nobel de medicina em 1972 (KRICHMAR; EDELMAN, 2002). Em seu trabalho, Schultz (1997) verificou que o processo de ativação dos neurônios dopaminérgicos estão diretamente relacionados com a significância inata denotada pelos estímulos não-condicionados. Esses neurônios enviam seus axônios para as estruturas do cérebro envolvidas na motivação e atenção, como por exemplo, núcleo acumbens e córtex frontal. Vários trabalhos de pesquisa suportam a idéia de que esses neurônios constroem e distribuem informações sobre recompensa de eventos (SQUIRE; KANDEL, 2003). Schultz (1997) observou em seus experimentos como neurônios dopaminérgicos respondem com curtas fases de ativação quando macacos recebem estímulos apetitivos, como um pequeno pedaço de maçã ou uma pequena quantidade de suco de fruta na boca. Já estímulos aversivos como baforada de ar na mão ou sal na boca não causam essas mesmas ativações provisórias, significando que esse tipo de neurônio está envolvido somente com estímulos apetitivos. Na primeira fase do conhecido experimento, antes da aprendizagem, um estímulo nãocondicionado (suco de fruta) é dado ao macaco causando a ativação dos neurônios, como pode ser observado na Figura 12 - A. Na segunda fase do experimento, uma luz (NS) é apresentada ao macaco imediatamente antes do recebimento do suco de fruta (US) ser ingerido pelo animal. Nas fases iniciais do treinamento, ou seja, antes 2.1 Condicionamento Clássico 38 Figura 12: Alterações na ativação de neurônios dopaminérgicos em experimentos de condicionamento clássico. Adaptado de Schultz (1997). 2.1 Condicionamento Clássico 39 da aprendizagem, a maioria dos neurônios dopaminérgicos mostram um curto disparo de impulsos depois da entrega do CS. Surpreendentemente, após vários dias de treinamento, ocorre uma notável mudança na saída dos neurônios dopaminérgicos. A ativação neuronal provocada anteriormente pelo suco de fruta (US) é deslocada para o momento em que a luz (CS) é apresentada (Figura 12 - B). As mudanças na atividade dopaminérgica assemelham fortemente a predição de US indicada por CS. Em um terceiro cenário, CS é apresentado causando o deslocamento da ativação neuronal para imediatamente após a apresentação do mesmo, porém, US é omitido. A atividade dos neurônios dopaminérgicos é deprimida exatamente no momento em que US deveria ter ocorrido, de acordo com a predição indicada por CS. A depressão ocorre mais de 1s após o CS, revelando um erro interno de representação do tempo da predição da recompensa (Figura 12 - C). 2.1.2.2 Contigüidade temporal para a aquisição do condicionamento O Condicionamento Clássico realizado entre um estímulo neutro (como um som) e a resposta reflexa de piscar de olhos talvez seja o melhor exemplo de aprendizagem associativa, automática, reflexiva e não consciente (independente de hipocampo) em vertebrados (CLARK; SQUIRE, 1998). Portanto, para que ocorra a associação entre um estímulo neutro e um estímulo não condicionado de acordo com as características citadas anteriormente, estudos revelam que tanto em condições naturais quanto em laboratório, é imprescindível que o estímulo neutro ocorra ’imediatamente antes’ da apresentação do estímulo não-condicionado (SQUIRE; KANDEL, 2003). No paradigma tradicional do condicionamento clássico, denominado por alguns autores como ’condicionamento clássico com retardo’, um estímulo condicionado (CS), como um som, é apresentado imediatamente antes de um sopro de ar - estímulo nãocondicionado (US.) e os dois estímulos terminam exatamente juntos (Figura 13, A e B). Após repetidos emparelhamentos US-CS, a resposta condicionada (CR) é eliciada pelo CS, antes mesmo da apresentação de US. Portanto, a resposta reflexa de piscar os olhos que ocorreria somente após a apresentação do sopro de ar (US) é antecipada para imediatamente após a apresentação do som, tal que o piscar de olhos serve como um comportamento adaptativo, ou seja, uma resposta defensiva ao sopro de ar. Em uma versão experimental ligeiramente diferente do paradigma tradicional do condicionamento clássico, denominada ’condicionamento de traço’, o CS e é apresentado 2.1 Condicionamento Clássico 40 e rescindido e, em seguida, um curto intervalo de tempo é imposto antes da apresentação de US. (Figura 13, C e D). O nome vem do fato de o CS tem de deixar alguns vestígios no sistema nervoso para que a associação CS-US seja estabelecida. Para verificar a influência do tempo entre a apresentação de um estímulo neutro e um estímulo não-condicionado na aquisição do condicionamento clássico, Clark e Squire (1998) realizaram um experimento submetendo pacientes amnésicos ou com deficiências no hipocampo e voluntários normais em ambos os tipos de treinamento de condicionamento. Conforme demonstrado na Figura 13 para o condicionamento com retardo, em A um Figura 13: Relação da contiguidade temporal no condicionamento clássico. Fonte: Clark e Squire (1998). CS de duração de 800 ms era apresentado 700 ms antes da apresentação de um US de 100 ms de duração. Em B, um CS de 1350 era apresentado 1250 ms antes da apresentação de US de 100 ms de duração. É importante destacar que, para os experimentos envolvendo o condicionamento por retardo, CS e US se sobrepunham e terminavam no mesmo instante (emparelhados). Para o condicionamento de traço, um intervalo de 500 ms e 1000 ms era interposto entre a apresentação de CS e US para os experimentos C e D respectivamente, ou seja, CS e US ocorriam desemparelhados. Os resultados da pesquisa mostraram que voluntários normais adquiriram o condicionamento utilizando ambos os paradigmas de treinamento do condicionamento. Já os pacientes amnésicos ou com deficiências no hipocampo, nenhum foi capaz de adquirir o condicionamento de traço, embora tenham adquirido o condicionamento com retardo a uma taxa normal. Dessa forma, os resultados confirmam a importância da contigüidade temporal na aquisição do condicionamento, sendo que, quando CS e US 2.2 Condicionamento Operante 41 são percebidos emparelhados pelo organismo, a associação forjada entre eles não envolve a consciência (SQUIRE; KANDEL, 2003). Já o condicionamento de traço exige o hipocampo e requer consciência do intervalo de tempo entre o CS e US. Dessa maneira, pacientes amnésicos não ou com deficiências no hipocampo não conseguem estabelecer uma associação entre CS e US nessas condições. A seção 2.1 buscou esclarecer alguns pontos importantes do condicionamento clássico que serão usados como inspiração para a modelagem do mecanismo proposto no trabalho. Para uma discussão mais aprofundada sobre o condicionamento clássico bem como para uma discussão de outros aspectos como: generalização de estímulos, recuperação espontânea da associação entre CS e US, força da resposta condicionado, bloqueio, refira-se a (GLASSMAN, 2006); (IZQUIERDO, 2002); (SQUIRE; KANDEL, 2003). 2.2 Condicionamento Operante No condicionamento clássico, o resultado da ação executada diante de uma determinada situação, seja ela de recompensa ou punição, não influencia no reforço que será atribuído ao episódio vivenciado. Tudo que ele faz é aprender a predizer quando algo está por vir e, preparar o agente para o inevitável (MORéN, 2002). Ele lida apenas com o modo como novos estímulos vêm a controlar respostas involuntárias já existentes. Embora esse aprendizado seja extremamente importante para o organismo, a maior parte do comportamento é autogerada, ou seja, comportamento voluntário gerado pelo indivíduo como uma maneira de influenciar o ambiente que o cerca. O condicionamento operante, por sua vez, é um processo em que a conseqüência da ação escolhida tem participação ativa no condicionamento. Ele lida com a maneira como as respostas voluntárias (emitidas) mudam no decorrer do tempo como função de suas conseqüências. O agente aprende a relação entre as ações realizadas em resposta a um determinado estímulo e a recompensa ou punição que essas ações trouxeram (BALKENIUS, 2000). 2.2 Condicionamento Operante 42 2.2.1 Inspiração da psicologia para a modelagem do mecanismo de condicionamento operante Foi Thorndike quem iniciou os estudos sobre o condicionamento operante, por volta de 1890. O cenário utilizado para realizar seus experimentos era uma caixa experimental (Figura 14), um aparato semelhante a uma gaiola, em que alguma ação executada, como pressionar uma alavanca, libertaria o animal que estivesse preso dentro da caixa. Dentro dessa caixa foi preso um gato e como qualquer dono de gato pode atestar, os gatos em geral detestam o confinamento; por isso, os gatos ficavam ansiosos para fugir. Quando o gato era posto dentro da caixa, ele imediatamente começava a explorar o ambiente, sempre buscando executar alguma ação que o levaria ao seu objetivo, sair da caixa. Não surpreendentemente, o gato aprendeu a pressionar a alavanca, obtendo assim uma situação de recompensa, fugir da caixa. Duas conclusões importantes emergiram desse experimento. A primeira foi que, após Figura 14: Thorndike e a lei do efeito. colocar o gato na caixa repetidamente, Thorndike observou que o tempo necessário para que ele conseguisse abrir a caixa caia gradativamente (como pode ser visto no gráfico da Figura 14), com a ação que foi executada para abrir a caixa sempre tendo uma maior probabilidade de ser efetuada (MORéN, 2002). Essa melhora no desempenho representava uma mudança no comportamento como resultado da experiência em outras palavras, da aprendizagem. A segunda conclusão diz respeito ao comportamento do gato e suas conseqüências. Fugir da caixa parecia desejável para o gato, o que levou Thorndike a concluir que o resultado satisfatório era o que conduzia à repetição do comportamento. Ao contrário, bater nas paredes e outros comportamentos que não conduziam à fuga declinaram. Baseado nesses resultados, Thorndike formulou o que seria o núcleo do condiciona- 2.2 Condicionamento Operante 43 mento operante, a ’lei do efeito’: se uma ação foi seguida por uma experiência prazerosa, a probabilidade dela ser executada aumenta, e se, caso contrário, a ação foi seguida por experiência desprazerosa, a probabilidade dela ser executada decresce (MORéN, 2002). Nesse tipo de sistema, as respostas são voluntariamente iniciadas pelo organismo como parte do ato para lidar com o seu ambiente, e não como um reflexo desencadeado por um estímulo ambiental. A conseqüência dessa escolha, afeta a probabilidade desse comportamento vir a acontecer no futuro. Embora o trabalho de Thorndike tenha sido amplamente reconhecido e tenha estimulado várias pesquisas posteriores, não resultou em um sistema coerente comparável ao paradigma de Pavlov. Tal sistema só foi alcançado com as pesquisas de B.F. Skinner relacionadas ao comportamento aprendido e voluntário dos organismos. Desde então, o condicionamento operante tornou-se um arcabouço teórico-conceitual-experimental consistente e altamente utilizado nos dias de hoje. Em seus trabalhos, Skinner buscava tornar as observações mais científicas, assim dedicou-se à definição e criação de conceitos, métodos de observação e mensuração do comportamento. Umas das primeiras questões que Skinner tentou lidar foi a lei do efeito. Embora seja intuitivamente óbvio que uma resposta que conduz a um resultado satisfatório tende a ser repetida, Skinner estava incomodado com o sentido vago de ’satisfatório’. Para evitar isso, ele cunhou um novo termo, ’reforçador’ - um estímulo que, quando segue uma resposta, altera a probabilidade da mesma tornar a ocorrer. Skinner distinguiu os reforçadores entre reforçador positivo - um estímulo que, quando segue uma resposta, serve para aumentar a probabilidade desta ocorrer no futuro. E o reforçador negativo - um estímulo aversivo que, quando segue uma resposta, serve para reduzir a probabilidade desta ocorrer no futuro (GLASSMAN, 2006). 2.2.1.1 Contingências de reforçamento Em geral, as respostas operantes são livremente produzidas pelo indivíduo, mas a probabilidade de se produzir uma resposta é determinada por suas conseqüências em ocasiões anteriores. Por exemplo, se José ganhou um doce por ter comido todas as suas ervilhas no jantar, é provável que ele coma suas ervilhas no futuro. Assim, há uma relação entre o comportamento (a resposta de comer ervilhas) e sua conseqüên- 2.2 Condicionamento Operante 44 cia (o doce como reforçador positivo). Segundo Skinner, a relação entre uma resposta e um reforçador é chamado de contingência de reforçamento (Tabela 1). Um tipo de contingência é o reforçamento, processo pelo qual um reforçador au- Tabela 1: Contingências do reforçamento. Fonte: Glassman (2006). menta a probabilidade de ocorrência de uma resposta (ao se falar sobre as probabilidades, está-se implicitamente referindo-se ao quão frequentemente uma resposta ocorre - isto é, à freqüência). O reforçamento sempre resulta em um aumento na probabilidade de ocorrência de uma resposta. No exemplo anterior é fácil reconhecer que o doce é um reforçador positivo e que a probabilidade de comer ervilhas vai aumentar. Assim, quando uma resposta é imediatamente seguida por um reforçador positivo, ela se torna mais provável. Skinner denominou esse processo como reforçamento positivo, porque é o reforçamento usando um reforçador positivo. Uma segunda contingência possível é quando uma resposta é imediatamente seguida por um reforçador negativo. Por exemplo, João de 3 anos, enfia o dedo em uma tomada e toma um choque. No futuro, não é provável que João execute novamente essa ação. A esse processo, Skinner denominou de punição, em que a resposta é seguida de um reforçador negativo, que resulta em uma redução na probabilidade da resposta. O reforçamento e a punição representam as contingências mais comuns no condicionamento operante. Entretanto, os reforçadores também podem estar relacionados de outras maneiras, mais indiretas. Por exemplo, é possível produzir um aumento de um certo comportamento suprimindo ou retirando um reforçador negativo (estímulo aversivo); este processo é chamado de reforçamento negativo - um processo para aumentar a probabilidade de uma resposta que conduz imediatamente ao término ou 2.2 Condicionamento Operante 45 a retirada do estímulo aversivo (reforçador negativo). Cabe chamar a atenção para o fato de que, desde que há um aumento na freqüência da resposta, ela não é equivalente à punição. Por exemplo, uma adolescente é importunada pela mãe para arrumar seu quarto que está uma bagunça. Nesta situação, a reclamação é desagradável - um reforçador negativo. Quando a adolescente finalmente arruma o quarto, a mãe pára de reclamar. No exemplo que acaba de ser dado, a adolescente reage para eliminar a reclamação - ou seja, para fugir de um reforçador negativo já existente. Assim, o reforço negativo nesse caso tem duas variações, fuga e esquiva. Normalmente a aprendizagem inicial requer que se apresente o reforçador negativo até que se ocorra a resposta (isto é, a fuga). Mais tarde, o individuo antecipa a seqüência e responde antes de o reforçador negativo ser apresentado, ou seja, a esquiva (GLASSMAN, 2006). Existe ainda uma quarta possibilidade de contingência, baseada na extinção ou retirada de um reforçador positivo. Por exemplo, um adolescente chega em casa muito tarde e, como resultado disso, perde o privilégio de dirigir o carro dos pais. Como podemos imaginar, quando uma resposta conduz à extinção ou à retirada de um reforçador positivo, o comportamento torna-se menos provável. Esta contingência é denominada de omissão - processo em que uma resposta é seguida pelo término ou pela retirada de um reforçador positivo, o que resulta em uma redução na probabilidade da resposta. Vale salientar que o valor do reforçador é determinado pelo organismo, e não pelo ambiente. Imagine que lhe oferecerão um bombom se você cantar uma canção. Supondo-se que você goste de bombons, provavelmente você cantará, assim, o bombom funcionará como um reforçador positivo. Baseados em seu desempenho e entusiasmo, oferece-lhe um segundo bombom se você cantar outra canção. Você o faz, mas come o segundo bombom mais lentamente. Quando termina oferecem-lhe um terceiro, em troca de mais uma canção. Nesta altura, a opção de comer mais um bombom não é nem um pouco mais atrativa, e você se recusa a cantar. Assim, o que começou como um reforçador positivo agora se tornou um reforçador negativo. Os bombons não mudaram, mas seu valor para o organismo mudou - e esse é um ponto crucial. Devido a isso, deve-se observar como o comportamento muda para identificar a contingência envolvida. Como disse Skinner, o organismo sempre se comporta corretamente - é nosso entendimento que às vezes, está errado. 2.2 Condicionamento Operante 46 2.2.1.2 Modelagem e o processo de aprendizagem A modelagem é definida como o processo de condicionamento de uma resposta desejada por meio do reforçamento por aproximações sucessivas. O processo presume que alguém (um pai, experimentador, etc...) tem em mente um objetivo comportamental e pode controlar o oferecimento de um reforçador correspondente a esse objetivo (GLASSMAN, 2006). Por exemplo, a maior parte da pesquisa behavorista envolve animais (como um rato branco) pressionando uma alavanca em uma caixa de Skinner. Embora os ratos sejam capazes de pressionar uma alavanca, essa não é uma resposta natural no mundo animal. Consequentemente, o rato deve ser modelado para adquirir a resposta. Caracteristicamente, quando se coloca um rato não treinado na caixa de Skinner, ele começa a explorar esse novo ambiente, olhando em torno e farejando tudo. Em um canto do compartimento há um distribuidor de comida que pode liberar bolinhas de ração, uma de cada vez, até o rato associar o clique do mecanismo com a chegada de uma bolinha de ração. Uma vez estabelecido esse padrão, uma bolinha de ração só é liberada quando o rato se volta na direção da alavanca (uma primeira aproximação da resposta desejada de pressionamento da barra). Depois de comer, o rato provavelmente vai voltar-se na direção da alavanca. Se ele se aproxima mais ou ergue uma pata na direção da alavanca (uma maior aproximação da resposta desejada), outra bolinha é liberada e, neste ponto, a modelagem desejada foi alcançada. 2.2.1.3 Extinção A modelagem usa a variabilidade inerente na resposta para produzir uma resposta desejada. Quando a resposta ocorre, ela pode ser reforçada, como visto anteriormente. Mas, o que acontece se o reforçamento for interrompido? Uma resposta intuitiva, corroborada pela pesquisa, seria que o comportamento pode continuar por um tempo curto, mas, uma vez que seja comprovado que os reforçadores não mais virão, diminuirá a probabilidade de o comportamento ocorrer. Essa queda na freqüência da resposta quando o reforçamento é interrompido é chamada extinção (GLASSMAN, 2006). Observe que no condicionamento operante, tanto a extinção quanto a punição produzem redução na resposta, entretanto elas o fazem de maneira muito diferentes: a extinção pode ser considerada um processo passivo, pois diminui o valor da resposta eliminando o reforçador apetitivo que a estimulava. A punição, por outro lado, usa um estímulo aversivo para suprimir ativamente o comportamento (indesejado). 2.2 Condicionamento Operante 47 2.2.2 Inspiração da biologia para a modelagem do mecanismo de condicionamento operante A habilidade de orientar as ações praticadas em direção a determinados objetivos no ambiente e controlar a flexibilidade das ações na busca desses objetivos é a principal característica do comportamento adaptativo. O condicionamento operante, forma mais básica que permite tal comportamento, possibilita um organismo a aprender contingências entre suas ações e as recompensas ou punições recebidas. Consequentemente, ações que levam a recompensas serão executadas mais frequentemente no futuro, entretanto as ações que levam a punições terão uma probabilidade menor de serem executadas. É importante ressaltar que a dinâmica do comportamento não é determinada pelo ambiente, mas pelo ’estado’ atual do organismo como um todo. Num contexto situacionista o ’estado’ de um organismo é compreendido como a sua situação interna e a situação do seu ambiente em um determinado instante (MATURANA, 2001). Neste sentido, o estado já envolve um domínio emocional subjacente, que influencia as ações do organismo fazendo com que o seu comportamento não seja apenas definido pelo seu ambiente. Para comprovar os conceitos apresentados acima, em uma perspectiva mais biológica, uma das técnicas mais utilizadas pelos pesquisadores é danificar determinadas áreas do cérebro e submeter os animais lesionados a treinamentos operantes, para analisar a influência da parte lesionada no aprendizado. Apesar dos avanços nas pesquisas, que auxiliadas pelas imagens geradas por ressonância magnética permitem identificar os mecanismos e partes do cérebro envolvidas no condicionamento operante, cientistas ainda encontram grandes dificuldades para compreender como ocorre a cooperação entre as partes que fazem surgir o aprendizado como um todo. Várias evidências resultantes das pesquisas realizadas sobre o tema sugerem que a aprendizagem operante e o comportamento decorrente da mesma surgem via interação de dois diferentes processos cerebrais: um subsistema que aprende a predizer recompensas futuras para um determinado ’estado’ e um outro subsistema que envolve o aprendizado sobre a recompensa advinda de uma determinada ação, possibilitando o aumento/diminuição da freqüência da mesma no futuro. Esses subsistemas são respectivamente denominados na literatura1 como ’Sistema de expectativa’ e ’Sistema de valoração’ (LAHNSTEIN, 2005), (LEWIS, 2005). 2.2 Condicionamento Operante 48 O subsistema de expectativa possibilita ao organismo aprender sobre as predições de recompensa (expectativas) associadas a um determinado estado, utilizando uma forma baseada em controle de ’erro’ denotado pela diferença de ativação temporal dos neurônios dopaminérgicos. Conforme demonstrado na Figura 15, a conseqüência recebida é pareada com o estado atual do organismo, possibilitando o organismo resgatar a conseqüência (expectativa) quando esse estado for revivenciado no futuro e utilizá-lo para direcionar o curso de suas ações para maximizar as recompensas e minimizar as punições (DAYAN; BALLEINE, 2002), (SEYMOUR; SINGER, 2007). O subsistema de valoração usa um sinal semelhante dos neurônios dopaminérgicos Figura 15: Repetidos pareamentos entre um determinado estado e a conseqüência recebida no mesmo permite ao organismo antecipar a conseqüência denotada quando o estado for novamente vivenciado no futuro. para modificar as associações entre um estado -> ação -> conseqüência. Conforme demonstrado na Figura 16, a conseqüência recebida reforça a associação entre o estado que o organismo se encontra, a ação executada e a especifica conseqüência recebida no episódio vivenciado, de forma que as ações associadas a uma boa recompensa são escolhidas com mais freqüência futuramente (SEYMOUR; SINGER, 2007), (LEWIS, 2005). Existe uma suposta correlação entre os subsistemas apresentados anteriormente e Figura 16: O reforço das associações entre um estado, ação e conseqüência: Se uma ação é executada enquanto o organismo se encontra em um determinado estado leva a uma conseqüência prazerosa, então esse cenário é reforçado. o sinal de ativação dos neurônios dopaminérgicos que projetam-se sobre as regiões 2.3 Considerações Finais 49 ventral e dorsal estriada. Lesões e imagens de estudos realizados com humanos sugerem que as regiões ventral e dorsal estriada possuem funções distintas no aprendizado operante. O primeiro está implicado no papel abstraído pelo subsistema de expectativa (predições de recompensa) e o último está implicado no papel referente ao subsistema de valoração (modulação das associações estado -> ação -> conseqüência) (ODOHERTY, 2004). Odoherty (2004) submeteram participantes de sua pesquisa a várias tarefas de condicionamento operante, em que as pessoas realizavam escolhas que resultavam em recompensas, ou não. Durante os testes foram colhidos dados imagens por ressonância magnética (FRMI) para avaliar as partes do cérebro envolvidas a cada fase das tarefas, separadas em dois tipos: tarefas que envolvem as predições indicadas por um determinado estímulo, sem que seja realizada a seleção de uma ação e tarefas em que seria necessário realizar a escolha de uma ação a ser executada. Imagens revelaram que Ventral estriado corresponde ao subsistema de expectativa, mostrando que essa região do cérebro atua ativamente sobre as predições de recompensa (expectativas) associadas a um determinado estado, utilizando uma forma de ’erro’ denotado pela diferença de ativação temporal dos neurônios dopaminérgicos para atualizar sucessivas predições futuras (DELGADO; MILLER, 2005). Já o dorsal estriado corresponde ao subsistema de valoração, pois as imagens mostraram atividade neural intensa para as tarefas em que os participantes necessitavam tomar decisões. 2.3 Considerações Finais Durante todo o capítulo, o condicionamento clássico e o condicionamento operante foram apresentados como se fossem aspectos totalmente separados no comportamento. Entretanto, é notório que há inter-relações entre os dois; afinal, os organismos estão constantemente produzindo muitas respostas, tanto reflexas quanto operantes. Neste sentido, a distinção entre os dois tipos de aprendizagem é apenas uma maneira de simplificar a análise do comportamento, dividindo-o em sistemas de origem reflexa e operante. Pelo que vimos o condicionamento clássico é um processo de aprendizagem associativa envolvendo respostas reflexas inatas e involuntárias presentes na grande maioria dos seres vivos. A aprendizagem envolvida no processo consiste em criar um repertó- 2.3 Considerações Finais 50 rio básico de comportamentos forjando associações entre estímulos neutros advindos do ambiente e estímulos não-condicionados, responsáveis por disparar respostas reflexas fixadas ao longo da história de evolução da espécie. Essa associação ocorre em experiências bem específicas vivenciadas pelo agente, em que um NS deve ser apresentado e logo em seguida (numa curta janela de tempo - aproximadamente 1 segundo) o US deve ser apresentado, caso contrário não ocorrerá a aprendizagem, como observado nas descrições feitas por SQUIRE e KANDEL (2003). Depois de forjada a associação entre US e CS, a resposta reflexa, antes disparada automaticamente pela apresentação de US, é deslocada para exatamente após a apresentação de CS, de modo que a resposta reflexa antecipe a presença de US (SCHULTZ, 1997). Um fenômeno também muito importante para que essa associação seja altamente adaptativa é a fase de extinção. Caso o CS não mais preceda a apresentação de US, ou seja, eles sejam percebidos desemparelhados pelo organismo, a associação entre eles vai se tornando cada vez mais fraca, até que seja cessada. Isso significa que a associação entre dois estímulos forjada pelo condicionamento clássico não é persistente e que vai sendo modulada de acordo com as experiências do organismo em que CS e US são apresentados emparelhados (fase de aquisição) ou CS é apresentado desemparelhado do US (fase de extinção). Vale frisar que o nível de variação da associação entre CS e US não depende somente do número de experiências (aquisição/extinção) em que os mesmos são apresentados emparelhados, ou não, mas também pela importância biológica relacionada aos estímulos envolvidos na associação. Estímulos primitivos relacionados à sobrevivência são mais facilmente associados do que outros estímulos, ou seja, a associação entre CS e US é forjada com um número menor de experiências do que para outros tipo de estímulos não relacionados diretamente com a sobrevivência do animal. Já o condicionamento operante é um processo de aprendizagem envolvendo respostas voluntárias que possibilita ao organismo criar um repertório de comportamentos mais elaborado, associando uma ação voluntária executada à conseqüência recebida após a execução da mesma, de modo que, em experiências futuras e sob a mesma situação, seu comportamento seja modulado pelas suas experiências passadas, após serem valoradas cognitivo-emocionalmente. No âmbito da psicologia, para o condicionamento operante, o trabalho de Skinner tornou-se um arcabouço teórico-conceitual amplamente conhecido e utilizado nos estudos referentes ao comportamento voluntário. A classificação dos estímulos quanto à influência que eles exercem no comportamento e as contingências de reforçamento 2.3 Considerações Finais 51 (seção 2.2.1.1) fornecem parâmetros importantes para analisar, observar e mensurar o comportamento resultante da aprendizagem do organismo. Também relacionado ao trabalho de Skinner, o processo de modelagem do comportamento permite influenciar o comportamento do organismo controlando o oferecimento de reforçadores correspondentes ao comportamento desejado. No âmbito da biologia, o condicionamento operante tem sido tratado como composto de dois diferentes processos cerebrais: um sistema de expectativas que aprende a predizer recompensas futuras para um determinado ’estado’ e um subsistema de valoração, que possibilita o aumento/diminuição da freqüência de uma determinada ação pela conseqüência recebida após a sua execução. É importante destacar que, no contexto do presente trabalho, o ’estado’ de um organismo engloba a sua situação interna e a situação do seu ambiente em um determinado instante (MATURANA, 2001). Neste sentido, o ’estado’ já envolve uma emoção subjacente, que influencia o comportamento do organismo e faz com que as suas ações não sejam definidas apenas pelo seu ambiente, mas também pela sua situação emocional no episódio vivenciado. Por exemplo, vamos supor que um organismo aprenda a empurrar um determinado obstáculo para receber comida. Se o organismo estiver com fome, a ação de empurrar o obstáculo será selecionada mais frequentemente, porém, caso o organismo esteja saciado, a ação de empurrar será executada menos frequentemente quando o organismo for exposto ao obstáculo novamente. Neste capítulo, foram então detalhados aspectos relevantes das duas perspectivas (psicologia e biologia) visando entender e modelar a aprendizagem do agente via condicionamento. Tais aspectos contribuíram para formar um arcabouço teórico-conceitual que pretende-se retratar no modelo proposto e apresentado no capítulo 4. 52 3 Alguns modelos computacionais envolvendo aprendizagem associativa O condicionamento tem sido amplamente utilizado nas pesquisas referentes à modelagem e construção de agentes artificiais autônomos psicobiologicamente inspirados. Embora nenhum trabalho seja relacionado à concepção de ’um mecanismo de condicionamento’ propriamente dito, pesquisadores utilizam os princípios do condicionamento sempre com o mesmo objetivo: conceber um mecanismo de aprendizagem associativa que permita o agente ampliar e ajustar o seu repertório comportamental visando a maximização de recompensas e a minimização de punições. Este capítulo tem como objetivo analisar alguns modelos computacionais de agentes de software/hardware que sejam inspirados biologicamente e utilizem o condicionamento para conceber os processos de aprendizagem desses agentes. 3.1 O modelo da Amígdala O trabalho descrito na tese de doutorado de Morén (2002) propõe um mecanismo de aprendizado baseado na teoria de Mowrer (1973), que trabalha conjuntamente com o condicionamento clássico e operante, denominada por ele ’Modelo dois-processos’. Segundo Mowrer (1973), o aprendizado é suposto ocorrer em duas etapas. Primeiro, os estímulos percebidos pelo organismo são emocionalmente avaliados via condicionamento clássico. Na segunda etapa, o sistema faz uso da avaliação realizada e do contexto (estrutura interna e ambiente) propiciado pelo episódio experimentado para reforçar/inibir o comportamento executado. O Condicionamento Clássico é compreendido aqui como um mecanismo que atribui uma valoração emocional para cada estímulo ou combinação de estímulos percebidos 3.1 O modelo da Amígdala 53 pelo agente. Já o condicionamento operante é compreendido como um condicionamento secundário de uma resposta para um conjunto de estímulos específicos, em que todas as propriedades do condicionamento clássico são utilizadas no condicionamento operante. Seguindo a base arquitetural descrita anteriormente, Morén (2002) concebeu o Modelo da Amígdala, formado conceitualmente pela amídala e pelo córtex orbitofrontal (COF), que implementa a primeira etapa de aprendizado do modelo ’dois-processos’, sendo portanto, um sistema que atribui uma valoração emocional a estímulos. De um modo geral, a função da amídala abstraída para o modelo é a de associar a significância emocional de um estímulo não-condicionado a um estímulo neutro percebido pelo agente, seguindo o princípio básico da contigüidade temporal descrito no capítulo 2 para que essa associação seja forjada, isto é, o estímulo neutro e o estímulo não-condicionado devem ser apresentados emparelhados. Como pode ser percebido, o subsistema da amígdala implementa a fase de aquisição do condicionamento clássico. Já o COF trabalha para inibir essa associação emocional indicada pela amígdala quando o estímulo condicionado é apresentado isoladamente, sem a presença do estímulo não-condicionado. Dessa forma, o subsistema COF realiza a fase de extinção do condicionamento clássico. Maiores detalhes sobre a fundamentação biológica do modelo podem ser encontrados em Morén (2002). Conforme ilustra o esquema da Figura 17, o subsistema da amídala recebe estímulos neutros percebidos através do tálamo e áreas corticais e também o sinal da valoração emocional inata dos estímulos não-condicionados. Já o COF recebe o sinal de entrada das áreas corticais, o sinal de valoração emocional produzido pela amídala para os estímulos e o sinal da valoração inata dos estímulos não-condicionados. Para o subsistema da amígdala, existe um nodo A para todo estímulo neutro S percebido pelo agente. Para cada nodo A, existe um peso de conexão V (valoração emocional do estímulo). O peso das conexões V são ajustadas proporcionalmente pela significância emocional indicada pelo estímulo não-condicionado, quando os mesmos forem apresentados emparelhados. A principal característica existente neste modelo é que o peso das conexões V não decresce. Sendo assim, se uma valoração emocional é aprendida (associada a um estímulo condicionado), ela torna-se permanente. Inibir essa valoração quando ’inapropriada’, isto é, quando o estímulo condicionado é apresentado isoladamente (sem que o estímulo não-condicionado seja também apresentado) é tarefa do COF. 3.1 O modelo da Amígdala 54 Figura 17: O Modelo da Amídala. Fonte: Morén (2002). 3.1 O modelo da Amígdala 55 Os nodos O do subsistema COF funcionam analogamente aos nodos A da amídala, com peso da conexão W aplicados como sinal para minimizar ou inibir a valoração emocional associada ao estimulo condicionado. O resultado do modelo contemplando o sinal de valoração dos estímulos condicionados (dado pelo subsistema da amígdala) e o sinal de inibição da valoração indicada para tais estímulos (indicado pelo subsistema COF) é dado pelo nodo E, sendo que este sinal será utilizado pelo condicionamento operante para direcionar o comportamento do agente. 3.1.1 Algumas considerações sobre o modelo O trabalho de Morén (2002) acopla outros subsistemas e características, porém somente os aspectos relacionados ao condicionamento foram abordados no presente trabalho. Como limitação de seu trabalho, reconhecida pelo próprio autor, a ausência de um sistema de contexto (restante do sistema nervoso central e de um corpo), de um sistema motor que pudesse exibir a saída do modelo proposto e também um sistema de condicionamento operante que atuasse na escolha das ações executadas, fez com que o seu sistema ficasse incompleto, ou melhor dizendo, ainda por ser completado. Conforme descrito anteriormente, o conceito de condicionamento clássico abstraído pelo modelo da amígdala consiste em associar uma valoração emocional inata disparada por um estímulo não-condicionado a um estímulo neutro percebido pelo agente. Essa valoração realizada será utilizada pelo condicionamento operante para direcionar a seleção das ações a serem executadas. Como visto no capítulo 2, o conceito utilizado guarda pouca correlação com o que se denota por condicionamento clássico na psicobiologia, em que estímulos neutros, quando associados a um estímulo não-condicionado, disparam respostas reflexas inatas existentes. 3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos 56 3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos Schultz (1997), fundamentando-se nos resultados obtidos em seus experimentos (que identificaram basicamente uma correlação entre a percepção de estímulos não - condicionados / condicionados e a ativação dos neurônios dopaminérgicos) descritos no capítulo 2 e no algoritmo TD (do inglês, Temporal Difference Algorithm) concebido por Sutton e Barto (1986), elaborou um modelo computacional que capacita o agente a aprender e manter predições de recompensa associadas a um determinado estímulo do ambiente (definido por ele de ’sugestão do ambiente’) e a utilizar essas predições para influenciar na escolha das ações executadas pelo agente. É imprescindível ressaltar que a concepção de recompensa adotada por Schultz (1997) em seu trabalho é a percepção de um estimulo não-condicionado. O objetivo do modelo, portanto, consiste em aprender a usar os estímulos sensoriais neutros percebidos no ambiente para predizer a ocorrência de futuras recompensas (estímulos não - condicionados) indicadas por eles. Neste modelo (apresentado na Figura 18), um estímulo condicionado é representado por um vetor X(t) = x1 (t), x2 (t), ... que indica a predição de ocorrência do estímulo condicionado no tempo. Cada xi (t) está associado a um peso de recompensa wi , que é justamente a valoração (recompensa) de um estímulo não-condicionado quando apresentado emparelhado com o xi (t). Por exemplo, se um estímulo condicionado, como uma luz, é apresentado no instante s, então X(s+1) = 1, X2(s+2)=1 representam a ocorrência da luz nos tempos 1 e 2 ciclos no futuro, enquanto w1 e w2 são os respectivos pesos de recompensa associados a ele. A rede de predição V̂ para um determinado estímulo ao longo do tempo é alcançada pela expressão da Figura 18, que consiste no somatório dos pesos das recompensas associadas aos estímulos condicionados: Com base na rede de predição V̂ recuperada para um estímulo condicionado apresentado e a recompensa r(t) realmente recebida (apresentação do estimulo não - condicionado), o erro de predição δ (conhecido na literatura como TD Error - do inglês Temporal Difference Error ) é calculado em VTA, componente que abstrai o conceito da área tegmental ventral (do inglês, Ventral Tegmental Area) responsável por calcular o erro (TD Error ) da predição de recompensa esperada em relação à recompensa realmente recebida para o ciclo. O erro calculado é usado para melhorar as estimativas de V̂ e, consequentemente, ajudar o agente escolher ações mais apropriadas. Com 3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos 57 Figura 18: Representação temporal de um estímulo condicionado e a manutenção e uso do erro de predição. Adaptado de Schultz (1997). essa realimentação, a predição esperada para um determinado estímulo condicionado converge para a recompensa realmente recebida ao longo do tempo. 3.2.1 Algumas considerações sobre o modelo O mecanismo apresentado baseou-se no sinal dos neurônios dopaminérgicos para aprender e manter predições de ocorrência de um estímulo não-condicionado (tratado como recompensas) para um determinado estímulo condicionado ao longo do tempo. O objetivo do modelo é utilizar as predições aprendidas para que o agente possa identificar a expectativa de recompensas futuras vinculadas a um determinado estímulo e utilizá-las para escolher a ação que será executada e guiar o comportamento. Uma limitação crítica do trabalho é o conceito de representação do estímulo condicionado através do tempo. De acordo com o próprio autor, não é possível identificar e demarcar o quão distante no tempo as predições relacionadas a apresentação de um estimulo condicionado podem e devem ser feitas. A concepção adotada no trabalho para o condicionamento clássico é de um sistema de expectativa e não um processo de aprendizagem associativa que envolve respostas reflexas inatas. 3.3 A arquitetura Darwin 58 Na nossa concepção, um sistema de expectativas influencia e faz parte de um processo que envolve respostas voluntárias escolhidas pelo agente, ou seja, fazem parte de processos de condicionamento operante, como será visto no modelo proposto no capítulo 4. 3.3 A arquitetura Darwin Um exemplo do condicionamento aplicado à robótica é a arquitetura Darwin, que vem sendo desenvolvida no Neuroscience Institute (KRICHMAR; EDELMAN, 2003). A despeito do projeto contemplar a construção de um mecanismo de aprendizado, há também uma motivação biológica. Tal mecanismo pertence há uma classe chamada brain-based-devices, em que sua operação é analisada de maneira a obter indícios da operação de um sistema nervoso real. Após quase 17 anos de pesquisa, a arquitetura encontra-se na versão XI. Entretanto, discutiremos apenas a versão VII disponibilizada em 2002, que incorporou os mecanismos de condicionamento clássico e operante à arquitetura. Darwin VII foi implementada em um robô que consiste de uma base móvel equipada com câmeras para o sistema de visão, microfones para o sistema de audição, sensores de condutividade para ’degustação’ (avaliação de um estimulo recebido) e componentes efetores para movimentar a base, a cabeça e a garra, como pode ser visto na Figura 19. O comportamento de Darwin VII é guiado por um sistema nervoso (cujo modelo foi inspirado no sistema nervoso dos vertebrados) composto por seis sistemas que fazem a simulação do cérebro artificial (conforme esquema apresentado na Figura 20): um sistema de audição (LCoch e RCoch, A1), um sistema de visão (R, VAp, IT), um sistema de degustação (Tapp , Tave ), um conjunto de neurônios motores capazes de disparar o comportamento, um sistema de rastreamento visual (C) e um sistema de valoração (S). O sistema nervoso completo contém 19.556 neurônios, compondo aproximadamente 450.000 sinapses entre as unidades neuronais. A simulação é baseada em ciclos de aproximadamente 200 milissegundos, período em que as captações sensoriais são processadas, a atividade das unidades neuronais é computada, os pesos das conexões são atualizados e, por fim, a resposta motora é gerada. Darwin VII possui um conjunto de comportamentos pré-definidos pela equipe que o 3.3 A arquitetura Darwin 59 Figura 19: Darwin VII em seu ambiente. Fonte: Krichmar e Edelman (2002). Figura 20: Esquema do sistema nervoso de Darwin VII. Adaptado de Krichmar e Edelman (2002). 3.3 A arquitetura Darwin 60 projetou: evitar obstáculo, exploração visual, aproximar, agarrar e degustar e duas classes de respostas reflexas inatas (Apetitivas e Aversivas) despertadas ao agarrar os cubos. A seleção dos comportamentos fica sob controle da simulação do sistema nervoso. O ambiente de Darwin VII (Figura 19) consiste em um área plana fechada com 6 cubos metálicos cobertos por tiras ou bolhas dispostos no ambiente. Cubos com bolhas na superfície apresentam baixa condutividade elétrica e emitem um som de 3khz e cubos com tiras na superfície apresentam alta condutividade elétrica e emitem um som de 3.9 khz. Nos experimentos de condicionamento clássico, Darwin VII é treinado para associar a valoração dos objetos (apetitivo ou aversivo) com as suas características visuais ou auditivas. Objetos com baixa condutividade são associados de maneira inata a valores aversivos, já objetos que possuem alta condutividade são associados de maneira também inata a valores apetitivos. Darwin VII, através de sua experiência, aprende a associar os estímulos visuais de bolha e som a 3 khz com a valoração aversiva e os estímulos visuais de tiras e som de 3,9 khz com valoração apetitiva. Durante os treinamentos de condicionamento (Figura 21), Darwin VII agarra os blocos e ao medir sua condutividade elétrica dispara respostas reflexas apetitivas ou aversivas, conforme o caso. Durante esse período, as unidades neuronais de degustação acionam o sistema de valoração (S) que, em seguida, atua nas unidades neuronais motoras (Mapp e Mave ) causando a resposta motora conforme a valoração elicitada. Depois de condicionado, o sistema de valoração e, posteriormente, as unidades neuronais motoras são imediatamente ativadas pelo sistema visual após o aparecimento de um estimulo condicionado visual ou pelo sistema auditivo, após a percepção de um estimulo condicionado sonoro. A atividade do sistema de valoração que era disparada nos treinamentos pelo estimulo não-condicionado (condutividade elétrica) passa a ser disparada pelo estímulo condicionado, bolha/tira ou som mais grave/agudo. Krichmar e Edelman (2002) destacam que esse deslocamento é análogo ao deslocamento de ativação dos neurônios dopaminérgicos de Schultz (1997). Depois de associar as características visuais com a valoração disparada pela condutividade elétrica dos blocos do ambiente, Darwin VII continuava a pegar blocos com valoração apetitiva (tiras), mas evitava blocos com valoração aversiva (bolhas). Como demonstrado anteriormente na Figura 21, estímulos visuais neutros são associados com a degustação (respostas apetitivas ou aversivas), onde a resposta condicionada é eliciada por aproximadamente 70% a 90% das vezes em que o estímulo 3.3 A arquitetura Darwin 61 Figura 21: Procedimento de aquisição do condicionamento clássico pela Darwin VII. condicionado é apresentado, portanto, nunca alcança a perfeição e ocasionais erros ocorrem. Em relação ao condicionamento operante, a incorporação de tal mecanismo na arquitetura permitiu o desenvolvimento de categorias de respostas voluntárias através das alterações nos pesos das conexões sinápticas da simulação do cérebro. A ativação do sistema de valoração (S) sinaliza a ocorrência de eventos sensórios que contribuem para a modulação dos pesos entre as conexões sinápticas. Por exemplo, degustar um bloco agarrado pela Darwin VII contribui para reforçar ou inibir o comportamento através da alteração dos pesos sinápticos, como conseqüência do comportamento realizado. Como já mencionado, Darwin VII possui um conjunto pré-definido de comportamentos que são selecionados pela simulação do sistema nervoso. Respostas apetitivas e aversivas são selecionadas inicialmente pela degustação, mas depois dos treinamentos de condicionamento clássico, essas respostas são disparadas pelos estímulos visuais e auditivos. Depois de condicionado, Darwin VII continua a agarrar blocos apetitivos, mas aprende a evitar blocos aversivos em até 90% dos casos. Desse modo, Darwin VII consegue desenvolver um repertório comportamental, que consiste basicamente em aumentar a probabilidade de executar as ações que o levam a uma valoração apetitiva e a diminuir a probabilidade de executar ações que o levam a con- 3.4 Comunicação simbólica entre criaturas 62 seqüências aversivas, levando em consideração os estímulos percebidos no ambiente. 3.3.1 Algumas considerações sobre o modelo Como descrito anteriormente, os conceitos do condicionamento clássico e operante foram utilizados para a construção da arquitetura Darwin VII. Na concepção adotada para o condicionamento clássico, as respostas reflexas são valorações (apetitivas ou aversivas) inatas disparadas pela condutividade elétrica dos objetos e a aprendizagem consiste em associar estímulos neutros advindos do ambiente (visuais e auditivos) a essas valorações, de modo que um estímulo condicionado dispare a valoração inata após a sua apresentação. Para o condicionamento operante, a concepção adotada consiste em utilizar a aprendizagem forjada mediante o condicionamento clássico, ou seja, a valoração (apetitiva ou aversiva) associada aos objetos do ambiente, para desenvolver um repertório comportamental que o leva a aproximar e interagir com objetos que disparam uma resposta reflexa inata apetitiva e a evitar objetos que disparam respostas reflexas inatas aversivas. A arquitetura apresentada não compreende uma valoração completa de um episódio vivenciado, conforme princípios básicos do condicionamento operante. A freqüência das ações executadas é ajustada conforme valoração inata reflexa, embutida na arquitetura e não por uma avaliação resultante do episódio vivenciado. A arquitetura também não visa a auto-regulação do sistema, portanto as ações estão sempre voltadas para a busca de recompensas, independente das necessidades do agente. Neste sentido, a arquitetura não envolve uma emoção subjacente, que influencia o comportamento do robô. 3.4 Comunicação simbólica entre criaturas O trabalho de Loula (2004) apresenta uma nova abordagem sobre os processos de fundamentação de representações simbólicas em que agentes/criaturas autônomas artificiais conseguem interagir e aprender a comunicar-se via aprendizagem associativa. Segundo Loula (2004), o conceito de ’símbolos’ utilizado pelo trabalho se difere do 3.4 Comunicação simbólica entre criaturas 63 conceito de representações intrínsecas de objetos captados pelo agente e representados em sua mente, fim atribuído pelas ciências cognitivas tradicionais. A pesquisa contempla uma rica discussão acerca dos problemas referentes à interpretação dos símbolos enfrentados pela inteligência artificial e apresenta uma proposta para uma nova conceitualização dos símbolos inspirando-se na biologia e na etologia, porém o presente trabalho destacará apenas a estratégia de aprendizagem associativa utilizada pelos agentes. Para maiores informações, refira-se a Loula (2004) e referências lá citadas. Como inspiração para a pesquisa, foi utilizado o caso etológico da comunicação dos macacos vervets. Esses animais possuem 3 tipos principais de predadores, sendo eles: terrestre (como o tigre), aéreo (Águia) e rastejante (cobras). Para fugir de seus predadores, os macacos desenvolveram fugas específicas para cada tipo de ataque. Um fato a ser ressaltado é que os macacos emitem diferentes sons para cada tipo de predador percebido no ambiente, desencadeando assim o comportamento de fuga referente ao tipo de predador indicado pelo som. De acordo com o autor, estudos mostram que essa comunicação realizada entre os macacos não é inata, mas pelo contrário, é resultante de um aprendizado associativo ontogenético. Baseado no arcabouço teórico da etologia e da teoria semiótica de Peirce, Loula (2004) construiu uma aplicação de Vida Artificial para simular a emergência de comunicação para alerta de predação entre as criaturas via aprendizagem associativa. O mundo virtual é composto de criaturas (presas e predadores) e objetos do mundo (árvores e arbustos). As presas são divididas em instrutores e aprendizes, sendo que os instrutores conseguem emitir alarmes e já conhecem quais alarmes usar para cada tipo de predador. Os predadores correspondem aos mesmos tipos identificados anteriormente para os vervets. A capacidade sensorial das presas inclui um sistema de audição e visão, já os predadores possuem somente o sistema de visão. Além de entradas sensoriais, as criaturas possuem também saídas correspondentes a ações motoras. Após cada iteração, as criaturas selecionam as ações que serão executadas, sendo elas: ajustar sensor de visão, movimentar-se, atacar, subir em árvore, esconder-se em arbusto e vocalizar alarme, sendo que as três últimas são especificas das presas, enquanto os ataques são específicos para os predadores. A seleção das ações é realizada levando em consideração três elementos: comportamentos, motivações e drives, como pode ser visto na Figura 22. O mecanismo de seleção de comportamentos se baseia na motivação que define a relevância de cada comportamento para um determinado estado. O estado que de- 3.4 Comunicação simbólica entre criaturas 64 Figura 22: O mecanismo de seleção de ação baseado em comportamentos. Com base nas entradas sensoriais e nos drives, cada comportamento indica sua motivação para atuar, aquele que tiver o maior valor será selecionado e suas ações irão para os atuadores. Fonte: Loula (2004). fine a motivação é influenciado pelos dados sensoriais captados pela criatura e nos drives internos (necessidades básicas), como a fome e o medo. Como pode ser visto na Figura 22, as tendências para as ações da criatura estão pré-definidas para um determinado estado da criatura. Como discutido anteriormente, os macacos aprendizes não conseguem interpretar e muito menos emitir os alarmes referentes à presença de predadores. Essa comunicação, portanto, não é uma capacidade inata da criatura, ela é aprendida ao longo da vida da criatura via aprendizado associativo. O aprendizado associativo permite aos macacos aprendizes a associar estímulos externos advindos do ambiente aos estímulos sonoros emitidos pelos macacos instrutores referentes a cada tipo de predador. Quando um instrutor emite um alarme, o aprendiz realiza um escaneamento visual em direção ao instrutor responsável pela emissão do estimulo sonoro. Caso um estímulo visual, como a imagem do predador, seja detectada, a associação entre o alarme e o estímulo visual do predador será incrementada. Os processos envolvendo os estímulos e a associação entre eles foram descritos no modelo em termos de ícones, índices e símbolos, fundamentados pela semiótica de Peirce. Os ícones estão relacionados simplesmente com o reconhecimento sensorial de um estímulo externo e pertencente ao domínio representacional primário dos estímulos captados pela criatura (RD1). Já os índices resultam da associação entre os 3.4 Comunicação simbólica entre criaturas 65 dois estímulos (auditivo e visual) quando eles co-ocorrem em RD1, como pode ser visto no esquema de aprendizagem associativa do modelo, apresentado na Figura 23. Caso a aprendizagem/associação atinja um nível ’ótimo’, o estímulo condicionado Figura 23: Aprendizado associativo, dos sensores à memória associativa. Os sensores recebem os estímulos externos que são mantidos na memória de trabalho, e usados pela memória associativa para criar diferentes relações entre estímulos. Fonte: Loula (2004). torna-se um símbolo, definido no trabalho como uma ’regra de ação’, que permite inclusive predizer o futuro. Nesse caso, quando o alarme tornar-se uma regra, esse estímulo assume uma ligação direta com o predador, fazendo com que a resposta de fuga vinculada ao predador seja imediatamente emitida. No modelo, os dados sensoriais são recebidos pelas respectivas memórias de trabalho, tidas como um repositório de estímulos sensoriais temporários. Os itens disponíveis nas memórias de trabalho são usados pela memória associativa para forjar a associação entre estímulos visuais e auditivos. Quando os estímulos são percebidos emparelhados pela criatura, a memória cria/reforça uma associação entre eles, como pode ser visto na Figura 24. As associações forjadas passam por ciclos de ajuste positivo e negativo variando em conseqüências das experiências da criatura com os estímulos, fazendo com que o estímulo visual convirja para o estímulo auditivo que ele ’representa’, contendo assim, 3.4 Comunicação simbólica entre criaturas 66 Figura 24: Reforço e Enfraquecimento de associações. (a) Quando co-ocorrem a existência de um estímulo visual e de um estímulo auditivo nas memórias de trabalho, a associação entre eles é reforçada e então inibida contra alterações. (b) Quando estes estímulos saem da memória de trabalho, as associações da qual fazem parte na memória associativa são enfraquecidas se não estiverem inibidas. Fonte: Loula (2004). as relações referenciais mais apropriadas. As relações formadas na memória associativa são responsáveis por produzir um comportamento emergente na criatura fazendo com que um comportamento de fuga seja desencadeado simplesmente ao ouvir o alarme. Essas associações também influenciam os drives e consequentemente os comportamentos resultantes de uma realimentação da memória associativa. Essa realimentação ocorre quando um alarme é ouvido, e este está associado com um estímulo visual de predador. Nesse caso, a memória associativa envia um estímulo interno para alterar o drive de medo, fazendo com que o comportamento de fuga seja emitido como se o predador tivesse sido apresentado para a criatura. A associação entre os estímulos (alarme e predador) é utilizada para atualizar o drive de medo da presa, portanto, quanto maior a força da associação, maior será o medo ’sentido’ pela criatura. 3.4.1 Algumas considerações sobre o modelo Embora o trabalho de Loula (2004) não implemente processos de condicionamento de maneira explícita, ele apresenta um rico modelo de aprendizagem associativa mostrando que é possível aos agentes forjarem símbolos lingüísticos (isto é, construir conotações para símbolos) a partir da formação de um domínio consensual 3.5 Considerações Finais 67 de condutas (MATURANA, 2001) no seu ambiente, o que é equivalente a dizer que a linguagem, numa comunidade de agentes, não é inata, mas surge a partir da reificação dos objetos e da formação de um domínio consensual, o qual é constituído a partir de processos de aprendizagem associativa (estabelecimento de relações indiciais). 3.5 Considerações Finais Como pode ser claramente notado com os modelos apresentados nesse capítulo, pesquisadores da área da IA têm buscado se apropriar e recontextualizar uma série de concepções sobre o condicionamento clássico e operante, de modo a utilizá-los para modelagem de agentes artificiais biologicamente inspirados. Em essência, a maioria deles reconhece a importância do condicionamento como mecanismo primitivo e basal para a aprendizagem associativa. Ainda assim, embora exista referenciais teóricos coerentes para a criação de agentes artificiais que incorporem os processos de condicionamento, não nos foi possível identificar tal corpo de conhecimento de forma consolidada, pois estão dispersos na literatura de várias áreas. Como visto, a concepção adotada nos trabalhos para o condicionamento clássico despreza completamente a resposta reflexa automática e inata (como salivação, piscar de olhos) existente na grande maioria das espécies e crucial para a sobrevivência. Tanto Krichmar e Edelman (2002) quanto Morén (2002) adotam a definição de que a resposta provocada por um estímulo não-condicionado desperta apenas uma valoração emocional interna no agente. Já a concepção adotada para o condicionamento operante, no que diz respeito a freqüências das ações executadas pelo agente, Schultz (1997) utiliza as predições aprendidas para um determinado estímulo para influenciar na escolha das ações executadas. Krichmar e Edelman (2003) utilizam uma valoração inata (apetitiva ou aversiva) associada aos objetos do ambiente (via condicionamento clássico), para desenvolver um repertório comportamental que aumente a probabilidade do agente aproximar e interagir com objetos que disparam uma resposta reflexa inata apetitiva e, por outro lado, aumente a probabilidade do agente evitar objetos que disparam uma resposta reflexa inata aversiva. No entanto, na literatura referente à área de teoria da emoções e mesmo, abrindo o leque, na literatura das ciências cognitivas, há sérias restrições quanto à possibilidade de se caracterizar o fato de uma resposta ser apetitiva ou aversiva como respostas componentes de um par estímulo -resposta reflexa, 3.5 Considerações Finais 68 como proposto por Krichmar e Edelman (2003). De fato, não se pode confundir uma resposta não-condicionada (inata) presente no processo de condicionamento - que deve ser uma ação motora, corporal - com a valência dessa ação, que é definida com a avaliação cognitivo-emocional que a ’mente’ faz da ação reflexa recém-executada, no sentido de avaliar (appraisal) se aquela ação foi, em algum sentido, boa para o organismo (caso em que a valência será positiva, ou apetitiva) ou ruim para o organismo (caso em que a valência será negativa, ou aversiva). Em síntese,o apetitivo ou aversivo refere-se a uma avaliação de uma ação motora, e não à ação motora de fato, e para o condicionamento, o que deve ser tomado como reflexo não-condicionado deve ser uma ação motora e não uma avaliação dessa ação motora. 69 4 Proposta de modelo conceitual para o mecanismo de condicionamento Tomando por base o estudo sobre o condicionamento descrito no capítulo 2, e a dinâmica interna da versão 0.7.5 da arquitetura Artífice (CAMPOS, 2006) discutida no capitulo 1, será apresentado neste capítulo o modelo proposto para o mecanismo de condicionamento. Como veremos, este modelo compreende dois subsistemas, inspirados conceitualmente no condicionamento clássico e operante, respectivamente. O foco principal do modelo foi conceber um mecanismo que permita ao agente construir um repertório básico de comportamentos visando sua melhor adaptação ao ambiente em que esteja inserido, e a auto-reajustar esse repertório frente às mudanças que porventura ocorrerem nesse ambiente. Para melhorar a legibilidade deste e dos capítulos seguintes, convencionou-se escrever os nomes de classes de software em negrito, iniciando sempre com letras maiúsculas (e.g., ClasseSoftware). Já os métodos serão sempre escritos em negrito porém iniciados com letras minúsculas, seguidos de ’()’ ao final (e.g., metodoDeClasse()). Os pacotes de software, quando citados, serão referenciados com seus nomes escritos em itálico (e.g., PacoteSoftware). 4.1 O mecanismo de condicionamento clássico Os aspectos discutidos no capítulo 2 abstraídos para a modelagem e desenvolvimento do mecanismo de condicionamento clássico abordam, de um modo geral, a forma com que estímulos neutros puramente sensoriais advindos do ambiente vêm a eliciar respostas reflexas pré-definidas quando da instanciação ou criação do agente. Como já relatado no capitulo 1, a dinâmica interna de interações presentes na ar- 4.1 O mecanismo de condicionamento clássico 70 quitetura contempla três níveis de resposta, sendo elas: não-elaborada ou automática ou reflexa, semi-elaborada ou emocional e elaborada ou cognitiva. A resposta não-elaborada contempla as ações reflexas embutidas no agente e pré-definidas por ocasião de sua construção, sendo fundamentada nos reflexos desenvolvidos durante a história de evolução dos seres vivos. Assim como na biologia, essas ações são disparadas de maneira automática por estímulos específicos advindos do ambiente (estímulos não-condicionados). Como pode ser percebido, o mecanismo de condicionamento clássico atuará justamente nesse primeiro nível de resposta da arquitetura, permitindo ao ASCS associar estímulos neutros advindos do ambiente a estímulos não-condicionados que disparam automaticamente respostas reflexas embutidas no agente. Vale destacar que o processo englobado pelo mecanismo de condicionamento clássico não envolve nenhum tipo de valoração emocional, ou seja, a conseqüência obtida posteriormente ao acionamento da resposta reflexa não é levada em consideração no processo. Muito embora, como veremos no modelo proposto para o condicionamento clássico, um dos parâmetros envolvidos é relacionado ao nível de atenção despertado por um certo estímulo. Na próxima seção será discutido o modelo conceitual proposto para o mecanismo de condicionamento clássico. 4.1.1 Sobre a modelagem do mecanismo de condicionamento clássico O modelo estático do mecanismo de condicionamento clássico proposto pode ser visualizado na Figura 25. Ele está representado por um diagrama de classes e foi desenvolvido utilizando a Linguagem Unificada de Modelagem - UML (LARMAN, 2004). O mecanismo de condicionamento (encapsulado pela classe ClassicalConditioning) ao ser incorporado à arquitetura, permitirá ao ASCS criar um repertório básico comportamental associando estímulos neutros a estímulos não-condicionados que disparam automaticamente respostas reflexas hard-wired 1 . Para isso, o agente deverá possuir componentes reflexos inatos e sem nenhuma flexibilidade, que estão sempre associados a uma resposta fixa não-condicionada associada (UR - do inglês, unconditioned response), análoga ao circuito rápido de respostas corporais (CAMPOS, 2006). 1 rigidamente codificada, i.e., não passíveis de serem aprendidos na ontogenia do organismo. 4.1 O mecanismo de condicionamento clássico 71 Figura 25: Diagrama de classes do mecanismo de condicionamento clássico. Essa função é abstraída no modelo pela classe Reflex. Para todo componente Reflex existe um estímulo não-condicionado (US - do inglês, unconditioned stimulus) que eliciará a resposta reflexa (UR) associada a ele. É importante salientar que o par US e UR deve ser definido na construção do agente, ou seja, para cada resposta reflexa embutida no agente, deve-se definir qual estímulo não-condicionado irá dispará-la. Essa função de agrupar os UR e US é realizada no modelo pela classe US_UR_Pair. A aprendizagem provida pelo mecanismo consiste em associar os estímulos neutros (NS - do inglês, neutral stimulus; representados no modelo pela classe Stimulus) captados pelo agente durante sua exploração do ambiente aos US que, por sua vez disparam as respostas reflexas pré-definidas na classe US_UR_Pair. A cada experiência vivida pelo agente (registrada na classe Experience) em que US e NS são percebidos em conjunto (i.e., emparelhados), a associação entre eles vai sendo reforçada e ajustada em conformidade com uma expressão matemática definida na classe ConditioningIntensity. O cálculo da intensidade do condicionamento durante as experiências será explicado na seção seguinte. Observe que, após forjada a associação pelo mecanismo de condicionamento clássico, o estímulo NS que anteriormente era neutro (daí seu nome), deixa de sê-lo, passando a ser um estímulo condicionado, daí sua nova designação de CS (do inglês - conditioned stimulus). 4.1 O mecanismo de condicionamento clássico 72 Assim como ocorre com organismos vivos, o agente pode possuir vários componentes US_UR_Pair, podendo associar a eles diversos NS ambientais, compondo, assim, um conjunto de condicionamentos de primeiro nível que são alocados e gerenciados no modelo pela classe PrimaryLevelCCList. Como já apontado no capítulo 2, os organismos conseguem elaborar condicionamentos de ordem mais elevada, em que o estímulo neutro não é associado diretamente a um estímulo não-condicionado. No condicionamento de segunda ordem um estímulo condicionado previamente estabelecido é usado ’como se fosse um’ estímulo nãocondicionado para criar condicionamento a um novo estímulo neutro. Dessa forma, um estímulo neutro ao ser emparelhado repetidas vezes com um novo estímulo condicionado, ficará fortemente associado a ele, de forma que a apresentação do estímulo neutro (agora estímulo condicionado) eliciará a resposta reflexa da mesma forma que o estímulo não-condicionado e o estímulo condicionado do condicionamento de primeira ordem o fazem. O condicionamento de segunda ordem faz uso dos condicionamentos de primeira ordem estabelecidos disponíveis em PrimaryLevelCCList para realizar as novas associações ’indiretas’ de estímulos neutros a uma UR. A cada experiência em que um NS e um CS (pertencente a um condicionamento de primeira ordem) são percebidos emparelhados, a associação entre eles é reforçada exatamente do mesmo modo utilizado no condicionamento de primeiro nível. Assim, ao forjar a associação entre NS e CS1 2 , NS se tornará um CS de segunda ordem (CS2 ), de modo que a apresentação de CS2 eliciará a UR associada ao condicionamento de primeira ordem. Como pode ser percebido, o mecanismo de condicionamento clássico funciona agrupando camadas de modo hierárquico, como pode ser visto na Figura 26. Na próxima seção será discutido em detalhes a dinâmica de operação do mecanismo de condicionamento clássico. 4.1.2 A dinâmica de operação do mecanismo de condicionamento clássico Como já destacado no capítulo 1 do presente trabalho, o ASCS é composto por componentes periféricos externos e internos ao agente que interagem entre si de forma não-determinística. Todas as interações entre os componentes ocorrem apenas me2 O prefixo em CS1 indica que tal estímulo já passou por um condicionamento de primeira ordem. 4.1 O mecanismo de condicionamento clássico 73 Figura 26: Diagrama de blocos do mecanismo de condicionamento clássico. diante troca de estímulos, que foram divididos em dois grupos: estímulos puramente internos ao ASCS e estímulos advindos do ambiente. A técnica adotada para troca de estímulos entre os componentes foi a utilização de buffers compartilhados. Considerando que os estímulos foram diferenciados em interoceptivos e ambientais, foram implementados dois buffers compartilhados para troca de estímulos entre os componentes, denominados InteroceptiveStimuliPool e EnvironmentalStimuliPool. Como dito, a dinâmica de operação do mecanismo de condicionamento clássico está inserida no primeiro nível de resposta da arquitetura 3 . Devido a isso, a interação entre os componentes da arquitetura para o primeiro nível de resposta será descrita a seguir e também demonstrada na Figura 27: • O componente do sistema periférico PeripheralSystem capta um estímulo externo EnviromentalStimuls no ambiente. O PeripheralSystem executa sua operação interna, gerando e emitindo um estímulo interno InteroceptiveStimulus ao pool interno (InteroceptiveStimuliPool). • O componente Sensor correspondente ao componente periférico que captou o 3 O diagrama completo da arquitetura pode ser visto no Anexo A: Arquitetura Artífice 0.9. 4.1 O mecanismo de condicionamento clássico 74 estímulo recebe o InteroceptiveStimulus e ao executar sua operação interna gera e emite um estímulo adrenérgico IntStiAdrenergic ao buffer. • O IntStiAdrenergic é, então, recebido pelo componente reflexo Reflex que aciona a resposta reflexa associada a ele emitindo um IntStiSympathetic ao pool. • O IntStiSympathetic é recebido pelo componente Effector correspondente ao componente Reflex que, através de sua operação, gera um IntStiSomatic para exibir o reflexo do ASCS. • O IntStiSomatic é recebido por um componente pertencente ao PeripheralSystem que na sua operação interna executa a resposta reflexa. Figura 27: Interações entre componentes da arquitetura na resposta não-elaborada. Fonte: Campos (2006). Para maiores detalhes sobre a dinâmica interna entre os componentes da arquitetura, refira-se a Campos (2006). Os componentes descritos acima são generalizações modeladas na arquitetura que devem ser especializadas englobando as especificidades desejadas, como por exemplo, a especialização do componente Reflex em um componente Shock que recebe um estímulo não-condicionado que dispara uma resposta reflexa a ser implementada e definida na construção do agente. O mecanismo de condicionamento clássico atua justamente nos componentes Reflex da arquitetura, pois são esses componentes que controlam o momento em que a resposta reflexa será emitida. 4.1 O mecanismo de condicionamento clássico 75 Uma alteração realizada nos componentes do tipo Reflex com o trabalho atual é que os mesmos buscam no InteroceptiveStimuliPool, além de estímulos não-condicionados (abstraídos internamente por estímulos IntStiAdrenergic), estímulos neutros, puramente sensoriais, captados pelo agente via PeripheralSystem (Figura 28), como, por exemplo, sistema visual, auditivo, entre outros. O mecanismo de condicionamento clássico monitora os estímulos recebidos pelo Figura 28: Captação de estímulos neutros pareados com estímulos não-condicionados por componentes Reflex. Adaptado de: Campos (2006). componente Reflex visando criar associações entre estímulos não-condicionados e estímulos neutros captados pelo agente. Para criar ou constituir esta associação entre NS e US, um fator crucial, discutido no capítulo 2, é a contigüidade temporal. Dito de outra forma, para que ocorra o condicionamento um NS deve ser apresentado e logo em seguida (numa curta janela de tempo) o US deve ser apresentado, o que irá disparar automaticamente UR. Após repetidos emparelhamentos, NS ficará fortemente associado ao US. Essa característica foi contemplada pelo modelo. Durante a sua execução, o componente reflexo busca no InteroceptiveStimuliPool um US e também verifica a presença de estímulos neutros percebidos pelo ASCS. Caso o componente Reflex encontre, naquela varredura do pool, um US e um NS, o mecanismo de condicionamento reforça a associação entre eles acionando o método acquisition() da classe PrimaryLevelCC. O método acquisition() contempla cada experiência vivenciada pelo agente 4.1 O mecanismo de condicionamento clássico 76 em que um estímulo neutro é percebido emparelhado com um estímulo não condicionado. O seu papel é justamente criar/aumentar o nível de associação/condicionamento entre os estímulos envolvidos acionando a classe Experience e informando a ocorrência de aquisição de condicionamento. A classe Experience, por sua vez, incrementa o número de experiências com os componentes envolvidos e aciona a classe ConditioningIntensity para aumentar a associação entre CS e US através do modelo encapsulado pela classe para ajustar a curva de condicionamento. O modelo utilizado foi o modelo de Rescorla e Wagner (1972). O cálculo é inicialmente baseado em duas variáveis: V = intensidade do acoplamento ou da associação entre um estímulo não-condicionado (US) e um estímulo condicionado (CS). ∆V = valor de incremento de V a cada experiência ocorrida. Após uma nova experiência, o valor da associação V será o valor da antiga associação ajustado com o valor de alteração calculado: Vnew = Vold + ∆V (eq. 1) A fórmula apresentada por Rescorla e Wagner (1972) mostra basicamente como ocorrem as alterações da associação entre US e CS durante as experiências. O incremento ∆V é dado por: ∆V = αβ acq (λacq - V), onde: (eq. 2) α: representa o nível de atenção despertado pelo estímulo, podendo variar entre 0 a 1. β: representa o peso do estímulo não-condicionado na variação da taxa do condicionamento. O seu valor pode variar de 0 a 1, influenciando diretamente na taxa de crescimento ou decaimento do nível de condicionamento. λ: representa o valor máximo da taxa de condicionamento, isto é, o valor que será atingido assintoticamente. Assim como descrito no capítulo 2, cada US_UR_Pair possui um valor para a variável β (dado pela sua importância na sobrevivência do agente), resultando em diferentes curvas de aquisição para cada par estímulo-resposta. Na Figura 29 os valores foram: 4.1 O mecanismo de condicionamento clássico 77 α = 0,5; β = 1; λ = 100. O eixo x representa o numero de experiências vivenciadas em que o estímulo condicionado e o estímulos não-condicionado foram apresentados emparelhados e o eixo y representa a taxa de condicionamento. Na Figura 30 os valores foram: α = 0,5; β = 0,5; λ = 100. Figura 29: Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 1; λ = 100. Conforme simulação realizada anteriormente, após repetidos emparelhamentos, CS Figura 30: Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 0,5; λ = 100. ficará fortemente associado a US. Após isso, ao receber um CS sozinho (i.e., desemparelhado do US), o mecanismo de condicionamento clássico aciona o método checkConditioning() da classe PrimaryLevelCC. A função do método é justamente 4.1 O mecanismo de condicionamento clássico 78 decidir se a resposta reflexa CR será disparada ou não. A decisão não é tomada levando em consideração um limiar associado à intensidade do condicionamento, como por exemplo, caso o nível de condicionamento seja superior ao limiar de 70% a UR sempre será disparada, como é feito em boa parte da literatura mais voltada para a área da engenharia. Em vez disso, a decisão é probabilística, possibilitando que a mesma seja tomada de maneiras diferentes para uma mesma configuração do modelo. Assim sendo, um número de 0 a 100 é gerado randomicamente e, caso o número gerado seja menor que a intensidade do condicionamento, checkConditioning() decidirá pelo disparo da resposta não-condicionada (CR). Dito de outra forma, caso a taxa de condicionamento para um certo estímulo condicionado seja X, então sob a presença de CS, haverá uma probabilidade de X% de a resposta reflexa ser disparada e (100 - X)% de não ser disparada. Caso checkConditioning() decida por disparar a resposta reflexa CR, o mecanismo de condicionamento faz que com o componente Reflex libere um estímulo para disparar a resposta reflexa, como se um estímulo não-condicionado tivesse sido apresentado. Vale ressaltar que a resposta reflexa, antes disparada reflexivamente pelo US definido na construção do agente, foi deslocada para exatamente após a apresentação de CS. Dessa forma, o ASCS consegue aprender que um determinado estímulo (CS) do seu ambiente antecipa a apresentação de um outro estímulo (US), sendo que este último possui uma significância inata e causa o disparo de uma resposta reflexa UR. Conforme descrito no capítulo 2, esse deslocamento da resposta reflexa é altamente adaptativo, sendo que a sua implementação no modelo foi inspirado no trabalho de Schultz (1997), em que o disparo do reflexo é indicado pela ativação dos neurônios dopaminérgicos. Tal como ocorre com organismos vivos, a associação entre CS e US forjada pelo mecanismo de condicionamento não é persistente. Como visto no capítulo 2, caso somente CS seja percebido pelo agente (na mesma varredura do buffer InteroceptiveStimuliPool) sem que US seja também apresentado, a associação entre eles vai se tornando cada vez mais fraca. Portanto, ao receber um CS, o mecanismo de condicionamento pode fazer com que o componente Reflex emita um estímulo para eliciar a resposta reflexa, porém a associação entre um CS e US sofre um decaimento (Figura 31) pelo acionamento do método extinction() da classe PrimaryLevelCC. Caso esse cenário se repita várias vezes a ligação entre CS e US acaba por ser desfeita. O método extinction() contempla cada experiência vivenciada pelo agente em que um estímulo condicionado é percebido pelo agente de modo isolado, sem que o estímulo 4.1 O mecanismo de condicionamento clássico 79 não-condicionado seja apresentado. O seu papel é justamente diminuir o nível de associação/condicionamento entre os estímulos envolvidos acionando a classe Experience e informando a ocorrência de extinção da curva de condicionamento. A classe Experience, por sua vez, incrementa o número de experiências com os componentes envolvidos e aciona a classe ConditioningIntensity para diminuir a associação entre CS e US através do modelo de Rescorla e Wagner (1972) utilizado na aquisição. A diferença entre os processos de aquisição e extinção é controlada pelo valor da variável λ (eq. 3). De vez que a taxa de condicionamento tende a aproximar do valor dessa variável a cada experiência vivenciada pelo agente, caso o valor de λ seja 0, ocorrerá um decréscimo (∆V) na intensidade do condicionamento para cada iteração, conforme apresentado na eq. 3. ∆V = αβ ext (λext - V), onde: (eq. 3) βext: representa o peso do estímulo não-condicionado na variação da taxa do condicionamento. O seu valor pode variar de 0 a 1, influenciando diretamente na taxa de decaimento do nível de condicionamento. λext: representa o valor mínimo da taxa de condicionamento, isto é, o valor que será atingido assintoticamente. Figura 31: Curvas de aquisição/extinção do condicionamento em função do número de experiências vivenciadas. A diferença entre os processos de aquisição e extinção no modelo de Rescorla e Wagner (1972) é controlada pelo valor da variável λ. A variável β representa o peso do estimulo não-condicionado na variação da taxa do condicionamento. 4.2 O mecanismo de condicionamento operante 80 4.2 O mecanismo de condicionamento operante Enquanto o mecanismo de condicionamento clássico trata de ações involuntárias (inatas), o mecanismo de condicionamento operante irá tratar com as ações voluntárias. Tal mecanismo permite ao agente forjar padrões de comportamento decorrentes das conseqüências advindas da execução de suas ações no ambiente, aumentando a ocorrência futura de ações que tenham levado a conseqüências apetitivas e diminuindo a ocorrência de ações que tenham levado a conseqüências aversivas. O processo encapsulado pelo mecanismo também gera os episódios vivenciados pelo agente, constituídos pelo estímulo desencadeante, a ação executada no episódio e a conseqüência do episódio, que será atribuída pelo Sistema de Valoração da arquitetura. Portanto, o processo estabelece a associação de um estímulo do ambiente, a ação voluntária executada e a referência específica de qual foi a conseqüência recebida. O processo se inicia quando o agente recebe via seus componentes sensores, estímulos desencadeantes emitidos pelos objetos existentes em seu mundo. Para cada ação a ser selecionada, o agente recorre aos episódios vivenciados e consequentemente valorados para verificar qual é a expectativa esperada pela interação com o objeto do mundo emissor do estímulo captado pelo agente. Após a execução da ação, o Sistema de Valoração compara a recompensa esperada com a recompensa realmente recebida e realiza um ajuste caso a recompensa esperada tenha sido melhor ou pior que a recompensa recebida. Nesse processo ocorre uma avaliação completa da situação. A conseqüência é que define a associação (reforça/inibe) entre o par estímulo - ação e também reforça a ação e uma conseqüência específica, como pode ser observado na Figura 32. Na próxima seção será discutido o modelo conceitual proposto para o mecanismo de Figura 32: O reforço/inibição das associações entre um estímulo, ação e conseqüência. condicionamento operante, enquanto que seu funcionamento será discutido na seção 4.2 O mecanismo de condicionamento operante 81 4.2.2. 4.2.1 Sobre a modelagem do mecanismo de condicionamento operante O modelo estático proposto do mecanismo de condicionamento operante representado por um diagrama de classes utilizando a Linguagem Unificada de Modelagem UML (LARMAN, 2004) pode ser visualizado na Figura 33. Como dito, o mecanismo de condicionamento operante permitirá ao ASCS aprender Figura 33: Diagrama de classes do mecanismo de condicionamento operante. a criar padrões comportamentais alterando a freqüência das suas ações voluntárias. Para permitir tal aprendizado, o mecanismo atua em dois níveis de resposta da arquitetura: semi-elaborada e elaborada, modeladas nas classes PartialAppraisal e FullAppraisal, respectivamente. Como definido no capitulo 1, a resposta semi-elaborada é responsável por gerar uma gestalt (parcial) num primeiro momento, ainda que semielaborada, e num segundo momento a resposta elaborada gera uma nova gestalt (completa), que seleciona a ação que será executada pelo agente. O ASCS possui um conjunto de ações pré-definidas quando de sua construção, que constitui a capacidade motora do agente. Para cada objeto do mundo identificado pelo agente, existe um conjunto de ações cada qual com a sua probabilidade de ser selecionada (encapsuladas no modelo pela 4.2 O mecanismo de condicionamento operante 82 classe ActionProbability) - que podem ser selecionadas pelo mesmo (levando em consideração a sua capacidade motora). A seleção da ação é baseada nas suas experiências com o objeto (ExperienceBasedSelection), como pode ser visto na Figura 34. Ao receber via componentes sensores os estímulos emitidos pelos objetos do mundo Figura 34: Probabilidade de seleção das ações para os objetos do mundo em que o ASCS esteja inserido. em que esteja situado, o PartialAppraisal, responsável pela resposta semi-elaborada da arquitetura, elege (seleciona) a emoção a ser atendida naquele momento e associa cada estímulo à expectativa de regulação emocional que o agente receberá caso venha a interagir com o objeto que emitiu aquele estímulo. A avaliação semi-elaborada realizada pelo PartiallAppraisal é recebida pelo FullAppraisal, que realiza uma avaliação mais completa da situação e seleciona primeiramente o objeto a ser levado em consideração no episódio e posteriormente a ação a ser executada. O aspecto importante a ressaltar é que a ação que será executada é selecionada, dentre as ações possíveis, tomando-se por base os padrões de comportamento que emergem com o mecanismo de condicionamento operante. A ação é então executada e colocada em WorkingMemory para que o componente Valuation possa valorar esta ação recém-executada levando em consideração o estado do agente antes e após a execução da ação. Inicialmente (i.e., antes de qualquer condicionamento), antes de interagir com um objeto do mundo, a probabilidade de seleção de uma ação é a mesma para todas as 4.2 O mecanismo de condicionamento operante 83 ações. À medida que o agente for interagindo com o mundo em que esteja inserido, a freqüência das ações vão sendo alteradas pelo componente OperantConditionig com base na conseqüência das interações do agente com as coisas do mundo indicada pelo componente Valuation. Dessa forma, o comportamento do agente vai sendo modulado pelas conseqüências de suas próprias ações. Essas interações do agente com o seu ambiente formam os construtos básicos (abstraídos na classe Experience) para a formação da sua memória de longo prazo (abstraídas na classe LongTermMemory). Esta memória é entendida como o conjunto de experiências vivenciadas pelo agente e emocionalmente valoradas. A memória do agente (juntamente com seus processos de formação, evocação, esquecimento, etc...) foi modelada de modo simplista, pois não faz parte do escopo do presente trabalho.4 Na próxima seção será explicado com detalhes o funcionamento do mecanismo de condicionamento operante e sua influência na arquitetura. 4.2.2 A dinâmica de operação do mecanismo de condicionamento operante A dinâmica de operação do mecanismo de condicionamento operante engloba todos os processos envolvidos nos episódios emocionais vivenciados pelo ASCS. Esses episódios formarão a memória de longo prazo do agente, que será composta não por representações do ambiente, mas por episódios vivenciados e emocionalmente valorados mediante interações do agente com o seu ambiente. Um episódio emocional inicia-se quando o ASCS recebe um ou mais estímulos do ambiente através de seus componentes sensores. Os estímulos percebidos são recebidos pelo PartialAppraisal, que em sua operação verifica qual das emoções está mais desregulada no momento - levando em consideração o nível de arousal das emoções (como descrito no capítulo 1) - e a elege para ser atendida no corrente episódio emocional. O PartialAppraisal, além de eleger a emoção a ser atendida, recupera a expectativa de regulação emocional esperada para o objeto do mundo emissor de cada estímulo em LongTermMemory, associando assim, a valoração emocional recebida pela interação com o objeto levando em consideração as experiências passadas com o mesmo. O PartialAppraisal envia para o FullAppraisal a emoção eleita para ser atendida no episódio e os estímulos juntamente com a expectativa esperada para a interação com 4 A modelagem de um sistema completo de memória mais em conformidade com os recentes avanços da neurociência e integrado ao presente trabalho vem sendo desenvolvido por Mapa (2007) 4.2 O mecanismo de condicionamento operante 84 os objetos que emitiram os estímulos a serem atendidos no episódio. O FullAppraisal recebe a emoção e os estímulos a serem atendidos. Em um primeiro momento da execução, o FullAppraisal elege, dentre os estímulos recebidos, o que possui uma melhor expectativa para regular a emoção eleita para o episódio. Após selecionado o estímulo desencadeante mais adequado, o FullAppraisal aciona o mecanismo de condicionamento operante (OperantConditioning) para selecionar a ação que será executada no episódio em andamento, com base na emoção e estímulo a serem atendidos. A escolha da ação a ser executada é realizada probabilisticamente, com as ações que resultaram em recompensas para o objeto em questão tendo uma probabilidade maior de serem escolhidas frente às ações que resultaram em punições para o agente. Para cada objeto do ambiente com o qual o ASCS interagiu (ProbabilityBased Experience) existe uma coleção de ações (conforme sua capacidade motora) passíveis de serem executadas (ActionProbability) e cada ação possui uma probabilidade de ser executada para um determinado objeto, probabilidade esta resultante das conseqüências recebidas pelas interações com esse objeto. Caso o objeto captado pelos componentes sensores do ASCS seja um objeto desconhecido, a probabilidade de executar uma das possíveis ações será a mesma para todas. Para eleger a ação a ser executada, é realizado um sorteio levando em consideração as probabilidades das ações envolvidas (Affordances). A ação sorteada é então executada pelos componentes efetores do agente. A ação escolhida é registrada na memória de trabalho. Caso haja interação com o objeto emissor do estímulo desencadeante, o HomeostaticRegulation recebe os estímulos simpáticos/parassimpáticos e desempenha a sua função, que é basicamente a de variar o arousal das emoções (CAMPOS, 2006) conforme estímulos recebidos, enviando em seguida um IntStiValuation (contendo informações das emoções variadas com a interação com o objeto) para o InteroceptiveStimuliPool. O componente Valuation recebe o IntStiValuation e valora o episódio vivenciado, com base no estado do agente antes, e posterior à ação executada. É importante destacar que a valoração realizada pelo componente Valuation leva em consideração o arousal da emoção para realizar a valoração, e não o estímulo recebido pelo agente. Assim, como destacado no capítulo 2, a valoração do episódio é determinada pelo agente, e não pelo estímulo recebido do ambiente. Portanto, caso o agente interaja com um determinado objeto do ambiente que auxilie na regulação de uma 4.2 O mecanismo de condicionamento operante 85 emoção, porém a mesma já esteja regulada, o componente Valuation irá valorar o episódio como desprazeroso. Um bom exemplo é a emoção de ’fome’. Supondo que o agente interaja consecutivamente com objetos do seu ambiente que regulem o nível de arousal dessa emoção até ficar completamente saciado (nível de arousal igual a zero), cada interação do agente com tais objetos será considerado um episódio desprazeroso. O Valuation compara a expectativa esperada para o objeto escolhido e a valoração realmente recebida após a execução da ação e atualiza a diferença na memória de longo prazo. Após valorar o episódio vivenciado pelo agente, o componente Valuation aciona o mecanismo de condicionamento operante para alterar a probabilidade das ações passíveis de serem executadas para o objeto com base na conseqüência da interação com o objeto em questão. A atualização é realizada pelo método adjustProbability() da classe OperantConditioning. Primeiramente, a probabilidade da ação executada é atualizada conforme valoração recebida pelo componente Valuation. Caso a valoração dada seja positiva (experiência apetitiva) para a ação executada, a probabilidade da ação aumenta, crescendo assim a chance da ação ser selecionada para o objeto do ambiente percebido pelo agente. Caso contrário (experiência aversiva), a probabilidade vinculada à ação diminui, fazendo com que a mesma tenha uma probabilidade menor de ser selecionada futuramente. Após atualizar a probabilidade da ação executada, método atualiza a probabilidade das ações que não foram selecionadas para serem executadas naquela ocasião, conforme apresentado na Figura 35. Em A, antes de interagir com um dado objeto do mundo, a probabilidade de seleção de uma certa ação é a mesma para todas elas. À medida que o agente for interagindo com o mundo em que esteja inserido, a freqüência das ações vão sendo ajustadas pelo componente. Como pode ser observado em B, C e D, a ’Ação 4’ foi selecionada repetidas vezes recebendo logo em seguida uma conseqüência prazerosa, implicando uma maior probabilidade dela ser selecionada novamente. Entretanto, e a despeito de ser menos provável, em E a ’Ação 2’ foi selecionada (e seu resultado foi apetitivo), implicando num aumento da probabilidade de seleção da ’Ação 2’ e diminuição das demais. O esquema da Figura 35 ilustra vários aspectos: 1. Uma das ações é sempre selecionada; o somatório das probabilidades é sempre 4.2 O mecanismo de condicionamento operante 86 Figura 35: Ajuste das probabilidades de seleção das ações ao longo do tempo . 100%. 2. Nem sempre a ação mais provável será selecionada, confira e compare D e E; 3. Inicialmente, antes do condicionamento entrar em ação, todas as ações são igualmente prováveis, indicação que no início o comportamento do agente poderá ser um tanto ’esquizofrênico’ mas que após um certo número de episódios emocionais vivenciados ele tende a seguir um certo padrão de comportamento que o leva à regulação emocional. A Figura 36 tenta resumir a dinâmica envolvida no condicionamento operante modelado para a arquitetura. (A) O Agente recebe um ou mais estímulos (A) do seu ambiente através de seus componentes sensores que os transduzem para estímulos internos (A’). Os estímulos internos são recebidos pelo PartialAppraisal, que elege a emoção mais desregulada a ser atendida no episódio vivenciado. A emoção mais desregulada é a que apresenta o mais alto nível de arousal. (B) O PartialAppraisal busca na Memória de Longo Prazo a expectativa de regulação da emoção eleita para cada um dos estímulos percebidos pelo agente. (C) O PartialAppraisal envia para o FullAppraisal a emoção selecionada e os estímulos percebidos, juntamente com a expectativa esperada para interação com cada 4.2 O mecanismo de condicionamento operante 87 Figura 36: Circularidade da relação entre a avaliação parcial e completa no condicionamento operante. Fonte: Campos (2006). 4.3 Considerações finais 88 um dos objetos que emitiram os estímulos percebidos pelo ASCS. (D) O FullAppraisal recebe a emoção e seleciona o estímulo a ser atendido (aquele que apresenta uma maior expectativa de regulação da emoção selecionada) e, com base nas probabilidades da coleção de ações referentes ao estímulo selecionado, realiza um sorteio e seleciona a ação para ser executada pelos componentes efetores do agente. A ação escolhida é registrada na memória de trabalho. (E) Caso haja interação com o objeto emissor do estímulo, o HomeostaticRegulation recebe os estímulos simpáticos/parassimpáticos e ajusta o arousal das emoções, enviando em seguida um IntStiValuation para o pool interno. (F) O Valuation valora o episódio vivenciado, comparando o estado do agente antes e depois da ação executada, e ajusta, com base nesta valoração, a probabilidade das ações envolvidas no episódio. Também nesse ponto, o componente Valuation compara a expectativa esperada pela interação com o objeto atendido e a valoração realmente recebida após a execução da ação, e atualiza a diferença na Memória de Longo Prazo. 4.3 Considerações finais Neste capítulo o foco foi mostrar como foram modelados e incorporados os condicionamentos clássico e operante na arquitetura Artífice. A abstração realizada para o condicionamento clássico pelo modelo consiste em criar um repertório básico de comportamentos em que estímulos neutros vêm a eliciar respostas reflexas embutidas no agente. A abstração realizada para o condicionamento operante no modelo consiste em criar padrões de comportamento alterando a freqüência das ações no ambiente com base nas conseqüências obtidas durante as experiências do agente no ambiente. O presente trabalho tomou como ponto de partida a versão 0.7.5 da arquitetura Artífice (CAMPOS, 2006), brevemente discutida no capítulo 1. Em seu trabalho, Campos (2006) propôs um modelo para a dinâmica de todas as interações dos componentes do ASCS, distribuídos em três níveis de resposta. A adição do mecanismo de condicionamento trouxe modificações nos três níveis de resposta da arquitetura, incorporando os conceitos abstraídos do condicionamento clássico e operante e resultando, dessa forma, na versão 0.9 da arquitetura. O primeiro nível de resposta foi modificado (em relação ao trabalho de Campos (2006)) 4.3 Considerações finais 89 incorporando o mecanismo de condicionamento clássico. A versão 0.7.5 previa apenas a resposta reflexa emitida por um estímulo específico. Como descrito anteriormente, o mecanismo de condicionamento clássico permitirá ao ASCS elaborar um repertório básico comportamental, associando estímulos do ambiente a estímulos nãocondicionados, característica presente na grande maioria dos seres vivos, que são a inspiração principal na construção da arquitetura. O modelo implementado para o condicionamento clássico incorpora a possibilidade de se fazer condicionamentos de primeira e segunda ordens, além de deixar uma ’metodologia’ e um ponto de extensão na arquitetura para facilitar a implementação de condicionamentos de terceira ordem e superiores, caso venha a ser necessário. Também, o modelo de condicionamento clássico utiliza as expressões matemáticas desenvolvidas por Rescorla e Wagner (1972) para os processos de aquisição e extinção do condicionamento, deixando livres os parâmetros para serem ajustados caso a caso. O que proporciona grande flexibilidade na implementação dos agentes. Por fim, diferentemente de outros autores, que trabalham com um limiar de condicionamento, acima do qual a resposta reflexa é sempre disparada, e de acordo com o que se verifica nos experimentos de psicobiologia, damos uma interpretação estatística à taxa de condicionamento. Assim, mesmo que a taxa de condicionamento seja muito baixa, há a possibilidade do mecanismo disparar a resposta reflexa. Por outro lado, ainda que a taxa de condicionamento seja próxima da saturação, nem sempre a resposta reflexa será disparada. A implementação probabilista que vê a taxa de condicionamento como a freqüência de eliciação da resposta reflexa Glassman (2006) é a mais adequada para o nosso modelo que compreende o sistema nervoso como um sistema dinâmico não-determinístico, no nosso caso, um sistema discreto (para uma discussão mais detalhada deste aspecto veja Campos (2006)). O segundo nível de resposta da versão 0.7.5 implementava o conceito de ’tendências para ação’. As tendências para ação são aquelas ações que sob uma determinada emoção terão maior probabilidade de serem executadas. Porém, as tendências para ação eram rigidamente vinculadas a uma emoção na construção do agente (filogenia), e não formadas mediante as interações do agente com o ambiente (ontogenia). Na nova versão da arquitetura, foram retiradas as tendências para ação, sendo que o ASCS poderá selecionar uma ação para ser executada, conforme a sua capacidade motora, e aprender a modular o seu comportamento com base nas valorações recebidas, fazendo surgir uma tendência comportamental resultante das suas próprias experiências. Nesse sentido, as tendências para ação do ASCS rigidamente codifica- 4.3 Considerações finais 90 das na versão 0.7.5 irão emergir mediante suas interações com o seu ambiente, ao invés de serem pré-definidas na construção do agente. Reiterando, o mecanismo de condicionamento operante faz o papel dos mecanismos biológicos que fazem surgir as ’tendências para ação’ extensivamente referidas na literatura de psicologia e psicobiologia. No terceiro nível de resposta da arquitetura, em sua versão 0.7.5, uma ação era selecionada com base na história de interação do agente com os objetos captados em um determinado episódio ’vivenciado’ pelo agente e nas tendências para ação rigidamente definidas para a emoção eleita para ser atendida no episódio. Na versão atual, a seleção da ação incorpora os conceitos apresentados no capítulo 2 sobre o condicionamento operante, em que a seleção da ação a ser executada é realizada probabilisticamente, com as ações que resultaram em recompensas para o objeto em questão tendo uma probabilidade maior de serem escolhidas frente às ações que resultaram em punições para o agente. No capítulo seguinte, serão apresentados, analisados e discutidos alguns experimentos computacionais realizados em uma aplicação de vida artificial em 2D. Os experimentos buscam comprovar se a arquitetura, tal como projetada, funciona corretamente de acordo com o arcabouço teórico-conceitual utilizado. 91 5 Experimentos computacionais, análise e discussão dos resultados Este capítulo apresenta uma análise e discussão dos experimentos realizados com intuito de avaliar o comportamento emergente do ASCS influenciado pelos processos de aprendizagem associativa providos pelos mecanismos de condicionamento clássico e operante incorporados à arquitetura Artífice. Para tal, foi criada a versão 0.9 da aplicação ALifeWorld, que será apresentada na próxima seção. 5.1 A aplicação ALifeWorld - 0.9 A aplicação AlifeWorld 0.9 foi criada estendendo a versão 0.7.5, desenvolvida por Campos (2006), adicionando comandos de controle para simulação do condicionamento clássico e operante e também a inclusão de gráficos para exibição dos níveis de condicionamento do ASCS. A aplicação pode ser resumida como uma aplicação de vida artificial em duas dimensões, onde ASCS e meio co-evoluem por meio de interações mútuas. O ambiente é formado por 880 x 470 posições. Não existem bordas no ambiente, sendo que a lateral esquerda se liga à direita e a superior, à inferior. O ASCS busca interagir com os objetos existentes em seu ambiente a fim de manter seu equilíbrio homeostático. No mundo artificial podem existir nutrientes, pedras e totens com os quais o ASCS interage. Cada interação caracterizará uma experiência na medida que o ASCS a valora, segundo os critérios embutidos de valoração cognitivoemocional, que consistem em qualificar a variação dos níveis de arousal das emoções verificada após cada interação. Para caracterizar a experiência hedônica do ASCS, foi considerado que interações que aumentam o nível da dor terão conseqüência desprazerosa. Já interações que 5.1 A aplicação ALifeWorld - 0.9 92 contribuem para diminuir o nível de arousal da fome ou sono terão uma conseqüência prazerosa. Não foi prevista nenhuma interação para diminuir o nível de arousal da emoção dor, sendo que o nível arousal da mesma será continuamente diminuído ao longo do tempo, isto é, a dor irá se desvanecendo. A variação do nível de arousal das emoções do ASCS será exibida na interface através de três barras de progressão nomeadas Hunger, Sleep e Pain, como pode ser visto na Figura 37. Nos quatro gráficos do canto inferior direito pode ser vista a intensidade do condi- Figura 37: ASCS-em-seu-ambiente. cionamento clássico para cada componente de software com o qual o ASCS pode interagir no seu ambiente. O gráfico do canto inferior esquerdo exibe a distribuição de freqüência das ações a serem executadas para cada componente de software do ambiente. A freqüência das ações executadas é alterada pela valoração emocionalcognitiva da interação do agente com cada componente de software. Em relação aos comandos de controle disponibilizados para o condicionamento clássico, a caixa de seleção ’Aquisition’ automatiza o processo de aquisição do condicionamento clássico. Com essa opção ativada, basta selecionar qual componente de software será utilizado para conceber uma experiência que envolva a aquisição do condicionamento e incluí-lo no ambiente. O componente será incluído no ambiente em uma determinada posição que o ASCS consiga captar um estímulo neutro emparelhado com um outro não-condicionado emitidos pelo componente selecionado, sendo 5.1 A aplicação ALifeWorld - 0.9 93 possível criar mais facilmente um experimento para que o ASCS associe os dois estímulos. Já a caixa de seleção ’Extinction’ ativa a função extinção do mecanismo de condicionamento clássico, fazendo com que a intensidade do condicionamento sofra um decrescimento a cada experiência em que o ASCS perceba apenas um estímulo condicionado, sem que o estímulo não-condicionado seja apresentado. Em relação aos comandos de controle do condicionamento operante, destaque para a parte que realiza a modelagem do comportamento do agente. A funcionalidade foi inspirada nos processos de modelagem descritos pela psicologia, onde um observador influencia o comportamento de um ser vivo, como um rato, injetando estímulos (reforçadores) no ambiente. Maiores detalhes sobre as funcionalidades descritas para o condicionamento clássico e operante serão descritas nas próximas seções, juntamente com os experimentos realizados. Os comandos Play, Pause e Stop executam as funções de continuar, pausar e terminar a execução da aplicação, respectivamente. 5.1.1 A aplicação ALifeWorld - 0.9 Os comportamentos emergente do ASCS podem ser divididos em dois grupos: respostas automáticas involuntárias de origem reflexa e respostas voluntárias selecionadas com base nas suas experiências de vida. As respostas reflexas são definidas na construção do ASCS (hard-coded). Nessa versão, foram embutidos dois componentes reflexos nomeados Shock e Salivation. O reflexo Shock é caracterizado pela resposta não-condicionada em que a cor da pele do ASCS é alternada para um tom rosado e logo em seguida esse comportamento é inibido, fazendo com que a pele retorne à sua cor azulada original. O estímulo nãocondicionado do ambiente que dispara essa resposta reflexa é o estímulo de choque elétrico, esse estímulo é emitido toda vez que o agente executa a ação de tocar no Totem. Dessa forma, todas as vezes que o ASCS tocar um Totem, receberá deste um estímulo de choque, ativando automaticamente a resposta reflexa de alternância da cor da pele. Já o reflexo Salivation é caracterizado pela resposta não-condicionada em que a cor da boca do ASCS (originalmente vermelha) é alternada para um tom azulado na presença de elementos comestíveis apetitivos ou esverdeada para o caso de elementos aversivos, sendo que logo em seguida esse comportamento é inibido, fazendo com 5.1 A aplicação ALifeWorld - 0.9 94 que a pele retorne à sua cor original vermelha. O estímulo não-condicionado do ambiente que dispara a resposta reflexa é o estímulo olfativo. Esse estímulo é emitido por Maças e Pedras, de modo que maçãs correspondem a elementos comestíveis apetitivos e pedras a elementos comestíveis aversivos. A tabela 2 mostra os reflexos embutidos no ASCS, a descrição da resposta reflexa gerada e o estímulo não-condicionado que a dispara automaticamente. Já as respostas voluntárias emitidas pelo ASCS são selecionadas em função das con- Tabela 2: Componentes reflexos. seqüências recebidas anteriormente pelas interações do agente com o seu ambiente na busca por permanecer adaptado a ele, isto é, manter o seu equilíbrio homeostático. Para manter seu equilíbrio homeostático, o ASCS precisa atender suas necessidades corpóreas (drives) de fome e sono e evitar a interação com objetos que causam dor. A variação do nível de arousal das emoções citadas será positiva ou negativa conforme as interações do ASCS com as coisas do seu mundo, a saber: será positiva para a fome, i.e., a fome terá seu nível de arousal aumentado quando o ASCS não receber estímulos energéticos, os quais contribuem para a diminuir a fome; será positiva para o sono quando o ASCS mover-se e será positiva para a dor quando o ASCS selecionar a ação de tocar o componente de software Totem e receber um estímulo de ’choque elétrico’. Para diminuir o sono, o ASCS deverá deixar de se mover por alguns instantes, o que caracteriza, portanto, a ação de dormir. Já a diminuição da dor ocorre ao longo do tempo, isto é, a dor se esvai por si só, desde que o ASCS não receba estímulos de choque elétrico. Para diminuir a fome o ASCS precisa comer maçãs, recebendo assim, estímulos energéticos que diminuirão o arousal da emoção. As ações ou comportamentos voluntários do ASCS serão escolhidos em tempo de 5.2 Experimentos envolvendo o condicionamento clássico 95 execução conforme estímulos captados do ambiente, a emoção a ser atendida, a situação (affordances) em que o agente se encontra e o nível de condicionamento operante. Na Tabela 3 constam as affordances que foram previstas na aplicação. De acordo com uma situação de interação com um objeto, as affordances caracterizam as possíveis ações a serem executadas em um determinado instante. Sob tal situação, são estas ações que, uma vez executadas, poderão ser valoradas em LongTermMemory. Após descrever de um modo geral a aplicação AlifeWorld 0.9, nas próximas seções serão apresentados alguns experimentos realizados para verificar e validar a influência do mecanismo de condicionamento no comportamento do ASCS. Tabela 3: Affordances consideradas na aplicação. 5.2 Experimentos envolvendo o condicionamento clássico Os experimentos envolvendo o condicionamento clássico visam comprovar que o ASCS é capaz de criar um repertório comportamental básico associando estímulos neutros do ambiente a estímulos não-condicionados (hard-coded na arquitetura) que dispa- 5.2 Experimentos envolvendo o condicionamento clássico 96 ram automaticamente respostas reflexas definidas no primeiro nível de resposta do agente. Vale lembrar que os comportamentos apresentados com a ativação das respostas reflexas descritas anteriormente (Tabela 2) são inatos, ou seja, foram embutidos no ASCS na sua construção. Já os estímulos visuais emitidos pelos componentes de software e captados pelo agente são considerados estímulos neutros do ambiente e não provocam, a princípio, nenhuma reação imediata (este comportamento pode ser comprovado no vídeo mostrando a execução do experimento, disponível em http: //www.lsi.cefetmg.br/artifice/v090/neutralStimulus.html). Durante as primeiras interações do ASCS com os componentes de software, como Green apple, por exemplo, o ASCS aproxima do componente e percebe um estímulo olfativo emitido pelo componente de software. O estímulo olfativo liberado por Green Apple no ambiente consiste de um estímulo não-condicionado, que dispara automaticamente o reflexo Salivation, caracterizado pela resposta não-condicionada de alternar a cor da boca do agente para azul, como pode ser visto na Figura 38. Como dito, o mecanismo de condicionamento clássico permite ao ASCS ampliar o Figura 38: Momento em que o ASCS percebe o estímulo olfativo emitido por Green Apple. repertório comportamental inato associando os estímulos neutros existentes em seu ambiente aos estímulos não-condicionados que disparam os reflexos embutidos no agente. Para criar ou constituir essa associação entre um estímulo neutro do ambiente (no caso, estímulo visual emitido pelos componentes de software) e o estímulo não-condicionado (estímulo olfativo emitido pela Maçã ou estímulo de choque elétrico emitido pelo To- 5.2 Experimentos envolvendo o condicionamento clássico 97 tem) os estímulos devem ser apresentados emparelhados. Por exemplo, se o ASCS vir uma Maçã e estiver muito próximo dela (de modo a sentir o seu cheiro, como na Figura 38), então o ASCS receberá dois estímulos emparelhados, um neutro (estímulo visual da maçã) e outro não-condicionado (cheiro da maçã) e, portanto, irá disparar a resposta reflexa Salivation e também reforçar a associação entre os dois estímulos. Se este experimento for repetido diversas vezes, então o estímulo condicionado ficará fortemente associado ao estímulo não-condicionado. A intensidade da associação entre os estímulos pode ser vista nos gráficos no canto inferior direito da interface com o usuário, referente ao condicionamento do componente Green Apple (Figura 39) e também no vídeo disponível em http://www.lsi.cefetmg.br/artifice/v090/aquisition.html. Depois de associar o estímulo visual (agora estímulo condicionado) ao estímulo ol- Figura 39: Aquisição do condicionamento clássico. fativo emitido pelo componente Green Apple (estímulo não-condicionado), apenas a apresentação do estímulo visual do componente é suficiente para eliciar a resposta reflexa, antes disparada única e exclusivamente pelo estímulo olfativo da maça, ou seja, a simples apresentação do estímulo visual da maçã, ainda que o ASCS não esteja próximo o suficiente dela para ’sentir seu cheiro’ irá disparar a salivação. Este fenômeno de antecipação da resposta reflexa é o conhecido ’deslocamento da resposta reflexa’ discutido nas seções 2.1.1 e 2.1.2.1, reconhecido tanto na psicologia quanto na biologia como um fenômeno crucial para adaptação dos seres vivos ao seu 5.2 Experimentos envolvendo o condicionamento clássico 98 ambiente. O comportamento discutido anteriormente pode ser visto na figura 40 e no vídeo disponível em http://www.lsi.cefetmg.br/artifice/v090/shiftreflexresponse.html. Assim como ocorre com organismos vivos, a associação forjada entre os estímulos Figura 40: Deslocamento da resposta reflexa. (visual de maçã e cheiro de maçã) não é persistente. Caso somente o estímulo condicionado seja percebido pelo agente, isto é, sem que o estímulo não-condicionado seja apresentado, a associação entre eles vai se tornando cada vez mais fraca, até a extinção. Assim, ao receber o estímulo visual emitido por Green Apple, o ASCS dispara automaticamente a resposta reflexa de alternar a cor da boca, porém, caso o estímulo olfativo não seja também apresentado, a associação entre os dois estímulos sofre um decaimento, como pode ser visto na Figura 41. Caso esse cenário se repita várias vezes, a associação forjada entre eles é cessada, e o estímulo condicionado não mais eliciará a resposta reflexa. Esse comportamento pode ser visto no vídeo disponível em http://www.lsi.cefetmg.br/artifice/v090/extinction.html. É importante destacar que as curvas apresentadas para a aquisição do condicionamento são apenas para fins de explicação. De fato, na maior parte da literatura de condicionamento clássico, o foco dos experimentos conduzidos (in vivo ou na simulação) é mostrar os processos de formação ou aquisição de um condicionamento e o de sua extinção. Ressaltando que em ambos os tipos de experimentos, o cientista que os conduz é diretamente responsável por apresentar o estímulo neutro no momento 5.2 Experimentos envolvendo o condicionamento clássico 99 Figura 41: Extinção do condicionamento clássico. oportuno: junto com o estímulo não-condicionado (na aquisição) ou sozinho (na extinção). Porém, em condições naturais não há a figura do cientista que intervém na apresentação dos estímulos. Em vez disso, o agente passa por várias experiências em que estímulos condicionados e não-condicionados são percebidos no ambiente ora emparelhados, ora desemparelhados, resultando em uma constante ’oscilação’ da curva de condicionamento, como relatado no capítulo 2. Para simular o condicionamento clássico em ’condições naturais’ foi realizado um experimento com intuito de verificar se o ASCS conseguiria forjar os condicionamentos clássicos. O ambiente era composto por 12 maçãs vermelhas, 12 maçãs verdes, 12 pedras e 12 Totens dispostos aleatoriamente no ambiente. Foram realizadas 10 sessões do experimento com duração de 8 minutos cada sessão. A cada sessão novas sementes de números aleatórios eram geradas para posicionar os componentes de software ao ambiente. O nível de condicionamento operante inicial para o experimento foi de 55% para a ação approach e 15% para as demais ações (avoid, sleep e as ações de interação previstas na aplicação, touch para o Totem e eat para os demais componentes). Para esse experimento específico, optou-se por desativar a função do mecanismo de condicionamento operante referente à alteração da freqüência das ações, isto é, as probabilidades das ações não eram alteradas conforme as interações do agente com o 5.2 Experimentos envolvendo o condicionamento clássico 100 ambiente, elas permaneciam constantes durante o experimento. Vale frisar que ao interagir com os componentes de software (comer maçãs e pedras ou tocar no Totem) o ASCS envia um estímulo destrutivo para o componente, que recebe esse estímulo e desaparece do ambiente. Para ajustar a curva dos condicionamentos foi utilizado o modelo de Rescorla e Wagner (1972) explicado no capítulo 4. Para a aquisição do condicionamento os valores dos parâmetros foram: α = 0.3; β = 1 ; λ = 100. Para a extinção os valores foram: α = 0.5; β = 0.7; λ = 0. Esses valores foram utilizados tanto para o reflexo Salivation quanto para reflexo Shock. As figuras 42, 43, 44, 45, representam as curvas do condicionamento médio (nas 10 sessões) extraídas do experimento para cada componente de software. Tais figuras representam as mesmas informações mostradas nos gráficos do canto inferior direito da interface gráfica da aplicação (Figura 37). Tais experimentos deixam claro que, a partir de alguns pares de estímulos-resposta Figura 42: Curva de condicionamento clássico em condições naturais - Maçã vermelha. inatos, o ASCS consegue produzir um repertório básico de comportamentos antecipatórios de respostas reflexas, como o faz um organismo vivo dotado de sistema nervoso. Como dito, tal repertório é fundamental para a sobrevivência de qualquer organismo. 5.2 Experimentos envolvendo o condicionamento clássico 101 Figura 43: Curva de condicionamento clássico em condições naturais - Maçã Verde. Figura 44: Curva de condicionamento clássico em condições naturais - Pedra. 5.3 Experimentos envolvendo o condicionamento operante 102 Figura 45: Curva de condicionamento clássico em condições naturais - Totem. 5.3 Experimentos envolvendo o condicionamento operante Os experimentos envolvendo o condicionamento operante visam comprovar que o ASCS consegue elaborar padrões de comportamentos voluntários aumentando a probabilidade de seleção de ações que o levaram a conseqüências apetitivas e diminuindo a probabilidade de selecionar ações que o levaram a conseqüências aversivas. 5.3.1 Experimentos envolvendo a modelagem do comportamento Conforme discutido no capítulo 2, o processo de modelagem do comportamento consiste na intervenção externa visando a desenvolver o condicionamento operante de uma resposta voluntária desejada por meio de aproximações sucessivas com o oferecimento de estímulos positivos ou negativos correspondentes a essa resposta. A aplicação ALifeWorld 0.9 permite modelar o comportamento do ASCS reforçando / inibindo respostas voluntárias ’injetando’ estímulos no agente que correspondam ao comportamento desejado. Os estímulos são formados pelo componente de software que o ASCS interagiu, a ação executada e o estímulo de reforço recebido pelo agente resultante da interação com o componente de software. O estímulo decorrente da 5.3 Experimentos envolvendo o condicionamento operante 103 interação pode se tratar de um reforçador positivo, que é o caso dos estímulos energéticos, ou um reforçador negativo, caracterizado pelo choque elétrico na aplicação. Após a seleção dos parâmetros nas caixas disponíveis na lateral direita da interface com o usuário, o comando ’Execute’ manipula o estímulo com os parâmetros selecionados e o ’injeta’ diretamente no ASCS. O estímulo é então valorado como se o agente tivesse vivenciado a experiência formada. Esse procedimento é análogo ao que o adestrador/modelador faz quando coloca comida na boca do animal quando este realiza a ação que o modelador deseja. Utilizando o esquema de modelagem da aplicação descrito anteriormente, podemos simular duas contingências de reforçamento definidas por Skinner: o reforçamento positivo e a punição. O reforçamento positivo é um processo para aumentar a probabilidade de uma resposta, seguindo imediatamente à resposta de um estímulo desejável (um reforçador positivo). O experimento utilizando esse tipo de contingência na aplicação consiste em aumentar a probabilidade do ASCS selecionar uma ação qualquer para um determinado objeto do mundo. É possível, portanto, selecionar a ação approach e o componente de software Totem e um reforçador positivo, fazendo com que a ASCS aumente a probabilidade de se aproximar de Totens (este comportamento pode ser comprovado no vídeo mostrando a execução do experimento, disponível em http://www.lsi.cefetmg.br/artifice/v090/positivereforce.html). Já a punição é um processo em que a resposta é seguida de um reforçador negativo, que resulta em uma redução na probabilidade de ocorrer aquela resposta novamente. O experimento utilizando esse tipo de contingência na aplicação consiste em diminuir a probabilidade do ASCS selecionar uma ação para um componente de software apresentando reforçadores negativos para uma determinada situação. É possível, portanto, selecionar a ação ’approach’ e o componente de software Maçã Vermelha e um reforçador negativo, fazendo com que a ASCS diminua a probabilidade de aproximar de Maçãs vermelhas (este comportamento pode ser comprovado no vídeo mostrando a execução do experimento, disponível em http: //www.lsi.cefetmg.br/artifice/v090/punishment.html). Conforme definido por Skinner, a modelagem é um conceito relativamente simples, mas muito poderoso para analisar e compreender as correlações entre o comportamento e o meio. Conforme demonstrado, a aplicação permite modelar o comportamento do ASCS usando reforçadores positivos e negativos, fazendo com que o ASCS tenha preferência por selecionar um comportamento idealizado. 5.3 Experimentos envolvendo o condicionamento operante 104 Por meio das técnicas de modelamento, é possível ensinar, por condicionamento operante, o ASCS a ’ter medo de pedra’ ou qualquer outro objeto presente no ambiente dele. 5.3.2 Condicionamento x seleção de ações Este experimento teve como objetivo verificar a influência dos níveis de condicionamento operante na freqüência das ações selecionadas pelo ASCS. O ambiente utilizado para realização do experimento consistiu em distribuir 30 maçãs vermelhas em posições aleatórias do ambiente para que pudesse colher informações sobre o tempo que o ASCS gastou para comer 10 das 30 maçãs. O experimento foi conduzido em 3 níveis distintos de condicionamento operante inicial, que se traduzem nas probabilidades de seleção das ações descritas na tabela 4. Para cada nível inicial de condicionamento operante foram realizadas 20 sessões do experimento, sendo que a cada sessão novas posições aleatórias eram geradas para os componentes de software. O estado emocional inicial do agente era sempre o mesmo para todas as sessões realizadas, sendo o nível de arousal de fome e sono igual a 0.18 e dor igual a 0. O gráfico da Figura 46 mostra o tempo médio gasto para que o ASCS conseguisse Tabela 4: Nível de condicionamento operante inicial para os experimentos. comer 10 maçãs para cada nível inicial de condicionamento operante. A linha verme- 5.3 Experimentos envolvendo o condicionamento operante 105 lha representa o tempo médio gasto nas 20 seções com condicionamento inicial baixo, ou seja, o ASCS ainda não possui um comportamento seletivo e todas as ações tem a mesma probabilidade de serem selecionadas em qualquer situação vivenciada pelo agente. A linha amarela representa o tempo médio gasto para o ASCS comer 10 maçãs iniciando o experimento com um nível médio de condicionamento operante inicial (c.f., Tabela 4). Nesse nível, o agente já apresenta um comportamento inicial seletivo, tendo uma maior probabilidade de se aproximar das maçãs vermelhas frente às demais ações. Já a linha verde representa o mesmo experimento, porém, com um nível alto de condicionamento operante inicial (c.f., Tabela 4 - nível alto). Nesse nível o agente o agente possui 70% de probabilidade de aproximar das maçãs, portanto, o ASCS terá uma probabilidade bem maior de interação com as maçãs em relação aos demais experimentos. Este experimento apresentou importantes resultados, pois possibilitou verificar a in- Figura 46: Tempo médio para o ASCS comer maçãs para 3 níveis iniciais distintos de condicionamento operante. fluência do nível de condicionamento operante no comportamento seletivo voluntário do ASCS. Os dados mostram que o comportamento do ASCS está diretamente relacionado com o nível de condicionamento operante do experimento. Quanto maior a probabilidade do ASCS selecionar a ação aproximar, maior é a probabilidade do ASCS interagir com as maçãs vermelhas. À medida que o ASCS aproxima de uma maçã, fica em contato 5.3 Experimentos envolvendo o condicionamento operante 106 com ela e seleciona a ação de ’comer’ a maçã, o agente recebe um estímulo energético que diminui (regula) sua fome, ou seja, a ação selecionada para ser executada pelo agente teve uma conseqüência (valência) positiva. Dessa forma, o mecanismo de condicionamento operante realiza um ajuste nas probabilidades das ações envolvidas no episódio, aumentado a probabilidade da ação ’eat’ ser executada e diminuindo a probabilidade das ações ’avoid’ e ’sleep’, conforme affordances previstas na aplicação (Tabela 3). Ou seja, a Figura 46 mostra que quanto mais condicionado o ASCS está para se aproximar de maçãs, menos tempo ele gastará para ’encontrar’ maçãs e comê-las. A fim de comprovar essas alterações das probabilidades das ações no decorrer do experimento, foram extraídos o intervalo de tempo médio gasto para que o agente comesse cada maçã (Figura 47). O gráfico da Figura 47 mostra que o intervalo de tempo médio gasto para o agente Figura 47: Intervalo de tempo médio gasto para encontrar e comer maçãs para os 3 níveis iniciais de condicionamento. encontrar uma nova maçã e comê-la decresce à medida que o agente vai selecionando a ação de comer e obtendo uma conseqüência prazerosa, ajustando assim a probabilidade de aproximar de maçãs vermelhas e interagir com elas. É possível notar que por volta da sexta maçã, o intervalo de tempo gasto para encontrar e comer cada maçã é praticamente o mesmo. Dessa forma podemos concluir que embora o nível de condicionamento inicial para os três experimentos tenham sido distintos, o número de 5.3 Experimentos envolvendo o condicionamento operante 107 interações prazerosas (em torno de 6) foi suficiente para levar a um comportamento comparável ao forte condicionamento do ASCS. Como discutido no capítulo 4, para cada interação do ASCS com os objetos do seu ambiente classificada como prazerosa, o mecanismo de condicionamento ajusta a probabilidade da ação executada, aumentando assim a chance da ação ser selecionada novamente para o objeto no futuro. Após atualizar a probabilidade da ação executada, o mecanismo de condicionamento operante ajusta também a probabilidade das ações que não foram selecionadas para serem executadas naquela ocasião, diminuindo a probabilidade de seleção dessas ações. No experimento, como o ASCS interage com as maçãs vermelhas e recebe uma conseqüência prazerosa por isso, as probabilidades das suas ações vão sendo moduladas, como pode ser visto nas Figuras 48, 49, 50. Figura 48: Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial baixo. 5.3.3 Condicionamento x sobrevivência Este experimento teve como objetivo principal verificar se o mecanismo de condicionamento operante possibilita ao ASCS manter-se vivo, adaptando-se ao ambiente em que esteja inserido. Consideramos a morte do ASCS quando o mesmo atingir o índice de eficiência comportamental (citado no capítulo 1) para a fome igual a zero (Figura 5.3 Experimentos envolvendo o condicionamento operante 108 Figura 49: Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial médio . Figura 50: Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial alto. 5.3 Experimentos envolvendo o condicionamento operante 109 51). O ambiente para realização do experimento era composto por 10 Maçãs vermelhas, Figura 51: Gráfico da função arousal. 10 Maçãs verdes, 10 pedras e 10 Totens distribuídos aleatoriamente para cada sessão do experimento. O experimento foi dividido em 3 partes referentes aos mesmos níveis iniciais de condicionamento do experimento anterior (c.f., Tabela 4). Para cada nível inicial de condicionamento operante foram realizadas 10 sessões do experimento, sendo que a cada sessão novas sementes de números aleatórios eram geradas para posicionar os componentes de software ao ambiente. O estado emocional inicial do agente era sempre o mesmo para todas as sessões realizadas, sendo o nível de arousal de fome e sono igual a 0.18 e dor igual a 0. Em relação às alterações dos níveis de arousal do ASCS durante o experimento, o nível de arousal da emoção fome era aumentado em 0.05 a cada episódio caso o agente não receba estímulos energéticos. A emoção sono teve o nível de arousal aumentado em 0.001 a cada movimento de translação realizado pelo agente. Já para a emoção de dor, quando o ASCS tocasse em um Totem, ele receberia um choque elétrico, que resultava em um aumento do nível de arousal da dor em 0.1. Para manter o seu equilíbrio homeostático e impedir que o nível de arousal da fome chegue a 7, resultando na sua morte (Figura 51), o ASCS precisava elaborar um pa- 5.3 Experimentos envolvendo o condicionamento operante 110 drão de comportamento que o permitisse aproximar de maçãs e comê-las, pois ao comer uma maçã o nível de arousal da fome diminuiria em 0.2 para maçãs vermelhas e 0.3 para maçãs verdes. Já as pedras possuiam um valor energético nulo, isto é, não contribuiam para regular o nível de arousal da fome. O gráfico da Figura 52 apresenta o tempo médio de vida do ASCS num ambiente aleatoriamente gerado para cada nível inicial de condicionamento operante. Aos 7 minutos de duração de uma sessão, caso o ASCS ainda não tivesse morrido, a mesma era encerrada, sendo considerado que o agente já tinha atingido um comportamento adaptativo ao chegar até aquele ponto do experimento. A linha vermelha representa a situação em que o ASCS não tinha, inicialmente, qualquer tipo de condicionamento operante, isto é, todas as ações têm a mesma probabilidade de serem selecionadas em qualquer situação vivenciada pelo agente. A linha amarela representa o tempo médio de sobrevivência iniciando o experimento com condicionamento operante inicial mostrado para o nível médio (c.f. Tabela 4). Nesse nível, o agente já apresenta um comportamento inicial seletivo, tendo uma maior probabilidade de aproximar e consequentemente interagir com os componentes de software. Já a linha verde representa o experimento com condicionamento operante inicial mostrado para o nível alto (c.f. Tabela 4). Nesse nível o agente possui 70% de probabilidade de aproximar de todos os componentes de software, portanto, o ASCS terá uma probabilidade bem maior de interagir com um número maior de componentes e, consequentemente, ajustar o seu comportamento aumentando a probabilidade de executar ações que o leve a um equilíbrio homeostático. Um processo importante do mecanismo de condicionamento operante para direcionar o comportamento do ASCS na busca da sua regulação homeostática (discutido no capítulo 4) é conseguir resgatar a expectativa esperada pela interação do agente com os as coisas do seu mundo. Como dito, a cada episódio vivenciado pelo agente, a emoção mais desregulada, isto é, a emoção com o nível de arousal mais alto, é escolhida para ser atendida naquele episódio. Caso o ASCS perceba mais de um estímulo desencadeante emitido pelas coisas do mundo em que esteja inserido (Figura 53), ele elege, dentre os estímulos recebidos, o que possui uma melhor expectativa para regular a emoção escolhida. Vale lembrar que a expectativa esperada consiste na valoração emocional resultante das interações passadas do agente com o objeto emissor do estímulo. Caso haja interação com o componente emissor do estímulo, a expectativa prevista pela interação é comparada com a valoração realmente recebida, sendo que a diferença é reajustada 5.3 Experimentos envolvendo o condicionamento operante 111 Figura 52: Tempo médio de sobrevivência do ASCS num ambiente aleatório para 3 níveis de condicionamento. na memória de longo prazo. Este experimento mostra que quanto maior o nível inicial de condicionamento, mais Figura 53: Expectativa esperada pela interação com os componentes de software. fácil é a adaptação do ASCS ao ambiente, aumentando suas chances de sobrevivên- 5.4 Considerações finais 112 cia. O experimento mostra, ainda, que o ASCS é capaz de forjar um repertório de comportamentos voluntários, baseados em suas experiências passadas, que o permite manter-se adaptado ao seu ambiente por meio de sua auto-regulação interna. 5.4 Considerações finais Os experimentos realizados apresentaram resultados satisfatórios e coerentes com os resultados de experimentos existentes na literatura realizados em seres vivos (GLASSMAN, 2006). Os experimentos referentes ao condicionamento clássico permitiram verificar que o ASCS é capaz de criar um repertório comportamental básico associando estímulos neutros de modo que os mesmos possam vir a eliciar, de modo antecipado, respostas reflexas inatas. Os experimentos referentes ao condicionamento operante permitiram averiguar que o ASCS consegue gerar padrões comportamentais, reforçando/inibindo ações com base nas conseqüências que ele percebe, e que essa alteração no comportamento capacita o agente a um aprendizado básico que o possibilita manter-se adaptado ao seu ambiente. Embora não tenha sido produzido um vídeo para demonstração, a arquitetura possibilita realizar a modelagem envolvendo qualquer componente de software do ambiente do ASCS utilizando os reforçadores positivo/negativo, proporcionando também facilidades para realizar experimentos de condicionamento clássico de segunda ordem. Quanto à aplicação ALifeWorld versão 0.9, pode-se ter uma idéia da complexidade pelo número de classes e de linhas de código, sendo: Total de Classes Linhas de código Arquitetura ARTÍFICE 79 3.792 Aplicação ALifeWorld 67 8.966 Tal complexidade de software é uma dificuldade natural, aliada à complexidade do tema objeto de estudo. Para melhor visualização do projeto de software, o diagrama de classes completo da versão 0.9 da arquitetura ARTÍFICE, desenvolvida neste trabalho, está apresentado no Anexo A, juntamente com o diagrama completo da aplicação ALifeWorld. 113 6 Conclusão O trabalho desenvolvido por Campos (2006) definiu uma nova dinâmica de operação entre os componentes da arquitetura, composta por três níveis de resposta, ditas rápida, semi-elaborada e elaborada, resultando na versão 0.7.5 da arquitetura Artífice. O presente trabalho foi desenvolvido com intuito de incorporar à dinâmica de operação da arquitetura processos de aprendizagem associativa mediante condicionamento clássico e operante. Para elaboração desta proposta foi feito primeiramente um estudo sobre as ciências cognitivas contemporâneas e também sobre a modelagem e a dinâmica de funcionamento da arquitetura Artífice. Posteriormente, foi realizada uma revisão de literatura interdisciplinar, buscando compreender os conceitos do condicionamento clássico e operante sob perspectiva da psicologia e da biologia para fundamentar a modelagem do mecanismo de condicionamento. Em seguida buscou-se esboçar alguns modelos computacionais que utilizam o condicionamento para implementar os processos de aprendizagem de seus agentes. Estes trabalhos foram avaliados à luz do referencial psicobiológico considerado no presente trabalho, a fim de contextualizar algumas das opções feitas no modelo proposto. A partir do referencial teórico utilizado, foi elaborada a proposta do modelo de condicionamento clássico e operante para a arquitetura Artífice versão 0.9. Para realizar uma prova de conceito foram realizados experimentos computacionais e apresentada uma análise dos resultados obtidos. Embora não se tenha utilizado uma métrica ou mesmo realizado uma extensa avaliação dos resultados dos teste executados, os resultados se mostraram satisfatórios tendo em vista os objetivos e escopo definidos para o trabalho. 6.1 Principais contribuições deste trabalho 114 6.1 Principais contribuições deste trabalho Este projeto contribuiu, de forma geral, para a modelagem e construção de agentes autônomos bio-inspirados. Mais especificamente, o trabalho se destaca pelo estudo realizado sobre os mecanismos de condicionamento enquanto processos de aprendizagem associativa, bem como pelas características abstraídas desse estudo para incorporar o condicionamento clássico e operante em mecanismos de software e/ou hardware que busquem ajustar seu comportamento de acordo com as suas necessidades e com as transformações ocorridas em seu ambiente. Especificamente quanto ao projeto Artífice, este projeto teve como principais contribuições: 1. constitui o agente de processos de aprendizagem associativa mediante o condicionamento clássico, permitindo-o associar estímulos neutros puramente sensoriais advindos do ambiente a estímulos não-condicionados que disparam uma resposta reflexa inata. 2. permite ao agente associar a conseqüência cognitivo-emocional decorrente de sua ação, aumentando a freqüência futura seleção de ações que tenham levado a conseqüências apetitivas e diminuindo a freqüência de seleção ações que tenham levado a conseqüências aversivas, mediante processos de condicionamento operante. 3. permite ao agente a constituição dos construtos básicos para a formação da sua memória de longo prazo, composta pelas experiências do ASCS-em-seuambiente, ou, mais especificamente, pelas associações e padrões de comportamento providos pelos mecanismos de condicionamento clássico e operante. 6.2 Perspectivas de trabalhos futuros No desenvolvimento deste trabalho foram identificadas algumas propostas de trabalhos futuros para ampliação da arquitetura, sendo elas: 1. desenvolver um mecanismo de formação da memória de longo prazo do agente, 6.3 Considerações finais 115 capaz de adquirir, consolidar, evocar e reforçar/inibir memórias de experiências vivenciadas pelo ASCS. 2. incorporar um mecanismo no agente que permita utilizar sua memória remota para seleção de ações correntes e previsão de ações futuras. 3. incrementar o "bloqueio"no mecanismo de condicionamento clássico (CATANIA, 1999). Para isso, é necessário acrescentar no agente novos componentes sensores possibilitando o ASCS captar mais estímulos neutros do ambiente. 4. Realizar experimentos com o mecanismo de condicionamento clássico para contemplar o condicionamento de ordem mais elevada, para que novos estímulos neutros possam ser associados a estímulos condicionados e eliciar respostas reflexas inatas. 5. permitir a generalização de estímulos no condicionamento clássico, possibilitando o ASCS produzir uma resposta reflexa, tanto para o estímulo condicionado, quanto para os estímulos que são de algum modo similares a ele. Para isso, seria necessário expandir o sistema de percepção do ASCS para que tais categorizações sensoriais sejam realizadas (GLASSMAN, 2006). 6. implementar outros esquemas de reforçamento de comportamento, como a omissão e o reforçamento negativo. 6.3 Considerações finais Diante dos objetivos propostos, pode-se dizer que este trabalho obteve êxito. Os experimentos feitos demonstraram que os processos de aprendizagem utilizando o condicionamento clássico e operante possibilitam o ASCS manter-se vivo na aplicação ALifeWorld 0.9 em diferentes configurações de ambiente. Como principais dificuldades encontradas no decorrer do trabalho, podemos destacar, de um modo geral, a complexidade envolvida no que se refere à criação de agentes de software bio-inspirados numa perspectiva contemporânea das ciências cognitivas e a dimensão, tanto conceitual quanto tecnológica, que se encontra a arquitetura Artífice. Desenvolver um trabalho pertencente ao Projeto Artífice, que se faz necessário compreender, consolidar e abstrair conceitos de diversas áreas de pesquisa completamente diferentes da formação (em Ciência da computação) do autor mostrou-se ser 6.3 Considerações finais 116 uma tarefa desafiadora e motivante. Os diversos livros e artigos estudados sobre ciências cognitivas, psicologia, biologia, dentre outros, contribuíram não só para um crescimento do autor como pesquisador, mas também para a construção de uma nova pessoa. 117 Referências BALKENIUS, Chistian. Attention, conditioning and habituation: toward a computational model. Cognitive Science, 2000. BALKENIUS, Cristian; MORéN, Jan. Dynamics of a classical conditioning model. 1998. BORGES, Henrique Elias. Arquitetura Flexível para a Criação de Agentes de Software Cognitivos e Situados. Belo Horizonte, MG, 2002. CAMPOS, Luciana Maria Assis. Modelagem do processo cognitivo-emocional de um organismo artificial numa perspectiva dinâmico-interacionista. Agosto 2006. Dissertação (Mestrado em Modelagem Matemática e Computacional) — Centro Federal de Educação Tecnológica de Minas Gerais, Belo Horizonte, MG, Agosto 2006. CATANIA, Charles. Aprendizagem: Comportamento, Linguagem e Cognição. [S.l.]: Porto Alegre, Artmed, 1999. CLANCEY, William J. Situated cognition : on human knowledge and computer representations. Cambridge, U.K. ; New York, NY, USA: Cambridge University Press, 1997. xviii, 406 p. (Learning in doing.). CLARK; SQUIRE. Classical conditioning and brain systems: The role of awareness. Science, v. 280, p. 77, abr. 1998. DAYAN, Peter; BALLEINE, Bernard. Reward, motivation, and reinforcement learning. Neuron, 2002. DELGADO, M.R.; MILLER, M.M. An fmri study of reward-related probability learning. NeuroImage, 2005. EDELMAN, Gerald. Neural darwinism: The theory of neuronal group election. [S.l.]: New York: Basic Books, 1987. GLASSMAN, Wilian E. Psicologia: abordagens atuais. [S.l.]: Artmed, 4 edição, 2006. IZQUIERDO, Iván. Memória. [S.l.]: Artmed, 2002. KRICHMAR, J.L.; EDELMAN, G.M. Machine psychology: autonomous behavior, perceptual categorization and conditioning in a brain-based device. Cereb Cortex, v. 12, p. 818–830, 2002. KRICHMAR, J.L.; EDELMAN, G.M. Brain-based devices: Intelligent systems based on principles of the nervous system. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), p. 940–945, 2003. Referências 118 LAHNSTEIN, Mercedes. The emotive episode is a composition of anticipatory and reactive evaluations. In: UNIVERSITY OF HERTFORDSHIRE, HATFILE, UK. Symposium on Agents that Want and Like: Motivational and Emotional Roots of Cognition and Action,SSAISB 2005 Convention. [S.l.], 2005. LARMAN, Craig. Utilizando UML e Padrões. [S.l.]: Porto Alegre Bookman, 2004. LEWIS, Marc D. Bridging emotion theory and neurobiology throught dynamic systems modeling. Behavioural and Brain Sciences, v. 28, p. 169–245, 2005. LOULA, A. Comunicação Simbólica entre Criaturas Artificiais: um experimento em Vida Artificial. 2004. Dissertação (Mestrado) — Universidade Estadual de Campinas, UNICAMP, 2004. MAPA, Suelen. Modelagem do Organismo Artificial Dotados de Memória Experiencial de Longo Prazo. [S.l.], 2007. MATURANA, Humberto; VARELA, Francisco. A Árvore do Conhecimento: as bases biológicas da compreensão humana. [S.l.]: Palas Athenas, 2001. MATURANA, Humberto R. A ontologia da Realidade. Belo Horizonte, MG: Editora UFMG, 1997. MATURANA, Humberto R. Cognição, Ciência e Vida Cotidiana: a ontologia das explicações científicas. [S.l.]: Editora UFMG, 2001. MORéN, Jan. Emotion and Learning: A Computational Model of the Amygdala. 2002. Tese (Doutorado) — Lund University Cognitive Studies, Sweden, 2002. MOWRER, Orval Hobart. Learning theory and behavior. [S.l.]: Wiley New York, 1973. ODOHERTY. Dissociable roles of ventral and dorsal striatum in instrumental conditioning. Science, v. 304, p. 452, 2004. PAVLOV, Ivan. Conditioned reflexes. [S.l.]: Oxford University Press, 1927. RESCORLA; WAGNER. A theory of pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. p. 64, 1972. SANTOS, Bruno André. Aspectos conceituais e arquiteturais para a criação de linhagens de agentes de software cognitivos e situados. Junho 2003. 130 f. Dissertação (Mestrado em Tecnologia) — Centro Federal de Educação Tecnológica de Minas Gerais, Belo Horizonte, MG, Junho 2003. SCHULTZ, Wolfram. Dopamine neurons and their role in reward mechanisms. Current Opinion in Neurobiology, v. 7, p. 191–197, 1997. SEYMOUR, Ben; SINGER, Tania. The neurobiology of punishment. Nature Reviews: Neuroscience, v. 8, p. 300–311, 2007. SQUIRE, L.R.; KANDEL, E.R. Memória: da mente às moléculas. [S.l.]: ArtMed Editora SA, 2003. Referências 119 SUTTON, R. S.; BARTO, A. G. Proceedings of the ninth annual conference of the cognitive science society. In: Learning and Computational Neuroscience. [S.l.: s.n.], 1986. 120 ANEXO A -- Diagrama de classes da arquitetura Artífice 0.9