MODELAGEM E DESENVOLVIMENTO DE UM MECANISMO DE

Propaganda
VINÍCIUS ALVES SILVA
MODELAGEM E DESENVOLVIMENTO DE UM
MECANISMO DE CONDICIONAMENTO PARA
A ARQUITETURA ARTÍFICE
Belo Horizonte – MG
Outubro de 2008
VINICIUS ALVES SILVA
MODELAGEM E DESENVOLVIMENTO DE UM
MECANISMO DE CONDICIONAMENTO PARA
A ARQUITETURA ARTÍFICE
Dissertação apresentada ao Curso de
Mestrado em Modelagem Matemática
e Computacional do Centro Federal de
Educação Tecnológica de Minas Gerais,
como requisito parcial à obtenção do título
de Mestre em Modelagem Matemática e
Computacional.
Linha de pesquisa:
Sistemas Inteligentes
Orientador:
Prof. Dr. Henrique Elias Borges
Centro Federal de Educação Tecnológica de Minas Gerais
M ESTRADO EM M ODELAGEM M ATEMÁTICA E C OMPUTACIONAL
C ENTRO F EDERAL DE E DUCAÇÃO T ECNOLÓGICA DE M INAS G ERAIS
D IRETORIA DE P ESQUISA E P ÓS -G RADUAÇÃO
Belo Horizonte – MG
Outubro de 2008
Dedico este trabalho aos meus pais João e Maria das Graças pelo amor, motivação e
apoio que sempre me deram no curso de toda a minha vida.
Obrigado, sem vocês isto não seria possível.
Agradecimentos
Ao meu orientador, Prof. Dr. Henrique Elias Borges, pelas diretrizes de pesquisa, pelo
incentivo, amizade e paciência durante a realização deste trabalho. Agradeço mais
ainda pelo apoio e pela confiança em mim depositada em vários momentos conturbados que passei durante essa caminhada. Serei eternamente grato.
À DEUS pela saúde, força e proteção.
À minha namorada Patrícia, pelo carinho, paciência e compreensão pelos momentos
em que estive ausente.
À minha família que sempre me incentivou e me apoiou. Aos meus amigos da minha
terrinha (a pequenina Pimenta/MG) pelo apoio e momentos de descontração.
À PRODEMGE - Companhia de Tecnologia da Informação do Estado de Minas Gerais
pelo incentivo a mim concedido.
Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI, do
CEFET-MG.
Aos amigos da Diretoria de Pesquisa e Pós-Graduação do CEFET-MG, que sempre
me apoiaram nos bons momentos em que convivemos durante parte desse meu trabalho.
Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG).
’Educai as crianças e não será preciso castigar os homens.’
Pitágoras (582a.C - 497a.C)
Resumo
Agentes autônomos vêm sendo freqüentemente definidos como agentes capazes de
se adaptarem às mudanças que ocorrem em seu ambiente. Contudo, para exercer
tal autonomia um agente artificial inspirado biologicamente deverá possuir um mecanismo que o permita aprender, em sua ontogenia e a partir de suas próprias experiências, como se comportar em cada situação. Dos processos de aprendizagem
os mais basais, e que estão presentes para boa parte dos seres vivos, são aqueles
envolvendo aprendizagem por associação. Essa forma de aprendizagem ocorre via
processos de condicionamento clássico e operante. No primeiro, são forjadas associações entre estímulos neutros advindos do ambiente e estímulos não-condicionados,
responsáveis por disparar respostas reflexas inatas, de modo que a presença do estímulo neutro antecipa o disparo da resposta reflexa. Já o condicionamento operante
possibilita ao agente associar uma ação voluntária realizada à conseqüência imediata
dessa ação, de modo que, em experiências futuras e sob a mesma situação, seu comportamento seja modulado pelas suas experiências passadas, após serem valoradas
cognitivo-emocionalmente. Neste contexto, o presente trabalho propôs um modelo
de mecanismo de condicionamento, tanto clássico como operante, para a arquitetura
ARTÍFICE, concebida para a criação de linhagens de Agentes de Software Cognitivos
e Situados (ASCS). Para avaliar a funcionalidade dos mecanismos de aprendizagem
associativa desenvolvidos e incorporados à arquitetura Artífice, foi utilizada uma aplicação de vida artificial em 2D, na qual foram realizados alguns experimentos computacionais visando comprovar a capacidade de aprendizagem, auto-regulação e adaptação do ASCS. Nestes experimentos, um ASCS mostrou-se capaz de construir um
repertório de comportamentos aprendidos no curso de sua vida por meio de processos de condicionamento clássico e operante, que o manteve vivo e adaptado ao seu
ambiente. Para tanto, o ASCS manteve a regulação emocional de suas necessidades
corpóreas de fome e sono, encontrando comida e comendo-a e dormindo quando tinha sono, ao mesmo tempo em que evitava interações com os objetos presentes no
seu ambiente que o faziam sentir dor.
PALAVRAS-CHAVE: Condicionamento Clássico, Condicionamento Operante, Aprendizagem Associativa, Agentes Autônomos, Cognição Incorporada.
Abstract
Autonomous agents are frequently defined as entities which are capable to adapt to
changes occurring in their environment. However, in order to exercise this autonomy,
a biologically inspired artificial agent must embody some mechanism that allows it to
learn, from its own experiences, how to behave properly in each situation. Associative
learning is one of the simplest forms of learning processes, being present in most of
living beings. This form of learning occurs through processes known as classical and
operant conditioning. In the first case, associations are established between an unconditioned stimulus, responsible for triggering innate reflex responses, and an initially
neutral stimulus, such that the presence of this neutral stimulus, under suitable conditions, is enough to elicit the reflex response. So, classical conditioning plays the role
of an anticipatory mechanism for involuntary responses. On the other hand, operant
conditioning refers to the process of association of a voluntary action taken with its
immediate outcome. Hence, the living being can learn how to select his next action
guided by his own past experiences, after they was cognitive and emotionally evaluated. Within this context, the present work proposes a model of the classic and operant
conditioning mechanism and implements it in the Artífice architecture for the construction of Cognitive and Situated Software Agents (CSSA). To evaluate the mechanisms
of associative learning developed, a 2D artificial life application was instantiated from
the Artífice architecture, and some computational experiments has been made to show
the CSSA’s new capabilities of associative learning, self-regulation and adaptation. In
these experiments, a CSSA was able to build a repertoire of behaviours learned in his
ontogeny, through processes of classical and operant conditioning, which kept it alive
and adapted to its environment. In order to do this, the CSSA kept the emotional regulation of its bodily needs of hunger and sleep, finding and eating food and getting
some sleep periodically, while wandering in its environment and avoiding interactions
with some objects that make it feel pain.
KEYWORDS: Classical Conditioning, Operant Conditioning, Associative Learning, Autonomous Agents, Embodied Cognition.
Lista de Figuras
1
Abordagem cognitiva tradicional. . . . . . . . . . . . . . . . . . . . . .
p. 17
2
Abordagem cognitiva contemporânea. . . . . . . . . . . . . . . . . . .
p. 17
3
Modelo conceitual inicial da arquitetura ARTÍFICE. . . . . . . . . . . .
p. 19
4
ASCS em seus domínios fenomênicos. . . . . . . . . . . . . . . . . .
p. 20
5
Diagrama de blocos do modelo proposto por Campos (2006). . . . . .
p. 22
6
Circularidade da relação emoção-cognição. . . . . . . . . . . . . . . .
p. 24
7
Equipamento usado por Pavlov para captar informações fisiológicas
sobre o sistema gastrointestinal. . . . . . . . . . . . . . . . . . . . . .
p. 31
8
Procedimento de aquisição do condicionamento clássico. . . . . . . .
p. 33
9
Curva Aquisição-Extinção do aprendizado. . . . . . . . . . . . . . . .
p. 34
10
Curva Aquisição-Extinção do aprendizado em simulação e em condições reais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 35
11
Procedimento de aquisição do condicionamento de ordem mais elevada p. 36
12
Alterações na ativação de neurônios dopaminérgicos em experimentos de condicionamento clássico. . . . . . . . . . . . . . . . . . . . . .
p. 38
13
Relação da contiguidade temporal no condicionamento clássico. . . .
p. 40
14
Thorndike e a lei do efeito. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 42
15
Repetidos pareamentos entre um determinado estado e a conseqüência recebida no mesmo permite ao organismo antecipar a conseqüência denotada quando o estado for novamente vivenciado no futuro. . .
16
p. 48
O reforço das associações entre um estado, ação e conseqüência:
Se uma ação é executada enquanto o organismo se encontra em um
determinado estado leva a uma conseqüência prazerosa, então esse
cenário é reforçado. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 48
17
O Modelo da Amídala. . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
Representação temporal de um estímulo condicionado e a manuten-
p. 54
ção e uso do erro de predição. . . . . . . . . . . . . . . . . . . . . . .
p. 57
19
Darwin VII em seu ambiente. . . . . . . . . . . . . . . . . . . . . . . .
p. 59
20
Esquema do sistema nervoso de Darwin VII. . . . . . . . . . . . . . .
p. 59
21
Procedimento de aquisição do condicionamento clássico pela Darwin
VII. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
p. 61
O mecanismo de seleção de ação baseado em comportamentos. Com
base nas entradas sensoriais e nos drives, cada comportamento indica sua motivação para atuar, aquele que tiver o maior valor será
selecionado e suas ações irão para os atuadores. . . . . . . . . . . .
23
p. 64
Aprendizado associativo, dos sensores à memória associativa. Os
sensores recebem os estímulos externos que são mantidos na memória de trabalho, e usados pela memória associativa para criar diferentes relações entre estímulos. . . . . . . . . . . . . . . . . . . . . .
24
p. 65
Reforço e Enfraquecimento de associações. (a) Quando co-ocorrem
a existência de um estímulo visual e de um estímulo auditivo nas memórias de trabalho, a associação entre eles é reforçada e então inibida contra alterações. (b) Quando estes estímulos saem da memória
de trabalho, as associações da qual fazem parte na memória associativa são enfraquecidas se não estiverem inibidas. . . . . . . . . . . .
p. 66
25
Diagrama de classes do mecanismo de condicionamento clássico. . .
p. 71
26
Diagrama de blocos do mecanismo de condicionamento clássico. . .
p. 73
27
Interações entre componentes da arquitetura na resposta não-elaborada. p. 74
28
Captação de estímulos neutros pareados com estímulos não-condicionados
por componentes Reflex. . . . . . . . . . . . . . . . . . . . . . . . . .
29
Curva de aquisição do condicionamento em função do número de
experiências vivenciadas. Parâmetros α = 0,5; β = 1; λ = 100.
30
p. 75
. . . .
p. 77
Curva de aquisição do condicionamento em função do número de
experiências vivenciadas. Parâmetros α = 0,5; β = 0,5; λ = 100. . . .
p. 77
31
Curvas de aquisição/extinção do condicionamento em função do número de experiências vivenciadas. A diferença entre os processos
de aquisição e extinção no modelo de Rescorla e Wagner (1972) é
controlada pelo valor da variável λ. A variável β representa o peso do
estimulo não-condicionado na variação da taxa do condicionamento. .
32
p. 79
O reforço/inibição das associações entre um estímulo, ação e conseqüência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 80
33
Diagrama de classes do mecanismo de condicionamento operante. .
p. 81
34
Probabilidade de seleção das ações para os objetos do mundo em
que o ASCS esteja inserido. . . . . . . . . . . . . . . . . . . . . . . . .
p. 82
35
Ajuste das probabilidades de seleção das ações ao longo do tempo .
p. 86
36
Circularidade da relação entre a avaliação parcial e completa no condicionamento operante. . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 87
37
ASCS-em-seu-ambiente. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 92
38
Momento em que o ASCS percebe o estímulo olfativo emitido por
Green Apple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 96
39
Aquisição do condicionamento clássico. . . . . . . . . . . . . . . . . .
p. 97
40
Deslocamento da resposta reflexa. . . . . . . . . . . . . . . . . . . . .
p. 98
41
Extinção do condicionamento clássico. . . . . . . . . . . . . . . . . . .
p. 99
42
Curva de condicionamento clássico em condições naturais - Maçã
vermelha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 100
43
Curva de condicionamento clássico em condições naturais - Maçã
Verde. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101
44
Curva de condicionamento clássico em condições naturais - Pedra. . p. 101
45
Curva de condicionamento clássico em condições naturais - Totem. . p. 102
46
Tempo médio para o ASCS comer maçãs para 3 níveis iniciais distintos de condicionamento operante. . . . . . . . . . . . . . . . . . . . . p. 105
47
Intervalo de tempo médio gasto para encontrar e comer maçãs para
os 3 níveis iniciais de condicionamento. . . . . . . . . . . . . . . . . . p. 106
48
Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial baixo. . . . . . . p. 107
49
Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial médio . . . . . . p. 108
50
Alteração das probabilidades das ações no experimento Condicionamento x seleção de ações - Condicionamento inicial alto. . . . . . . . p. 108
51
Gráfico da função arousal. . . . . . . . . . . . . . . . . . . . . . . . . . p. 109
52
Tempo médio de sobrevivência do ASCS num ambiente aleatório para
3 níveis de condicionamento. . . . . . . . . . . . . . . . . . . . . . . . p. 111
53
Expectativa esperada pela interação com os componentes de software.p. 111
Lista de Tabelas
1
Contingências do reforçamento.
. . . . . . . . . . . . . . . . . . . . .
p. 44
2
Componentes reflexos. . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 94
3
Affordances consideradas na aplicação. . . . . . . . . . . . . . . . . .
p. 95
4
Nível de condicionamento operante inicial para os experimentos. . . . p. 104
Lista de Abreviaturas e Siglas
ASCS Agente de Software Cognitivo e Situado
CR Conditioned Response
CS Conditioned Stimulus
CSSA Cognitive and Situated Software Agent
GPSI Grupo de Pesquisa em Sistemas Inteligentes
LSI Laboratório de Sistemas Inteligentes
NS Neutral Stimulus
UML Unified Modeling Language
UR Unconditioned Response
US Unconditioned Stimulus
Sumário
1 Introdução
p. 16
1.1 O Projeto ARTÍFICE . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 18
1.2 Relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 25
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 26
1.4 Escopo do trabalho de pesquisa . . . . . . . . . . . . . . . . . . . . .
p. 27
1.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 27
1.6 Estrutura da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 28
2 O papel dos condicionamentos clássico e operante na aprendizagem
associativa
p. 30
2.1 Condicionamento Clássico . . . . . . . . . . . . . . . . . . . . . . . .
p. 31
2.1.1 Inspiração da Psicologia para a modelagem do mecanismo de
condicionamento clássico . . . . . . . . . . . . . . . . . . . . .
p. 32
2.1.1.1
p. 35
Condicionamento de ordem mais elevada . . . . . . .
2.1.2 Inspiração da Biologia para a modelagem do mecanismo de
condicionamento . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 36
2.1.2.1
Deslocamento da resposta reflexa . . . . . . . . . . .
p. 37
2.1.2.2
Contigüidade temporal para a aquisição do condicionamento . . . . . . . . . . . . . . . . . . . . . . . . .
p. 39
2.2 Condicionamento Operante . . . . . . . . . . . . . . . . . . . . . . . .
p. 41
2.2.1 Inspiração da psicologia para a modelagem do mecanismo de
condicionamento operante . . . . . . . . . . . . . . . . . . . .
p. 42
2.2.1.1
p. 43
Contingências de reforçamento . . . . . . . . . . . .
2.2.1.2
Modelagem e o processo de aprendizagem . . . . . .
p. 46
2.2.1.3
Extinção . . . . . . . . . . . . . . . . . . . . . . . . .
p. 46
2.2.2 Inspiração da biologia para a modelagem do mecanismo de
condicionamento operante . . . . . . . . . . . . . . . . . . . .
p. 47
2.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 49
3 Alguns modelos computacionais envolvendo aprendizagem associativa
p. 52
3.1 O modelo da Amígdala
. . . . . . . . . . . . . . . . . . . . . . . . . .
p. 52
3.1.1 Algumas considerações sobre o modelo . . . . . . . . . . . . .
p. 55
3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 56
3.2.1 Algumas considerações sobre o modelo . . . . . . . . . . . . .
p. 57
3.3 A arquitetura Darwin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 58
3.3.1 Algumas considerações sobre o modelo . . . . . . . . . . . . .
p. 62
3.4 Comunicação simbólica entre criaturas
. . . . . . . . . . . . . . . . .
p. 62
3.4.1 Algumas considerações sobre o modelo . . . . . . . . . . . . .
p. 66
3.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 67
4 Proposta de modelo conceitual para o mecanismo de condicionamento
4.1 O mecanismo de condicionamento clássico . . . . . . . . . . . . . . .
p. 69
p. 69
4.1.1 Sobre a modelagem do mecanismo de condicionamento clássico p. 70
4.1.2 A dinâmica de operação do mecanismo de condicionamento
clássico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 72
4.2 O mecanismo de condicionamento operante . . . . . . . . . . . . . .
p. 80
4.2.1 Sobre a modelagem do mecanismo de condicionamento operante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 81
4.2.2 A dinâmica de operação do mecanismo de condicionamento
operante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
p. 83
4.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Experimentos computacionais, análise e discussão dos resultados
p. 88
p. 91
5.1 A aplicação ALifeWorld - 0.9 . . . . . . . . . . . . . . . . . . . . . . .
p. 91
5.1.1 A aplicação ALifeWorld - 0.9 . . . . . . . . . . . . . . . . . . .
p. 93
5.2 Experimentos envolvendo o condicionamento clássico . . . . . . . . .
p. 95
5.3 Experimentos envolvendo o condicionamento operante . . . . . . . . p. 102
5.3.1 Experimentos envolvendo a modelagem do comportamento . . p. 102
5.3.2 Condicionamento x seleção de ações . . . . . . . . . . . . . . p. 104
5.3.3 Condicionamento x sobrevivência . . . . . . . . . . . . . . . . p. 107
5.4 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 112
6 Conclusão
p. 113
6.1 Principais contribuições deste trabalho . . . . . . . . . . . . . . . . . . p. 114
6.2 Perspectivas de trabalhos futuros . . . . . . . . . . . . . . . . . . . . . p. 114
6.3 Considerações finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 115
Referências
p. 117
Anexo A -- Diagrama de classes da arquitetura Artífice 0.9
p. 120
16
1
Introdução
Um dos grandes desafios das ciências cognitivas é conseguir mapear os processos
que permitem agentes autônomos aprender a se adaptar às mudanças que ocorrem
em seu ambiente.
Entretanto, para tentar explicar e modelar tais processos, vale destacar que os termos
envolvidos, como aprendizado, cognição, autonomia, entre outros, não têm um significado em si, mas que os conceitos expressos por tais termos são construções históricosócio-culturais. Assim, antes de se começar a explicar e modelar como ocorre o aprendizado e como surge a autonomia de um agente, é imprescindível que se deixe claro
e explícito qual é o ’pano de fundo’ sobre o qual esta temática será desenvolvida.
Fundamentalmente, levando-se em consideração questões de natureza ontológica e
epistemológica, as ciências cognitivas podem ser divididas, de um modo geral e amplo, em abordagens tradicionais e contemporâneas (doravante abordagens situacionistas) (SANTOS, 2003).
Em relação às abordagens tradicionais, o estatuto ontológico da realidade têm como
princípio básico a dicotomia entre sujeitos (epistêmicos) e objetos, em que o mundo
dos objetos existe independentemente de um sujeito, conforme mostrado na Figura 1.
Quanto à questão epistemológica, de vez que o sujeito epistêmico ’pertence’ a um
mundo (o da mente) que é ’diferente’ do mundo real (o dos objetos), cabe ao sujeito
apenas, e tão somente, representá-lo em sua mente.
O aprendizado, portanto, consiste em capturar informações e propriedades intrínsecas dos objetos, construir representações delas em sua mente (i.e., criar símbolos),
estabelecer associações entre estas representações e manipular simbolicamente tais
representações, inclusive criando recursivamente representações de representações,
para apreender o mundo real e, assim, conhecê-lo. Neste contexto, o conhecimento é
algo substantivo (símbolos que representam).
Já as ciências cognitivas situacionistas contestam essa separabilidade e defendem
como questão ontológica que sujeitos e objetos compõem de forma inseparável um
1 Introdução
17
mundo único e indivisível; é o que mostra a Figura 2.
Quanto à questão epistemológica, os situacionistas argumentam que, sendo o mundo
indissociável, não há o que ser representado na mente dos sujeitos, portanto, sujeitos e objetos co-existem e co-evoluem, cada qual modulando e sendo modulado
pelo outro, no curso de suas interações (MATURANA; VARELA, 2001). Desta maneira, o
aprendizado ocorre mediante as experiências do sujeito com o resto-do-mundo, i.e.,
o conhecimento não é composto por um conjunto de símbolos manipuláveis, mas por
um conjunto de experiências vivenciadas do sujeito-em-seu-ambiente. Neste sentido o
conhecimento não é substantivo, sendo que o que se pode falar é do ato de conhecer,
Figura 1: Abordagem cognitiva tradicional.
Figura 2: Abordagem cognitiva contemporânea.
1.1 O Projeto ARTÍFICE
18
verbo, ação, ou melhor, inter-ação. Em síntese, o processo cognitivo é compreendido
como uma co-evolução do sujeito e seu ambiente.
Para maiores detalhes acerca das abordagens tradicionais e situacionistas das ciências cognitivas, refira-se a Santos (2003) e referências lá citadas.
De acordo com a abordagem situacionista e contestando as ciências cognitivas tradicionais, que adotam uma perspectiva um tanto quanto ’mecanicista’ para um sistema
tão dinâmico como a cognição, vista de um ponto biológico, o GPSI - Grupo de Pesquisa em Sistemas Inteligentes do CEFET/MG iniciou o desenvolvimento do projeto
’ARTÍFICE - Arquitetura Flexível para a Criação de Linhagens de Agentes de Software
Cognitivos e Situados’ (BORGES, 2002), no contexto do qual o presente trabalho está
inserido.
Para uma melhor contextualização do trabalho, a próxima seção apresentará brevemente alguns conceitos do Projeto Artífice.
1.1 O Projeto ARTÍFICE
O projeto ARTÍFICE foi concebido por Borges (2002) com o objetivo de ser uma arquitetura flexível para criação de Agentes de Softwares Cognitivos e Situados (doravante
ASCS). Como dito, este projeto está fundamentado na perspectiva situacionista, por
esse motivo o mesmo integra conceitos da cognição situada (CLANCEY, 1997) e busca
principalmente na biologia e psicologia inspiração para definir o processo cognitivo de
seus agentes inteligentes.
Desde a criação da arquitetura, vários trabalhos foram desenvolvidos para compor sua
estrutura. Dentre eles, dois são fundamentais para o entendimento e desenvolvimento
do projeto proposto. O primeiro deles foi feito por Santos (2003) que tomou como inspiração o processo cognitivo dos organismos biológicos multicelulares com sistema
nervoso e concebeu um modelo conceitual inicial da arquitetura (Figura 3).
Em seu trabalho, Santos (2003) proporcionou um arcabouço teórico e consistente
sobre as ciências cognitvas, elucidando em seguida os detalhes que a abordagem
situada impõe ao desenvolvimento de sistemas inteligentes. Dentre esses detalhes,
podemos destacar a modelagem da arquitetura considerando dois domínios fenomênicos (Figura 4): domínio das interações e relações e domínio da dinâmica interna
(estrutural). O primeiro se refere ao agente como uma totalidade interagindo com o
seu meio e o segundo ao funcionamento interno do agente, ou seja, seus componen-
1.1 O Projeto ARTÍFICE
Figura 3: Modelo conceitual inicial da arquitetura ARTÍFICE.
Fonte: Santos (2003).
19
1.1 O Projeto ARTÍFICE
20
tes internos e relacionamentos entre eles.
Mantendo a plausibilidade biológica, Santos (2003) representa os principais aspectos
Figura 4: ASCS em seus domínios fenomênicos.
Fonte: Santos (2003).
da cognição humana embutindo no agente dois sub-sistemas, denominados cognitivo e não-cognitivo. Esses sub-sistemas dão ao agente a característica de agente
de software cognitivo e situado, ou simplesmente, ASCS. O sistema cognitivo compõe o sistema nervoso do agente e o não-cognitivo os demais órgãos que compõem
o organismo, e que não têm função cognitiva. A interação entre os componentes do
agente, que agora podem ser classificados de acordo com sua função cognitiva ou
não-cognitiva, ocorre através de componentes sensores e efetores pela troca de estímulos.
A organização do sistema nervoso do ASCS é baseada na Teoria de Seleção de Grupos Neuronais (TNGS) de Eldeman (EDELMAN, 1987). Cada componente do sistema
cognitivo possui uma estrutura ’física’ que funcionalmente está em analogia com um
conjunto de grupos neuronais. Esta estrutura, uma vez acoplada com outra estrutura
de outro componente produz outro tipo de estrutura que pode ser categorizado como
um mapa local. Estes por sua vez poderão ser categorizados como um mapa global,
composto por um conjunto de mapas locais. Ao possibilitar categorizações simples
e categorizações de categorizações, pretendeu-se embutir na arquitetura ARTÍFICE
a proposta de Eldeman para a organização funcional do córtex dos humanos. Para
maiores detalhes sobre o modelo inicial da arquitetura, ver Santos (2003).
1.1 O Projeto ARTÍFICE
21
No segundo trabalho, Campos (2006) elaborou o modelo conceitual para o processo
cognitivo-emocional da arquitetura, ’espinha-dorsal’ do processo de aprendizado do
agente. O presente trabalho estenderá a versão da arquitetura resultante da pesquisa
de Campos (2006), portanto o mesmo será explicado com mais detalhes.
O modelo desenvolvido compreende a dinâmica interna entre os componentes da arquitetura, baseado nas características do aprendizado situado (MATURANA; VARELA,
2001); (SANTOS, 2003); (CLANCEY, 1997), destacando a influência das emoções neste
processo. O foco principal é a dinâmica das interações externas (domínio do comportamento) e internas (domínio estrutural interno) do ASCS, que fazem surgir o aprendizado.
A modelagem possui como fundamento básico a interação entre os componentes do
ASCS e o não-determinismo destas interações, onde cada uma delas apenas desencadeia mudanças nos componentes envolvidos. As mudanças desencadeadas são
determinadas pela estrutura interna dos componentes e não pela interação em si. As
interações entre os componentes ocorrem pela troca de estímulos, que foram divididos em dois grupos: estímulos puramente internos ao ASCS e estímulos advindos do
ambiente.
Segundo Maturana (1997), toda ação ocorre sob uma certa emoção, ou seja, não há
nada que o organismo faça sem que esse esteja imerso sobre um domínio emocional1 .
Em consonância com essa definição, Campos (2006) caracterizou a interação circular
entre homeostase , emoção e cognição. Essa relação pode ser observada quando
se analisa uma seqüência de ações do ASCS. Na Figura 5 tem-se um diagrama em
blocos do modelo desenvolvido onde é possível verificar as relações previstas entre
as funções cognitivas e emocionais. Essa relação é intermediada pela memória de
longo prazo e a memória de trabalho.
Cabe destacar que as emoções modulam o comportamento do ASCS por meio de
suas tendências para ações, considerando as possibilidades para ação em um determinado momento e em certa situação. Vale lembrar que o comportamento não
será determinado exclusivamente pela emoção, pois serão consideradas as possibilidades para ação em cada momento ou situação (affordances). Para melhor esclarecer esta modulação, deve-se considerar um conjunto hipotético de emoção, situação,
affordance e ação. Por exemplo, sob a emoção de fome, que tem associadas as tendências para ação: comer, vaguear e aproximar; dada a situação em que o organismo
está em contato com um objeto, as possibilidades para ação (affordances) então se
1
Por emoção Maturana (1997) compreende uma pré-disposição corporal, precisa e defnida, para a
realização de uma ação
1.1 O Projeto ARTÍFICE
22
Mundo artificial
ASCS
Sistema Nervoso
Affordance
Córtex sensório
Função emocional
Córtex efetor
Sistema
periférico
Ação
Sistema
sensóriomotor
Tendências para ação
Arousal
Eficiência comportamental
Função cognitiva
Avaliação completa
Sistema
auxiliar
Sistema de
persistência
Avaliação reflexo/instinto
Avaliação parcial
Sistema valoracional
Componentes
de software
Memória
de trabalho
Memória de
longo prazo
Estrutura
Figura 5: Diagrama de blocos do modelo proposto por Campos (2006).
Fonte: Campos (2006)
1.1 O Projeto ARTÍFICE
23
restringem a comer ou evitar esse objeto.
De acordo com o referencial utilizado por Campos (2006), as emoções foram classificadas sob a perspectiva evolutiva, permitindo desta maneira a interação entre cognição e emoção em níveis mais básicos, presentes até mesmo em organismos pouco
evoluídos. No contexto do modelo atual, as emoções mais simples referem-se à manutenção do equilíbrio homeostático do ASCS. Isto significa que cada emoção terá
um nível de arousal (ativação), e a variação desses níveis afetam o comportamento
do ASCS via mecanismo de adequação de sua eficiência comportamental, em prol do
seu objetivo maior, neste caso, que é restaurar seu equilíbrio homeostático.
Conforme pode ser visto na Figura 5, o modelo realiza uma avaliação das experiências
do ASCS, tanto na função emocional, quanto na função cognitiva. Em consonância
com a perspectiva situada, essa avaliação não depende somente da experiência em
si, mas sim do estado interno do organismo na situação corrente.
Como resultado das avaliações realizadas, o modelo contempla também três níveis
de resposta (ao longo do eixo neural) para cada interação ocorrida no domínio do
comportamento, sendo elas: não-elaborada, semi-elaborada e elaborada. A resposta
não-elaborada ocorre a nível da medula espinhal e compreende reações de maior relevância no aspecto interno, embora existam comportamentos externos observáveis
relacionados a ela, como os reflexos automáticos. Já a resposta semi-elaborada, que
ocorre a nível sub-cortical, corresponde a uma resposta emocional da situação vivenciada pelo agente. A resposta elaborada, que ocorre a nível cortical, corresponde a
uma resposta emocional-cognitiva voluntária.
Após a resposta não-elaborada, o appraisal emocional gera uma gestalt (ainda parcial) semi-elaborada, e num segundo momento o appraisal emocional-cognitivo gera
uma nova gestalt (completa) mais elaborada, pois é voluntária e envolve raciocínio e
escolhas, é capaz de corrigir ou coordenar o resultado do appraisal imediatamente anterior, proporcionando uma característica importante no comportamento final: a autoregulação emocional.
A interação entre o appraisal emocional (parcial) e o appraisal emocional-cognitivo
(completo), além de ocorrer através da troca de estímulos, utiliza os recursos da memória de curto prazo e memória de longo prazo (IZQUIERDO, 2002). Estes dois tipos de
memória estão hoje modelados de forma simplificada, mas obedecendo ao conceito
principal que as distingue.
Sendo assim, na memória de curto prazo será possível verificar a última ação recémexecutada pelo agente e na memória de longo prazo aquelas que foram valoradas con-
1.1 O Projeto ARTÍFICE
24
forme um significado emocional. Por meio da memória de curto prazo será possível ao
appraisal parcial valorar a ação recém-executada. Uma vez valorada emocionalmente,
esta ação torna-se uma experiência e passa a fazer parte da memória de longo prazo,
esta entendida como um conjunto de experiências anteriormente valoradas. Vale ressaltar que o appraisal completo se utiliza dessas experiências anteriormente valoradas
para decidir a melhor ação, dentre as possíveis, para executar naquela situação.
A Figura 6 demonstra a circularidade da relação emoção-cognição presente no modelo.
As setas contínuas demonstram o acesso direto às memórias e a seta pontilhada a
Figura 6: Circularidade da relação emoção-cognição.
Fonte: Campos (2006)
interação através de estímulo entre o appraisal parcial e o appraisal completo. Em
(A), a ação escolhida pelo appraisal completo é executada pelos efetores e imedia-
1.2 Relevância
25
tamente esta ação é registrada na memória de trabalho. O appraisal parcial já pode
então valorar esta ação, segundo o estado emocional atual, identificando se a ação
foi ’boa’ ou ’ruim’, avaliando, para isto, seu estado emocional anterior e subseqüente à
ação (B). Caso ocorra a valoração, uma experiência é registrada na memória de longo
prazo (C), compondo mais um critério de avaliação a ser consultado pelo appraisal
completo nas próximas decisões (D). O appraisal parcial envia um estímulo ao appraisal completo (E), correspondente à uma nova situação, para que o appraisal completo
possa definir a nova ação a executar e o ciclo se repete.
Vale destacar que o agente não é deliberativo, ou seja, as ações mencionadas correspondem a ações selecionadas e executadas, pois o agente não realiza um planejamento para o seu comportamento.
1.2 Relevância
O condicionamento tem sido estudado em vários contextos e áreas. O condicionamento clássico envolve a aprendizagem em que estímulos neutros puramente sensoriais vem a despertar respostas reflexas inatas. O condicionamento operante, por sua
vez, lida com a aprendizagem em que a frequência das respostas voluntárias emitidas
pelo organismo mudam em função de suas consequências. Em relação à área de sistemas inteligentes, vários trabalhos utilizam os conceitos do condicionamento clássico
e operante para tentar modelar e construir mecanismos de software e/ou hardware
capazes de conceber e ajustar alguns padrões de comportamento em prol das suas
necessidades e de acordo com as transformações ocorridas em seu ambiente (MORéN, 2002), (KRICHMAR; EDELMAN, 2002).
Esse trabalho se torna relevante ao apresentar um referencial teórico do condicionamento de abrangência interdisciplinar, utilizando aspectos da biologia, psicologia,
neurociência e utilizar os conceitos levantados para conceber novas estratégias de
implementação de mecanismos artificiais, sempre buscando dar maior plausibilidade
biológica ao modelo proposto.
No âmbito do GPSI este trabalho se apresenta relevante pelos seguintes motivos:
1. constitui o agente de processos de aprendizagem associativa, baseados nos
princípios do condicionamento clássico e operante;
1.3 Objetivos
26
2. permite ao agente associar estímulos neutros puramente sensoriais advindos
do ambiente a estímulos não-condicionados que disparam uma resposta reflexa
inata.
3. permite ao agente associar a conseqüência emocional decorrente de uma ação,
aumentando a freqüência futura de ações que tenham levado a conseqüências
apetitivas e diminuindo a freqüência de ações que tenham levado a conseqüências aversivas;
4. permite ao agente a constituição dos construtos básicos para a formação da sua
memória, associando estímulos e também conseqüências recebidas mediante
suas interações com o ambiente em que vive.
1.3 Objetivos
O objetivo geral deste trabalho é desenvolver um mecanismo de condicionamento,
tanto clássico como operante, que possibilite o reforço/inibição das ações executadas
pelo ASCS permitindo que o mesmo tenha capacidade de adaptar seu comportamento
em prol de suas necessidades e frente às mudanças que ocorrem no meio em que esteja inserido.
Para tanto, este trabalho se propõe aos seguintes objetivos específicos:
1. compor um referencial teórico consistente sobre o condicionamento clássico e
operante e a implicância do mesmo na construção e modelagem de Agentes de
Software Cognitivos e Situados;
2. modelar o Mecanismo de Condicionamento para os Agentes de Software Cognitivos e Situados com base no referencial teórico obtido, visando tanto quanto
possível, uma maior plausibilidade biológica;
3. implementar o Mecanismo de Condicionamento, conforme a modelagem proposta;
4. acoplar o mecanismo à Arquitetura Artífice;
5. desenvolver uma prova de conceito, instanciando uma aplicação de vida artificial
em duas dimensões com intuito de verificar os comportamentos emergentes do
1.4 Escopo do trabalho de pesquisa
27
ASCS, influenciados pelos processos de aprendizagem associativa associados
ao agente. .
1.4 Escopo do trabalho de pesquisa
O objeto de pesquisa deste trabalho é realizar um levantamento bibliográfico sobre o
condicionamento em uma perspectiva da psicologia e da biologia para fundamentar
a modelagem e implementação de um mecanismo de condicionamento composto de
dois subsistemas referentes aos condicionamentos clássico e operante.
O mecanismo de condicionamento clássico permitirá ao agente criar um repertório
básico comportamental associando estímulos neutros puramente sensoriais advindos
do ambiente a estímulos não-condicionados que disparam respostas reflexas inatas,
ou seja, respostas de origem filogenética.
O mecanismo de condicionamento operante, por sua vez, proverá ao agente a capacidade de criar um repertório de ações mais elaborado, realizando a inibição/reforço das
ações executadas mediante as conseqüências recebidas pelas suas experiências.
Como prova de conceito, propõe-se acoplar o mecanismo de condicionamento na versão da arquitetura produzida com o trabalho de Campos (2006), com intuito de verificar
a associação de estímulos neutros puramente sensoriais advindos do ambiente a estímulos com uma importância inata e o aumento/diminuição da freqüência das ações
executadas decorrente das conseqüências recebidas pelas interações do agente com
o meio em que vive.
1.5 Metodologia
O desenvolvimento deste trabalho envolveu conceitos que perpassam várias áreas
do conhecimento, fazendo-se necessário o levantamento bibliográfico para sua fundamentação e o estudo das tecnologias envolvidas para a modelagem e implementação
do mesmo. Estas etapas são apresentadas a seguir:
1. revisar a literatura referente às ciências cognitivas, condicionamento clássico e
operante sob a perspectiva da biologia e da psicologia e a utilização do condicionamento para modelagem e construção de agentes autônomos;
1.6 Estrutura da dissertação
28
2. estudar a arquitetura ARTÍFICE, em sua versão 0.7.5, que será o ponto de partida para este trabalho;
3. abstrair processos de condicionamento de comportamento que unifique, tanto
quanto possível, os pontos de vista da biologia e da psicologia;
4. modelar em software a abstração feita, levando em consideração o formato arquitetônico da Artífice versão 0.7.5;
5. implementar o mecanismo resultante da modelagem realizada e acoplá-lo à nova
versão da arquitetura ARTÍFICE produzida;
6. executar experimentos computacionais com a aplicação de vida artificial em 2D
produzida por Campos (2006), visando comprovar a viabilidade e o correto funcionamento da arquitetura para a criação de ASCS;
7. analisar criticamente a nova versão da arquitetura produzida..
1.6 Estrutura da dissertação
A dissertação está organizada da seguinte forma:
• Capítulo 2: esse capítulo é utilizado para detalhar os conceitos de condicionamento, tanto clássico como operante, vistos sob pontos de vista da biologia e
psicologia, pois o entendimento destes conceitos será relevante para a compreensão do restante do trabalho.
• Capítulo 3: neste capítulo serão apresentados trabalhos que utilizam o condicionamento para modelagem e construção de agentes de software e robôs.
• Capítulo 4: apresenta o modelo conceitual proposto para o mecanismo de condicionamento em detalhes, destacando as opções de modelagem.
• Capítulo 5: esse capítulo é dedicado à análise e discussão dos resultados dos
experimentos computacionais realizados em uma aplicação de vida artificial em
2D.
1.6 Estrutura da dissertação
29
• Capítulo 6: neste capitulo são apresentadas as conclusões e dadas sugestões
para possíveis trabalhos a serem realizados posterior a este, também são destacadas as principais contribuições do trabalho.
30
2
O papel dos condicionamentos
clássico e operante na
aprendizagem associativa
O presente trabalho almeja acoplar à arquitetura Artífice um mecanismo que permitirá
ao ASCS ’aprender’ a adaptar-se às mudanças que ocorrem no ambiente em que está
inserido.
Conforme discutido no capítulo 1, o termo ’aprendizado’ não tem um significado em si,
carregando consigo várias conotações que são empregadas nas mais diversas áreas
e níveis. No âmbito do projeto Artífice (BORGES, 2002), a aprendizagem é compreendida sob um ponto de vista biológico e, mais especificamente, sob uma perspectiva
etológica (MATURANA; VARELA, 2001). Para qualquer ser vivo, aprender a se comportar
para se adaptar ao meio em que vive é uma característica crucial para a sua sobrevivência. Alguns comportamentos são inatos, resultantes do processo de evolução da espécie (filogenia). Embora na maioria das espécies simples (do ponto de
vista filogenético) tais comportamentos sejam plenamente suficientes para assegurar
a sobrevivência do organismo, no que diz respeito às espécies mais evoluídas (e.g.
mamíferos), tal repertório de comportamentos é insuficiente. Por outro lado, outros
comportamentos são aprendidos e forjados a partir da interação do organismo com
o seu ambiente (ontogenia). Estes comportamentos são constantemente ajustados e
modificados levando em consideração o estado interno do organismo e as conseqüências resultantes das suas interações com o seu ambiente, naquele instante (CATANIA,
1999).
Aprendizado é, mesmo neste contexto específico, um conceito não muito facilmente
definido. Ocorre quando um comportamento passa a ter uma maior probabilidade de
ser selecionado, face alguma circunstância, na forma de imprinting, na adaptação de
comportamento motor para as mudanças do corpo (isto incluiria mudanças no tamanho do corpo e proporções da fase de infância para adulto, bem como ferimentos ou
2.1 Condicionamento Clássico
31
deficiências), entre outros (CATANIA, 1999) (MORéN, 2002).
Todos estes são, sem sombra de dúvida, casos de adaptação do comportamento
às circunstâncias, embora nem todos os autores considerem esses processos como
’aprendizagem’.
Entre os processos de aprendizado que consideram o ato de aprender como um ajuste
do comportamento às circunstancias, possivelmente o que apresenta maior coerência
com o arcabouço teórico-situacionista são os condicionamentos clássico e operante.
2.1 Condicionamento Clássico
O condicionamento começou a ser estudado de uma maneira sistemática no início do
século XX pelo fisiologista russo Ivan Pavlov (PAVLOV, 1927), durante suas pesquisas
relacionadas com o entendimento do processo da digestão, que lhe valeram o Prêmio
Nobel de 1904. Pavlov realizava experimentos com cães utilizando um equipamento
para observar como o corpo regula a produção de ácido gástrico e saliva, sob a apresentação de comida (Figura 7).
Com os progressos da pesquisa, Pavlov registrou um fenômeno que iria conduzi-lo
Figura 7: Equipamento usado por Pavlov para captar informações fisiológicas sobre o
sistema gastrointestinal.
Fonte: Morén (2002).
a uma nova e inesperada direção. Pavlov percebeu um fenômeno e o rotulou de ’salivação psíquica’ - o cão começava a salivar antes mesmo de visualizar o alimento.
2.1 Condicionamento Clássico
32
Descobriu-se eventualmente que o cão reagia a um som provocado pelo equipamento
utilizado na pesquisa (Figura 7), que era percebido pelo animal. Para isolar o fenômeno, ele gradualmente eliminou todos os estímulos estranhos e indesejáveis que
poderiam afetar o processo, simplificando o experimento ao ponto de ser capaz de
apresentar um único estímulo, ao qual o animal reagiria a ele exclusivamente. Essa
correlação entre um estímulo (som) e uma resposta (salivação) foi denominada por
ele de ’condicionamento’.
2.1.1 Inspiração da Psicologia para a modelagem do mecanismo
de condicionamento clássico
O que Pavlov havia descoberto tornou-se a base do que é comumente conhecido hoje
como Condicionamento Clássico - o processo de aprendizagem que envolve respostas
reflexas, em que um estímulo neutro passa a eliciar uma resposta reflexa já existente
(GLASSMAN, 2006).
Os estudos originais de Pavlov tornaram-se tão conhecidos a ponto de serem objetos de piada (como o psicólogo que salivava ao ouvir o nome ’Pavlov’). Em síntese,
ele descobriu que tocando um sino e imediatamente dando ao cão alguma comida,
o sino passava a evocar a mesma resposta reflexa que a própria comida, ou seja,
a salivação. Como mostraram os extensos estudos da digestão realizados por Pavlov, a salivação diante da presença de comida é uma resposta reflexa neural básica
que não requer aprendizagem, isto é, são inatas. Respostas reflexas (e elas existem
em todas as espécies, desde vermes até humanos) são tidas no condicionamento
clássico como respostas não-condicionadas (doravante UR - do inglês, unconditioned
response). Para todo reflexo, há algum estímulo que eliciará a resposta reflexa (como
a comida para a salivação, a luz para a contração da pupila, etc...). Esse estímulo que
elicia uma resposta não-condicionada é denominado estímulo não-condicionado (US
- do inglês, unconditioned stimulus). Como o termo ’condicionado’ se refere a aprendido, o termo não-condicionado refere-se à natureza não aprendida dos reflexos.
Se os reflexos são involuntários (não são aprendidos), então que tipo de aprendizagem
ocorre no condicionamento clássico? Pavlov notou que a aprendizagem é baseada na
criação de uma associação entre dois estímulos - no caso do cão, entre o sino e a
comida. Tocar o sino inicialmente não tinha efeito sobre o reflexo de salivação, era
um estímulo neutro (NS - do inglês, neutral stimulus), ou seja, um estímulo que não
2.1 Condicionamento Clássico
33
produz uma resposta específica além de provocar atenção, comportamento definido
por alguns autores por reação do ’que é isto?’ (IZQUIERDO, 2002).
Para criar ou constituir esta associação entre NS (som do sino) e US (comida), os
estímulos devem ser apresentados emparelhados. Dito de outra forma, o NS deve ser
apresentado e logo em seguida (dentro de uma curta janela de tempo) o US deve ser
apresentado. Caso NS seja apresentado após ou muito antes (fora dos limites da janela de tempo) de US não ocorrerá a associação, significando que o condicionamento
está intimamente ligado à capacidade de um estímulo atuar como um sinal de que US
irá ocorrer.
Depois de repetidos emparelhamentos entre a comida colocada na boca do cão e o
som do sino, este passou a eliciar a salivação. Neste ponto, o som tornou-se um
estímulo condicionado (CS - do inglês, conditioned stimulus) e a salivação resultante
tornou-se a resposta condicionada (CR - do inglês, conditioning response), de forma
que o som prediz a ocorrência de comida e antecipa a resposta reflexa, no caso a
salivação, associada a ela. A aprendizagem não envolve uma nova resposta, consiste apenas em criar uma associação entre os dois estímulos (CS e US). O processo
relatado anteriormente é a fase de ’Aquisição’ do aprendizado e pode ser descrito esquematicamente como apresentado na Figura 8:
Como descrito anteriormente, a aquisição do aprendizado ocorrido com o condiciona-
Figura 8: Procedimento de aquisição do condicionamento clássico.
mento clássico pode conduzir a uma aprendizagem que é, com freqüência, altamente
adaptativa. No entanto, as conexões criadas entre um estímulo não-condicionado e
2.1 Condicionamento Clássico
34
um estímulo condicionado não são persistentes. Caso fossem, elas poderiam transformar o organismo em um ’museu de antiguidades’ levando-o a ter um comportamento
baseado em situações passadas e, consequentemente, poderia não ser mais útil ou
até prejudicial ao atual momento. Por exemplo, uma pessoa que quebrou o braço pode
continuar a protegê-lo (devido a dor associado a lesão original) muito depois de a cura
ter sido estabelecida. Esse comportamento seria mal adaptativo, pois a resposta seria
inadequada para a atual situação (CATANIA, 1999).
Interessado no grau de permanência do condicionamento, Pavlov depois de condicionar um cão a salivar diante do som do sino (CS), continuou a tocar somente o sino,
mas não fornecer a comida (US). Sob essas condições, a resposta condicionada foi
tornando-se cada vez mais fraca, até que finalmente cessou. Ele então denominou
essa cessação da resposta condicionada quando o CS é apresentado repetidamente
sem estar associado a um US de ’extinção’.
Um gráfico do nível da resposta apresentada ao CS em relação ao tempo/experiências
(curva Aquisição-Extinção) é demonstrado na Figura 9.
Vale frisar que as curvas apresentadas na Figura 9 são apenas para fins de explica-
Figura 9: Curva Aquisição-Extinção do aprendizado.
Adaptado de Morén (2002).
ção, ou atingidas em experimentos cuidadosamente preparados em laboratório. Em
condições naturais, o organismo vivencia várias situações em que estímulos condicionados e não-condicionados são percebidos em determinadas experiências empa-
2.1 Condicionamento Clássico
35
relhados e em outras desemparelhados, resultando em uma constante ’oscilação’ da
curva de condicionamento, como pode ser visto na Figura 10.
De um modo geral, o processo de condicionamento clássico parece ser bem simples.
Figura 10: Curva Aquisição-Extinção do aprendizado em simulação e em condições
reais.
Adaptado de Rescorla e Wagner (1972).
Mas se analisarmos que esse mecanismo ainda vem sendo pesquisado e contestado
mesmo depois de quase cem anos do seu descobrimento, nos leva a crer que esse
simples mecanismo não é tão simples assim.
2.1.1.1 Condicionamento de ordem mais elevada
Como visto anteriormente, os princípios do condicionamento proporcionam um mecanismo em que estímulos neutros podem vir a eliciar uma resposta reflexa (após o
condicionamento), servindo como um sinal que permite a antecipação de um estímulo
não-condicionado, que pode ser útil para o organismo. Porém, às vezes encontramos
situações em que o estímulo condicionado parece não ter uma conexão direta com um
estímulo não-condicionado. Por exemplo, uma criança apenas escuta a palavra bolo e
começa a salivar.
Pavlov propôs um mecanismo para essas associações e o chamou de Condiciona-
2.1 Condicionamento Clássico
36
mento de Ordem mais Elevada, em que um estímulo condicionado previamente estabelecido é usado ’como se fosse um’ estímulo não-condicionado para criar condicionamento a um novo estímulo (GLASSMAN, 2006).
No experimento, depois de treinar o cão a salivar com o som de um sino (CS), ele
introduziu um novo estímulo, um quadrado negro, que foi repetidas vezes associado
ao som do sino (mas não a comida). Depois de vários emparelhamentos, o quadrado
negro apresentado sozinho tendeu a eliciar a salivação (Figura 11). Pavlov denominou
esse evento de Condicionamento de Segunda Ordem.
Figura 11: Procedimento de aquisição do condicionamento de ordem mais elevada
2.1.2 Inspiração da Biologia para a modelagem do mecanismo de
condicionamento
Ao longo da história de evolução de um determinado organismo (filogenia), uma série de padrões de respostas reflexas vão sendo fixadas para a sua espécie levando
em consideração os estímulos que possuem uma relevância direta para sua melhor
adaptação com o meio em que vive. Para qualquer organismo, conseguir associar
as características do seu nicho a esses estímulos é crucial para a sua sobrevivência.
Desempenhando essa função, o Condicionamento Clássico é considerado um mecanismo de aprendizado associativo básico e pode ser encontrado em quase todas,
senão todas, as espécies. Ele desenvolve um papel importante no desenvolvimento
2.1 Condicionamento Clássico
37
do organismo, permitindo-o associar estímulos neutros puramente sensoriais advindos
do ambiente a estímulos com uma significância biológica inata determinada pela sua
estrutura interna, como por exemplo estímulos que podem machucá-lo ou fazer com
que o mesmo perca ou adquira recursos que alterem o seu equilíbrio homeostático
(BALKENIUS; MORéN, 1998). Duas características notáveis do Condicionamento Clássico vem sendo abordadas pela Biologia e servindo de inspiração para modelagem e
construção de agentes autônomos artificiais (SCHULTZ, 1997), (KRICHMAR; EDELMAN,
2002): deslocamento da resposta reflexa provocada pelo estímulo condicionado e a
contiguidade temporal para aquisição do condicionamento. Os dois assuntos serão
discutidos nas seções seguintes.
2.1.2.1 Deslocamento da resposta reflexa
O trabalho de (SCHULTZ, 1997) tem sido utilizado como inspiração para a modelagem
do deslocamento da resposta reflexa provocada pelo estímulo condicionado em vários trabalhos referentes ao desenvolvimento de agentes artificiais bio-inspirados, com
destaque para a arquitetura Darwin de Gerald Edelman, vencedor do prêmio Nobel de
medicina em 1972 (KRICHMAR; EDELMAN, 2002).
Em seu trabalho, Schultz (1997) verificou que o processo de ativação dos neurônios
dopaminérgicos estão diretamente relacionados com a significância inata denotada
pelos estímulos não-condicionados. Esses neurônios enviam seus axônios para as
estruturas do cérebro envolvidas na motivação e atenção, como por exemplo, núcleo
acumbens e córtex frontal. Vários trabalhos de pesquisa suportam a idéia de que
esses neurônios constroem e distribuem informações sobre recompensa de eventos
(SQUIRE; KANDEL, 2003).
Schultz (1997) observou em seus experimentos como neurônios dopaminérgicos respondem com curtas fases de ativação quando macacos recebem estímulos apetitivos,
como um pequeno pedaço de maçã ou uma pequena quantidade de suco de fruta na
boca. Já estímulos aversivos como baforada de ar na mão ou sal na boca não causam essas mesmas ativações provisórias, significando que esse tipo de neurônio está
envolvido somente com estímulos apetitivos.
Na primeira fase do conhecido experimento, antes da aprendizagem, um estímulo nãocondicionado (suco de fruta) é dado ao macaco causando a ativação dos neurônios,
como pode ser observado na Figura 12 - A. Na segunda fase do experimento, uma
luz (NS) é apresentada ao macaco imediatamente antes do recebimento do suco de
fruta (US) ser ingerido pelo animal. Nas fases iniciais do treinamento, ou seja, antes
2.1 Condicionamento Clássico
38
Figura 12: Alterações na ativação de neurônios dopaminérgicos em experimentos de
condicionamento clássico.
Adaptado de Schultz (1997).
2.1 Condicionamento Clássico
39
da aprendizagem, a maioria dos neurônios dopaminérgicos mostram um curto disparo
de impulsos depois da entrega do CS.
Surpreendentemente, após vários dias de treinamento, ocorre uma notável mudança
na saída dos neurônios dopaminérgicos. A ativação neuronal provocada anteriormente pelo suco de fruta (US) é deslocada para o momento em que a luz (CS) é
apresentada (Figura 12 - B). As mudanças na atividade dopaminérgica assemelham
fortemente a predição de US indicada por CS.
Em um terceiro cenário, CS é apresentado causando o deslocamento da ativação
neuronal para imediatamente após a apresentação do mesmo, porém, US é omitido.
A atividade dos neurônios dopaminérgicos é deprimida exatamente no momento em
que US deveria ter ocorrido, de acordo com a predição indicada por CS. A depressão
ocorre mais de 1s após o CS, revelando um erro interno de representação do tempo
da predição da recompensa (Figura 12 - C).
2.1.2.2 Contigüidade temporal para a aquisição do condicionamento
O Condicionamento Clássico realizado entre um estímulo neutro (como um som) e a
resposta reflexa de piscar de olhos talvez seja o melhor exemplo de aprendizagem
associativa, automática, reflexiva e não consciente (independente de hipocampo) em
vertebrados (CLARK; SQUIRE, 1998). Portanto, para que ocorra a associação entre um
estímulo neutro e um estímulo não condicionado de acordo com as características
citadas anteriormente, estudos revelam que tanto em condições naturais quanto em
laboratório, é imprescindível que o estímulo neutro ocorra ’imediatamente antes’ da
apresentação do estímulo não-condicionado (SQUIRE; KANDEL, 2003).
No paradigma tradicional do condicionamento clássico, denominado por alguns autores como ’condicionamento clássico com retardo’, um estímulo condicionado (CS),
como um som, é apresentado imediatamente antes de um sopro de ar - estímulo nãocondicionado (US.) e os dois estímulos terminam exatamente juntos (Figura 13, A e
B). Após repetidos emparelhamentos US-CS, a resposta condicionada (CR) é eliciada
pelo CS, antes mesmo da apresentação de US. Portanto, a resposta reflexa de piscar
os olhos que ocorreria somente após a apresentação do sopro de ar (US) é antecipada para imediatamente após a apresentação do som, tal que o piscar de olhos serve
como um comportamento adaptativo, ou seja, uma resposta defensiva ao sopro de ar.
Em uma versão experimental ligeiramente diferente do paradigma tradicional do condicionamento clássico, denominada ’condicionamento de traço’, o CS e é apresentado
2.1 Condicionamento Clássico
40
e rescindido e, em seguida, um curto intervalo de tempo é imposto antes da apresentação de US. (Figura 13, C e D). O nome vem do fato de o CS tem de deixar alguns
vestígios no sistema nervoso para que a associação CS-US seja estabelecida.
Para verificar a influência do tempo entre a apresentação de um estímulo neutro e um
estímulo não-condicionado na aquisição do condicionamento clássico, Clark e Squire
(1998) realizaram um experimento submetendo pacientes amnésicos ou com deficiências no hipocampo e voluntários normais em ambos os tipos de treinamento de
condicionamento.
Conforme demonstrado na Figura 13 para o condicionamento com retardo, em A um
Figura 13: Relação da contiguidade temporal no condicionamento clássico.
Fonte: Clark e Squire (1998).
CS de duração de 800 ms era apresentado 700 ms antes da apresentação de um
US de 100 ms de duração. Em B, um CS de 1350 era apresentado 1250 ms antes
da apresentação de US de 100 ms de duração. É importante destacar que, para os
experimentos envolvendo o condicionamento por retardo, CS e US se sobrepunham e
terminavam no mesmo instante (emparelhados).
Para o condicionamento de traço, um intervalo de 500 ms e 1000 ms era interposto
entre a apresentação de CS e US para os experimentos C e D respectivamente, ou
seja, CS e US ocorriam desemparelhados.
Os resultados da pesquisa mostraram que voluntários normais adquiriram o condicionamento utilizando ambos os paradigmas de treinamento do condicionamento. Já
os pacientes amnésicos ou com deficiências no hipocampo, nenhum foi capaz de adquirir o condicionamento de traço, embora tenham adquirido o condicionamento com
retardo a uma taxa normal. Dessa forma, os resultados confirmam a importância da
contigüidade temporal na aquisição do condicionamento, sendo que, quando CS e US
2.2 Condicionamento Operante
41
são percebidos emparelhados pelo organismo, a associação forjada entre eles não
envolve a consciência (SQUIRE; KANDEL, 2003).
Já o condicionamento de traço exige o hipocampo e requer consciência do intervalo
de tempo entre o CS e US. Dessa maneira, pacientes amnésicos não ou com deficiências no hipocampo não conseguem estabelecer uma associação entre CS e US
nessas condições.
A seção 2.1 buscou esclarecer alguns pontos importantes do condicionamento clássico que serão usados como inspiração para a modelagem do mecanismo proposto
no trabalho. Para uma discussão mais aprofundada sobre o condicionamento clássico
bem como para uma discussão de outros aspectos como: generalização de estímulos, recuperação espontânea da associação entre CS e US, força da resposta condicionado, bloqueio, refira-se a (GLASSMAN, 2006); (IZQUIERDO, 2002); (SQUIRE; KANDEL,
2003).
2.2 Condicionamento Operante
No condicionamento clássico, o resultado da ação executada diante de uma determinada situação, seja ela de recompensa ou punição, não influencia no reforço que será
atribuído ao episódio vivenciado. Tudo que ele faz é aprender a predizer quando algo
está por vir e, preparar o agente para o inevitável (MORéN, 2002). Ele lida apenas
com o modo como novos estímulos vêm a controlar respostas involuntárias já existentes. Embora esse aprendizado seja extremamente importante para o organismo,
a maior parte do comportamento é autogerada, ou seja, comportamento voluntário
gerado pelo indivíduo como uma maneira de influenciar o ambiente que o cerca.
O condicionamento operante, por sua vez, é um processo em que a conseqüência da
ação escolhida tem participação ativa no condicionamento. Ele lida com a maneira
como as respostas voluntárias (emitidas) mudam no decorrer do tempo como função
de suas conseqüências. O agente aprende a relação entre as ações realizadas em
resposta a um determinado estímulo e a recompensa ou punição que essas ações
trouxeram (BALKENIUS, 2000).
2.2 Condicionamento Operante
42
2.2.1 Inspiração da psicologia para a modelagem do mecanismo
de condicionamento operante
Foi Thorndike quem iniciou os estudos sobre o condicionamento operante, por volta
de 1890. O cenário utilizado para realizar seus experimentos era uma caixa experimental (Figura 14), um aparato semelhante a uma gaiola, em que alguma ação executada, como pressionar uma alavanca, libertaria o animal que estivesse preso dentro
da caixa. Dentro dessa caixa foi preso um gato e como qualquer dono de gato pode
atestar, os gatos em geral detestam o confinamento; por isso, os gatos ficavam ansiosos para fugir. Quando o gato era posto dentro da caixa, ele imediatamente começava
a explorar o ambiente, sempre buscando executar alguma ação que o levaria ao seu
objetivo, sair da caixa. Não surpreendentemente, o gato aprendeu a pressionar a alavanca, obtendo assim uma situação de recompensa, fugir da caixa.
Duas conclusões importantes emergiram desse experimento. A primeira foi que, após
Figura 14: Thorndike e a lei do efeito.
colocar o gato na caixa repetidamente, Thorndike observou que o tempo necessário
para que ele conseguisse abrir a caixa caia gradativamente (como pode ser visto no
gráfico da Figura 14), com a ação que foi executada para abrir a caixa sempre tendo
uma maior probabilidade de ser efetuada (MORéN, 2002). Essa melhora no desempenho representava uma mudança no comportamento como resultado da experiência em outras palavras, da aprendizagem. A segunda conclusão diz respeito ao comportamento do gato e suas conseqüências. Fugir da caixa parecia desejável para o gato,
o que levou Thorndike a concluir que o resultado satisfatório era o que conduzia à repetição do comportamento. Ao contrário, bater nas paredes e outros comportamentos
que não conduziam à fuga declinaram.
Baseado nesses resultados, Thorndike formulou o que seria o núcleo do condiciona-
2.2 Condicionamento Operante
43
mento operante, a ’lei do efeito’: se uma ação foi seguida por uma experiência prazerosa, a probabilidade dela ser executada aumenta, e se, caso contrário, a ação foi
seguida por experiência desprazerosa, a probabilidade dela ser executada decresce
(MORéN, 2002).
Nesse tipo de sistema, as respostas são voluntariamente iniciadas pelo organismo
como parte do ato para lidar com o seu ambiente, e não como um reflexo desencadeado por um estímulo ambiental. A conseqüência dessa escolha, afeta a probabilidade
desse comportamento vir a acontecer no futuro.
Embora o trabalho de Thorndike tenha sido amplamente reconhecido e tenha estimulado várias pesquisas posteriores, não resultou em um sistema coerente comparável
ao paradigma de Pavlov.
Tal sistema só foi alcançado com as pesquisas de B.F. Skinner relacionadas ao comportamento aprendido e voluntário dos organismos. Desde então, o condicionamento
operante tornou-se um arcabouço teórico-conceitual-experimental consistente e altamente utilizado nos dias de hoje.
Em seus trabalhos, Skinner buscava tornar as observações mais científicas, assim
dedicou-se à definição e criação de conceitos, métodos de observação e mensuração
do comportamento.
Umas das primeiras questões que Skinner tentou lidar foi a lei do efeito. Embora seja
intuitivamente óbvio que uma resposta que conduz a um resultado satisfatório tende
a ser repetida, Skinner estava incomodado com o sentido vago de ’satisfatório’. Para
evitar isso, ele cunhou um novo termo, ’reforçador’ - um estímulo que, quando segue
uma resposta, altera a probabilidade da mesma tornar a ocorrer. Skinner distinguiu
os reforçadores entre reforçador positivo - um estímulo que, quando segue uma resposta, serve para aumentar a probabilidade desta ocorrer no futuro. E o reforçador
negativo - um estímulo aversivo que, quando segue uma resposta, serve para reduzir
a probabilidade desta ocorrer no futuro (GLASSMAN, 2006).
2.2.1.1 Contingências de reforçamento
Em geral, as respostas operantes são livremente produzidas pelo indivíduo, mas a
probabilidade de se produzir uma resposta é determinada por suas conseqüências
em ocasiões anteriores. Por exemplo, se José ganhou um doce por ter comido todas
as suas ervilhas no jantar, é provável que ele coma suas ervilhas no futuro. Assim, há
uma relação entre o comportamento (a resposta de comer ervilhas) e sua conseqüên-
2.2 Condicionamento Operante
44
cia (o doce como reforçador positivo). Segundo Skinner, a relação entre uma resposta
e um reforçador é chamado de contingência de reforçamento (Tabela 1).
Um tipo de contingência é o reforçamento, processo pelo qual um reforçador au-
Tabela 1: Contingências do reforçamento.
Fonte: Glassman (2006).
menta a probabilidade de ocorrência de uma resposta (ao se falar sobre as probabilidades, está-se implicitamente referindo-se ao quão frequentemente uma resposta
ocorre - isto é, à freqüência).
O reforçamento sempre resulta em um aumento na probabilidade de ocorrência de
uma resposta. No exemplo anterior é fácil reconhecer que o doce é um reforçador
positivo e que a probabilidade de comer ervilhas vai aumentar. Assim, quando uma
resposta é imediatamente seguida por um reforçador positivo, ela se torna mais provável. Skinner denominou esse processo como reforçamento positivo, porque é o
reforçamento usando um reforçador positivo.
Uma segunda contingência possível é quando uma resposta é imediatamente seguida
por um reforçador negativo. Por exemplo, João de 3 anos, enfia o dedo em uma tomada e toma um choque. No futuro, não é provável que João execute novamente essa
ação. A esse processo, Skinner denominou de punição, em que a resposta é seguida
de um reforçador negativo, que resulta em uma redução na probabilidade da resposta.
O reforçamento e a punição representam as contingências mais comuns no condicionamento operante. Entretanto, os reforçadores também podem estar relacionados
de outras maneiras, mais indiretas. Por exemplo, é possível produzir um aumento de
um certo comportamento suprimindo ou retirando um reforçador negativo (estímulo
aversivo); este processo é chamado de reforçamento negativo - um processo para
aumentar a probabilidade de uma resposta que conduz imediatamente ao término ou
2.2 Condicionamento Operante
45
a retirada do estímulo aversivo (reforçador negativo). Cabe chamar a atenção para o
fato de que, desde que há um aumento na freqüência da resposta, ela não é equivalente à punição. Por exemplo, uma adolescente é importunada pela mãe para arrumar
seu quarto que está uma bagunça. Nesta situação, a reclamação é desagradável - um
reforçador negativo. Quando a adolescente finalmente arruma o quarto, a mãe pára
de reclamar. No exemplo que acaba de ser dado, a adolescente reage para eliminar a reclamação - ou seja, para fugir de um reforçador negativo já existente. Assim,
o reforço negativo nesse caso tem duas variações, fuga e esquiva. Normalmente a
aprendizagem inicial requer que se apresente o reforçador negativo até que se ocorra
a resposta (isto é, a fuga). Mais tarde, o individuo antecipa a seqüência e responde
antes de o reforçador negativo ser apresentado, ou seja, a esquiva (GLASSMAN, 2006).
Existe ainda uma quarta possibilidade de contingência, baseada na extinção ou retirada de um reforçador positivo. Por exemplo, um adolescente chega em casa muito
tarde e, como resultado disso, perde o privilégio de dirigir o carro dos pais. Como
podemos imaginar, quando uma resposta conduz à extinção ou à retirada de um reforçador positivo, o comportamento torna-se menos provável. Esta contingência é
denominada de omissão - processo em que uma resposta é seguida pelo término ou
pela retirada de um reforçador positivo, o que resulta em uma redução na probabilidade da resposta.
Vale salientar que o valor do reforçador é determinado pelo organismo, e não pelo
ambiente. Imagine que lhe oferecerão um bombom se você cantar uma canção.
Supondo-se que você goste de bombons, provavelmente você cantará, assim, o bombom funcionará como um reforçador positivo. Baseados em seu desempenho e entusiasmo, oferece-lhe um segundo bombom se você cantar outra canção. Você o faz,
mas come o segundo bombom mais lentamente. Quando termina oferecem-lhe um
terceiro, em troca de mais uma canção. Nesta altura, a opção de comer mais um
bombom não é nem um pouco mais atrativa, e você se recusa a cantar. Assim, o que
começou como um reforçador positivo agora se tornou um reforçador negativo. Os
bombons não mudaram, mas seu valor para o organismo mudou - e esse é um ponto
crucial. Devido a isso, deve-se observar como o comportamento muda para identificar
a contingência envolvida. Como disse Skinner, o organismo sempre se comporta corretamente - é nosso entendimento que às vezes, está errado.
2.2 Condicionamento Operante
46
2.2.1.2 Modelagem e o processo de aprendizagem
A modelagem é definida como o processo de condicionamento de uma resposta desejada por meio do reforçamento por aproximações sucessivas. O processo presume
que alguém (um pai, experimentador, etc...) tem em mente um objetivo comportamental e pode controlar o oferecimento de um reforçador correspondente a esse objetivo
(GLASSMAN, 2006). Por exemplo, a maior parte da pesquisa behavorista envolve animais (como um rato branco) pressionando uma alavanca em uma caixa de Skinner.
Embora os ratos sejam capazes de pressionar uma alavanca, essa não é uma resposta natural no mundo animal. Consequentemente, o rato deve ser modelado para
adquirir a resposta. Caracteristicamente, quando se coloca um rato não treinado na
caixa de Skinner, ele começa a explorar esse novo ambiente, olhando em torno e farejando tudo. Em um canto do compartimento há um distribuidor de comida que pode
liberar bolinhas de ração, uma de cada vez, até o rato associar o clique do mecanismo
com a chegada de uma bolinha de ração. Uma vez estabelecido esse padrão, uma
bolinha de ração só é liberada quando o rato se volta na direção da alavanca (uma
primeira aproximação da resposta desejada de pressionamento da barra). Depois de
comer, o rato provavelmente vai voltar-se na direção da alavanca. Se ele se aproxima mais ou ergue uma pata na direção da alavanca (uma maior aproximação da
resposta desejada), outra bolinha é liberada e, neste ponto, a modelagem desejada
foi alcançada.
2.2.1.3 Extinção
A modelagem usa a variabilidade inerente na resposta para produzir uma resposta desejada. Quando a resposta ocorre, ela pode ser reforçada, como visto anteriormente.
Mas, o que acontece se o reforçamento for interrompido? Uma resposta intuitiva, corroborada pela pesquisa, seria que o comportamento pode continuar por um tempo
curto, mas, uma vez que seja comprovado que os reforçadores não mais virão, diminuirá a probabilidade de o comportamento ocorrer. Essa queda na freqüência da resposta quando o reforçamento é interrompido é chamada extinção (GLASSMAN, 2006).
Observe que no condicionamento operante, tanto a extinção quanto a punição produzem redução na resposta, entretanto elas o fazem de maneira muito diferentes: a
extinção pode ser considerada um processo passivo, pois diminui o valor da resposta
eliminando o reforçador apetitivo que a estimulava. A punição, por outro lado, usa um
estímulo aversivo para suprimir ativamente o comportamento (indesejado).
2.2 Condicionamento Operante
47
2.2.2 Inspiração da biologia para a modelagem do mecanismo de
condicionamento operante
A habilidade de orientar as ações praticadas em direção a determinados objetivos no
ambiente e controlar a flexibilidade das ações na busca desses objetivos é a principal característica do comportamento adaptativo. O condicionamento operante, forma
mais básica que permite tal comportamento, possibilita um organismo a aprender contingências entre suas ações e as recompensas ou punições recebidas. Consequentemente, ações que levam a recompensas serão executadas mais frequentemente no
futuro, entretanto as ações que levam a punições terão uma probabilidade menor de
serem executadas. É importante ressaltar que a dinâmica do comportamento não
é determinada pelo ambiente, mas pelo ’estado’ atual do organismo como um todo.
Num contexto situacionista o ’estado’ de um organismo é compreendido como a sua
situação interna e a situação do seu ambiente em um determinado instante (MATURANA, 2001). Neste sentido, o estado já envolve um domínio emocional subjacente,
que influencia as ações do organismo fazendo com que o seu comportamento não
seja apenas definido pelo seu ambiente.
Para comprovar os conceitos apresentados acima, em uma perspectiva mais biológica, uma das técnicas mais utilizadas pelos pesquisadores é danificar determinadas
áreas do cérebro e submeter os animais lesionados a treinamentos operantes, para
analisar a influência da parte lesionada no aprendizado. Apesar dos avanços nas
pesquisas, que auxiliadas pelas imagens geradas por ressonância magnética permitem identificar os mecanismos e partes do cérebro envolvidas no condicionamento
operante, cientistas ainda encontram grandes dificuldades para compreender como
ocorre a cooperação entre as partes que fazem surgir o aprendizado como um todo.
Várias evidências resultantes das pesquisas realizadas sobre o tema sugerem que a
aprendizagem operante e o comportamento decorrente da mesma surgem via interação de dois diferentes processos cerebrais: um subsistema que aprende a predizer recompensas futuras para um determinado ’estado’ e um outro subsistema que envolve
o aprendizado sobre a recompensa advinda de uma determinada ação, possibilitando
o aumento/diminuição da freqüência da mesma no futuro. Esses subsistemas são respectivamente denominados na literatura1 como ’Sistema de expectativa’ e ’Sistema de
valoração’ (LAHNSTEIN, 2005), (LEWIS, 2005).
2.2 Condicionamento Operante
48
O subsistema de expectativa possibilita ao organismo aprender sobre as predições
de recompensa (expectativas) associadas a um determinado estado, utilizando uma
forma baseada em controle de ’erro’ denotado pela diferença de ativação temporal
dos neurônios dopaminérgicos. Conforme demonstrado na Figura 15, a conseqüência recebida é pareada com o estado atual do organismo, possibilitando o organismo
resgatar a conseqüência (expectativa) quando esse estado for revivenciado no futuro
e utilizá-lo para direcionar o curso de suas ações para maximizar as recompensas e
minimizar as punições (DAYAN; BALLEINE, 2002), (SEYMOUR; SINGER, 2007).
O subsistema de valoração usa um sinal semelhante dos neurônios dopaminérgicos
Figura 15: Repetidos pareamentos entre um determinado estado e a conseqüência
recebida no mesmo permite ao organismo antecipar a conseqüência denotada quando
o estado for novamente vivenciado no futuro.
para modificar as associações entre um estado -> ação -> conseqüência. Conforme
demonstrado na Figura 16, a conseqüência recebida reforça a associação entre o estado que o organismo se encontra, a ação executada e a especifica conseqüência
recebida no episódio vivenciado, de forma que as ações associadas a uma boa recompensa são escolhidas com mais freqüência futuramente (SEYMOUR; SINGER, 2007),
(LEWIS, 2005).
Existe uma suposta correlação entre os subsistemas apresentados anteriormente e
Figura 16: O reforço das associações entre um estado, ação e conseqüência: Se uma
ação é executada enquanto o organismo se encontra em um determinado estado leva
a uma conseqüência prazerosa, então esse cenário é reforçado.
o sinal de ativação dos neurônios dopaminérgicos que projetam-se sobre as regiões
2.3 Considerações Finais
49
ventral e dorsal estriada. Lesões e imagens de estudos realizados com humanos
sugerem que as regiões ventral e dorsal estriada possuem funções distintas no aprendizado operante. O primeiro está implicado no papel abstraído pelo subsistema de expectativa (predições de recompensa) e o último está implicado no papel referente ao
subsistema de valoração (modulação das associações estado -> ação -> conseqüência) (ODOHERTY, 2004).
Odoherty (2004) submeteram participantes de sua pesquisa a várias tarefas de condicionamento operante, em que as pessoas realizavam escolhas que resultavam em
recompensas, ou não. Durante os testes foram colhidos dados imagens por ressonância magnética (FRMI) para avaliar as partes do cérebro envolvidas a cada fase das
tarefas, separadas em dois tipos: tarefas que envolvem as predições indicadas por
um determinado estímulo, sem que seja realizada a seleção de uma ação e tarefas
em que seria necessário realizar a escolha de uma ação a ser executada.
Imagens revelaram que Ventral estriado corresponde ao subsistema de expectativa,
mostrando que essa região do cérebro atua ativamente sobre as predições de recompensa (expectativas) associadas a um determinado estado, utilizando uma forma de
’erro’ denotado pela diferença de ativação temporal dos neurônios dopaminérgicos
para atualizar sucessivas predições futuras (DELGADO; MILLER, 2005).
Já o dorsal estriado corresponde ao subsistema de valoração, pois as imagens mostraram atividade neural intensa para as tarefas em que os participantes necessitavam
tomar decisões.
2.3 Considerações Finais
Durante todo o capítulo, o condicionamento clássico e o condicionamento operante
foram apresentados como se fossem aspectos totalmente separados no comportamento. Entretanto, é notório que há inter-relações entre os dois; afinal, os organismos
estão constantemente produzindo muitas respostas, tanto reflexas quanto operantes.
Neste sentido, a distinção entre os dois tipos de aprendizagem é apenas uma maneira
de simplificar a análise do comportamento, dividindo-o em sistemas de origem reflexa
e operante.
Pelo que vimos o condicionamento clássico é um processo de aprendizagem associativa envolvendo respostas reflexas inatas e involuntárias presentes na grande maioria
dos seres vivos. A aprendizagem envolvida no processo consiste em criar um repertó-
2.3 Considerações Finais
50
rio básico de comportamentos forjando associações entre estímulos neutros advindos
do ambiente e estímulos não-condicionados, responsáveis por disparar respostas reflexas fixadas ao longo da história de evolução da espécie. Essa associação ocorre
em experiências bem específicas vivenciadas pelo agente, em que um NS deve ser
apresentado e logo em seguida (numa curta janela de tempo - aproximadamente 1
segundo) o US deve ser apresentado, caso contrário não ocorrerá a aprendizagem,
como observado nas descrições feitas por SQUIRE e KANDEL (2003). Depois de
forjada a associação entre US e CS, a resposta reflexa, antes disparada automaticamente pela apresentação de US, é deslocada para exatamente após a apresentação
de CS, de modo que a resposta reflexa antecipe a presença de US (SCHULTZ, 1997).
Um fenômeno também muito importante para que essa associação seja altamente
adaptativa é a fase de extinção. Caso o CS não mais preceda a apresentação de US,
ou seja, eles sejam percebidos desemparelhados pelo organismo, a associação entre
eles vai se tornando cada vez mais fraca, até que seja cessada. Isso significa que a associação entre dois estímulos forjada pelo condicionamento clássico não é persistente
e que vai sendo modulada de acordo com as experiências do organismo em que CS e
US são apresentados emparelhados (fase de aquisição) ou CS é apresentado desemparelhado do US (fase de extinção). Vale frisar que o nível de variação da associação
entre CS e US não depende somente do número de experiências (aquisição/extinção)
em que os mesmos são apresentados emparelhados, ou não, mas também pela importância biológica relacionada aos estímulos envolvidos na associação. Estímulos
primitivos relacionados à sobrevivência são mais facilmente associados do que outros
estímulos, ou seja, a associação entre CS e US é forjada com um número menor de
experiências do que para outros tipo de estímulos não relacionados diretamente com
a sobrevivência do animal.
Já o condicionamento operante é um processo de aprendizagem envolvendo respostas voluntárias que possibilita ao organismo criar um repertório de comportamentos
mais elaborado, associando uma ação voluntária executada à conseqüência recebida
após a execução da mesma, de modo que, em experiências futuras e sob a mesma
situação, seu comportamento seja modulado pelas suas experiências passadas, após
serem valoradas cognitivo-emocionalmente.
No âmbito da psicologia, para o condicionamento operante, o trabalho de Skinner
tornou-se um arcabouço teórico-conceitual amplamente conhecido e utilizado nos estudos referentes ao comportamento voluntário. A classificação dos estímulos quanto
à influência que eles exercem no comportamento e as contingências de reforçamento
2.3 Considerações Finais
51
(seção 2.2.1.1) fornecem parâmetros importantes para analisar, observar e mensurar
o comportamento resultante da aprendizagem do organismo. Também relacionado ao
trabalho de Skinner, o processo de modelagem do comportamento permite influenciar
o comportamento do organismo controlando o oferecimento de reforçadores correspondentes ao comportamento desejado.
No âmbito da biologia, o condicionamento operante tem sido tratado como composto
de dois diferentes processos cerebrais: um sistema de expectativas que aprende a
predizer recompensas futuras para um determinado ’estado’ e um subsistema de valoração, que possibilita o aumento/diminuição da freqüência de uma determinada ação
pela conseqüência recebida após a sua execução.
É importante destacar que, no contexto do presente trabalho, o ’estado’ de um organismo engloba a sua situação interna e a situação do seu ambiente em um determinado instante (MATURANA, 2001). Neste sentido, o ’estado’ já envolve uma emoção
subjacente, que influencia o comportamento do organismo e faz com que as suas
ações não sejam definidas apenas pelo seu ambiente, mas também pela sua situação emocional no episódio vivenciado. Por exemplo, vamos supor que um organismo
aprenda a empurrar um determinado obstáculo para receber comida. Se o organismo
estiver com fome, a ação de empurrar o obstáculo será selecionada mais frequentemente, porém, caso o organismo esteja saciado, a ação de empurrar será executada
menos frequentemente quando o organismo for exposto ao obstáculo novamente.
Neste capítulo, foram então detalhados aspectos relevantes das duas perspectivas
(psicologia e biologia) visando entender e modelar a aprendizagem do agente via condicionamento. Tais aspectos contribuíram para formar um arcabouço teórico-conceitual
que pretende-se retratar no modelo proposto e apresentado no capítulo 4.
52
3
Alguns modelos
computacionais envolvendo
aprendizagem associativa
O condicionamento tem sido amplamente utilizado nas pesquisas referentes à modelagem e construção de agentes artificiais autônomos psicobiologicamente inspirados. Embora nenhum trabalho seja relacionado à concepção de ’um mecanismo de
condicionamento’ propriamente dito, pesquisadores utilizam os princípios do condicionamento sempre com o mesmo objetivo: conceber um mecanismo de aprendizagem
associativa que permita o agente ampliar e ajustar o seu repertório comportamental
visando a maximização de recompensas e a minimização de punições.
Este capítulo tem como objetivo analisar alguns modelos computacionais de agentes
de software/hardware que sejam inspirados biologicamente e utilizem o condicionamento para conceber os processos de aprendizagem desses agentes.
3.1 O modelo da Amígdala
O trabalho descrito na tese de doutorado de Morén (2002) propõe um mecanismo de
aprendizado baseado na teoria de Mowrer (1973), que trabalha conjuntamente com
o condicionamento clássico e operante, denominada por ele ’Modelo dois-processos’.
Segundo Mowrer (1973), o aprendizado é suposto ocorrer em duas etapas. Primeiro,
os estímulos percebidos pelo organismo são emocionalmente avaliados via condicionamento clássico. Na segunda etapa, o sistema faz uso da avaliação realizada e do
contexto (estrutura interna e ambiente) propiciado pelo episódio experimentado para
reforçar/inibir o comportamento executado.
O Condicionamento Clássico é compreendido aqui como um mecanismo que atribui
uma valoração emocional para cada estímulo ou combinação de estímulos percebidos
3.1 O modelo da Amígdala
53
pelo agente. Já o condicionamento operante é compreendido como um condicionamento secundário de uma resposta para um conjunto de estímulos específicos, em
que todas as propriedades do condicionamento clássico são utilizadas no condicionamento operante.
Seguindo a base arquitetural descrita anteriormente, Morén (2002) concebeu o Modelo da Amígdala, formado conceitualmente pela amídala e pelo córtex orbitofrontal
(COF), que implementa a primeira etapa de aprendizado do modelo ’dois-processos’,
sendo portanto, um sistema que atribui uma valoração emocional a estímulos.
De um modo geral, a função da amídala abstraída para o modelo é a de associar a
significância emocional de um estímulo não-condicionado a um estímulo neutro percebido pelo agente, seguindo o princípio básico da contigüidade temporal descrito no
capítulo 2 para que essa associação seja forjada, isto é, o estímulo neutro e o estímulo
não-condicionado devem ser apresentados emparelhados. Como pode ser percebido,
o subsistema da amígdala implementa a fase de aquisição do condicionamento clássico. Já o COF trabalha para inibir essa associação emocional indicada pela amígdala
quando o estímulo condicionado é apresentado isoladamente, sem a presença do estímulo não-condicionado. Dessa forma, o subsistema COF realiza a fase de extinção
do condicionamento clássico. Maiores detalhes sobre a fundamentação biológica do
modelo podem ser encontrados em Morén (2002).
Conforme ilustra o esquema da Figura 17, o subsistema da amídala recebe estímulos
neutros percebidos através do tálamo e áreas corticais e também o sinal da valoração
emocional inata dos estímulos não-condicionados. Já o COF recebe o sinal de entrada das áreas corticais, o sinal de valoração emocional produzido pela amídala para
os estímulos e o sinal da valoração inata dos estímulos não-condicionados.
Para o subsistema da amígdala, existe um nodo A para todo estímulo neutro S percebido pelo agente.
Para cada nodo A, existe um peso de conexão V (valoração emocional do estímulo).
O peso das conexões V são ajustadas proporcionalmente pela significância emocional indicada pelo estímulo não-condicionado, quando os mesmos forem apresentados
emparelhados.
A principal característica existente neste modelo é que o peso das conexões V não
decresce. Sendo assim, se uma valoração emocional é aprendida (associada a um
estímulo condicionado), ela torna-se permanente. Inibir essa valoração quando ’inapropriada’, isto é, quando o estímulo condicionado é apresentado isoladamente (sem
que o estímulo não-condicionado seja também apresentado) é tarefa do COF.
3.1 O modelo da Amígdala
54
Figura 17: O Modelo da Amídala.
Fonte: Morén (2002).
3.1 O modelo da Amígdala
55
Os nodos O do subsistema COF funcionam analogamente aos nodos A da amídala,
com peso da conexão W aplicados como sinal para minimizar ou inibir a valoração
emocional associada ao estimulo condicionado.
O resultado do modelo contemplando o sinal de valoração dos estímulos condicionados (dado pelo subsistema da amígdala) e o sinal de inibição da valoração indicada
para tais estímulos (indicado pelo subsistema COF) é dado pelo nodo E, sendo que
este sinal será utilizado pelo condicionamento operante para direcionar o comportamento do agente.
3.1.1 Algumas considerações sobre o modelo
O trabalho de Morén (2002) acopla outros subsistemas e características, porém somente os aspectos relacionados ao condicionamento foram abordados no presente
trabalho.
Como limitação de seu trabalho, reconhecida pelo próprio autor, a ausência de um
sistema de contexto (restante do sistema nervoso central e de um corpo), de um sistema motor que pudesse exibir a saída do modelo proposto e também um sistema de
condicionamento operante que atuasse na escolha das ações executadas, fez com
que o seu sistema ficasse incompleto, ou melhor dizendo, ainda por ser completado.
Conforme descrito anteriormente, o conceito de condicionamento clássico abstraído
pelo modelo da amígdala consiste em associar uma valoração emocional inata disparada por um estímulo não-condicionado a um estímulo neutro percebido pelo agente.
Essa valoração realizada será utilizada pelo condicionamento operante para direcionar a seleção das ações a serem executadas.
Como visto no capítulo 2, o conceito utilizado guarda pouca correlação com o que
se denota por condicionamento clássico na psicobiologia, em que estímulos neutros,
quando associados a um estímulo não-condicionado, disparam respostas reflexas inatas existentes.
3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos
56
3.2 Modelo de diferença temporal baseado na ativacão
dos neurônios popaminérgicos
Schultz (1997), fundamentando-se nos resultados obtidos em seus experimentos (que
identificaram basicamente uma correlação entre a percepção de estímulos não - condicionados / condicionados e a ativação dos neurônios dopaminérgicos) descritos no
capítulo 2 e no algoritmo TD (do inglês, Temporal Difference Algorithm) concebido por
Sutton e Barto (1986), elaborou um modelo computacional que capacita o agente a
aprender e manter predições de recompensa associadas a um determinado estímulo
do ambiente (definido por ele de ’sugestão do ambiente’) e a utilizar essas predições
para influenciar na escolha das ações executadas pelo agente. É imprescindível ressaltar que a concepção de recompensa adotada por Schultz (1997) em seu trabalho é
a percepção de um estimulo não-condicionado.
O objetivo do modelo, portanto, consiste em aprender a usar os estímulos sensoriais
neutros percebidos no ambiente para predizer a ocorrência de futuras recompensas
(estímulos não - condicionados) indicadas por eles.
Neste modelo (apresentado na Figura 18), um estímulo condicionado é representado
por um vetor X(t) = x1 (t), x2 (t), ... que indica a predição de ocorrência do estímulo
condicionado no tempo. Cada xi (t) está associado a um peso de recompensa wi , que
é justamente a valoração (recompensa) de um estímulo não-condicionado quando
apresentado emparelhado com o xi (t). Por exemplo, se um estímulo condicionado,
como uma luz, é apresentado no instante s, então X(s+1) = 1, X2(s+2)=1 representam a ocorrência da luz nos tempos 1 e 2 ciclos no futuro, enquanto w1 e w2 são
os respectivos pesos de recompensa associados a ele. A rede de predição V̂ para
um determinado estímulo ao longo do tempo é alcançada pela expressão da Figura
18, que consiste no somatório dos pesos das recompensas associadas aos estímulos
condicionados:
Com base na rede de predição V̂ recuperada para um estímulo condicionado apresentado e a recompensa r(t) realmente recebida (apresentação do estimulo não - condicionado), o erro de predição δ (conhecido na literatura como TD Error - do inglês
Temporal Difference Error ) é calculado em VTA, componente que abstrai o conceito
da área tegmental ventral (do inglês, Ventral Tegmental Area) responsável por calcular
o erro (TD Error ) da predição de recompensa esperada em relação à recompensa realmente recebida para o ciclo. O erro calculado é usado para melhorar as estimativas
de V̂ e, consequentemente, ajudar o agente escolher ações mais apropriadas. Com
3.2 Modelo de diferença temporal baseado na ativacão dos neurônios popaminérgicos
57
Figura 18: Representação temporal de um estímulo condicionado e a manutenção e
uso do erro de predição.
Adaptado de Schultz (1997).
essa realimentação, a predição esperada para um determinado estímulo condicionado
converge para a recompensa realmente recebida ao longo do tempo.
3.2.1 Algumas considerações sobre o modelo
O mecanismo apresentado baseou-se no sinal dos neurônios dopaminérgicos para
aprender e manter predições de ocorrência de um estímulo não-condicionado (tratado
como recompensas) para um determinado estímulo condicionado ao longo do tempo.
O objetivo do modelo é utilizar as predições aprendidas para que o agente possa identificar a expectativa de recompensas futuras vinculadas a um determinado estímulo e
utilizá-las para escolher a ação que será executada e guiar o comportamento.
Uma limitação crítica do trabalho é o conceito de representação do estímulo condicionado através do tempo. De acordo com o próprio autor, não é possível identificar e
demarcar o quão distante no tempo as predições relacionadas a apresentação de um
estimulo condicionado podem e devem ser feitas.
A concepção adotada no trabalho para o condicionamento clássico é de um sistema
de expectativa e não um processo de aprendizagem associativa que envolve respostas reflexas inatas.
3.3 A arquitetura Darwin
58
Na nossa concepção, um sistema de expectativas influencia e faz parte de um processo que envolve respostas voluntárias escolhidas pelo agente, ou seja, fazem parte
de processos de condicionamento operante, como será visto no modelo proposto no
capítulo 4.
3.3 A arquitetura Darwin
Um exemplo do condicionamento aplicado à robótica é a arquitetura Darwin, que
vem sendo desenvolvida no Neuroscience Institute (KRICHMAR; EDELMAN, 2003). A
despeito do projeto contemplar a construção de um mecanismo de aprendizado, há
também uma motivação biológica. Tal mecanismo pertence há uma classe chamada
brain-based-devices, em que sua operação é analisada de maneira a obter indícios da
operação de um sistema nervoso real. Após quase 17 anos de pesquisa, a arquitetura
encontra-se na versão XI. Entretanto, discutiremos apenas a versão VII disponibilizada
em 2002, que incorporou os mecanismos de condicionamento clássico e operante à
arquitetura.
Darwin VII foi implementada em um robô que consiste de uma base móvel equipada
com câmeras para o sistema de visão, microfones para o sistema de audição, sensores de condutividade para ’degustação’ (avaliação de um estimulo recebido) e componentes efetores para movimentar a base, a cabeça e a garra, como pode ser visto na
Figura 19.
O comportamento de Darwin VII é guiado por um sistema nervoso (cujo modelo
foi inspirado no sistema nervoso dos vertebrados) composto por seis sistemas que
fazem a simulação do cérebro artificial (conforme esquema apresentado na Figura
20): um sistema de audição (LCoch e RCoch, A1), um sistema de visão (R, VAp, IT),
um sistema de degustação (Tapp , Tave ), um conjunto de neurônios motores capazes
de disparar o comportamento, um sistema de rastreamento visual (C) e um sistema
de valoração (S). O sistema nervoso completo contém 19.556 neurônios, compondo
aproximadamente 450.000 sinapses entre as unidades neuronais.
A simulação é baseada em ciclos de aproximadamente 200 milissegundos, período
em que as captações sensoriais são processadas, a atividade das unidades neuronais
é computada, os pesos das conexões são atualizados e, por fim, a resposta motora é
gerada.
Darwin VII possui um conjunto de comportamentos pré-definidos pela equipe que o
3.3 A arquitetura Darwin
59
Figura 19: Darwin VII em seu ambiente.
Fonte: Krichmar e Edelman (2002).
Figura 20: Esquema do sistema nervoso de Darwin VII.
Adaptado de Krichmar e Edelman (2002).
3.3 A arquitetura Darwin
60
projetou: evitar obstáculo, exploração visual, aproximar, agarrar e degustar e duas
classes de respostas reflexas inatas (Apetitivas e Aversivas) despertadas ao agarrar
os cubos. A seleção dos comportamentos fica sob controle da simulação do sistema
nervoso.
O ambiente de Darwin VII (Figura 19) consiste em um área plana fechada com 6 cubos
metálicos cobertos por tiras ou bolhas dispostos no ambiente. Cubos com bolhas na
superfície apresentam baixa condutividade elétrica e emitem um som de 3khz e cubos
com tiras na superfície apresentam alta condutividade elétrica e emitem um som de
3.9 khz.
Nos experimentos de condicionamento clássico, Darwin VII é treinado para associar
a valoração dos objetos (apetitivo ou aversivo) com as suas características visuais ou
auditivas. Objetos com baixa condutividade são associados de maneira inata a valores aversivos, já objetos que possuem alta condutividade são associados de maneira
também inata a valores apetitivos. Darwin VII, através de sua experiência, aprende a
associar os estímulos visuais de bolha e som a 3 khz com a valoração aversiva e os
estímulos visuais de tiras e som de 3,9 khz com valoração apetitiva.
Durante os treinamentos de condicionamento (Figura 21), Darwin VII agarra os blocos
e ao medir sua condutividade elétrica dispara respostas reflexas apetitivas ou aversivas, conforme o caso. Durante esse período, as unidades neuronais de degustação
acionam o sistema de valoração (S) que, em seguida, atua nas unidades neuronais
motoras (Mapp e Mave ) causando a resposta motora conforme a valoração elicitada.
Depois de condicionado, o sistema de valoração e, posteriormente, as unidades neuronais motoras são imediatamente ativadas pelo sistema visual após o aparecimento
de um estimulo condicionado visual ou pelo sistema auditivo, após a percepção de um
estimulo condicionado sonoro. A atividade do sistema de valoração que era disparada
nos treinamentos pelo estimulo não-condicionado (condutividade elétrica) passa a ser
disparada pelo estímulo condicionado, bolha/tira ou som mais grave/agudo.
Krichmar e Edelman (2002) destacam que esse deslocamento é análogo ao deslocamento de ativação dos neurônios dopaminérgicos de Schultz (1997). Depois de
associar as características visuais com a valoração disparada pela condutividade elétrica dos blocos do ambiente, Darwin VII continuava a pegar blocos com valoração
apetitiva (tiras), mas evitava blocos com valoração aversiva (bolhas).
Como demonstrado anteriormente na Figura 21, estímulos visuais neutros são associados com a degustação (respostas apetitivas ou aversivas), onde a resposta condicionada é eliciada por aproximadamente 70% a 90% das vezes em que o estímulo
3.3 A arquitetura Darwin
61
Figura 21: Procedimento de aquisição do condicionamento clássico pela Darwin VII.
condicionado é apresentado, portanto, nunca alcança a perfeição e ocasionais erros
ocorrem.
Em relação ao condicionamento operante, a incorporação de tal mecanismo na arquitetura permitiu o desenvolvimento de categorias de respostas voluntárias através das
alterações nos pesos das conexões sinápticas da simulação do cérebro.
A ativação do sistema de valoração (S) sinaliza a ocorrência de eventos sensórios que
contribuem para a modulação dos pesos entre as conexões sinápticas. Por exemplo,
degustar um bloco agarrado pela Darwin VII contribui para reforçar ou inibir o comportamento através da alteração dos pesos sinápticos, como conseqüência do comportamento realizado.
Como já mencionado, Darwin VII possui um conjunto pré-definido de comportamentos que são selecionados pela simulação do sistema nervoso. Respostas apetitivas
e aversivas são selecionadas inicialmente pela degustação, mas depois dos treinamentos de condicionamento clássico, essas respostas são disparadas pelos estímulos visuais e auditivos. Depois de condicionado, Darwin VII continua a agarrar blocos apetitivos, mas aprende a evitar blocos aversivos em até 90% dos casos. Desse
modo, Darwin VII consegue desenvolver um repertório comportamental, que consiste
basicamente em aumentar a probabilidade de executar as ações que o levam a uma
valoração apetitiva e a diminuir a probabilidade de executar ações que o levam a con-
3.4 Comunicação simbólica entre criaturas
62
seqüências aversivas, levando em consideração os estímulos percebidos no ambiente.
3.3.1 Algumas considerações sobre o modelo
Como descrito anteriormente, os conceitos do condicionamento clássico e operante
foram utilizados para a construção da arquitetura Darwin VII. Na concepção adotada
para o condicionamento clássico, as respostas reflexas são valorações (apetitivas ou
aversivas) inatas disparadas pela condutividade elétrica dos objetos e a aprendizagem
consiste em associar estímulos neutros advindos do ambiente (visuais e auditivos) a
essas valorações, de modo que um estímulo condicionado dispare a valoração inata
após a sua apresentação.
Para o condicionamento operante, a concepção adotada consiste em utilizar a aprendizagem forjada mediante o condicionamento clássico, ou seja, a valoração (apetitiva
ou aversiva) associada aos objetos do ambiente, para desenvolver um repertório comportamental que o leva a aproximar e interagir com objetos que disparam uma resposta
reflexa inata apetitiva e a evitar objetos que disparam respostas reflexas inatas aversivas.
A arquitetura apresentada não compreende uma valoração completa de um episódio
vivenciado, conforme princípios básicos do condicionamento operante. A freqüência
das ações executadas é ajustada conforme valoração inata reflexa, embutida na arquitetura e não por uma avaliação resultante do episódio vivenciado.
A arquitetura também não visa a auto-regulação do sistema, portanto as ações estão
sempre voltadas para a busca de recompensas, independente das necessidades do
agente. Neste sentido, a arquitetura não envolve uma emoção subjacente, que influencia o comportamento do robô.
3.4 Comunicação simbólica entre criaturas
O trabalho de Loula (2004) apresenta uma nova abordagem sobre os processos de
fundamentação de representações simbólicas em que agentes/criaturas autônomas
artificiais conseguem interagir e aprender a comunicar-se via aprendizagem associativa.
Segundo Loula (2004), o conceito de ’símbolos’ utilizado pelo trabalho se difere do
3.4 Comunicação simbólica entre criaturas
63
conceito de representações intrínsecas de objetos captados pelo agente e representados em sua mente, fim atribuído pelas ciências cognitivas tradicionais.
A pesquisa contempla uma rica discussão acerca dos problemas referentes à interpretação dos símbolos enfrentados pela inteligência artificial e apresenta uma proposta
para uma nova conceitualização dos símbolos inspirando-se na biologia e na etologia,
porém o presente trabalho destacará apenas a estratégia de aprendizagem associativa utilizada pelos agentes. Para maiores informações, refira-se a Loula (2004) e
referências lá citadas.
Como inspiração para a pesquisa, foi utilizado o caso etológico da comunicação dos
macacos vervets. Esses animais possuem 3 tipos principais de predadores, sendo
eles: terrestre (como o tigre), aéreo (Águia) e rastejante (cobras). Para fugir de seus
predadores, os macacos desenvolveram fugas específicas para cada tipo de ataque.
Um fato a ser ressaltado é que os macacos emitem diferentes sons para cada tipo
de predador percebido no ambiente, desencadeando assim o comportamento de fuga
referente ao tipo de predador indicado pelo som. De acordo com o autor, estudos
mostram que essa comunicação realizada entre os macacos não é inata, mas pelo
contrário, é resultante de um aprendizado associativo ontogenético.
Baseado no arcabouço teórico da etologia e da teoria semiótica de Peirce, Loula
(2004) construiu uma aplicação de Vida Artificial para simular a emergência de comunicação para alerta de predação entre as criaturas via aprendizagem associativa.
O mundo virtual é composto de criaturas (presas e predadores) e objetos do mundo
(árvores e arbustos). As presas são divididas em instrutores e aprendizes, sendo que
os instrutores conseguem emitir alarmes e já conhecem quais alarmes usar para cada
tipo de predador. Os predadores correspondem aos mesmos tipos identificados anteriormente para os vervets. A capacidade sensorial das presas inclui um sistema de
audição e visão, já os predadores possuem somente o sistema de visão. Além de
entradas sensoriais, as criaturas possuem também saídas correspondentes a ações
motoras. Após cada iteração, as criaturas selecionam as ações que serão executadas, sendo elas: ajustar sensor de visão, movimentar-se, atacar, subir em árvore,
esconder-se em arbusto e vocalizar alarme, sendo que as três últimas são especificas
das presas, enquanto os ataques são específicos para os predadores.
A seleção das ações é realizada levando em consideração três elementos: comportamentos, motivações e drives, como pode ser visto na Figura 22.
O mecanismo de seleção de comportamentos se baseia na motivação que define a
relevância de cada comportamento para um determinado estado. O estado que de-
3.4 Comunicação simbólica entre criaturas
64
Figura 22: O mecanismo de seleção de ação baseado em comportamentos. Com
base nas entradas sensoriais e nos drives, cada comportamento indica sua motivação
para atuar, aquele que tiver o maior valor será selecionado e suas ações irão para os
atuadores.
Fonte: Loula (2004).
fine a motivação é influenciado pelos dados sensoriais captados pela criatura e nos
drives internos (necessidades básicas), como a fome e o medo. Como pode ser visto
na Figura 22, as tendências para as ações da criatura estão pré-definidas para um
determinado estado da criatura.
Como discutido anteriormente, os macacos aprendizes não conseguem interpretar e
muito menos emitir os alarmes referentes à presença de predadores. Essa comunicação, portanto, não é uma capacidade inata da criatura, ela é aprendida ao longo da
vida da criatura via aprendizado associativo.
O aprendizado associativo permite aos macacos aprendizes a associar estímulos externos advindos do ambiente aos estímulos sonoros emitidos pelos macacos instrutores referentes a cada tipo de predador. Quando um instrutor emite um alarme, o
aprendiz realiza um escaneamento visual em direção ao instrutor responsável pela
emissão do estimulo sonoro. Caso um estímulo visual, como a imagem do predador,
seja detectada, a associação entre o alarme e o estímulo visual do predador será incrementada.
Os processos envolvendo os estímulos e a associação entre eles foram descritos no
modelo em termos de ícones, índices e símbolos, fundamentados pela semiótica de
Peirce. Os ícones estão relacionados simplesmente com o reconhecimento sensorial
de um estímulo externo e pertencente ao domínio representacional primário dos estímulos captados pela criatura (RD1). Já os índices resultam da associação entre os
3.4 Comunicação simbólica entre criaturas
65
dois estímulos (auditivo e visual) quando eles co-ocorrem em RD1, como pode ser
visto no esquema de aprendizagem associativa do modelo, apresentado na Figura 23.
Caso a aprendizagem/associação atinja um nível ’ótimo’, o estímulo condicionado
Figura 23: Aprendizado associativo, dos sensores à memória associativa. Os sensores recebem os estímulos externos que são mantidos na memória de trabalho, e
usados pela memória associativa para criar diferentes relações entre estímulos.
Fonte: Loula (2004).
torna-se um símbolo, definido no trabalho como uma ’regra de ação’, que permite inclusive predizer o futuro. Nesse caso, quando o alarme tornar-se uma regra, esse
estímulo assume uma ligação direta com o predador, fazendo com que a resposta de
fuga vinculada ao predador seja imediatamente emitida.
No modelo, os dados sensoriais são recebidos pelas respectivas memórias de trabalho, tidas como um repositório de estímulos sensoriais temporários. Os itens disponíveis nas memórias de trabalho são usados pela memória associativa para forjar a
associação entre estímulos visuais e auditivos. Quando os estímulos são percebidos
emparelhados pela criatura, a memória cria/reforça uma associação entre eles, como
pode ser visto na Figura 24.
As associações forjadas passam por ciclos de ajuste positivo e negativo variando
em conseqüências das experiências da criatura com os estímulos, fazendo com que o
estímulo visual convirja para o estímulo auditivo que ele ’representa’, contendo assim,
3.4 Comunicação simbólica entre criaturas
66
Figura 24: Reforço e Enfraquecimento de associações. (a) Quando co-ocorrem a
existência de um estímulo visual e de um estímulo auditivo nas memórias de trabalho,
a associação entre eles é reforçada e então inibida contra alterações. (b) Quando
estes estímulos saem da memória de trabalho, as associações da qual fazem parte
na memória associativa são enfraquecidas se não estiverem inibidas.
Fonte: Loula (2004).
as relações referenciais mais apropriadas.
As relações formadas na memória associativa são responsáveis por produzir um comportamento emergente na criatura fazendo com que um comportamento de fuga seja
desencadeado simplesmente ao ouvir o alarme. Essas associações também influenciam os drives e consequentemente os comportamentos resultantes de uma realimentação da memória associativa.
Essa realimentação ocorre quando um alarme é ouvido, e este está associado com um
estímulo visual de predador. Nesse caso, a memória associativa envia um estímulo
interno para alterar o drive de medo, fazendo com que o comportamento de fuga seja
emitido como se o predador tivesse sido apresentado para a criatura. A associação
entre os estímulos (alarme e predador) é utilizada para atualizar o drive de medo da
presa, portanto, quanto maior a força da associação, maior será o medo ’sentido’ pela
criatura.
3.4.1 Algumas considerações sobre o modelo
Embora o trabalho de Loula (2004) não implemente processos de condicionamento de maneira explícita, ele apresenta um rico modelo de aprendizagem associativa mostrando que é possível aos agentes forjarem símbolos lingüísticos (isto é,
construir conotações para símbolos) a partir da formação de um domínio consensual
3.5 Considerações Finais
67
de condutas (MATURANA, 2001) no seu ambiente, o que é equivalente a dizer que a linguagem, numa comunidade de agentes, não é inata, mas surge a partir da reificação
dos objetos e da formação de um domínio consensual, o qual é constituído a partir de
processos de aprendizagem associativa (estabelecimento de relações indiciais).
3.5 Considerações Finais
Como pode ser claramente notado com os modelos apresentados nesse capítulo, pesquisadores da área da IA têm buscado se apropriar e recontextualizar uma série de
concepções sobre o condicionamento clássico e operante, de modo a utilizá-los para
modelagem de agentes artificiais biologicamente inspirados. Em essência, a maioria deles reconhece a importância do condicionamento como mecanismo primitivo e
basal para a aprendizagem associativa. Ainda assim, embora exista referenciais teóricos coerentes para a criação de agentes artificiais que incorporem os processos de
condicionamento, não nos foi possível identificar tal corpo de conhecimento de forma
consolidada, pois estão dispersos na literatura de várias áreas.
Como visto, a concepção adotada nos trabalhos para o condicionamento clássico despreza completamente a resposta reflexa automática e inata (como salivação, piscar de
olhos) existente na grande maioria das espécies e crucial para a sobrevivência. Tanto
Krichmar e Edelman (2002) quanto Morén (2002) adotam a definição de que a resposta provocada por um estímulo não-condicionado desperta apenas uma valoração
emocional interna no agente.
Já a concepção adotada para o condicionamento operante, no que diz respeito a
freqüências das ações executadas pelo agente, Schultz (1997) utiliza as predições
aprendidas para um determinado estímulo para influenciar na escolha das ações executadas. Krichmar e Edelman (2003) utilizam uma valoração inata (apetitiva ou aversiva) associada aos objetos do ambiente (via condicionamento clássico), para desenvolver um repertório comportamental que aumente a probabilidade do agente aproximar e interagir com objetos que disparam uma resposta reflexa inata apetitiva e, por
outro lado, aumente a probabilidade do agente evitar objetos que disparam uma resposta reflexa inata aversiva. No entanto, na literatura referente à área de teoria da
emoções e mesmo, abrindo o leque, na literatura das ciências cognitivas, há sérias
restrições quanto à possibilidade de se caracterizar o fato de uma resposta ser apetitiva ou aversiva como respostas componentes de um par estímulo -resposta reflexa,
3.5 Considerações Finais
68
como proposto por Krichmar e Edelman (2003). De fato, não se pode confundir uma
resposta não-condicionada (inata) presente no processo de condicionamento - que
deve ser uma ação motora, corporal - com a valência dessa ação, que é definida com
a avaliação cognitivo-emocional que a ’mente’ faz da ação reflexa recém-executada,
no sentido de avaliar (appraisal) se aquela ação foi, em algum sentido, boa para o organismo (caso em que a valência será positiva, ou apetitiva) ou ruim para o organismo
(caso em que a valência será negativa, ou aversiva). Em síntese,o apetitivo ou aversivo refere-se a uma avaliação de uma ação motora, e não à ação motora de fato, e
para o condicionamento, o que deve ser tomado como reflexo não-condicionado deve
ser uma ação motora e não uma avaliação dessa ação motora.
69
4
Proposta de modelo conceitual
para o mecanismo de
condicionamento
Tomando por base o estudo sobre o condicionamento descrito no capítulo 2, e a dinâmica interna da versão 0.7.5 da arquitetura Artífice (CAMPOS, 2006) discutida no
capitulo 1, será apresentado neste capítulo o modelo proposto para o mecanismo de
condicionamento. Como veremos, este modelo compreende dois subsistemas, inspirados conceitualmente no condicionamento clássico e operante, respectivamente. O
foco principal do modelo foi conceber um mecanismo que permita ao agente construir
um repertório básico de comportamentos visando sua melhor adaptação ao ambiente
em que esteja inserido, e a auto-reajustar esse repertório frente às mudanças que
porventura ocorrerem nesse ambiente.
Para melhorar a legibilidade deste e dos capítulos seguintes, convencionou-se escrever os nomes de classes de software em negrito, iniciando sempre com letras maiúsculas (e.g., ClasseSoftware). Já os métodos serão sempre escritos em negrito porém
iniciados com letras minúsculas, seguidos de ’()’ ao final (e.g., metodoDeClasse()).
Os pacotes de software, quando citados, serão referenciados com seus nomes escritos em itálico (e.g., PacoteSoftware).
4.1 O mecanismo de condicionamento clássico
Os aspectos discutidos no capítulo 2 abstraídos para a modelagem e desenvolvimento
do mecanismo de condicionamento clássico abordam, de um modo geral, a forma com
que estímulos neutros puramente sensoriais advindos do ambiente vêm a eliciar respostas reflexas pré-definidas quando da instanciação ou criação do agente.
Como já relatado no capitulo 1, a dinâmica interna de interações presentes na ar-
4.1 O mecanismo de condicionamento clássico
70
quitetura contempla três níveis de resposta, sendo elas: não-elaborada ou automática ou reflexa, semi-elaborada ou emocional e elaborada ou cognitiva. A resposta
não-elaborada contempla as ações reflexas embutidas no agente e pré-definidas por
ocasião de sua construção, sendo fundamentada nos reflexos desenvolvidos durante
a história de evolução dos seres vivos. Assim como na biologia, essas ações são
disparadas de maneira automática por estímulos específicos advindos do ambiente
(estímulos não-condicionados). Como pode ser percebido, o mecanismo de condicionamento clássico atuará justamente nesse primeiro nível de resposta da arquitetura,
permitindo ao ASCS associar estímulos neutros advindos do ambiente a estímulos
não-condicionados que disparam automaticamente respostas reflexas embutidas no
agente.
Vale destacar que o processo englobado pelo mecanismo de condicionamento clássico não envolve nenhum tipo de valoração emocional, ou seja, a conseqüência obtida
posteriormente ao acionamento da resposta reflexa não é levada em consideração no
processo. Muito embora, como veremos no modelo proposto para o condicionamento
clássico, um dos parâmetros envolvidos é relacionado ao nível de atenção despertado
por um certo estímulo.
Na próxima seção será discutido o modelo conceitual proposto para o mecanismo de
condicionamento clássico.
4.1.1 Sobre a modelagem do mecanismo de condicionamento clássico
O modelo estático do mecanismo de condicionamento clássico proposto pode ser visualizado na Figura 25. Ele está representado por um diagrama de classes e foi
desenvolvido utilizando a Linguagem Unificada de Modelagem - UML (LARMAN, 2004).
O mecanismo de condicionamento (encapsulado pela classe ClassicalConditioning)
ao ser incorporado à arquitetura, permitirá ao ASCS criar um repertório básico comportamental associando estímulos neutros a estímulos não-condicionados que disparam automaticamente respostas reflexas hard-wired 1 . Para isso, o agente deverá
possuir componentes reflexos inatos e sem nenhuma flexibilidade, que estão sempre
associados a uma resposta fixa não-condicionada associada (UR - do inglês, unconditioned response), análoga ao circuito rápido de respostas corporais (CAMPOS, 2006).
1
rigidamente codificada, i.e., não passíveis de serem aprendidos na ontogenia do organismo.
4.1 O mecanismo de condicionamento clássico
71
Figura 25: Diagrama de classes do mecanismo de condicionamento clássico.
Essa função é abstraída no modelo pela classe Reflex. Para todo componente Reflex
existe um estímulo não-condicionado (US - do inglês, unconditioned stimulus) que eliciará a resposta reflexa (UR) associada a ele. É importante salientar que o par US
e UR deve ser definido na construção do agente, ou seja, para cada resposta reflexa
embutida no agente, deve-se definir qual estímulo não-condicionado irá dispará-la.
Essa função de agrupar os UR e US é realizada no modelo pela classe US_UR_Pair.
A aprendizagem provida pelo mecanismo consiste em associar os estímulos neutros
(NS - do inglês, neutral stimulus; representados no modelo pela classe Stimulus)
captados pelo agente durante sua exploração do ambiente aos US que, por sua vez
disparam as respostas reflexas pré-definidas na classe US_UR_Pair. A cada experiência vivida pelo agente (registrada na classe Experience) em que US e NS são
percebidos em conjunto (i.e., emparelhados), a associação entre eles vai sendo reforçada e ajustada em conformidade com uma expressão matemática definida na classe
ConditioningIntensity. O cálculo da intensidade do condicionamento durante as experiências será explicado na seção seguinte.
Observe que, após forjada a associação pelo mecanismo de condicionamento clássico, o estímulo NS que anteriormente era neutro (daí seu nome), deixa de sê-lo,
passando a ser um estímulo condicionado, daí sua nova designação de CS (do inglês
- conditioned stimulus).
4.1 O mecanismo de condicionamento clássico
72
Assim como ocorre com organismos vivos, o agente pode possuir vários componentes
US_UR_Pair, podendo associar a eles diversos NS ambientais, compondo, assim, um
conjunto de condicionamentos de primeiro nível que são alocados e gerenciados no
modelo pela classe PrimaryLevelCCList.
Como já apontado no capítulo 2, os organismos conseguem elaborar condicionamentos de ordem mais elevada, em que o estímulo neutro não é associado diretamente a
um estímulo não-condicionado. No condicionamento de segunda ordem um estímulo
condicionado previamente estabelecido é usado ’como se fosse um’ estímulo nãocondicionado para criar condicionamento a um novo estímulo neutro. Dessa forma,
um estímulo neutro ao ser emparelhado repetidas vezes com um novo estímulo condicionado, ficará fortemente associado a ele, de forma que a apresentação do estímulo
neutro (agora estímulo condicionado) eliciará a resposta reflexa da mesma forma que
o estímulo não-condicionado e o estímulo condicionado do condicionamento de primeira ordem o fazem.
O condicionamento de segunda ordem faz uso dos condicionamentos de primeira ordem estabelecidos disponíveis em PrimaryLevelCCList para realizar as novas associações ’indiretas’ de estímulos neutros a uma UR. A cada experiência em que um
NS e um CS (pertencente a um condicionamento de primeira ordem) são percebidos
emparelhados, a associação entre eles é reforçada exatamente do mesmo modo utilizado no condicionamento de primeiro nível. Assim, ao forjar a associação entre NS e
CS1
2
, NS se tornará um CS de segunda ordem (CS2 ), de modo que a apresentação
de CS2 eliciará a UR associada ao condicionamento de primeira ordem.
Como pode ser percebido, o mecanismo de condicionamento clássico funciona agrupando camadas de modo hierárquico, como pode ser visto na Figura 26.
Na próxima seção será discutido em detalhes a dinâmica de operação do mecanismo
de condicionamento clássico.
4.1.2 A dinâmica de operação do mecanismo de condicionamento
clássico
Como já destacado no capítulo 1 do presente trabalho, o ASCS é composto por componentes periféricos externos e internos ao agente que interagem entre si de forma
não-determinística. Todas as interações entre os componentes ocorrem apenas me2
O prefixo em CS1 indica que tal estímulo já passou por um condicionamento de primeira ordem.
4.1 O mecanismo de condicionamento clássico
73
Figura 26: Diagrama de blocos do mecanismo de condicionamento clássico.
diante troca de estímulos, que foram divididos em dois grupos: estímulos puramente
internos ao ASCS e estímulos advindos do ambiente. A técnica adotada para troca
de estímulos entre os componentes foi a utilização de buffers compartilhados. Considerando que os estímulos foram diferenciados em interoceptivos e ambientais, foram
implementados dois buffers compartilhados para troca de estímulos entre os componentes, denominados InteroceptiveStimuliPool e EnvironmentalStimuliPool. Como
dito, a dinâmica de operação do mecanismo de condicionamento clássico está inserida no primeiro nível de resposta da arquitetura 3 . Devido a isso, a interação entre os
componentes da arquitetura para o primeiro nível de resposta será descrita a seguir e
também demonstrada na Figura 27:
• O componente do sistema periférico PeripheralSystem capta um estímulo externo EnviromentalStimuls no ambiente. O PeripheralSystem executa sua
operação interna, gerando e emitindo um estímulo interno InteroceptiveStimulus ao pool interno (InteroceptiveStimuliPool).
• O componente Sensor correspondente ao componente periférico que captou o
3
O diagrama completo da arquitetura pode ser visto no Anexo A: Arquitetura Artífice 0.9.
4.1 O mecanismo de condicionamento clássico
74
estímulo recebe o InteroceptiveStimulus e ao executar sua operação interna
gera e emite um estímulo adrenérgico IntStiAdrenergic ao buffer.
• O IntStiAdrenergic é, então, recebido pelo componente reflexo Reflex que aciona a resposta reflexa associada a ele emitindo um IntStiSympathetic ao pool.
• O IntStiSympathetic é recebido pelo componente Effector correspondente ao
componente Reflex que, através de sua operação, gera um IntStiSomatic para
exibir o reflexo do ASCS.
• O IntStiSomatic é recebido por um componente pertencente ao PeripheralSystem que na sua operação interna executa a resposta reflexa.
Figura 27: Interações entre componentes da arquitetura na resposta não-elaborada.
Fonte: Campos (2006).
Para maiores detalhes sobre a dinâmica interna entre os componentes da arquitetura,
refira-se a Campos (2006). Os componentes descritos acima são generalizações modeladas na arquitetura que devem ser especializadas englobando as especificidades
desejadas, como por exemplo, a especialização do componente Reflex em um componente Shock que recebe um estímulo não-condicionado que dispara uma resposta
reflexa a ser implementada e definida na construção do agente.
O mecanismo de condicionamento clássico atua justamente nos componentes Reflex
da arquitetura, pois são esses componentes que controlam o momento em que a resposta reflexa será emitida.
4.1 O mecanismo de condicionamento clássico
75
Uma alteração realizada nos componentes do tipo Reflex com o trabalho atual é que
os mesmos buscam no InteroceptiveStimuliPool, além de estímulos não-condicionados
(abstraídos internamente por estímulos IntStiAdrenergic), estímulos neutros, puramente sensoriais, captados pelo agente via PeripheralSystem (Figura 28), como, por
exemplo, sistema visual, auditivo, entre outros.
O mecanismo de condicionamento clássico monitora os estímulos recebidos pelo
Figura 28: Captação de estímulos neutros pareados com estímulos não-condicionados
por componentes Reflex.
Adaptado de: Campos (2006).
componente Reflex visando criar associações entre estímulos não-condicionados e
estímulos neutros captados pelo agente. Para criar ou constituir esta associação entre NS e US, um fator crucial, discutido no capítulo 2, é a contigüidade temporal. Dito
de outra forma, para que ocorra o condicionamento um NS deve ser apresentado e
logo em seguida (numa curta janela de tempo) o US deve ser apresentado, o que
irá disparar automaticamente UR. Após repetidos emparelhamentos, NS ficará fortemente associado ao US.
Essa característica foi contemplada pelo modelo. Durante a sua execução, o componente reflexo busca no InteroceptiveStimuliPool um US e também verifica a presença de estímulos neutros percebidos pelo ASCS. Caso o componente Reflex encontre, naquela varredura do pool, um US e um NS, o mecanismo de condicionamento
reforça a associação entre eles acionando o método acquisition() da classe PrimaryLevelCC. O método acquisition() contempla cada experiência vivenciada pelo agente
4.1 O mecanismo de condicionamento clássico
76
em que um estímulo neutro é percebido emparelhado com um estímulo não condicionado. O seu papel é justamente criar/aumentar o nível de associação/condicionamento
entre os estímulos envolvidos acionando a classe Experience e informando a ocorrência de aquisição de condicionamento. A classe Experience, por sua vez, incrementa
o número de experiências com os componentes envolvidos e aciona a classe ConditioningIntensity para aumentar a associação entre CS e US através do modelo
encapsulado pela classe para ajustar a curva de condicionamento.
O modelo utilizado foi o modelo de Rescorla e Wagner (1972). O cálculo é inicialmente
baseado em duas variáveis:
V = intensidade do acoplamento ou da associação entre um estímulo não-condicionado
(US) e um estímulo condicionado (CS).
∆V = valor de incremento de V a cada experiência ocorrida.
Após uma nova experiência, o valor da associação V será o valor da antiga associação
ajustado com o valor de alteração calculado:
Vnew = Vold + ∆V (eq. 1)
A fórmula apresentada por Rescorla e Wagner (1972) mostra basicamente como ocorrem as alterações da associação entre US e CS durante as experiências. O incremento ∆V é dado por:
∆V = αβ acq (λacq - V), onde: (eq. 2)
α: representa o nível de atenção despertado pelo estímulo, podendo variar entre 0 a
1.
β: representa o peso do estímulo não-condicionado na variação da taxa do condicionamento. O seu valor pode variar de 0 a 1, influenciando diretamente na taxa de
crescimento ou decaimento do nível de condicionamento.
λ: representa o valor máximo da taxa de condicionamento, isto é, o valor que será
atingido assintoticamente.
Assim como descrito no capítulo 2, cada US_UR_Pair possui um valor para a variável
β (dado pela sua importância na sobrevivência do agente), resultando em diferentes
curvas de aquisição para cada par estímulo-resposta. Na Figura 29 os valores foram:
4.1 O mecanismo de condicionamento clássico
77
α = 0,5; β = 1; λ = 100. O eixo x representa o numero de experiências vivenciadas
em que o estímulo condicionado e o estímulos não-condicionado foram apresentados
emparelhados e o eixo y representa a taxa de condicionamento.
Na Figura 30 os valores foram: α = 0,5; β = 0,5; λ = 100.
Figura 29: Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 1; λ = 100.
Conforme simulação realizada anteriormente, após repetidos emparelhamentos, CS
Figura 30: Curva de aquisição do condicionamento em função do número de experiências vivenciadas. Parâmetros α = 0,5; β = 0,5; λ = 100.
ficará fortemente associado a US. Após isso, ao receber um CS sozinho (i.e., desemparelhado do US), o mecanismo de condicionamento clássico aciona o método
checkConditioning() da classe PrimaryLevelCC. A função do método é justamente
4.1 O mecanismo de condicionamento clássico
78
decidir se a resposta reflexa CR será disparada ou não. A decisão não é tomada levando em consideração um limiar associado à intensidade do condicionamento, como
por exemplo, caso o nível de condicionamento seja superior ao limiar de 70% a UR
sempre será disparada, como é feito em boa parte da literatura mais voltada para
a área da engenharia. Em vez disso, a decisão é probabilística, possibilitando que
a mesma seja tomada de maneiras diferentes para uma mesma configuração do modelo. Assim sendo, um número de 0 a 100 é gerado randomicamente e, caso o número
gerado seja menor que a intensidade do condicionamento, checkConditioning() decidirá pelo disparo da resposta não-condicionada (CR). Dito de outra forma, caso a
taxa de condicionamento para um certo estímulo condicionado seja X, então sob a
presença de CS, haverá uma probabilidade de X% de a resposta reflexa ser disparada
e (100 - X)% de não ser disparada.
Caso checkConditioning() decida por disparar a resposta reflexa CR, o mecanismo
de condicionamento faz que com o componente Reflex libere um estímulo para disparar a resposta reflexa, como se um estímulo não-condicionado tivesse sido apresentado. Vale ressaltar que a resposta reflexa, antes disparada reflexivamente pelo US
definido na construção do agente, foi deslocada para exatamente após a apresentação de CS. Dessa forma, o ASCS consegue aprender que um determinado estímulo
(CS) do seu ambiente antecipa a apresentação de um outro estímulo (US), sendo que
este último possui uma significância inata e causa o disparo de uma resposta reflexa
UR. Conforme descrito no capítulo 2, esse deslocamento da resposta reflexa é altamente adaptativo, sendo que a sua implementação no modelo foi inspirado no trabalho
de Schultz (1997), em que o disparo do reflexo é indicado pela ativação dos neurônios
dopaminérgicos.
Tal como ocorre com organismos vivos, a associação entre CS e US forjada pelo
mecanismo de condicionamento não é persistente. Como visto no capítulo 2, caso
somente CS seja percebido pelo agente (na mesma varredura do buffer InteroceptiveStimuliPool) sem que US seja também apresentado, a associação entre eles vai se
tornando cada vez mais fraca. Portanto, ao receber um CS, o mecanismo de condicionamento pode fazer com que o componente Reflex emita um estímulo para eliciar a
resposta reflexa, porém a associação entre um CS e US sofre um decaimento (Figura
31) pelo acionamento do método extinction() da classe PrimaryLevelCC. Caso esse
cenário se repita várias vezes a ligação entre CS e US acaba por ser desfeita.
O método extinction() contempla cada experiência vivenciada pelo agente em que um
estímulo condicionado é percebido pelo agente de modo isolado, sem que o estímulo
4.1 O mecanismo de condicionamento clássico
79
não-condicionado seja apresentado. O seu papel é justamente diminuir o nível de
associação/condicionamento entre os estímulos envolvidos acionando a classe Experience e informando a ocorrência de extinção da curva de condicionamento. A classe
Experience, por sua vez, incrementa o número de experiências com os componentes
envolvidos e aciona a classe ConditioningIntensity para diminuir a associação entre
CS e US através do modelo de Rescorla e Wagner (1972) utilizado na aquisição. A
diferença entre os processos de aquisição e extinção é controlada pelo valor da variável λ (eq. 3). De vez que a taxa de condicionamento tende a aproximar do valor
dessa variável a cada experiência vivenciada pelo agente, caso o valor de λ seja 0,
ocorrerá um decréscimo (∆V) na intensidade do condicionamento para cada iteração,
conforme apresentado na eq. 3.
∆V = αβ ext (λext - V), onde: (eq. 3)
βext: representa o peso do estímulo não-condicionado na variação da taxa do condicionamento. O seu valor pode variar de 0 a 1, influenciando diretamente na taxa de
decaimento do nível de condicionamento.
λext: representa o valor mínimo da taxa de condicionamento, isto é, o valor que será
atingido assintoticamente.
Figura 31: Curvas de aquisição/extinção do condicionamento em função do número
de experiências vivenciadas. A diferença entre os processos de aquisição e extinção
no modelo de Rescorla e Wagner (1972) é controlada pelo valor da variável λ. A
variável β representa o peso do estimulo não-condicionado na variação da taxa do
condicionamento.
4.2 O mecanismo de condicionamento operante
80
4.2 O mecanismo de condicionamento operante
Enquanto o mecanismo de condicionamento clássico trata de ações involuntárias (inatas), o mecanismo de condicionamento operante irá tratar com as ações voluntárias.
Tal mecanismo permite ao agente forjar padrões de comportamento decorrentes das
conseqüências advindas da execução de suas ações no ambiente, aumentando a
ocorrência futura de ações que tenham levado a conseqüências apetitivas e diminuindo a ocorrência de ações que tenham levado a conseqüências aversivas.
O processo encapsulado pelo mecanismo também gera os episódios vivenciados pelo
agente, constituídos pelo estímulo desencadeante, a ação executada no episódio e a
conseqüência do episódio, que será atribuída pelo Sistema de Valoração da arquitetura. Portanto, o processo estabelece a associação de um estímulo do ambiente, a
ação voluntária executada e a referência específica de qual foi a conseqüência recebida.
O processo se inicia quando o agente recebe via seus componentes sensores, estímulos desencadeantes emitidos pelos objetos existentes em seu mundo. Para cada
ação a ser selecionada, o agente recorre aos episódios vivenciados e consequentemente valorados para verificar qual é a expectativa esperada pela interação com o
objeto do mundo emissor do estímulo captado pelo agente. Após a execução da ação,
o Sistema de Valoração compara a recompensa esperada com a recompensa realmente recebida e realiza um ajuste caso a recompensa esperada tenha sido melhor
ou pior que a recompensa recebida. Nesse processo ocorre uma avaliação completa
da situação. A conseqüência é que define a associação (reforça/inibe) entre o par
estímulo - ação e também reforça a ação e uma conseqüência específica, como pode
ser observado na Figura 32.
Na próxima seção será discutido o modelo conceitual proposto para o mecanismo de
Figura 32: O reforço/inibição das associações entre um estímulo, ação e conseqüência.
condicionamento operante, enquanto que seu funcionamento será discutido na seção
4.2 O mecanismo de condicionamento operante
81
4.2.2.
4.2.1 Sobre a modelagem do mecanismo de condicionamento operante
O modelo estático proposto do mecanismo de condicionamento operante representado por um diagrama de classes utilizando a Linguagem Unificada de Modelagem UML (LARMAN, 2004) pode ser visualizado na Figura 33.
Como dito, o mecanismo de condicionamento operante permitirá ao ASCS aprender
Figura 33: Diagrama de classes do mecanismo de condicionamento operante.
a criar padrões comportamentais alterando a freqüência das suas ações voluntárias.
Para permitir tal aprendizado, o mecanismo atua em dois níveis de resposta da arquitetura: semi-elaborada e elaborada, modeladas nas classes PartialAppraisal e FullAppraisal, respectivamente. Como definido no capitulo 1, a resposta semi-elaborada
é responsável por gerar uma gestalt (parcial) num primeiro momento, ainda que semielaborada, e num segundo momento a resposta elaborada gera uma nova gestalt
(completa), que seleciona a ação que será executada pelo agente.
O ASCS possui um conjunto de ações pré-definidas quando de sua construção, que
constitui a capacidade motora do agente.
Para cada objeto do mundo identificado pelo agente, existe um conjunto de ações cada qual com a sua probabilidade de ser selecionada (encapsuladas no modelo pela
4.2 O mecanismo de condicionamento operante
82
classe ActionProbability) - que podem ser selecionadas pelo mesmo (levando em
consideração a sua capacidade motora). A seleção da ação é baseada nas suas experiências com o objeto (ExperienceBasedSelection), como pode ser visto na Figura
34.
Ao receber via componentes sensores os estímulos emitidos pelos objetos do mundo
Figura 34: Probabilidade de seleção das ações para os objetos do mundo em que o
ASCS esteja inserido.
em que esteja situado, o PartialAppraisal, responsável pela resposta semi-elaborada
da arquitetura, elege (seleciona) a emoção a ser atendida naquele momento e associa cada estímulo à expectativa de regulação emocional que o agente receberá caso
venha a interagir com o objeto que emitiu aquele estímulo.
A avaliação semi-elaborada realizada pelo PartiallAppraisal é recebida pelo FullAppraisal, que realiza uma avaliação mais completa da situação e seleciona primeiramente o objeto a ser levado em consideração no episódio e posteriormente a ação a
ser executada.
O aspecto importante a ressaltar é que a ação que será executada é selecionada,
dentre as ações possíveis, tomando-se por base os padrões de comportamento que
emergem com o mecanismo de condicionamento operante.
A ação é então executada e colocada em WorkingMemory para que o componente
Valuation possa valorar esta ação recém-executada levando em consideração o estado do agente antes e após a execução da ação.
Inicialmente (i.e., antes de qualquer condicionamento), antes de interagir com um objeto do mundo, a probabilidade de seleção de uma ação é a mesma para todas as
4.2 O mecanismo de condicionamento operante
83
ações. À medida que o agente for interagindo com o mundo em que esteja inserido,
a freqüência das ações vão sendo alteradas pelo componente OperantConditionig
com base na conseqüência das interações do agente com as coisas do mundo indicada pelo componente Valuation. Dessa forma, o comportamento do agente vai
sendo modulado pelas conseqüências de suas próprias ações.
Essas interações do agente com o seu ambiente formam os construtos básicos (abstraídos na classe Experience) para a formação da sua memória de longo prazo (abstraídas na classe LongTermMemory). Esta memória é entendida como o conjunto
de experiências vivenciadas pelo agente e emocionalmente valoradas. A memória do
agente (juntamente com seus processos de formação, evocação, esquecimento, etc...)
foi modelada de modo simplista, pois não faz parte do escopo do presente trabalho.4
Na próxima seção será explicado com detalhes o funcionamento do mecanismo de
condicionamento operante e sua influência na arquitetura.
4.2.2 A dinâmica de operação do mecanismo de condicionamento
operante
A dinâmica de operação do mecanismo de condicionamento operante engloba todos
os processos envolvidos nos episódios emocionais vivenciados pelo ASCS. Esses
episódios formarão a memória de longo prazo do agente, que será composta não por
representações do ambiente, mas por episódios vivenciados e emocionalmente valorados mediante interações do agente com o seu ambiente.
Um episódio emocional inicia-se quando o ASCS recebe um ou mais estímulos do
ambiente através de seus componentes sensores. Os estímulos percebidos são recebidos pelo PartialAppraisal, que em sua operação verifica qual das emoções está
mais desregulada no momento - levando em consideração o nível de arousal das emoções (como descrito no capítulo 1) - e a elege para ser atendida no corrente episódio
emocional. O PartialAppraisal, além de eleger a emoção a ser atendida, recupera
a expectativa de regulação emocional esperada para o objeto do mundo emissor de
cada estímulo em LongTermMemory, associando assim, a valoração emocional recebida pela interação com o objeto levando em consideração as experiências passadas
com o mesmo.
O PartialAppraisal envia para o FullAppraisal a emoção eleita para ser atendida no
episódio e os estímulos juntamente com a expectativa esperada para a interação com
4
A modelagem de um sistema completo de memória mais em conformidade com os recentes avanços da neurociência e integrado ao presente trabalho vem sendo desenvolvido por Mapa (2007)
4.2 O mecanismo de condicionamento operante
84
os objetos que emitiram os estímulos a serem atendidos no episódio.
O FullAppraisal recebe a emoção e os estímulos a serem atendidos. Em um primeiro momento da execução, o FullAppraisal elege, dentre os estímulos recebidos,
o que possui uma melhor expectativa para regular a emoção eleita para o episódio.
Após selecionado o estímulo desencadeante mais adequado, o FullAppraisal aciona
o mecanismo de condicionamento operante (OperantConditioning) para selecionar a
ação que será executada no episódio em andamento, com base na emoção e estímulo
a serem atendidos.
A escolha da ação a ser executada é realizada probabilisticamente, com as ações que
resultaram em recompensas para o objeto em questão tendo uma probabilidade maior
de serem escolhidas frente às ações que resultaram em punições para o agente.
Para cada objeto do ambiente com o qual o ASCS interagiu (ProbabilityBased Experience) existe uma coleção de ações (conforme sua capacidade motora) passíveis
de serem executadas (ActionProbability) e cada ação possui uma probabilidade de
ser executada para um determinado objeto, probabilidade esta resultante das conseqüências recebidas pelas interações com esse objeto. Caso o objeto captado pelos
componentes sensores do ASCS seja um objeto desconhecido, a probabilidade de
executar uma das possíveis ações será a mesma para todas.
Para eleger a ação a ser executada, é realizado um sorteio levando em consideração as probabilidades das ações envolvidas (Affordances). A ação sorteada é então
executada pelos componentes efetores do agente. A ação escolhida é registrada na
memória de trabalho.
Caso haja interação com o objeto emissor do estímulo desencadeante, o HomeostaticRegulation recebe os estímulos simpáticos/parassimpáticos e desempenha a sua
função, que é basicamente a de variar o arousal das emoções (CAMPOS, 2006) conforme estímulos recebidos, enviando em seguida um IntStiValuation (contendo informações das emoções variadas com a interação com o objeto) para o InteroceptiveStimuliPool.
O componente Valuation recebe o IntStiValuation e valora o episódio vivenciado,
com base no estado do agente antes, e posterior à ação executada. É importante
destacar que a valoração realizada pelo componente Valuation leva em consideração o arousal da emoção para realizar a valoração, e não o estímulo recebido pelo
agente. Assim, como destacado no capítulo 2, a valoração do episódio é determinada pelo agente, e não pelo estímulo recebido do ambiente. Portanto, caso o agente
interaja com um determinado objeto do ambiente que auxilie na regulação de uma
4.2 O mecanismo de condicionamento operante
85
emoção, porém a mesma já esteja regulada, o componente Valuation irá valorar o
episódio como desprazeroso. Um bom exemplo é a emoção de ’fome’. Supondo que
o agente interaja consecutivamente com objetos do seu ambiente que regulem o nível
de arousal dessa emoção até ficar completamente saciado (nível de arousal igual a
zero), cada interação do agente com tais objetos será considerado um episódio desprazeroso.
O Valuation compara a expectativa esperada para o objeto escolhido e a valoração
realmente recebida após a execução da ação e atualiza a diferença na memória de
longo prazo. Após valorar o episódio vivenciado pelo agente, o componente Valuation aciona o mecanismo de condicionamento operante para alterar a probabilidade
das ações passíveis de serem executadas para o objeto com base na conseqüência
da interação com o objeto em questão.
A atualização é realizada pelo método adjustProbability() da classe OperantConditioning. Primeiramente, a probabilidade da ação executada é atualizada conforme
valoração recebida pelo componente Valuation. Caso a valoração dada seja positiva
(experiência apetitiva) para a ação executada, a probabilidade da ação aumenta, crescendo assim a chance da ação ser selecionada para o objeto do ambiente percebido
pelo agente. Caso contrário (experiência aversiva), a probabilidade vinculada à ação
diminui, fazendo com que a mesma tenha uma probabilidade menor de ser selecionada futuramente.
Após atualizar a probabilidade da ação executada, método atualiza a probabilidade
das ações que não foram selecionadas para serem executadas naquela ocasião, conforme apresentado na Figura 35.
Em A, antes de interagir com um dado objeto do mundo, a probabilidade de seleção
de uma certa ação é a mesma para todas elas. À medida que o agente for interagindo
com o mundo em que esteja inserido, a freqüência das ações vão sendo ajustadas
pelo componente. Como pode ser observado em B, C e D, a ’Ação 4’ foi selecionada
repetidas vezes recebendo logo em seguida uma conseqüência prazerosa, implicando
uma maior probabilidade dela ser selecionada novamente. Entretanto, e a despeito de
ser menos provável, em E a ’Ação 2’ foi selecionada (e seu resultado foi apetitivo),
implicando num aumento da probabilidade de seleção da ’Ação 2’ e diminuição das
demais.
O esquema da Figura 35 ilustra vários aspectos:
1. Uma das ações é sempre selecionada; o somatório das probabilidades é sempre
4.2 O mecanismo de condicionamento operante
86
Figura 35: Ajuste das probabilidades de seleção das ações ao longo do tempo .
100%.
2. Nem sempre a ação mais provável será selecionada, confira e compare D e E;
3. Inicialmente, antes do condicionamento entrar em ação, todas as ações são
igualmente prováveis, indicação que no início o comportamento do agente poderá ser um tanto ’esquizofrênico’ mas que após um certo número de episódios
emocionais vivenciados ele tende a seguir um certo padrão de comportamento
que o leva à regulação emocional.
A Figura 36 tenta resumir a dinâmica envolvida no condicionamento operante modelado para a arquitetura.
(A) O Agente recebe um ou mais estímulos (A) do seu ambiente através de seus
componentes sensores que os transduzem para estímulos internos (A’). Os estímulos
internos são recebidos pelo PartialAppraisal, que elege a emoção mais desregulada
a ser atendida no episódio vivenciado. A emoção mais desregulada é a que apresenta
o mais alto nível de arousal.
(B) O PartialAppraisal busca na Memória de Longo Prazo a expectativa de regulação
da emoção eleita para cada um dos estímulos percebidos pelo agente.
(C) O PartialAppraisal envia para o FullAppraisal a emoção selecionada e os estímulos percebidos, juntamente com a expectativa esperada para interação com cada
4.2 O mecanismo de condicionamento operante
87
Figura 36: Circularidade da relação entre a avaliação parcial e completa no condicionamento operante.
Fonte: Campos (2006).
4.3 Considerações finais
88
um dos objetos que emitiram os estímulos percebidos pelo ASCS.
(D) O FullAppraisal recebe a emoção e seleciona o estímulo a ser atendido (aquele
que apresenta uma maior expectativa de regulação da emoção selecionada) e, com
base nas probabilidades da coleção de ações referentes ao estímulo selecionado, realiza um sorteio e seleciona a ação para ser executada pelos componentes efetores
do agente. A ação escolhida é registrada na memória de trabalho.
(E) Caso haja interação com o objeto emissor do estímulo, o HomeostaticRegulation
recebe os estímulos simpáticos/parassimpáticos e ajusta o arousal das emoções, enviando em seguida um IntStiValuation para o pool interno.
(F) O Valuation valora o episódio vivenciado, comparando o estado do agente antes e depois da ação executada, e ajusta, com base nesta valoração, a probabilidade
das ações envolvidas no episódio. Também nesse ponto, o componente Valuation
compara a expectativa esperada pela interação com o objeto atendido e a valoração
realmente recebida após a execução da ação, e atualiza a diferença na Memória de
Longo Prazo.
4.3 Considerações finais
Neste capítulo o foco foi mostrar como foram modelados e incorporados os condicionamentos clássico e operante na arquitetura Artífice. A abstração realizada para o
condicionamento clássico pelo modelo consiste em criar um repertório básico de comportamentos em que estímulos neutros vêm a eliciar respostas reflexas embutidas no
agente.
A abstração realizada para o condicionamento operante no modelo consiste em criar
padrões de comportamento alterando a freqüência das ações no ambiente com base
nas conseqüências obtidas durante as experiências do agente no ambiente.
O presente trabalho tomou como ponto de partida a versão 0.7.5 da arquitetura Artífice (CAMPOS, 2006), brevemente discutida no capítulo 1. Em seu trabalho, Campos
(2006) propôs um modelo para a dinâmica de todas as interações dos componentes do
ASCS, distribuídos em três níveis de resposta. A adição do mecanismo de condicionamento trouxe modificações nos três níveis de resposta da arquitetura, incorporando
os conceitos abstraídos do condicionamento clássico e operante e resultando, dessa
forma, na versão 0.9 da arquitetura.
O primeiro nível de resposta foi modificado (em relação ao trabalho de Campos (2006))
4.3 Considerações finais
89
incorporando o mecanismo de condicionamento clássico. A versão 0.7.5 previa apenas a resposta reflexa emitida por um estímulo específico. Como descrito anteriormente, o mecanismo de condicionamento clássico permitirá ao ASCS elaborar um repertório básico comportamental, associando estímulos do ambiente a estímulos nãocondicionados, característica presente na grande maioria dos seres vivos, que são a
inspiração principal na construção da arquitetura.
O modelo implementado para o condicionamento clássico incorpora a possibilidade
de se fazer condicionamentos de primeira e segunda ordens, além de deixar uma ’metodologia’ e um ponto de extensão na arquitetura para facilitar a implementação de
condicionamentos de terceira ordem e superiores, caso venha a ser necessário.
Também, o modelo de condicionamento clássico utiliza as expressões matemáticas
desenvolvidas por Rescorla e Wagner (1972) para os processos de aquisição e extinção do condicionamento, deixando livres os parâmetros para serem ajustados caso a
caso. O que proporciona grande flexibilidade na implementação dos agentes.
Por fim, diferentemente de outros autores, que trabalham com um limiar de condicionamento, acima do qual a resposta reflexa é sempre disparada, e de acordo com o
que se verifica nos experimentos de psicobiologia, damos uma interpretação estatística à taxa de condicionamento. Assim, mesmo que a taxa de condicionamento seja
muito baixa, há a possibilidade do mecanismo disparar a resposta reflexa. Por outro
lado, ainda que a taxa de condicionamento seja próxima da saturação, nem sempre a
resposta reflexa será disparada. A implementação probabilista que vê a taxa de condicionamento como a freqüência de eliciação da resposta reflexa Glassman (2006) é
a mais adequada para o nosso modelo que compreende o sistema nervoso como um
sistema dinâmico não-determinístico, no nosso caso, um sistema discreto (para uma
discussão mais detalhada deste aspecto veja Campos (2006)).
O segundo nível de resposta da versão 0.7.5 implementava o conceito de ’tendências
para ação’. As tendências para ação são aquelas ações que sob uma determinada
emoção terão maior probabilidade de serem executadas. Porém, as tendências para
ação eram rigidamente vinculadas a uma emoção na construção do agente (filogenia), e não formadas mediante as interações do agente com o ambiente (ontogenia).
Na nova versão da arquitetura, foram retiradas as tendências para ação, sendo que o
ASCS poderá selecionar uma ação para ser executada, conforme a sua capacidade
motora, e aprender a modular o seu comportamento com base nas valorações recebidas, fazendo surgir uma tendência comportamental resultante das suas próprias
experiências. Nesse sentido, as tendências para ação do ASCS rigidamente codifica-
4.3 Considerações finais
90
das na versão 0.7.5 irão emergir mediante suas interações com o seu ambiente, ao
invés de serem pré-definidas na construção do agente. Reiterando, o mecanismo de
condicionamento operante faz o papel dos mecanismos biológicos que fazem surgir
as ’tendências para ação’ extensivamente referidas na literatura de psicologia e psicobiologia.
No terceiro nível de resposta da arquitetura, em sua versão 0.7.5, uma ação era selecionada com base na história de interação do agente com os objetos captados em
um determinado episódio ’vivenciado’ pelo agente e nas tendências para ação rigidamente definidas para a emoção eleita para ser atendida no episódio. Na versão
atual, a seleção da ação incorpora os conceitos apresentados no capítulo 2 sobre o
condicionamento operante, em que a seleção da ação a ser executada é realizada
probabilisticamente, com as ações que resultaram em recompensas para o objeto em
questão tendo uma probabilidade maior de serem escolhidas frente às ações que resultaram em punições para o agente.
No capítulo seguinte, serão apresentados, analisados e discutidos alguns experimentos computacionais realizados em uma aplicação de vida artificial em 2D. Os experimentos buscam comprovar se a arquitetura, tal como projetada, funciona corretamente
de acordo com o arcabouço teórico-conceitual utilizado.
91
5
Experimentos computacionais,
análise e discussão dos
resultados
Este capítulo apresenta uma análise e discussão dos experimentos realizados com
intuito de avaliar o comportamento emergente do ASCS influenciado pelos processos
de aprendizagem associativa providos pelos mecanismos de condicionamento clássico e operante incorporados à arquitetura Artífice. Para tal, foi criada a versão 0.9 da
aplicação ALifeWorld, que será apresentada na próxima seção.
5.1 A aplicação ALifeWorld - 0.9
A aplicação AlifeWorld 0.9 foi criada estendendo a versão 0.7.5, desenvolvida por
Campos (2006), adicionando comandos de controle para simulação do condicionamento clássico e operante e também a inclusão de gráficos para exibição dos níveis
de condicionamento do ASCS. A aplicação pode ser resumida como uma aplicação
de vida artificial em duas dimensões, onde ASCS e meio co-evoluem por meio de interações mútuas. O ambiente é formado por 880 x 470 posições. Não existem bordas
no ambiente, sendo que a lateral esquerda se liga à direita e a superior, à inferior.
O ASCS busca interagir com os objetos existentes em seu ambiente a fim de manter
seu equilíbrio homeostático. No mundo artificial podem existir nutrientes, pedras e totens com os quais o ASCS interage. Cada interação caracterizará uma experiência na
medida que o ASCS a valora, segundo os critérios embutidos de valoração cognitivoemocional, que consistem em qualificar a variação dos níveis de arousal das emoções
verificada após cada interação.
Para caracterizar a experiência hedônica do ASCS, foi considerado que interações
que aumentam o nível da dor terão conseqüência desprazerosa. Já interações que
5.1 A aplicação ALifeWorld - 0.9
92
contribuem para diminuir o nível de arousal da fome ou sono terão uma conseqüência
prazerosa. Não foi prevista nenhuma interação para diminuir o nível de arousal da
emoção dor, sendo que o nível arousal da mesma será continuamente diminuído ao
longo do tempo, isto é, a dor irá se desvanecendo. A variação do nível de arousal
das emoções do ASCS será exibida na interface através de três barras de progressão
nomeadas Hunger, Sleep e Pain, como pode ser visto na Figura 37.
Nos quatro gráficos do canto inferior direito pode ser vista a intensidade do condi-
Figura 37: ASCS-em-seu-ambiente.
cionamento clássico para cada componente de software com o qual o ASCS pode
interagir no seu ambiente. O gráfico do canto inferior esquerdo exibe a distribuição
de freqüência das ações a serem executadas para cada componente de software do
ambiente. A freqüência das ações executadas é alterada pela valoração emocionalcognitiva da interação do agente com cada componente de software.
Em relação aos comandos de controle disponibilizados para o condicionamento clássico, a caixa de seleção ’Aquisition’ automatiza o processo de aquisição do condicionamento clássico. Com essa opção ativada, basta selecionar qual componente
de software será utilizado para conceber uma experiência que envolva a aquisição
do condicionamento e incluí-lo no ambiente. O componente será incluído no ambiente
em uma determinada posição que o ASCS consiga captar um estímulo neutro emparelhado com um outro não-condicionado emitidos pelo componente selecionado, sendo
5.1 A aplicação ALifeWorld - 0.9
93
possível criar mais facilmente um experimento para que o ASCS associe os dois estímulos. Já a caixa de seleção ’Extinction’ ativa a função extinção do mecanismo de
condicionamento clássico, fazendo com que a intensidade do condicionamento sofra
um decrescimento a cada experiência em que o ASCS perceba apenas um estímulo
condicionado, sem que o estímulo não-condicionado seja apresentado.
Em relação aos comandos de controle do condicionamento operante, destaque para
a parte que realiza a modelagem do comportamento do agente. A funcionalidade foi
inspirada nos processos de modelagem descritos pela psicologia, onde um observador influencia o comportamento de um ser vivo, como um rato, injetando estímulos
(reforçadores) no ambiente. Maiores detalhes sobre as funcionalidades descritas para
o condicionamento clássico e operante serão descritas nas próximas seções, juntamente com os experimentos realizados.
Os comandos Play, Pause e Stop executam as funções de continuar, pausar e terminar a execução da aplicação, respectivamente.
5.1.1 A aplicação ALifeWorld - 0.9
Os comportamentos emergente do ASCS podem ser divididos em dois grupos: respostas automáticas involuntárias de origem reflexa e respostas voluntárias selecionadas com base nas suas experiências de vida.
As respostas reflexas são definidas na construção do ASCS (hard-coded). Nessa versão, foram embutidos dois componentes reflexos nomeados Shock e Salivation. O
reflexo Shock é caracterizado pela resposta não-condicionada em que a cor da pele
do ASCS é alternada para um tom rosado e logo em seguida esse comportamento é
inibido, fazendo com que a pele retorne à sua cor azulada original. O estímulo nãocondicionado do ambiente que dispara essa resposta reflexa é o estímulo de choque
elétrico, esse estímulo é emitido toda vez que o agente executa a ação de tocar no
Totem. Dessa forma, todas as vezes que o ASCS tocar um Totem, receberá deste um
estímulo de choque, ativando automaticamente a resposta reflexa de alternância da
cor da pele.
Já o reflexo Salivation é caracterizado pela resposta não-condicionada em que a cor
da boca do ASCS (originalmente vermelha) é alternada para um tom azulado na presença de elementos comestíveis apetitivos ou esverdeada para o caso de elementos
aversivos, sendo que logo em seguida esse comportamento é inibido, fazendo com
5.1 A aplicação ALifeWorld - 0.9
94
que a pele retorne à sua cor original vermelha. O estímulo não-condicionado do ambiente que dispara a resposta reflexa é o estímulo olfativo. Esse estímulo é emitido por
Maças e Pedras, de modo que maçãs correspondem a elementos comestíveis apetitivos e pedras a elementos comestíveis aversivos.
A tabela 2 mostra os reflexos embutidos no ASCS, a descrição da resposta reflexa
gerada e o estímulo não-condicionado que a dispara automaticamente.
Já as respostas voluntárias emitidas pelo ASCS são selecionadas em função das con-
Tabela 2: Componentes reflexos.
seqüências recebidas anteriormente pelas interações do agente com o seu ambiente
na busca por permanecer adaptado a ele, isto é, manter o seu equilíbrio homeostático.
Para manter seu equilíbrio homeostático, o ASCS precisa atender suas necessidades
corpóreas (drives) de fome e sono e evitar a interação com objetos que causam dor. A
variação do nível de arousal das emoções citadas será positiva ou negativa conforme
as interações do ASCS com as coisas do seu mundo, a saber: será positiva para a
fome, i.e., a fome terá seu nível de arousal aumentado quando o ASCS não receber
estímulos energéticos, os quais contribuem para a diminuir a fome; será positiva para
o sono quando o ASCS mover-se e será positiva para a dor quando o ASCS selecionar
a ação de tocar o componente de software Totem e receber um estímulo de ’choque
elétrico’.
Para diminuir o sono, o ASCS deverá deixar de se mover por alguns instantes, o que
caracteriza, portanto, a ação de dormir. Já a diminuição da dor ocorre ao longo do
tempo, isto é, a dor se esvai por si só, desde que o ASCS não receba estímulos de
choque elétrico. Para diminuir a fome o ASCS precisa comer maçãs, recebendo assim, estímulos energéticos que diminuirão o arousal da emoção.
As ações ou comportamentos voluntários do ASCS serão escolhidos em tempo de
5.2 Experimentos envolvendo o condicionamento clássico
95
execução conforme estímulos captados do ambiente, a emoção a ser atendida, a
situação (affordances) em que o agente se encontra e o nível de condicionamento
operante. Na Tabela 3 constam as affordances que foram previstas na aplicação. De
acordo com uma situação de interação com um objeto, as affordances caracterizam as
possíveis ações a serem executadas em um determinado instante. Sob tal situação,
são estas ações que, uma vez executadas, poderão ser valoradas em LongTermMemory.
Após descrever de um modo geral a aplicação AlifeWorld 0.9, nas próximas seções serão apresentados alguns experimentos realizados para verificar e validar a influência
do mecanismo de condicionamento no comportamento do ASCS.
Tabela 3: Affordances consideradas na aplicação.
5.2 Experimentos envolvendo o condicionamento clássico
Os experimentos envolvendo o condicionamento clássico visam comprovar que o ASCS
é capaz de criar um repertório comportamental básico associando estímulos neutros
do ambiente a estímulos não-condicionados (hard-coded na arquitetura) que dispa-
5.2 Experimentos envolvendo o condicionamento clássico
96
ram automaticamente respostas reflexas definidas no primeiro nível de resposta do
agente.
Vale lembrar que os comportamentos apresentados com a ativação das respostas
reflexas descritas anteriormente (Tabela 2) são inatos, ou seja, foram embutidos no
ASCS na sua construção. Já os estímulos visuais emitidos pelos componentes de
software e captados pelo agente são considerados estímulos neutros do ambiente
e não provocam, a princípio, nenhuma reação imediata (este comportamento pode
ser comprovado no vídeo mostrando a execução do experimento, disponível em http:
//www.lsi.cefetmg.br/artifice/v090/neutralStimulus.html). Durante as primeiras interações do ASCS com os componentes de software, como Green apple, por exemplo, o
ASCS aproxima do componente e percebe um estímulo olfativo emitido pelo componente de software. O estímulo olfativo liberado por Green Apple no ambiente consiste
de um estímulo não-condicionado, que dispara automaticamente o reflexo Salivation,
caracterizado pela resposta não-condicionada de alternar a cor da boca do agente
para azul, como pode ser visto na Figura 38.
Como dito, o mecanismo de condicionamento clássico permite ao ASCS ampliar o
Figura 38: Momento em que o ASCS percebe o estímulo olfativo emitido por Green
Apple.
repertório comportamental inato associando os estímulos neutros existentes em seu
ambiente aos estímulos não-condicionados que disparam os reflexos embutidos no
agente.
Para criar ou constituir essa associação entre um estímulo neutro do ambiente (no
caso, estímulo visual emitido pelos componentes de software) e o estímulo não-condicionado
(estímulo olfativo emitido pela Maçã ou estímulo de choque elétrico emitido pelo To-
5.2 Experimentos envolvendo o condicionamento clássico
97
tem) os estímulos devem ser apresentados emparelhados. Por exemplo, se o ASCS
vir uma Maçã e estiver muito próximo dela (de modo a sentir o seu cheiro, como na
Figura 38), então o ASCS receberá dois estímulos emparelhados, um neutro (estímulo
visual da maçã) e outro não-condicionado (cheiro da maçã) e, portanto, irá disparar a
resposta reflexa Salivation e também reforçar a associação entre os dois estímulos.
Se este experimento for repetido diversas vezes, então o estímulo condicionado ficará
fortemente associado ao estímulo não-condicionado. A intensidade da associação entre os estímulos pode ser vista nos gráficos no canto inferior direito da interface com
o usuário, referente ao condicionamento do componente Green Apple (Figura 39) e
também no vídeo disponível em http://www.lsi.cefetmg.br/artifice/v090/aquisition.html.
Depois de associar o estímulo visual (agora estímulo condicionado) ao estímulo ol-
Figura 39: Aquisição do condicionamento clássico.
fativo emitido pelo componente Green Apple (estímulo não-condicionado), apenas a
apresentação do estímulo visual do componente é suficiente para eliciar a resposta
reflexa, antes disparada única e exclusivamente pelo estímulo olfativo da maça, ou
seja, a simples apresentação do estímulo visual da maçã, ainda que o ASCS não esteja próximo o suficiente dela para ’sentir seu cheiro’ irá disparar a salivação. Este
fenômeno de antecipação da resposta reflexa é o conhecido ’deslocamento da resposta reflexa’ discutido nas seções 2.1.1 e 2.1.2.1, reconhecido tanto na psicologia
quanto na biologia como um fenômeno crucial para adaptação dos seres vivos ao seu
5.2 Experimentos envolvendo o condicionamento clássico
98
ambiente. O comportamento discutido anteriormente pode ser visto na figura 40 e no
vídeo disponível em http://www.lsi.cefetmg.br/artifice/v090/shiftreflexresponse.html.
Assim como ocorre com organismos vivos, a associação forjada entre os estímulos
Figura 40: Deslocamento da resposta reflexa.
(visual de maçã e cheiro de maçã) não é persistente. Caso somente o estímulo condicionado seja percebido pelo agente, isto é, sem que o estímulo não-condicionado seja
apresentado, a associação entre eles vai se tornando cada vez mais fraca, até a extinção. Assim, ao receber o estímulo visual emitido por Green Apple, o ASCS dispara
automaticamente a resposta reflexa de alternar a cor da boca, porém, caso o estímulo
olfativo não seja também apresentado, a associação entre os dois estímulos sofre um
decaimento, como pode ser visto na Figura 41. Caso esse cenário se repita várias
vezes, a associação forjada entre eles é cessada, e o estímulo condicionado não mais
eliciará a resposta reflexa. Esse comportamento pode ser visto no vídeo disponível
em http://www.lsi.cefetmg.br/artifice/v090/extinction.html.
É importante destacar que as curvas apresentadas para a aquisição do condicionamento são apenas para fins de explicação. De fato, na maior parte da literatura de
condicionamento clássico, o foco dos experimentos conduzidos (in vivo ou na simulação) é mostrar os processos de formação ou aquisição de um condicionamento e o de
sua extinção. Ressaltando que em ambos os tipos de experimentos, o cientista que
os conduz é diretamente responsável por apresentar o estímulo neutro no momento
5.2 Experimentos envolvendo o condicionamento clássico
99
Figura 41: Extinção do condicionamento clássico.
oportuno: junto com o estímulo não-condicionado (na aquisição) ou sozinho (na extinção). Porém, em condições naturais não há a figura do cientista que intervém na
apresentação dos estímulos. Em vez disso, o agente passa por várias experiências
em que estímulos condicionados e não-condicionados são percebidos no ambiente
ora emparelhados, ora desemparelhados, resultando em uma constante ’oscilação’
da curva de condicionamento, como relatado no capítulo 2.
Para simular o condicionamento clássico em ’condições naturais’ foi realizado um experimento com intuito de verificar se o ASCS conseguiria forjar os condicionamentos
clássicos. O ambiente era composto por 12 maçãs vermelhas, 12 maçãs verdes, 12
pedras e 12 Totens dispostos aleatoriamente no ambiente. Foram realizadas 10 sessões do experimento com duração de 8 minutos cada sessão. A cada sessão novas
sementes de números aleatórios eram geradas para posicionar os componentes de
software ao ambiente.
O nível de condicionamento operante inicial para o experimento foi de 55% para a
ação approach e 15% para as demais ações (avoid, sleep e as ações de interação
previstas na aplicação, touch para o Totem e eat para os demais componentes). Para
esse experimento específico, optou-se por desativar a função do mecanismo de condicionamento operante referente à alteração da freqüência das ações, isto é, as probabilidades das ações não eram alteradas conforme as interações do agente com o
5.2 Experimentos envolvendo o condicionamento clássico
100
ambiente, elas permaneciam constantes durante o experimento. Vale frisar que ao
interagir com os componentes de software (comer maçãs e pedras ou tocar no Totem)
o ASCS envia um estímulo destrutivo para o componente, que recebe esse estímulo
e desaparece do ambiente.
Para ajustar a curva dos condicionamentos foi utilizado o modelo de Rescorla e Wagner (1972) explicado no capítulo 4. Para a aquisição do condicionamento os valores
dos parâmetros foram: α = 0.3; β = 1 ; λ = 100. Para a extinção os valores foram: α
= 0.5; β = 0.7; λ = 0. Esses valores foram utilizados tanto para o reflexo Salivation
quanto para reflexo Shock.
As figuras 42, 43, 44, 45, representam as curvas do condicionamento médio (nas 10
sessões) extraídas do experimento para cada componente de software. Tais figuras
representam as mesmas informações mostradas nos gráficos do canto inferior direito
da interface gráfica da aplicação (Figura 37).
Tais experimentos deixam claro que, a partir de alguns pares de estímulos-resposta
Figura 42: Curva de condicionamento clássico em condições naturais - Maçã vermelha.
inatos, o ASCS consegue produzir um repertório básico de comportamentos antecipatórios de respostas reflexas, como o faz um organismo vivo dotado de sistema
nervoso. Como dito, tal repertório é fundamental para a sobrevivência de qualquer
organismo.
5.2 Experimentos envolvendo o condicionamento clássico
101
Figura 43: Curva de condicionamento clássico em condições naturais - Maçã Verde.
Figura 44: Curva de condicionamento clássico em condições naturais - Pedra.
5.3 Experimentos envolvendo o condicionamento operante
102
Figura 45: Curva de condicionamento clássico em condições naturais - Totem.
5.3 Experimentos envolvendo o condicionamento operante
Os experimentos envolvendo o condicionamento operante visam comprovar que o
ASCS consegue elaborar padrões de comportamentos voluntários aumentando a probabilidade de seleção de ações que o levaram a conseqüências apetitivas e diminuindo a probabilidade de selecionar ações que o levaram a conseqüências aversivas.
5.3.1 Experimentos envolvendo a modelagem do comportamento
Conforme discutido no capítulo 2, o processo de modelagem do comportamento consiste na intervenção externa visando a desenvolver o condicionamento operante de
uma resposta voluntária desejada por meio de aproximações sucessivas com o oferecimento de estímulos positivos ou negativos correspondentes a essa resposta.
A aplicação ALifeWorld 0.9 permite modelar o comportamento do ASCS reforçando /
inibindo respostas voluntárias ’injetando’ estímulos no agente que correspondam ao
comportamento desejado. Os estímulos são formados pelo componente de software
que o ASCS interagiu, a ação executada e o estímulo de reforço recebido pelo agente
resultante da interação com o componente de software. O estímulo decorrente da
5.3 Experimentos envolvendo o condicionamento operante
103
interação pode se tratar de um reforçador positivo, que é o caso dos estímulos energéticos, ou um reforçador negativo, caracterizado pelo choque elétrico na aplicação.
Após a seleção dos parâmetros nas caixas disponíveis na lateral direita da interface
com o usuário, o comando ’Execute’ manipula o estímulo com os parâmetros selecionados e o ’injeta’ diretamente no ASCS. O estímulo é então valorado como se o
agente tivesse vivenciado a experiência formada. Esse procedimento é análogo ao
que o adestrador/modelador faz quando coloca comida na boca do animal quando
este realiza a ação que o modelador deseja.
Utilizando o esquema de modelagem da aplicação descrito anteriormente, podemos
simular duas contingências de reforçamento definidas por Skinner: o reforçamento positivo e a punição.
O reforçamento positivo é um processo para aumentar a probabilidade de uma resposta, seguindo imediatamente à resposta de um estímulo desejável (um reforçador positivo). O experimento utilizando esse tipo de contingência na aplicação consiste em aumentar a probabilidade do ASCS selecionar uma ação qualquer para
um determinado objeto do mundo. É possível, portanto, selecionar a ação approach e o componente de software Totem e um reforçador positivo, fazendo com que
a ASCS aumente a probabilidade de se aproximar de Totens (este comportamento
pode ser comprovado no vídeo mostrando a execução do experimento, disponível em
http://www.lsi.cefetmg.br/artifice/v090/positivereforce.html).
Já a punição é um processo em que a resposta é seguida de um reforçador negativo, que resulta em uma redução na probabilidade de ocorrer aquela resposta
novamente. O experimento utilizando esse tipo de contingência na aplicação consiste em diminuir a probabilidade do ASCS selecionar uma ação para um componente de software apresentando reforçadores negativos para uma determinada situação. É possível, portanto, selecionar a ação ’approach’ e o componente de software Maçã Vermelha e um reforçador negativo, fazendo com que a ASCS diminua
a probabilidade de aproximar de Maçãs vermelhas (este comportamento pode ser
comprovado no vídeo mostrando a execução do experimento, disponível em http:
//www.lsi.cefetmg.br/artifice/v090/punishment.html).
Conforme definido por Skinner, a modelagem é um conceito relativamente simples,
mas muito poderoso para analisar e compreender as correlações entre o comportamento e o meio. Conforme demonstrado, a aplicação permite modelar o comportamento do ASCS usando reforçadores positivos e negativos, fazendo com que o ASCS
tenha preferência por selecionar um comportamento idealizado.
5.3 Experimentos envolvendo o condicionamento operante
104
Por meio das técnicas de modelamento, é possível ensinar, por condicionamento operante, o ASCS a ’ter medo de pedra’ ou qualquer outro objeto presente no ambiente
dele.
5.3.2 Condicionamento x seleção de ações
Este experimento teve como objetivo verificar a influência dos níveis de condicionamento operante na freqüência das ações selecionadas pelo ASCS.
O ambiente utilizado para realização do experimento consistiu em distribuir 30 maçãs
vermelhas em posições aleatórias do ambiente para que pudesse colher informações
sobre o tempo que o ASCS gastou para comer 10 das 30 maçãs. O experimento foi
conduzido em 3 níveis distintos de condicionamento operante inicial, que se traduzem
nas probabilidades de seleção das ações descritas na tabela 4. Para cada nível inicial de condicionamento operante foram realizadas 20 sessões do experimento, sendo
que a cada sessão novas posições aleatórias eram geradas para os componentes de
software. O estado emocional inicial do agente era sempre o mesmo para todas as
sessões realizadas, sendo o nível de arousal de fome e sono igual a 0.18 e dor igual
a 0.
O gráfico da Figura 46 mostra o tempo médio gasto para que o ASCS conseguisse
Tabela 4: Nível de condicionamento operante inicial para os experimentos.
comer 10 maçãs para cada nível inicial de condicionamento operante. A linha verme-
5.3 Experimentos envolvendo o condicionamento operante
105
lha representa o tempo médio gasto nas 20 seções com condicionamento inicial baixo,
ou seja, o ASCS ainda não possui um comportamento seletivo e todas as ações tem
a mesma probabilidade de serem selecionadas em qualquer situação vivenciada pelo
agente. A linha amarela representa o tempo médio gasto para o ASCS comer 10 maçãs iniciando o experimento com um nível médio de condicionamento operante inicial
(c.f., Tabela 4). Nesse nível, o agente já apresenta um comportamento inicial seletivo, tendo uma maior probabilidade de se aproximar das maçãs vermelhas frente às
demais ações. Já a linha verde representa o mesmo experimento, porém, com um
nível alto de condicionamento operante inicial (c.f., Tabela 4 - nível alto). Nesse nível
o agente o agente possui 70% de probabilidade de aproximar das maçãs, portanto, o
ASCS terá uma probabilidade bem maior de interação com as maçãs em relação aos
demais experimentos.
Este experimento apresentou importantes resultados, pois possibilitou verificar a in-
Figura 46: Tempo médio para o ASCS comer maçãs para 3 níveis iniciais distintos de
condicionamento operante.
fluência do nível de condicionamento operante no comportamento seletivo voluntário
do ASCS.
Os dados mostram que o comportamento do ASCS está diretamente relacionado com
o nível de condicionamento operante do experimento. Quanto maior a probabilidade
do ASCS selecionar a ação aproximar, maior é a probabilidade do ASCS interagir com
as maçãs vermelhas. À medida que o ASCS aproxima de uma maçã, fica em contato
5.3 Experimentos envolvendo o condicionamento operante
106
com ela e seleciona a ação de ’comer’ a maçã, o agente recebe um estímulo energético que diminui (regula) sua fome, ou seja, a ação selecionada para ser executada
pelo agente teve uma conseqüência (valência) positiva. Dessa forma, o mecanismo
de condicionamento operante realiza um ajuste nas probabilidades das ações envolvidas no episódio, aumentado a probabilidade da ação ’eat’ ser executada e diminuindo
a probabilidade das ações ’avoid’ e ’sleep’, conforme affordances previstas na aplicação (Tabela 3). Ou seja, a Figura 46 mostra que quanto mais condicionado o ASCS
está para se aproximar de maçãs, menos tempo ele gastará para ’encontrar’ maçãs e
comê-las.
A fim de comprovar essas alterações das probabilidades das ações no decorrer do
experimento, foram extraídos o intervalo de tempo médio gasto para que o agente comesse cada maçã (Figura 47).
O gráfico da Figura 47 mostra que o intervalo de tempo médio gasto para o agente
Figura 47: Intervalo de tempo médio gasto para encontrar e comer maçãs para os 3
níveis iniciais de condicionamento.
encontrar uma nova maçã e comê-la decresce à medida que o agente vai selecionando a ação de comer e obtendo uma conseqüência prazerosa, ajustando assim a
probabilidade de aproximar de maçãs vermelhas e interagir com elas. É possível notar
que por volta da sexta maçã, o intervalo de tempo gasto para encontrar e comer cada
maçã é praticamente o mesmo. Dessa forma podemos concluir que embora o nível de
condicionamento inicial para os três experimentos tenham sido distintos, o número de
5.3 Experimentos envolvendo o condicionamento operante
107
interações prazerosas (em torno de 6) foi suficiente para levar a um comportamento
comparável ao forte condicionamento do ASCS.
Como discutido no capítulo 4, para cada interação do ASCS com os objetos do seu
ambiente classificada como prazerosa, o mecanismo de condicionamento ajusta a probabilidade da ação executada, aumentando assim a chance da ação ser selecionada
novamente para o objeto no futuro. Após atualizar a probabilidade da ação executada,
o mecanismo de condicionamento operante ajusta também a probabilidade das ações
que não foram selecionadas para serem executadas naquela ocasião, diminuindo a
probabilidade de seleção dessas ações.
No experimento, como o ASCS interage com as maçãs vermelhas e recebe uma conseqüência prazerosa por isso, as probabilidades das suas ações vão sendo moduladas, como pode ser visto nas Figuras 48, 49, 50.
Figura 48: Alteração das probabilidades das ações no experimento Condicionamento
x seleção de ações - Condicionamento inicial baixo.
5.3.3 Condicionamento x sobrevivência
Este experimento teve como objetivo principal verificar se o mecanismo de condicionamento operante possibilita ao ASCS manter-se vivo, adaptando-se ao ambiente em
que esteja inserido. Consideramos a morte do ASCS quando o mesmo atingir o índice
de eficiência comportamental (citado no capítulo 1) para a fome igual a zero (Figura
5.3 Experimentos envolvendo o condicionamento operante
108
Figura 49: Alteração das probabilidades das ações no experimento Condicionamento
x seleção de ações - Condicionamento inicial médio .
Figura 50: Alteração das probabilidades das ações no experimento Condicionamento
x seleção de ações - Condicionamento inicial alto.
5.3 Experimentos envolvendo o condicionamento operante
109
51).
O ambiente para realização do experimento era composto por 10 Maçãs vermelhas,
Figura 51: Gráfico da função arousal.
10 Maçãs verdes, 10 pedras e 10 Totens distribuídos aleatoriamente para cada sessão
do experimento. O experimento foi dividido em 3 partes referentes aos mesmos níveis
iniciais de condicionamento do experimento anterior (c.f., Tabela 4). Para cada nível inicial de condicionamento operante foram realizadas 10 sessões do experimento,
sendo que a cada sessão novas sementes de números aleatórios eram geradas para
posicionar os componentes de software ao ambiente. O estado emocional inicial do
agente era sempre o mesmo para todas as sessões realizadas, sendo o nível de arousal de fome e sono igual a 0.18 e dor igual a 0.
Em relação às alterações dos níveis de arousal do ASCS durante o experimento, o nível de arousal da emoção fome era aumentado em 0.05 a cada episódio caso o agente
não receba estímulos energéticos. A emoção sono teve o nível de arousal aumentado
em 0.001 a cada movimento de translação realizado pelo agente. Já para a emoção
de dor, quando o ASCS tocasse em um Totem, ele receberia um choque elétrico, que
resultava em um aumento do nível de arousal da dor em 0.1.
Para manter o seu equilíbrio homeostático e impedir que o nível de arousal da fome
chegue a 7, resultando na sua morte (Figura 51), o ASCS precisava elaborar um pa-
5.3 Experimentos envolvendo o condicionamento operante
110
drão de comportamento que o permitisse aproximar de maçãs e comê-las, pois ao
comer uma maçã o nível de arousal da fome diminuiria em 0.2 para maçãs vermelhas
e 0.3 para maçãs verdes. Já as pedras possuiam um valor energético nulo, isto é, não
contribuiam para regular o nível de arousal da fome.
O gráfico da Figura 52 apresenta o tempo médio de vida do ASCS num ambiente
aleatoriamente gerado para cada nível inicial de condicionamento operante. Aos 7 minutos de duração de uma sessão, caso o ASCS ainda não tivesse morrido, a mesma
era encerrada, sendo considerado que o agente já tinha atingido um comportamento
adaptativo ao chegar até aquele ponto do experimento. A linha vermelha representa
a situação em que o ASCS não tinha, inicialmente, qualquer tipo de condicionamento
operante, isto é, todas as ações têm a mesma probabilidade de serem selecionadas
em qualquer situação vivenciada pelo agente. A linha amarela representa o tempo
médio de sobrevivência iniciando o experimento com condicionamento operante inicial
mostrado para o nível médio (c.f. Tabela 4). Nesse nível, o agente já apresenta um
comportamento inicial seletivo, tendo uma maior probabilidade de aproximar e consequentemente interagir com os componentes de software. Já a linha verde representa
o experimento com condicionamento operante inicial mostrado para o nível alto (c.f.
Tabela 4). Nesse nível o agente possui 70% de probabilidade de aproximar de todos
os componentes de software, portanto, o ASCS terá uma probabilidade bem maior
de interagir com um número maior de componentes e, consequentemente, ajustar o
seu comportamento aumentando a probabilidade de executar ações que o leve a um
equilíbrio homeostático.
Um processo importante do mecanismo de condicionamento operante para direcionar o comportamento do ASCS na busca da sua regulação homeostática (discutido
no capítulo 4) é conseguir resgatar a expectativa esperada pela interação do agente
com os as coisas do seu mundo.
Como dito, a cada episódio vivenciado pelo agente, a emoção mais desregulada, isto
é, a emoção com o nível de arousal mais alto, é escolhida para ser atendida naquele
episódio. Caso o ASCS perceba mais de um estímulo desencadeante emitido pelas
coisas do mundo em que esteja inserido (Figura 53), ele elege, dentre os estímulos
recebidos, o que possui uma melhor expectativa para regular a emoção escolhida.
Vale lembrar que a expectativa esperada consiste na valoração emocional resultante
das interações passadas do agente com o objeto emissor do estímulo. Caso haja interação com o componente emissor do estímulo, a expectativa prevista pela interação é
comparada com a valoração realmente recebida, sendo que a diferença é reajustada
5.3 Experimentos envolvendo o condicionamento operante
111
Figura 52: Tempo médio de sobrevivência do ASCS num ambiente aleatório para 3
níveis de condicionamento.
na memória de longo prazo.
Este experimento mostra que quanto maior o nível inicial de condicionamento, mais
Figura 53: Expectativa esperada pela interação com os componentes de software.
fácil é a adaptação do ASCS ao ambiente, aumentando suas chances de sobrevivên-
5.4 Considerações finais
112
cia.
O experimento mostra, ainda, que o ASCS é capaz de forjar um repertório de comportamentos voluntários, baseados em suas experiências passadas, que o permite
manter-se adaptado ao seu ambiente por meio de sua auto-regulação interna.
5.4 Considerações finais
Os experimentos realizados apresentaram resultados satisfatórios e coerentes com os
resultados de experimentos existentes na literatura realizados em seres vivos (GLASSMAN, 2006).
Os experimentos referentes ao condicionamento clássico permitiram verificar que o
ASCS é capaz de criar um repertório comportamental básico associando estímulos
neutros de modo que os mesmos possam vir a eliciar, de modo antecipado, respostas
reflexas inatas.
Os experimentos referentes ao condicionamento operante permitiram averiguar que
o ASCS consegue gerar padrões comportamentais, reforçando/inibindo ações com
base nas conseqüências que ele percebe, e que essa alteração no comportamento
capacita o agente a um aprendizado básico que o possibilita manter-se adaptado ao
seu ambiente.
Embora não tenha sido produzido um vídeo para demonstração, a arquitetura possibilita realizar a modelagem envolvendo qualquer componente de software do ambiente
do ASCS utilizando os reforçadores positivo/negativo, proporcionando também facilidades para realizar experimentos de condicionamento clássico de segunda ordem.
Quanto à aplicação ALifeWorld versão 0.9, pode-se ter uma idéia da complexidade
pelo número de classes e de linhas de código, sendo:
Total de Classes
Linhas de código
Arquitetura ARTÍFICE
79
3.792
Aplicação ALifeWorld
67
8.966
Tal complexidade de software é uma dificuldade natural, aliada à complexidade do
tema objeto de estudo. Para melhor visualização do projeto de software, o diagrama de
classes completo da versão 0.9 da arquitetura ARTÍFICE, desenvolvida neste trabalho,
está apresentado no Anexo A, juntamente com o diagrama completo da aplicação
ALifeWorld.
113
6
Conclusão
O trabalho desenvolvido por Campos (2006) definiu uma nova dinâmica de operação
entre os componentes da arquitetura, composta por três níveis de resposta, ditas rápida, semi-elaborada e elaborada, resultando na versão 0.7.5 da arquitetura Artífice.
O presente trabalho foi desenvolvido com intuito de incorporar à dinâmica de operação da arquitetura processos de aprendizagem associativa mediante condicionamento
clássico e operante.
Para elaboração desta proposta foi feito primeiramente um estudo sobre as ciências
cognitivas contemporâneas e também sobre a modelagem e a dinâmica de funcionamento da arquitetura Artífice. Posteriormente, foi realizada uma revisão de literatura
interdisciplinar, buscando compreender os conceitos do condicionamento clássico e
operante sob perspectiva da psicologia e da biologia para fundamentar a modelagem
do mecanismo de condicionamento.
Em seguida buscou-se esboçar alguns modelos computacionais que utilizam o condicionamento para implementar os processos de aprendizagem de seus agentes. Estes
trabalhos foram avaliados à luz do referencial psicobiológico considerado no presente
trabalho, a fim de contextualizar algumas das opções feitas no modelo proposto.
A partir do referencial teórico utilizado, foi elaborada a proposta do modelo de condicionamento clássico e operante para a arquitetura Artífice versão 0.9. Para realizar uma
prova de conceito foram realizados experimentos computacionais e apresentada uma
análise dos resultados obtidos. Embora não se tenha utilizado uma métrica ou mesmo
realizado uma extensa avaliação dos resultados dos teste executados, os resultados
se mostraram satisfatórios tendo em vista os objetivos e escopo definidos para o trabalho.
6.1 Principais contribuições deste trabalho
114
6.1 Principais contribuições deste trabalho
Este projeto contribuiu, de forma geral, para a modelagem e construção de agentes
autônomos bio-inspirados. Mais especificamente, o trabalho se destaca pelo estudo
realizado sobre os mecanismos de condicionamento enquanto processos de aprendizagem associativa, bem como pelas características abstraídas desse estudo para
incorporar o condicionamento clássico e operante em mecanismos de software e/ou
hardware que busquem ajustar seu comportamento de acordo com as suas necessidades e com as transformações ocorridas em seu ambiente.
Especificamente quanto ao projeto Artífice, este projeto teve como principais contribuições:
1. constitui o agente de processos de aprendizagem associativa mediante o condicionamento clássico, permitindo-o associar estímulos neutros puramente sensoriais advindos do ambiente a estímulos não-condicionados que disparam uma
resposta reflexa inata.
2. permite ao agente associar a conseqüência cognitivo-emocional decorrente de
sua ação, aumentando a freqüência futura seleção de ações que tenham levado a conseqüências apetitivas e diminuindo a freqüência de seleção ações
que tenham levado a conseqüências aversivas, mediante processos de condicionamento operante.
3. permite ao agente a constituição dos construtos básicos para a formação da
sua memória de longo prazo, composta pelas experiências do ASCS-em-seuambiente, ou, mais especificamente, pelas associações e padrões de comportamento providos pelos mecanismos de condicionamento clássico e operante.
6.2 Perspectivas de trabalhos futuros
No desenvolvimento deste trabalho foram identificadas algumas propostas de trabalhos futuros para ampliação da arquitetura, sendo elas:
1. desenvolver um mecanismo de formação da memória de longo prazo do agente,
6.3 Considerações finais
115
capaz de adquirir, consolidar, evocar e reforçar/inibir memórias de experiências
vivenciadas pelo ASCS.
2. incorporar um mecanismo no agente que permita utilizar sua memória remota
para seleção de ações correntes e previsão de ações futuras.
3. incrementar o "bloqueio"no mecanismo de condicionamento clássico (CATANIA,
1999). Para isso, é necessário acrescentar no agente novos componentes sensores possibilitando o ASCS captar mais estímulos neutros do ambiente.
4. Realizar experimentos com o mecanismo de condicionamento clássico para contemplar o condicionamento de ordem mais elevada, para que novos estímulos
neutros possam ser associados a estímulos condicionados e eliciar respostas
reflexas inatas.
5. permitir a generalização de estímulos no condicionamento clássico, possibilitando o ASCS produzir uma resposta reflexa, tanto para o estímulo condicionado, quanto para os estímulos que são de algum modo similares a ele. Para
isso, seria necessário expandir o sistema de percepção do ASCS para que tais
categorizações sensoriais sejam realizadas (GLASSMAN, 2006).
6. implementar outros esquemas de reforçamento de comportamento, como a omissão e o reforçamento negativo.
6.3 Considerações finais
Diante dos objetivos propostos, pode-se dizer que este trabalho obteve êxito. Os experimentos feitos demonstraram que os processos de aprendizagem utilizando o condicionamento clássico e operante possibilitam o ASCS manter-se vivo na aplicação
ALifeWorld 0.9 em diferentes configurações de ambiente.
Como principais dificuldades encontradas no decorrer do trabalho, podemos destacar,
de um modo geral, a complexidade envolvida no que se refere à criação de agentes de
software bio-inspirados numa perspectiva contemporânea das ciências cognitivas e a
dimensão, tanto conceitual quanto tecnológica, que se encontra a arquitetura Artífice.
Desenvolver um trabalho pertencente ao Projeto Artífice, que se faz necessário compreender, consolidar e abstrair conceitos de diversas áreas de pesquisa completamente diferentes da formação (em Ciência da computação) do autor mostrou-se ser
6.3 Considerações finais
116
uma tarefa desafiadora e motivante. Os diversos livros e artigos estudados sobre
ciências cognitivas, psicologia, biologia, dentre outros, contribuíram não só para um
crescimento do autor como pesquisador, mas também para a construção de uma nova
pessoa.
117
Referências
BALKENIUS, Chistian. Attention, conditioning and habituation: toward a computational
model. Cognitive Science, 2000.
BALKENIUS, Cristian; MORéN, Jan. Dynamics of a classical conditioning model.
1998.
BORGES, Henrique Elias. Arquitetura Flexível para a Criação de Agentes de Software
Cognitivos e Situados. Belo Horizonte, MG, 2002.
CAMPOS, Luciana Maria Assis. Modelagem do processo cognitivo-emocional de
um organismo artificial numa perspectiva dinâmico-interacionista. Agosto 2006.
Dissertação (Mestrado em Modelagem Matemática e Computacional) — Centro
Federal de Educação Tecnológica de Minas Gerais, Belo Horizonte, MG, Agosto
2006.
CATANIA, Charles. Aprendizagem: Comportamento, Linguagem e Cognição. [S.l.]:
Porto Alegre, Artmed, 1999.
CLANCEY, William J. Situated cognition : on human knowledge and computer
representations. Cambridge, U.K. ; New York, NY, USA: Cambridge University Press,
1997. xviii, 406 p. (Learning in doing.).
CLARK; SQUIRE. Classical conditioning and brain systems: The role of awareness.
Science, v. 280, p. 77, abr. 1998.
DAYAN, Peter; BALLEINE, Bernard. Reward, motivation, and reinforcement learning.
Neuron, 2002.
DELGADO, M.R.; MILLER, M.M. An fmri study of reward-related probability learning.
NeuroImage, 2005.
EDELMAN, Gerald. Neural darwinism: The theory of neuronal group election. [S.l.]:
New York: Basic Books, 1987.
GLASSMAN, Wilian E. Psicologia: abordagens atuais. [S.l.]: Artmed, 4 edição, 2006.
IZQUIERDO, Iván. Memória. [S.l.]: Artmed, 2002.
KRICHMAR, J.L.; EDELMAN, G.M. Machine psychology: autonomous behavior,
perceptual categorization and conditioning in a brain-based device. Cereb Cortex,
v. 12, p. 818–830, 2002.
KRICHMAR, J.L.; EDELMAN, G.M. Brain-based devices: Intelligent systems based
on principles of the nervous system. IEEE/RSJ International Conference on Intelligent
Robots and Systems (IROS), p. 940–945, 2003.
Referências
118
LAHNSTEIN, Mercedes. The emotive episode is a composition of anticipatory
and reactive evaluations. In: UNIVERSITY OF HERTFORDSHIRE, HATFILE, UK.
Symposium on Agents that Want and Like: Motivational and Emotional Roots of
Cognition and Action,SSAISB 2005 Convention. [S.l.], 2005.
LARMAN, Craig. Utilizando UML e Padrões. [S.l.]: Porto Alegre Bookman, 2004.
LEWIS, Marc D. Bridging emotion theory and neurobiology throught dynamic systems
modeling. Behavioural and Brain Sciences, v. 28, p. 169–245, 2005.
LOULA, A. Comunicação Simbólica entre Criaturas Artificiais: um experimento em
Vida Artificial. 2004. Dissertação (Mestrado) — Universidade Estadual de Campinas,
UNICAMP, 2004.
MAPA, Suelen. Modelagem do Organismo Artificial Dotados de Memória Experiencial
de Longo Prazo. [S.l.], 2007.
MATURANA, Humberto; VARELA, Francisco. A Árvore do Conhecimento: as bases
biológicas da compreensão humana. [S.l.]: Palas Athenas, 2001.
MATURANA, Humberto R. A ontologia da Realidade. Belo Horizonte, MG: Editora
UFMG, 1997.
MATURANA, Humberto R. Cognição, Ciência e Vida Cotidiana: a ontologia das
explicações científicas. [S.l.]: Editora UFMG, 2001.
MORéN, Jan. Emotion and Learning: A Computational Model of the Amygdala. 2002.
Tese (Doutorado) — Lund University Cognitive Studies, Sweden, 2002.
MOWRER, Orval Hobart. Learning theory and behavior. [S.l.]: Wiley New York, 1973.
ODOHERTY. Dissociable roles of ventral and dorsal striatum in instrumental
conditioning. Science, v. 304, p. 452, 2004.
PAVLOV, Ivan. Conditioned reflexes. [S.l.]: Oxford University Press, 1927.
RESCORLA; WAGNER. A theory of pavlovian conditioning: variations in the
effectiveness of reinforcement and nonreinforcement. p. 64, 1972.
SANTOS, Bruno André. Aspectos conceituais e arquiteturais para a criação de
linhagens de agentes de software cognitivos e situados. Junho 2003. 130 f.
Dissertação (Mestrado em Tecnologia) — Centro Federal de Educação Tecnológica
de Minas Gerais, Belo Horizonte, MG, Junho 2003.
SCHULTZ, Wolfram. Dopamine neurons and their role in reward mechanisms. Current
Opinion in Neurobiology, v. 7, p. 191–197, 1997.
SEYMOUR, Ben; SINGER, Tania. The neurobiology of punishment. Nature Reviews:
Neuroscience, v. 8, p. 300–311, 2007.
SQUIRE, L.R.; KANDEL, E.R. Memória: da mente às moléculas. [S.l.]: ArtMed Editora
SA, 2003.
Referências
119
SUTTON, R. S.; BARTO, A. G. Proceedings of the ninth annual conference of the
cognitive science society. In: Learning and Computational Neuroscience. [S.l.: s.n.],
1986.
120
ANEXO A -- Diagrama de classes da
arquitetura Artífice 0.9
Download