reforço atrasado - tommyreforcopositivo

Kennon A. Lattal
O cheque está no correio1, 2:
investigando como o reforço
atrasado afeta o desempenho
Kennon A. Lattal
West Virginia University
Azzi, R., Fix, D. S. R., Keller, F. S., & Rocha e Silva, M. I. (1964). Exteroceptive control of response
under delayed reinforcement. Journal of the Experimental Analysis of Behavior, 7, 159-162.
“… um atraso do reforço não é um parâmetro estático no efeito de um reforço sobre
o comportamento”
(C. B. Ferster, 1953)
36
Capítulo II | Atraso do Reforço
INTRODUÇÃO A ÁREA DE PESQUISA E CONTEXTUALIZAÇÃO
DO EXPERIMENTO
Atraso do reforço, mesmo em 1964,
era uma questão de interesse de longa data
na Psicologia da Aprendizagem (e.g., Kimble, 1961; Renner, 1964). Thorndike (1911)
preparou o palco para investigações futuras, quando afirmou que “as respostas que
eram acompanhadas ou seguidas de perto
pela satisfação do animal” (p. 244) seriam
fortalecidas. Foi deixado para outros explorarem os limites e as implicações da “proximidade” temporal para a relação resposta-reforço. O tema geral foi explorado por
todos os principais teóricos da aprendizagem que sucederam Thorndike. Guthrie
(1935) enfatizou a importância fundamental da contiguidade temporal entre eventos
para a aprendizagem, mas ele nem era um
teórico do reforçamento! Hull (1943) discutiu extensamente o problema do atraso do
reforço em seu livro Princípios do Comportamento (Principles of Behavior), com ênfase especial nos mecanismos responsáveis
pela manutenção do comportamento sob
condições de atraso do reforço (ver também
Spence, 1947). O atraso do reforço também
aparece como um problema de pesquisa no
Tradução realizada por João Henrique de Almeida, Paulo Guerra Soares e Carlos Renato Xavier Cançado. O primeiro tradutor é bolsista de
pós-doutorado FAPESP processo número 2014/01874-7.
1
Nota de tradução: “The check is in the mail” é uma expressão utilizada
para indicar a um credor que um pagamento (ainda não realizado) será
feito em breve. É uma situação em que o atraso de um reforço é, necessariamente, sinalizado (i.e., o pagamento ainda não foi recebido e seu
recebimento é sinalizado pela expressão “o cheque está no correio”).
livro de Skinner (1938) O Comportamento
dos Organismos. Diferentemente da tentativa de Hull de inferir mecanismos teóricos
subjacentes ao gradiente de atrasos do reforço, a análise de Skinner foi, previsivelmente, mais empírica.
Os experimentos em que foram impostos um atraso temporal entre a resposta
que produz o reforço e a entrega desse reforço são descritos em dois momentos em
O Coportamento dos Organismos. Os atrasos investigados por Skinner (1938) foram
não-sinalizados, isto é, não houve mudança
de estímulo que acompanhasse o intervalo
do atraso. No primeiro experimento (descrito nas pp. 73-74), uma resposta liberava
“um pêndulo que acionava o comedouro no
final do intervalo desejado”. Skinner (Figura 6, p. 73) mostrou os dados de aquisição
de oito ratos usando atrasos de 1-4 s com
diferentes pares de ratos, e, com uma exceção, notou que foram comparáveis aos de
aquisição com reforço imediato. Não está
claro se estes atrasos eram reiniciados se
as respostas subsequentes ocorressem durante o intervalo do atraso, mas parece que
eles não foram, isto é, os atrasos foram não
resetáveis3 (cf. Lattal & Gleeson, 1990). Ele
afirmou que “[um] novo intervalo deve ser
iniciado [quando ocorre uma segunda resposta] ou a segunda resposta será reforçada
rápido demais, mas isto significa que a pri-
2
Nota de tradução: os termos “signaled”, “unsignaled”, “resetting” e
“nonresetting” que qualificam atrasos do reforço foram traduzidos, respectivamente, como “sinalizados”, “não sinalizados”, “resetáveis” e “não
resetáveis”.
3
37
Kennon A. Lattal
meira resposta não seria reforçada” (p. 73).
Seus comentários subsequentes sugeriram
que ele não resolveu este problema neste
primeiro experimento.
Um pouco mais tarde no livro ele
descreveu outros dois experimentos envolvendo atraso do reforço. Ele começou
repetindo o problema do procedimento já
mencionado anteriormente: “Nenhum planejamento foi feito para evitar a possivel
coincidência de uma segunda resposta com
um reforço atrasado” (Skinner, 1938, p. 138),
tornando assim mais provável que o atraso
obtido seria menor do que o atraso programado. Ele também observou uma segunda
dificuldade, relacionada com os ratos que
mantinham a barra pressionada. O atraso
começou com uma pressão a barra, mas às
vezes a barra continuava a ser pressionada durante o atraso e era liberada no final
do intervalo, levando Skinner a questionar
se isso resultaria em reforço imediato ou
atrasado. O equipamento utilizado neste
experimento foi o mesmo utilizado no experimento descrito acima mas, no entanto,
ele apontou uma mudança: “o equipamento tem esta propriedade importante: se uma
segunda resposta é feita durante o intervalo
do atraso, a contagem do tempo recomeça,
de modo que um intervalo completo deve
decorrer novamente antes que o reforço
ocorra” (p 139. ). Assim, em vez de um atraso
não resetável, neste experimento os atrasos
eram resetáveis, isto é , o intervalo do atraso era reiniciado para cada resposta após
aquela que iniciou o atraso. Utilizando este
38
procedimento, os ratos foram condicionados “da maneira usual” (p 140; presumivelmente Skinner queria dizer com reforço
imediato) para responder, por fim, em um
esquema intervalo fixo (FI) 5 min. Após este
treino, atrasos de 2, 4, 6 ou 8 s estavam em
vigor com diferentes ratos por três sessões.
As taxas de resposta foram reduzidas quando os atrasos estavam em vigor, sendo que
com os dois atrasos mais curtos o responder foi menos reduzido em comparação aos
dois mais longos. Em um experimento final
sobre atraso do reforço, Skinner analisou os
efeitos de várias mudanças no treino e na
implementação dos atrasos.
O principal desenvolvimento susequente na análise experimental do atraso
do reforço foi a pesquisa de Ferster (1953).
A maioria dos teóricos de aprendizagem,
incluindo Skinner, focaram os efeitos prejudiciais do atraso do reforço sobre a aprendizagem e o desempenho. Ferster inverteu a
questão e perguntou se seria possível manter o comportamento apesar da presença de
um atraso entre o reforço e a resposta que o
produziu. Ele conduziu uma série de experimentos com pombos em que ele primeiro mantinha a resposta de bicar (bicar um
pequeno disco de plástico) com esquemas
de reforço intervalo variável (VI). Com essa
linha de base, em seu primeiro e segundo
experimentos, atrasos sinalizados por blackouts4 da câmara experimental ocorreram
Nota de tradução: Termo mantido como no original. O termo é utilizado para descrever situações em que as luzes da câmara experimental, e
até mesmo aquelas que iluminam os discos de resposta, são apagadas.
4
Capítulo II | Atraso do Reforço
entre o reforço e a resposta que o produziu.
Os blackouts foram utilizados “para evitar S
de respondesse” (p. 219), aproveitando-se do
fato de que pombos normalmente não bicam os discos de resposta quando a caixa e
o disco estão apagados. Claro, apagar as luzes da caixa era uma consequência imediata da resposta, fazendo com que o blackout
funcionasse como um estímulo, em última
análise correlacionado com a liberação do
reforço. Como resultado, o atraso do reforço
covariou com a potencial função reforçadora condicionada do blackout. Esta covariação permite questionar esse experimento, e
todos os experimentos envolvendo atrasos
sinalizados do reforço, como um teste dos
efeitos de um atraso do reforço”puro” sobre
o responder. Em seu primeiro experimento,
Ferster observou que atrasos de 60 s causaram uma “pequena queda” na taxas de
respostas, mas sob atrasos de 120 s, a taxa
de respostas caiu para cerca da metade de
seu valor quando o reforços imediatos eram
utilizados. Em seu segundo experimento,
Ferster tentou manter altas taxas de resposta introduzindo os atrasos gradualmente, aumentando a sua duração de 1 a 60 s ao
longo de um período de treino de 90 hr. Ele
relatou que “os três Ss que mantiveram as
taxas normais de resposta sob 60 s de atraso foram mantidos no mesmo procedimento por várias centenas de horas cada. Eles
não exibiram nenhuma tendência de desaceleração” (p. 222). O responder do quarto pombo não foi mantido, de acordo com
Ferster, porque os atrasos “foram aumentados muito rapidamente.” (p. 222). Ele não
apresentou dados quantitativos na descrição de seus experimentos, baseando-se, ao
invés disso, em descrições verbais do que
aconteceu, apoiadas apenas por alguns registros cumulativos dos desempenhos dos
pombos.
Estas duas linhas de pesquisa (Skinner, 1938; e Ferster, 1953) fornecem o contexto para o tema deste capítulo: o experimento de Azzi, Fix, Rocha e Silva e Keller
(1964). Uma parte importante da história
por trás do experimento de Azzi et al. é caso
de amor de Fred Keller com o Brasil, que começou com a sua chegada como Fulbright
Teaching Fellow na Universidade de São
Paulo no início de 1961. Foi nomeado como
seu assistente de pesquisa Rodolpho Azzi,
que aparece com Keller e outros pesquisadores e pesquisadoras do Brasil na Figura 1.
Sobre Azzi, Keller (2008) afirmou:
“Ele rapidamente se tornou meu conselheiro e guia, ele meatualizava com
tudo o que eu deveria saber sobre os
meus alunos, membros do corpo docente e funcionários da administração. Ele me ajudou a responder a perguntas, escrever relatórios, e avaliar
o progresso dos meus alunos. Ele me
preparou para reuniões importantes,
me informava sobre novos desenvolvimentos, e me protegeu de incômodos
de qualquer tipo.” (p. 248)
39
Kennon A. Lattal
Experimental Analysis of Behavior”
(Keller, 2008, p. 250).
Figura 1. Rodolpho Azzi, Fred Keller, Maria Amélia Matos, Carolina
Martuscelli Bori, e Andrés Aguirre (da esquerda para a direita) com
equipamentos, Dezembro de 1961.
Logo depois que Keller começou a lecionar, ele recebeu uma entrega de equipamento de pesquisa que ele havia adquirido
da compania Grason-Stadler em Waltham,
Massachussetts. Ele se lembrou de que o
equipamento
“... não veio com as instruções, por
isso tivemos de determinar como funcionava por tentativa e erro. Rodolfo [sic] [Azzi] e eu, juntamente com
Mario Guidi, um estudante em nosso
curso, trabalhamos durante dias antes de finalmente descobrirmos como
automatizar um estudo longo sobre
os efeitos de diferentes atrasos do reforço sobre a resposta de pressionar a
barra de três ratos brancos (nomeados de Alpha, Beta e Gamma por Rodolfo [sic]). Os resultados foram publicados mais tarde no Journal of the
40
Podemos apenas especular sobre o
porquê atraso do reforço foi o tema da primeira pesquisa publicada no Journal of the
Experimental Analysis of Behavior com
um primeiro autor brasileiro (Azzi). Vamos
voltar para o segundo experimento relatado por Skinner com atraso de reforço em
O Comportamento dos Organismos. Lembre-se que ele usou um procedimento de
atraso resetável, em que cada resposta que
ocorresse após aquela que deu início ao
atraso reiniciava o intervalo do atraso. Ele
usou um procedimento semelhante para
reduzir o responder em altas taxas [“nenhuma resposta foi reforçada se fosse precedida, no prazo de quinze segundos, por outra
resposta” (p. 306)], dando assim origem ao
esquema de reforçamento diferencial de
taxas baixas (DRL). Wilson e Keller (1953),
posteriormente, estudaram os efeitos de esquemas DRL sobre a pressão à barra de ratos sob uma série de valores do “atraso” (i.e.,
os valores do DRL). O experimento Wilson
e Keller nasceu de uma demonstração inicial do que era basicamente um esquema
de reforçamento diferencial de outros comportamentos (DRO), em que o início de um
período de SD ocorreu somente se não houvesse resposta no período S-delta imediatamente anterior por um período de tempo
especificado (cf. Skinner, 1938, p. 161). Uma
contingência de atraso de reforço resetável
é essencialmente um esquema DRL sem
a resposta requerida no fim do intervalo,
Capítulo II | Atraso do Reforço
e um esquema DRO é essencialmente um
procedimento de atraso resetável, mas sem
a exigência de uma resposta para iniciar
cada intervalo do DRO (os reforços ocorrem desde que a resposta alvo não ocorra;
se uma resposta alvo ocorrer, ela reinicia
o intervalo do DRO). Combine todas essas
ideias, adicione o fato de que Ferster (um
dos alunos de doutorado de Keller em Columbia) tinha estudado previamente os
efeitos de atrasos sinalizados do reforço e,
voilà, os procedimentos utilizados por Azzi
et al. (1964) emergem. Não podemos saber
com precisão como a ideia para o experimento foi desenvolvida mas, certamente, e
sem surpresa, pode ser intimamente ligada
a alguns dos trabalhos anteriores de Keller e
seus alunos na Universidade de Columbia.
DESCRIÇÃO DO EXPERIMENTO
Objetivo e Método
Azzi et al. (1964) buscaram fazer duas
coisas: (a) investigar o responder operante
sob condições em que o intervalo entre o
reforçador e a resposta que o produzia era
variado e (b) comparar condições em que
o atraso fosse acompanhado por uma mudança nos estímulos (um estímulo que o
sinalizasse) ou ocorresse sem qualquer mudança durante o intervalo do atraso (não
sinalizado). Assim, o experimento era basicamente uma comparação de duas condições diferentes – atrasos do reforço não
sinalizados e sinalizados – que tinham sido
observados em experimentos diferentes
conduzidos, respectivamente, por Skinner
(1938) e Ferster (1953).
Para isso, três ratos foram incialmente treinados a pressionar uma barra em
um esquema de razão fixa (FR) 1, em que o
reforçado era acesso à água. Parece razoável
assumir que neste tempo nem pelotas de
comida usadas com os ratos em muitos dos
experimentos de Skinner e outros, nem tão
pouco os meios para liberar essas pelotas –
i.e., um comedouro – estavam disponíveis
no Brasil. Água era fácil de obter e Keller
tinha trazido consigo o que ele chamou
de um “Brenner dipper”5 para liberação de
água como reforços. Após o treino inicial,
“dentro de uma câmara com a iluminação
reduzida, cada [rato] foi exposto sucessivamente a atrasos do reforço de 1; 3; 5; 7,5; 10;
15; e 20 s[egundos], nesta ordem, com um
total de 150 reforços em cada atraso” (Azzi
et al., 1964, p. 159). O esquema de reforço
então era, tecnicamente falando, um tandem FR 1 DRO t-s, em que t correspondia a
um dos valores de atraso apresentados acima. Um esquema tandem (a palavra latina
para “um logo após o outro”) é idêntico a um
esquema de reforço encadeado em que dois
ou mais componentes do esquema precisam ser finalizados em uma sequência fixa
para que o reforço ocorra; no entanto, em
um esquema encadeado cada componente é associado com um estímulo diferente,
Nota de tradução: Um dipper é uma espécie de bebedouro; o equipamento geralmente consiste em uma haste com um recipiente côncavo
na ponta que, quando mergulhado em um líquido, retém parte do mesmo. O líquido então pode ser apresentado ao animal movimentando-se
a haste até alguma parte da câmara experimental.
5
41
Kennon A. Lattal
mas no esquema tandem o estímulo associado com cada componente é idêntico.
No procedimento de Azzi et al. (1964), cada
atraso reiniciava se uma resposta ocorresse
durante o intervalo do atraso (um atraso resetável), e não havia nenhuma mudança no
estímulo durante o período de atraso. Em
seguida, foram realizadas várias manipulações das durações do atraso para dos dois
dos ratos. O terceiro rato aparentemente foi
exposto somente a um esquema DRL 20 s
com reforços imediatos. Assim como na
primeira, na segunda parte do experimento o esquema de reforço em vigor tecnicamente era um tandem FR1 DRO ts, em que
t era 20 por dez dias, seguido por seis dias
com t=30s. Durante a metade de cada sessão, “cada animal trabalhou em uma câmara com a iluminação reduzida” (p.160). Durante a outra metade, no entanto, “ausência
de iluminação (escuridão) estava em vigor
durante cada intervalo do atraso… cada vez
que uma resposta de pressão à barra ocorria, a luz da caixa era desligada (p.160, itálicos originais) e não voltava a ser ligada até
que o reforço tivesse sido liberado. Pressões
à barra na câmara sem iluminação aumentavam o período sem iluminação até que a
duração do atraso terminasse e o reforço
fosse liberado. Assim, na segunda parte do
experimento, foram comparados um intervalo do atraso correlacionado com a presença e com a ausência de uma mudança
nos estímulos.
42
Resultados e Discussão
Houve dois achados principais. O
responder mantido sob um esquema tandem FR1 DRO ts foi uma função negativamente desacelerada da duração do atraso.
Ou seja, a taxa de respostas caiu precipitadamente quando o atraso aumentou de 1 a
10 s, mas atingiu a assíntota naquele ponto,
não caindo mais quando aos atrasos duravam 15 ou 20 s. Essa relação é chamada de
gradiente de atraso do reforço, e é característica da relação entre as medidas de uma
resposta e a duração do atraso em uma ampla variedade de atrasos do reforço e parâmetros do esquema de reforço (cf. Lattal,
2010). Escurecer a câmara durante o atraso
“produziu um efeito considerável, regularizando e aumentando a taxa de respostas
[relativo aquela observada na condição de
atraso não sinalizado] em quase todos os
casos” (Azzi et al., 1964, p. 160).
A discussão considerou o papel do
comportamento mediador em manter o responder durante o atraso, uma observação
feita anteriormente por Ferster (1953). No
que subsequentemente se tornou uma análise padrão, a mudança de estímulos (em
atrasos sinalizados dos reforços) é entendida como um reforçador condicionado que
mantém as respostas que a produziram. Isto
ainda é uma interpretação comum do papel
do estímulo que sinaliza o atraso em procedimentos de atrasos sinalizados do reforço. Essa interpretação, no entanto, tem sido
questionada recentemente interpretando-se a mudança de estímulos como tendo
Capítulo II | Atraso do Reforço
função de ligação ou marcação do atraso
(e.g., Williams, 1991), ao invés de fortalecer
o comportamento que a precede.
DESDOBRAMENTOS
Ambos os resultados do experimento qualificam Azzi et al. (1964) como um experimento seminal no estudo do atraso do
reforço. Os gradientes de atraso do reforço
apresentados por Azzi et al. (1964) tem sido
replicados quando diferentes esquemas
de reforço têm sido usados para manter o
responder (Elcoro & Lattal, 2011, FI; Jarmolowicz & Lattal, 2013, FR; Richards, 1981,
DRL e VI; Sizemore & Lattal, 1978, VI) e
com uma variação mais ampla de valores
de atraso (Pierce, Hanford, & Zimmerman,
1972; Richards, 1981; Sizemore & Lattal,
1978). Azzi et al. também anteciparam várias comparações subsequentes de atraso do reforço sinalizado e não sinalizado,
com mais ou menos os mesmos resultados:
atrasos sinalizados mantem um responder
mais robusto do que os não sinalizados (Richards, 1981). Uma característica particularmente interessante de Azzi et al. é que
as comparações dos atrasos do reforço sinalizados e não sinalizados foram intrassujeitos. Eles são os primeiros a comparar
simultaneamente (intrassessão) os efeitos
dos atrasos do reforço sinalizados e não sinalizados (cf. Lattal, 1984; Lattal & Ziegler,
1982; Richards, 1981). Muito depois de Azzi
et al., Reilly e Lattal (2004) desenvolveram
um método para obter gradientes de atraso
do reforço intrassujeitos durante uma única sessão. Eles mantiveram o responder sob
um esquema VI e, no início de cada sessão,
programaram um atraso curto antes que
um reforço fosse disponibilizado. Cada reforço subsequente foi disponibilizado após
um atraso progressivamente maior.
O experimento de Azzi et al. (1964)
foi conduzido na tradição da Universidade
de Columbia de conduzir análises paramétricas sistemáticas das variáveis controladoras do comportamento. Nesse caso, as
durações do atraso foram manipuladas em
condições sucessivas. Como não havia um
retorno à linha de base entre os aumentos
sucessivos nos valores dos atrasos, atrasos
subsequentes eram impostos sob taxas variáveis de respostas entre manipulações,
com efeitos desconhecidos sobre o gradiente de atraso do reforço. Esses gradientes de
atraso do reforço, no entanto, são um tanto
similares em sua forma aqueles obtidos com
pressões à barra de ratos ou bicar de disco
de pombos mantidos sob outros esquemas
de reforço (Elcoro & Lattal, 2011; Pierce, et
al., 1972; Richards, 1981; Sizemore & Lattal,
1978), sugerindo que a taxa de respostas
na linha de base pode ter um papel menos
importante na forma do gradiente do que o
valor do atraso em si.
Uma potencial variável estranha no
experimento foi a taxa de reforços. Como
tantos outros experimentos iniciais envolvendo atrasos do reforço, a taxa de reforços sob cada valor de atraso não foi relatada
43
Kennon A. Lattal
por Azzi et al. (1964). É quase certo que as
taxas de reforço diferiram quando os atrasos foram aumentados na primeira parte do
experimento e na presença e na ausência
de um estímulo na segunda parte. Pesquisas posteriores, no entanto, mostraram que
diferenças na taxa de reforços geralmente
não explicavam as diferenças nas taxas de
resposta observadas quando durações de
atraso são alteradas (Lattal, 1982; Richards,
1981; Sizemore & Lattal, 1978).
Lattal e Gleeson (1990) utilizaram um
procedimento semelhante aos de Skinner
(1938) e Azzi et al. (1964) para investigar a
aquisição de responder por ratos e pombos
experimentalmente ingênuos sob atrasos
do reforço não sinalizados e resetáveis e
não resetáveis quando a resposta operante não havia sido modelada ou treinada de
alguma forma, mas deixada para se desenvolver sem qualquer intervenção por parte
dos investigadores. Responder robusto se
desenvolveu sob estas condições, atestando o poder de reforço atrasado no desenvolvimento e manutenção comportamento
operante. Esta é outra maneira de dizer que
o reforço imediato não é necessário para
que a aprendizagem ocorra. Dito isto, no
entanto, o reforço imediato resulta em um
responder muito mais robusto. É uma questão em aberto se a aquisição de respostas
é “mais rápida” com reforços imediatos vs.
atrasados das respostas.
CONSIDERAÇÕES FINAIS
O atraso do reforço é um dos principais parâmetros que afetam a eficácia dos
reforços no desenvolvimento e na manutenção do comportamento (Kimble, 1961).
Por esta razão, o seu papel, tanto sozinho
como em combinação com outros parâmetros do reforço, tal como magnitude dos reforços, foi investigado extensivamente. Um
dos resultados dessas análises de interações
é o desconto do atraso, em que sistematicamente aumentar atrasos do reforço para reforços de maior magnitude ou probabilidade enquanto o atraso para outro reforço de
menor magnitude ou probabilidade é fixo
permite determinar, entre outras coisas, o
ponto de indiferença em que uma das duas
alternativas é igualmente provável de ser
escolhida (ver Green, Myerson, & Vanderveldt de 2014, para um resumo recente destes resultados). Estudos sobre desconto do
atraso oferecem insights sobre como diferentes combinações de parâmetros de reforço podem ser dimensionados. Da mesma
forma, o atraso do reforço (às vezes também
chamado de “gratificação” em experimentos não analítico-comportamentais sobre o
fenômeno) desempenha um papel importante no desenvolvimento de estratégias de
auto-gerenciamento ou de auto-controle.
Na verdade, a base desta área de pesquisa e
aplicação é a análise experimental de atraso
do reforço.
Uma outra área em que as pesquisas sobre atraso do reforço tem sido impor-
44
Capítulo II | Atraso do Reforço
tantes é o estudo do reforço condicionado.
Uma teoria fundamental sobre esse tipo reforço é a teoria da redução do atraso (delay
reduction theory), que sugere que estímulos
funcionam como reforçadores na medida
em que eles indicam uma redução do tempo de acesso ao reforço primário (Fantino,
1977).
As lições do atraso do reforço não foram perdidas na análise do comportamento
aplicada, onde a importância da imediaticidade do reforço seguindo o comportamento apropriado continua, com razão,
sendo enfatizada. Embora reforço imediato
possa ser o ideal no tratamento e na gestão do comportamento humano de maneira geral, muitos comportamentos humanos
são mantidos apesar de seus reforços serem
atrasados a partir das respostas que os produzem. A pesquisa básica sobre atraso do
reforço sugere uma série de condições sob
as quais os atrasos reduzirão (e.g., atrasos
mais longos ou não sinalizados) ou não (e.g.,
atrasos mais mais curtos ou sinalizados) o
responder, mas poucas pesquisas aplicadas
tem sido realizadas para expandir estes resultados e investigar como eles podem estar relacionados a programas de tratamento (mas cf. Stromer, McComas, & Rehfeldt,
2000).
Uma questão particularmente importante e não resolvida na análise do atraso
do reforço com humanos tanto na pesquisa
como em contextos aplicados é a questão
da mediação do comportamento durante os
atrasos pelo comportamento verbal. Ambos
Ferster (1953) e Azzi et al. (1964) sugeriram
que o comportamento é mantido durante os
atrasos do reforço na medida em que certos
padrões de comportamento estereotipado
surjem durante o atraso, o que resultaria
numa cadeia de comportamento desenvolvendo de tal modo que a resposta que
inicia o atraso é seguida por algum padrão
regular de comportamento (não necessário mas mantido por reforço acidental) que
termina contiguamente com reforço. Tais
cadeias supersticiosas, assim, garantiriam
uma “conexão” entre a resposta operante
inicial e o reforço no final do atraso. Tem
sido sugerido que o comportamento verbal
de humanos pode também mediar os atrasos. Algo que uma pessoa faz agora pode
não ter um efeito em uma hora, em um
dia, ou até mais, mas os dois eventos permanecem conectados e a pessoa continua
a se engajar no comportamento que tem o
reforço atrasado. Talvez isso esteja relacionado a coisas que ou a pessoa diz a si mesmo ou outras pessoas a durante o intervalo do atraso. Ou talvez não. Alguns críticos
contemporâneos de tais interpretações do
atraso do reforço baseadas em contiguidade
têm sugerido que a proximidade temporal
entre a resposta e reforço desempenha um
papel relativamente menor na aquisição e
manutenção de responder em comparação
ao fato de que existe uma correlação geral
entre a taxa de respostas e os reforços que
resultam, imediatamente ou após atrasos
(ver Baum, 1973). O experimento de Lattal
e Gleeson (1990) descrito acima ilustra que
45
Kennon A. Lattal
a aprendizagem pode ocorrer quando há
apenas uma correlação entre a resposta e
o reforço, mas não a contiguidade resposta-reforço. Este último ponto levanta uma
questão mais ampla, sem resposta ainda,
sobre se os reforços que ocorrem após um
atraso são mais bem caracterizados como
atrasados em relação à respostas específicas ou se são correlacionados com grupos
de respostas organizadas como taxas de
resposta ou tempo alocado à respostas de
topografias particulares. Um último ponto, mas não menos
importante, é que a partir de uma perspectiva histórica o experimento é importante
porque é o primeiro de muitos relatos de
pesquisa por analistas do comportamento
brasileiros a ser publicado no Journal of the
Experimental Analysis of Behavior.
PARA SABER MAIS
Commons, Mazur, Nevin, & Rachlin (1987).
É um volume editado que apresenta uma
série de perspectivas sobre o uso e as implicações do atraso do reforço para a compreensão do processo de reforçamento.
Lattal (2010). fez uma revisão sobre a pesquisa básica sobre atraso do reforço conduzida na tradição analítico-comportamental
de Skinner até o momento da publicação de
sua revisão.
Renner (1964). é uma importante revisão
46
inicial sobre atraso do reforço a partir de
uma perspectiva mais ampla das teorias da
aprendizagem sobre o tema.
Stromer, McComas, & Rehfeldt (2000).
consideraram algumas implicações aplicadas de pesquisas sobre atraso do reforço.
Tarpy & Sawabini (1974). analisaram criticamente pesquisas sobre atraso do reforço
conduzidas desde a publicação da revisão
de Renner até a sua própria.
REFERÊNCIAS
Azzi, R., Fix, D. S. R., Keller, F. S., & Rocha
e Silva, M. I. (1964). Exteroceptive control
of response under delayed reinforcement.
Journal of the Experimental Analysis of
Behavior, 7, 159-162.
Baum, W. M. (1973). The correlation-based
law of effect. Journal of the Experimental
Analysis of Behavior, 20, 137-153.
Commons, M. L., Mazur, J., Nevin, J. A., &
Rachlin, H. (Eds.) (1987). Quantitative studies of operant behavior: The effect of delay
and of intervening events on reinforcement
value. New York: Erlbaum.
Elcoro, M., & Lattal, K. A. (2011). Effects of
unsignaled delays of reinforcement on fixed-interval schedule performance. Behavioural Processes, 88, 47-52.
Capítulo II | Atraso do Reforço
Fantino (1977). Conditioned reinforcement,
choice, and information. In W. K. Honig &
J.E.R. Staddon (Eds.), Handbook of operant
behavior (pp. 326-339). New York: Prentice
Hall.
Ferster, C. B. (1953). Sustained behavior under delayed reinforcement. Journal of Experimental Psychology, 45, 218-224.
Green, L., Myerson, J., & Vanderveldt, A.
(2014). Delay and probability discounting.
In F. K. McSweeney & E. S. Murphy
(Eds.), The Wiley Blackwell handbook of
operant and classical conditioning. Oxford:
John Wiley & Sons.
Guthrie, E. R. (1935). The psychology of learning. New York: Harper.
Hull, C. L. (1943). Principles of Behavior.
New York: Appleton-Century Crofts.
Jarmolowicz, D. P., & Lattal, K. A. (2013). Delay of reinforcement and fixed-ratio performance. Journal of the Experimental Analysis of Behavior, 100, 370-395.
Keller, F. S. (2008). At my own pace: The autobiography of Fred S. Keller. Cornwall on
Hudson: Sloan Publishing.
Kimble, G. A. (1961). Hilgard and Marquis’ Conditioning and Learning. New York:
Appleton Century Crofts.
layed reinforcement. Journal of the Experimental Analysis of Behavior, 42, 239-253.
Lattal, K.A. (2010). Delayed reinforcement
of operant behavior. Journal of the Experimental Analysis of Behavior, 93, 129-139.
Lattal, K. A., & Gleeson, S. (1990). Response acquisition with delayed reinforcement.
Journal of Experimental Psychology: Animal
Behavior Processes, 16, 27-39.
Lattal, K. A., & Ziegler, D. R. (1982). Briefly
delayed reinforcement: An interresponse
time analysis. Journal of the Experimental
Analysis of Behavior, 37, 407-416.
Pierce, C. H., Hanford, P. V., & Zimmerman,
J. (1972). Effects of different delay of reinforcement procedures on variable-interval responding. Journal of the Experimental Analysis of Behavior, 18, 141-146.
Renner, K. E. (1964). Delay of reinforcement:
A historical review. Psychological Review,
61, 341-361.
Reilly, M.P., & Lattal, K.A. (2004). Progressive delays to reinforcement. Journal of the Experimental Analysis of Behavior, 82, 2135.
Richards, R. W. (1981). A comparison of signaled and unsignaled delay of reinforcement. Journal of the Experimental Analysis
of Behavior, 35, 145-152.
Lattal, K. A. (1984). Signal functions in de47
Kennon A. Lattal
Sizemore, O. J., & Lattal, K. A. (1978). Unsignaled delay of reinforcement in variable-interval schedules. Journal of the Experimental Analysis of Behavior, 30, 169-175.
Skinner, B. F. (1938). The behavior or organisms: An experimental analysis. New York: Appleton Century Crofts.
Spence, K. W. (1947). The role of secondary
reinforcement in delayed reward learning. Psychological Review, 54, 1-8.
Stromer, R, McComas, J. J., & Rehfeldt, R. A.
(2000). Designing interventions that include delayed reinforcement: Implications of recent laboratory research. Journal
of Applied Behavior Analysis, 33, 359-371.
Tarpy, R. M., & Sawabini, F. L. (1974). Reinforcement delay: A selective review of the
past decade. Psychological Bulletin, 81,
984-987.
Thorndike, E. L. (1911). Animal intelligence.
New York: MacMillan.
Williams, B. A. (1991). Marking and bridging
versus conditioned reinforcement. Animal Learning and Behavior, 19, 264-269.
Wilson, M. P., & Keller, F. S. (1953). On the
selective reinforcement of spaced responses. Journal of Comparative and Physiological Psychology, 46, 190-193.
48