QUESTÕES TEÓRICAS E METODOLÓGICAS Alunos - PUC-Rio

Departamento de Letras
PROCESSAMENTO INCREMENTAL DE SENTENÇAS E
PROCESSOS DE PERCEPÇÃO VISUAL: QUESTÕES TEÓRICAS
E METODOLÓGICAS
Alunos: Jessica Silva Barcellos/Ayrthon Moreira Breder 1
Orientadora: Erica dos Santos Rodrigues
Introdução
Este relatório tem por objetivo reportar as atividades desenvolvidas no segundo
ano do projeto de iniciação científica voltado à investigação da interação entre
informação linguística e visual no processamento incremental de sentenças. A pesquisa
vincula-se diretamente ao projeto de Rodrigues [1] e é conduzido no âmbito do LAPAL
(Laboratório de Psicolinguística e Aquisição da Linguagem – PUC-Rio).
O objetivo central da pesquisa é investigar se uma representação conceptual
completa de um evento já teria sido formulada no momento em que tem início a
construção de uma estrutura sintática para a sentença a ser expressa [2] ou se a
conceptualização ocorre em paralelo à codificação gramatical [3]. A investigação é
conduzida a partir de experimentos de rastreamento ocular em que os participantes
devem produzir uma sentença sobre uma cena envolvendo dois personagens que
correspondem ao agente/fonte e ao paciente/alvo da ação realizada. Verifica-se a relação
entre o tipo de estrutura sintática produzida (ativa vs. passiva) e o que foi mapeado
visualmente pelo olhar, de modo a avaliar se um mapeamento completo da cena seria
realizado antes da formulação da sentença ou se esta teria início tão logo um dos
personagens tenha sido identificado visualmente, o que poderia ser tomado como
indicativo de um processo altamente incremental.
Resenha da Literatura
Em modelos psicolinguísticos que buscam caracterizar o processo de produção
de sentenças, assume-se a existência das seguintes etapas de processamento:
conceptualização da mensagem, codificação gramatical, codificação fonológica/fonética
e articulação [4, 5]. Segundo Levelt [4], no estágio da conceptualização da mensagem, o
conteúdo a ser produzido ainda está em um nível pré-verbal, é ainda uma ideia em
caráter conceitual. Nesse estágio, há também a definição do ponto de vista sob o qual a
sentença será produzida. No nível da codificação gramatical, são acessados os lemas
(que correspondem à informação acerca de propriedades morfossintáticas das palavras –
como número, pessoa, total de argumentos, no caso dos verbos) e é definida a estrutura
sintática da sentença a ser produzida. Esse estágio é seguido pela codificação
morfofonológica em que ocorre o acesso aos lexemas, que correspondem à
representação relativa à forma da palavra. Na codificação fonética, ocorre a construção
de uma representação fonética correspondente e, em seguida, a articulação dos sons pelo
sistema articulatório.
1
A aluna Jessica Silva Barcellos participou do projeto de pesquisa pelo período de praticamente dois
anos. Em função de ter sido aprovada em concurso público federal, desligou-se da bolsa na metade do
primeiro semestre de 2014, tendo sido substituída pelo aluno Ayrthon Moreira Breder. O presente
relatório refere-se aos experimentos conduzidos pela primeira bolsista, os quais terão continuidade na
pesquisa conduzida pelo aluno que a substituiu no projeto.
Departamento de Letras
No âmbito desses modelos, uma questão central é como se dá o curso temporal
na passagem de informação processada em um nível para o nível seguinte. O conceito
de incrementalidade aponta para o caráter gradual do processamento da fala, ou seja, um
componente do sistema de produção pode começar a trabalhar a partir de um output
ainda incompleto enviado pelo componente anterior. Este trabalho debruça-se sobre a
questão de quão incremental é a passagem do nível da conceptualização da mensagem
para o da codificação gramatical.
Figura 1: Representação esquemática dos níveis da produção da linguagem.
Griffin e Bock [2], buscando entender melhor os mecanismos cognitivos
envolvidos na produção de sentenças, formularam um experimento de produção
induzida com uso de monitoramento ocular. Quatro grupos de participaram do
experimento. O primeiro grupo descreveu eventos enquanto estes apareciam na tela, o
segundo grupo produziu as sentenças depois que as imagens desapareciam da tela, o
terceiro grupo recebeu a tarefa de observar a cena e encontrar o paciente da ação e o
quarto grupo observou as imagens livremente. Os objetivos do experimento eram (i)
verificar se os movimentos oculares seriam guiados por uma compreensão da cena ou
pela saliência dos elementos; (ii) verificar se a apreensão da cena precederia a
formulação sintática; (iii) verificar como a formulação e a execução estariam
relacionadas. Os resultados revelaram que nos primeiros 1,330ms de exibição do
estímulo não houve diferenças entre as fixações dos quatro grupos e os personagens
com papel de paciente foram mais fixados que os com papel de agente. Segundo as
autoras, a similaridade dos movimentos oculares indica que as informações mais
relevantes sobre a cena foram rapidamente extraídas, o que teria permitido aos
indivíduos selecionarem o sujeito gramatical das sentenças com base na compreensão
do evento e não na saliência da imagem.
Departamento de Letras
Os pontos nos quais as fixações no agente e no paciente começaram a divergir
foram comparados entre os grupos 1 e 3. Os resultados indicaram que não houve
diferença significativa entre as duas condições: 288ms no grupo 1 e 316ms no grupo 3.
A similaridade entre os pontos evidencia que a essência da ação representada na cena
(gist of the scene) foi rapidamente extraída. O monitoramento dos movimentos oculares
dos participantes do grupo 1 revelou direcionamento com base em um processo de
formulação linguística, o que para Griffin e Bock é uma evidência de que o processo de
produção da fala é iniciado com a conceptualização da mensagem e é seguido da
formulação incremental da sentença.
Gleitman e colaboradores [3] replicaram o experimento de Griffin e Bock [2]
fazendo uso de monitoramento ocular e da técnica de manipulação da atenção visual.
Tal técnica consistiu na exibição de um asterisco situado no centro da tela por 500ms,
seguido por um segundo painel, no qual havia um pequeno quadrado posicionado na
região onde, posteriormente, seria exibido um dos elementos da cena. O quadrado
permanecia na tela por 60 a 75ms e só então o estímulo visual era apresentado. Dois
experimentos foram realizados. No primeiro, objetivou-se induzir, a partir de
determinados tipos de cenas, frases que continham verbos de perspectiva (The man
chases the dog/ The dog flees from the man) ou sintagmas nominais coordenados na
posição de sujeito (A cat and a dog/ A dog and a cat). No segundo experimento, foram
analisados, além dos verbos de perspectiva, predicados simétricos (A policeman shakes
hands with a construction worker/ A construction worker shakes hands with a
policeman) e estruturas ativas e passivas(The man is kicking the boy/ The boy is being
kicked by the man). Porém, nas imagens que eliciariam verbos de perspectiva, não foi
utilizado o recurso de captação visual. As figuras abaixo ilustram os tipos de cenas
usadas para eliciar a produção das estruturas linguísticas referidas:
Figura 2: Exemplos de estímulos visuais usados nos experimentos de Gleitman et al. para eliciar a produção das
seguintes estruturas: Ativa/Passiva (A); Predicado de Perspectiva (B); Predicado Simétrico (C); Sintagma nominal
coordenado (D)
Departamento de Letras
Nas análises dos dois experimentos, houve efeito significativo do recurso de
manipulação atencional no que tange ao tipo de estrutura linguística produzida,
indicando uma forte ligação entre a visão e processamento linguístico. Segundo os
autores, a manipulação atencional favoreceu o acesso lexical a um dos termos.
Verificou-se também similaridade entre os padrões dos movimentos oculares e padrões
de fala, de modo que os elementos que foram fixados primeiramente também foram
mencionados primeiro. Esses resultados apontam para um caráter mais incremental do
processamento da fala: a apreensão da cena e construção sintática ocorreriam
paralelamente.
Os dois estudos mencionados serviram de base para a construção dos
experimentos desenvolvidos no segundo ano da pesquisa.
Metodologia
A pesquisa em desenvolvimento apresenta caráter experimental. Foram
construídos três experimentos psicolinguísticos e um estudo normativo que, em
conjunto, contribuem para a investigação do curso temporal na passagem de informação
do nível conceptual para o da codificação gramatical no processo de produção de
sentenças.
Técnica experimental:
Empregou-se a técnica de rastreamento ocular, que permite registrar (em tempo
real) os movimentos do olhar de um indivíduo. A tecnologia funciona através da
emissão de um raio infravermelho dirigido aos olhos, o que provoca um reflexo na
pupila, que é depois captado com um sensor que calcula para onde a pessoa está
olhando. As figuras a seguir representam, respectivamente, o processo de captura do
dado ocular e alguns tipos de rastreadores oculares.
Figura 3: Uma fonte de luz é utilizada para causar padrões de reflexão sobre a córnea e pupila do participante do
experimento. Uma câmara é então ser usada para capturar uma imagem do olho. A direção do olhar é então calculada
usando os ângulos e distâncias. (Fonte: foram reproduzidas do site http://www.tobii.com/)
Figura 4: Diferentes modelos de rastreador ocular usados em pesquisas com adultos e crianças (fonte: imagens
selecionadas de sites de laboratórios que conduzem experimentos com rastreador ocular, disponíveis no google
imagens).
Departamento de Letras
Material experimental e recursos:
Foram realizadas três atividades experimentais, com imagens representando
cenas de ação envolvendo um personagem agente/fonte e um personagem paciente/alvo.
O programa utilizado para a montagem dos experimentos foi o Tobii Studio3. Utilizouse o rastreador Tobii TX300, com resolução temporal de 3ms, acoplado a uma tela de
1920 x 1080 px. O material de teste foi composto de 8 estímulos visuais, nos quais a
posição dos personagens(esquerda x direita) foi equilibrada. As respostas dos sujeitos
foram gravadas e analisadas no programa Sound Forge 8.
Apresenta-se, a seguir, separadamente, o método e os resultados de cada
experimento.
Experimento 1
O primeiro experimento consistiu em uma tarefa de descrição de cenas. Dez
participantes foram orientados a descrever o mais rapidamente possível as cenas que
apareciam em uma tela de computador.
Os participantes foram instruídos a observar as imagens e a produzir livremente
sentenças que descrevessem a ação reproduzida em cada um dos desenhos. Ao fim de
cada frase, eles apertavam um botão para que a próxima tela fosse exibida. As respostas
foram gravadas com o auxílio de um gravador de voz do próprio computador no qual os
estímulos foram exibidos.
Analisaram-se os seguintes parâmetros: personagem que recebeu primeira
fixação: agente/paciente; personagem fixado no onset da resposta verbal:
agente/paciente; latência da resposta verbal e tipo de sentença produzida: ativa/ passiva.
Resultados e discussão
A análise da trajetória do olhar dos participantes indicou que o ponto da imagem
que pode ser informativo sobre a ação (pé, balde, algema...) foi fixado primeiramente e
que durante a execução da resposta verbal, os movimentos oculares acompanharam a
sequência sintática, conforme ilustrado na figura a seguir.
Figura 5: Representação da trajetória do olhar de um participante durante a visualização da cena, antes do início da
produção da sentença “O pai está alimentando a filha”.
O onset da resposta verbal ocorreu em média 1,7s após a exibição da imagem,
tempo similar ao encontrado por Griffin & Bock [2] (1,686s). Ambos os resultados
apontam que a conceptualização da mensagem deve ser finalizada para que se dê início
à etapa de codificação gramatical da sentença (resultados conflitantes com os de
Gleitman et al.[3]), já que a latência da resposta é bem superior ao tempo necessário
para a extração do gist of the scene(300ms).
Do ponto de vista das estruturas sintáticas produzidas, houve preferência por
estruturas ativas. A primeira fixação não foi responsável por guiar a escolha linguística,
mas houve relação entre elemento fixado (agente x paciente) no onset da resposta verbal
e a estrutura linguística produzida (ativa x passiva).
Departamento de Letras
Experimento 2
No segundo experimento, conduzido com trinta participantes, aplicou-se a
mesma tarefa realizada no primeiro, porém fez-se uso de recurso de manipulação de
atenção visual. Esse recurso consistia em um pequeno quadrado posicionado onde seria
projetado ou o agente ou o paciente da cena. O mesmo tipo de recurso foi utilizado por
Gleitman et al. [3] que encontraram resultados conflitantes com os reportados no
primeiro experimento.
Neste estudo, havia duas condições experimentais. Os participantes da C1
observaram o recurso sempre posicionado no personagem agente e os da C2 sempre no
personagem paciente.
Figura 6: Representação do recurso de manipulação visual que surgia na tela antes da exibição dos estímulos. Na
primeira imagem, recurso está posicionado em uma região onde na tela seguinte irá aparecer o agente da ação (C1) e
na segunda, o paciente (C2).
Resultados e discussão
A análise dos movimentos oculares revelou forte efeito do recurso no
direcionamento do olhar. Na C1, a primeira fixação recaiu predominantemente para o
elemento agente, e na C2, no paciente. As estruturas ativas foram preferidas,
independentemente, do posicionamento do recurso. Entretanto, quando o recurso estava
posicionado no paciente, houve diminuição na produção de sentenças ativas e um
incremento na produção de passivas. Os resultados foram submetidos à análise
estatística por meio do teste Mann Whitney unrelated. Numa primeira análise, estruturas
ativas foram contrastadas nas duas condições, tendo sido verificado um valor de p
significativo (p = 0,04). Numa segunda análise, estruturas passivas foram contrastadas
nas duas condições e o resultado também mostrou-se significativo (p = 0,007). Pode-se
afirmar, portanto, que a natureza do elemento focalizado tem efeito sobre a produção de
sentenças, visto que, na condição com foco no paciente, houve um menor número de
estruturas ativas e um incremento na produção de passivas, em comparação à condição
com foco no agente. Como ilustrado no gráfico a seguir:
Gráfico1: Resultados do experimento 2
Departamento de Letras
Esse resultado corroborou o encontrado em um dos experimentos realizados no
primeiro ano da pesquisa [6].
Assim como no experimento 1, a primeira fixação não foi responsável por guiar
a escolha linguística, mas houve relação entre elemento fixado (agente x paciente) no
onset da resposta verbal e a estrutura linguística produzida (ativa x passiva).
Os participantes da C2 (foco no paciente) demoraram mais tempo para iniciar a
resposta, quando comparados aos da C1 (foco no agente) - 1,957 s x 1,805s.
Experimento 3
No terceiro experimento, os participantes deveriam identificar o personagem que
desempenhava o papel de paciente na cena. A identificação era realizada por meio da
fixação do olhar. Dez sujeitos participaram do estudo.
Resultados e discussão
Analisou-se a latência da resposta e comparou-se com os resultados obtidos no
experimento 2. A média da latência das respostas foi de 1,590 s, tempo relativamente
inferior ao encontrado nos experimentos de produção. Esse resultado, em comparação
ao onsetda resposta verbal no experimento de descrição de cenas (1,7 s), é indicativo de
que o conteúdo proposicional da cena completa já teria sido depreendido no
experimento de descrição.
Estudo Normativo
Além dos experimentos, foi realizado um estudo normativo com o objetivo de
verificar se algum aspecto das imagens era mais saliente visualmente e, por
consequência disso, estivesse influenciando nas respostas dos participantes. Dez sujeitos
participaram desse estudo e receberam a tarefa de observar livremente as imagens. A
análise dos elementos fixados durante a exibição dos estímulos indicou que nos 300 ms
iniciais (correspondentes ao gist of the scene) não houve preferência por um dos
personagens, o que indica que não há diferença de saliência visual entre agentes e
pacientes.
Conclusões
Os resultados são compatíveis com a visão de que a conceptualização da
mensagem envolveria (i) a construção de uma proposição correspondente ao conteúdo
informacional e (ii) a especificação da perspectiva a partir da qual o conteúdo será
apresentado [2]. A comparação dos tempos relativos ao onset da resposta verbal no
primeiro experimento e dos tempos de identificação do paciente no terceiro experimento
indica que a construção de uma proposição completa já teria sido realizada quando da
produção do enunciado verbal. Por outro lado, os resultados do experimento com
recurso de manipulação de atenção apontam para um efeito do foco atencional (agente
vs. paciente). Assim, embora a produção de sentenças passivas seja em princípio mais
custosa do ponto de vista estrutural (donde a preferência por frases na voz ativa), o foco
atencional no paciente determinou um aumento no número dessas estruturas. A
influência do recurso de manipulação de atenção, contudo, parece ocorrer em um
segundo momento da conceptualização, quando a proposição já está definida com base
na inspeção visual da cena e identificação da ação e dos personagens envolvidos.
Departamento de Letras
Referências bibliográficas
1- RODRIGUES, E. dos S. Processamento linguístico e incrementalidade: o que os
olhos podem informar sobre o curso temporal da produção e compreensão de
sentenças. Programa Jovem Cientista do Nosso Estado (FAPERJ Nº 17/2012).
2- GRIFFIN, Z. M.; BOCK, K. What the eyes say about speaking. Psychological
Science, 11, p. 274–279, 2000.
3-GLEITMAN, L.R et al. On the give and take between event apprehension and
utterance formulation. Journal of Memory and language, 57, p. 544–569, 2007.
4- LEVELT, W. J. M. Speaking: From intention to articulation. Cambridge, MA: MIT
Press, 1989.
5- BOCK, K.; LEVELT, W. J. M. Language production: Grammatical encoding. In
M.A. Gernsbacher (Ed.).Handbook of Psycholinguistics. London: Academic Press,
1994, p. 945-984.
6-RODRIGUES, E. dos S.; FORSTER, R.; BARCELLOS, J. S. Formulação conceitual
e codificação gramatical: questões de incrementalidade investigadas a partir da interface
linguagem-visão. Trabalho apresentado no II EIPA (Encontro Internacional do GT de
Psicolinguística da ANPOLL), UFPB, 30/9 a 5/10/2013.