Departamento de Letras PROCESSAMENTO INCREMENTAL DE SENTENÇAS E PROCESSOS DE PERCEPÇÃO VISUAL: QUESTÕES TEÓRICAS E METODOLÓGICAS Alunos: Jessica Silva Barcellos/Ayrthon Moreira Breder 1 Orientadora: Erica dos Santos Rodrigues Introdução Este relatório tem por objetivo reportar as atividades desenvolvidas no segundo ano do projeto de iniciação científica voltado à investigação da interação entre informação linguística e visual no processamento incremental de sentenças. A pesquisa vincula-se diretamente ao projeto de Rodrigues [1] e é conduzido no âmbito do LAPAL (Laboratório de Psicolinguística e Aquisição da Linguagem – PUC-Rio). O objetivo central da pesquisa é investigar se uma representação conceptual completa de um evento já teria sido formulada no momento em que tem início a construção de uma estrutura sintática para a sentença a ser expressa [2] ou se a conceptualização ocorre em paralelo à codificação gramatical [3]. A investigação é conduzida a partir de experimentos de rastreamento ocular em que os participantes devem produzir uma sentença sobre uma cena envolvendo dois personagens que correspondem ao agente/fonte e ao paciente/alvo da ação realizada. Verifica-se a relação entre o tipo de estrutura sintática produzida (ativa vs. passiva) e o que foi mapeado visualmente pelo olhar, de modo a avaliar se um mapeamento completo da cena seria realizado antes da formulação da sentença ou se esta teria início tão logo um dos personagens tenha sido identificado visualmente, o que poderia ser tomado como indicativo de um processo altamente incremental. Resenha da Literatura Em modelos psicolinguísticos que buscam caracterizar o processo de produção de sentenças, assume-se a existência das seguintes etapas de processamento: conceptualização da mensagem, codificação gramatical, codificação fonológica/fonética e articulação [4, 5]. Segundo Levelt [4], no estágio da conceptualização da mensagem, o conteúdo a ser produzido ainda está em um nível pré-verbal, é ainda uma ideia em caráter conceitual. Nesse estágio, há também a definição do ponto de vista sob o qual a sentença será produzida. No nível da codificação gramatical, são acessados os lemas (que correspondem à informação acerca de propriedades morfossintáticas das palavras – como número, pessoa, total de argumentos, no caso dos verbos) e é definida a estrutura sintática da sentença a ser produzida. Esse estágio é seguido pela codificação morfofonológica em que ocorre o acesso aos lexemas, que correspondem à representação relativa à forma da palavra. Na codificação fonética, ocorre a construção de uma representação fonética correspondente e, em seguida, a articulação dos sons pelo sistema articulatório. 1 A aluna Jessica Silva Barcellos participou do projeto de pesquisa pelo período de praticamente dois anos. Em função de ter sido aprovada em concurso público federal, desligou-se da bolsa na metade do primeiro semestre de 2014, tendo sido substituída pelo aluno Ayrthon Moreira Breder. O presente relatório refere-se aos experimentos conduzidos pela primeira bolsista, os quais terão continuidade na pesquisa conduzida pelo aluno que a substituiu no projeto. Departamento de Letras No âmbito desses modelos, uma questão central é como se dá o curso temporal na passagem de informação processada em um nível para o nível seguinte. O conceito de incrementalidade aponta para o caráter gradual do processamento da fala, ou seja, um componente do sistema de produção pode começar a trabalhar a partir de um output ainda incompleto enviado pelo componente anterior. Este trabalho debruça-se sobre a questão de quão incremental é a passagem do nível da conceptualização da mensagem para o da codificação gramatical. Figura 1: Representação esquemática dos níveis da produção da linguagem. Griffin e Bock [2], buscando entender melhor os mecanismos cognitivos envolvidos na produção de sentenças, formularam um experimento de produção induzida com uso de monitoramento ocular. Quatro grupos de participaram do experimento. O primeiro grupo descreveu eventos enquanto estes apareciam na tela, o segundo grupo produziu as sentenças depois que as imagens desapareciam da tela, o terceiro grupo recebeu a tarefa de observar a cena e encontrar o paciente da ação e o quarto grupo observou as imagens livremente. Os objetivos do experimento eram (i) verificar se os movimentos oculares seriam guiados por uma compreensão da cena ou pela saliência dos elementos; (ii) verificar se a apreensão da cena precederia a formulação sintática; (iii) verificar como a formulação e a execução estariam relacionadas. Os resultados revelaram que nos primeiros 1,330ms de exibição do estímulo não houve diferenças entre as fixações dos quatro grupos e os personagens com papel de paciente foram mais fixados que os com papel de agente. Segundo as autoras, a similaridade dos movimentos oculares indica que as informações mais relevantes sobre a cena foram rapidamente extraídas, o que teria permitido aos indivíduos selecionarem o sujeito gramatical das sentenças com base na compreensão do evento e não na saliência da imagem. Departamento de Letras Os pontos nos quais as fixações no agente e no paciente começaram a divergir foram comparados entre os grupos 1 e 3. Os resultados indicaram que não houve diferença significativa entre as duas condições: 288ms no grupo 1 e 316ms no grupo 3. A similaridade entre os pontos evidencia que a essência da ação representada na cena (gist of the scene) foi rapidamente extraída. O monitoramento dos movimentos oculares dos participantes do grupo 1 revelou direcionamento com base em um processo de formulação linguística, o que para Griffin e Bock é uma evidência de que o processo de produção da fala é iniciado com a conceptualização da mensagem e é seguido da formulação incremental da sentença. Gleitman e colaboradores [3] replicaram o experimento de Griffin e Bock [2] fazendo uso de monitoramento ocular e da técnica de manipulação da atenção visual. Tal técnica consistiu na exibição de um asterisco situado no centro da tela por 500ms, seguido por um segundo painel, no qual havia um pequeno quadrado posicionado na região onde, posteriormente, seria exibido um dos elementos da cena. O quadrado permanecia na tela por 60 a 75ms e só então o estímulo visual era apresentado. Dois experimentos foram realizados. No primeiro, objetivou-se induzir, a partir de determinados tipos de cenas, frases que continham verbos de perspectiva (The man chases the dog/ The dog flees from the man) ou sintagmas nominais coordenados na posição de sujeito (A cat and a dog/ A dog and a cat). No segundo experimento, foram analisados, além dos verbos de perspectiva, predicados simétricos (A policeman shakes hands with a construction worker/ A construction worker shakes hands with a policeman) e estruturas ativas e passivas(The man is kicking the boy/ The boy is being kicked by the man). Porém, nas imagens que eliciariam verbos de perspectiva, não foi utilizado o recurso de captação visual. As figuras abaixo ilustram os tipos de cenas usadas para eliciar a produção das estruturas linguísticas referidas: Figura 2: Exemplos de estímulos visuais usados nos experimentos de Gleitman et al. para eliciar a produção das seguintes estruturas: Ativa/Passiva (A); Predicado de Perspectiva (B); Predicado Simétrico (C); Sintagma nominal coordenado (D) Departamento de Letras Nas análises dos dois experimentos, houve efeito significativo do recurso de manipulação atencional no que tange ao tipo de estrutura linguística produzida, indicando uma forte ligação entre a visão e processamento linguístico. Segundo os autores, a manipulação atencional favoreceu o acesso lexical a um dos termos. Verificou-se também similaridade entre os padrões dos movimentos oculares e padrões de fala, de modo que os elementos que foram fixados primeiramente também foram mencionados primeiro. Esses resultados apontam para um caráter mais incremental do processamento da fala: a apreensão da cena e construção sintática ocorreriam paralelamente. Os dois estudos mencionados serviram de base para a construção dos experimentos desenvolvidos no segundo ano da pesquisa. Metodologia A pesquisa em desenvolvimento apresenta caráter experimental. Foram construídos três experimentos psicolinguísticos e um estudo normativo que, em conjunto, contribuem para a investigação do curso temporal na passagem de informação do nível conceptual para o da codificação gramatical no processo de produção de sentenças. Técnica experimental: Empregou-se a técnica de rastreamento ocular, que permite registrar (em tempo real) os movimentos do olhar de um indivíduo. A tecnologia funciona através da emissão de um raio infravermelho dirigido aos olhos, o que provoca um reflexo na pupila, que é depois captado com um sensor que calcula para onde a pessoa está olhando. As figuras a seguir representam, respectivamente, o processo de captura do dado ocular e alguns tipos de rastreadores oculares. Figura 3: Uma fonte de luz é utilizada para causar padrões de reflexão sobre a córnea e pupila do participante do experimento. Uma câmara é então ser usada para capturar uma imagem do olho. A direção do olhar é então calculada usando os ângulos e distâncias. (Fonte: foram reproduzidas do site http://www.tobii.com/) Figura 4: Diferentes modelos de rastreador ocular usados em pesquisas com adultos e crianças (fonte: imagens selecionadas de sites de laboratórios que conduzem experimentos com rastreador ocular, disponíveis no google imagens). Departamento de Letras Material experimental e recursos: Foram realizadas três atividades experimentais, com imagens representando cenas de ação envolvendo um personagem agente/fonte e um personagem paciente/alvo. O programa utilizado para a montagem dos experimentos foi o Tobii Studio3. Utilizouse o rastreador Tobii TX300, com resolução temporal de 3ms, acoplado a uma tela de 1920 x 1080 px. O material de teste foi composto de 8 estímulos visuais, nos quais a posição dos personagens(esquerda x direita) foi equilibrada. As respostas dos sujeitos foram gravadas e analisadas no programa Sound Forge 8. Apresenta-se, a seguir, separadamente, o método e os resultados de cada experimento. Experimento 1 O primeiro experimento consistiu em uma tarefa de descrição de cenas. Dez participantes foram orientados a descrever o mais rapidamente possível as cenas que apareciam em uma tela de computador. Os participantes foram instruídos a observar as imagens e a produzir livremente sentenças que descrevessem a ação reproduzida em cada um dos desenhos. Ao fim de cada frase, eles apertavam um botão para que a próxima tela fosse exibida. As respostas foram gravadas com o auxílio de um gravador de voz do próprio computador no qual os estímulos foram exibidos. Analisaram-se os seguintes parâmetros: personagem que recebeu primeira fixação: agente/paciente; personagem fixado no onset da resposta verbal: agente/paciente; latência da resposta verbal e tipo de sentença produzida: ativa/ passiva. Resultados e discussão A análise da trajetória do olhar dos participantes indicou que o ponto da imagem que pode ser informativo sobre a ação (pé, balde, algema...) foi fixado primeiramente e que durante a execução da resposta verbal, os movimentos oculares acompanharam a sequência sintática, conforme ilustrado na figura a seguir. Figura 5: Representação da trajetória do olhar de um participante durante a visualização da cena, antes do início da produção da sentença “O pai está alimentando a filha”. O onset da resposta verbal ocorreu em média 1,7s após a exibição da imagem, tempo similar ao encontrado por Griffin & Bock [2] (1,686s). Ambos os resultados apontam que a conceptualização da mensagem deve ser finalizada para que se dê início à etapa de codificação gramatical da sentença (resultados conflitantes com os de Gleitman et al.[3]), já que a latência da resposta é bem superior ao tempo necessário para a extração do gist of the scene(300ms). Do ponto de vista das estruturas sintáticas produzidas, houve preferência por estruturas ativas. A primeira fixação não foi responsável por guiar a escolha linguística, mas houve relação entre elemento fixado (agente x paciente) no onset da resposta verbal e a estrutura linguística produzida (ativa x passiva). Departamento de Letras Experimento 2 No segundo experimento, conduzido com trinta participantes, aplicou-se a mesma tarefa realizada no primeiro, porém fez-se uso de recurso de manipulação de atenção visual. Esse recurso consistia em um pequeno quadrado posicionado onde seria projetado ou o agente ou o paciente da cena. O mesmo tipo de recurso foi utilizado por Gleitman et al. [3] que encontraram resultados conflitantes com os reportados no primeiro experimento. Neste estudo, havia duas condições experimentais. Os participantes da C1 observaram o recurso sempre posicionado no personagem agente e os da C2 sempre no personagem paciente. Figura 6: Representação do recurso de manipulação visual que surgia na tela antes da exibição dos estímulos. Na primeira imagem, recurso está posicionado em uma região onde na tela seguinte irá aparecer o agente da ação (C1) e na segunda, o paciente (C2). Resultados e discussão A análise dos movimentos oculares revelou forte efeito do recurso no direcionamento do olhar. Na C1, a primeira fixação recaiu predominantemente para o elemento agente, e na C2, no paciente. As estruturas ativas foram preferidas, independentemente, do posicionamento do recurso. Entretanto, quando o recurso estava posicionado no paciente, houve diminuição na produção de sentenças ativas e um incremento na produção de passivas. Os resultados foram submetidos à análise estatística por meio do teste Mann Whitney unrelated. Numa primeira análise, estruturas ativas foram contrastadas nas duas condições, tendo sido verificado um valor de p significativo (p = 0,04). Numa segunda análise, estruturas passivas foram contrastadas nas duas condições e o resultado também mostrou-se significativo (p = 0,007). Pode-se afirmar, portanto, que a natureza do elemento focalizado tem efeito sobre a produção de sentenças, visto que, na condição com foco no paciente, houve um menor número de estruturas ativas e um incremento na produção de passivas, em comparação à condição com foco no agente. Como ilustrado no gráfico a seguir: Gráfico1: Resultados do experimento 2 Departamento de Letras Esse resultado corroborou o encontrado em um dos experimentos realizados no primeiro ano da pesquisa [6]. Assim como no experimento 1, a primeira fixação não foi responsável por guiar a escolha linguística, mas houve relação entre elemento fixado (agente x paciente) no onset da resposta verbal e a estrutura linguística produzida (ativa x passiva). Os participantes da C2 (foco no paciente) demoraram mais tempo para iniciar a resposta, quando comparados aos da C1 (foco no agente) - 1,957 s x 1,805s. Experimento 3 No terceiro experimento, os participantes deveriam identificar o personagem que desempenhava o papel de paciente na cena. A identificação era realizada por meio da fixação do olhar. Dez sujeitos participaram do estudo. Resultados e discussão Analisou-se a latência da resposta e comparou-se com os resultados obtidos no experimento 2. A média da latência das respostas foi de 1,590 s, tempo relativamente inferior ao encontrado nos experimentos de produção. Esse resultado, em comparação ao onsetda resposta verbal no experimento de descrição de cenas (1,7 s), é indicativo de que o conteúdo proposicional da cena completa já teria sido depreendido no experimento de descrição. Estudo Normativo Além dos experimentos, foi realizado um estudo normativo com o objetivo de verificar se algum aspecto das imagens era mais saliente visualmente e, por consequência disso, estivesse influenciando nas respostas dos participantes. Dez sujeitos participaram desse estudo e receberam a tarefa de observar livremente as imagens. A análise dos elementos fixados durante a exibição dos estímulos indicou que nos 300 ms iniciais (correspondentes ao gist of the scene) não houve preferência por um dos personagens, o que indica que não há diferença de saliência visual entre agentes e pacientes. Conclusões Os resultados são compatíveis com a visão de que a conceptualização da mensagem envolveria (i) a construção de uma proposição correspondente ao conteúdo informacional e (ii) a especificação da perspectiva a partir da qual o conteúdo será apresentado [2]. A comparação dos tempos relativos ao onset da resposta verbal no primeiro experimento e dos tempos de identificação do paciente no terceiro experimento indica que a construção de uma proposição completa já teria sido realizada quando da produção do enunciado verbal. Por outro lado, os resultados do experimento com recurso de manipulação de atenção apontam para um efeito do foco atencional (agente vs. paciente). Assim, embora a produção de sentenças passivas seja em princípio mais custosa do ponto de vista estrutural (donde a preferência por frases na voz ativa), o foco atencional no paciente determinou um aumento no número dessas estruturas. A influência do recurso de manipulação de atenção, contudo, parece ocorrer em um segundo momento da conceptualização, quando a proposição já está definida com base na inspeção visual da cena e identificação da ação e dos personagens envolvidos. Departamento de Letras Referências bibliográficas 1- RODRIGUES, E. dos S. Processamento linguístico e incrementalidade: o que os olhos podem informar sobre o curso temporal da produção e compreensão de sentenças. Programa Jovem Cientista do Nosso Estado (FAPERJ Nº 17/2012). 2- GRIFFIN, Z. M.; BOCK, K. What the eyes say about speaking. Psychological Science, 11, p. 274–279, 2000. 3-GLEITMAN, L.R et al. On the give and take between event apprehension and utterance formulation. Journal of Memory and language, 57, p. 544–569, 2007. 4- LEVELT, W. J. M. Speaking: From intention to articulation. Cambridge, MA: MIT Press, 1989. 5- BOCK, K.; LEVELT, W. J. M. Language production: Grammatical encoding. In M.A. Gernsbacher (Ed.).Handbook of Psycholinguistics. London: Academic Press, 1994, p. 945-984. 6-RODRIGUES, E. dos S.; FORSTER, R.; BARCELLOS, J. S. Formulação conceitual e codificação gramatical: questões de incrementalidade investigadas a partir da interface linguagem-visão. Trabalho apresentado no II EIPA (Encontro Internacional do GT de Psicolinguística da ANPOLL), UFPB, 30/9 a 5/10/2013.