Visita Guiada ao SPSS Esta é a primeira janela que nos surge mal mandamos executar o SPSS. • Somente as opções “Type in data” e “Open an existing data source” estão abrangidas pelo âmbito deste curso. • Opta-se por “Type in data” caso se pretenda digitar directamente um novo conjunto de dados na folha de cálculo do SPSS. • Opta-se por “Open an existing data source” caso nos interesse abrir um ficheiro já existente. 1 Open File Como se pode observar o SPSS permite abrir ficheiros de muitos tipos, entre eles os de tipo Excel. Extensões dos ficheiros criados pelo SPSS .sav - extensão atribuída aos ficheiros de dados. .spo - extensão atribuída aos ficheiros de “output”. .sps - extensão atribuída aos ficheiros de sintaxe (com o código de programação. Em cada sessão de trabalho o SPSS só permite ter aberto um ficheiro de dados (com extensão .sav) mas é possível manter abertos qualquer número de ficheiros com as outras duas extensões. 2 Aspecto de um ficheiro com extensão .sav Nome do ficheiro Designação da variável que representa o tamanho do pé do aluno Para muitos dos procedimentos estatísticos é conveniente atribuir códigos numéricos às variáveis categóricas Ao clicar neste botão aparecem as etiquetas (“labels”) das variáveis categóricas 3 Data View versus Variable View Quando se está em Data View podemos ver os dados. Quando se está em Variable View tem-se acesso às definições das variáveis – nome, tipo, máximo de dígitos ou caracteres, “labels” das variáveis, designação de cada código, convenção para “missing values”, largura da coluna em “Data View” e o “nível” de medida da variável (nominal, ordinal e “scale”) 4 Barra de menus do SPSS 11.0 1 Menu “File” Para além das opções que aqui são habituais, tem-se ainda a possibilidade de escolher o tipo de ficheiro que se pretende abrir. De salientar que é possível abrir ficheiros em formato “txt”, ou seja, qualquer listagem de dados que esteja guardada num “notepad”. 2 Menu “Edit” É no menu “Edit” que, clicando em “options”, se tem acesso à janela que acima se apresenta. É aqui que se pode escolher tipos de letras e formatações gerais de gráficos e tabelas para os ficheiros de output. Também se tem a possibilidade de escolher a ordem por que desejamos que os nomes das variáveis se apresentem ao abrir um menu de qualquer dos procedimentos estatísticos. 5 3 Menu “Data” Vejamos agora o que nos oferece o menu “Data”: A opção do topo da lista destina-se à escolha da formatação para datas. Seguem-se os comandos de inserção de novas variáveis (colunas) e de novos casos (linhas). O primeiro bloco termina com “Go to Case” o qual permite um acesso directo a uma linha à nossa escolha. Do segundo bloco destacamos a opção “Sort Cases” (destinada a efectuar a ordenação do ficheiro segundo uma ou mais variáveis) e a opção “Merge Files” (que permite juntar a informação contida em dois ficheiros). As restantes opções deste bloco não serão abordadas neste curso. Do terceiro e último bloco de opções deste menu o destaque vai aqui para a opção “Select Cases”. Como se pode apreciar nesta janela é possível seleccionar para análise estatística somente uma parte da amostra global. Essa selecção pode ser feita de acordo com os valores assumidos em uma ou mais variáveis; podese também optar pela selecção ao acaso de um certo número de indivíduos; e pode-se pedir para seleccionar todos os casos que estão entre uma certa linha n e outra linha m. De referir ainda deste menu “Data” a opção “Split File”. Ela vai fazer com que, caso seja de nosso interesse, toda a análise estatística seja efectuada de forma estratificada segundo as categorias de uma variável à nossa escolha. 6 4 Menu “Transform” As potencialidades do SPSS como folha de cálculo podem ser aproveitadas usando devidamente algumas das opções deste menu “Transform”. Iremos ilustrar aqui com algum detalhe as opções “Compute”, “Recode” e “Categorize Variables” por serem as mais úteis para o tipo de análise estatística que se irá ser abordada. Deixamos, no entanto, ainda uma breve referência à opção “Automatic Recode” pelo facto de com ela se poder proceder à codificação automática, para valores numéricos, de variáveis de tipo qualitativo. Operação lógica “e” Operação lógica “ou” Como resultado dos cálculos efectuados nesta opção “Compute” o SPSS cria sempre uma nova variável que vai acrescentar às já existentes no ficheiro de dados. Significa isto que o que ele vai fazer é calcular, para cada indivíduo, o valor resultante das operações que aqui se lhe indicar, operações essas que envolvem sempre os valores que os indíviduos apresentam noutras variáveis já existentes. A nova variável terá o nome que lhe dermos em “Target Variable”. Note-se que, para além das operações algébricas comuns é possível ainda recorrer a funções matemáticas (e não só) e condicionar as operações e cálculos a executar de acordo com as instruções dadas através do comando “If”. 7 Procedimento “Recode” Um dos ficheiros de dados com que iremos ilustrar alguns dos procedimentos estatísticos intitula-se “DadosMundo” e contém informação diversa sobre todos os países do mundo. Uma das variáveis aí consideradas refere-se ao total de indivíduos que habitam em zona urbana – urban population [v12] – e vamos aqui utilizá-la para ilustrar a forma como funciona o procedimento “Recode Into Different Variables”. Suponhamos então que nos interessava subdividir os países em 3 níveis de acordo com uns limiares pre-estabelecidos para esta variável. Nome da Variável codificada Variável a codificar. A opção a escolher no quadro que se segue deverá ser “Range” (em Old Value). Aqui iremos indicar o leque de valores a que pretendemos fazer corresponder cada código (em New Value). 8 5 Menu “Analyse” Este é o menu principal do SPSS. Aqui se tem possibilidade de aceder a todos os procedimentos estatísticos disponíveis por parte desta aplicação. Ao longo deste pequeno curso alguns desses procedimentos irão ser abordados com algum detalhe pelo que nesta primeira fase (de visão panorâmica), nos limitaremos a um breve comentário sobre cada uma das opções que surgem nesta lista. • Reports - para fazer pequenos resumos dos dados. • Descriptive Statistics – para fazer todo o estudo descritivo das amostras. Inclui algumas representações gráficas e faz o cruzamento de variáveis em “crosstabs”. • Custom tables – para efectuar o estudo de tabelas de contingência (juntamente com “crosstabs” da opção anterior). • Compare Means – para comparação de amostras por métodos paramétricos. • General Linear Model – para ajustamento de modelos de regressão linear múltipla, de modelos de Análise de Variância (ANOVA) e de modelos de Análise de Covariância (ANCOVA). • Mixed Models – para ajustamento de modelos lineares com covariáveis/ruídos correlacionados. • Correlate - para análise da correlação entre variáveis. • Regression – para ajustamento de modelos de regressão linear, regressão logística, regressão não linear, modelos Probit, etc. • Loglinear – para análise de tendência em tabelas de contingência (ajustamento de modelos loglineares – modelos logit). • Classify – para proceder ao agrupamento dos indivíduos em “clusters” e para fazer análise discriminante. • Data Reduction – para redução da dimensionalidade (Análise Factorial e Análise de Correspondências). • Nonparametric Tests – para comparação de amostras por métodos não paramétricos e para realizar testes de ajustamento. • Scale, Time Series, Survival, Multiple Response, Missing Value Analysis - a cada uma destas opções corresponde um método ou técnica estatística de uso menos abrangente pelo que remetemos o leitor interessado para a leitura do manual. 9 6 Menu “Graphs” “Um bom gráfico vale mais do que mil palavras!” Assim, também a galeria de representações gráficas é mais elucidativa de qual o tipo de gráfico a que se refere cada uma das opções deste menu, que qualquer descrição que aqui se apresente. Uma breve palavra somente sobre as opções “Interactive” e “Map”. A primeira é de certa forma uma duplicação deste mesmo menu, mas em que os gráficos podem ficar com um aspecto visual mais elaborado. A segunda é uma aplicação que permite incluir informação estatística em mapas previamente desenhados. 10 Os nossos Ficheiros de Dados DadosMundo Estes dados foram retirados da Net, por acesso livre a uma página de origem finlandesa. Nesta primeira página Web, um pouco mais abaixo, está um apontador para a lista das tabelas disponíveis Ao escolher esta opção temos acesso ao ficheiro em Excel que se encontra a seguir. Este ficheiro pode ser guardado na nossa área de trabalho para eventuais alterações. 11 DadosMundo Num mesmo ficheiro em Excel juntámos a informação de algumas das tabelas, descartámos algumas das variáveis e mantivémos unicamente os títulos em inglês. Este ficheiro não está na form adequada para que possa ser aberto directamente pelo SPSS, mas convém mantê-lo porque contém informação adicional que pode vir a ser útil para o estudo que se pretenda fazer. Na primeira linha do ficheiro final deverá estar, somente, o nome das variáveis. 12 Minicensos Ao abrigo do projecto ALEA foi elaborado um questionário com o objectivo de alertar a população escolar do 1° ciclo do ensino básico para o problema dos censos. Fez-se assim um mini-censos. 13 Minicensos Preparou-se uma base de dados em Access para facilitar preenchimento do questionário e a futura análise dos dados. o O Access organiza toda a informação em tabelas que tanto podem ser lidas directamente pelo SPSS como ser copiadas para o Excel para um tratamento prévio. Observe-se que embora o SPSS tenha também grandes poten-cialidades como folha de cálculo, as transformações e a criação de novas variáveis são mais simples de executar no Excel. 14 Estas são duas das variáveis que deverão ser transformadas numa única variável dicotómica. As técnicas estatísticas de comparação de dois ou mais extractos de uma população só podem ser utilizadas no SPSS se se incluir no ficheiro de dados uma variável que classifique cada indivíduo no respectivo extracto. Assim, por exemplo, não se deve ter uma variável denominada “sexo masculino”, preenchida com o valor 1 para os indivíduos do sexo masculino, e outra variável denominada “sexo feminino” também preenchida com o valor para os indivíduos do sexo feminino. Deve-se ter sim, uma única variável denominada “sexo”, de tipo nominal, codificada com os valores 0 e 1. No entanto, quando se digitalizam os resultados de inquéritos, é muito mais fácil fazer o preenchimento considerando tantas variáveis quantas as suas categorias, o que é bem ilustrado neste exemplo do mini-censos. Os ficheiros chegam-nos então às mãos de uma uma forma que não é de todo a mais conveniente. Temos por isso de ter o cuidado de fazer as transformações necessárias antes de proceder à análise estatística dos dados. Essas transformações podem ser realizadas, por exemplo, no Excel, usando de forma conveniente o comando “If” ou até mesmo no SPSS usando o procedimento “Compute”. 15 Casas Este é um ficheiro de dados simulados. Uma pequena pesquisa no mercado de venda de andares permite ter uma ideia de quais as proporções de andares novos e usados, qual a distribuição do número de assoalhadas, a proporção de andares com e sem garagem, áreas médias e preço médio por metro quadrado. A simulação da amostra foi efectuada em Excel. As primeiras 3 colunas são constituídas por números pseudo-aleatórios uniformes no intervalo [0,1]. Estes serviram para criar as variáveis Estado (0 Usado, 1 Novo), Ass (número de assoalhadas) e Garagem (0 não tem garagem, 1 tem garagem), de acordo com percentagens estabelecidas à partida para cada categoria. Assim, por exemplo, se pretendemos que a amostra tenha, aproximadamente, 25% de casas em estado novo, basta fazer corresponder o 1 a todos os valores de Rand1 que sejam inferiores ou iguais a 0.25 e o valor 0 aos restantes. As duas colunas seguintes são também de números pseudo-aleatórios uniformes. Foram gerados para se conseguir obter 2 amostras de pseudoaleatórios normais (de desvios padrão distintos). A primeira contém os erros a adicionar à variável Area_est (área estimada). A segunda contém os erros a adicionar à parte determinística do modelo linear que se postulou para o preço como função das restantes variáveis. 16