UNIVERSIDADE CAMILO CASTELO BRANCO APOSTILA DE MÉTODOS ESTATÍSTICOS Profº ERIVELTON ALVES BIZERRA São Paulo 2º sem / 2008 1 Aplicações da Estatística As aplicações da estatística se desenvolveram de tal forma que, hoje praticamente todo campo de estudo se beneficia da utilização de métodos estatísticos. A seguir citamos alguns exemplos, que são de natureza e complexidade as mais variadas, da aplicabilidade da estatística. Os fabricantes forneceram melhores produtos a custos menores através de técnicas de controle de qualidade. Controlam-se doenças com auxílio de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação do tamanho das populações. Antes de serem conhecidos os resultados de uma eleição nacional, as firmas dedicadas ao exame de opinião pública costumam consultar um número predeterminado de pessoas, através de todo o país, obtendo, assim, suas preferências eleitorais. Tomando como base essas informações, essas firmas elaboram suas previsões. Problemas similares também são encontrados: em pesquisas de mercado (que proporção de fumantes prefere o cigarro da marca A?); em sociologia (que porcentagem do total de domicílios rurais possui eletricidade?); na indústria (que fração dos artigos comprados ou produzidos apresenta defeito?). O estatístico também precisa tomar decisões com base nos dados observados, consideremos como exemplo a questão de se determinar a eficácia de um novo tipo de vacina contra resfriado. Para simplificar, vamos supor que dez pessoas tenham tomado essa vacina e foram examinadas durante o inverno. Dessas dez, oito atravessaram o inverno sem ficar resfriadas. Pode-se dizer que essa vacina é eficaz? São usadas duas técnicas de ensino diferentes para apresentar um determinado assunto a dois grupos de alunos de capacidades comparáveis. Ao término do período de instrução é obtida uma medida do aprendizado de cada grupo. Tomando como base dados, pergunta-se: os dados apresentam evidência suficiente capaz de indicar que um método produz, em média, melhor aprendizado que o outro? Termos Básicos: • População ou Universo Estatístico A população é o conjunto constituído por todos indivíduos (valores, pessoas, medidas, etc) que apresentam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Assim sendo, o objetivo das generalizações estatísticas (indução estatística) está em dizer-se algo acerca de diversas características da população estudada, com base em fatos conhecidos. É importante ficar bem claro que uma população é estudada em termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em si. Assim, por exemplo, as alturas dos cidadãos do Brasil constituem uma população. Poderia haver uma população correspondente aos pesos desses mesmos cidadãos. • Amostra A amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz inferência sobre as características da população. Uma amostra tem que ser representativa, a tomada de uma amostra bem como seu manuseio, requer cuidados especiais para que os resultados não sejam distorcidos. Por exemplo, uma pesquisa de mercado realizada em uma cidade utiliza uma amostra de 2000 lares e, com base nos resultados, formula conclusões sobre a população de todos os 50000 lares dessa cidade. • Parâmetro É uma medida numérica que descreve uma característica de uma população. São valores fixos, geralmente desconhecidos e usualmente representados por caracteres gregos. Exemplos: μ (média populacional), p (proporção populacional), σ (desvio-padrão populacional), σ² (variância populacional) etc. • Estatística É uma medida numérica que descreve uma característica de uma amostra. Representada por caracteres latinos. 2 Exemplos: x (média amostral), pˆ (proporção amostral), s (desvio - padrão amostral), s2 (variância amostral) Consideremos o seguinte exemplo. Em uma pesquisa feita com 1200 pessoas escolhidas aleatoriamente em uma comunidade, 38,9% possuíam convênio médico “Saúde Total”. Como a cifra de 38,9% se baseiam em uma amostra, e não em toda a população, trata-se de uma estatística e não um parâmetro). Já se uma pesquisa feita com todos os moradores desta comunidade mostra que 43% possuem convênio médico “Saúde Total”, a cifra de 43% é um parâmetro porque se baseia em toda a população da comunidade. Estatística Descritiva e Inferência Estatística Uma vez coletados os dados de todas as variáveis envolvidas em determinado estudo, o passo seguinte é descobrir "o que os dados têm para nos dizer" a respeito do que está sendo investigado. O pesquisador se vê as voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostra ou população ele necessitará resumir os dados para que estes sejam informativos, ou para compará-los com outros resultados, ou ainda para julgar sua adequação alguma teoria. É preciso utilizar instrumentos que resumam e mostrem o comportamento dos dados permitindo interpretações práticas. A estatística descritiva se ocupa da organização, apresentação e sintetização de dados. Gráficos, tabelas e medidas descritivas são as ferramentas utilizadas. Uma fase preliminar na análise, destinada a obter informações que indiquem possíveis modelos a serem utilizados numa fase final, que seria a chamada inferência estatística. Portanto, a estatística inferência constitui o conjunto de métodos para tomada de decisões sobre a população, com base em estudos feitos sobre os dados da amostra. Embora a estatística descritiva seja um ramo importante da estatística e continue sendo amplamente utilizada, as informações estatísticas quase sempre são obtidas de amostras e isto significa que sua análise exige generalizações que ultrapassam os dados. Como resultado, a característica mais importante do recente crescimento da estatística tem sido um desvio da ênfase a métodos meramente descritivos, para uma ênfase a métodos generalizadores. Suponhamos que temos dados de níveis de glicose de 1000 famílias brasileiras. Este corpo de dados pode ser sumarizado encontrando a nível médio de glicose e a distribuição dos níveis de glicose dessas famílias, acima e abaixo da média. Os dados também podem ser descritos pela construção de uma tabela, ou um gráfico do número de famílias em cada classe do nível de glicose. Isto é estatística descritiva. Se essas 1000 famílias são representativas de todas as famílias brasileiras, podemos então estimar e testar hipóteses sobre os níveis de médios de glicose para o Brasil como um todo, ou seja utilizarmos a estatística inferencial. Como exemplos de inferência estatística na medicina temos: a análise de uma amostra de sangue ou urina ou resultados da biópsia de um tecido. Da amostra obtida de um paciente, tira-se conclusões sobre a “população”, isto é, a urina total ou volume do sangue, ou organismo inteiro do paciente. Abusos da Estatística Más Amostras Outra fonte de estatística enganosa são os métodos inadequados de coleta de dados. É comum um pesquisador analisar dados e formular conclusões errôneas porque o método de coleta de dados foi deficiente. Considere o seguinte exemplo: Um jornal fez a seguinte pergunta: “Se você tivesse que começar novamente, você teria filhos? Escreva-nos. Algumas semanas depois o jornal informava que 70% dos pais dizem que não vale a pena ter filhos. Será que está amostra não era tendenciosa constituída dos pais que queriam desabafar. Como os próprios pais é que decidiram se seriam incluídos na pesquisa, temos um exemplo de pesquisa auto-selecionada, ou seja, uma pesquisa em que os próprios entrevistados decidem se serão incluídos. Pequenas Amostras Os resultados obtidos com pequenas amostras não são necessariamente más, entretanto, os resultados obtidos com pequenas podem por vezes ser usados como uma forma de “mentira” estatística. As preferências de apenas 10 dentistas por determinado creme dental não devem servir de base para uma afirmação generalizada como “A pasta WW é recomendada por 8 em cada 10 dentistas.” Mesmo que a amostra seja grande, ela deve ser não tendenciosa e representativa da população de onde provém. 3 Estimativas por Suposição Outra fonte de engano estatístico envolve estimativas que são, na verdade, suposições (palpites), podendo apresentar erros substanciais. É preciso considerar a fonte da estimativa e a maneira como foi estabelecida. Porcentagens Distorcidas: Por vezes utilizam-se porcentagens confusas ou distorcidas. Em um anúncio de página inteira, a Continental Airlines anuncia melhores serviços. No tocante ao caso de bagagem extraviada, o anúncio afirmava que se trata de uma área em que já melhoramos 100% nos últimos seis meses”. Em um editorial criticando essa estatística, o New York Times interpretou corretamente a melhora de 100% como significando que agora não se extravia mais qualquer bagagem – o que ainda não foi conseguido pela Continental Airlines. Perguntas Tendenciosas As perguntas em uma pesquisa podem ser formuladas de modo a “sugerirem” uma resposta. Por exemplo, Considere estas duas perguntas: Que rádio você prefere? A pergunta não sugere a resposta enquanto que a pergunta: A rádio Transamérica é a sua rádio preferida? Bom claro que é. Esta pergunta força a resposta. Pressão do Pesquisador Quando se formulam perguntas a indivíduos pesquisados, esses freqüentemente dão respostas favoráveis à sua auto imagem. Em uma pesquisa telefônica, 94% dos que responderam disseram que lavam suas mãos após usar um banheiro, mas a observação em lugares mostraram que o percentual efetivo é de apenas 68%. Apresentação de Dados em Gráficos Introdução Os dados estatísticos, apresentados em tabelas, também podem ser expostos em gráficos. A sua função é a de transmitir uma idéia visual do comportamento de um conjunto de valores. Os gráficos dão, melhor do que as tabelas, visão de tendências e ajudam a interpretar um fenômeno. Em função disto, estão sempre presentes em apresentações de trabalhos e artigos em congressos, seminários, onde é necessário comunicar um grande volume de informações com tempo limitado e de forma compreensível. Existem normas nacionais para a construção de gráficos, ditadas pela Fundação IBGE. Assim, todo gráfico deve apresentar título e escala. O título pode ser colocado tanto acima como abaixo do gráfico. As legendas explicativas devem ser colocadas, de preferência, à direita do gráfico. Existem inúmeras formas gráficas interessantes, limitaremos a mostrar alguns tipos de gráficos. Como Fazer um Gráfico 1. Examine a variável. As variáveis podem ser: • Qualitativas (você tem categorias e conta o número de elementos em cada categoria). Exemplos: sexo, raça. • Quantitativas (você obtém uma medida de cada elemento). Exemplos: peso, estatura. 2. Escolha o gráfico de acordo com o tipo de variável. Se a variável for qualitativa ou categórica faça: • Gráficos de Barras • Gráficos de Colunas • Gráficos de Setores Se a variável for quantitativa faça: • Histogramas • Polígonos de Frequências 4 Tipos de Gráficos Gráfico de Colunas Para fazer um gráfico de colunas, colocam-se, no eixo horizontal, as categorias da variável em estudo. Em seguida, constroem-se barras retangulares, com base no eixo horizontal e altura igual à freqüência, ou à freqüência relativa, da respectiva categoria. As barras devem ser desenhadas separadas para ficar claro que a variável é qualitativa. Gráfico de Barras É semelhante ao gráfico de colunas, porém os retângulos são dispostos horizontalmente. Gráfico de Setores O gráfico de setores é uma forma muito adequada de visualizar a proporção que representa cada categoria de uma variável sobre o total dos dados, permitindo também comparar cada categoria com as demais. Histograma Os dados apresentados em tabelas de distribuição de freqüências são apresentados graficamente em histogramas. O histograma de freqüências permite observar a distribuição das freqüências absolutas de uma determinada variável em classes que podem ser definidas automaticamente ou pelo usuário. Para construir um histograma, primeiro se traça o sistema de eixos cartesianos. Depois, se os intervalos de classe são iguais, traçam-se barras retangulares com bases iguais, correspondendo aos intervalos de classe, e com alturas determinadas pelas respectivas freqüências. 5 • Polígono de Freqüência Os dados apresentados em tabela de distribuição de freqüências também podem ser apresentados em gráficos denominados polígonos de freqüências. Para fazer esse tipo de gráfico, marcam-se pontos com abscissas iguais aos pontos médios de classes e ordenadas iguais às respectivas freqüências. Para fechar o polígono, unem-se os extremos da figura com o eixo horizontal, nos pontos de abscissas iguais aos pontos médios de uma classe imediatamente inferior à primeira, e de uma classe imediatamente superior à última. O histograma e o polígono de freqüências servem para visualizar a forma da distribuição da variável estudada. Diagrama de Pontos É aquele em que cada dado é representado por um ponto (X,Y) do sistema de coordenadas cartesianas. Também é conhecido por diagrama de dispersão. Utilização: é usado principalmente em estudos de correlação, ou seja, estudos que têm por finalidade medir o grau de associação entre as variáveis observadas. Imaginemos que os valores da variável x sejam as idades das pessoas de determinada classe e os valores de y, o tempo médio de duração do banho diário de todas as pessoas entrevistadas em cada idade. A configuração mostrada na Figura nos faz supor que existe certa correlação entre as duas variáveis, ou seja, com a passagem do tempo, as pessoas parecem demorar menos debaixo do chuveiro. Devemos, entretanto, tomar o cuidado na análise de correlação, uma vez que as variáveis correlacionadas não necessariamente estão sujeitas a uma relação de causa e efeito. No nosso, exemplo, não podemos afirmar com certeza que as pessoas se banham mais rapidamente apenas porque são mais idosas, já que o motivo da rapidez pode ser outro que não a idade, como por exemplo, o fato das pessoas tornarem-se menos vaidosas ou mais ocupadas conforme o tempo vai passando. Diagrama de Linhas Dados coletados ao longo do tempo são muito comuns em pesquisas médicas e em registros de Saúde Pública. Tais dados são denominados temporais ou longitudinais. O gráfico de linhas é uma representação mais adequada para este tipo de dados. Consiste em colocar no eixo horizontal do gráfico a 6 escala temporal (ano, mês, dia etc) e no eixo vertical a variável a ser estudada (freqüência, taxa ou medida tomada). É usual unir os pontos através de segmentos de reta, daí o nome recebido. Figura 6.7 Idade, em dias, e peso médio, em gramas, de oito ratos Os dados obtidos de estudos devem ser analisados e interpretados com o auxílio de métodos estatísticos. A primeira etapa desta tarefa é a organização e síntese dos dados. Para isto, foram desenvolvidos métodos que recebem o nome de estatística descritiva Os elementos básicos para essa análise são tabelas, gráficos que foram vistos anteriormente e medidas numéricas que serão vistas nos capítulos posteriores. O uso de técnicas descritivas deve sempre preceder análises mais avançadas. COLETA DE DADOS Introdução Parte integrante do trabalho do cientista é fazer observações e coletar dados. Isto deve ser feito com muito cuidado para que os pesquisadores tenham toda a certeza de que as relações que estiverem estudando não estejam contaminadas por outras variáveis além das que estiverem estudando. Existem muitas maneiras de se coletar dados, sendo que o instrumento de medida pode depender do tipo de estudo ou tipo de variável analisada. Em todo caso, há um grande número de métodos de observação. Os métodos de observação são procedimentos sistemáticos e padronizados para se obter dados. Quase todos os métodos têm o objetivo técnico de ajudar o observador ou o pesquisador a obter medidas de variáveis. O principal objetivo de “fazer observações”, então, é medir variáveis. Entrevistas Há duas maneiras gerais de obter informações das pessoas. Uma delas é fazendo-lhes perguntas. Esta é bem direta. A segunda maneira é fazendo os indivíduos responderem algum tipo de estímulo estruturado. Esta forma é mais indireta. Como exemplos de perguntas diretas temos: Você é casado? Você acha que seu casamento teve sucesso? A pessoa então responde. Fornece as respostas que contêm informações que podem ser convertidas em variáveis. Tais questões são usadas em entrevistas. Um conjunto de tais questões é incorporado em um roteiro de entrevista. Entrevistadores treinados usam então esses roteiros e obtêm respostas de respondentes préselecionados. Observação de Comportamento Em vez de perguntar, podemos observar diretamente o comportamento das pessoas. O objetivo é o mesmo: obter medidas de variáveis. Suponhamos que queremos medir a cooperatividade em pequenos grupos. Depois de definirmos comportamento cooperativo, observamos um grupo de algum modo sistemático, digamos em períodos escolhidos ao acaso de 10 minutos cada vez, e procuramos observar atos de comportamento cooperativo. Um dos motivos é a grande dificuldade do método. Observar comportamentos não é tão simples quanto parece. Questionário Existem diversos instrumentos de coleta de dados que podem ser utilizados para obter informações. O mais comum entre esses instrumentos talvez seja o questionário. A informação obtida por meio de questionários permite observar as características de um indivíduo ou grupo. Por exemplo: sexo, idade, estado civil, nível de escolaridade etc. A descrição dessas características pode cumprir diversos objetivos. Exemplo: é importante conhecer a idade de um grupo de mulheres, alvo de uma campanha de controle de natalidade, pois a 7 idade influi na aceitação desse tipo. As características educacionais de um grupo podem contribuir para explicar determinadas atitudes políticas desse grupo. Portanto, uma descrição adequada das características de um grupo não apenas beneficia a análise a ser feita por um pesquisador, mas também pode ajudar outros especialistas, tais como planejadores, administradores e outros. Construção do Questionário Vários cuidados devem ser tomados na elaboração e utilização de um instrumento de pesquisa. A definição de quais dados devem ser coletados, como captar as informações, a clareza das questões do questionário são extremamente importantes. A elaboração de um questionário requer a observância de normas precisas, a fim de aumentar sua eficácia e validade. O questionário deve ser limitado em extensão e em finalidade. Se for muito longo, causa fadiga e desinteresse, se curto demais, corre o risco de não oferecer informações suficientes. Para Lakatos deve conter de 20 a 30 perguntas e demorar cerca de 30 minutos para ser respondido. É claro que este número não é fixo: varia de acordo com o tipo de pesquisa e dos informantes. Ao planejar o questionário deve-se considerar o tipo de análise que será realizado com os dados obtidos. O pesquisador deve estabelecer as possibilidades de medição de determinada variável, de maneira tal que possa realizar a análise estatística desejada. Recomendações para a redação das perguntas ⇒ Não incluir jamais uma pergunta sem ter uma idéia clara da forma de utilizar a sua informação e quanto contribuirá aos objetivos da pesquisa. ⇒ Utilizar vocabulário preciso para perguntar o que realmente se deseja saber. Evitar palavras confusas e termos técnicos que não sejam do conhecimento da população a ser entrevistada. ⇒ Evitar duas perguntas em uma. ⇒ Facilitar a memória. Limitar as perguntas a um passo próximo e ajudar o entrevistado a retroceder no tempo passo a passo, até recordar a informação que nos interessa. ⇒ Não obrigar a fazer cálculos. Por exemplo: Quantos pares de meias você compra no ano? ⇒ Não fazer perguntas embaraçosas. Por exemplo: De quantos em quantos dias você toma banho? ⇒ Não fazer uma pergunta que já contenha em si a resposta. Por exemplo: Vai ao parque pelo menos uma vez? ⇒ As perguntas não devem estar direcionadas, nem refletir a posição do pesquisador em relação a determinado assunto. Devem ser formuladas de tal forma que o entrevistado não se considere pressionado a dar uma resposta que acredita ser a opinião do pesquisador. Em geral, deve-se ter muito cuidado com a redação das perguntas. Classificação das perguntas ⇒ Abertas: são as que permitem ao informante responder livremente, usando linguagem própria e emitir opiniões. Por exemplo: Qual é a sua ocupação principal?............................................ ⇒ Fechadas: são aquelas que o informante escolhe a resposta entre duas ou mais opções. Por exemplo: Sexo (1) masculino (2) feminino Aplicação dos Questionários ⇒ Contato direto: o próprio pesquisador, ou pessoas especialmente treinadas por ele, aplicam o questionário diretamente. Dessa maneira, há menos possibilidades de os entrevistados não responderem o questionário ou de deixarem algumas perguntas em branco. No contato direto o pesquisador pode explicar e discutir os objetivos da pesquisa e do questionário, responder dúvidas que os entrevistados tenham em certas perguntas. Utilizado em quase todo o segmento da população: alfabetizados, analfabetos etc, pois é realizado pelo entrevistador. ⇒ Questionário por correio: o questionário e todas as instruções são enviadas pelo correio a pessoas previamente escolhidas. Junto com o questionário deve-se enviar uma nota ou carta explicando a natureza da pesquisa, sua importância e a necessidade de obter as respostas, tentando despertar o interesse do recebedor, no sentido que ele preencha e devolva o questionário dentro de um prazo razoável. A aplicação por correio permite incluir grande número de pessoas e pontos geográficos diferentes. Apresenta, porém, várias desvantagens, tais como a baixa taxa de devolução e o viés nas respostas dos questionários, pois, geralmente, os formulários são devolvidos pelas pessoas mais interessadas em colaborar. 8 Portanto a amostra não é aleatória, o que prejudica a análise dos resultados. O pesquisador que utilize esse meio de aplicação deve usar questionários breves, perguntas fechadas e analisar as características dos que responderam imediatamente, comparando-os com aqueles que responderam após insistência. Isso permitirá controlar possíveis diferenças que possam afetar os resultados da pesquisa. Apresentação de Dados em Tabelas Apresentação tabular de dados é a representação das informações por intermédio de uma tabela. Uma tabela é uma maneira bastante eficiente de mostrar os dados levantados o que facilita a compreensão e interpretação dos dados. Tabelas de Distribuição de Freqüências As tabelas com grande número de dados são, cansativas e não dão ao pesquisador visão rápida e global do fenômeno. Para isso, é preciso que os dados estejam organizados em uma tabela de distribuição de freqüências. Utilizamos tabelas de freqüências para transformar coleções de dados brutos em sumários organizados e compreensíveis As distribuições de freqüências são representações nas quais os valores da variável se apresentam em correspondência com suas repetições, evitando assim, que eles apareçam mais de uma vez na tabela. Por constituir-se no tipo de tabela mais importante para a estatística descritiva, será apresentado um estudo completo das distribuições de freqüências. O objetivo do próximo capítulo é apresentar métodos gráficos que nos permita visualizar facilmente a natureza da distribuição. Distribuição de Freqüências Introdução Em anos recentes a coleção de dados estatísticos cresceu de tal forma que seria impossível manter-nos atualizados, a menos que essas informações fossem difundidas em forma resumida. O método mais comum de resumir dados consiste em apresentá-los em forma condensada de tabelas ou gráficos. Os dados da Tabela 7.1 foram obtidos de 30 alunos submetidos ao Balke Treadmill Test. Este teste é baseado no pressuposto de que quando, durante um exercício, os batimentos cardíacos atingem 180 batimentos por minuto (bpm), a capacidade cardiovascular foi alcançada, o teste consiste em fazer com que o sujeito ande em uma esteira a velocidade constante, enquanto os batimentos são medidos a cada minuto. Ao fim de 1 minuto, a inclinação da esteira é aumentada em 2%; ao fim de cada minuto sucessivo, a inclinação da esteira é aumentada em 1%, até que os batimentos cardíacos atinjam 180 bpm. Balke sugeriu o seguinte sistema de avaliação para o seu teste: A partir desses dados desorganizados, é difícil ter visão rápida e global do fenômeno. Obteríamos alguma informação a mais se colocássemos os dados segundo certa ordenação, mas isto indicaria somente a amplitude de variação dos dados. O procedimento mais satisfatório é organizar os dados em uma distribuição de freqüências, de modo a mostrar a freqüência com que ocorrem certos intervalos. O propósito da construção de uma distribuição de freqüências é tornar evidente o que há de essencial nos dados e permitir o uso de técnicas analíticas para sua descrição. Com as tabelas de freqüências, podemos identificar a natureza geral da distribuição dos dados, bem como construir gráficos que facilitem a visualização dessa distribuição. Antes era vantajoso agrupar os dados antes de calcular várias medidas descritivas. Hoje, as condições são outras, pois os cálculos necessários podem ser feitos em questão de segundos por um 9 computador ou uma calculadora. Contudo, alguns dados só são acessíveis em forma de distribuições de freqüência. Dados Brutos: são aqueles obtidos diretamente da pesquisa, isto é, que ainda não sofreram qualquer processo de síntese ou análise. Em geral são apresentados em tabelas e freqüentemente omitidos na maioria das publicações por questão de espaço. O conjunto de dados constitui uma amostra. Rol: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Tabela de Freqüências ou Distribuição de Freqüências Uma maneira de resumir os dados é através de distribuição de freqüências, que consiste na construção de uma tabela a partir dos dados brutos em que se leva em conta a freqüência com que cada observação ocorre. As tabelas de freqüências podem representar tanto valores individuais como valores agrupados em classes: Distribuição de Freqüências de Dados Tabulados não Agrupados em Classes Tabela onde os valores da variável aparecem individualmente. Este tipo de apresentação é utilizado para representar uma variável discreta. Observações: xi corresponde os valores que a variável pode assumir; fi representa as freqüências, ou seja, número de vezes que ocorrem as variáveis x1 , x2, ... ; a soma de freqüências absolutas será igual ao total de observações (n). Distribuição de Freqüências de Dados Tabulados Agrupados em Classes Os valores observados não mais aparecerão individualmente, mas agrupados em classes. Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes. Elementos de uma Distribuição de Freqüências Para construir uma tabela de freqüências, é necessário conhecer alguns termos próprios, bem como o procedimento técnico mais adequado. Esses termos serão listados a seguir: 10 Freqüência Simples Absoluta (fi ) É o número de repetições de um valor individual ou de uma classe de valores. A soma das freqüências simples absolutas é chamada de freqüência total e corresponde ao número total de observações. Freqüência Simples Relativa (fri ) Representa a proporção de observações de um valor individual ou de uma classe, em relação ao número total de observações. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da classe ou do valor individual pelo número total de observações. Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100. Freqüência Absoluta Acumulada “Abaixo de” (Fi ↓) A freqüência absoluta acumulada “abaixo de” uma classe ou de um valor individual é a soma da freqüência absoluta dessa classe ou desse valor com as freqüências simples absolutas das classes ou dos valores anteriores. A expressão “abaixo de” refere-se ao fato de que as freqüências a serem acumuladas correspondem aos valores menores ou anteriores ao valor ou à classe cuja freqüência acumulada se deseja obter, incluindo no cálculo a freqüência do valor ou da classe. Toda vez que se procura saber quantas observações existem até uma determinada classe ou valor individual, recorre-se à freqüência acumulada “abaixo de”. Freqüência Relativa Acumulada “Abaixo de”( Fri ↓) A freqüência relativa acumulada da classe ou do valor individual é igual à soma da freqüência simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes ou dos valores anteriores. Freqüência Absoluta Acumulada “Acima de” (Fi ↑ ) A freqüência absoluta acumulada “acima de” uma classe ou de um valor individual representa o número de observações existentes além do valor ou da classe, incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obter a freqüência absoluta acumulada (acima de), basta somar à freqüência simples absoluta da classe ou do valor individual as freqüências absolutas das classes ou dos valores individuais posteriores. Freqüência Relativa Acumulada “Acima de” (Fri ↑) A freqüência relativa acumulada “acima de” da classe ou do valor individual é igual à soma da freqüência simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes ou dos valores posteriores. Amplitude Total (AT ) É a diferença entre o maior e o menor valor observado da variável em estudo. 11 Classes (K) Classe de freqüência, ou, simplesmente classe, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. O número de classes, em uma distribuição de freqüências, é representado por K. Embora existam fórmulas apropriadas para esse fim, em geral, não se conhecem regras precisas que levam a uma decisão final, a qual depende, em parte, de um julgamento pessoal. Se o número de classes for muito pequeno, é comum acontecer que características importantes da variável, fiquem ocultas. Por outro lado, um número elevado de classes, fornecerão maior número de detalhes, mas resumirão de forma menos precisa os dados. Em geral, convém estabelecer de 5 a 20 classes. Uma forma de se determinar um número razoável de classes K consiste em aplicar a fórmula de Sturges. onde n é o número total de dados. O número de classes é um inteiro próximo de k. É importante deixar claro, aqui, que o resultado obtido por esta fórmula pode ser usado como referência, mas cabe ao pesquisador determinar o número de classes que pretende organizar. Para entender como se aplica a fórmula, considere que o número de observações seja 500, tem-se que, k = 1 + 3,3. log (500) k = 9,9 = 10 K = 1 + 3,3 log Amplitude do Intervalo de Classe (c) Definido o número de classes a ser utilizado, deve-se determinar o intervalo de classe (c), ou seja, a amplitude de cada classe. Um caminho para isso é dado por: c = AT / K onde AT é a amplitude total dos dados, isto é, a diferença entre o maior e o menor valor observado. Também aqui, é importante deixar claro que, o resultado obtido por esta fórmula será usado como referência, mas cabe ao pesquisador determinar o intervalo de classe exato. Limites de Classes Denomina-se limites de classe os extremos dos intervalos de classe. O menor número é o limite inferior (li) e o maior é o limite superior (Ls). Ponto Médio (xi ) Em uma distribuição de freqüência também podem ser apresentados os pontos médios de classe (xi). O ponto médio é dado pela soma dos limites de classe, dividido por 2. As tabelas de distribuição de freqüências mostram a distribuição da variável, mas perdem em exatidão. Isso porque todos os dados passam a ser representados pelo ponto médio da classe a que pertencem. Exercícios de estatística – Tabela de freqüências e gráficos 1. Em um estudo sobre instituições de atendimento hospitalar, foram obtidos dados da disponibilidade de leitos de 50 dessas instituições. Organize os dados em Rol, construa a tabela de freqüências dividindo os dados em classes e calcular: a) a freqüência b) a média de classe c) a freqüência relativa d) a freqüência acumulada e) a freqüência acumulada relativa f) a média aritmética ponderada g) Construa um gráfico de setor h) construa um histograma 12 2. As medidas em negrito representam a altura em cm de um grupo de crianças do 3º ano do ensino fundamental. Organize os dados em Rol, construa a tabela de freqüências dividindo os dados em classes e calcular: a) a freqüência b) a média de classe c) a freqüência relativa d) a freqüência acumulada e) a freqüência acumulada relativa f) a média aritmética ponderada g) Construa um gráfico de setor h) construa um histograma 3. Complete a tabela abaixo e construa os gráficos 4. Complete a tabela abaixo e construa os gráficos 13 MEDIDAS DE DISPERSÃO Vimos que a moda, a mediana e a média podem ser usadas para resumir, num único número, aquilo que é “médio” ou “típico” numa distribuição. Quando empregada sozinha, entretanto, qualquer medida de tendência central fornece apenas uma visão incompleta de um conjunto de dados e, portanto, pode confundir ou distorcer tanto quanto esclarecer. Com vistas a esclarecer essa idéia, admita a seguinte situação: Suponha que, numa particular cidade, tanto ladrões quanto professores secundários tenham uma renda média anual de R$ 18.000,00. Será que essa informação indica que as duas distribuições de renda são necessariamente semelhantes? Muito ao contrário, poder-se-ia descobrir que elas diferem – e muito – num outro aspecto importante, qual seja, o fato de as rendas dos professores concentrarem-se ao redor de R$ 18.000,00, enquanto que as dos ladrões espalham-se mais, o que reflete, portanto, maiores oportunidades para prisões, desemprego, pobreza e, em alguns casos, fortunas excepcionais. Tal fato indica que necessitamos, além de uma medida de tendência central, de um índice que indique o grau de dispersão dos escores em torno do centro da distribuição (isto é, em torno da média). Numa palavra, precisamos de uma medida indicativa do que costumeiramente se chama variabilidade (também designada como variação ou dispersão). No exemplo anterior podemos dizer que a distribuição de rendas entre professores apresenta menos variabilidade do que a distribuição de rendas entre ladrões. As medidas de variabilidade mais conhecidas são: amplitude total, desvio médio e desvio padrão. 1. Amplitude total: A amplitude total é uma medida de variabilidade rápida (cômoda), embora não muito exata. Como já vimos, a amplitude total é dada pela diferença entre o maior e o menor escore (valor) da distribuição. A vantagem da amplitude total – cálculo rápido e fácil – constitui-se também sua mais importante desvantagem. Por outras palavras, a amplitude total é inteiramente dependente de apenas dois escores: o maior e o menor num dado conjunto de valores. Como resultado, a amplitude total fornece, via de regra, um mero índice grosseiro da variabilidade de uma distribuição. Por exemplo: considere os dois conjuntos de dados: 1) 2 – 6 – 7 – 7 – 10 – 12 – 13 – 100 (At = 100 – 2 = 98) 2) 2 – 6 – 7 – 7 – 10 – 12 – 13 – 24 (At = 24 – 2 = 22) A simples troca de um único valor (14 em lugar do 100), fez com que a amplitude total flutuasse bruscamente de 98 para 12. Qualquer medida que seja tão afetada pelo escore de um único respondente (ou por um único valor da variável) não pode, por certo, fornecer uma idéia precisa quanto à variabilidade: quando muito, é possível considerá-la como um índice preliminar ou, até, pouco exato. 2. Desvio médio: O desvio é definido como sendo a distância entre qualquer escore bruto e a média da distribuição. Para se calcular os desvios, basta subtrair a média (aritmética) de qualquer escore bruto: x (Xi X ) No primeiro dos conjuntos de dados acima, temos: média aritmética: X 2 6 7 7 10 12 13 100 157 19,6 8 8 Calculando os desvios de cada um desses dados temos: 2 - 19,6 17,6 6 - 19,6 13,6 7 - 19,6 12,6 10 - 19,6 9,6 12 - 19,6 7,6 13 - 19,6 6,6 100 - 19,6 80,4 Observe que, pelo fato de os dados serem tão dispersos, a média não é representativa dos dados e, conseqüentemente, quase todos os desvios deram negativos. Já no segundo conjunto temos: média aritmética: X 2 6 7 7 10 12 13 24 81 10,1 8 8 14 Calculando os desvios: 2 - 10,1 8,1 6 - 10,1 4,1 7 - 10,1 3,1 10 - 10,1 0,1 12 - 10,1 1,9 13 - 10,1 2,9 24 - 10,1 13,9 Neste caso, como não há dispersão dos dados e a média é representativa, há cinco (há dois valores 7) desvios negativos e três desvios positivos. Se desejarmos obter uma medida de variabilidade que leve em conta todos os escores da distribuição (e não apenas dois como no exemplo 1), poderemos tomar o valor absoluto de cada discrepância (isto é, das distâncias em relação à média), somar esses valores e, então, dividir o total pelo número de escores. O resultado será o desvio médio. DM x N onde: DM – desvio médio |x| - soma dos valores absolutos das discrepâncias (ou seja, soma das discrepâncias sem considerar-se a presença dos sinais + e -). N – total de escores (ou de sujeitos, correspondentes ou dados). No exemplo (1) anterior, desconsideramos o sinal negativo e fazemos as somas dos desvios, dividindo o total por 8: DM 17,6 13,6 12,6 12,6 9,6 7,6 6,6 80,4 160,6 20,1 8 8 No exemplo temos: DM 8,1 4,1 3,1 3,1 0,1 1,9 2,9 13,9 37,2 3,4 8 8 Observe que o desvio médio tende a se tornar maior quando há maior variabilidade dos dados. No exemplo 1, o desvio médio deu 20,1 o que indica uma grande variabilidade dos dados em torno da média; já no exemplo dois, a variabilidade é menor, indicando que há pouca dispersão dos dados. Para um melhor entendimento dessas informações, considere os dados da tabela, mostrando os salários dos funcionários de 3 empresas, cuja média é R$ 340,00: Empresa A Salário (R$) 340 340 340 340 340 340 340 |x| 0 0 0 0 0 0 0 Empresa B Salário (R$) 391 374 357 340 323 306 289 |x| = 0 X = 340 AT = 0 DM = 0 Nenhuma variabilidade |x| 51 34 17 0 17 34 51 |x| = 204 X = 340 AT = 102 DM = 29,14 Pouca variabilidade Empresa C Salário |x| (R$) 595 255 510 170 425 85 340 0 255 85 170 170 85 255 |x| = 1.020 X = 340 AT = 510 DM = 145,71 Muita variabilidade 3. Desvio padrão: A maioria dos pesquisadores, no entanto, prefere utilizar um outro tipo de medida de dispersão: é o desvio padrão. Vimos que o desvio médio evita o problema de números negativos, o que foi conseguido graças à convenção de ignorarem-se os sinais + e -, somando, em seguida, os valores absolutos dos desvios com 15 relação à média. Tal procedimento para a criação de uma medida de variabilidade tem a nítida desvantagem de impedir que esses valores absolutos sejam sempre úteis em análises estatísticas mais avançadas (pois eles não comportam facilmente manipulações algébricas). Para superar esse problema e obter uma medida de variabilidade que seja mais conveniente (isto é, ajustada, “usável”) em procedimentos estatísticos avançados, podemos elevar ao quadrado as discrepâncias reais (com os respectivos sinais) e somá-las a seguir ( x2 ). Esse procedimento permite fugir à influência dos sinais, já que o quadrado de qualquer número é sempre positivo. Após termos somado os quadrados das discrepâncias, podemos dividir o total por N, a fim de garantir uma equilibração desse resultado (total) relativamente a todos os escores envolvidos. O valor que se obtém dessa operação é conhecido pelo nome de média quadrática. Como conseqüência direta do fato de termos elevado as discrepâncias ao quadrado, a unidade de medida sofreu uma alteração, o que dificulta a interpretação do resultado. Com vistas a voltar à unidade de medida original, extraímos a raiz quadrada da média quadrática, resultando o que se denomina desvio padrão, representado pela letra grega (sigma) minúscula: DP x 2 N onde: DP: é o desvio padrão x2 : soma das discrepâncias ao quadrado N: total de escores da distribuição Essa é a fórmula que permite calcular o desvio padrão de dados isolados. No entanto, você deve estar se perguntando: mas quase sempre trabalhamos com dados agrupados. Como calcular então o desvio padrão? Lançamos mão da seguinte fórmula: DP fx f i 2 i X 2 i onde: DP: desvio padrão fi xi 2: produto da freqüência da classe pelo quadrado do ponto médio fi (ou N): número total de escores ou somatória das freqüências 2 X : quadrado da média (aritmética). Vejamos passo a passo a utilização dessa fórmula: Considere a seguinte distribuição de freqüência: 1º passo: Calcula-se o ponto médio da classe e multiplica-o pela freqüência: Intervalos de classe 17 – 19 14 – 16 11 – 13 8 – 10 5–7 2-4 fi 1 2 3 5 4 2 fi = 17 xi 18 15 12 9 6 3 fi xi 18 30 36 45 24 6 fi xi = 159 2º passo: multiplicar cada ponto médio por fi xi para se determinar 16 Intervalos de classe 17 – 19 14 – 16 11 – 13 8 – 10 5–7 2-4 fi xi 2. fi 1 2 3 5 4 2 fi = 17 Intervalos de classe 17 – 19 14 – 16 11 – 13 8 – 10 5–7 2-4 fi 1 2 3 5 4 2 fi = 17 xi 18 15 12 9 6 3 fi xi 18 30 36 45 24 6 fi xi = 159 fi xi 2 324 450 432 405 144 18 fi xi 2= 1 773 3ª passo: Calcular a média aritmética elevá-la ao quadrado: X= fx f i i = i 159 = 9,35 17 9,352 = 87,42 4º passo: aplicar os dados na fórmula: DP fx f i i i 1773 - 87,42 4,11 17 Qual é o significado do desvio padrão? Você com certeza deve estar se perguntando qual o significado de um desvio padrão. Se o desvio padrão numa distribuição é igual a 4 e, em outra, igual a 2, isso indica que a primeira distribuição tem maior variabilidade que a segunda. O desvio padrão é um número que representa a “variabilidade média” de uma distribuição, já que ele mede a média das discrepâncias (desvios) em relação à média aritmética. Ele representa uma unidade de medida. Por exemplo, se você quer calcular a distância de sua carteira à lousa, você pode utilizar como unidade de medida o metro ou o centímetro. Mas como medir a extensão da linha de base de uma curva de freqüências, onde estejam registrados os escores de um grupo de dados? Que método usar para encontrar a distância entre qualquer escore bruto e a média de distribuição – método padronizado que nos possibilitasse fazer comparações entre escores brutos da mesma distribuição ou entre escores de distribuições diferentes? Como comparar a nota 8,5 de uma prova de matemática com a nota 8,0 de uma prova de português? Qual dessas notas realmente é a mais alta? O desvio padrão pode ser considerada a unidade de medida para esse tipo de comparação. Podemos medir a linha de base de uma curva de freqüência em unidades de desvio padrão (isto é, em unidades “sigma”). Por exemplo, considere uma curva de freqüência de média igual a 8,0 e desvio padrão igual a 5. Nessa curva, um escore 85, por exemplo, fica exatamente a um desvio padrão acima da média (80 + 5 = 85), o que equivale dizer que 85 dista da média + 1 . Já o escore 75 dista – 1 da média. Nesse exemplo, a amplitude total (95 – 65 = 30) dá uma visão ‘grosseira’ da extensão da base da curva, mas não serve para localizar, com eficácia, um escore particular com relação à média. Enquanto a amplitude total é calculada apenas com dois valores (escores), o desvio padrão é calculado com todos os valores da distribuição. A desvantagem do cálculo do desvio padrão está em sua dificuldade e demora. No entanto, com a tecnologia (máquinas de calcular avançadas e computadores) tem facilitado esse tipo de cálculo. O desvio padrão é uma medida de variabilidade confiável, de nível intervalar, que pode ser utilizada em operações estatísticas avançadas, descritivas ou inferenciais. 17 COEFICIENTE DE VARIAÇÃO O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação (CV): CV DP 100 X onde: S: desvio padrão e X é a média. 18