Aplicações da Estatística

Propaganda
UNIVERSIDADE CAMILO CASTELO BRANCO
APOSTILA DE
MÉTODOS
ESTATÍSTICOS
Profº ERIVELTON ALVES BIZERRA
São Paulo
2º sem / 2008
1
Aplicações da Estatística
As aplicações da estatística se desenvolveram de tal forma que, hoje praticamente todo campo de
estudo se beneficia da utilização de métodos estatísticos. A seguir citamos alguns exemplos, que são de
natureza e complexidade as mais variadas, da aplicabilidade da estatística.
Os fabricantes forneceram melhores produtos a custos menores através de técnicas de controle de
qualidade. Controlam-se doenças com auxílio de análises que antecipam epidemias.
Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas
de modificação do tamanho das populações.
Antes de serem conhecidos os resultados de uma eleição nacional, as firmas dedicadas ao exame
de opinião pública costumam consultar um número predeterminado de pessoas, através de todo o país,
obtendo, assim, suas preferências eleitorais. Tomando como base essas informações, essas firmas
elaboram suas previsões. Problemas similares também são encontrados: em pesquisas de mercado (que
proporção de fumantes prefere o cigarro da marca A?); em sociologia (que porcentagem do total de
domicílios rurais possui eletricidade?); na indústria (que fração dos artigos comprados ou produzidos
apresenta defeito?).
O estatístico também precisa tomar decisões com base nos dados observados, consideremos
como exemplo a questão de se determinar a eficácia de um novo tipo de vacina contra resfriado. Para
simplificar, vamos supor que dez pessoas tenham tomado essa vacina e foram examinadas durante o
inverno. Dessas dez, oito atravessaram o inverno sem ficar resfriadas. Pode-se dizer que essa vacina é
eficaz?
São usadas duas técnicas de ensino diferentes para apresentar um determinado assunto a dois
grupos de alunos de capacidades comparáveis. Ao término do período de instrução é obtida uma medida
do aprendizado de cada grupo. Tomando como base dados, pergunta-se: os dados apresentam evidência
suficiente capaz de indicar que um método produz, em média, melhor aprendizado que o outro?
Termos Básicos:
• População ou Universo Estatístico
A população é o conjunto constituído por todos indivíduos (valores, pessoas, medidas, etc) que
apresentam pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Assim
sendo, o objetivo das generalizações estatísticas (indução estatística) está em dizer-se algo acerca de
diversas características da população estudada, com base em fatos conhecidos.
É importante ficar bem claro que uma população é estudada em termos de observações de
características nos indivíduos, e não em termos de pessoas ou objetos em si. Assim, por exemplo, as
alturas dos cidadãos do Brasil constituem uma população. Poderia haver uma população correspondente
aos pesos desses mesmos cidadãos.
• Amostra
A amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade
de observações abrangidas pela população, através da qual se faz inferência sobre as características da
população. Uma amostra tem que ser representativa, a tomada de uma amostra bem como seu manuseio,
requer cuidados especiais para que os resultados não sejam distorcidos.
Por exemplo, uma pesquisa de mercado realizada em uma cidade utiliza uma amostra de 2000
lares e, com base nos resultados, formula conclusões sobre a população de todos os 50000 lares dessa
cidade.
• Parâmetro
É uma medida numérica que descreve uma característica de uma população. São valores fixos,
geralmente desconhecidos e usualmente representados por caracteres gregos.
Exemplos:
μ (média populacional), p (proporção populacional), σ (desvio-padrão populacional), σ²
(variância populacional) etc.
• Estatística
É uma medida numérica que descreve uma característica de uma amostra. Representada por
caracteres latinos.
2
Exemplos:
x (média amostral), pˆ (proporção amostral), s (desvio - padrão amostral), s2 (variância amostral)
Consideremos o seguinte exemplo. Em uma pesquisa feita com 1200 pessoas escolhidas
aleatoriamente em uma comunidade, 38,9% possuíam convênio médico “Saúde Total”. Como a cifra de
38,9% se baseiam em uma amostra, e não em toda a população, trata-se de uma estatística e não um
parâmetro). Já se uma pesquisa feita com todos os moradores desta comunidade mostra que 43%
possuem convênio médico “Saúde Total”, a cifra de 43% é um parâmetro porque se baseia em toda a
população da comunidade.
Estatística Descritiva e Inferência Estatística
Uma vez coletados os dados de todas as variáveis envolvidas em determinado estudo, o passo
seguinte é descobrir "o que os dados têm para nos dizer" a respeito do que está sendo investigado. O
pesquisador se vê as voltas com o problema de analisar e entender uma massa de dados, relevante ao
seu particular objeto de estudos. Se forem informações sobre uma amostra ou população ele necessitará
resumir os dados para que estes sejam informativos, ou para compará-los com outros resultados, ou ainda
para julgar sua adequação alguma teoria. É preciso utilizar instrumentos que resumam e mostrem o
comportamento dos dados permitindo interpretações práticas.
A estatística descritiva se ocupa da organização, apresentação e sintetização de dados. Gráficos,
tabelas e medidas descritivas são as ferramentas utilizadas. Uma fase preliminar na análise, destinada a
obter informações que indiquem possíveis modelos a serem utilizados numa fase final, que seria a
chamada inferência estatística. Portanto, a estatística inferência constitui o conjunto de métodos para
tomada de decisões sobre a população, com base em estudos feitos sobre os dados da amostra.
Embora a estatística descritiva seja um ramo importante da estatística e continue sendo
amplamente utilizada, as informações estatísticas quase sempre são obtidas de amostras e isto significa
que sua análise exige generalizações que ultrapassam os dados. Como resultado, a característica mais
importante do recente crescimento da estatística tem sido um desvio da ênfase a métodos meramente
descritivos, para uma ênfase a métodos generalizadores.
Suponhamos que temos dados de níveis de glicose de 1000 famílias brasileiras. Este corpo de
dados pode ser sumarizado encontrando a nível médio de glicose e a distribuição dos níveis de glicose
dessas famílias, acima e abaixo da média. Os dados também podem ser descritos pela construção de uma
tabela, ou um gráfico do número de famílias em cada classe do nível de glicose. Isto é estatística
descritiva. Se essas 1000 famílias são representativas de todas as famílias brasileiras, podemos então
estimar e testar hipóteses sobre os níveis de médios de glicose para o Brasil como um todo, ou seja
utilizarmos a estatística inferencial.
Como exemplos de inferência estatística na medicina temos: a análise de uma amostra de sangue
ou urina ou resultados da biópsia de um tecido. Da amostra obtida de um paciente, tira-se conclusões
sobre a “população”, isto é, a urina total ou volume do sangue, ou organismo inteiro do paciente.
Abusos da Estatística
Más Amostras
Outra fonte de estatística enganosa são os métodos inadequados de coleta de dados. É comum
um pesquisador analisar dados e formular conclusões errôneas porque o método de coleta de dados foi
deficiente. Considere o seguinte exemplo:
Um jornal fez a seguinte pergunta: “Se você tivesse que começar novamente, você teria filhos?
Escreva-nos.
Algumas semanas depois o jornal informava que 70% dos pais dizem que não vale a pena ter
filhos. Será que está amostra não era tendenciosa constituída dos pais que queriam desabafar.
Como os próprios pais é que decidiram se seriam incluídos na pesquisa, temos um exemplo de
pesquisa auto-selecionada, ou seja, uma pesquisa em que os próprios entrevistados decidem se serão
incluídos.
Pequenas Amostras
Os resultados obtidos com pequenas amostras não são necessariamente más, entretanto, os
resultados obtidos com pequenas podem por vezes ser usados como uma forma de “mentira” estatística.
As preferências de apenas 10 dentistas por determinado creme dental não devem servir de base para uma
afirmação generalizada como “A pasta WW é recomendada por 8 em cada 10 dentistas.” Mesmo que a
amostra seja grande, ela deve ser não tendenciosa e representativa da população de onde provém.
3
Estimativas por Suposição
Outra fonte de engano estatístico envolve estimativas que são, na verdade, suposições
(palpites), podendo apresentar erros substanciais. É preciso considerar a fonte da estimativa e a maneira
como foi estabelecida.
Porcentagens Distorcidas:
Por vezes utilizam-se porcentagens confusas ou distorcidas. Em um anúncio de página inteira, a
Continental Airlines anuncia melhores serviços. No tocante ao caso de bagagem extraviada, o anúncio
afirmava que se trata de uma área em que já melhoramos 100% nos últimos seis meses”. Em um editorial
criticando essa estatística, o New York Times interpretou corretamente a melhora de 100% como
significando que agora não se extravia mais qualquer bagagem – o que ainda não foi conseguido pela
Continental Airlines.
Perguntas Tendenciosas
As perguntas em uma pesquisa podem ser formuladas de modo a “sugerirem” uma resposta.
Por exemplo, Considere estas duas perguntas:
Que rádio você prefere? A pergunta não sugere a resposta enquanto que a pergunta:
A rádio Transamérica é a sua rádio preferida? Bom claro que é. Esta pergunta força
a resposta.
Pressão do Pesquisador
Quando se formulam perguntas a indivíduos pesquisados, esses freqüentemente dão respostas
favoráveis à sua auto imagem. Em uma pesquisa telefônica, 94% dos que responderam disseram que
lavam suas mãos após usar um banheiro, mas a observação em lugares mostraram que o percentual
efetivo é de apenas 68%.
Apresentação de Dados em Gráficos
Introdução
Os dados estatísticos, apresentados em tabelas, também podem ser expostos em gráficos.
A sua função é a de transmitir uma idéia visual do comportamento de um conjunto de valores.
Os gráficos dão, melhor do que as tabelas, visão de tendências e ajudam a interpretar um
fenômeno. Em função disto, estão sempre presentes em apresentações de trabalhos e artigos em
congressos, seminários, onde é necessário comunicar um grande volume de informações com tempo
limitado e de forma compreensível.
Existem normas nacionais para a construção de gráficos, ditadas pela Fundação IBGE.
Assim, todo gráfico deve apresentar título e escala. O título pode ser colocado tanto acima como abaixo
do gráfico. As legendas explicativas devem ser colocadas, de preferência, à direita do gráfico. Existem
inúmeras formas gráficas interessantes, limitaremos a mostrar alguns tipos de gráficos.
Como Fazer um Gráfico
1. Examine a variável. As variáveis podem ser:
• Qualitativas (você tem categorias e conta o número de elementos em cada categoria).
Exemplos: sexo, raça.
• Quantitativas (você obtém uma medida de cada elemento). Exemplos: peso, estatura.
2. Escolha o gráfico de acordo com o tipo de variável.
Se a variável for qualitativa ou categórica faça:
• Gráficos de Barras
• Gráficos de Colunas
• Gráficos de Setores
Se a variável for quantitativa faça:
• Histogramas
• Polígonos de Frequências
4
Tipos de Gráficos
Gráfico de Colunas
Para fazer um gráfico de colunas, colocam-se, no eixo horizontal, as categorias da variável em
estudo. Em seguida, constroem-se barras retangulares, com base no eixo horizontal e altura igual à
freqüência, ou à freqüência relativa, da respectiva categoria. As barras devem ser desenhadas separadas
para ficar claro que a variável é qualitativa.
Gráfico de Barras
É semelhante ao gráfico de colunas, porém os retângulos são dispostos horizontalmente.
Gráfico de Setores
O gráfico de setores é uma forma muito adequada de visualizar a proporção que representa cada
categoria de uma variável sobre o total dos dados, permitindo também comparar cada categoria com as
demais.
Histograma
Os dados apresentados em tabelas de distribuição de freqüências são apresentados graficamente
em histogramas. O histograma de freqüências permite observar a distribuição das freqüências absolutas
de uma determinada variável em classes que podem ser definidas automaticamente ou pelo usuário. Para
construir um histograma, primeiro se traça o sistema de eixos cartesianos. Depois, se os intervalos de
classe são iguais, traçam-se barras retangulares com bases iguais, correspondendo aos intervalos de
classe, e com alturas determinadas pelas respectivas freqüências.
5
• Polígono de Freqüência
Os dados apresentados em tabela de distribuição de freqüências também podem ser
apresentados em gráficos denominados polígonos de freqüências. Para fazer esse tipo de gráfico,
marcam-se pontos com abscissas iguais aos pontos médios de classes e ordenadas iguais às respectivas
freqüências. Para fechar o polígono, unem-se os extremos da figura com o eixo horizontal, nos pontos de
abscissas iguais aos pontos médios de uma classe imediatamente inferior à primeira, e de uma classe
imediatamente superior à última.
O histograma e o polígono de freqüências servem para visualizar a forma da distribuição da
variável estudada.
Diagrama de Pontos
É aquele em que cada dado é representado por um ponto (X,Y) do sistema de coordenadas
cartesianas. Também é conhecido por diagrama de dispersão. Utilização: é usado principalmente em
estudos de correlação, ou seja, estudos que têm por finalidade medir o grau de associação entre as
variáveis observadas. Imaginemos que os valores da variável x sejam as idades das pessoas de
determinada classe e os valores de y, o tempo médio de duração do banho diário de todas as pessoas
entrevistadas em cada idade.
A configuração mostrada na Figura nos faz supor que existe certa correlação entre as duas
variáveis, ou seja, com a passagem do tempo, as pessoas parecem demorar menos debaixo do chuveiro.
Devemos, entretanto, tomar o cuidado na análise de correlação, uma vez que as variáveis correlacionadas
não necessariamente estão sujeitas a uma relação de causa e efeito. No nosso, exemplo, não podemos
afirmar com certeza que as pessoas se banham mais rapidamente apenas porque são mais idosas, já que
o motivo da rapidez pode ser outro que não a idade, como por exemplo, o fato das pessoas tornarem-se
menos vaidosas ou mais ocupadas conforme o tempo vai passando.
Diagrama de Linhas
Dados coletados ao longo do tempo são muito comuns em pesquisas médicas e em registros de
Saúde Pública. Tais dados são denominados temporais ou longitudinais. O gráfico de linhas é uma
representação mais adequada para este tipo de dados. Consiste em colocar no eixo horizontal do gráfico a
6
escala temporal (ano, mês, dia etc) e no eixo vertical a variável a ser estudada (freqüência, taxa ou medida
tomada). É usual unir os pontos através de segmentos de reta, daí o nome recebido.
Figura 6.7 Idade, em dias, e peso médio, em gramas, de oito ratos
Os dados obtidos de estudos devem ser analisados e interpretados com o auxílio de métodos
estatísticos. A primeira etapa desta tarefa é a organização e síntese dos dados. Para isto, foram
desenvolvidos métodos que recebem o nome de estatística descritiva Os elementos básicos para essa
análise são tabelas, gráficos que foram vistos anteriormente e medidas numéricas que serão vistas nos
capítulos posteriores.
O uso de técnicas descritivas deve sempre preceder análises mais avançadas.
COLETA DE DADOS
Introdução
Parte integrante do trabalho do cientista é fazer observações e coletar dados. Isto deve ser feito
com muito cuidado para que os pesquisadores tenham toda a certeza de que as relações que estiverem
estudando não estejam contaminadas por outras variáveis além das que estiverem estudando. Existem
muitas maneiras de se coletar dados, sendo que o instrumento de medida pode depender do tipo de
estudo ou tipo de variável analisada. Em todo caso, há um grande número de métodos de observação.
Os métodos de observação são procedimentos sistemáticos e padronizados para se obter
dados. Quase todos os métodos têm o objetivo técnico de ajudar o observador ou o pesquisador
a obter medidas de variáveis. O principal objetivo de “fazer observações”, então, é medir variáveis.
Entrevistas
Há duas maneiras gerais de obter informações das pessoas. Uma delas é fazendo-lhes perguntas.
Esta é bem direta. A segunda maneira é fazendo os indivíduos responderem algum tipo de estímulo
estruturado. Esta forma é mais indireta. Como exemplos de perguntas diretas temos: Você é casado?
Você acha que seu casamento teve sucesso? A pessoa então responde.
Fornece as respostas que contêm informações que podem ser convertidas em variáveis. Tais
questões são usadas em entrevistas. Um conjunto de tais questões é incorporado em um roteiro de
entrevista. Entrevistadores treinados usam então esses roteiros e obtêm respostas de respondentes préselecionados.
Observação de Comportamento
Em vez de perguntar, podemos observar diretamente o comportamento das pessoas. O objetivo é
o mesmo: obter medidas de variáveis. Suponhamos que queremos medir a cooperatividade em pequenos
grupos. Depois de definirmos comportamento cooperativo, observamos um grupo de algum modo
sistemático, digamos em períodos escolhidos ao acaso de 10 minutos cada vez, e procuramos observar
atos de comportamento cooperativo. Um dos motivos é a grande dificuldade do método. Observar
comportamentos não é tão simples quanto parece.
Questionário
Existem diversos instrumentos de coleta de dados que podem ser utilizados para obter
informações. O mais comum entre esses instrumentos talvez seja o questionário. A informação obtida por
meio de questionários permite observar as características de um indivíduo ou grupo. Por exemplo: sexo,
idade, estado civil, nível de escolaridade etc.
A descrição dessas características pode cumprir diversos objetivos. Exemplo: é importante
conhecer a idade de um grupo de mulheres, alvo de uma campanha de controle de natalidade, pois a
7
idade influi na aceitação desse tipo. As características educacionais de um grupo podem contribuir para
explicar determinadas atitudes políticas desse grupo. Portanto, uma descrição adequada das
características de um grupo não apenas beneficia a análise a ser feita por um pesquisador, mas também
pode ajudar outros especialistas, tais como planejadores, administradores e outros.
Construção do Questionário
Vários cuidados devem ser tomados na elaboração e utilização de um instrumento de pesquisa. A
definição de quais dados devem ser coletados, como captar as informações, a clareza das questões do
questionário são extremamente importantes. A elaboração de um questionário requer a observância de
normas precisas, a fim de aumentar sua eficácia e validade.
O questionário deve ser limitado em extensão e em finalidade. Se for muito longo, causa fadiga e
desinteresse, se curto demais, corre o risco de não oferecer informações suficientes. Para Lakatos deve
conter de 20 a 30 perguntas e demorar cerca de 30 minutos para ser respondido. É claro que este número
não é fixo: varia de acordo com o tipo de pesquisa e dos informantes.
Ao planejar o questionário deve-se considerar o tipo de análise que será realizado com os dados
obtidos. O pesquisador deve estabelecer as possibilidades de medição de determinada variável, de
maneira tal que possa realizar a análise estatística desejada.
Recomendações para a redação das perguntas
⇒ Não incluir jamais uma pergunta sem ter uma idéia clara da forma de utilizar a sua informação e quanto
contribuirá aos objetivos da pesquisa.
⇒ Utilizar vocabulário preciso para perguntar o que realmente se deseja saber. Evitar palavras confusas e
termos técnicos que não sejam do conhecimento da população a ser entrevistada.
⇒ Evitar duas perguntas em uma.
⇒ Facilitar a memória. Limitar as perguntas a um passo próximo e ajudar o entrevistado a retroceder no
tempo passo a passo, até recordar a informação que nos interessa.
⇒ Não obrigar a fazer cálculos. Por exemplo: Quantos pares de meias você compra no ano?
⇒ Não fazer perguntas embaraçosas. Por exemplo: De quantos em quantos dias você toma banho?
⇒ Não fazer uma pergunta que já contenha em si a resposta. Por exemplo: Vai ao parque pelo menos uma
vez?
⇒ As perguntas não devem estar direcionadas, nem refletir a posição do pesquisador em relação a
determinado assunto. Devem ser formuladas de tal forma que o entrevistado não se considere
pressionado a dar uma resposta que acredita ser a opinião do pesquisador.
Em geral, deve-se ter muito cuidado com a redação das perguntas.
Classificação das perguntas
⇒ Abertas: são as que permitem ao informante responder livremente, usando linguagem própria e emitir
opiniões.
Por exemplo: Qual é a sua ocupação principal?............................................
⇒ Fechadas: são aquelas que o informante escolhe a resposta entre duas ou mais opções. Por
exemplo: Sexo
(1) masculino (2) feminino
Aplicação dos Questionários
⇒ Contato direto: o próprio pesquisador, ou pessoas especialmente treinadas por ele, aplicam o
questionário diretamente. Dessa maneira, há menos possibilidades de os entrevistados não responderem
o questionário ou de deixarem algumas perguntas em branco. No contato direto o pesquisador pode
explicar e discutir os objetivos da pesquisa e do questionário, responder dúvidas que os entrevistados
tenham em certas perguntas. Utilizado em quase todo o segmento da população: alfabetizados,
analfabetos etc, pois é realizado pelo entrevistador.
⇒ Questionário por correio: o questionário e todas as instruções são enviadas pelo correio a pessoas
previamente escolhidas. Junto com o questionário deve-se enviar uma nota ou carta explicando a natureza
da pesquisa, sua importância e a necessidade de obter as respostas, tentando despertar o interesse do
recebedor, no sentido que ele preencha e devolva o questionário dentro de um prazo razoável. A aplicação
por correio permite incluir grande número de pessoas e pontos geográficos diferentes. Apresenta, porém,
várias desvantagens, tais como a baixa taxa de devolução e o viés nas respostas dos questionários, pois,
geralmente, os formulários são devolvidos pelas pessoas mais interessadas em colaborar.
8
Portanto a amostra não é aleatória, o que prejudica a análise dos resultados. O pesquisador que utilize
esse meio de aplicação deve usar questionários breves, perguntas fechadas e analisar as características
dos que responderam imediatamente, comparando-os com aqueles que responderam após insistência.
Isso permitirá controlar possíveis diferenças que possam afetar os resultados da pesquisa.
Apresentação de Dados em Tabelas
Apresentação tabular de dados é a representação das informações por intermédio de uma tabela.
Uma tabela é uma maneira bastante eficiente de mostrar os dados levantados o que facilita a
compreensão e interpretação dos dados.
Tabelas de Distribuição de Freqüências
As tabelas com grande número de dados são, cansativas e não dão ao pesquisador visão rápida e
global do fenômeno. Para isso, é preciso que os dados estejam organizados em uma tabela de distribuição
de freqüências. Utilizamos tabelas de freqüências para transformar coleções de dados brutos em sumários
organizados e compreensíveis As distribuições de freqüências são representações nas quais os valores da
variável se apresentam em correspondência com suas repetições, evitando assim, que eles apareçam
mais de uma vez na tabela. Por constituir-se no tipo de tabela mais importante para a estatística descritiva,
será apresentado um estudo completo das distribuições de freqüências. O objetivo do próximo capítulo é
apresentar métodos gráficos que nos permita visualizar facilmente a natureza da distribuição.
Distribuição de Freqüências
Introdução
Em anos recentes a coleção de dados estatísticos cresceu de tal forma que seria impossível
manter-nos atualizados, a menos que essas informações fossem difundidas em forma resumida. O método
mais comum de resumir dados consiste em apresentá-los em forma condensada de tabelas ou gráficos.
Os dados da Tabela 7.1 foram obtidos de 30 alunos submetidos ao Balke Treadmill Test. Este teste
é baseado no pressuposto de que quando, durante um exercício, os batimentos cardíacos atingem 180
batimentos por minuto (bpm), a capacidade cardiovascular foi alcançada, o teste consiste em fazer com
que o sujeito ande em uma esteira a velocidade constante, enquanto os batimentos são medidos a cada
minuto. Ao fim de 1 minuto, a inclinação da esteira é aumentada em 2%; ao fim de cada minuto sucessivo,
a inclinação da esteira é aumentada em 1%, até que os batimentos cardíacos atinjam 180 bpm. Balke
sugeriu o seguinte sistema de avaliação para o seu teste:
A partir desses dados desorganizados, é difícil ter visão rápida e global do fenômeno.
Obteríamos alguma informação a mais se colocássemos os dados segundo certa ordenação, mas isto
indicaria somente a amplitude de variação dos dados.
O procedimento mais satisfatório é organizar os dados em uma distribuição de freqüências, de
modo a mostrar a freqüência com que ocorrem certos intervalos. O propósito da construção de uma
distribuição de freqüências é tornar evidente o que há de essencial nos dados e permitir o uso de técnicas
analíticas para sua descrição. Com as tabelas de freqüências, podemos identificar a natureza geral da
distribuição dos dados, bem como construir gráficos que facilitem a visualização dessa distribuição.
Antes era vantajoso agrupar os dados antes de calcular várias medidas descritivas. Hoje, as
condições são outras, pois os cálculos necessários podem ser feitos em questão de segundos por um
9
computador ou uma calculadora. Contudo, alguns dados só são acessíveis em forma de distribuições de
freqüência.
Dados Brutos: são aqueles obtidos diretamente da pesquisa, isto é, que ainda não sofreram qualquer
processo de síntese ou análise. Em geral são apresentados em tabelas e freqüentemente omitidos na
maioria das publicações por questão de espaço. O conjunto de dados constitui uma amostra.
Rol: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou
decrescente.
Tabela de Freqüências ou Distribuição de Freqüências
Uma maneira de resumir os dados é através de distribuição de freqüências, que consiste na
construção de uma tabela a partir dos dados brutos em que se leva em conta a freqüência com que cada
observação ocorre.
As tabelas de freqüências podem representar tanto valores individuais como valores agrupados em
classes:
Distribuição de Freqüências de Dados Tabulados não Agrupados em Classes
Tabela onde os valores da variável aparecem individualmente. Este tipo de apresentação é
utilizado para representar uma variável discreta.
Observações:
xi corresponde os valores que a variável pode assumir;
fi representa as freqüências, ou seja, número de vezes que ocorrem as variáveis x1 , x2, ... ;
a soma de freqüências absolutas será igual ao total de observações (n).
Distribuição de Freqüências de Dados Tabulados Agrupados em Classes
Os valores observados não mais aparecerão individualmente, mas agrupados em classes.
Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar os valores
observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos
dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes.
Elementos de uma Distribuição de Freqüências
Para construir uma tabela de freqüências, é necessário conhecer alguns termos próprios, bem
como o procedimento técnico mais adequado. Esses termos serão listados a seguir:
10
Freqüência Simples Absoluta (fi )
É o número de repetições de um valor individual ou de uma classe de valores. A soma das
freqüências simples absolutas é chamada de freqüência total e corresponde ao número total de
observações.
Freqüência Simples Relativa (fri )
Representa a proporção de observações de um valor individual ou de uma classe, em relação ao
número total de observações. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da
classe ou do valor individual pelo número total de observações.
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100.
Freqüência Absoluta Acumulada “Abaixo de” (Fi ↓)
A freqüência absoluta acumulada “abaixo de” uma classe ou de um valor individual é a soma da
freqüência absoluta dessa classe ou desse valor com as freqüências simples absolutas das classes ou dos
valores anteriores. A expressão “abaixo de” refere-se ao fato de que as freqüências a serem acumuladas
correspondem aos valores menores ou anteriores ao valor ou à classe cuja freqüência acumulada se
deseja obter, incluindo no cálculo a freqüência do valor ou da classe.
Toda vez que se procura saber quantas observações existem até uma determinada classe ou valor
individual, recorre-se à freqüência acumulada “abaixo de”.
Freqüência Relativa Acumulada “Abaixo de”( Fri ↓)
A freqüência relativa acumulada da classe ou do valor individual é igual à soma da freqüência
simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes ou dos
valores anteriores.
Freqüência Absoluta Acumulada “Acima de” (Fi ↑ )
A freqüência absoluta acumulada “acima de” uma classe ou de um valor individual representa o
número de observações existentes além do valor ou da classe, incluindo no cálculo as observações
correspondentes a esse valor ou a essa classe. Para obter a freqüência absoluta acumulada (acima de),
basta somar à freqüência simples absoluta da classe ou do valor individual as freqüências absolutas das
classes ou dos valores individuais posteriores.
Freqüência Relativa Acumulada “Acima de” (Fri ↑)
A freqüência relativa acumulada “acima de” da classe ou do valor individual é igual à soma da
freqüência simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes
ou dos valores posteriores.
Amplitude Total (AT )
É a diferença entre o maior e o menor valor observado da variável em estudo.
11
Classes (K)
Classe de freqüência, ou, simplesmente classe, é cada um dos grupos de valores em que
se subdivide a amplitude total do conjunto de valores observados da variável.
O número de classes, em uma distribuição de freqüências, é representado por K. Embora existam
fórmulas apropriadas para esse fim, em geral, não se conhecem regras precisas que levam a uma decisão
final, a qual depende, em parte, de um julgamento pessoal. Se o número de classes for muito pequeno, é
comum acontecer que características importantes da variável, fiquem ocultas. Por outro lado, um número
elevado de classes, fornecerão maior número de detalhes, mas resumirão de forma menos precisa os
dados. Em geral, convém estabelecer de 5 a 20 classes.
Uma forma de se determinar um número razoável de classes K consiste em aplicar a fórmula de
Sturges. onde n é o número total de dados. O número de classes é um inteiro próximo de k. É importante
deixar claro, aqui, que o resultado obtido por esta fórmula pode ser usado como referência, mas cabe ao
pesquisador determinar o número de classes que pretende
organizar. Para entender como se aplica a fórmula, considere que o número de observações seja 500,
tem-se que,
k = 1 + 3,3. log (500)
k = 9,9 = 10
K = 1 + 3,3 log
Amplitude do Intervalo de Classe (c)
Definido o número de classes a ser utilizado, deve-se determinar o intervalo de classe
(c), ou seja, a amplitude de cada classe. Um caminho para isso é dado por:
c = AT / K
onde AT é a amplitude total dos dados, isto é, a diferença entre o maior e o menor valor observado.
Também aqui, é importante deixar claro que, o resultado obtido por esta fórmula será usado como
referência, mas cabe ao pesquisador determinar o intervalo de classe exato.
Limites de Classes
Denomina-se limites de classe os extremos dos intervalos de classe. O menor número é o limite
inferior (li) e o maior é o limite superior (Ls).
Ponto Médio (xi )
Em uma distribuição de freqüência também podem ser apresentados os pontos médios de classe
(xi). O ponto médio é dado pela soma dos limites de classe, dividido por 2.
As tabelas de distribuição de freqüências mostram a distribuição da variável, mas perdem em
exatidão. Isso porque todos os dados passam a ser representados pelo ponto médio da classe a que
pertencem.
Exercícios de estatística – Tabela de freqüências e gráficos
1. Em um estudo sobre instituições de atendimento hospitalar, foram obtidos dados da
disponibilidade de leitos de 50 dessas instituições.
Organize os dados em Rol, construa a tabela de freqüências dividindo os dados em classes e
calcular:
a) a freqüência
b) a média de classe
c) a freqüência relativa
d) a freqüência acumulada
e) a freqüência acumulada relativa
f) a média aritmética ponderada
g) Construa um gráfico de setor
h) construa um histograma
12
2. As medidas em negrito representam a altura em cm de um grupo de crianças do 3º ano do ensino
fundamental.
Organize os dados em Rol, construa a tabela de freqüências dividindo os dados em classes e calcular:
a) a freqüência
b) a média de classe
c) a freqüência relativa
d) a freqüência acumulada
e) a freqüência acumulada relativa
f) a média aritmética ponderada
g) Construa um gráfico de setor
h) construa um histograma
3. Complete a tabela abaixo e construa os gráficos
4. Complete a tabela abaixo e construa os gráficos
13
MEDIDAS DE DISPERSÃO
Vimos que a moda, a mediana e a média podem ser usadas para resumir, num único número,
aquilo que é “médio” ou “típico” numa distribuição. Quando empregada sozinha, entretanto, qualquer
medida de tendência central fornece apenas uma visão incompleta de um conjunto de dados e, portanto,
pode confundir ou distorcer tanto quanto esclarecer.
Com vistas a esclarecer essa idéia, admita a seguinte situação: Suponha que, numa particular
cidade, tanto ladrões quanto professores secundários tenham uma renda média anual de R$ 18.000,00.
Será que essa informação indica que as duas distribuições de renda são necessariamente semelhantes?
Muito ao contrário, poder-se-ia descobrir que elas diferem – e muito – num outro aspecto importante, qual
seja, o fato de as rendas dos professores concentrarem-se ao redor de R$ 18.000,00, enquanto que as
dos ladrões espalham-se mais, o que reflete, portanto, maiores oportunidades para prisões, desemprego,
pobreza e, em alguns casos, fortunas excepcionais.
Tal fato indica que necessitamos, além de uma medida de tendência central, de um índice que
indique o grau de dispersão dos escores em torno do centro da distribuição (isto é, em torno da média).
Numa palavra, precisamos de uma medida indicativa do que costumeiramente se chama variabilidade
(também designada como variação ou dispersão). No exemplo anterior podemos dizer que a distribuição
de rendas entre professores apresenta menos variabilidade do que a distribuição de rendas entre ladrões.
As medidas de variabilidade mais conhecidas são: amplitude total, desvio médio e desvio padrão.
1. Amplitude total: A amplitude total é uma medida de variabilidade rápida (cômoda), embora não muito
exata. Como já vimos, a amplitude total é dada pela diferença entre o maior e o menor escore (valor) da
distribuição.
A vantagem da amplitude total – cálculo rápido e fácil – constitui-se também sua mais importante
desvantagem. Por outras palavras, a amplitude total é inteiramente dependente de apenas dois escores: o
maior e o menor num dado conjunto de valores. Como resultado, a amplitude total fornece, via de regra,
um mero índice grosseiro da variabilidade de uma distribuição.
Por exemplo: considere os dois conjuntos de dados:
1) 2 – 6 – 7 – 7 – 10 – 12 – 13 – 100 (At = 100 – 2 = 98)
2) 2 – 6 – 7 – 7 – 10 – 12 – 13 – 24 (At = 24 – 2 = 22)
A simples troca de um único valor (14 em lugar do 100), fez com que a amplitude total flutuasse
bruscamente de 98 para 12. Qualquer medida que seja tão afetada pelo escore de um único respondente
(ou por um único valor da variável) não pode, por certo, fornecer uma idéia precisa quanto à variabilidade:
quando muito, é possível considerá-la como um índice preliminar ou, até, pouco exato.
2. Desvio médio: O desvio é definido como sendo a distância entre qualquer escore bruto e a média da
distribuição. Para se calcular os desvios, basta subtrair a média (aritmética) de qualquer escore bruto:
x  (Xi  X )
No primeiro dos conjuntos de dados acima, temos:
média aritmética: X 
2  6  7  7  10  12  13  100 157

 19,6
8
8
Calculando os desvios de cada um desses dados temos:
2 - 19,6   17,6
6 - 19,6  13,6
7 - 19,6  12,6
10 - 19,6   9,6
12 - 19,6  7,6
13 - 19,6   6,6
100 - 19,6  80,4
Observe que, pelo fato de os dados serem tão dispersos, a média não é representativa dos dados e,
conseqüentemente, quase todos os desvios deram negativos.
Já no segundo conjunto temos:
média aritmética: X 
2  6  7  7  10  12  13  24 81

 10,1
8
8
14
Calculando os desvios:
2 - 10,1  8,1
6 - 10,1  4,1
7 - 10,1  3,1
10 - 10,1  0,1
12 - 10,1  1,9
13 - 10,1  2,9
24 - 10,1  13,9
Neste caso, como não há dispersão dos dados e a média é representativa, há cinco (há dois valores 7)
desvios negativos e três desvios positivos.
Se desejarmos obter uma medida de variabilidade que leve em conta todos os escores da
distribuição (e não apenas dois como no exemplo 1), poderemos tomar o valor absoluto de cada
discrepância (isto é, das distâncias em relação à média), somar esses valores e, então, dividir o total pelo
número de escores. O resultado será o desvio médio.
DM 
x
N
onde:
DM – desvio médio
 |x| - soma dos valores absolutos das discrepâncias (ou seja, soma das discrepâncias sem considerar-se
a presença dos sinais + e -).
N – total de escores (ou de sujeitos, correspondentes ou dados).
No exemplo (1) anterior, desconsideramos o sinal negativo e fazemos as somas dos desvios, dividindo o
total por 8:
DM 
17,6  13,6  12,6  12,6  9,6  7,6  6,6  80,4 160,6

 20,1
8
8
No exemplo temos:
DM 
8,1  4,1  3,1  3,1  0,1  1,9  2,9  13,9 37,2

 3,4
8
8
Observe que o desvio médio tende a se tornar maior quando há maior variabilidade dos dados. No
exemplo 1, o desvio médio deu 20,1 o que indica uma grande variabilidade dos dados em torno da média;
já no exemplo dois, a variabilidade é menor, indicando que há pouca dispersão dos dados.
Para um melhor entendimento dessas informações, considere os dados da tabela, mostrando os
salários dos funcionários de 3 empresas, cuja média é R$ 340,00:
Empresa A
Salário
(R$)
340
340
340
340
340
340
340
|x|
0
0
0
0
0
0
0
Empresa B
Salário
(R$)
391
374
357
340
323
306
289
 |x| = 0
X = 340
AT = 0
DM = 0
Nenhuma
variabilidade
|x|
51
34
17
0
17
34
51
 |x| = 204
X = 340
AT = 102
DM = 29,14
Pouca
variabilidade
Empresa C
Salário
|x|
(R$)
595
255
510
170
425
85
340
0
255
85
170
170
85
255
 |x| = 1.020
X = 340
AT = 510
DM = 145,71
Muita
variabilidade
3. Desvio padrão: A maioria dos pesquisadores, no entanto, prefere utilizar um outro tipo de medida de
dispersão: é o desvio padrão.
Vimos que o desvio médio evita o problema de números negativos, o que foi conseguido graças à
convenção de ignorarem-se os sinais + e -, somando, em seguida, os valores absolutos dos desvios com
15
relação à média. Tal procedimento para a criação de uma medida de variabilidade tem a nítida
desvantagem de impedir que esses valores absolutos sejam sempre úteis em análises estatísticas mais
avançadas (pois eles não comportam facilmente manipulações algébricas).
Para superar esse problema e obter uma medida de variabilidade que seja mais conveniente (isto
é, ajustada, “usável”) em procedimentos estatísticos avançados, podemos elevar ao quadrado as
discrepâncias reais (com os respectivos sinais) e somá-las a seguir ( x2 ). Esse procedimento permite
fugir à influência dos sinais, já que o quadrado de qualquer número é sempre positivo.
Após termos somado os quadrados das discrepâncias, podemos dividir o total por N, a fim de
garantir uma equilibração desse resultado (total) relativamente a todos os escores envolvidos. O valor que
se obtém dessa operação é conhecido pelo nome de média quadrática.
Como conseqüência direta do fato de termos elevado as discrepâncias ao quadrado, a unidade de
medida sofreu uma alteração, o que dificulta a interpretação do resultado. Com vistas a voltar à unidade de
medida original, extraímos a raiz quadrada da média quadrática, resultando o que se denomina desvio
padrão, representado pela letra grega  (sigma) minúscula:
DP 
x
2
N
onde:
DP: é o desvio padrão
 x2 : soma das discrepâncias ao quadrado
N: total de escores da distribuição
Essa é a fórmula que permite calcular o desvio padrão de dados isolados. No entanto, você deve estar se
perguntando: mas quase sempre trabalhamos com dados agrupados. Como calcular então o desvio
padrão? Lançamos mão da seguinte fórmula:
DP 
fx
f
i
2
i
X
2
i
onde:
DP: desvio padrão
 fi xi 2: produto da freqüência da classe pelo quadrado do ponto médio
 fi (ou N): número total de escores ou somatória das freqüências
2
X : quadrado da média (aritmética).
Vejamos passo a passo a utilização dessa fórmula:
Considere a seguinte distribuição de freqüência:
1º passo: Calcula-se o ponto médio da classe e multiplica-o
pela freqüência:
Intervalos de classe
17 – 19
14 – 16
11 – 13
8 – 10
5–7
2-4
fi
1
2
3
5
4
2
 fi = 17
xi
18
15
12
9
6
3
fi xi
18
30
36
45
24
6
 fi xi = 159
2º passo: multiplicar cada ponto médio por fi xi para se determinar
16
Intervalos de classe
17 – 19
14 – 16
11 – 13
8 – 10
5–7
2-4
fi xi 2.
fi
1
2
3
5
4
2
 fi = 17
Intervalos de classe
17 – 19
14 – 16
11 – 13
8 – 10
5–7
2-4
fi
1
2
3
5
4
2
 fi = 17
xi
18
15
12
9
6
3
fi xi
18
30
36
45
24
6
 fi xi = 159
fi xi 2
324
450
432
405
144
18
 fi xi 2= 1 773
3ª passo: Calcular a média aritmética elevá-la ao quadrado:
X=
fx
f
i i
=
i
159
= 9,35
17
9,352 = 87,42
4º passo: aplicar os dados na fórmula:
DP 
fx
f
i i
i

1773
- 87,42  4,11
17
Qual é o significado do desvio padrão?
Você com certeza deve estar se perguntando qual o significado de um desvio padrão. Se o desvio
padrão numa distribuição é igual a 4 e, em outra, igual a 2, isso indica que a primeira distribuição tem
maior variabilidade que a segunda.
O desvio padrão é um número que representa a “variabilidade média” de uma distribuição, já que
ele mede a média das discrepâncias (desvios) em relação à média aritmética. Ele representa uma unidade
de medida.
Por exemplo, se você quer calcular a distância de sua carteira à lousa, você pode utilizar como
unidade de medida o metro ou o centímetro. Mas como medir a extensão da linha de base de uma curva
de freqüências, onde estejam registrados os escores de um grupo de dados? Que método usar para
encontrar a distância entre qualquer escore bruto e a média de distribuição – método padronizado que nos
possibilitasse fazer comparações entre escores brutos da mesma distribuição ou entre escores de
distribuições diferentes? Como comparar a nota 8,5 de uma prova de matemática com a nota 8,0 de uma
prova de português? Qual dessas notas realmente é a mais alta?
O desvio padrão pode ser considerada a unidade de medida para esse tipo de comparação.
Podemos medir a linha de base de uma curva de freqüência em unidades de desvio padrão (isto é, em
unidades “sigma”).
Por exemplo, considere uma curva de freqüência de média igual a 8,0 e desvio padrão igual a 5.
Nessa curva, um escore 85, por exemplo, fica exatamente a um desvio padrão acima da média (80
+ 5 = 85), o que equivale dizer que 85 dista da média + 1 . Já o escore 75 dista – 1  da média.
Nesse exemplo, a amplitude total (95 – 65 = 30) dá uma visão ‘grosseira’ da extensão da base da
curva, mas não serve para localizar, com eficácia, um escore particular com relação à média. Enquanto a
amplitude total é calculada apenas com dois valores (escores), o desvio padrão é calculado com todos os
valores da distribuição.
A desvantagem do cálculo do desvio padrão está em sua dificuldade e demora. No entanto, com a
tecnologia (máquinas de calcular avançadas e computadores) tem facilitado esse tipo de cálculo.
O desvio padrão é uma medida de variabilidade confiável, de nível intervalar, que pode ser utilizada
em operações estatísticas avançadas, descritivas ou inferenciais.
17
COEFICIENTE DE VARIAÇÃO
O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades
pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média
for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma
unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores,
relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade
dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação
(CV):
CV 
DP
100
X
onde: S: desvio padrão e X é a média.
18
Download