medidas de posição - EAD

Propaganda
Estatística Descritiva
Profª Maria Eliane
MEDIDAS DE POSIÇÃO
CONCEITO
São medidas denominadas de estatísticas, que dão uma idéia condensada
de todo o conjunto de dados. Também são conhecidas como medidas de
localização, e em conjunto com as medidas de dispersão formam as
medidas resumo.
UTILIDADE
Fornecer uma descrição resumida sobre o comportamento de um
determinado fenômeno; caracterizar um grupo como um todo, através de
um valor único.
Ex.: Quanto é o gasto médio mensal da família brasileira com alimentação?
Qual o tipo sangüíbneo mais comum?
Qual o valor que divide um lote de produtos, em produtos de qualidade
superior e de qualidade inferior?
TIPOS
Abordaremos os aspectos mais importantes de seis medidas de posição,
para dados isolados. Essas medidas são:
Média
Mediana
Moda
•
Quartil
•
Decil
•
Percentil
Medidas de Tendência Central:
assim chamadas porque estão no
valor central de um conjunto de
dados ordenado, ou o mais próximo
dele.
Separatrizes: assim chamadas porque
separam, dividem um conjunto de dados
ordenado em partes percentuais iguais.
Medidas de Tendência Central para Dados Isolados (dados que não estão em intervalos ou faixas)
1. Média
É o valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez
de variável ela fosse constante. A média torna todos os valores de um conjunto de dados iguais a um
único valor, que é resultante da operação de cálculo.
Existem vários tipos de médias: aritmética, geométrica e harmônica. Estudaremos a média aritmética
simples.
Média Aritmética: é o resultado da soma de todos os valores dos dados dividido pelo número de dados.
É a mais utilizada e geralmente quando se menciona o termo média, refere-se à aritmética.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
46
Estatística Descritiva
Profª Maria Eliane
n
x=
O modelo de cálculo da média amostral é dado por:
∑x
i =1
i
n
Onde,
Σxi= somatório dos valores de xi
i = índice que varia de 1 a n elementos da amostra ou
n= tamanho da amostra em estudo.
Exemplo→
→ a pesagem individual de uma amostra dos componentes de um grupo de macacos (adultos)
em uma área de proteção ambiental (APA), apresentou os seguintes valores em quilograma:
5
6
4
5
7
8
A amostra tem 6 elementos (seis macacos), então n=6. Significa que i= macaco 1, 2, 3, 4, 5 e 6 ou seja,
x= peso em Kg de macacos adultos é a variável a ser conhecida, será representada individualmente pelo
peso de cada macaco da amostra (x1
x2
x3
x4
x5
e
x6). Desse modo,
5
x1
6
x2
4
x3
5
x4
7
x5
8
x6
6
Colocando os valores no modelo de cálculo da média temos x =
x=
∑x
i =1
i
6
x1 + x2 + x3 + x4 + x5 + x6 5 + 6 + 4 + 5 + 7 + 8 35
=
=
= 5,83Kg
6
6
6
Significa que o grupo de macacos da APA pesam em média 5,83Kg. Todos os macacos terão esse valor
para representar o seu peso.
Verifique que, ao ordenar os dados de forma crescente, o valor da média encontrada estará no centro dos
valores do conjunto de dados. Por esse motivo a média é uma medida chamada de tendência central:
4
5
5
5,83
Centro
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
6
7
8
47
Estatística Descritiva
Profª Maria Eliane
Mas é preciso ter cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a influência de
valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz com que haja
uma distorção nos resultados. Falaremos desse assunto após conhecermos as outras medidas de
tendência central.
2. Mediana
É o valor central dos valores ordenados (de forma crescente ou decrescente), que estabelece um limite
que separa os dados em metade superior (50%) e metade inferior a ele (50%). É simbolizado pela sigla
x.
Me ou por ~
Mediana
Valor mínimo
Valor máximo
50%
50%
50% dos valores do conjunto de dados estão abaixo do valor da Me
50% dos valores do conjunto de dados estão acima do valor da Me
Exemplo:
3
4
5
6
7
↑é o valor mediano desse conjunto de dados, observe que está no centro.
Por isso é uma medida de tendência central.
Para encontrar a posição do elemento mediano em um conjunto de dados com número ímpar de
elementos usamos o seguinte modelo matemático:
PEMe =
n +1
2
Onde PEMe = Posição do Elemento Mediano
n= número de elementos que compõem o conjunto de dados (população ou amostra)
Exemplo: suponha que a amostra do grupo de macacos pesquisado na APA, fosse de 5 elementos. O
elemento que será o peso mediano é:
PEMe =
n +1 5+1 6
=
= = 3 a posição ,
2
2
2
com os pesos ordenados de forma crescente:
4
5
5
6
7
↑esta é a 3ª posição
Portanto, o peso mediano desse grupo de maçados é de 5Kg. Significa que 50% dos macacos do grupo
possuem peso igual ou abaixo de 5Kg, e 50% dos macacos do grupo possuem peso acima de 5Kg.
Se não fosse utilizado o fator de correção +1, a posição do elemento seria: 5/2= 2,5aposição. Observe
que para esta posição o valor do elemento estaria deslocado do centro do conjunto de dados, não iria
representar uma divisão exatamente ao meio com 50% para cada lado em relação ao valor.
Observe que o cálculo feito apenas encontra a posição do elemento mediano, e não o seu valor. O valor
é encontrado por meio da visualização do conjunto ordenado, onde identificamos qual é o valor que está
na posição encontrada no cálculo. Cuidado para não confundir a posição com o valor do dado mediano.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
48
Estatística Descritiva
Profª Maria Eliane
Para encontrar a posição do elemento mediano em um conjunto de dados com número par de
elementos usamos o mesmo modelo matemático. Assim, considerando a amostra do peso de seis
macacos:
PEMe =
n +1 6+1 7
=
= = 3,5 a posição. O valor do peso mediano está entre a 3ª e a 4ª posição
2
2
2
com os pesos ordenados de forma crescente:
4
5
5
↑
3ª
6
↑
4ª
7
8
O valor da mediana corresponderá à média aritmética entre os valores encontrados nas posições:
5 + 6 11
Me =
=
= 5,5 Kg .
2
2
3. Moda
É o valor que apresenta a maior frequência no fenômeno estudado. É a única medida de tendência
central que pode ser aplicada a todos os níveis de medida (nominal, ordinal, intervalar e racional). É
r
simbolizado pela sigla Mo ou por x .
Exemplo→ para a amostra do peso de seis macacos:
4
5
5
6
7
8
O peso modal é 5Kg, porque é o peso que aparece com maior freqüência (2 vezes). O conjunto de dados
com uma única moda é chamado de UNIMODAL.
Numa série ou conjunto de dados pode ocorrer que:
• A moda seja dois números:
4
5
5
6
6
7
8
, Mo= 5 e 6
• A moda seja mais de números:
4
5
5
6
6
7
7
8
, Mo= 5; 6 e 7 (MULTIMODAL)
• Não existir valor modal: 4
5
6
7
8
, (AMODAL)
(BIMODAL)
A moda (para dados isolados) é estimada pela simples inspeção dos dados, observando-se qual o valor
onde há maior número de freqüência. Não há cálculo.
Observe que o valor modal tende a ser um número central ou o mais próximo do centro do conjunto de
dados, por isso a moda também é uma medida de tendência central.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
49
Estatística Descritiva
Profª Maria Eliane
Cuidado ao utilizar a média
Voltemos a falar sobre o cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a
influência de valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz
com que haja uma distorção nos resultados.
Para ilustrar, suponha um estudo realizado em três regiões geográficas diferentes, para estimar o número
de uma espécie de pássaro. Em cada região foram selecionadas cinco áreas, onde o número de pássaros
foi contado, obtendo-se os seguintes resultados:
Medidas de Tendência central
Média Mediana Moda
Região
Área 1
Área 2
Área 3
Área 4
Área 5
A
1
1
2
3
3
2
2
1e3
B
1
2
2
3
4
2,4
2
2
C
1
2
3
3
31
8
3
3
Observe que o valor da média de pássaros da região C ( x = 8) foi muito influenciada pelo valor da
contagem da área 5 (n=31), que é bem maior que os demais valores do conjunto de dados dessa região.
A idéia que esse resultado passa é que em toda a região C o número de pássaros é maior que nas demais
regiões, o que não é verdade porque apenas uma área da região C apresentou alta contagem de número
de pássaros.
Quando em uma amostra ou dado da pesquisa encontramos um valor muito elevado ou muito pequeno
em relação aos demais valores do conjunto de dados estudados, dizemos que é um valor discrepante,
também chamado de valor extremo ou outlier. É o que ilustra bem o valor n=31 da área 5 em relação
aos demais valores de contagens de pássaro das outras áreas da região C. E para todo o conjunto das
regiões, este valor também é valor extremo.
Sobre cuidados ao utilizar e interpretar as medidas de tendência central (média, mediana e moda), leia a
crítica de Ubaldo Ribeiro no texto complementar da p.54.
SEPARATRIZES
Existem diversas situações nas quais o interesse principal é a posição relativa de um elemento no grupo,
e não o desempenho do grupo como um todo. A interpretação de um resultado isoladamente é
impossível, sendo necessário indicar a posição específica que um determinado resultado ocupa no grupo
através de medidas que possibilita interpretar o seu significado.
Essas medidas são denominadas de separatrizes, pois separam a distribuição em partes percentualmente
iguais. As mais utilizadas são:
Quartil: divide o conjunto de dados ordenados em 4 partes iguais, de 25% cada parte . Os valores são
identificados por Q1 (25% dos dados estão abaixo do valor do 1ºquartil); Q2 (50% dos dados estão
abaixo do valor do 2ºquartil, observe que o Q2 é a mediana) e Q3 (75% dos dados estão abaixo do valor
do 3ºquartil). Não existe Q4.
Q1
25%
Q2
25%
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
Q3
25%
25%
50
Estatística Descritiva
Profª Maria Eliane
Para o cálculo da posição do Quartil: PEQ i =
i×n
4
Onde, i = quartil que se deseja obter (i=1,2,3)
n = quantidade de elementos observados, ou
tamanho da amostra
Decil: divide o conjunto de dados ordenados em 10 partes iguais, cada parte com 10% dos valores do
conjunto de dados. Os valores são identificados por D1, D2, D3,..., D9. Não existe D10.
D1
10%
D2
10%
D3
10%
Para a posição do Decil: PEDi =
D4
10%
i ⋅n
10
10%
D5
10%
D6
D7
10%
10%
D8
10%
D9
10%
Onde, i = decil que se deseja obter (i=1,2,3,...,9)
Centil ou Percentil: divide o conjunto de dados ordenados em 100 partes iguais, cada parte com 1%
dos valores do conjunto de dados. Os valores são identificados por P1, P2, P3,..., P99.
Para a posição do percentil: PEPi =
i ⋅n
100
Onde, i = centil que se deseja obter (i=1,2,3,...,99)
Exemplo de uso das separatrizes: suponha que um entomologista selecionou 50 exemplares de uma
espécie de inseto, de mesma ninhada e período de eclosão dos ovos. Submeteu os insetos às mesmas
condições ambientais e nutricionais, para estimar o tempo de vida (longevidade) da espécie. Ao final do
experimento, o pesquisador obteve os seguintes dados de longevidade (em dias de sobrevivência para
cada exemplar).
16
22
27
36
45
17
23
27
36
46
18
23
28
37
47
18
24
29
38
50
18
24
30
38
52
20
25
31
41
53
20
25
31
42
59
21
26
33
42
61
21
26
33
43
65
21
27
34
45
70
Determinando-se o 1º e 3º quartis:
1 x 50
PEQ 1 =
= 12,5ª posição , o valor está entre os valores da 12ª e 13ª posição dos elementos
4
ordenados de forma crescente (23 e 23 respectivamente). Assim, Q1= 23 dias.
Significa que 25% dos insetos tiveram um tempo de vida igual ou menor que 23 dias, e 75% período de
vida igual ou maior que 23 dias.
3 x 50
= 37,5ª posição , o valor está entre os valores da 37ª e 38ª posição dos elementos
4
ordenados de forma crescente (42 e 42 respectivamente). Assim, Q3= 42 dias.
PEQ 3 =
Significa que 75% dos insetos tiveram um tempo de vida igual ou menor que 42 dias, e 25% período de
vida igual ou maior que 23 dias.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
51
Estatística Descritiva
Profª Maria Eliane
Construindo um intervalo com estes valores observamos:
Q1=23
25%
25%
Q3=42
25%
25%
Entre 23 e 42 dias é o período de tempo que viveram 50% dos insetos, excluindo-se 25% dos menores
períodos e 25% dos maiores períodos de longevidade.
Outros exemplos de uso das separatrizes
Exemplo 1
É muito comum o uso das separatrizes na área da Economia, principalmente em estudos de séries de
tempo, pois o fracionamento percentual dos dados facilita observar se houve mobilidade ou
permanência de valores de um fenômeno econômico.
Rendimento Real Trimestral Máximo e Mínimo dos Ocupados e dos Assalariados no Trabalho Principal (1)
Região Metropolitana de Salvador
2010
Rendimento Real Trimestral
Ocupados (2)
Trimestres
10% Mais
Pobres
Ganham Até
25% Mais
Pobres
Ganham Até
50% Mais
25% Mais
10% Mais
Pobres
Ricos Ganham Ricos Ganham
Ganham Até
Acima de
Acima de
Assalariados (3)
10% Mais
Pobres
Ganham Até
25% Mais
Pobres
Ganham Até
50% Mais
Pobres
Ganham Até
Jan-2010
314
492
677
1.256
2.161
492
534
785
Fev
312
528
680
1.177
2.123
492
534
780
Mar
311
529
680
1.244
2.223
529
534
777
Abr
310
525
676
1.210
2.274
525
530
743
Mai
309
523
694
1.230
2.384
523
528
747
Jun
308
522
699
1.230
2.370
522
525
771
Jul
308
523
718
1.237
2.389
523
526
783
Ago
309
526
718
1.237
2.268
524
526
809
Set
308
525
719
1.238
2.272
525
526
805
Out
308
523
703
1.237
2.160
523
525
801
Nov
305
519
712
1.231
2.257
519
526
814
Dez
304
518
711
1.231
2.298
517
528
812
Fonte: PED-RMS – Convênio SEI, Setre, Dieese, Seade, MTE/FAT.
(1) Inflator utilizado: IPC - SEI; valores em reais de janeiro de 2011.
(2) Excluem os assalariados e os empregados domésticos assalariados que não tiveram remuneração no mês, os trabalhadores familiares sem
remuneração salarial e os trabalhadores que ganharam exclusivamente em espécie ou benefício.
(3) Excluem os assalariados que não tiveram remuneração no mês.
25% Mais
10% Mais
Ricos Ganham Ricos Ganham
Acima de
Acima de
1.323
1.270
1.258
1.248
1.253
1.302
1.345
1.363
1.358
1.340
1.334
1.339
2.390
2.329
2.420
2.409
2.395
2.389
2.563
2.466
2.479
2.377
2.383
2.441
Os 10% mais pobres é o D1
Os 10% mais ricos é o D9
Os 25% mais pobres é o Q1
Os 25% mais ricos é o Q3
Os 50% mais pobres é o Q2 , é a mediana.
Observe que houve pouca mobilidade econômica para os trabalhadores. A melhoria salarial não é
significativa, pois a tendência revela decrescimento, ou seja perda de rendimentos.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
52
Estatística Descritiva
Profª Maria Eliane
Exemplo 2
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
53
Estatística Descritiva
Profª Maria Eliane
QUAL MEDIDA DE POSIÇÃO USAR ?
A decisão sobre qual medida empregar envolve a consideração de uma série de fatores:
•
nível de mensuração (se a variável é qualitativa ou quantitativa);
•
formas de distribuição (simétrica, assimétrica ou uniforme);
•
exatidão requerida (uma medida central mais exata ou mais empírica);
•
estabilidade da medida;
•
manipulação subseqüente (se os resultados servirão para outros cálculos e para inferência);
•
objetivo da pesquisa (apurar os resultados de forma mais sofisticada ou comunicá-los de forma mais
simples).
A média é preferível especialmente em distribuições aproximadamente simétricas, devido à sua maior
estabilidade e à manipulações estatísticas posteriores.
A mediana é mais apropriada quando a assimetria é acentuada; os valores (limites) extremos da primeira
e última classes não são definidos, e quando o nível de mensuração é ordinal.
A moda é empregada em situações em que uma estimativa rápida e grosseira da medida central é
suficiente; os dados atingem apenas o nível nominal ou o caso típico é desejado.
Além dessas regras, deve-se examinar cada distribuição de dados e o objetivo específico do estudo. O
ideal não é optar entre as medidas, mas usá-las todas, quando o nível de mensuração permite, pois cada
uma fornece uma visão parcial dos dados e elas se complementam umas às outras.
BIBLIOGRAFIA CONSULTADA:
AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998, p.139-80.
BUNCHAFT, Guenia. Estatística sem mistério. Petropólis, RJ: Vozes, 1998, p.107-53.
FRANCISCO, Valter de. Estatística. São Paulo: Atlas, 1982, p.20-28.
PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990, p.73120.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
54
Estatística Descritiva
Profª Maria Eliane
Texto complementar
Artigo do jornal "O Estado de São Paulo" de 28/09/2008
Domingo, 28 de setembro de 2008
João Ubaldo Ribeiro
NÃO SOMOS TODOS BURROS
"Às vezes fico meio sem jeito para tratar de certos assuntos aqui, achando que vou chover no
molhado ou repetir coisas que todo mundo sabe. Mas, em outras ocasiões, me bate sensação oposta, a de
que a maioria não sabe. Hoje, por exemplo. Fico lendo os jornais, ouvindo comentários e sendo alvejado
por declarações pomposas não contestadas por ninguém e penso que de fato conseguiram fazer um
Brasil virtual, distinto do real. Aí corro o risco de provocar tédio nos que de fato já sabem como somos
tapeados, e pouca serventia virá a ter a coluna de hoje. Mas faz parte, vamos lá.
Fala-se muito mal da Estatística. De um lado, constitui grande injustiça para com uma ciência
sem a qual hoje talvez nem sobrevivêssemos direito. De outro, trata-se da compreensível reação contra a
maneira pela qual a Estatística é usada e abusada para "provar" o duvidoso e manipular a chamada
realidade objetiva. Compreendo o sujeito que disse, como já lembrei aqui antes, que a Estatística é a arte
de mentir com precisão, porque de fato o seu uso inescrupuloso e falsário equivale a isso.
Começo lembrando a famosa média. Em grande parte dos casos em que ela é empregada em
indicadores sociais e econômicos, não quer dizer nada, ou melhor, quer dizer muito pouco. Se Bill Gates
passasse a ser residente da cidade de Itaparica, teríamos talvez a renda per capita mais alta do planeta
ou com certeza uma das mais altas, sem que um itaparicano sequer passasse a ganhar mais um centavo.
Isso porque a renda per capita é uma média aritmética e, por conseguinte, sensível em excesso aos
valores extremos. Então, numa população em que um ganha por mês um milhão de borodongas e os
outros cinco borodongas cada, falar em renda per capita é ridículo.
Precisamos, portanto, saber da mediana. Talvez por às vezes revelar-se incomodativa, não é
muito mencionada, notadamente em estatísticas oficiais. A mediana dá mais peso e significado à média.
É o valor que se encontra exatamente no meio dessa coletividade. Ou seja, não é bastante saber que a
renda média é 1.000. É preciso saber também (estou simplificando e peço desculpas a estatísticos e
matemáticos em geral) o valor que divide esses indivíduos pela metade, ou seja, o ponto em relação ao
qual exatamente a metade ganha menos e a metade ganha mais. Quando a média é próxima da mediana,
isso significa que a distribuição é mais ou menos simétrica. Quando não, a distribuição é tortinha. Logo,
a mediana pode, por exemplo, desmoralizar a renda per capita, se demonstrar que metade da população
ganha muito abaixo desta e a outra metade muito acima. Mas ninguém fala na mediana.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
55
Estatística Descritiva
Profª Maria Eliane
Também tem, desculpem, a moda. Não a moda fora da qual estou, mas a moda estatística
mesmo, ou seja, o valor mais freqüente, o que mais ocorre numa população determinada. Assim, se a
renda média dos habitantes da próspera comunidade de Lulalápolis, é R$ 1.000 por mês, mas a mediana
é 100 e/ou a moda é oitentinha, já vemos bem como podemos (e somos) ser engabelados. É por isso que
até a Bethânia, que não é de sair por aí falando ou fazendo manifestações, se revelou na imprensa um
pouco irritada com esse país maravilhoso (virtual, estatisticamente siliconado, digo eu) a que ela não
consegue chegar.
Também convivemos acriticamente com uma porção de chutes que desonram e desmerecem a
Estatística, tais como a conversão de coexistência numa relação de causa e efeito. É como o torcedor do
Flamengo achar que a causa da vitória do time dele foi ter entrado um urubu em campo, logo antes do
jogo. Não vamos discutir com torcedor, tudo bem. Mas coisas boas que acontecem são vinculadas a
outras de maneira absolutamente arbitrária e aí, em propaganda comercial por exemplo, para esquecer
um pouco a política, acabamos acreditando em afirmações que não passam de reformulações de
vigarices como "todos os que morreram de enfarte do miocárdio no ano passado faziam uso de água".
Verdade, mas claro que não prova que tomar banho faz mal ao coração. Com espertas artes, porém, nos
enrolam muito nessa linha.
E as categorias? O sujeito enche a boca e diz: "Depois de tantos anos de meu governo, o número
de ricos cresceu em 20% e o de pobres diminuiu em 32%." Além dos probleminhas de média, mediana e
moda, que sempre estão rondando, é muito fácil (e é isso que se faz) dizer que rico é quem ganha mais
de R$2.000 por mês. Fico até admirado por não haverem proposto R$ 1.500, porque o número de ricos
ia bombar. Até a felicidade é quantificada e lemos a sério, como parvos, que o povo tal tem o maior
índice de felicidade do mundo ou semelhantes despautérios.
E a coleta dos dados? Desde antes da definição das categorias e das perguntas, desde o início do
planejamento, um dos maiores problemas que o estatístico sério encontra é a feitura de uma coleta de
dados "neutra", que não influencie as respostas. Em rigor, impossível, porque até condições
meteorológicas podem influir nas respostas. As próprias perguntas podem induzir a determinado tipo de
resposta. A roupa, o sexo, a idade, o sotaque, o local, a época, a hora, as palavras e expressões usadas, a
ordem das perguntas, o tamanho do questionário, e centenas de outros fatores podem, mesmo nas
pesquisas mais honestas e cientificamente orientadas, levar à distorção de resultados. Há até, em
confusão com esses e outros fatores, o perigo de o entrevistado querer responder o que acredita que se
espera dele e não o que de fato pensa.
Há muito mais, um dia desses falo mais. Enche mesmo o saco nos tratarem como a uma tropa de
burros, que não somos. Somos, sim, otários, comodistas, coniventes e subservientes, mas isso já é outro
problema."■
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
56
Estatística Descritiva
Profª Maria Eliane
MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE
Em nosso estudo sobre as medidas de posição observamos que é preciso tomar cuidado com o
uso da média e sua interpretação, pois como é influenciada por valores extremos esconderá muitos
aspectos métricos sobre o conjunto de dados. Observemos mais um exemplo, para entendermos porque
a média necessita de outras medidas estatísticas que auxiliem em seu uso e interpretação.
Suponha que em duas regiões geográficas diferentes subdivididas em cinco áreas, o número de
uma espécie de planta encontrada por área foi:
Região A:
4
5
6
7
8
Número médio de plantas = 6unidades
Região B:
2
4
6
8
10
Número médio de plantas = 6unidades
Se considerarmos apenas o número médio de plantas encontradas, diríamos que as duas regiões
são iguais em relação à ocorrência do número dessa planta. Contudo, pela contagem individual em cada
área verificamos que há diferenças de dispersão e concentração do número de plantas em cada área das
duas regiões. Por esse motivo precisamos medir o padrão de dispersão do conjunto de contagem de cada
região.
É o que faz as medidas de dispersão, também como forma de resumir as informações presentes
em um conjunto de dados. As medidas de dispersão de uma distribuição são os valores que indicam o
grau de afastamento dos valores da variável em relação à média do conjunto de dados.
As principais medidas de dispersão são:
1. variância
2. desvio padrão
3. coeficiente de variação
1. Variância:
é o desvio quadrático médio dos dados em relação à média. Expressa a variabilidade dos dados como
uma grandeza elevada ao quadrado (exemplo: altura2). Por esse motivo é uma medida de difícil
interpretação universal.
n
A variância possui o seguinte modelo de cálculo:
s2 =
2
(xi − x )
∑
i 1
=
n −1
Onde:
s2 = símbolo da variância amostral
Σ = somatório dos valores da diferença entre os valores individuais e a média amostral
xi = valor de cada elemento da amostra
x = símbolo da média amostral
n -1= graus de liberdade, que é uma correção para o valor do cálculo na amostra
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
57
Estatística Descritiva
Profª Maria Eliane
Calculemos a variância para o exemplo da contagem do número de uma espécie de plantas em
duas regiões, anteriormente descrito:
Região A
Região B
( xi − x )
( xi − x ) 2
( xi − x )
( xi − x ) 2
4 – 6 = -2
4
2 – 6 = -4
16
5 – 6 = -1
1
4 – 6 = -2
4
6–6=0
0
6–6=0
0
7–6=1
1
8–6=2
4
8–6=2
4
10 – 6 = 4
16
Σ
10
Σ
40
Variância região A:
Variância região B:
n
s2 =
s2 =
n
∑(x i − x )2
i =1
s2 =
n −1
10
= 2 ,5 plantas
5 −1
2
s2 =
2
(x i − x )
∑
i 1
=
n −1
40
= 10 plantas
5 −1
2
2. Desvio Padrão: de todas as medidas de dispersão esta é a mais utilizada, e é definida como a raiz
quadrada da variância. Ela exprime o resultado na mesma medida da variável em estudo, ao contrário da
variância. Por esse motivo é mais utilizada, permite uma interpretação universal do resultado.
n
Modelo para o cálculo do desvio padrão: s =
2
(x i − x)
∑
i 1
=
n −1
= s2
Para o nosso exemplo do número de uma espécie de plantas por região temos os seguintes desvios
padrão por região:
Desvio padrão região A:
Desvio padrão região B:
n
s =
s =
∑(x i − x )2
i =1
n −1
10
= 1,58 plantas
5 −1
n
s=
s =
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
2
(x i − x )
∑
i 1
=
n −1
40
= 3,16 plantas
5 −1
58
Estatística Descritiva
Profª Maria Eliane
Estes resultados indicam que em torno do número médio da espécie de planta existente na região A a
variabilidade de plantas é de 1,58 plantas; já em torno da média da região B é de 3,16plantas. A região B
tem maior dispersão de número de plantas, é o dobro da dispersão encontrada na região A.
Esses resultados são expressos na forma de um intervalo de valores em torno da média, pois a dispersão
pelo desvio padrão indicará quantos elementos estão abaixo e acima da média encontrada. Assim,
Região A:
x ± s = 6±1,58
Em torno da média 6plantas, o número de plantas da região A pode
variar de 4,42plantas (6-1,58) a 7,58plantas (6+1,58), para 68% das
contagens.
Região B:
x ± s = 6±3,16
Em torno da média 6plantas, o número de plantas da região B pode
variar de 2,84plantas (6-3,16) a 9,16plantas (6+3,16) ), para 68%
das contagens.
3. Coeficiente de Variação: indica a proporção do desvio padrão em relação à média, expresso em
percentagem. Pode ser usada para comparar a dispersão de dois conjuntos de dados, sem que eles
estejam necessariamente na mesma unidade de medida.
Modelo para o cálculo do: CV =
s
× 100
x
Para o nosso exemplo do número de uma espécie de plantas por região, a dispersão do número de
plantas em torno da média por região, em termos percentuais é de:
Região A:
CV A =
sA
1,58
× 100 =
× 100 = 26,33%
xA
6
Região B:
CVB =
sB
3,16
× 100 =
× 100 = 52,67%
xB
6
Percentualmente, confirma-se que a dispersão da espécie de plantas na região B é o dobro da dispersão
da região A. Portanto, a região A possui uma distribuição mais homogênea do número dessa espécie do
que a região B. A ocorrência da espécie nessas regiões não é igual, como levaria a acreditar o valor
apenas da média calculada.
Em relação à variância e o desvio padrão, o coeficiente de variação tem a vantagem de possibilitar
comparar a dispersão de dados que estejam em unidades de medida diferentes, por exemplo:
a) comparar altura (em cm) e peso (em g);
b) comparar valor monetário (em R$) e peso (em Kg);
c) comparar volume (em cm3) e quantidade (em unidades).
Observação: tratamos a comparação entre médias e medidas de variabilidade de modo bem simples.
Porém, estatisticamente, é preciso fazer testes mais apurados para comparar e detectar as diferenças, o
que é feito por meio dos testes de hipóteses de médias (que serão vistos no capítulo de probabilidade), e
teste de variância por ANOVA.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
59
Estatística Descritiva
Profª Maria Eliane
Gráficos especiais para avaliar a variabilidade de um conjunto de dados:
1. Box-plot ou Desenho Esquemático
Este é um gráfico mais elaborado do que o dot-plot, usando algumas medidas obtidas dos dados, a saber:
mediana, 1°quartil, 3°quartil, valor máximo e valor mínimo. Colocamos sobre a reta essas cinco
medidas e traçamos um retângulo com extremos em Q1 e Q3, marcondo dentro dele o lugar
correspondente à mediana. Em seguida marcamos sobre a reta dos valores (Q1 – 1,5(Q3-Q1))
e
(Q1 + 1,5 (Q3-Q1)). Os valores dos dados que estiverem acima ou abaixo desses dois valores calculados
serão considerados como valores extremos (outliers).
O Box plot pode ser desenhado em palno horizontal ou vertical.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
60
Estatística Descritiva
Profª Maria Eliane
Exemplo de uso do Box plot:
Sobrevivência em dias da Coytiera pertusa
Sobrevivência em dias da Coytiera pertusa
100
11
80
60
40
20
0
N=
8
8
8
8
1
2
3
4
Nível de maturação das folhas de Theobroma cacao
Fonte: Terra e Sousa, 2004. Sobrevivência de Coytiera pertusa e de Percolapsis ornata segundo a ontogênese das folhas de
cacau (Theobroma cacao) e de ingá (Inga ebulis) usadas na alimentação em cativeiro.
2. Dot-plot: representa na reta todos os dados de um conjunto, com as repetições necessárias.
BIBLIOGRAFIA CONSULTADA:
AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998.
BOTTER, Denise et alli. Noções de Estatística. São Paulo:EDUSP, 1996.
BUNCHAFT, Guenia. Estatística sem mistério. Petropólis, RJ: Vozes, 1998.
FRANCISCO, Valter de. Estatística. São Paulo: Atlas, 1982.
PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
61
Estatística Descritiva
Profª Maria Eliane
INTRODUÇÃO AO ESTUDO DE PROBABILIDADE
PROBABILIDADE
É o estudo dos fenômenos aleatórios que, a princípio, define a
possibilidade de ocorrência de um evento.
PROVA, OBSERVAÇÃO
OU EXPERIMENTO
É todo fenômeno ou ação que geralmente pode ser repetido, cujo resultado
é casual ou aleatório, por exemplo: o lançamento de um dado. Se
estabelecermos todos os possíveis resultados de um experimento teremos
um espaço amostral.
ESPAÇO AMOSTRAL
É o conjunto universo denotado por (Ω), (U) ou (S), ou seja, é o conjunto
de todos os resultados possíveis de acontecer em uma observação.
Ex.: O espaço amostral do lançamento de um dado é (U)={1,2,3,4,5,6}
EVENTO:
É cada subconjunto do espaço amostral (U). É representado por letras
arábicas maiúsculas:A, B, C... Pode ser classificado como:
•evento simples: formado por um único elemento do espaço amostral.
•evento composto: formado por mais de um elemento do espaço amostral.
•evento certo: ocorre em qualquer realização do experimento aleatório.
•evento impossível: não ocorre em qualquer realização do experimento
aleatório.
•eventos mutuamente exclusivos ou disjuntos ou incompatíveis: quando
dois eventos a e b não puderem ocorrer simultaneamente, i. e., a interseção
entre a e b é um conjunto vazio.
•eventos dependentes: a ocorrência de um evento depende da ocorrência
previa de um outro evento b.
•eventos independentes: quando eles não exercem ações reciprocas, ou
seja, o acontecimento de um não interfere no acontecimento do(s) outro(s).
•evento complementar: é constituído pela parte do espaço amostral que
não contém o evento desejado.
•eventos condicionados: há vínculos entre eles, ou seja, a ocorrência de
um dos eventos é afetada pelo fato de um outro ter ou não acontecido.
DEFINIÇAO DE PROBABILIDADE: Dado um experimento aleatório (E) e (S) o espaço amostral,
probabilidade de um evento (A) denotada como P(A), é uma função definida em S que associa a cada
evento um numero real, satisfazendo os seguintes axiomas:
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
62
Estatística Descritiva
1.
Profª Maria Eliane
Para todo o evento A, a probabilidade de sua ocorrência será sempre um valor compreendido
entre 0 e 1: 0<P(A)<1 . Significa que o resultado do cálculo de uma probabilidade não pode
ser negativo, e pode ser escrito de modo percentual como de 0% a 100% de ocorrer.
2. P(A) = 0 (quando for um evento impossível de acontecer)
3. P(A) = 1 (quando for um evento certo de ocorrer)
4. Se Ā é o evento complementar de A, então,
P(Ā) = 1 - P(A)
e
P(A) + P(Ā) = 1
5. P(S) = 1 (todo o espaço amostral tem soma igual a 1). Ex.: no lance de uma moeda o espaço
amostral S= {Cara;Coroa}, como a probabilidade de ocorrer cara ou coroa é de ½, então:
P(S)= P(Cara) + P(Coroa) = ½ + ½ = 1.
6. Se A e B forem eventos mutuamente exclusivos ( A∩B = Ø ), então, P( A U B) = P(A) + P(B)
Representando pelo diagrama de Venn:
S
A
B
7. Se A e B forem eventos não mutuamente exclusivos, então, P( A U B) = P(A) + P(B) - P(A∩B)
Representando pelo diagrama de Venn:
A∩B
8. Se A e B são independentes P(A∩B) = P(A) * P(B)
9.Probabilidade condicional: P(AB) =
P( A ∩ B)
P( B)
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
63
Estatística Descritiva
Profª Maria Eliane
NOÇÕES DE ANÁLISE COMBINATÓRIA
Exemplo: considere três pares de cromossomos homólogos com seus centrômeros identificados por
A/a, B/b e C/c. Quantos tipos diferentes de produtos meióticos este indivíduo pode produzir?
Cada cromossomo representa os estados da natureza:
Cada centrômero representa as ações possíveis:
n
N
Como o crescimento é multiplicativo geométrico, temos Nn
Pela restrição da diferença de produtos (os produtos meióticos devem ser diferentes) N=2
Então: Nn = 23 = 8 combinações diferentes possíveis.
Ilustrando-se pela árvore de probabilidade temos:
B
A
b
B
a
b
C
c
C
c
C
c
C
c
ABC
Abc
AbC
Abc
aBC
aBc
abC
abc
Observe que a árvore de probabilidade lembra o heredograma.
VARIÁVEIS ALEATÓRIAS
Em nossas aulas introdutórias, vimos que os resultados de uma característica, que se tem o
interesse
em
pesquisar,
podem
ser classificados
segundo
duas
categorias:
qualitativa e
quantitativamente. Vimos também que, como essa característica de interesse fornece resultados variados
de elemento para elemento do conjunto pesquisado, ela é denominada de variável. E esboçamos o
seguinte esquema de classificação e exemplificação:
Variável Qualitativa: ordinal e nominal;
Variável Quantitativa: discreta e contínua.
Estamos interessados, em nossos estudos de Estatística, em medidas quantitativas.
Das noções de probabilidade, vimos o que é experimento, evento, espaço amostral,
possibilidades e probabilidade. Realizamos alguns cálculos simples através das quais associamos um
número real a todo elemento do espaço amostral. Através destas noções básicas poderemos, agora,
iniciar o estudo sobre variável aleatória.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
64
Estatística Descritiva
Profª Maria Eliane
Definição 1: variável aleatória (v.a.) é uma função numérica X, que associa a cada elemento do espaço
amostral (ω ∈ Ω) um número real X(ω).
Exemplo 1- No lance de uma moeda temos:
Ω = {Cara, Coroa}
X(ω) sejam os valores: 0 se for cara, e 1 se for coroa
Então, o domínio de X(ω)= {Cara, Coroa} e o contradomínio {0,1}, ou seja, X(ω)=xi ⇒ xi=0,1.
O termo aleatório indica que a cada possível valor da variável atribui-se uma probabilidade de
ocorrência, por isso também é chamada de variável estocástica. Podemos nos referir à v.a. também
como uma função aleatória ou função estocástica.
Denota-se uma variável aleatória por uma letra latina maiúscula, como X, Y, Z, W,... . O mais
usual é a utilização da letra X.
Através da definição 1 trabalharemos o conceito de variável aprendido nas noções de estatística,
reelaborando o conceito de variável quantitativa discreta e contínua à luz dessa definição.
Variável aleatória discreta (v.a.d.)
Definição 2: uma v.a.d. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω) cujo
domínio é Ω e cujo contradomínio é um subconjunto finito ou infinito enumerável {x1, x2, x3,...} dos
números reais ℝ , tal que {ω:X(ω) = xi} é um evento para todo i. Diz-se que os eventos da v.a.d. são
unitários νX= { xi , i=1,2,3,...}.
Variável aleatória contínua (v.a.c.)
Definição 3: uma v.a.c. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω), ω ∈
Ω, tal que {ωX(ω) ≤ x} é um evento para -∞<x<∞.
Em outras palavras, uma v.a.c. é aquela que toma um número infinito (não-enumerável) de valores. O
contradomínio de X é um intervalo, ou uma coleção de intervalos.
Funções da variável aleatória discreta
Seja X uma v.a.d. com x1, x2, x3,..., seus diferentes (possíveis) valores.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
65
Estatística Descritiva
Profª Maria Eliane
Definição 4: a função que atribui a cada valor (x1, x2, x3,...) da v.a.d. sua probabilidade é denominada de
função de probabilidade (f.p.). É denotada por:
P(X= xi ) = p (xi ),
i = 1,2,3,…
ou P(X= xi ) = f (x)
Como é uma função, p(⋅), deve satisfazer às seguintes propriedades:
i)
0≤ p(xi ) ≤1, para todo xi
ii)
∑ p( x ) = 1
i
x
Definição 5: a soma das probabilidades dos valores xi menores ou iguais a x, em um ponto x, é a função
acumulada de probabilidades ou função de distribuição acumulada (f.d.a. ou f.d.). É denotada por:
FX ( x ) = P( X ≤ x )
FX ( x ) = ∑ p ( xi )
xi ≤ x
Em fenômenos da realidade algumas v.a.’s são muito notórias, sendo explicadas através de seus
modelos de distribuição.
Diante disso, as distribuições de probabilidade são úteis para investigação, pesquisa e observação
de problemas com variáveis aleatórias discretas ou contínuas, facilitando a análise e interpretação dos
dados para conclusão por dedução. Ou seja, servem para explicar fenômenos aleatórios de observação
clínica, econômica, biológica, etc., através de modelo matemático probabilístico.
Muitos são os modelos que descrevem o comportamento das variáveis aleatórias discretas, entre
eles:
•
Binomial
•
Poisson
Também são muitos os modelos que descrevem o comportamento das variáveis aleatórias
contínuas, o principal é a distribuição Normal.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
66
Estatística Descritiva
Profª Maria Eliane
Distribuição binomial
É constituída pelo número de vezes que ocorre determinado evento, quando a probabilidade desse
evento for constante em cada prova.
É adequada aos experimentos que apresentam apenas dois resultados:Sucesso/Insucesso ou seja,
Ocorre/Não ocorre o evento em
estudo.
∗
Baseia-se nas seguintes hipóteses:
H1 n provas independentes e do mesmo tipo são realizadas
H2 cada prova admite dois resultados: ocorre ou não ocorre o evento
H3 a probabilidade de ocorrer o evento em cada prova é p e a de não ocorrer é 1-p=q.
∗
Fundamenta-se nas possibilidades dadas pela função de Bernoulli:
X=1 (ocorrência) = P(x1) = p
X=0 (não ocorrência) = P(x2)= 1 – p = q
∗
O somatório de todas as probabilidades da observação é igual a 1, ou seja, [p + (1-p)] = 1.
∗
O nome binomial é devido ao fato de o grau da variável está relacionado ao desenvolvimento do
binômio de Newton: (q+p)n.
∗
O número de possibilidades favoráveis ao evento é:
A fórmula para a distribuição binomial é:
P ( X = x) =
n
C x=
n!
x! (n − x )!
n!
⋅ p x ⋅ q n− x
x! (n − x )!
Onde, P(X=x)= probabilidade de ocorrer o evento desejado
x = número de provas
n = número de vezes que ocorre o evento
p = ocorrência do evento (em proporção ou freqüência relativa)
q = não ocorrência do evento (q = 1-p)
∗
Parâmetros da Distribuição Binomial:
Média
µ=n·p
Variância
σ2= n · p · q
Desvio padrão
σ = n× p×q
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
67
Estatística Descritiva
Profª Maria Eliane
Exemplo de distribuição binomial:
Os tipos de sangue M-N dos seres humanos estão sob o controle genético de um par de alelos
codominantes. Numa família com seis filhos, onde ambos os pais são do tipo MN, qual é a
probabilidade de encontrarmos três crianças do tipo M? considere que a ocorrência do tipo M é ¼.
Temos os seguintes fatos:
n = 6 filhos
x = 3 filhos
p = ¼ = 0,25 ou 25% , que é a ocorrência do tipo M
(1-p) = 1- 0,25 = 0,75 , que é a não ocorrência do tipo M.
Substituindo esses valores no modelo da distribuição binomial:
P ( X = x) =
P( X = 3) =
n!
⋅ p x ⋅ q n− x
x! (n − x )!
6!
⋅ (0,25) 3 ⋅ (0,75) 6−3 = 20 × 0,0156 × 0,4219 = 0,1318
3!(6 − 3)!
A probabilidade de em uma família com seis filhos, onde ambos os pais possuem sangue do tipo MN,
encontrarmos três crianças do tipo M é de 13,18%.
Distribuição de Poisson
∗
Idealizada pelo matemático francês Simeon Poisson.
∗
É um caso particular da distribuição de probabilidades, já que calcula apenas o número de
ocorrências do evento e não calcula as não ocorrências.
∗
Utilizada para descrever as possibilidades de determinado número de ocorrências em determinado
intervalo, espaço ou campo contínuo (tempo, comprimento, área, volume, peso, etc).
Ex.: Chegada de pacientes ao PS/minuto
Acidentes/dia
Microrganismos/cm3 de água
Ou seja, trabalha com a variável discreta inserida em um espaço contínuo (tempo, área, volume).
Baseia-se nas seguintes hipóteses:
H1 o experimento é constituído de eventos independentes
H2 só há um resultado possível: ocorrência do evento
H3 a probabilidade de ocorrer o evento é constante em todo o intervalo (espaço contínuo em estudo)
H4 a probabilidade de mais de uma ocorrência em um mesmo ponto é zero.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
68
Estatística Descritiva
∗
A fórmula da distribuição de Poisson é dada por:
Profª Maria Eliane
(λ t ) x − ( λt )
P ( X = x) =
⋅e
x!
Onde,
P(X=x)= probabilidade de ocorrer o evento desejado
λ = taxa média de ocorrências dos eventos por unidade de medida
(letra grega “lambda”)
t = espaço de medidas ou número de intervalos
x = número de ocorrências
e = base dos logaritmos neperianos (é um número infinito, e=2,71828...)
∗
Parâmetros da Distribuição de Poisson:
Média
µ=λ
Variância
σ² = λ
Desvio padrão σ = λ
Exemplo de distribuição de Poisson:
Suponha que apenas um em cada mil indivíduos, em uma população, seja albino. Se uma amostra de
100 indivíduos é retirada ao acaso desta população, qual é a probabilidade de se encontrar dois
indivíduos albinos?
Temos os seguintes fatos:
t = 100 indivíduos
x = 2 albinos
λ = um em cada mil indivíduos = 1/1000 = 0,001
Substituindo esses valores no modelo da distribuição de Poisson:
P ( X = x) =
(λ t ) x − ( λt )
(0,001 × 100) 2 −( 0,001×100 ) (0,9048)(0,01)
⋅e
= P ( X = 2) =
⋅e
=
= 0,0045
2!
2
x!
A probabilidade de se encontrar dois indivíduos albinos nessa população, é 0,45% isto é, é menor do
que 1% de chance.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
69
Estatística Descritiva
Profª Maria Eliane
Distribuições contínuas:
contínuas.
São as distribuições utilizadas para as variáveis aleatórias
Uma observação importante é que não se pode associar uma probabilidade pontual a cada valor da
variável contínua, pois ao se aplicar a fórmula matemática de probabilidade:
P ( A) =
n( A)
n( A)
como n(U) = ∞ ⇒ P ( A) =
=0
n(U )
∞
Assim a distribuição de probabilidade das variáveis contínuas são dadas para intervalos de valores da
variável: P(a≤ X≤b).
A principal dentre os vários tipos de distribuição contínua e a mais utilizada é a Distribuição Normal.
Distribuição Normal: O estudo da variável contínua na distribuição normal é feita com o auxílio da
curva normal padrão (denominada de curva de Gauss ou do Sino), através da Variável Aleatória
Padronizada (VAP), denominada de Z cujos valores são lidos em uma tabela.
A variável aleatória X tem distribuição normal com média µ e variância σ2 , representada por:
X~N(µ ; σ2). Para a variável transformada Z representamos Z~N(0;1) sendo,
Z=
∗
x−µ
σ
O modelo matemático da Distribuição Normal é:
P ( x1 ≤ X ≤ x 2 ) = P ( z1 ≤ Z ≤ z 2 ) =
x1 − µ
σ
≤Z≤
x2 − µ
σ
Onde,
x=
µ=
σ=
valor da média da variável observada
valor da média populacional
valor do desvio padrão populacional
Os resultados obtidos (área de z1 e de z2)são lidos na tabela normal padrão (em anexo).
Como a área associada a um ponto é igual a zero, para o cálculo de probabilidades sob uma curva
normal torna-se indiferente o uso dos sinais < ou ≤ bem como > ou ≥.
A distribuição normal é a mais importante para os estudos da estatística, pois é através dela que se
baseia toda a conclusão estatística por meio da Inferência, fazendo a ligação entre a Estatística
Descritiva e a Probabilidade, dando sustentação ao caráter afirmativo de confiança nos estudos e testes
realizados.
Para o estudo da variável aleatória X com distribuição normal valem as seguintes propriedades:
a) A curva é simétrica, centrada na média;
b) A distância de µ aos pontos onde a curvatura da distribuição muda de sentido é igual a σ ;
c) A moda e a mediana de X são iguais à média;
d) A área sob a curva Normal e acima do eixo horizontal é igual a 1;
e) É assintótica em relação ao eixo das abscissas.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
70
Estatística Descritiva
Profª Maria Eliane
Exemplo de distribuição Normal: em um estudo com a mosca das frutas, observou-se que o tempo
decorrido entre a ovoposição e a emergência do adulto, na sequência ovo-larva-pulpa-adulto, é de
273horas em média, com desvio padrão de 20horas (Nascimento, 1992). Qual é a probabilidade de
ocorrer um tempo entre a ovoposição e a emergência, entre 260 e 280horas?
Pelo desenho da curva, a ocorrência deseja representa a seguinte área hachurada:
no modelo de cálculo temos:
P( x1 ≤ X ≤ x2 ) = P( z1 ≤ Z ≤ z 2 ) =
x1 − µ
σ
≤Z≤
x2 − µ
σ
260 − 273
280 − 273
≤Z≤
20
20
P(260 ≤ X ≤ 280) = −0,65 ≤ Z ≤ +0,35
P(260 ≤ X ≤ 280) =
P(260 ≤ X ≤ 280) = 0,2422 + 0,1368
P(260 ≤ X ≤ 280) = 0,3790
260h
273h
280h
Pelo enunciado do exemplo, sabemos
que:
a média é µ=273
o desvio padrão é σ=20
limite inferior do intervalo é z1=260
limite superior do intervalo é z2=280
Logo, a probabilidade de ocorrer ovoposição emergência adulto em
período de tempo entre 260-280horas é de 37,90%.
Esses valores (-0,65 e +0,35) serão lidos na tabela da distribuição
normal da p.71. Como a curva é simétrica (lado esquerdo e direito
ao eixo da média são iguais) os valores são lidos como módulo,
não se considera o sinal. Observe pela tabela que o valor para 0,65 é 0,2422 e para +0,35 é 0,1368. Deixei marcado com um
retângulo para facilitar sua compreensão. Como a área desejada
está em torno da média, a operação feita é de soma desses dois
valores encontrados para z1 e z2.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
71
Estatística Descritiva
Profª Maria Eliane
Tabela para leitura dos valores da distribuição Normal (x=z)
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
72
Estatística Descritiva
Profª Maria Eliane
TESTES DE HIPÓTESES
CONCEITO
É uma regra de decisão para aceitar ou rejeitar uma hipótese com base nas
diferenças observadas entre os valores alegados e aqueles fornecidos pelas
estatísticas amostrais.
Hipótese estatística é uma suposição quanto ao valor de um parâmetro
populacional, ou quanto à natureza da distribuição de probabilidade de
uma variável populacional.
UTILIDADE
Fazer Inferência Estatística com o maior nível possível de confiança e
representação, partindo de algum referencial (amostras).
APLICAÇÃO
Investigação, pesquisa e observação de problemas, especialmente para
avaliação de situações múltiplas. Exemplos:
a) testar as afirmativas feitas por fabricantes sobre % de defeitos de um
lote de medicamentos;
b) verificar se o teor de oxigênio DBO em amostras de um rio está dentro
do limite tolerável estabelecido por órgão de controle ambiental.
PRESSUPOSTO
ADOTADOS
Variáveis normalmente distribuídas.
CONCEITUAÇÕES:
IMPORTANTES
Nível de significância: define a probabilidade de o teste aceitar
uma hipótese falsa. É representado por α=0,05 α=0,01 α=0,1 que são os
valores mais usados. Equivale à região crítica onde rejeita-se a hipótese
principal.
Nível de confiança: define o intervalo em que deve cair o parâmetro
amostral para que se possa considerar verdadeira a hipótese formulada. É
representado por 1-α=0,9 (90%) 1-α=0,95 (95%) 1-α=0,99 (99%),
sendo estes os valores mais usados, limitados pelos respectivos valores de
z. Equivale à região de aceitação onde aceita-se a hipótese principal.
Hipótese nula ou principal (Ho): é a que afirma uma dada propriedade
ou característica sobre a população. Vem sempre acompanhada do sinal =.
Hipótese alternativa (H¹): é a que se opõe ou nega a hipótese principal.
Vem acompanhada de um dos sinais: ≠ > ou <.
Teste Bilateral: utiliza toda a área da curva normal (as duas caudas para
os valores críticos), considerando os níveis: 90% 95% e 99%.
Teste Unilateral: utiliza uma parte da curva (à esquerda ou à direita para
os valores críticos ), considerando os níveis de 40% 45% e 49%.
Erro Tipo I ou alfa: é o erro de se aceitar H0, quando a H1 é verdadeira.
Erro tipo II ou beta: é o erro de se rejeitar H0, sendo ela a hipótese
verdadeira verdadeira.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
73
Estatística Descritiva
Profª Maria Eliane
• As hipóteses definidas da forma: H0: θ = x1 versus Ha: θ = x2
sem conter desigualdades, são denominadas hipóteses simples .
•
As hipóteses definidas da forma: H0: θ = θ0
H1: θ ≠ θ0
H1: θ > θ0
ou
H1: θ < θ0
são denominadas de hipóteses compostas, sendo as mais comumente utilizadas, definindo-se se o teste é
uni ou bilateral, de acordo com o interesse do estudo. Por conveniência técnica, a hipótese nula sempre
fica com o sinal de igualdade.
•
Uma parte importante do teste de hipóteses é controlar a probabilidade de cometer os erros
associados:
α = P(erro tipo I)= P(rejeitar H0|H0 verdadeira)
β = P(erro tipo II) = P(não rejeitar H0| H0 falsa)
A situação ideal é aquela em que ambas as probabilidades estão próximas de zero. Entretanto, à medida
que diminui o erro alfa, a probabilidade de beta aumenta. Portanto, deve-se construir as hipóteses de
maneira que o erro mais importante seja evitado, que é o erro tipo alfa.
•
De modo geral, como o erro beta depende do valor de µ, é conveniente obter uma função que ajude a
caracterizar o desempenho do teste: Função de Poder do Teste, dada por:
g (µ ) = 1 − β (µ )
Para um mesmo nível de significância α, quanto maior o poder melhor o teste.
Como não se pode diminuir os dois erros simultaneamente, uma alternativa é aumentar o tamanho da
amostra, pois quanto maior for n, melhor é a precisão do estimador utilizado e maior é o poder do teste.
A função β é também chamada Curva Característica de Operação CCO, que são gráficos que indicam
as probabilidades de erros do tipo II, sob várias hipóteses. Elas proporcionam indicações de como testes
bem aplicados podem possibilitar a redução ao mínimo de erros do tipo I e II, i.é., indicam o poder do
teste, para evitar que sejam tomadas decisões erradas. São úteis no planejamento de experiências, por
mostrarem, por exemplo, que tamanhos de amostras devem ser usados.
•
Os testes de hipóteses para a média apresentados pressupõem variância conhecida. Se a variância for
desconhecida, deve-se utilizar a estatística t-Student, valendo-se do estimador da variância
populacional, que é a variância amostral s2.
•
Se a variável de interesse, além de ter variância desconhecida, não tiver densidade Normal, é
necessário utilizar técnicas não-paramétricas para a realização do teste da média.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
74
Estatística Descritiva
Profª Maria Eliane
Testes de Hipóteses Utilizando o Nível Descritivo:
Ao realizarmos um teste de hipóteses, partimos de um dado valor de alfa pré-fixado, para
construir a regra de decisão. Uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste
a escolha do valor para a probabilidade alfa, que não precisará ser fixada a priori.
A idéia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se
obter estimativas mais desfavoráveis ou extremas (à luz da H1) do que a que está sendo fornecida pela
amostra.
Esta probabilidade será o nível descritivo, denotado por α∗ (ou p-valor). Valores pequenos de
α indicam que a hipótese nula é falsa pois, sendo a amostra a ferramenta de inferência sobre a
população, ela fornece uma estimativa que teria probabilidade muito pequena de acontecer, se H0 fosse
verdadeira. O conceito do que é pequeno fica a cargo do usuário, que assim decide qual alfa utilizar para
comparar com o valor α∗ obtido.
∗
Observações importantes:
•
Para comparação de médias de mais do que duas populações, o método utilizado é o teste ANOVA
(Análise de Variância).
•
Para a comparação de várias variâncias deve-se utilizar o teste de Cochran (para amostras de mesmo
tamanho), e o teste de Bartlett ( para amostras de tamanhos diferentes).
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
75
Estatística Descritiva
Profª Maria Eliane
TESTES DE HIPÓTESES (Clássico)
Teste Bilateral:
Região de
Rejeição
Região de
Rejeição
α/2
α/2
Região de
Aceitação
para Ho
1-α
-z
H0 : θ = x
H1 : θ≠
 x
(Hipótese Nula)
(Hipótese Alternativa)
+z
Região de
Rejeição
α
Região de
Aceitação
para Ho
1-α
Teste Unilateral à Esquerda:
H0 : θ = x
H1 : θ < x
-z
Região de
Aceitação
para Ho
1-α
(Hipótese Nula)
(Hipótese Alternativa)
Região de
Rejeição
α
Teste Unilateral à Direita:
H0 : θ = x
H1 : θ > x
(Hipótese Nula)
(Hipótese Alternativa)
z
Valores Críticos de ±z:
Para
Teste
Bilateral
Teste
Unilateral
α = 10%
α = 5%
α = 1%
1,64
1,96
2,58
1,28
1,64
2,33
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
76
Estatística Descritiva
Profª Maria Eliane
Distribuição t-Student: é utilizada para amostras com número de elementos menor do que 30, que têm
a variável aleatória contínua X com uma distribuição normal. O estudo de X é feito através da variável
t, chamada de variável estudentizada representada como t≈N(0;1) com valores também lidos em tabela.
Os valores de t dependem do número de elementos da amostra em estudo, por isso a dependência dos
graus de liberdade.
O modelo de cálculo da Distribuição t é:
t=
x −μ
s
n
Onde,
x
µ
s
n
=
=
=
=
valor da média da variável observada
valor da média populacional
valor do desvio padrão amostral
tamanho da amostra
A leituras dos valores da área de t levam em consideração o nível de confiança (probabilidade) e o grau
de liberdade (n-1). Também tem seus valores lidos em tabela (ver p.78).
A distribuição T-Student tem a curva semelhante à curva Normal, todavia é mais achatada e com
probabilidades mais densas nas caudas, conforme mostra a figura 5.3 a seguir:
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
77
Estatística Descritiva
Profª Maria Eliane
Exemplo de teste de hipóteses: estudos anteriores mostravam que a alcalinidade média do rio Caí era
de 19,6mg de CaCo3/L (Vargas, 1992). Entretanto, estudo recente com 16 observações, a média de
CaCo3/L encontrada foi de 16,2mg e desvio padrão de 7,7mg. Esse novo valor estará indicando que a
alcalinidade no rio se modificou? ou será que a diferença de 3,4mg é devida a um erro aleatório?
Como o que se deseja é apenas verificar se a alcalinidade se modificou, e não se é menor que 19,6mg, o
teste é bilateral.
Adotaremos nível de significância (ou seja, admitiremos erro máximo nesse teste de hipótese em relação
ao verdadeiro valor da concentração de CaCo3/L no rio Caí) de α/2=5%/2=2,5%. Isso quer dizer que
vamos comparar o valor de t-calculado com o valor de t-tabelado sob os seguintes critérios:
α/2=5%/2=2,5%=0,025
para n-1graus de libredade = 16-1 = 15
(observe o valor marcado com um retângulo na tabela da p.78).
na tabela t será o valor = 2,131
O desenho da curva e escrita das hipóteses do teste bilateral é:
Região de
Rejeição
Região de
Rejeição
α/2=0,025
α/2=0,025
α/2=0,025
Teste Bilateral:
H0 : µx=19,90mg/L
(Hipótese Nula)
H1 : µx≠19,90mg/L
(Hipótese Alternativa)
Região de
Aceitação
para Ho
1-α
-t=-2,131
+t=+2,131
Se o valor de t-calculado estiver dentro de uma das áreas de α/2=0,025, rejeitamos a hipótese de que o
valor da alcalinidade é de 19,9mg/L. Então vamos ao cálculo:
pelo enunciado do exemplo sabemos que:
a média da hipótese principal ou nula é µx=19,60
a média da amostra em teste é µx=16,2
o desvio padrão é conhecido por meio da amostra, portanto é s e não σ, s=7,7
e o tamanho da amostra é n=16. Substituindo esses valores no modelo de cálculo:
t=
x − μ 16,2 − 19,6 − 3,4 − 3,4
=
=
=
= −1,766
s
7,7
7,7 1,925
4
n
16
Então, como (t-calculado = -1,766) é maior que (t-tabelado = -2,131), isto é, pertence à área de aceitação
da hipótese nula, podemos dizer que estatisticamente ao nível de confiança de 95% a alcalinidade do rio
Caí não se modificou.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
78
Estatística Descritiva
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
Profª Maria Eliane
79
Estatística Descritiva
Profª Maria Eliane
Teste qui-quadrado (χ2): a distribuição qui-quadrado é contínua e assimétrica, assumindo apenas
valores positivos. Assim como a distribuição normal e a distribuição t, a qui-quadrado também é
tabelada (ver tabela na p.81).O valor depende do tamanho da amostra, portanto dos graus de liberdade.
Como o teste qui quadrado é feito com dados representados por uma, tabela o graus de liberdade (g.l.)
vai considerar o número de de linhas (r) e o número de colunas (c), do seguinte modo:
g.l. = (r-1) x (c-1)
k
O modelo de cálculo do teste é: Q = ∑
2
i =1
(oi − ei ) 2
ei
Onde,
Σ
oi
ei
i
= somatório
= freqüência observada na i-ésima casela da tabela
= freqüência esperada na i-ésima casela da tabela
= i-ésima casela, ou seja, casela 1, 2, 3,... de uma tabela.
A distribuição χ2 tem curva assimétrica, conforme gravura a seguir:
Observe que os valores de χ2 serão todos positivos.
O χ21-γ;ν é chamado de qui quadrado inferior;
O χ2γ;ν é chamado de qui quadrado superior.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
80
Estatística Descritiva
Profª Maria Eliane
Exemplo do teste qui quadrado: em uma universidade foi apurada o número de estudantes dos cursos
da área de ciências humanas e de ciências exatas. Uma amostra de 170 estudantes apontou os seguintes
resultados, segundo o sexo:
Ciências
humanas
Ciências
exatas
Total
Masculino
48
52
100
Feminino
45
25
70
Total
93
77
170
Será que o sexo influência a escolha da área de estudo?
Para responder esta pergunta, primeiro precisamos transformas as freqüências absolutas (observadas) da
tabela em freqüências percentuais (esperadas).
Ciências
humanas
Ciências
exatas
Masculino
55
45
Feminino
38
32
A pergunta agora é a proporção do sexo masculino (πM) é igual à de mulheres (πF) nas áreas de estudo?
Vamos adotar um nível de significância de 5%. Os grau de liberdade para 2linhas e 2colunas será:
(2-1)x(2-1)=1. Então 1 g.l. e α=0,05, o valor de χ2-tabelado = 3,841.
O desenho da curva e a construção das hipóteses é:
Área de
rejeição
α=0,05
Área de
aceitação
para H0
H0 : πM = πF (as proporções são iguais nas áreas de estudo)
H1 : πM ≠ πF (as proporções são diferentes nas áreas de estudo)
3,841
O qui quadrado calculado é:
k
Q =∑
2
i =1
(oi − ei ) 2 (48 − 55) 2 (52 − 45) 2 (45 − 38) 2 (25 − 32) 2
=
+
+
+
= 4,79 .
ei
55
45
38
32
Como (χ2-calculado = 4,79) é maior que ( χ2-tabelado = 3,841), ou seja, está na área de rejeição da
hipótese nula, pode-se dizer que estatisticamente ao nível de confiança de 95% do teste há influência do
sexo na escolha da área de estudo.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
81
Estatística Descritiva
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
Profª Maria Eliane
82
Estatística Descritiva
Profª Maria Eliane
BIBLIOGRAFIA CONSULTADA
BOTTER, Denise Aparecida. Noções de estatística. São Paulo, EDUSP, 1996, pg. 45-76.
CALLEGARI-JACQUES, S. M. Bioestatística. Porto Alegre: Artmed, 2003.
FRANCISCO, Walter de. Estatística. São Paulo, Atlas, 1982, pg.71-121.
GRIFFITHS, A. J. F. et al. Introdução à genética. Rio de Janeiro: Guanabara Koogan, 2006.
HOEL, P. G.; PORT, S. C.; STONE, C.J. Introdução à teoria da probabilidade. Rio de Janeiro:
Interciência, 1978.
LINDGREN, B. W. Introdução à estatística. São Paulo: Ao livro Técnico, 1972.
MENDENHALL, W. Probabilidade e estatística. Rio de Janeiro: Campus, 1985.
MEYER, P. Probabilidade – aplicações à estatística. Rio de Janeiro: 2.ª ed. Livros Técnicos e
Científicos Editora, 1984.
MILONE, G.; ANGELINI, F. Estatística Geral. São Paulo: Ed. Atlas, 1993.
MIRSHAWKA, V. Estatística. São Paulo: Nobel, 1972.
SPIEGEL, M.R. Probabilidade e Estatística. São Paulo: McGraw-Hill do Brasil, 1978.
STANSFIELD, W.D. Genética. São Paulo: McGraw Hill do Brasil, 1985.
TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. São Paulo: Atlas, 1994.
Licenciatura em Biologia, Educação à Distância, UESC 2011.2
83
Download