Material de Estatística Aplicada

ESTATÍSTICA
MATERIAL DE APOIO
SOBRAL–CE
2
EMENTA:
CONCEITOS BÁSICOS DE INFERÊNCIA E ANÁLISE ESTATÍSTICA E DE
MÉTODOS
INDISPENSÁVEIS
INTERPRETAÇÃO
DE
PARA
DADOS
LEVANTAMENTO,
ESTATÍSTICOS
DE
LEITURA
E
PESQUISA;
APRESENTAÇÃO TABULAR E GRÁFICA DOS DADOS; MEDIDAS DE
POSIÇÕES E DISPERSÃO; PROBABILIDADE EM ESPAÇOS AMOSTRAIS
DISCRETOS;
PROBABILIDADE
INDEPENDENTES;
VARIÁVEIS
CONDICIONAL
ALEATÓRIAS;
E
EVENTOS
DISTRIBUIÇÃO
PROBABILIDADE; BINOMINAL; NORMAL E T DE STUDENT;
DE
3
SUMÁRIO
1 CONCEITOS BÁSICOS ........................................................................................... 04
2 POPULAÇÃO E AMOSTRA ................................................................................... 06
3 APRESENTAÇÃO TABULAR ................................................................................ 09
4 GRÁFICOS ESTATÍSTICOS ................................................................................... 14
5 DISTRIBUIÇÃO DE FREQÜÊNCIA....................................................................... 16
6 MEDIDAS DE POSIÇÃO ......................................................................................... 27
7 MEDIDAS DE DISPERSÃO .................................................................................... 31
8 PROBABILIDADE EM ESPAÇOS AMOSTRAIS DISCRETOS ........................... 35
9 PROBABILIDADE CONDICIONAL E EVENTOS INDEPENDENTES .............. 37
10 VARIÁVEIS ALEATÓRIAS .................................................................................... 40
11 DISTRIBUIÇÃO DE PROBABILIDADE ................................................................ 42
12 EXERCÍCIOS ............................................................................................................ 58
13 REFERÊNCIAS BIBLIOGRÁFICAS ...................................................................... 68
4
1 CONCEITOS BÁSICOS
Método estatístico: método que admite todas as causas presentes variando-as, dada a
impossibilidade de manter as causas constantes, registrando estas variações e
procurando determinar que influências cabem a cada uma delas.
Estatística: a estatística é a parte da Matemática Aplicada que fornece métodos para a
coleta, organização, descrição, análise e interpretação de dados e para a utilização dos
mesmos na tomada de decisões.
1.1 Planejamento
A primeira etapa consiste em planejar o modo como serão realizadas as fazes
seguintes, determinando o objetivo da pesquisa e os métodos que serão utilizados. Nesta
etapa são definidos os objetivos, as características da amostra, o método de aquisição e
de processamento de dados.
1.1 Coleta de dados
Coleta indireta
A coleta direta de dados é quando os dados são obtidos pelo próprio
pesquisador através de levantamento de registros (nascimentos, óbitos, notas fiscal,
impostos, etc.) ou coletados diretamente através de inquéritos, questionários, etc.
A coleta direta pode ser classificada quanto ao fator tempo como:
_ Contínua: quando feita de forma continuada, como registro de nascimentos e óbitos,
frequência de alunos às aulas, etc.
_ Periódica: quanto feita em intervalos constantes de tempo, como censos (10 em 10
anos), avaliações mensais dos alunos, etc.
_ Ocasional: quanto feitas em determinada situação para atender a um objetivo, como
pesquisa de mortalidade de um rebanho, pesquisa de um produto no mercado, etc.
5
Coleta indireta
A coleta indireta é inferida de elementos conhecidos, através de uma coleta
direta, ou do conhecimento de fenômenos relacionados ao fenômeno estudado. Por
exemplo, pesquisa sobre mortalidade infantil que é feita sobre a coleta direta de dados
de nascimentos e óbitos.
1.2 Crítica dos dados
Os dados obtidos devem ser criticados à procura de falhas sistemáticas no
planejamento, aquisição e armazenamento dos dados.
1.3 Apuração dos dados
É a etapa de soma e processamento dos dados obtidos mediante critérios de
classificação. Pode ser manual, eletromecânica ou eletrônica.
1.4 Exposição ou apresentação dos dados
Os dados sempre devem ser apresentados de forma adequada, seja através de
tabelas ou gráficos, seguindo os critérios determinados no planejamento e utilizados no
processamento dos dados. A exposição dos dados tem o objetivo de facilitar a análise
daquilo que é objeto do estudo estatístico.
1.5 Análise
A última etapa do processo estatístico consiste em tirar conclusões sobre os
dados levantados e processados, inferindo conclusões sobre o todo (população) a partir
de dados coletados de uma parte representativa da população (amostra)
6
2 POPULAÇÃO E AMOSTRA
2.1 Variáveis
Variável é o conjunto de resultados possíveis de um fenômeno. As variáveis que podem
ser:
_ qualitativa: quando seus valores são expressos por atributos, de forma não numérica.
Por exemplo sexo (M ou F), cor da pele (branca, preta, amarela, ...), etc.
_ quantitativa: quando seus valores são expressos por números. Por exemplo, idade,
salário, volume, etc. As variáveis quantitativas ainda são classificadas como:
– discreta: quando os seus valores podem ser enumerados. Ex. de contagem: do número
de pessoas numa sala (1, 2, 3, : : :)
– contínua: quando os seus valores podem ser qualquer um num intervalo.
Ex. de medições: volume de uma caixa d’agua (1 m3, 1,1 m3, 1,01 m3, : : :)
2.2 População e amostra
População e amostra referem-se ao conjunto de entes cujas propriedades
desejamos averiguar.
População estatística ou universo estatístico é o conjunto de entes portadores
de pelo menos uma característica em comum. Por exemplo, os estudantes constituem
uma população com uma característica em comum: são os que estudam.
Muitas vezes, por motivos práticos ou econômicos, limitam-se os estudos
estatísticos somente a uma parte da população, a amostra. A amostra é um subconjunto
finito de uma população.
Como toda análise estatística será inferida a partir das características obtidas da
amostra, é importante que a amostra seja representativa da população, isto é, que as
suas características de uma parte (amostra) sejam em geral as mesmas que do todo
(população).
7
2.3 Amostragem
Amostragem é a técnica especial de escolher amostras que garanta o acaso na
escolha. Assim cada elemento da população tem a mesma chance de ser escolhido, o
que garante à amostra um caráter de representatividade da população.
2.2.1 Amostragem casual ou aleatória simples
Este tipo de amostragem é baseado no sorteio da amostra. Numera-se a
população de 1 a n e depois, utilizando um dispositivo aleatório qualquer, escolhem-se
k números desta sequência, que corresponderão aos elementos da amostra.
EXEMPLO: pesquisa da estatura de uma escola com 90 alunos (população: 90 alunos)
usando uma amostra de 10% da população:
1. Numeram-se os alunos de 1 a 90;
2. Sorteiam-se 9 números (10% de 90) usando algum mecanismo aleatório ou através de
uma Tabela de Números Aleatórios (veja o Apêndice D). Por exemplo, escolhendo-se a
5a linha da tabela do Apêndice D, tem-se: 14 35 30 19 66 27 77 45 38
3. Os alunos numerados de acordo com a lista acima são escolhidos e tomados os
valores das suas estaturas, obtendo assim uma amostra da população dos 90 alunos.
2.2.2 Amostragem proporcional estratificada
Quando a população se divide em sub-populações – estratos – é necessário
utilizar um amostragem proporcional estratificada, que considera os estratos
(subgrupos) e obtém a amostragem proporcional a estes.
EXEMPLO: Suponha que no exemplo anterior, dos noventa alunos, 54 sejam meninos
e 36 sejam meninas. Neste caso precisamos obter a amostra estratificada. Serão dois
estratos (sexo masculino e sexo feminino) e queremos uma amostra de 10% da
população. Assim,
8
1. Definimos a amostra em estratos:
2. Numeram-se os alunos de 1 a 90 sendo que 1 a 54 correspondem a meninos e de 55 a
90, a meninas. Tomando a 2a coluna, de cima para baixo, tem-se:
56 05 46 74 90 17 75 63 31.
3. Neste caso serão obtidas as características dos seguintes alunos:
56 05 46 74 90 – meninos
17 75 63 31 – meninas.
2.2.3 Amostragem sistemática
Quando os elementos da população já estão ordenados, não é necessário
construir um sistema de referência ou de amostragem. Neste caso a amostragem é
sistemática.
EXEMPLO:
Suponha uma rua que tenha 500 prédios e desejamos obter uma amostra de 40
prédios (8%). Como os prédios já estão ordenados na rua, podemos usar o seguinte
procedimento:
1. Como 500/40 = 12,5, então temos de selecionar um prédio para a amostra a cada 12.
2. Sorteamos um número entre 1 e 12 inclusive, digamos que seja 5.
9
3. Vamos amostrando os prédios iniciando pelo 5° e pulando de 12 em 12. Assim,
iniciamos pelo prédio 5, depois usamos o prédio 12+5, depois 12+12+5, e assim por
diante.
4. No final teremos amostrado os 40 prédios.
3 APRESENTAÇÃO TABULAR
3.1 Tabelas
A tabela é um quadro que resume um conjunto de observações. Compõe-se de:
_ corpo: linhas e colunas que contém os valores das variáveis em estudo.
_ cabeçalho: parte superior que especifica o conteúdo das colunas.
_ coluna indicadora: coluna que indica o conteúdo das linhas.
_ casa ou célula: espaço destinado a uma só informação.
_ título: conjunto de informações sobre a tabela (O quê? Quando? Onde?) localizada
no topo da tabela.
EXEMPLO:
10
Normas para células
_ usar um traço horizontal (—) quando o valor é nulo quanto à natureza das coisas ou
resultado do inquérito.
_ três pontos (: : :) quando não temos dados.
_ um ponto de interrogação (?) quando temos dúvida quanto à exatidão do valor.
_ zero (0; 0,0; 0,00) quando o valor é muito pequeno para ser expresso pela grandeza
utilizada.
3.2 Séries históricas, cronológicas, temporais ou marchas
Descrevem os valores da variável, em determinado local, discriminados segundo
intervalos de tempo variáveis.
EXEMPLO:
3.3 Séries conjugadas – tabela de dupla entrada
Constituem-se da conjugação de uma ou mais séries.
EXEMPLO: Podemos ter a conjugação de uma série geográfica com uma série
histórica.
11
3.4 Distribuição de frequência
São dados agrupados de acordo com intervalos de valores das variáveis.
EXEMPLO:
3.5 Dados absolutos e dados relativos
Dados absolutos são aqueles resultantes da coleta direta da fonte, sem outra
manipulação senão contagem ou medida. Os dados relativos são resultados de
especificações por quociente (razões) para facilitar a compreensão entre as quantidades.
12
3.5.1 Porcentagem
Os dados relativos são especificados como uma razão relativa ao total, que
equivale a uma centena (100) ou uma unidade (1).
EXEMPLO:
Total do rebanho: 1456 (100%)
Bovinos: 860/1456 = 0,59 (59%)
Ovinos: 354/1456 = 0,243 (24%)
Caprinos: 30/1456 = 0,02 (2%)
Suínos: 212/1456 = 0,1456 (15%)
RELATIVO A 100:
RELATIVO A 1:
13
3.5.2 Índices
Os índices são razões entre duas grandezas tais que uma não inclui a outra.
EXEMPLO:
3.5.3 Coeficientes
Os coeficientes são razões entre o número de ocorrências e o número total
(ocorrências e não ocorrências).
EXEMPLO:
14
3.5.4 Taxas
As taxas são os coeficientes multiplicados por uma potência de 10 (10, 100,
1000, ...) para tornar o resultado mais legível.
EXEMPLO:
Taxa de mortalidade = coeficiente de mortalidade x 1000
4 GRÁFICOS ESTATÍSTICOS
O gráfico estatístico é uma forma de apresentação dos dados estatísticos cujo
objetivo é o de produzir uma impressão mais rápida e viva do fenômeno em estudo.
A seguir são apresentados vários tipos de gráficos baseados na mesma série
estatística apresentada na tabela abaixo.
4.1 Gráficos em linha ou curva
Este tipo de gráfico usa uma linha poligonal para representar a série estatística.
Para ficar mais claro pode ser hachurado (preenchido).
15
4.2 Gráficos em colunas ou em barras
Este tipo de gráfico usa colunas para representar a série estatística. Podem ser
verticais ou horizontais e conter barras múltiplas.
4.3 Gráfico em setores
É o tipo de gráfico construído com base num círculo. É útil para representar
frações em relação ao total.
16
5 DISTRIBUIÇÃO DE FREQUÊNCIA
5.1 Tabela Primitiva e Rol
A tabela em que os elementos não foram organizados numericamente chama-se
tabela primitiva. Por exemplo, considere o levantamento de dados da estatura de 40
alunos da escola A (variável x), cujos resultados, em centímetros, mostrados na tabela a
seguir, estão colocados na sequência como foram obtidos.
O primeiro passo para a organização dos dados é ordená-los de forma crescente
ou decrescente. A tabela assim organizada recebe o nome de rol.
17
A simples organização dos dados em um rol de ordem crescente já permite
determinar diretamente o menor valor (x = 150 cm), o maior valor (x = 173 cm), o valor
que mais ocorre (x = 160 cm), e a amplitude da variação (a distância entre o maior e o
menor, ∆x = 173-150 = 23 cm).
5.2 Distribuição de Frequência
Uma maneira mais concisa de mostrar os dados do rol é apresentar cada um
seguido pelo número de vezes que ocorre, ao invés de repetí-los. O número de
ocorrências de um determinado valor recebe o nome de frequência. Por exemplo, a
estatura de 155 cm ocorre 4 vezes que se escreve f(155) = 4; a estatura de 150 ocorre 1
vez ou f(150) = 1.
A tabela que contém todos os valores com a sua frequência recebe o nome de
distribuição de frequência. Veja abaixo uma distribuição de frequência construída a
partir do rol anterior (separada em 3 partes):
18
Ainda assim, o processo exige muito espaço em especial quando o número de
valores da variável (n) aumenta. O mais razoável nestes casos, em especial quando a
variável é contínua, é agrupar os valores por intervalos. Deste modo, ao invés de listar
cada um dos valores que ocorrem, listam-se os intervalos de valores e a frequência
correspondente, isto é, ao invés de colocar 1 aluno com 150 cm, 1 aluno com 151 cm,
etc., coloca-se 4 alunos entre 150 e 154 cm. Este intervalo é escrito como 150 a 154
que corresponde a 150 ≤ x < 154 (a variável pode estar desde 150 inclusive até 154
exclusive), portanto valores 150, 150.1, 151, 152, 153, 153.5, 153.99 estariam neste
intervalo, mas 154 não. Definindo o rol de acordo com intervalos, tem-se a seguinte
tabela:
Procedendo desta forma perde-se a informação detalhada das estaturas, mas se
ganha em simplicidade, pois a análise dos dados fica simplificada. Examinando a tabela
acima, podemos facilmente verificar que a maioria dos alunos tem estaturas entre 154 e
166 cm e que uma minoria é menor que 154 cm ou maior que 170. Esta análise não é
imediata da tabela em que todos os valores são listados. Por outro lado, se desejarmos
saber quantos alunos tem 150 cm de altura, esta informação não estará disponível pois
somamos os alunos de 150, 151, 152 e 153 cm numa única classe da distribuição de
frequência.
19
Frequentemente procedemos desta forma numa análise estatística, pois o
objetivo da estatística é justamente fazer o apanhado geral das características de um
conjunto de dados, desinteressando-se por casos particulares.
5.3 Elementos de uma Distribuição de Frequência
5.3.1 Classe
As classes são intervalos de variação de uma variável. As classes são
representadas simbolicamente por i, sendo i = 1; 2; : : : ; k, onde k é o número total de
classes. O número total de valores é simbolizado por n.
Assim, no exemplo, o intervalo 154 a 158 define a segunda classe (i = 2), o
intervalo 166 a 170 define a quinta classe (i = 5) e assim por diante. Como a
distribuição tem seis classes, logo k = 6. A variável x assume 40 valores, logo n = 40.
5.3.2 Limites de Classe
Os limites de classe são os extremos de cada classe. Para uma determinada
classe i, o limite inferior é simbolizado por li e o limite superior por Li.
O limite inferior da segunda classe é escrito como l2 = 154, enquanto o limite
superior da segunda classe é escrito como L2 = 158.
De acordo com o IBGE1 as classes devem ser escritas como desta quantidade
até menor que aquela, usando para isso o símbolo a . Assim, li a Li significa
inclusão de li e exclusão de Li. O indivíduo com estatura 158 cm estaria na terceira
classe (i = 3) e não na segunda.
5.3.3 Intervalo de Classe
A amplitude de um intervalo de classe ou simplesmente intervalo de classe é
o tamanho do intervalo que define a classe. O intervalo da classe i é simbolizado por hi
e é obtido pela diferença entre os seus limites:
20
No exemplo que usamos, o tamanho do intervalo da segunda classe (h2) vale
Todos as outras classes do exemplo também tem intervalo de 4 cm, pois este é o
intervalo entre cada um dos limites inferiores e os limites superiores correspondentes.
5.3.4 Amplitude Total da Distribuição
A amplitude total da distribuição (AT) é o intervalo total compreendido por
todas as classes da distribuição, isto é, desde o limite inferior da primeira classe (l1) até
o limite superior da última classe (Lk). Matematicamente, escrevemos isso como
Ainda no nosso exemplo, temos seis classes (k = 6). O limite superior da última
classe (i = 6) vale L6 = 174, enquanto o limite inferior da primeira classe (i = 1) vale l1
= 150. Portanto,
Numa distribuição em que as classes que possuem o mesmo intervalo, a
amplitude total pode ser escrita como o intervalo de classe multiplicado pelo número de
Classes
5.3.5 Amplitude Amostral
A amplitude amostral (AA) é o intervalo entre o maior valor (máx(x)) e o
menor valor (mín(x)) dos dados da amostra:
21
No exemplo a maior estatura é 173 e a menor 150, logo AA = 173 - 150 = 23
cm.
5.3.6 Ponto Médio de uma Classe
O ponto médio de uma classe é o ponto que divide a classe ao meio. O ponto
médio da classe i é simbolizado por xi e calculado efetuando-se a média entre os limites
da classe:
No nosso exemplo, o ponto médio da segunda classe é
O ponto médio de uma classe é o valor representativo da classe.
5.3.7 Frequência Simples ou Absoluta
A frequência simples ou frequência absoluta ou simplesmente frequência de
uma classe ou de um valor individual é o número de vezes que o valor ocorre numa
amostra. A frequência da classe i é representada por fi. Assim, no exemplo temos
A soma de todas as frequências é representada pelo símbolo de somatório
,
significa a soma dos fi sendo que i vai desde 1 até k. Pode-se entender que
a soma de todas as frequências é igual ao número total de valores na amostra:
22
Quando não há dúvidas, podemos escrever simplesmente:
No
nosso
exemplo,
escrever
é
como
escrever
, ou seja:
Neste ponto podemos reescrever a distribuição de frequência com a seguinte
representação técnica da tabela:
5.4 Determinação do Número de Classes e Intervalos de Classe
Quando dispomos de uma tabela primitiva ou de um rol, precisamos estabelecer
a quantidade e o intervalo das classes que vamos criar, de outro modo a distribuição de
frequência pode não ser útil para a nossa análise.
23
Uma das maneiras de determinar o número de classes é usando a Regra de
Sturges que determina k em função de n:
onde k é o número de classes e n o número de dados. Da mesma forma podemos usar
outra regra que associa k e n de outra forma:
No
nosso
exemplo,
usando
a
Regra
de
Sturges
,
utilizamos 6 classes. Com a outra regra, temos
temos
portanto
, cujo
resultado para o número de classes é o mesmo.
Sabendo o número de classes (k) que vamos usar, podemos determinar o
intervalo de classes através da amplitude total da distribuição (AT).
Nas equações acima foi usado o símbolo de aproximadamente (≈) ao invés de
igualdade (=) porque estas fórmulas representam valores típicos a serem usados, mas
que podem ser alterados ligeiramente de acordo com o objetivo da distribuição ou para
evitar classes com frequências nulas enquanto outras têm valores muito altos. Com
relação ao intervalo de classe, lembre-se que a amplitude total (AT) deve ser
ligeiramente maior que a amplitude amostral (AA) para que a distribuição tenha
intervalos para incluir todos os valores da amostra.
24
5.5 Tipos de Frequências
5.5.1 Frequências Simples ou Absoluta
Frequências simples ou absoluta (fi) são os valores que diretamente representam
o número de dados de cada classe. A soma de todas as ocorrências em cada classe é
igual ao número total de dados:
5.5.2 Frequências Relativas
Frequências relativas (fri) são as razões entre as frequências simples (fi) e a
frequência total (n):
A frequência relativa de uma classe mostra a parcela que aquela classe
representa da amostra. Assim, a frequência relativa da terceira classe do nosso exemplo
é:
então a terceira classe corresponde a uma fração de 0.275 do total ou 27.5 %.
5.5.3 Frequência Acumulada
Frequência acumulada (Fi) é a soma das frequências simples de todas as classes
com intervalos inferiores a uma determinada classe:
25
Assim, ainda no exemplo dos alunos, a frequência acumulada correspondente à
terceira classe é
que significa que existem 24 alunos com estatura inferior a 162 cm (limite superior da
terceira classe).
5.5.4 Frequência Acumulada Relativa
Frequência acumulada relativa (Fri) é a frequência acumulada da classe dividida
pela frequência total da distribuição:
Logo, para a terceira classe, temos:
que significa que a fração de 0.6 alunos (ou 60%) tem estaturas inferiores à 162 cm
(limite superior da terceira classe).
A tabela completa do nosso exemplo fica assim:
26
Examinando a tabela, vemos, por exemplo, que a terceira classe corresponde a
maior fração de alunos (fr3 = 0,275), isto é, a maioria dos alunos tem estatura entre 158
cm (inclusive) e 162 cm (exclusive). Também é possível ver que 80% dos alunos têm
estatura inferior a 166 cm, pois a frequência acumulada até a quarta classe (L4 = 166) é
0.800 que corresponde a 80%.
5.6 Representações Gráficas de uma Distribuição
5.6.1 Histograma
O histograma é formado por um conjunto de retângulos justapostos cujas bases
se localizam sobre o eixo horizontal, de tal modo que os seus pontos médios coincidam
com os pontos médios dos intervalos de classe e seus limites coincidam com os limites
da classe.
Um histograma para a frequência simples é mostrado abaixo:
27
6 MEDIDAS DE POSIÇÃO
6.1 Média Aritmética
A média aritmética, simbolizada por x , é o quociente entre a soma dos valores
de uma variável pelo número de valores
Média simples – dados não agrupados:
Média ponderada – dados agrupados:
28
Desvio da média – a diferença entre o valore e a média:
6.1.1 Propriedades
Desvios A soma dos desvios é nula:
Constante aditiva Somando uma constante C a todos os valores de uma variável, a
média do conjunto fica aumentada desta constante2:
Constante multiplicativa Multiplicando uma constante C a todos os valores de uma
variável, a média do conjunto fica multiplicada desta constante3:
29
30
6.2 Moda
A moda (Mo) é o valor que ocorre com mais frequência na distribuição.
Quando os dados estão agrupados em classes, a moda corresponde a frequência
simples mais alta e o valor da moda é tomado como o ponto médio do intervalo da
classe. Se os limites inferior e superior da classe mais frequente são
, a moda
.
será
6.3 Mediana
A mediana ou valor mediano (Md) é o valor que divide a série ordenada em
dois conjuntos com o mesmo número de valores. Se a série tem um número ímpar de
valores, a mediana é o valor que está no meio (ponto mediano) da série. Se a série tem
um número par de valores, então utiliza-se como mediana o valor médio entre os dois
valores que estão no meio da série.
31
6.4 Posição relativa da média, mediana e moda
No caso de uma distribuição simétrica (caso (a) na figura abaixo), as média, a
mediana e a moda tem o mesmo valor. Entretanto, se a distribuição apresenta alguma
tendência para valores positivos ou negativos, as medidas de posição poderão diferir.
No caso de uma distribuição assimétrica positiva (caso b abaixo) tem-se que
. No caso de uma distribuição assimétrica negativa, tem-se que
.
7 MEDIDAS DE DISPERSÃO
7.1 Variância e desvio padrão
Para determinar a dispersão de uma série de medidas poder-se-ia usar a soma de
todos os desvios
dos valores com relação a média dividido pelo
número de valores, assim obtendo uma média dos desvios. Entretanto, como esta soma
é nula
, usa-se a soma dos desvios ao quadrado, pois elevando-se ao
quadrado, perde-se a informação do sinal. Deste modo, define-se a variância como
Além disso, como a variância é uma medida que envolve o quadrado das
quantidades, é comum usar a raiz quadrada da variância, chamado de desvio padrão:
32
que em algumas situações evita arredondamentos usados nas outras equações
produzindo resultados mais precisos.
EXEMPLO:
33
7.2 Interpretação do desvio padrão
O desvio padrão indica a dispersão dos dados dentro da amostra, isto é, o quanto
os dados em geral diferem da média. Quanto menor o desvio padrão, mais parecidos são
os valores da série estatística. Nos exemplos acima, nota-se que tanto a série xi quanto
yi têm o mesmo número de dados e ambas tem a mesma média, entretanto o desvio
padrão de xi é bem maior que de yi, que indica que os dados em xi estão mais afastados
da média que em yi. De fato, se examinamos as séries, vemos que em xi há valores que
estão até 3 unidades afastadas da média (7 e 13), enquanto na série yi o maior
afastamento é de 1 unidade (9 e 11).
Numa distribuição normal e simétrica, o desvio padrão é calculado dá uma ideia
de onde estão localizados os valores da amostra, em torno da média, da seguinte
maneira:
34
7.3 Coeficiente de variação
Para comparar a variação do desvio padrão com a média, usa-se a razão entre o
desvio padrão e a média, chamado de coeficiente de variação, que muitas vezes é
multiplicado por 100 para dar o resultado em porcentagem:
35
8 PROBABILIDADE EM ESPAÇOS AMOSTRAIS DISCRETOS
Definição 1.1: Associado a cada experimento, E, pode-se associar um espaço amostral,
Ω, o conjunto de todos os resultados possíveis. Que dependendo da natureza do
experimento poderá não ser único.
36
Às vezes o espaço amostral de um experimento não é tão fácil de ser definido.
Por exemplo, no experimento 7, quais os resultados possíveis deste experimento?
Números reais entre 0 e ?. Supondo que não exista uma altura máxima, talvez seja
razoável fazer Ω = (0;∞). Mas é evidente que esse conjunto contém resultados
impossíveis, tais como um milhão ou um bilhão de metros. Outros candidatos para Ω
seriam, por exemplo, os intervalos limitados (0; 3) e [1/10; 3]. Os dois intervalos
contêm, aparentemente, todos os resultados possíveis do experimento. Esta propriedade
37
já é suficiente para nossos propósitos, e podemos escolher qualquer desses intervalos
(incluindo (0;∞)) para o espaço amostral. O importante, então, é que Ω contenha todo
resultado possível.
A importância do espaço de resultados provém, sobretudo, de ser o meio
empregue para a definição de eventos. Há, em regra, muito mais interesse nos
acontecimentos e nas famílias de acontecimentos de que nos elementos do espaço
amostral.
Definição 1.2: Qualquer subconjunto do espaço amostral - será chamado evento e será
denotado por: A, B, C, . . . .
Se A e B são incompatíveis a interseção não é possível. Contorna-se essa
dificuldade introduzindo a noção de acontecimento impossível como resultado da
interseção de dois acontecimentos incompatíveis; a noção vem em correspondência com
a de conjunto vazio na álgebra de conjuntos e por isso se representa pelo mesmo
símbolo, Ø. Assim, A e B, são incompatíveis se e só se, A∩B = Ø. O acontecimento, Ω,
costuma designar-se por acontecimento certo.
9 PROBABILIDADE CONDICIONAL E EVENTOS INDEPENDENTES
Há casos em que se deseja saber a probabilidade de um evento A, desde que
ocorra um outro evento B. É a conhecida probabilidade condicional, isto é,
probabilidade de A dada a ocorrência de B, que é simbolizada por:
P(A | B) #1.1#
Desde que B deve necessariamente ocorrer, o conjunto B pode ser considerado
um espaço amostral restrito para este caso. E o evento a considerar não é todo o
conjunto A, mas apenas os elementos de A que também estão em B, isto é, A Interseção
B. Então a probabilidade é calculada por:
#2.1#
38
Se numerador e denominador são divididos pelo número de elementos no espaço
amostral S, a probabilidade condicional fica definida em função de outras
probabilidades:
#A.1#
Exemplo 01: seja S = {1, 2, 3, 4, 5, 6} o espaço amostral do lançamento de um dado
ideal.
Consideram-se os eventos:
• resultado 3, 4 ou 6: A = {3, 4, 6}. Portanto, P(A) = 3/6 = 1/2
• resultado par: B = {2, 4, 6}. Portanto, P(B) = 3/6 = 1/2
A interseção é: A Interseção B = {4, 6}. Portanto, P(A Interseção B) = 2/6 = 1/3
E a probabilidade de resultado 3, 4 ou 6 dado que é par é calculada por:
P(A | B) = (1/3) / (1/2) = 2/3
Voltando à igualdade #A.1#, pode-se concluir que, se o evento A não depende do
evento B, a probabilidade de A condicionada à ocorrência de B deve ser igual à
probabilidade de A, ou seja,
#B.0#
Reagrupando essa igualdade, obtém-se a definição:
Se A e B são eventos independentes,
P(A Interseção B) = P(A) P(B)#B.1#
39
No exemplo 01 anterior, P(A Interseção B) = 1/3 ≠ P(A) P(B) = 1/4. Portanto, os
eventos não são independentes.
Exemplo 02: duas moedas ideais são jogadas. Verificar se os eventos cara na primeira e
cara na segunda são independentes.
Supondo c cara e r coroa, o espaço amostral é S = {cc, cr, rc, rr}
Se A é o evento cara na primeira, A = {cc, cr} e P(A) = 1/2
Se B é o evento cara na segunda, B = {cc, rc} e P(B) = 1/2
A interseção de ambos é A Interseção B = {cc} e a probabilidade é P(A Interseção B) =
1/4
Então, P(A Interseção B) = 1/4 = P(A) P(B)
Portanto, os eventos A e B são independentes (isso pode ser deduzido fisicamente
porque o resultado de uma moeda não interfere no resultado da outra).
Exemplo 03: em um baralho comum de 52 cartas, verificar se os eventos retirar um ás e
retirar uma carta de ouro são independentes.
O espaço amostral S é formado pelas 52 cartas, cada uma com probabilidade 1/52.
Considerando A = retirar um ás, P(A) = 4/52 = 1/13
Considerando B = retirar uma carta de ouro, P(B) = 13/52 = 1/4
A interseção é retirar um ás de ouro e, portanto, P(A Interseção B) = 1/52
40
Calculando o produto, P(A) P(B) = (1/13) (1/4) = 1/52 = P(A Interseção B). Portanto, os
eventos são independentes.
10 VARIÁVEIS ALEATÓRIAS
Em muitos experimentos é muito mais fácil trabalhar com uma variável resumo
do que com a estrutura de probabilidade original. Por exemplo, numa pesquisa de
opinião, decidimos perguntar a 50 pessoas se elas concordam ou discordam com um
determinado assunto. Quando a pessoa concorda registramos o valor 1 quando discorda
0, o espaço amostral desse experimento contém 250 = 1125899906842624 elementos são
todos os resultados possíveis que podem ocorrer quando 50 pessoas são consultadas.
Seria interessante reduzir esse espaço para um de tamanho razoável. De que forma?
Contando nessas 250 sequências de tamanho 50 cada número de pessoas que concordam.
Dessa forma o espaço seria reduzido à X = {0; 1; 2; : : : ; 50} o qual possui 50
elementos que é muito mais fácil de trabalhar.
Quando definimos uma quantidade X, estamos definindo uma aplicação (uma
função) do espaço amostral original em um novo espaço amostral, usualmente um
subconjunto dos números reais.
Definição 3.1. Uma variável aleatória é uma função do espaço amostral Ω nos números
reais.
Exemplo 3.1. Em muitos experimentos variáveis aleatórias são implicitamente
utilizadas.
Quando definimos uma variável aleatória, estamos definindo um novo espaço
amostral (o campo de variável aleatória). Precisamos, agora, verificar que a função de
probabilidade definida em nosso espaço original - pode ser usada no novo espaço
amostral.
41
Suponha que o espaço amostral
com a função de probabilidade P e definida a variável aleatória X a qual assume valores
{x1; x2; : : : ; xm}. Podemos definir a função de probabilidade PX (que na realidade é a
probabilidade P induzida em X) da seguinte maneira. Observamos que X = xi se e
somente se o resultado do experimento aleatório é um wj tal que X(wj) = xi. Assim,
42
11 DISTRIBUIÇÃO DE PROBABILIDADE
DISTRIBUIÇÃO BINOMIAL
Para que uma situação possa se enquadrar em uma distribuição binomial, deve
atender às seguintes condições:
Se uma situação atende a todas as condições acima, então a variável aleatória X
= número de sucessos obtidos nas n tentativas terá uma distribuição binomial, com n
tentativas e p (probabilidade de sucesso).
Simbolicamente, temos: X ~ B(n,p) com a interpretação dada a seguir:
43
Para exemplificar a utilização da distribuição binomial, você deve considerar
que pessoas entram em uma loja no período próximo ao Dia das Mães. Sabe-se que a
probabilidade de uma pessoa do sexo masculino comprar um presente é de 1/3. Se
entrarem quatro pessoas do sexo masculino nesta loja, qual a probabilidade de que duas
venham a comprar presentes?
Se as quatro pessoas entram na loja e duas delas compram, podemos colocar as
possibilidades da seguinte forma (C ⇒ compra e não- C ⇒ não compra). O espaço
amostral associado ao experimento é:
Logo, calculando as probabilidades usando as regras do “e” (multiplicação, pois
são independentes) e do “ou” (soma), a probabilidade de dois clientes do sexo
masculino comprarem presentes é:
44
Agora, você deve calcular utilizando a função de probabilidade apresentada
anteriormente e verificar que o resultado será o mesmo.
Os valores da média e da variância da distribuição binomial são:
Média = np
Variância = npq
Um outro exemplo de utilização da distribuição binomial é o seguinte. Em um
determinado processo de fabricação, 10% das peças seguinte. Em um determinado
processo de fabricação, 10% das peças produzidas são consideradas defeituosas. As
peças são acondicionadas em caixas com cinco unidades cada uma. Considere que cada
peça tem a mesma probabilidade de ser defeituosa (como se houvesse repetição no
experimento de retirar uma peça).
45
DISTRIBUIÇÃO NORMAL
É a mais importante entre as distribuições de probabilidade, porque muitas
variáveis aleatórias de interesse prático são normais ou podem ser transformadas para
normais de maneira relativamente simples.
A distribuição normal, por definir uma função, pode ser traçada através de uma
equação relacionando os valores dos eixos x e y. Essa equação que mostramos abaixo é
complexa e não usaremos na análise das propriedades, acreditando, assim, que a própria
curva pode estar definindo a distribuição, sendo possível dispensar desta maneira a
interpretação da fórmula. No entanto, para os mais interessados, aí está:
1
f(x)=
σ 2π
e
1  x − x 
− 
2  σ 
2
onde:
46
1
= constante;
σ 2π
x = uma variável aleatória que assume todo e qualquer valor real;
ex = número neperiano = 2,71828...;
µ = média da distribuição normal;
s = desvio padrão da distribuição normal.
A representação gráfica da distribuição normal é uma curva em forma
de sino, simétrica em torno da µ , que recebe o nome de curva normal ou curva de
Gauss.
f(x)
−3σ
−2σ
−1σ
µ
1σ
2σ
3σ
x
Para uma perfeita compreensão da distribuição normal, observe a curva acima e
procure visualizar as seguintes propriedades:
a. na distribuição normal o cruzamento do eixo de simetria com o eixo x coincide
com a média (µ) da distribuição de valores, quando eles forem em número suficiente
para garantir a fidelidade à distribuição;
b. como conseqüência da primeira propriedade, podemos esperar que, numa
distribuição normal, não apenas a média coincida com o eixo de simetria, mas também
a moda e a mediana do conjunto de valores;
c. a área total sob a curva normal f(x) é considerada igual a l ( 100% );
d. como a curva é simétrica em torno da média ( µ ), a probabilidade de ocorrer
valor maior que a média é igual a probabilidade de ocorrer valor menor que a média,
isto é, ambas as probabilidades são iguais a 0,5.
Escrevemos:
P ( x > µ ) = P ( x < µ ) = 0,5
µ
47
Quando temos em mãos uma variável aleatória com distribuição normal, nosso
principal interesse é obter a probabilidade dessa variável assumir um valor em um
determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto:
Exemplo:
Seja x uma variável que representa os diâmetros dos parafusos produzidos por
certa máquina. Vamos supor que essa variável tenha distribuição normal com média
µ = 2 cm e desvio padrão s = 0,04 cm .
Pode haver interesse em conhecer a probabilidade de um parafuso ter
diâmetro com valor entre 2 e 2,05 cm.
É fácil notar que essa probabilidade, indicada por:
P ( 2 < x < 2,05 ) corresponde à área hachurada na figura abaixo:
2
2,05
O cálculo direto dessa probabilidade exige um conhecimento de Matemática
mais avançado do que aquele que dispomos no curso de 2o grau . Entretanto, podemos
contornar facilmente esse problema. Basta aceitar, sem demonstração, que, se x é uma
variável aleatória com distribuição normal de média µ e desvio padrão s então a
variável:
Z =
x−µ
σ
tem distribuição normal reduzida, isto é, tem distribuição
normal de µ = 0 e desvio padrão s = 1.
As probabilidades associadas à distribuição normal padronizada são encontradas
em tabelas, não havendo necessidade de serem calculadas.
Voltamos, então ao nosso problema:
Queremos calcular P (2 < x < 2,05). Para obter essa probabilidade, precisamos
em 1o lugar, calcular o valor de Z que corresponde a x = 2,05 (x = 2 ⇒ Z = 0 pois µ =
2 ).
Z =
x−µ
σ
2,05 − 2
0,05
=
Z =
0,04
0,04
48
Z = 1,25
donde:
P ( 2 < x < 2,05 ) = P ( 0 < z < 1,25 )
Procuramos, agora na tabela A da página 100, o valor de Z = 1,25.
Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na
primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na
intersecção da linha e coluna correspondente encontramos o valor 0,3944, o que nos
P( 0 < z < 1,25 ) = 0,3944
permite escrever:
Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar
um diâmetro entre a média µ = 2 e o valor de x = 2,05 é 0,3944 ( 39,44 % )
Escrevemos então:
P( 2 < x < 2,05) = P( 0 < z < 1,25 ) = 0,3944 ou 39,44 %
Interpretação do desvio padrão na distribuição normal
O desvio padrão é a medida de dispersão mais utilizada em caso de distribuições
simétricas como por exemplo, a distribuição normal.
Qualquer distribuição normal é especificada por sua média e seu desvio padrão;
há uma distribuição normal distinta para cada combinação de média e desvio padrão.
A área sob a curva entre a média e um ponto arbitrário é função do número de
desvios padrões entre a média e aquele ponto.
−3σ
−2σ
−1σ
µ
68.26%
1σ
2σ
3σ
95.46%
99.74%
Para qualquer curva normal a área correspondente entre os pontos:
µ-s
µ - 2s
µ - 3s
µ - 4s
e
e
e
e
µ+s
µ + 2s
µ + 3s
µ + 4s
é
é
é
é
68,26%
95,46%
99,74%
99,994%
49
A representação gráfica de uma distribuição normal (curva normal) e a
interpretação do desvio padrão nela nos permite estabelecer considerações que nos
auxiliarão no controle do processo.
A partir das condições em que se realiza um experimento ou um teste estatístico,
podemos esperar um resultado ou outro. Se estivermos preparando um teste de controle
de qualidade na produção de um componente eletrônico à base de um único material e
fabricado com máquinas de alta precisão, podemos esperar
que algo como
99,74% ( µ ± 3s ) deles saiam em perfeitas condições e 0,26 % não seja aprovado
no controle.
Em outros casos, como na fabricação de um tipo de biscoito com cobertura e
recheio, por exemplo, a existência de diversos ingredientes, desde a farinha até o
chocolate da cobertura, causará maior variação no produto final, de modo que, se
estivermos controlando o peso, dificilmente conseguiremos mais de 95,46% ( µ ± 2s )
dos pacotes com peso dentro do limite estipulado por lei, que é de 1% acima ou abaixo
do valor marcado na embalagem.
As situações que acabamos de mencionar mostram que o estatístico deve ter
sensibilidade de prever os percentuais de erros possíveis no teste ou na estimativa que
ele estiver preparando, tentando, é claro, diminuí-los e, assim, aumentar a certeza, das
previsões.
Suponhamos uma indústria metalúrgica que produz rolamento com diâmetro
médio de 1,0 polegada. Podemos fixar como limite 95,46% da produção caia dentro do
intervalo de 0,9 a 1,1 polegadas. Isto significa que, se este critério for obedecido,
teremos certeza de que, em 95,46 % dos casos, qualquer amostra recolhida terá o
diâmetro nessa faixa. Entretanto, para que isto aconteça, é importante saber que o
índice de 95,46% no intervalo ou 47,73 % da média para cima ou para baixo
corresponde, pela leitura da tabela A da página 100, a 2s, o que nos conduz ao
seguinte valor para o desvio padrão:
2s = 0,1
s = 0,05
Este valor de desvio deve, então ser considerado como o máximo valor para que
as condições fixadas sejam obedecidas. Isto é, se um teste na produção apontar um
valor de desvio padrão s igual ou menor do que esse, teremos 95,46% ou mais de
certeza de que um rolamento qualquer que saia da fábrica tenha como diâmetro um
50
valor entre 0,9 e 1,1 polegadas. Estes percentuais fixados a priori para controle de uma
determinada variável são chamados níveis de confiança, e o intervalo [0,9 ; 1,1]
denomina-se intervalo de confiança.
Os níveis de confiança variam, conforme dissemos, de acordo com o
experimento que estiver sendo realizado, mas vale dizer, entretanto, que os mais
comuns são 95,46 % e 99,74% correspondendo respectivamente, a Z = 2 e Z = 3
A curva normal é muito utilizada em cálculos de probabilidades e para facilitar
estes cálculos é importante considerarmos:
µ
1. como a variável x (normal) tem a média µ e o desvio padrão s, podemos
descrevê-la como a variável Z.
Zi = µ − X i
σ
Zs = X s − µ
σ
onde:
Xi é a variável aleatória X ou limite inferior ( Li ) à média;
Xs é a variável aleatória X ou limite superior ( Ls ) à média;
Zi é a variável z anterior à média;
Zs é a variável z posterior à media.
2. a variável Z é descrita como a distância entre os limites Xi (Li) e Xs (Ls)) e a
média µ em unidades de desvio padrão s, ou seja, mede quantos desvios padrões cabem
entre os limites especificados e a média.
Exemplo:
A média dos diâmetros externos de uma amostra de 200 arruelas produzidas por
determinado equipamento foi de 0,502 cm, com um desvio padrão de 0,005cm. Sua
utilização se torna possível desde que o diâmetro externo não seja menor que 0,496
cm, nem maior que 0,508 cm. Se isso não se verificar, as arruelas serão consideradas
defeituosas. Admitindo que os diâmetros se distribuem normalmente, determine:
51
a) a percentagem de arruelas defeituosas produzidas pelo equipamento;
b) os limites de especificação ( LIE e LSE ) e a percentagem de arruelas
defeituosas produzidas pelo equipamento para um cliente que considera
arruela
perfeita aquela de um processo de fabricação com intervalo de confiança de 3s ( 99,74
% );
c) os limites de especificação ( LIE e LSE )
e a
percentagem de arruelas
defeituosas produzidas pelo equipamento para um cliente que considera arruela perfeita
aquela de um processo de fabricação com intervalo de 97% de confiança.
DADOS:
µ = 0,502
s = 0,005
LIE = Xi = 0,496 ( limite inferior especificado )
LSE = Xs = 0,508 ( limite superior especificado )
a)
Zi = µ − x i = µ − L IE
σ
Zs = x s − µ = L S E − µ
σ
σ
Zi = 0 ,5 0 2 − 0 , 4 9 6 = 0 , 0 0 6
0 ,0 0 5
Assim,
Zs = 0 ,5 0 8 − 0 ,5 0 2 = 0 , 0 0 6
0 ,0 0 5
Zi = 1,2 ⇒ 0,3849 (tabela A
pág. 100)
σ
0 ,0 0 5
0 ,0 0 5
Zs = 1,2 ⇒ 0,3849 (tabela A
pág. 100)
P ( 0,496 > X > 0,508 ) = 1 - [ P (0,496 ≤ X ≤ 0,508)]
= 1 - [ 0,3849 + 0,3849]
= 1 - 0,7698
= 0,2302 ( 23,02 %)
52
b)
3s ⇒
µ ± 3s
então:
LSE = µ + 3s
LIE = µ - 3s
LSE = 0,502 + 3.(0,005)
LIE = 0,502 - 3.(0,005)
LSE = 0,502 + 0,015
LIE = 0,502 - 0,015
LSE = 0,517
LIE = 0,487
DISTRIBUIÇÃO T DE STUDENT
A rigor, a utilização da distribuição z para a determinação de um intervalo de
confiança para a média amostral, só seria possível se o desvio padrão populacional
fosse conhecido. Entretanto, isso não ocorre na maioria dos estudos, onde se obtém o
desvio padrão a partir da amostra estudada.
Uma outra situação que ocorre com freqüência, é o estudo de amostras pequenas
(n ≤ 30). Existe uma distribuição muito parecida com a distribuição normal, que é a
distribuição t de student. Tal distribuição de probabilidades tem uma curva muito
parecida com a da normal padronizada (ver figura abaixo).
Figura mostrando a distribuição norma padronizada (linha cheia) e a distribuição t
(tracejado).
A utilização da distribuição t pressupõe normalidade dos dados da amostra. Na
prática, para amostras pequenas (n ≤ 30), a população da qual a variável foi submetida
53
à amostragem deve ter distribuição normal para se utilizar a estatística t. Já para
amostras grandes, isto não é necessário (lembrar do teorema do limite central).
Assim como para a distribuição normal, existe uma tabela padronizada para a
distribuição t, sendo que a utilização se difere da tabela z nos seguintes aspectos (ver
tabela t):
1. O valor de z na tabela independe do valor de n (elementos da amostra), enquanto o
valor de t depende do número de graus de liberdade (gl), que vale n-1.
2. Enquanto, para a tabela z, encontra-se a probabilidade de um valor entre 0 e z, para a
tabela t, existem probabilidades pré-estabelecidas, e são as probabilidades dos valores
acima ou abaixo de t (ver figura abaixo). Portanto é preciso cuidado nos julgamentos,
lembrando que: probabilidade de “sucesso” = 1 – probabilidade de “fracasso”.
Olhando para a tabela verificamos que existem os valores de t para as
probabilidades 0,10; 0,05; 0,025; 0,01; e 0,005; considerando uma cauda, ou seja,
probabilidade de um valor maior ou de um valor menor que t. Portanto, se queremos
intervalos de confiança para a média amostral, devemos calcular: 1 - o valor do
intervalo de confiança desejado, multiplicar este valor por 2 e buscar o valor de t na
tabela correspondente à área nas duas caudas (ver tabela). A fórmula que define o
intervalo de confiança para a média é:
54
Observe que o desvio padrão populacional foi substituído pelo amostral e a
estatística z pela t.
55
56
57
D Tabela de Números Aleatórios
Tabela construída de modo que 10 algarismos (0 a 9) são distribuídos ao acaso
nas linhas e colunas. Gerada pelo seguinte programa Perl (a cada invocação do
programa, a sequência de números será diferente):
58
12 EXERCÍCIOS
12.1 Noções básicas
1. Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por
ordem alfabética. Qual é a maneira mais rápida de amostrar 1/3 do total de prontuários?
2. Um pesquisador tem dez gaiolas quem contêm, cada uma, seis ratos. Como o
pesquisador pode selecionar dez ratos para uma amostra?
12.2 Apresentação de dados em tabelas
1. De acordo com o IBGE (1998), a distribuição dos homicídios ocorridos no brasil em
1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por
dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por
desilusão amorosa e 217 por outras causas. Apresente essa distribuição em uma tabela.
2. Construa uma tabela de distribuição de freqüência para apresentar os dados da tabela
2.10.
Tabela 2.10
Pressão arterial, em mm Hg, de cães adultos anestesiados e após laparotomia.
130,0
105,0
120,0
111,5
99,0
116,0
82,5
107,5
125,0
100,0
107,5
120,0
143,0
115,0
135,0
130,0
135,0
127,5
90,5
104,5
136,5
100,0
145,0
125,0
104,5
101,5
102,5
101,5
134,5
158,5
110,0
102,5
90,5
107,5
124,0
121,5
135,0
102,0
119,5
115,5
125,5
117,5
107,5
140,0
121,5
107,5
113,0
93,0
103,5
59
12.3 Apresentação de dados em gráficos
1. Faça um gráfico de barras e um gráfico de setores para apresentar os dados da tabela
3.3.
Tabela 3.3
Suicidadas segundo sexo. Brasil, 1986
Sexo
Frequência
Percentual
Masculino
3.562
74, 93
Feminino
1.192
25,07
2. Faça um histograma e um polígono de freqüências para apresentar dados da tabela
3.4.
Tabela 3.4
Cães adultos anestesiados segundo a pressão arterial em mm Hg
Classe
Ponto médio
Frequência
80 - 90
85
1
90 - 100
95
4
100 - 110
105
16
110 - 120
115
8
120 – 130
125
9
130 – 140
135
7
140 – 150
145
3
150 - 160
155
1
12.4 medidas de tendência central para amostra
1. Com base na tabela 4.5, calcule o peso médio dos ratos em cada idade.
60
Tabela 4.5
Peso, em g, de ratos machos da raça Wistar segundo a idade, em dias
Número do
Idade
rato
30
34
38
42
46
1
76,2
95,5
99,2
122,7
134,6
2
81,5
90,0
101,2
125,9
136,2
3
50,0
60,0
62,3
72,2
85,3
4
47,5
50,0
57,5
82,3
84,0
5
63,5
79,2
82,1
94,7
110,0
6
65,1
75,7
79,3
88,5
98,7
7
63,2
74,8
79,0
88,1
100,0
8
64,5
74,1
92,6
96,0
98,3
2. Determine a mediana dos dados apresentados na tabela 4.7.
Tabela 4.7
Percentual de água em cérebro de cobaias machos com 90 dias de idade
80,06
68,86
68,97
79,90
79,85
79,91
79,87
79,55
79,86
79,25
12.5 Medidas de dispersão para uma amostra
1. Calcule a variância e o desvio padrão dos dados apresentados na tabela 4.5, em cada
idade. Comente o resultado.
61
Tabela 4.5
Peso, em g, de ratos machos da raça Wistar segundo a idade, em dias
Número do
Idade
rato
30
34
38
42
46
1
76,2
95,5
99,2
122,7
134,6
2
81,5
90,0
101,2
125,9
136,2
3
50,0
60,0
62,3
72,2
85,3
4
47,5
50,0
57,5
82,3
84,0
5
63,5
79,2
82,1
94,7
110,0
6
65,1
75,7
79,3
88,5
98,7
7
63,2
74,8
79,0
88,1
100,0
8
64,5
74,1
92,6
96,0
98,3
2. Calcule a media, o desvio padrão e o coeficiente de variação dos dados apresentados
na tabela 5.7. Comente os resultados.
Tabela 5.7
Peso, em Kg, e comprimento, cm, de dez cães
Peso
Comprimento
23,0
104
22,7
107
21,2
103
21,5
105
17,0
100
28,4
104
19,0
108
14,5
91
19,0
102
19,5
99
62
12.6 Noções sobre correlação
1. Calcule o coeficiente de correlação para os dados apresentados na tabela 6.2.
2. Os diagramas de dispersão apresentados nas figuras 6.5 e 6.6 mostram a relação entre
o consumo per capita de gordura animal e de gordura vegetal, em gramas/dia, e a taxa
de mortalidade por câncer de mama, em 39 países. Parece existir forte relação entre o
consumo de gordura vegetal e o câncer de mama. Isso significa que a gordura vegetal
causa câncer de mama.
63
12.7 noções sobre regressão
1. Peralta et al. (1976) separam 100 ratos de 40 dias de idade em dois grupos de 50:
um grupo (controle) recebeu água a vontade, enquanto o outro grupo (tratado) foi
privado de água. Depois, em intervalos de 24 horas, sacrificaram 05 ratos de cada
64
grupo. Os encéfalos desses ratos foram removidos e pesados. Como no inicio do
experimento todos os ratos tinha 40 dias, os primeiros ratos sacrificados tinham 41
dias no dia do sacrifício, os dez seguintes tinham 42 dias, e assim por diante, até os
dez últimos, que tinham 50. As medias dos pesos dos cinco encéfalos, segundo a
idade no dia do sacrifício estão apresentados na tabela 7.8. Mostre esses dados em
gráficos de linhas.
2. Com os dados apresentados na tabela 7.9, faça um diagrama de dispersão. Verifique
que os dados não estão em torno de uma linha reta. Depois, faça uma transformação
variável definindo 1/x como variável explanatória. Faça um diagrama de dispersão.
Verifique que as variáveis 1/x e y estão praticamente sobre uma reta. Então, ajuste uma
regressão linear simples de y contra 1/x.
65
12.8 Distribuição binominal
1. A probabilidade de um menino ser daltônico é 8%. Qual é a probabilidade de serem
daltônicos todos os quatros meninos que se apresentaram, em determinado dia, para um
exame oftalmológico.
2. Apresente, em tabela e em gráfico, a distribuição do número de meninos que podem
ocorrer em uma família com seis crianças.
12.9 Distribuição normal
1. Em mulheres, a quantidade a quantidade de hemoglobina por 100ml de sangue é uma
variável aleatória com distribuição normal de média µ = 16g e desvio padrão σ = 1g.
Calcule a probabilidade de uma mulher apresentar de 16 a 18g de hemoglobina por 100
mL de sangue.
2. No problema anterior qual é a probabilidade de uma mulher apresentar mais de 18g
de hemoglobina por 100ml de sangue?
66
12.10 Teste t
1. Os valores apresentados na tabela 12.4 permitem testar a hipótese de que recémnascidos de ambos os sexos têm, em media, a mesma estatura. Teste essa
hipótese, ao nível de significado de 5%.
2.
2. Com base nos dados apresentados na tabela 12.5 teste, ao nível de significado de 5%,
a hipótese de que o calibre da veia esplênica é, em media, o mesmo, antes e após a
oclusão da veia porta.
12.11 Análise de variância
1. Com base nos dados apresentados na tabela 13.9, verifique se existe diferença
estatística entre os grupos. Note que são três grupos em comparação. No grupo operado
foi feita a redução das glândulas salivares maiores, e no grupo pseudo-operado foram
executados todos os tempos cirúrgicos, mas nenhuma glândula foi removida.
67
2. Faça a analise de variância e aplique o teste de tukey aos dados apresentados na
tabela 13.12.
Tabela 13.12
Amostras
A
B
C
24
9
20
19
16
25
26
14
18
25
9
19
22
12
18
26
23
27
68
13 REFERÊNCIAS BIBLIOGRÁFICAS
BUSSAB, W. O.; MORETTIN, P. Estatística Básica. São Paulo: Atual, 2002.
COSTA NETO, P. L. de O. Estatística. São Paulo: Edgard Blücher, 2002.
DOWNING, Douglas. Estatística aplicada. 2. ed. São Paulo: Saraiva, 2006.
FERRARI, Fabrício. Estatística Básica. Baseado em Estatística Fácil de Antônio
Arnot Crespo, Editora Saraiva, 1999.
FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatística.
Rio de Janeiro: LTC, 1982.
OLIVEIRA, Carlos Gomes de. Apostila de Introdução à Bioestatística aplicada à
Educação Física. UFRJ.
VIEIRA, Sonia. Introdução a bioestatística. 3. ed. Revisada e ampliada. Rio de
Janeiro: Campus, 1980.