CONTEÚDO I

Propaganda
UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO
INSTITUTO DE CIÊNCIAS EXATAS
Departamento de Matemática
Área de Estatística
IC 280 – ESTATÍSTICA BÁSICA
IC 281 – INTRODUÇÃO À BIOESTATÍSTICA
Marcelo Jangarelli
Prof. Adjunto – DEMAT/ICE/UFRRJ
Seropédica – Rio de Janeiro
Março – 2012
UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO
INSTITUTO DE CIÊNCIAS EXATAS
Departamento de Matemática
Área de Estatística
IC 280 – ESTATÍSTICA BÁSICA
IC 281 – INTRODUÇÃO À BIOESTATÍSTICA
Esta apostila constitui o material básico das disciplinas IC 280 – Estatística Básica e
IC 281 – Introdução à Bioestatística. Em todas as aulas serão feitas complementações
suplementares com o objetivo de atualizar, acrescentar novas informações relevantes ainda
não implementadas e facilitar o entendimento do material apresentado.
Marcelo Jangarelli
Prof. Adjunto – DEMAT/ICE/UFRRJ
Seropédica – Rio de Janeiro
Março – 2012
Sumário
I
Somatório
01
II
Análise Exploratória de Dados
04
III
Probabilidade
27
IV
Variáveis Aleatórias
35
V
Distribuições de Variáveis Aleatórias
40
VI
Inferência Estatística
44
VII
Listas de Exercícios
48
VIII
Gabarito
65
IX
Referência Bibliográfica Adicional
72
X
Tabela da Distribuição Normal
73
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO I
SOMATÓRIO
1 – INTRODUÇÃO
A notação de somatório é de grande importância para a estatística, pois a operação de
adição é fundamental nesta ciência. Utiliza-se Σ (sigma), letra grega maiúscula, para facilitar a
representação de somas com grande número de parcelas/termos.
As principais representações são:

n
x
i 1

→ Soma simples → x1 + x2 + x3 + ... + xn
i
n
x
i 1
2
i
→ Soma de quadrados → x12  x 22  ...  x n2
2
 n 
   xi  → Quadrado da soma → (x1 + x2 + ... + xn)2
 i 1 

n
 x y  → Soma de produto → x1y1 + x2y2 + ... + xnyn
i 1

i
i
n
n
i 1
i 1
 xi  yi → Produto das somas → (x1 + x2 + ... + xn) (y1 + y2 + ... + yn)
n
A expressão
x
i 1
i
é lida da seguinte maneira: Somatório ou soma de x índice i com i
variando de 1 até n.
A finalidade do índice i é indicar a ordem de cada parcela/termo da soma. O número
inferior indica a ordem da primeira parcela e o superior da última parcela. São também
chamados de limite inferior e limite superior, respectivamente.
Quando não se deseja somar todos os valores que se dispõe na notação do somatório
podem-se utilizar restrições indicando/limitando os termos/parcelas a serem somados.
n
Ex.:
x
i 1
i  2; 5
i
 x1  x3  x 4  x6  x7  ...  x n
1
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
O número de parcelas/termos (NP) da soma é dado por :
NP = (Ls – Li) + 1 ,
em que:
 Ls = limite superior;
 Li = limite inferior.
Se o somatório estiver sujeito a R restrições, o NP será dado por:
NP = (Ls – Li) + 1 – R ,
em que:
 R = número de restrições.
2 – PROPRIEDADES
As propriedades facilitam o desenvolvimento das expressões algébricas com a notação
do somatório.
 P1 → Somatório de uma constante (k) é igual ao produto do número de
termos/parcelas pela constante;
 P2 → O somatório do produto de uma constante (k) multiplicada por uma variável é
igual ao produto da constante pelo somatório da variável;
 P3 → O somatório de uma soma ou subtração de variáveis é igual à soma ou
subtração dos somatórios destas variáveis.
EXERCÍCIOS PROPOSTOS
1 – Considere as variáveis X e Y. Elas representam as notas de duas disciplinas para um
grupo de seis alunos.
X = {90 ; 95 ; 97 ; 98 ; 100 ; 60}
Y = {60 ; 70 ; 80 ; 60 ; 90 ; 75}
2
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Calcule:
6
a)
X
i 1
i
6
b)
X
i 1
2
i
 6

c)   X i 
 i 1 
2
6
d)
 X Y 
i i
i 1
 6
 6 
e)   X i .  Yi 
 i 1   i 1 
4
f)
 3X
i 1
i
2 – Obter o número de termos/parcelas para os seguintes somatórios:
8
a)
X
i 3
i
15
b)
Y
k 1
k  9 ;11
k
3
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO II
ANÁLISE EXPLORATÓRIA DE DADOS
1 – INTRODUÇÃO
A estatística é uma ciência de obtenção de informações a partir de dados numéricos.
Ela é entendida como a matemática aplicada a dados observados, fornecendo métodos para
geração, coleta, organização, descrição, análise e interpretação dos dados. O estudo estatístico
tem se revelado essencial no mundo moderno. Ao verificar os diferentes meios de
comunicação (internet, rádio, televisão, jornais e revistas) evidencia-se a relevância da
estatística para a sociedade.
A estatística faz parte do cotidiano de cada cidadão. Ela se mostra imprescindível para
a tomada de decisões, para a resolução de problemas e, principalmente, para a pesquisa
científica. Seu objetivo é proporcionar conhecimentos a partir de dados. Na estatística os
dados não são apenas números, mas sim números com um contexto, tornando-os
informativos. É fundamental conhecer a origem dos dados, contextualizando-os com as
questões a serem solucionadas. Devido à automatização na resolução de cálculos, bem como
na construção de gráficos e tabelas, o mais relevante que podemos obter de um estudo
estatístico é a compreensão de ideias e a interpretação dos resultados.
Vejamos algumas situações onde a estatística se torna foco central:
 Na pesquisa eleitoral, quando os percentuais de intenção de votos de cada candidato
são divulgados;
 Na pesquisa médica, quando se anuncia os benefícios de um novo medicamento;
 Na pesquisa de opinião sobre um novo produto lançado no mercado;
 Na divulgação de vítimas (mortos, feridos e desabrigados) por sinistros naturais;
 Na avaliação do desempenho de dado setor econômico (ex. agronegócio);
 Em discussões polêmicas (ex. a questão de produtos/alimentos transgênicos).
2 – DEFINIÇÕES
2.1 Variável: é uma característica qualquer do objeto em estudo. Pode ser classificada como:
 Variável Qualitativa: É uma variável que assume como possíveis valores, atributos ou
qualidades do objeto em estudo. Ela pode ser dividida em: i) Variável Qualitativa
4
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Nominal, se não existir nenhuma ordem em suas realizações e; ii) Variável Qualitativa
Ordinal, se existir uma ordem em suas possíveis realizações.
 Variável Quantitativa: É uma variável que assume como possíveis valores, números,
resultantes de uma contagem ou mensuração. Ela também pode ser dividida em: i)
Variável Quantitativa Discreta, no caso em que os possíveis valores/números formam
um conjunto finito ou infinito enumerável e; ii) Variável Quantitativa Contínua, para
o caso em que os possíveis valores/números formam um intervalo ou união de
intervalos de números reais.
2.2 População: é um conjunto de indivíduos (ou objetos) tendo pelo menos uma variável em
comum.
2.3 Amostra: é qualquer subconjunto da população.
3 – CONCEITOS
 Dados Brutos: São os dados coletados que não foram numericamente ordenados, ou
seja, são aqueles que não se encontram preparados para análise; Ex: 20 – 27 – 16 – 23
– 15 – 17 – 25 – 21 – 20 – 13
 Rol: é a série estatística quando dispõe os valores dos dados brutos em ordem
crescente ou decrescente; Ex: 13 – 15 – 16 – 17 – 20 – 20 – 21 – 23 – 25 – 27
 Amplitude Total (AT): é a diferença entre o maior e o menor valor da série estatística
em rol; Ex: AT = 27 – 13 = 14
 Frequência Absoluta (fi): é o número de vezes que determinado valor Xi é observado;
Ex: f15 = 1 ; f20 = 2
 Intervalo de Classe: é cada um dos intervalos disjuntos em que se subdivide o
conjunto total de valores observados da variável em estudo. Os intervalos de classe
podem ser apresentados pelos seguintes símbolos:
a├─┤b → ambos elementos (a e b) pertencem ao intervalo;
a├── b → apenas o elemento “a” pertence ao intervalo, já o elemento “b” não
pertence;
a ──┤b → apenas o elemento “b” pertence ao intervalo, já o elemento “a” não
pertence;
a ─── b → ambos elementos (a e b) não pertencem ao intervalo;
 Limite de Classes: são os extremos de cada intervalo de classe;
5
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Li → limite inferior → Li = a
Ls → limite superior → Ls = b
 Amplitude de Classe (h): é a diferença entre o limite superior e o limite inferior da
classe correspondente i;
hi = Ls – Li
 Ponto Médio (PM): é a média aritmética entre o Ls e o Li da classe correspondente,
isto é:
PM =
Ls  Li
2
hi
2
ou PM = Li +
 Frequência Acumulada (fai): é a soma da frequência absoluta (fi) da presente classe
com as frequências absolutas das classes anteriores;
 Frequência Relativa Simples (fri): é o quociente da frequência absoluta (fi) da
presente classe pelo número total de observações (n), isto é: fri =
fi
n
 Frequência Relativa Acumulada (frai): é o quociente da frequência acumulada (fai)
da presente classe pelo número total de observações (n), isto é: frai =
fai
n
 Distribuição de Frequência: é o arranjo dos valores numéricos (quantitativos)
observados em uma tabela com suas respectivas frequências. Se o conjunto de valores
de uma variável for muito grande devem-se agrupar os dados em Intervalos de Classes
com o objetivo de diminuir o tamanho da tabela e facilitar a visualização da variação
do fenômeno em estudo. Não há uma regra geral para determinar o número de classes
(k) de uma distribuição. É importante que a distribuição tenha um número adequado
de classes, pois um número muito reduzido ou muito extenso pode prejudicar a
interpretação do fenômeno em estudo. Há diversos métodos para determinar o número
de classes, entre eles citam-se:
 Se o número de observações for maior que 25 (n > 25), o número de classes (k)
é determinado por k =
n , caso contrário k = 5;
 Regra de Sturges, no qual o número de classes é obtido por: k = 1 + 3,22 log n
Determinado o número de classes (k), o segundo passo na construção de uma Tabela
de Distribuição de Frequência é determinar a amplitude da classe (h), que se
aproxima do quociente da amplitude total e o número de classes, ou seja:
hi =
6
AT
k
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
OBS: Na medida do possível recomenda-se que todas as classes apresentem a mesma
amplitude.
4 – APRESENTAÇÃO DOS DADOS
A apresentação dos dados para proporcionar uma melhor visualização do fenômeno
em estudo pode se dar por meio de Tabelas e Gráficos.
4.1 Tabelas
A organização dos dados por meio de tabelas talvez seja a forma mais simples de se
resumir um conjunto de observações. Todas as variáveis em estudo podem ser resumidas por
meio de uma tabela.
4.1.1 Elementos da Tabela
Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Os elementos
fundamentais de uma tabela são: título; cabeçalho, coluna indicadora e corpo.
O título aponta o fenômeno, época e local de ocorrência. O cabeçalho explica o
conteúdo das colunas. A coluna indicadora detalha as linhas. O corpo mostra os dados. De
modo complementar tem-se: fonte (citação da origem dos dados), notas (esclarecimento de
conteúdo e/ou metodologia utilizada) e chamadas (esclarecimento de pontos específicos da
tabela).
Tabela XX – Título respondendo as perguntas: o quê, onde e quando?
Cabeçalho
Conteúdo da Linha
Célula
Coluna
Coluna Indicadora
Fonte: Origem dos dados.
Nota: Informação esclarecedora.
Ressalta-se que as tabelas devem ser numeradas em ordem crescente ou em que
aparecem no texto, como é o caso de trabalhos científicos. As bordas superior e inferior
devem ser fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou
7
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
não as colunas no corpo da Tabela serem separadas por traços verticais. É conveniente
também que o número de casas decimais seja padronizado.
4.2 Gráficos
Além das tabelas, outra forma de apresentar os dados é por meio da utilização de
gráficos. A representação gráfica da distribuição de uma variável tem a vantagem de informar
sobre sua variabilidade de maneira rápida e concisa.
4.2.1 Gráficos de Variáveis Qualitativas
Diversos são os tipos de gráficos que podem ser utilizados para representar as
variáveis qualitativas. Limitamos a apresentar dois tipos: Gráficos em Barras e Gráficos de
Setores (“pizza”).
4.2.1.1 Gráfico em Barras
É um dos gráficos mais utilizados para representar variáveis qualitativas. Ele pode ser
assim caracterizado:
 O gráfico tem apenas uma escala, a que representa a frequência ou a percentagem em
cada nível da variável;
 A largura da barra utilizada não tem nenhum significado especial além da estética;
 Para facilitar a compreensão e análise, é preferível que as barras sejam apresentadas
segundo uma ordem sistemática. O critério mais utilizado é ordená-las por sua
magnitude;
 As barras devem ser colocadas preferencialmente no sentido horizontal, pois assim o
nome dos níveis (atributos) da variável pode ser melhor visualizado.
4.2.1.2 Gráfico de Setores
Também representa um gráfico bastante utilizado para representar variáveis
qualitativas. Neste gráfico, um círculo representa 100% das observações e cada nível da
variável é representado por um setor de área proporcional à frequência observada. Algumas
observações podem ser mencionadas a respeito da construção deste gráfico:
8
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
 Não é um gráfico recomendado para representar subdivisões dos níveis da variável;
 Não é recomendado quando o número de níveis da variável é muito grande.
4.2.2 Gráficos de Variáveis Quantitativas
4.2.2.1 Gráfico de Colunas
No gráfico em colunas os níveis das variáveis são representados por barras verticais.
4.2.2.2 Histograma
É uma representação gráfica por meio de retângulos justapostos, com base sobre o
eixo das abscissas. Em geral é utilizado para representar distribuições de variáveis
quantitativas contínuas, quando os dados estão agrupados em intervalo de classe (IC).
 A base do retângulo é o comprimento/amplitude do IC;
 A altura do retângulo pode ser representada pela frequência, proporção ou
percentagem da classe correspondente;
 A área total do histograma representa 100% das observações. Logo, a área total de um
histograma de frequência é igual a n; a de um histograma de proporção é igual a 1; e a
de um histograma de percentagem é igual a 100%.
4.2.2.3 Polígono de Frequência (Simples)
O polígono de frequência é construído de forma semelhante a do histograma.
Representa uma linha poligonal que une os pontos resultantes da ligação dos pontos médios
dos IC localizados no eixo das abscissas e das frequências dos IC no eixo das ordenadas. Para
fechar o polígono, unem-se os extremos da figura com o eixo das abscissas, nos quais
estariam os pontos médios das classes anterior e posterior, imediatamente antes da primeira
classe e após a última classe, respectivamente.
9
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4.2.2.4 Polígono de Frequência Acumulada ou Ogiva
É o gráfico representativo de uma distribuição acumulada de frequência e consta de
uma linha poligonal ascendente. No eixo horizontal (abscissas) inserem-se os limites
superiores de cada IC e no eixo vertical (ordenadas) as frequências acumuladas.
4.3 Ramo-e-Folhas
A forma da distribuição da variável em estudo é uma característica importante em um
conjunto de dados. Um procedimento alternativo para resumir um conjunto de valores, tendo
como objetivo a obtenção da forma de sua distribuição, é o Ramo-e-Folhas. Uma vantagem
deste diagrama sobre o histograma é que não perdemos (ou perdemos pouca) informação
sobre os dados em si.
Não existe uma regra fixa para construir o Ramo-e-Folhas, mas a ideia básica é dividir
cada observação em duas partes: a primeira (o Ramo) é colocada à esquerda de uma linha
vertical; a segunda (a Folha) é colocada à direita. Um ramo com muitas folhas significa maior
incidência daquele ramo. Uma maneira alternativa quando se dispõe de ramos excessivamente
grandes (com grande número de folhas) é duplicá-lo, sinalizando com um asterisco (*).
5 – MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL
O resumo dos dados provenientes da observação de uma variável quantitativa por
meio de gráficos e tabelas de frequências fornece informações sobre o comportamento
(distribuição) desta variável. As medidas de posição ou medidas de tendência central são
empregadas para resumir todo o conjunto de dados por meio de um ou alguns valores que
possam ser representativos para todos os dados. Quando utilizamos um único valor obtemos
uma redução drástica do conjunto de dados.
5.1 Média Aritmética
^
É a mais simples representação de um conjunto de dados. Representada por X , m ou
^
 , a média aritmética é definida como a soma de todas as observações dividida pelo número
total de observações, ou seja:
10
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
n
X  X 2  ...  X n

X= 1
n
X
i 1
i
n
Se os valores de X1, X2, ..., Xn ocorrem com respectivas frequências (pesos) fi (pi),
tem-se a Média Aritmética Ponderada, calculada pela fórmula:
n
f X  f 2 X 2  ...  f n X n

Xp= 1 1
f1  f 2  ...  f n
f X
i 1
n
i
f
i 1
i
i
5.1.1 Média Aritmética para dados agrupados em Intervalo de Classe
O cálculo da média aritmética é feito utilizando a fórmula:
n
fX
X =
i 1
n
i
f
i 1
i
,
i
em que:
 Xi ponto médio da i’ésima classe;
 fi frequência absoluta da i’ésima classe.
5.1.2 Propriedades da Média Aritmética
As propriedades a seguir são válidas para a média aritmética simples e ponderada.
 A soma algébrica dos desvios de um conjunto de números em relação à média
n
aritmética é zero. Logo,
(X
i 1
i
 X )  0;
 Somando ou subtraindo uma constante (k) a cada um dos valores de um conjunto de
dados (X1, X2, ..., Xn) a média aritmética ficará somada ou subtraída por esta constante;
 Multiplicando ou dividindo cada um dos valores de um conjunto de dados (X1, X2, ...,
Xn) por uma constante (k) a média aritmética ficará multiplicada ou dividida por esta
constante;
 Se todo o conjunto de dados apresenta valores iguais a um determinado
número/constante (k, k, ..., k) então a média aritmética é igual a este número/constante
(k).
11
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5.2 Moda
A moda (Mo) de um conjunto de dados/observações é o valor/atributo que ocorre com
maior frequência. É uma medida que pode ser calculada para quaisquer tipos de dados:
quantitativos e qualitativos. De acordo com o comportamento da série estatística de dados
podemos ter: Série Amodal; Série Unimodal; Série Bimodal; ...; Série Multimodal.
 EX1: 1, 2, 3, 4, 5. O conjunto não tem moda (Amodal);
 EX2: 1, 2, 2, 2, 3, 4. Mo = 2 (Unimodal);
 EX3: 1, 1, 2, 3, 4, 4, 5, 5. Mo = 1, 4 e 5 (Trimodal ou Multimodal).
5.2.1 Moda para dados agrupados em Intervalo de Classe
Para os valores de uma variável agrupados em intervalo de classe, dispostos em uma
tabela de Distribuição de Frequência, a moda é determinada identificando a classe que
apresenta a maior frequência absoluta (fi), chamada de classe modal e, posteriormente,
aplicando a fórmula:
Mo = Li 
1
.h ,
1   2
em que:
 Li = limite inferior da classe modal;
 ∆1 = diferença entre a frequência absoluta da classe modal e da classe anterior a classe
modal;
 ∆2 = diferença entre a frequência absoluta da classe modal e da classe posterior a
classe modal;
 h = amplitude da classe modal.
5.3 Mediana
A mediana (Md) é definida como sendo à medida que ocupa a posição central de uma
série de observações, estando elas ordenadas segundo suas grandezas (ordem crescente ou
decrescente). A mediana é o valor abaixo ou acima do qual se tem a metade dos
dados/observações, isto é, 50% da distribuição dos dados estão abaixo e 50% estão acima do
valor da mediana.
12
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Para determinar a posição do elemento mediano em um conjunto de dados (n) em rol
e, posteriormente, verifica-se qual é o valor da mediana, se faz necessário considerar dois
casos:
 Caso em que o número de dados (n) é ímpar:
PMd = X n 1
2
 Caso em que o número de dados (n) é par:
X n  X n2
2
PMd =
2
2
5.3.1 Mediana para dados agrupados em Intervalo de Classe
Para os valores de uma variável agrupados em intervalo de classe, dispostos em uma
tabela de Distribuição de Frequência, a mediana é determinada identificando a classe que
apresenta o elemento mediano (P), ou seja, a classe que apresenta o valor resultante da divisão
do número de observações/dados (n) por dois (P = n/2), chamada de classe mediana.
Posteriormente utiliza-se a fórmula:
Md = Li 
P  f aai
.h ,
fi
em que:
 P = posição do elemento mediano = n/2;
 Li = limite inferior da classe mediana;
 faai = frequência acumulada da classe anterior a classe mediana;
 fi = frequência absoluta da classe mediana;
 h = amplitude da classe mediana.
5.4 Outras Medidas de Posição – Quantis
Algumas vezes estamos interessados não apenas em dividir o conjunto de dados em
duas partes iguais, mas sim em quatro, dez ou 100 partes iguais. Essas medidas são chamadas
de Quartis, Decis e Percentis, respectivamente, dividindo a distribuição de dados em grupos
de mesmo tamanho.
A determinação dessas medidas é semelhante ao da mediana, com a diferença na
determinação do valor do Quantil (P).
13
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5.4.1 Quartil
Os quartis dividem o conjunto de dados em quatro partes do mesmo tamanho. O
primeiro quartil (Q1) deixa um quarto das observações abaixo e três quartos acima dele. O
segundo quartil (Q2 = Md) deixa metade dos valores abaixo e metade dos valores acima dele.
Já o terceiro quartil (Q3) deixa três quartos dos valores abaixo e um quarto acima dele.
Determinação da posição do Quartil i (Qi), ou seja, do PQi:
PQi =
i.n
4
Posteriormente identifica-se a classe que apresenta o valor PQi e aplica-se a fórmula:
Qi = Li 
PQi  f aai
fi
.h ,
em que:
 PQi = posição do elemento do Quartil i [PQi = (i.n)/4];
 Li = limite inferior da classe do Quartil i;
 faai = frequência acumulada da classe anterior a classe do Quartil i;
 fi = frequência absoluta da classe do Quartil i;
 h = amplitude da classe do Quartil i.
5.4.2 Decil
Os decis dividem o conjunto de dados em dez partes do mesmo tamanho.
Determinação da posição do Decil i (Di), ou seja, do PDi:
PDi =
i.n
10
Posteriormente identifica-se a classe que apresenta o valor PDi e aplica-se a fórmula:
Di = Li 
PDi  f aai
.h ,
fi
em que:
 PDi = posição do elemento do Decil i [PDi = (i.n)/10];
 Li = limite inferior da classe do Decil i;
 faai = frequência acumulada da classe anterior a classe do Decil i;
 fi = frequência absoluta da classe do Decil i;
14
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
 h = amplitude da classe do Decil i.
5.4.3 Percentil
Os percentis dividem o conjunto de dados em cem (100) partes do mesmo tamanho. O
percentil de ordem “i” (Pi) de um conjunto de valores dispostos em ordem crescente é um
determinado valor tal que pelo menos “i%” das observações são menores ou iguais a ele e,
consequentemente, pelo menos “(100 – i)%” são maiores ou iguais a ele. O percentil i = 50
(P50) é igual à mediana (Md), Q2 e D5.
Determinação da posição do Percentil i (Pi), ou seja, do PPi:
PPi =
i.n
100
Posteriormente identifica-se a classe que apresenta o valor PPi e aplica-se a fórmula:
Pi = Li 
PPi  f aai
.h ,
fi
em que:
 PPi = posição do elemento do Percentil i [PPi = (i.n)/100];
 Li = limite inferior da classe do Percentil i;
 faai = frequência acumulada da classe anterior a classe do Percentil i;
 fi = frequência absoluta da classe do Percentil i;
 h = amplitude da classe do Percentil i.
6 – MEDIDAS DE DISPERSÃO OU VARIABILIDADE
O resumo de um conjunto de dados por meio de uma única medida representativa de
tendência central (posição) esconde informações sobre a variabilidade deste conjunto. Desta
forma, a análise completa dos dados requer não somente sua apresentação por meio de
gráficos, tabelas e medidas de posição. Caracterizar um conjunto de valores apenas por
medidas de posição é inadequado e perigoso, pois os dados diferem entre si em maior ou
menor grau. Dois conjuntos com medidas de posição semelhantes, por ex. a média, podem
ficar sujeitos a erros em suas considerações, aferindo sobre sua homogeneidade
inadequadamente. As observações podem estar mais ou menos centradas em torno da média.
Neste contexto, as medidas de dispersão ou variabilidade apresentam um aspecto importante
na análise exploratória de dados.
15
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
6.1 Variância
A variância mede a dispersão dos valores em torno da média, sendo denotada por Var,
^
s2 ou  2 . Ela é dada pela soma dos quadrados dos desvios em relação à média aritmética
dividido por (n – 1) graus de liberdade (g.l.).
 n

X



i
n
n
i 1


2
2
(Xi  X )
Xi 


SQD i 1
n
Var = s2 =

 i 1
n 1
n 1
n 1
2
Se os valores X1, X2, ..., Xn estiverem associados as frequências f1, f2, ..., fn, a variância
é denotada por:
n

i 1
 n

  fi X i 

f i X i2   i 1 n
 fi
2
i 1
s2 =
n
f
i 1
i
1
6.1.1 Variância para dados agrupados em Intervalo de Classe
Utiliza-se a mesma fórmula da variância acima mencionada, quando os valores estão
associados à frequências:
n

i 1
s2 =
 n

  fi X i 

f i X i2   i 1 n
 fi
i 1
n
f
i 1
em que:
 fi = frequência absoluta da i’ésima classe;
 Xi = ponto médio da i’ésima classe.
16
i
1
2
,
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
6.2 Desvio Padrão
^
O desvio padrão é denotado por DP, s ou  . Ele é definido como a raiz quadrada
positiva da variância. É outra medida que fornece uma ideia a respeito da dispersão dos
valores em torno da média. Um desvio padrão grande significa que as observações se
dispersam muito em torno da média, ao passo que quando pequeno as observações se
concentram próximas à média, indicando pequena variabilidade entre as observações.
Ele é de grande utilidade na estatística inferencial, pois é uma medida de variabilidade
absoluta e sempre na mesma unidade das observações (dados) originais.
DP = s = Var  s 2
6.3 Intervalo Interquartílico
O intervalo interquartílico (ou intervalo interquartil) é a diferença entre o terceiro
quartil (Q3) e o primeiro quartil (Q1), isto é:
IQ = Q3 – Q1
6.4 Coeficiente de Variação
Comparar a variabilidade de duas séries estatísticas distintas, quando as médias ou
suas unidades de escala são diversas, torna-se impossível pela simples verificação do desvio
padrão. É necessário mencionar uma dispersão relativa, isto é, uma medida de variabilidade
relativa, tomando o desvio padrão em percentagens dos valores médios.
O coeficiente de variação é definido por:
CV(%) =
DP
. 100
X
A grande vantagem desta medida (C.V.) é que ela é adimensional, ou seja, independe
das unidades de escala, permitindo a comparação de diferentes conjuntos de dados. Quanto
maior o C.V. mais heterogênea é a amostra. Ao passo que quando um C.V. de pequena
magnitude indica homogeneidade na amostra.
17
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
6.5 Erro Padrão da Média
A média aritmética ( X ) é uma estimativa e por isso não é exata. A determinação do
erro no cálculo da média é feita por meio do desvio padrão, pois a variação da estimativa da
média com relação ao valor real está na dependência da variabilidade dos dados. O erro
padrão da média é definido como o quociente entre o desvio padrão e a raiz quadrada positiva
do número de observações (n).
SX 
DP
n
Note que o erro padrão da média [ S X ] é inversamente proporcional à raiz de n, ou
seja, quanto maior o tamanho da amostra utilizada para estimar a média menor será o erro
padrão da média.
7 – MEDIDAS DE ASSIMETRIA E CURTOSE
7.1 Medida de Assimetria
A medida de Assimetria ou Simetria é um indicador da forma da distribuição dos
dados. Ao construir uma distribuição de frequências e/ou histograma, busca-se identificar a
forma da distribuição dos dados, que pode ou não ser confirmada pelo Coeficiente de
Assimetria de Pearson (As).
As 
X  Mo
s
De acordo com o Coeficiente de Assimetria de Pearson (As), a distribuição pode ser
classificada como:
 Simétrica → As = 0;
 Assimétrica Negativa → As < 0;
 Assimétrica Positiva → As > 0.
18
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
7.2 Medida de Curtose
A medida de Curtose (K) mede o grau de achatamento da distribuição. É definido
como:
K
Q3  Q1 
2P90  P10 
A Curtose ou Achatamento é mais uma medida com a finalidade de complementar a
caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou
dispersão dos valores de um conjunto de dados em relação às medidas de tendência central
em uma distribuição de frequências.
Uma distribuição pode ser classificada com relação a sua medida de curtose como:
 Leptocúrtica → quando a distribuição apresenta uma curva de frequência bastante
fechada, com os dados fortemente concentrados em torno de seu centro (K < 0,263);
 Mesocúrtica → quando os dados estão razoavelmente concentrados em torno de seu
centro (K = 0,263);
 Platicúrtica → quando a distribuição apresenta uma curva de frequência mais aberta,
com os dados fracamente concentrados em torno de seu centro (K > 0,263).
8 – BOX PLOT (Desenho Esquemático)
O Box Plot é outra forma alternativa para representar um conjunto de dados. Este
desenho esquemático fornece informações sobre a assimetria (ou simetria), achatamento,
dispersão e posição dos dados, além de informar sobre dados discrepantes, isto é, dados com
valor muito diferente do restante do conjunto. É extremamente útil quando se deseja comparar
várias distribuições. Ele é construído a partir do esquema de cinco números, sendo eles:
 Os quartis Q1, Q2 e Q3;
 E os extremos M (valor máximo) e m (valor mínimo).
Na construção do Box Plot deve-se calcular também as seguintes quantidades:
Limite Inferior → Li = Q1 –
3
IQ
2
Limite Superior → Ls = Q3 +
3
IQ
2
19
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Os valores compreendidos entre estes dois limites são chamados valores adjacentes.
As observações que estiverem acima do limite superior ou abaixo do limite inferior serão
chamadas pontos exteriores ou discrepantes, sendo representadas por asteriscos (*).
8.1 Construção do Box Plot
Em um eixo vertical representam-se os valores da variável em questão. Do lado do
eixo construímos uma caixa da seguinte maneira:
1. A base da caixa fica na altura do primeiro quartil (Q1) e o seu topo fica na altura do
terceiro quartil (Q3);
2. Em seguida marcamos no interior da caixa uma linha na altura da mediana ou do
segundo quartil (Q2);
3. Do alto da caixa segue uma linha até o limite superior e de sua base segue uma linha
até o limite inferior;
4. Os pontos exteriores ou discrepantes são marcados individualmente por asteriscos.
9 – ANÁLISE BIDIMENSIONAL
Até agora vimos como organizar e resumir informações pertinentes a uma única
variável (ou a um único conjunto de dados). Entretanto, frequentemente há interesse em
analisar o comportamento conjunto de duas ou mais variáveis.
Suponha que o interesse seja em analisar o comportamento conjunto de duas variáveis.
A distribuição conjunta de duas variáveis pode ser representada por meio de uma Tabela de
Frequência de dupla entrada (ou Tabela de Contingência).
Como exemplo, considere o comportamento conjunto de duas variáveis: “Sexo” (X) e
“Nível de atividade física” (Y), cuja distribuição conjunta está representada na tabela abaixo.
Tabela XX – Distribuição conjunta das variáveis sexo e nível de atividade física.
Nível de Atividade Física
Feminino
20
Sexo
Masculino
Total
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Ativo
Médio
Sedentário
Total
0
5
12
17
4
6
18
28
4
11
30
45
A linha dos totais fornece a distribuição total da variável X e a coluna dos totais
fornece a distribuição total da variável Y. As distribuições assim obtidas (Distribuições dos
Totais das Variáveis X e Y) são chamadas de Distribuições Marginais das Variáveis X e Y.
Pode-se também construir tabelas de frequências relativas. Em uma distribuição
conjunta é possível expressar a proporção de cada casela (célula) de três maneiras diferentes:
i) em relação ao total geral; ii) em relação ao total de cada linha; e iii) em relação ao total de
cada coluna. A maneira mais conveniente a ser utilizada depende do objetivo da pesquisa.
Para exemplificar foi construído, utilizando os dados da tabela acima, a distribuição
conjunta dos percentagens em relação ao total geral das variáveis X e Y.
Nível de Atividade Física
Ativo
Médio
Sedentário
Total
Sexo
Feminino
Masculino
0%
8,9%
11,1%
13,3%
26,7%
40,0%
37,8%
62,2%
Total
8,9%
24,4%
66,7%
100,0%
O principal objetivo da distribuição conjunta é descrever o grau de associação entre as
variáveis, de modo que possamos predizer o resultado de uma variável quando a outra não é
conhecida.
9.1 Coeficiente de Contingência
O Coeficiente de Contingência é uma medida que quantifica a associação entre duas
variáveis, podendo ser utilizado tanto para variáveis qualitativas quanto para variáveis
quantitativas agrupadas em intervalos de classe. Inicialmente, obtêm-se as diferenças entre os
valores observados (oij) na pesquisa e os valores esperados (eij). Essas diferenças são
chamadas de desvios [d = (oij - eij)].
A soma de todos os desvios relativos é denominada  2 (Qui-quadrado) sendo definida
pela expressão:
21
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
 oij  eij 2 
j  e 


ij
 
2
i
De acordo com Pearson, o Coeficiente de Contingência (C) proposto é definido:
C
2
2 n
,
em que n é o número total de observações.
Os coeficientes de associação entre variáveis frequentemente variam entre 0 e 1, ou
entre –1 e +1, sendo que a proximidade de zero indica falta de associação entre as variáveis.
Contudo, o Coeficiente de Contingência (C) acima descrito não varia entre 0 e 1. O seu valor
máximo fica na dependência do número de níveis das variáveis. Uma alternativa, então, é
considerar como medida de associação o seguinte coeficiente, denominado Coeficiente de
Contingência Corrigido (C*), dado por:
C* 
C
t  1
,
t
em que t é o número mínimo entre o número de colunas e o número de linhas da tabela de
contingência, ou seja, é o mínimo entre os níveis das variáveis envolvidas na pesquisa.
OBS: Uma maneira fácil de obter o valor esperado em cada casela da tabela de contingência
é:
eij 
Total da linha i xTotal da coluna j
Total geral 
9.2 Coeficiente de Correlação
^
O Coeficiente de Correlação (r ou  ) mede o grau de associação entre duas variáveis
quantitativas (não agrupadas em intervalos de classe) X e Y. Um procedimento bastante útil
para verificar a existência de associação entre as variáveis é o Gráfico de Dispersão, por meio
da representação dos pares de valores (Xi e Yi) em um sistema cartesiano.
Considere duas amostras relativas às variáveis X e Y, dadas a seguir:
22
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Xi X1 X2 X3 .......... Xn
Yi Y1 Y2 Y3 .......... Yn
O Coeficiente de Correlação entre duas variáveis X e Y é definido por:
n
n
Cov( X , Y )
^
rxy =  =
…
Var ( X ).Var (Y )
X Y
SPXY
Cov(X,Y) =

n 1
i 1
i i

n
 X Y
i 1
i
i 1
i
n
n 1
O Coeficiente de Correlação assume sempre um valor entre –1 e +1. Valores positivos
correspondem a uma associação direta, já os valores negativos correspondem a uma
associação inversa. Quando o Coeficiente de Correlação for igual a +1 ou –1, diz que existe
uma associação (relação) perfeita entre as variáveis X e Y. Ao passo que quando ele se iguala
ou se aproxima de zero (0) é um indicativo de que não exista associação entre as variáveis.
EXERCÍCIOS PROPOSTOS
1 – Considere o conjunto de dados obtido ao medir a altura de 100 indivíduos (dados em cm).
151
162
166
168
169
171
173
176
178
182
153
162
166
168
169
171
174
176
179
182
154
162
167
168
169
171
174
176
180
183
155
163
167
168
169
171
174
177
180
184
156
163
167
168
169
172
174
177
181
185
158
164
167
168
170
172
175
177
181
186
159
165
167
168
170
172
175
177
181
187
160
165
167
169
170
172
175
177
181
188
161
166
168
169
170
173
175
177
182
190
161
166
168
169
170
173
175
177
182
190
Pede-se:
a) Obter a Distribuição de Frequência em Intervalo de Classe;
b) Construir os gráficos: b.1) Histograma; b.2) Polígono de Frequência; b.3) Polígono de
Frequência Acumulada (Ogiva).
2 – Os dados abaixo se referem ao ganho de peso (kg) de animais que foram alimentados com
determinada ração. Construir um Ramo-e-Folhas para o conjunto de dados.
26
30
65
43
27
28
30
33
23
60
34
26
32
34
31
28
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
27
31
66
44
28
29
41
34
61
25
17
43
35
32
19
3 – Registraram-se as vendas semanais de determinada loja durante o mês de fevereiro/2011,
com os seguintes resultados, em milhões de reais:
11,3 ; 12,4 ; 15,8 ; 9,6
Qual a venda média semanal para o mês de fevereiro/2011?
4 – Um estudante obteve as seguintes notas parciais nas provas de Estatística:
Prova
1ª
2ª
3ª
4ª
Peso
1
1
2
4
Nota
5,0
7,0
5,0
7,0
Considerando que as provas apresentam pesos distintos, qual a média final do
estudante na disciplina?
5 – São fornecidos três conjuntos de dados (amostras). Obter em cada qual a Moda (Mo) e a
Mediana (Md).
a) 11,3 ; 12,4 ; 15,8 ; 9,6 ; 10,4 ; 8,3 ; 7,8 ; 9,5
b) 11,3 ; 12,4 ; 9,6 ; 8,3 ; 7,8 ; 8,3
c) 11,2 ; 11,2 ; 15,8 ; 10,7 ; 9,6 ; 7,8 ; 9,6
6 – Considere o conjunto de dados: {9 ; 3 ; 8 ; 8 ; 9 ; 8 ; 9 ; 1}. Calcular:
a) Variância;
b) Desvio Padrão;
c) Erro Padrão da Média;
d) Coeficiente de Variação.
7 – A tabela abaixo apresenta a Distribuição de Frequência das notas (0 a 100) de um exame
final feito por estudantes matriculados na disciplina de Estatística.
24
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Classes
5├── 15
15├── 25
25├── 35
35├── 45
45├── 55
55├── 65
65├── 75
75├── 85
85├── 95
fi
5
8
6
4
10
12
15
10
10
Calcular:
a) Média;
b) Moda;
c) Mediana;
d) Q1 ; D9 ; P10 ;
e) Variância;
f) Desvio Padrão;
g) Coeficiente de Variação;
h) Erro Padrão da Média;
i) Valor (nota) acima do qual se encontra 60% dos dados;
j) Qual a percentagem de alunos que obtiveram nota superior a 50?
k) Assimetria;
l) Curtose.
8 – São fornecidas algumas estatísticas referentes às produções (ton/ha) de duas variedades de
cana-de-açúcar.
 Variedade 1 → Q1 = 47,00 ; Md = 53,00 ; Q3 = 55,00
 Variedade 2 → Q1 = 68,00 ; Md = 70,00 ; Q3 = 76,00
Pede-se:
a) Box Plot das variedades 1 e 2;
b) Comentários/Comparações das variedades de cana-de-açúcar com relação à dispersão
e simetria de suas produções.
9 – Em um experimento para testar a resistência de Eucalyptus à ferrugem causada por
Puccinia psidii, determinado número de plantas de três espécies diferentes de Eucalyptus
foram infectadas artificialmente. Após certo tempo, contou-se o número de plantas doentes.
25
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Os resultados estão na tabela abaixo. Obter os Coeficientes de Contingência (C) e de
Contingência Corrigido (C*).
Infecção
Doentes
Sadias
Total
E. citrioda
6
104
110
E. urophylla
10
90
100
E. cloeziana
80
30
110
Total
96
224
320
10 – Sete clones de cacaueiros foram avaliados para Número Total de Frutos Colhidos
(NTFC) e Número Total de Frutos Sadios (NTFS). Calcule o Coeficiente de Correlação (r)
entre as variáveis NTFC e NTFS.
Clones
NTFC (X)
NTFS (Y)
CAB443
92,00
66,40
CAB444
75,40
44,80
CAB447
60,40
41,40
CAB450
100,60
82,40
CONTEÚDO III
PROBABILIDADE
26
CAB452
46,20
33,40
CAB453
97,60
77,60
CAB454
42,00
29,40
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
1 – INTRODUÇÃO E PROPRIEDADES
A teoria da probabilidade representa um instrumento para a construção e análise de
modelos matemáticos relacionados a fenômenos aleatórios. Ao estudarmos um fenômeno
aleatório estamos diante de um experimento cujo resultado não pode ser determinado, mas
sim ter o seu comportamento probabilístico.
 Modelo Determinístico → É o modelo em que a partir das condições sobre as quais
um experimento é executado pode-se determinar o seu resultado.
Ex.: s = -1,6 t2 + v0t
 Modelo Não-Determinístico ou Probabilístico → É o modelo em que às condições
de execução de um experimento não permitem determinar o seu resultado, mas sim
apenas um comportamento probabilístico do resultado a ser observado.
Ex.: Previsão do tempo
 Experimentos Probabilísticos ou Aleatórios → São experimentos que repetidos
diversas vezes, sob condições idênticas, podem fornecer resultados distintos entre as
repetições, ou seja, os resultados podem não ser os mesmos.
Ex1: Lançar um dado e verificar sua face superior
Ex2: Lançar uma moeda e verificar sua face superior
 Espaço Amostral → Representa o conjunto de todos os possíveis resultados de um
experimento aleatório. Em geral, é representado pela simbologia “S”.
S1: {1;2;3;4;5;6}
S2: {Ca ; Co}
 Evento → É um subconjunto qualquer do espaço amostral, ou mesmo um conjunto
particular de resultados do “S” (subconjunto do S). Será útil considerarmos o “S” e o
conjunto vazio (Ø) como eventos. O primeiro é considerado evento certo → P(S) = 1.
O segundo evento impossível → P(Ø) = 0.
Ex1.: Evento A = Ocorrer face ímpar no lançamento de um dado → A = {1;3;5}
Ex2.: Evento B = Ocorrer face par no lançamento de um dado → B = {2;4;6}
27
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Ex3.: Evento C = Ocorrer face superior a dois (2) no lançamento de um dado →
C = {3;4;5;6}
 Eventos Mutuamente Exclusivos (Disjuntos) → Diz-se que dois eventos são
mutuamente exclusivos se, e somente se, a ocorrência de um evento impedir a
ocorrência do outro. Na teoria dos conjuntos eles não possuem nenhum ponto em
comum.
Ex.: Eventos A e B
 Eventos Não-Mutuamente Exclusivos ou Eventos Quaisquer → Dois eventos são
designados como eventos quaisquer quando eles podem ocorrer simultaneamente
(possuem pontos em comum).
Ex.: Eventos A e C ou Eventos B e C
 A U B → É a união de dois eventos, representando a ocorrência de pelo menos um
dos eventos “A” ou “B”.
 A ∩ B → É a interseção de dois eventos, representando a ocorrência simultânea dos
eventos “A” e “B”.
 Eventos Complementares → Dois ou mais eventos são complementares quando sua
união resulta no “S”.
Ex.: Eventos A e B, ou seja, o evento B é definido como sendo o AC
 Frequência Relativa → Seja “E” um experimento e “A” e “B” eventos associados a
este experimento. Se após “n” realizações/repetições do experimento forem
observados nA e nB resultados favoráveis aos eventos A e B, respectivamente, então
suas frequências relativas são: fA = nA/n e fB = nB/n.
Propriedades da Frequência Relativa:
 0 ≤ fA ≤ 1
 fA = 1 ↔ nA = n
 fA = 0 ↔ nA = 0
 Se A ∩ B = Ø, então fAUB = fA + fB
28
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
O Princípio da Regularidade Estatística afirma que se um experimento for realizado
sob as mesmas condições um grande número de vezes, determinada frequência relativa tende
a se estabilizar e se aproximar do seu valor de probabilidade. Neste caso, definimos uma
função P : S → [0 ; 1], que chamaremos de Probabilidade, se forem satisfeitas as seguintes
condições:
 0 ≤ P(A) ≤ 1, para qualquer evento “A” do “S”
 P(S) = 1
 Se A ∩ B = Ø, então P(A U B) = P(A) + P(B)
OBS1: Esta terceira condição pode ser generalizada para o caso de um número finito de
eventos mutuamente exclusivos → P(A1 U A2 U ... U An) = P(A1) + P(A2) + ... + P(An);
OBS2: P(S) = P(A) + P(AC) = 1;
OBS3: Se os elementos do “S” são equiprováveis, isto é, apresentam a mesma chance
de ocorrer, definiremos a probabilidade de um evento A como sendo:
P(A) =
nº elementos  A
nº elementos  S
1.1 Teoremas de Probabilidade
 Teorema 1 → Seja Ø o evento vazio, então:
P(Ø) = 0
 Teorema 2 → AC denomina-se o complemento do evento “A”, então:
P(AC) = 1 – P(A)
 Teorema 3 → Sejam “A” e “B” dois eventos quaisquer associados a um mesmo
experimento aleatório, então:
P(A U B) = P(A) + P(B) – P(A ∩ B)
 Teorema 4 → Sejam “A”, “B” e “C” três eventos quaisquer associados a um mesmo
experimento aleatório, então:
P(A U B U C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C)
29
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
2 – PROBABILIDADE CONDICIONAL
Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório. A
probabilidade do evento “A” ocorrer uma vez que o evento “B” tenha ocorrido, ou seja, a
probabilidade condicional de “A” dado que “B” ocorreu, é definida por:
P(A/B) =
P( A  B)
, para P(B) > 0
P( B)
(Lê-se: probabilidade condicional de “A” dado que “B” ocorreu)
OBS: Quando P(B) = 0 tem-se que P(A/B) = 0.
2.1 Teorema do Produto das Probabilidades
Vimos que a probabilidade condicional do evento “A” na hipótese de que o evento “B”
tenha ocorrido é dada por:
P(A/B) =
P( A  B)
P( B)
Multiplicando ambos os lados da igualdade obtêm:
P(A ∩ B) = P(A/B) x P(B)
Este resultado é designado pelo nome “Teoria do Produto das Probabilidades”. É de
grande utilidade, pois permite o cálculo da probabilidade de interseção a partir da
probabilidade condicional.
3 – INDEPENDÊNCIA PROBABILÍSTICA
Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório.
Dizemos que “A” e “B” são dois eventos independentes se for válida a igualdade:
30
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
P(A ∩ B) = P(A) x P(B)
Se “A” e “B” são independentes, temos então que P(A/B) = P(A), pois:
P(A/B) =
P( A  B)
P( A) xP( B)
=
= P(A)
P( B)
P( B)
Suponha três eventos quaisquer “A”, “B” e “C”. Eles serão independentes se for válida
as seguintes condições:
i) P(A ∩ B) = P(A) x P(B)
P(A ∩ C) = P(A) x P(C)
P(B ∩ C) = P(B) x P(C)
ii) P(A ∩ B ∩ C) = P(A) x P(B) x P(C)
Se os eventos “A”, “B” e “C” satisfazerem as condições i e ii eles são referidos como
mutuamente independentes.
4 – TEOREMA DE BAYES
Com base na definição de probabilidade condicional pode-se estabelecer um resultado
útil, conhecido como Teorema de Bayes.
Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório, com
P(A) > 0 e P(B) > 0.
P(B/A) =
P(Bj/A) =
P( A / B j ) xP( B j )
n
 P( A / B ) xP( B )
i 1
i
=
P( A / B) xP( B)
P( A)
P( A / B j ) xP( B j )
P( A / B1 ) xP( B1 )  P( A / B2 ) xP( B2 )  ...  P( A / Bn ) xP( Bn )
i
31
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
O Teorema de Bayes relaciona a probabilidade de um evento principal com
probabilidades condicionais, em que B1, B2, ..., Bn são eventos mutuamente exclusivos e
exaustivos. Simbolicamente P(Bi ∩ Bj) = Ø para i ≠ j e P(B1 U B2 U ... U Bn) = P(S) = 1.
EXERCÍCIOS PROPOSTOS
1 – De acordo com o experimento defina o espaço amostral (S):
a) Lançamento de uma moeda duas vezes;
b) Jogar um dado e observar sua face superior;
c) Uma fábrica produz determinado artigo. Da linha de produção são retirados três
artigos, cada qual classificado como Bom (B) ou Defeituoso (D).
2 – Determinar os eventos de acordo com os experimentos do exercício anterior:
a) Evento A → Ocorrência de uma cara;
b) Evento B → Ocorrência de face menor que seis;
c) Evento C → Obtenção de dois artigos defeituosos.
3 – Um lote é formado por dez artigos bons, quatro com defeitos menores e dois com defeitos
graves. Um artigo é escolhido ao acaso. Calcule a probabilidade de que:
a) Ele não tenha defeitos;
b) Ele não tenha defeitos graves;
c) Ele seja perfeito ou tenha defeitos graves.
4 – Considere um experimento aleatório e os eventos A e B associados a ele. Sabendo-se que
P(A) = ½; P(B) = 1/3 e P(A ∩ B) = ¼. Calcule:
a) P(AC);
b) P(BC);
c) P (A U B).
5 – Sejam A, B e C três eventos de um mesmo espaço amostral. Sabe-se que P(A) = P(B) =
1/3; P(C) = ¼; P(A ∩ B) = 1/8; P(A ∩ C) = P(B ∩ C) = 1/9 e P(A ∩ B ∩ C) = 1/20.
Calcular as seguintes probabilidades:
32
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
a) De um evento “X”, consistindo na realização de pelo menos um dos eventos A, B ou
C; (Considere que sejam três eventos quaisquer)
b) De um evento “Y”, consistindo na realização de pelo menos um dos eventos A, B ou
C. (Considere que sejam três eventos mutuamente exclusivos)
c) Os eventos A, B e C são mutuamente independentes?
6 – O quadro abaixo representa a divisão dos alunos matriculados em determinado Instituto de
Matemática. Pede-se:
Curso
Matemática Pura (MP)
Matemática Aplicada (MA)
Estatística (E)
Computação (C)
Total
Sexo
Masculino Feminino
70
40
15
15
10
20
20
10
115
85
Total
110
30
30
30
200
a) A probabilidade de o aluno estar matriculado em Matemática Pura (MP);
b) A probabilidade de o aluno ser do sexo feminino;
c) Dado que o aluno escolhido ao acaso esteja matriculado no curso de Estatística (E),
qual a probabilidade de ser do sexo feminino;
d) Sabendo que uma aluna foi escolhida, qual a probabilidade dela estar matriculada no
curso de Estatística (E).
7 – Em determinada universidade 25% dos estudantes foram reprovados em Matemática (M),
15% em Estatística (E) e 10% em Matemática e Estatística. Um estudante é selecionado
aleatoriamente:
a) Se ele foi reprovado em Estatística, qual é a probabilidade de ter sido reprovado em
matemática;
b) Se ele foi reprovado em Matemática, qual é a probabilidade de ter sido reprovado em
Estatística;
c) Qual é a probabilidade de ter sido reprovado em Matemática ou Estatística.
8 – Uma indústria farmacêutica produz medicamentos em três laboratórios: I, II e III. O
laboratório I produz 40% dos medicamentos, enquanto que os laboratórios II e III produzem
30% cada. A probabilidade de que um medicamento produzido por estes laboratórios
33
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
apresente adulteração com relação a sua composição química é de 0,01; 0,04 e 0,03 para os
laboratórios I, II e III, respectivamente.
a) Sabendo que o medicamento escolhido é adulterado, determinar a probabilidade de ele
ter sido produzido pelo laboratório I;
b) Sabendo que o medicamento escolhido é adulterado, determinar a probabilidade de ele
não ter sido produzido pelo laboratório I.
CONTEÚDO IV
VARIÁVEIS ALEATÓRIAS
34
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
1 – INTRODUÇÃO
Variável Aleatória (v.a.) é toda e qualquer variável associada a uma probabilidade, isto
é, os seus valores estão relacionados a um experimento aleatório.
Exemplo: Ao jogar uma moeda duas vezes, o espaço amostral associado a este
experimento aleatório será: S = { Ca Ca ; Ca Co ; Co Ca ; Co Co}.
Considere que “X” represente o número de caras na face superior do lançamento da
moeda. Temos então uma função definida no espaço amostral:
Ponto Amostral
Ca Ca
Ca Co
Co Ca
Co Co
X
2
1
1
0
Uma função definida em um espaço amostral é denominada variável aleatória, sendo
designada, em geral, por uma letra maiúscula (X, Y, Z, ...).
Uma variável aleatória pode ser classificada como Variável Aleatória Discreta (v.a.d.)
ou Variável Aleatória Contínua (v.a.c.).
2 – VARIÁVEL ALEATÓRIA DISCRETA
Considere X uma Variável Aleatória. Se o conjunto de valores de X for finito ou
infinito enumerável, então X será uma Variável Aleatória Discreta (v.a.d.), sendo obtida
mediante a alguma forma de contagem.
Exemplos:
 Número de acidentes ocorridos em uma semana;
 Número de peças defeituosas produzidas por uma máquina;
 Número de filhos do sexo masculino de um casal.
2.1 Função de Probabilidade
35
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
A Função de Probabilidade de uma Variável Aleatória Discreta X é uma função que
define a probabilidade de ocorrência de cada resultado xi desta variável, isto é, se X assume os
valores {x1 ; x2 ; ... ; xn}, então:
P(X = xi) = P(xi) = pi ,
em que a cada valor xi associa-se a sua probabilidade de ocorrência.
A Função de Probabilidade satisfaz as seguintes condições:
 P(xi) ≥ 0, para todo xi

n
 P( x )  1
i 1
i
A coleção dos pares [xi ; P(xi)], com i = 1, 2, ..., n, denominaremos de Distribuição de
Probabilidade da Variável Aleatória Discreta X, podendo ser representada por meio de
tabelas e/ou gráficos.
Exemplo: Considere o experimento aleatório mencionado anteriormente (lançamento
de uma moeda duas vezes), em que “X” represente o número de caras na face superior do
lançamento da moeda. A Distribuição de Probabilidade da Variável Aleatória Discreta X
será:
Xi
P(Xi)
0
1/4
1
1/2
2
1/4
1,0
2.2 – Medidas de Posição
2.2.1 Esperança Matemática ou Valor Esperado
A Esperança Matemática ou Valor Esperado quantifica a média de uma Variável
Aleatória Discreta (v.a.d.).
Seja X uma v.a.d. com a seguinte Distribuição de Probabilidade:
Xi
P(Xi)
X1
P(X1)
X2
P(X2)
...
...
Define-se Esperança Matemática de X por:
36
Xn
P(Xn)
1,0
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
n
E(X) = X1.P(X1) + X2.P(X2) + ... + XnP(Xn) =
 X .P( X
i 1
i
i
)
Propriedades da Esperança Matemática:
 A Esperança Matemática de uma constante é a própria constante → E(K) = K;
 A Esperança Matemática do produto de uma constante por uma variável é igual ao
produto da constante pela Esperança Matemática da variável → E(KX) = K.E(X);
 Se X e Y são duas variáveis aleatórias independentes → E(XY) = E(X).E(Y);
 Esperança Matemática da soma ou da subtração de duas variáveis quaisquer é igual à
soma ou subtração das Esperanças Matemáticas das duas variáveis aleatórias → E(X 
Y) = E(X)  E(Y);
 A Esperança Matemática da soma ou subtração de uma variável aleatória com uma
constante é igual à soma ou subtração da Esperança Matemática da variável com a
constante → E(X  K) = E(X)  K.
2.2.2 – Mediana
A Mediana é o valor de Xi que divide a Distribuição de Probabilidade em duas partes
equiprováveis.
P(X ≤ Md) = P(X > Md) = ½
2.2.3 – Moda
A Moda de uma Variável Aleatória Discreta X é o valor de Xi que apresenta maior
probabilidade em sua Distribuição de Probabilidade.
2.3 – Medidas de Dispersão
37
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
2.3.1 – Variância
A Variância é uma medida que quantifica a dispersão dos valores em torno da média.
A Variância de uma Variável Aleatória Discreta X é definida por:
V(X) = E[ X  E ( X )] 2  E ( X 2 )  [ E ( X )] 2
em que:
n
E(X2) =
X
i 1
2
i
.P( X i )
Propriedades da Variância:
 A variância de uma constante é igual à zero → V(K) = 0;
 Somando ou subtraindo uma constante a uma variável aleatória sua variância não se
altera → V(X ± K) = V(X);
 Multiplicando uma variável aleatória por uma constante sua variância fica
multiplicada pelo quadrado da constante → V(K.X) = K2.V(X);
 A variância da soma ou subtração de duas Variáveis Aleatórias Independentes (X e Y)
é igual à soma de suas variâncias → V(X ± Y) = V(X) + V(Y).
2.3.2 – Desvio Padrão
O Desvio Padrão de uma Variável Aleatória Discreta X é a raiz quadrada positiva da
variância da v.a.d. X.
DPX  V (X )
3 – VARIÁVEL ALEATÓRIA CONTÍNUA
Seja X uma Variável Aleatória (v.a.). Se X puder assumir todo e qualquer valor em
algum intervalo a ≤ X ≤ b, em que a e b podem ser -  e + , então X é uma Variável
Aleatória Contínua (v.a.c.). A v.a.c. está associada a um espaço amostral infinito e não
enumerável.
EXERCÍCIOS PROPOSTOS
38
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
1 – Uma urna contém quatro bolas azuis e seis bolas brancas. Duas bolas são retiradas
sucessivamente. Determinar a Distribuição de Probabilidade do número de bolas brancas
retiradas, em cada caso:
a) Com reposição;
b) Sem reposição.
2 – Seja X uma Variável Aleatória Discreta (v.a.d.) com a seguinte Distribuição de
Probabilidade:
Xi
P(Xi)
–2
1/4
–1
1/8
2
1/2
Pede-se:
a) E(X);
b) Md(X);
c) Mo(X);
d) V(X);
e) DP(X);
f) E(Y) e V(Y), dado que Y = 2X + 5.
CONTEÚDO V
39
4
1/8
Total
1,0
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
DISTRIBUIÇÕES DE VARIÁVEIS ALEATÓRIAS
1 – DISTRIBUIÇÃO BINOMIAL (Variável Aleatória Discreta)
Um Experimento de Bernoulli é um experimento que admite apenas dois tipos de
resultados, denominados sucesso e fracasso. A probabilidade de ocorrência de sucesso é igual
ao parâmetro p.
Exemplos de Experimentos de Bernoulli:
Lançar uma moeda e observar a face superior. Os possíveis resultados são cara (sucesso) e
coroa (fracasso) OU cara (fracasso) e coroa (sucesso);
Lançar um dado e observar se ocorre à face número 5 (face 5: sucesso) ou a ocorrência de
outra face (faces 1; 2; 3; 4 ou 6: fracasso).
Seja X o número de sucessos em n repetições independentes e idênticas de um
Experimento de Bernoulli caracterizado com o parâmetro p. Então X terá Distribuição
Binomial, caracterizada pelos parâmetros n e p.
Notação da Distribuição Binomial: X ~ B (n ; p) → X segue Distribuição Binomial
com n repetições e p probabilidade de sucesso.
A esperança matemática e a variância de uma variável aleatória X que segue
Distribuição Binomial são definidas por:
E(X) = n.p
V(X) = n.p.q, em que q = 1 – p (q = fracasso)
Exemplos de experimentos que seguem Distribuição Binomial:
n lançamentos de uma moeda, em que X = número de caras;
n lançamentos de um dado, em que X = número de vezes que ocorre a face 5;
OBS: Observar que a v.a.d. X que segue Distribuição Binomial pode assumir os valores:
{0 ; 1 ; 2 ; 3 ; ... ; n}
40
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
A Função de Probabilidade de uma v.a.d. X que segue Distribuição Binomial é
definida por:
P(X = x) = C nx . p x .q n  x 
n!
. p x .q n  x ,
x!(n  x)!
em que:
n>0
;
0<p<1
;
p+q=1
2 – DISTRIBUIÇÃO NORMAL (Variável Aleatória Contínua)
Diz-se que uma Variável Aleatória Contínua X segue Distribuição Normal, com
parâmetros μ e σ2, se o gráfico de sua Função Densidade de Probabilidade for uma Curva
Normal, ou seja, apresentar Distribuição Simétrica. Mais especificamente, quando sua
Função Densidade de Probabilidade for definida pela equação:
f ( x) 
1
2 2
.e
1  x 
 .

2  
2
, -∞ < x < ∞ ,
em que:
e = 2,71828… ; π = 3,14159…
Os parâmetros que caracterizam a Distribuição Normal são a média e a variância da
Variável Aleatória Contínua X, denotados por μ e σ2, respectivamente.
Notação da Distribuição Normal: X ~ N (μ ; σ2) → X segue Distribuição Normal com
média μ e variância σ2.
2.1 – Características da Distribuição Normal
 A curva normal é simétrica em torno de sua média μ;
 A área total abaixo da curva vale 1 (um). Devido a sua simetria, 50% da área ficam à
esquerda da média μ e 50% ficam à direita da média μ;
 A média, a mediana e a moda são iguais (Distribuição Simétrica);
41
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
 A Distribuição Normal fica completamente caracterizada identificando os parâmetros
μ e σ2 (μ pode assumir qualquer valor real e σ2 é sempre positiva);
 Qualquer combinação linear de uma v.a.c. que segue Distribuição Normal também
resultará em uma v.a.c. com Distribuição Normal. Mais especificamente, se X ~ N (μ ;
σ2) e Y = aX + b, sendo a e b constantes quaisquer, então Y ~ N (aμ + b ; a2σ2).
2.2 – Distribuição Normal Padrão ou Normal Reduzida
Diz-se que uma v.a.c. X segue Distribuição Normal Padrão ou Normal Reduzida se X
~ N (0 ; 1), isto é, se X apresentar uma Distribuição Normal com média 0 e variância 1. A
Função Densidade de Probabilidade da Distribuição Normal Padrão é definida por:
f ( x) 
1
2
.e
 x2
2
,
-∞ < x < ∞
A Distribuição Normal Padrão está tabelada, o que facilita seus cálculos. Para
determinar a área abaixo da Curva da Normal Padrão, entre dois pontos quaisquer, não há
necessidade de calcular a integral de sua Função Densidade de Probabilidade. Para obter as
áreas de interesse sob a Curva da Normal Padrão utiliza-se a Variável Normal Padronizada
(Z):
Z
X 

,
em que:
 Z = Valor da Variável Normal Padronizada, obtido em tabela específica;
 X = Valor assumido pela v.a.c. X;
  = Média da v.a.c. X;
  = Desvio Padrão da v.a.c. X.
Como os valores da Variável Normal Padronizada (Z) estão tabelados, para
determinar a área abaixo da curva entre dois pontos quaisquer basta consultar a Tabela da
Distribuição Normal.
A média e a variância da Variável Normal Padronizada (Z) são 0 e 1, respectivamente.
Ou seja, E(Z) = 0 e V(Z) = 1.
Notação da Variável Normal Padronizada (Z):
42
Z  N (μ ; σ2) → Z  N (0 ; 1).
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS PROPOSTOS
1 – Um produtor de sementes afirma que 80% das sementes produzidas por determinado
genótipo germinam. Você planta cinco destas sementes, compradas deste produtor. Qual a
probabilidade de:
a) Exatamente duas sementes germinarem;
b) Exatamente duas sementes não germinarem;
c) Pelo menos duas sementes germinarem;
d) Suponha que 100 pessoas estejam em situação análoga a sua, isto é, cada uma plantou
cinco destas sementes. Para quantas pessoas espera-se que exatamente duas sementes
germinem?
2 – Entre 2.000 famílias com quatro crianças cada, quantas famílias são esperadas que
apresentem:
a) Pelo menos um menino;
b) Exatamente uma menina.
3 – Calcular:
a) P(Z ≤ 1,82);
b) P(Z ≤ - 2,03);
c) P(- 2,55 ≤ Z ≤ 1,20);
d) P(Z ≥ 1,93).
4 – Seja X uma v.a.c. normalmente distribuída com média 850 e desvio padrão 48.
Determinar:
a) P(X < 790);
b) P(X > 940);
c) P(760 < X < 920).
5 – Considere que X e Y sejam duas v.a. com Distribuição Normal e Independentes.
Determinar para a variável W a probabilidade de ser superior a 25, ou seja, P(W > 25).
Dados: E(X) = 5 ; V(X) = 2 ; E(Y) = 3 ; V(Y) = 1 ; W = 3X + Y + 2
43
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO VI
INFERÊNCIA ESTATÍSTICA
1 – INTRODUÇÃO
Ao retirar uma amostra aleatória de uma população e calcularmos a partir desta
amostra qualquer quantidade (medidas descritivas numéricas), encontramos a estatística, ou
seja, chamaremos os valores calculados em função dos elementos da amostra de estatísticas.
As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade,
com uma média, uma variância, etc. A distribuição de probabilidade de uma estatística é
denominada de Distribuição Amostral.
A inferência estatística tem por objetivo fazer generalização sobre uma população com
base em dados de uma amostra. As populações são caracterizadas por medidas descritivas
numéricas, chamadas de parâmetros. Muitas pesquisas estatísticas tem por objetivo fazer
inferência a respeito de um ou mais parâmetros da população. Essa inferência pode ser por
meio de um único valor numérico (estimação por ponto), por uma amplitude de valores
numéricos (estimação por intervalo) ou pelo simples “sim” ou “não” (teste de hipótese).
Como exemplo, considere uma nova marca de inseticida lançada no mercado. A
pesquisa estatística pode ter diversos interesses: i) saber qual dose de inseticida mata 90% dos
insetos (estimação por ponto); ii) desejar um intervalo com coeficiente 1 – α de confiança
para que se tenha a mortalidade de 90% dos insetos (estimação por intervalo); iii) ou ainda o
interesse poderia focar se o inseticida novo é preferível aos já existentes no mercado (teste de
hipóteses).
A estimação por ponto utiliza a informação da amostra para chegar a um único valor
numérico ou ponto, que estima o parâmetro de interesse (parâmetro populacional). Ex: Média,
Variância, Coeficiente de Variação, etc.
A estimação por intervalo utiliza a informação da amostra para chegar a dois números,
entre os quais se espera encontrar o parâmetro de interesse. Caso este intervalo esteja
associado a uma probabilidade “1 – α”, tem-se um intervalo de confiança com coeficiente de
confiabilidade de “1 – α”.
44
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
2 – CONCEITOS
 População: é o conjunto de todos os elementos sobre os quais desejamos desenvolver
determinado estudo;
 Amostra: é uma parte dos elementos da população, ou seja, qualquer subconjunto da
população;
 Parâmetro: é uma medida utilizada para descrever uma característica da população;
 Estatística: é uma característica da amostra, ou seja, uma estatística T é uma função de
X1, X2, X3, ..., Xn → T = f (X1, X2, X3, ..., Xn);
 Estimador: é qualquer estatística T = f (X1, X2, X3, ..., Xn) utilizada para estimar uma
quantia desconhecida. Em geral, ele é representado por uma determinada fórmula;
 Estimativa: é o valor numérico assumido pelo estimador quando os valores observados
(X1, X2, X3, ..., Xn) são considerados.
3 – DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
A distribuição amostral de uma determinada estatística é a distribuição de todos os
possíveis valores que ela pode assumir, calculados a partir de todas as possíveis amostras de
mesmo tamanho.
Para determinado tamanho “n” da amostra, tomada de uma população com média “μ”,
o valor da média amostral ( X ) varia de uma amostra para outra. A distribuição amostral da
média é descrita para determinar o Valor Esperado [E( X )] e o Desvio Padrão [σ( X )] da
distribuição das médias. Uma vez que o Desvio Padrão indica a acurácia da média da amostra
como um estimador por ponto, σ( X ) é usualmente chamado de Erro Padrão da Média. Em
geral, o Valor Esperado e o Erro Padrão da Média são definidos como:
E( X ) = μ
σ( X ) =
45

n
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4 – INTERVALO DE CONFIANÇA (IC)
A estimação por ponto é bastante útil, porém nenhuma acurácia ou precisão pode ser
associada a esta estimação. Assim, ao invés de inferirmos sobre um único valor referente ao
parâmetro populacional, podemos inferir se o verdadeiro parâmetro está contido em
determinado intervalo compreendido entre dois valores, que representam os extremos do
intervalo (LSuperior e LInferior).
O objetivo da estimação por intervalo é gerar intervalos pequenos que incluam o
verdadeiro parâmetro populacional com alta probabilidade.
Os extremos do intervalo podem variar aleatoriamente de uma amostra para outra, pois
estão em função das médias amostrais (estimativas).
O comprimento do intervalo pode ser obtido pela diferença entre os limites superior e
inferior (LSup. – LInf.).
4.1 IC para a Média (μ) de uma População Normal com σ2 conhecida


 
   X  Z
P X  Z
 =1–α
n
n
2
2

IC (μ) 1 – α: X ± Z 
2

n
O comprimento do IC além de ser obtido pela diferença entre os limites superior e
inferior, também pode ser obtido pela expressão:
Comprimento do IC = 2. Z 
2

n
Caso seja mantido os valores de n, σ e α o seu comprimento será fixo/constante. Já a
estimativa da média ( X ) continua sendo uma variável aleatória, que determina os extremos
do intervalo de acordo com a amostra considerada.
A interpretação do IC pode ser assim mencionada: Tem-se 1 – α (%) de confiança de
que o parâmetro populacional (μ) esteja compreendido no intervalo obtido. Ou mesmo, se
construirmos n intervalos do mesmo tipo (tamanho e confiança), espera-se que em 1 – α (%)
deles contenha o verdadeiro parâmetro (μ).
46
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
EXERCÍCIOS PROPOSTOS
1 – Suponha que a média de uma população seja μ = 50,00 e o desvio padrão σ = 12,00.
a) Determinar a Distribuição Amostral da Média das amostras de tamanho n = 36 em
termos de Valor Esperado e Erro Padrão da Média;
b) Determinar o tamanho da amostra para se obter um Erro Padrão da Média igual a
3,00.
2 – Uma Variável Aleatória X tem Distribuição Normal, com média 100 e desvio padrão 10.
a) Se X é a média de uma amostra de 16 elementos retirados dessa população, calcule P
(90 < X < 110);
b) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 95%?
3 – Seja X a duração da vida de uma peça de equipamento, tal que σ = 5 horas. Admita que
100 peças foram ensaiadas fornecendo uma duração de vida média de X = 500 horas.
a) Obter um intervalo de 95% de confiança para a média μ;
b) Qual o tamanho da amostra para que o intervalo 500 ± 1,63 tenha 95% de confiança?
47
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO VII
LISTAS DE EXERCÍCIOS
CONTEÚDO I – Somatório
1 – Considere os seguintes valores:
X1 = 2
X2 = 4
X3 = 6
X4 = 8
X5 = 10
X6 = 12
X7 = 14
X8 = 16
Y1 = 1
Y2 = 3
Y3 = 5
Y4 = 7
Y5 = 9
Y6 = 11
Y7 = 13
Y8 = 15
Calcule os somatórios:
 Xi

 Yi 
2

i 3
6
a)
 
b)
 X i Yi 

3 
i 1
4
 
8
c)
X
i 1
i  2 ; 4 ; 6 ;8
6
d)
 (Y
i2
i
3
i
 2) 2
2 – Calcule os valores de X1 e X3.
6
Dados:
X
i 1
i
 42
6
X
i 1
2
i
 364
6
X
i 1
i 1; 3
i
 34
i 1
i 1; 3
3 – Sabendo-se que:
X1 = 3
X2 = 4
X3 = 8
X4 = 7
X5 = 6
Y1 = 3
Y2 = 8
Y3 = 2
Y4 = 5
Y5 = 6
Calcule:
5
a)
X
i 1
i2
i
48
6
X
2
i
 324
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5
b)
 4X
i 1
i
5
c)
(X
i 3
 6)
i
4
d)
 (2 X
i 2
 3)
i
5
e)
 X Y 
i i
i 1
5
f)
(X
i 1
 Yi )
i
4 – Dados:
i
1
2
3
4
5
6
fi
3
5
9
10
2
1
Calcule os seguintes somatórios:
6
a)
X
i 1
i
6
b)
f
i 1
i
f X 
6
c)
2
i
i
i 1
6
 f X 
d)
i
i 1
i
6
f
i 1
i
f X 
6
i 1
e)
i
2
i
 6

  fi X i 

  i 1
6
f
i 1
6
f
i 1
2
i
i
1
49
Xi
10
11
15
19
21
26
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5 – Calcule o valor de X nos seguintes casos:
a)
b)
3
4
n 1
n2
3
5
n 1
n2
 (nX  1)   n
 (nX  n)   5
50
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO II – Análise Exploratória de Dados
1 – Considere os dados: {12; 17; 17; 17; 10; 10; 9; 9; 9; 12; 12; 6; 6; 6; 17; 17; 12; 12; 9; 9; 9;
12; 12; 12; 12}. Suponha que sejam valores assumidos por uma variável aleatória discreta X.
Pede-se:
a) Tabela de Distribuição de Frequência;
b) Média, Mediana e Moda;
c) Erro padrão da média e Coeficiente de variação (C.V.%);
d) Considere que os dados foram obtidos incorretamente. As medidas apresentam erros
de modo que todos os valores da série tenham que ser multiplicados por um fator de
correção igual a 1,1. Corrigindo o suposto erro, qual seria o novo valor da média, do
erro padrão da média e do coeficiente de variação?
e) Coeficiente de Assimetria.
2 – Para cada série de dados abaixo, determine: Tabela de Distribuição de Frequência; Média;
Moda; Mediana; Variância; Desvio Padrão; Erro Padrão da Média e Coeficiente de Variação.
a) {1; 3; 3; 4; 5; 6; 6};
b) {9; 8; 1; 3; 8; 3; 4; 6};
c) {88; 82; 91; 93; 86; 84}.
3 – Uma prova consta de três questões com peso (Pi) igual a 1, 2 e 3, para as notas (Xi) da 1ª,
2ª e 3ª questão, respectivamente (i = 1, 2, 3). Considere o valor máximo de cada questão igual
a dez (10) e que um aluno obteve nota oito (8) na prova. Qual nota ele conseguiu na 1ª
questão, sabendo que na 2ª questão obteve nota seis (6) e na 3ª nota nove (9)?
4 – Em um grupo de 600 hóspedes de determinado hotel, tem-se os seguintes valores com
relação ao tempo de permanência no hotel:
 Média = 9 dias;
 1º Quartil = 5 dias;
 3º Quartil = 15 dias;
 Coeficiente de variação = 20%.
Pede-se:
a) Quantos hóspedes permaneceram mais de 15 dias;
b) Quantos hóspedes permaneceram entre 5 e 15 dias;
51
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
c) O desvio padrão para o tempo de permanência;
d) Supondo que o grupo de 600 hóspedes permaneça mais dois dias, calcule a nova
média, o desvio padrão e o coeficiente de variação.
5 – Um caminhão cujo peso vazio é de 3.200 kg será carregado com 470 caixas de 11 kg
cada, 360 caixas de 9 kg cada, 500 caixas de 4 kg cada e 750 caixas de 6 kg cada. O motorista
do caminhão pesa 75 kg e a lona de cobertura da carga pesa 48 kg.
a) Sabendo-se que este caminhão tem que passar por uma balança que só permite a
passagem de veículos com peso máximo de 16 toneladas, pergunta-se: Ele passará
pela balança?
b) Qual o peso médio das caixas carregadas no caminhão?
6 – A tabela abaixo apresenta os resultados, em pontos, da prova final da Disciplina de
Estatística de 80 estudantes.
20
28
35
40
50
55
57
67
28
34
40
49
55
57
65
88
20
30
35
40
50
55
58
68
25
33
39
47
54
57
65
88
21
30
35
40
50
55
58
72
25
33
39
45
53
57
65
85
21
30
37
42
51
55
60
73
23
32
38
45
52
57
63
80
23
30
38
43
52
55
60
74
23
30
38
44
52
56
62
75
Obter a Distribuição de Frequência em Intervalo de Classe e determinar: (Dados: k =
9; h = 8 e Limite Inferior = 20. Adotar intervalo fechado à esquerda).
a) Os pontos médios;
b) As frequências absoluta e acumulada;
c) As frequências relativas simples e acumulada;
d) Construir: Histograma, Polígono de Frequência Simples e Polígono de Frequência
Acumulada;
e) Média, Mediana e Moda;
f) Qual a percentagem de alunos que obtiveram mais de 50 pontos;
g) Qual a percentagem de alunos que obtiveram menos de 40 pontos;
h) 3º Quartil; 6º Decil e 40º Percentil;
i) Variância, Desvio Padrão e Coeficiente de Variação.
52
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
7 – Os desvios tomados em relação à média aritmética de um conjunto de dados são: {-7;
-5; -1; 0; 0; 1; 4; 4; 4}. Sabendo-se que X = 45, determine:
a) O conjunto de dados;
b) Moda;
c) Mediana;
d) Variância;
e) Desvio Padrão;
f) Coeficiente de Variação.
8 – A série de dados abaixo se refere às medidas tomadas de uma amostra de cães.
1
2
3
4
5
6
7
8
9
10
Cão
23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5
Peso (kg)
Comprimento (cm) 104 105 103 105 100 104 100 91 102 99
Pedem-se, para cada característica avaliada (peso e comprimento), as estatísticas:
a) Média;
b) Mediana;
c) Moda;
d) Variância;
e) Desvio Padrão;
f) Erro Padrão da Média;
g) Coeficiente de Variação;
h) Qual das duas características é mais homogênea?
i) Coeficiente de Correlação entre as duas características.
9 – Complete a tabela abaixo. Utilize intervalo fechado à esquerda.
Classes
PM
10
20
fi
5
8
10
fai
fri
0,0625
19
0,075
33
0,15
15
60
10
80
0,125
53
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
Pede-se:
a) Média, Mediana e Moda;
b) Variância, Desvio Padrão e Coeficiente de Variação;
c) 1º Quartil, 2º Decil e 30º Percentil;
d) Valor acima do qual se encontram 60% dos dados;
e) Curtose.
10 – Duas turmas A e B com nA = 50 e nB = 80, apresentam Médias X
A
= 65 e X
B
= 70 e
Variâncias s A2  225 e s B2  235 . Qual é a turma mais homogênea?
11 – Um pesquisador dispõem das seguintes informações a respeito de uma amostra:
 Média = 50,34
 Soma do quadrado dos valores = 150.000
 Número de elementos da amostra = 54
Calcular as medidas de dispersão possíveis a partir das informações fornecidas.
12 – Cem (100) animais foram divididos em dois grupos: 1º grupo com 56 animais; 2º grupo
com 44 animais. No primeiro grupo, que foi vacinado contra determinada doença, 47 animais
não adoeceram. No segundo grupo, que não foi vacinado, 28 animais não adoeceram.
a) Construir a Tabela de Contingência;
b) Calcular o Coeficiente de Contingência e o Coeficiente de Contingência Corrigido.
54
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO III – Probabilidade
1 – Defina e dê exemplo:
a) Espaço Amostral;
b) Evento;
c) Evento Mutuamente Exclusivo;
d) Evento Não Mutuamente Exclusivo;
e) Evento Independente;
f) Evento Dependente.
2 – Considerando o espaço amostral de um experimento constituído do lançamento de dois
dados perfeitamente simétricos, pede-se:
a) Qual a probabilidade de que o primeiro dado mostre a face 5 e o segundo a face 3?
b) Qual a probabilidade de que os dois dados mostrem um número par?
c) Qual a probabilidade de que o primeiro dado mostre um número menor em sua face
em comparação ao segundo dado?
3 – Uma moeda perfeita é lançada três vezes e observa-se o número de caras. Qual é a
probabilidade de ocorrer:
a) Pelo menos uma cara?
b) Só cara ou só coroa?
c) Exatamente uma cara?
4 – Em um processo produtivo, 10% dos itens fabricados apresentam defeito. Qual a
probabilidade na escolha aleatória de dois itens:
a) De os dois serem defeituosos?
b) De os dois não serem defeituosos?
c) De pelo menos um ser defeituoso?
5 – Em determinada universidade, dos 300 estudantes matriculados no curso de Ciências
Biológicas, 100 cursam Química, 80 Estatística e 30 ambas as disciplinas. Ao escolher
aleatoriamente um estudante de Ciências Biológicas, qual a probabilidade de ele cursar:
a) Química?
b) Estatística?
55
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
c) Estatística e Química?
d) Nenhuma das duas disciplinas?
e) Estatística ou Química?
6 – Sejam A, B e C três eventos de um mesmo espaço amostral S. Sabendo-se que: P(A) =
P(B) = 1/3; P(C) = 1/4; P(A∩B) = 1/8; P(A∩C) = P(B∩C) = 1/9 e P(A∩B∩C) = 1/20.
Calcular as probabilidades:
a) De ocorrer pelo menos um dos eventos A, B ou C;
b) De que não se realize nenhum dos eventos A, B ou C;
7 – Jogam-se dois dados. Se as duas faces mostram números diferentes, qual a probabilidade
de que uma das faces seja o 4?
8 – Quatro equipes A, B, C e D participam de um torneio que premiará uma única equipe
campeã. Quanto às probabilidades de cada equipe vencer o torneio, as equipes C e D são
equiprováveis, a equipe A é duas vezes mais provável de vencer em relação a equipe B, sendo
esta (equipe B) duas vezes mais provável de vencer em relação as equipes C e D. Pede-se:
Qual a probabilidade de que as equipes C ou D sejam campeãs?
9 – Se P(A) = 1/2 e P(B) = 1/4. Calcular: P(AC), P(BC) e P(AUB), se:
a) A e B são eventos mutuamente exclusivos;
b) A e B são eventos quaisquer e independentes.
10 – Uma urna contém cinco bolas pretas, três vermelhas e duas brancas. Foram extraídas três
bolas com reposição. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha?
11 – Uma caixa A contém oito peças, das quais três são defeituosas. Uma outra caixa B
contém cinco peças, das quais duas são defeituosas. Uma peça é retirada aleatoriamente de
cada caixa.
a) Qual a probabilidade “p” de ambas as peças não serem defeituosas?
b) Qual a probabilidade “p” de que uma peça seja defeituosa e a outra não?
56
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
12 – Uma urna contém 12 bolas: cinco brancas, quatro vermelhas e três pretas. Outra urna
contém 18 bolas: cinco brancas, seis vermelhas e sete pretas. Uma bola é retirada de cada
urna. Qual a probabilidade de que as duas bolas sejam da mesma cor?
13 – João é um rapaz ganancioso, trabalhador e objetivo. Ele estabeleceu por meta em cinco
anos ter o patrimônio de R$700.000,00. Deste modo, João decidiu trabalhar no exterior com
as seguintes probabilidades de destino: EUA 25%, Japão 60% e Austrália 15%. Caso ele
optasse pelos EUA, a probabilidade de alcançar a meta seria de 50%, para o Japão 80% e para
a Austrália 35%. Pois bem, decorridos cinco anos, João está de volta ao Brasil tendo
cumprido sua meta. Quais são as probabilidades de ter cumprido a meta tendo o João
trabalhado:
a) Nos EUA;
b) No Japão;
c) Na Austrália.
14 – Em uma turma de Estatística 20%, 50% e 30% do total de alunos matriculados são dos
cursos de Ciências Biológicas (A), Educação Física (B) e Medicina Veterinária (C),
respectivamente. Destes, 20%, 5% e 2% são alunos repetentes, respectivamente. Um aluno é
escolhido ao acaso e este é repetente.
a) Qual a probabilidade de ele cursar Ciências Biológicas?
b) Qual a probabilidade de ele cursar Medicina Veterinária?
57
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO IV – Variáveis Aleatórias
1 – Quatro carneiros e três ovelhas são colocados em um cercado. Se dois animais são
retirados aleatoriamente deste cercado, sem reposição, sendo X o número de ovelhas,
encontrar:
a) A Distribuição de Probabilidade de X;
b) E(X);
c) Desvio Padrão de X;
X

d) V   5  .
3

2 – Seja X uma v.a.d. com a seguinte Distribuição de Probabilidade:
Xi
P(Xi)
-2
1/4
-1
1/4
1
1/4
2
1/4
Pede-se:
a) E(X);
b) V(X);
c) σ(X);
d) Md(X). Justifique;
e) Mo(X). Justifique.
3 – Suponha que X e Y (Variáveis Aleatórias Discretas) tenham as seguintes Distribuições de
Probabilidade:
Xi
P(Xi)
1
0,30
2
0,2
4
Yj
P(Yj)
2
0,6
3
5
0,30
Pede-se:
 1 
a) E   X  ;
 3 
b) V(5X – 3Y). Considerar X e Y Variáveis Aleatórias Independentes.
58
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
4 – Sabendo-se que X e Y são variáveis aleatórias independentes, sendo E(X) = 5; V(X) = 2;
E(Y) = 8 e V(Y) = 3, calcule:
a) E(X – Y + 3);
b) E[(X – Y)2];
1 

c) V  X  Y  ;
3 

d) V(3Y + 2).
5 – Sabendo-se que Y = 3X – 5 e que E(X) = 2 e V(X) = 1, encontrar:
a) E(Y);
b) V(Y);
c) E(X + 3Y);
d) E(X2 + Y2);
e) V(3X + 2Y).
59
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO V – Distribuições de Variáveis Aleatórias
1 – Determinar a probabilidade de que, em cinco lançamentos de um dado, apareça a face 3:
a) Duas vezes;
b) No máximo uma vez;
c) Ao menos duas vezes.
2 – Considere a amostragem de 3 peças que saem de uma linha de produção. Sabe-se que
desta linha de produção 20% das peças são defeituosas. Calcular as probabilidades:
a) De duas peças serem defeituosas;
b) De duas peças não serem defeituosas;
c) Quantas peças defeituosas esperam-se amostrar, considerando 500 peças?
3 – Sabe-se que 24% dos indivíduos que recebem determinado medicamento sofrem certos
efeitos colaterais. Se este medicamento for ministrado a quatro pacientes, qual a probabilidade
de:
a) Nenhum sofrer efeitos colaterais;
b) Pelo menos um sofrer efeitos colaterais;
c) Três não sofrerem efeitos colaterais.
4 – Em uma prova com 10 questões de múltipla escolha, cada uma com 5 alternativas e
somente uma correta, pede-se:
a) Quantas questões acerta, em média, um aluno que marca todas as questões
inteiramente ao acaso?
b) Qual a probabilidade do aluno acertar 5 questões?
5 – Se X ~ B (16 ; 0,75), determinar:
a) A média de X;
b) A variância de X.
6 – Dada uma distribuição normal com μ = 100 e σ = 10. Qual a probabilidade de que:
a) X > 75?
b) 75 < X < 85?
c) X > 112?
60
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
d) X < 80 ou X > 110?
e) X < 80 e X > 110?
f) X < 90 e X > 80?
g) Considere que 80% dos dados estejam entre dois valores X1 e X2 (simetricamente
distribuídos em torno da média). Encontrar os dois valores;
h) Considere que 70% dos dados estejam abaixo de determinado valor X. Encontrar o
valor de X.
7 – As notas de uma prova são normalmente distribuídas com média 73 e variância 225. Os
15% melhores alunos recebem o conceito A e os 11,9% piores alunos recebem o conceito R
(Reprovado). Pede-se:
a) Nota mínima para receber o conceito A?
b) Nota mínima para ser aprovado?
c) P(X ≥ 55,3).
8 – A obtenção dos pesos X, de um grande número de espigas de milho, mostrou que essa
variável é normalmente distribuída com média μ = 120g e desvio padrão σ = 10g. Em um
programa de melhoramento genético da cultura do milho, entre outras características, uma
linhagem deve satisfazer à condição 112 < X < 140. Em um programa envolvendo 450
linhagens, qual deve ser o número provável de linhagens que atende a essa condição (112 < X
< 140)?
9 – Sabe-se que o peso médio, em arrobas, de abate de bovinos é normalmente distribuído
com média 18 e variância 2,25. Um lote de 5.000 cabeças, com essa característica, foi
destinado ao frigorífico que abate só a partir de um peso mínimo W. Sabendo-se que foram
abatidas 4.200 cabeças, pede-se:
a) Qual o valor de W?
b) O número esperado de bovinos com peso entre 17 e 19 arrobas?
10 – Em determinada região, a altura das pessoas apresenta distribuição normal com desvio
padrão de 8 cm e tal que 20% da população é constituída de pessoas com menos de 168 cm de
altura. Calcule a proporção de pessoas com altura:
a) Superior a 190 cm;
b) Entre 170 e 185 cm.
61
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
11 – Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal com média
12 cm3/min e desvio padrão 1,5 cm3/min. Determinar:
a) A proporção de indivíduos sadios com consumo inferior a 10 cm3/min;
b) A proporção de indivíduos sadios com consumo superior a 8 cm3/min;
c) A proporção de indivíduos sadios com consumo entre 9,4 e 13,2 cm3/min;
d) O valor do consumo renal que é superado por 98,5% dos indivíduos sadios.
62
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO VI – Inferência Estatística
1 – O peso dos ovos de determinada linhagem de ave de postura tem distribuição normal, com
média de 65 gramas e desvio padrão de 5 gramas. Considere uma amostra aleatória de uma
dúzia (caixa) desses ovos. Qual a probabilidade de que o peso dessa caixa esteja
compreendido entre o intervalo de 750 e 825 gramas?
2 – Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto
padrão de peso conhecido igual a 10 gramas. As leituras da balança tem distribuição normal.
Sabe-se que o desvio padrão das leituras é 0,0002 gramas. Pesa-se o objeto cinco vezes e o
resultado médio é 10,0023 gramas.
a) Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do
objeto;
b) Quantas pesagens ou medidas devem entrar no cálculo da média a fim de que se
obtenha uma margem de erro de  0,0001 com 95% de confiança?
3 – Uma agência de propaganda, que atende a uma das principais estações de rádio, gostaria
de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo radio. A
partir de estudos anteriores, o desvio padrão é calculado em 45 minutos.
a) Qual o tamanho da amostra necessário se a agência quiser ter 90% de confiança de
estar correta em um intervalo de ± 5 minutos?
b) Se for desejado um nível de 99% de confiança, qual o novo tamanho da amostra
necessário? (considerar a mesma margem de erro da alínea anterior: ± 5 minutos)
c) Faça inferências a respeito dos tamanhos das amostras encontrados nas alíneas
anteriores (a e b), explicando o motivo de ter encontrado dimensões distintas.
4 – Estudos anteriores levam a supor que crianças de dois meses alimentadas exclusivamente
com leite do tipo A sofrem um aumento de peso que segue distribuição normal, com média
desconhecida, porém de variância 9.000 gramas2. Escolhe-se ao acaso 20 crianças de dois
meses, alimentando-as exclusivamente com leite do tipo A. Nesta amostra o aumento de peso
médio foi de 475 gramas. Obtenha um intervalo de 99% de confiança para o aumento médio
do peso das crianças nas condições apresentadas.
63
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
5 – O consumo mensal de calorias (kcal/g) de determinada espécie de esquilo segue
distribuição normal com desvio padrão 0,16. Recolheu-se uma amostra aleatória de dimensão
18 cuja média amostral do consumo de calorias foi de 0,41.
a) Obtenha um intervalo de confiança a 95% para o consumo médio de calorias;
b) Qual deve ser a dimensão da amostra para que um intervalo de confiança a 95% para o
consumo médio de calorias tenha amplitude 0,2?
6 – Qual deve ser a dimensão da amostra a recolher de uma população normal de valor médio
μ e desvio padrão 10, de modo que o intervalo de confiança para μ a 99% tenha amplitude de
uma unidade (1)?
64
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO VIII
GABARITO
CONTEÚDO I – Somatório
1 – a) – 14
b) 33,33
c) 3.968
d) 445
2–2e6
3 – a) 24
b) 112
c) 39
d) 29
e) 128
f) 52
4 – a) 102
b) 30
c) 8.098
d) 15,93
e) 16,62
5 – a) 1
b) 7/3
CONTEÚDO II – Análise Exploratória de Dados
1 – b) X = 11,4
Md = 12
Mo = 12
65
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
c) s( X ) = 0,6904
d) X = 12,54
CV = 30,285%
s( X ) = 0,7594
CV = 30,285%
e) – 0,1738
2–
a)
b)
c)
Mo
3e6
3e8
Amodal
X
4,0
5,25
87,333
Md
4,0
5,0
87,0
s2
3,333
8,5
17,466
3–9
4 – a) 150
b) 300
c) 1,8
d) 11
1,8
16,36%
5 – a) Não
b) 7,17 kg
6 – e) X = 48,20
Md = 48,44
Mo = 55,809
f) 47,82% ≈ 48% dos alunos com mais de 50 pontos
g) 36,248% dos alunos com menos de 40 pontos
h) Q3 = 58,73
D6 = 53,684
P40 = 42,00
i) s2 = 272,128
s = 16,496
CV = 34,23%
7 – a) {38;40;44;45;45;46;49;49;49}
b) Mo = 49
c) Md = 45
d) s2 = 15,5
e) s = 3,937
f) CV = 8,748%
66
s
1,825
2,915
4,179
s( X )
0,689
1,030
1,706
CV
45,62%
55,52%
4,78%
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
8–
a)
X
Md
b)
Mo
c)
s2
d)
s
e)
f)
s( X )
CV
g)
h) Comprimento
i) rxy = 0,7710
9 – a) X = 56,5
b) s2 = 592,65
c) Q1 = 37,5
Peso (X)
20,58 kg
20,35 kg
19,00 kg
14,2973 kg2
3,7812 kg
1,1957 kg
18,37%
Md = 60,833
Mo = 68,75
s = 24,34
CV = 43,07%
D2 = 30,0
P30 = 46,0
s = 18,9
CV = 37,54%
Comprimento (Y)
101,3 cm
102,5 cm
100; 104 e 105 cm
17,7889 cm2
4,2177 cm
1,3338 cm
4,16%
d) 54
e) K = 0,275
10 – Turma B
11 – s2 = 357,37
12 – b) C = 0,226; C* = 0,32
CONTEÚDO III – Probabilidade
2 – a) 1/36
b)1/4
c) 5/12
3 – a) 7/8
b)1/4
c) 3/8
4 – a) 0,01
b) 0,81
67
s( X ) = 2,62
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
c) 0,19
5 – a) 1/3
b) 4/15
c) 1/10
d)1/2
e)1/2
6 – a) 223/360
b) 137/360
7 – 1/3
8–¼
9 – a) 1/2
3/4
3/4
b) 1/2
3/4
5/8
10 – 9/40
11 – a) 3/8
b) 19/40
12 – 35/108
13 – a) ≈ 0,19
b) ≈ 0,73
c) ≈ 0,08
14 – a) ≈ 0,563
b) ≈ 0,0845
68
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO IV – Variáveis Aleatórias
1 – b) 6/7
c) 0,6389
d) 0,0454
2 – a) 0
b) 2,5
c) 1,581
d) – 1 e 1
e) Amodal
3 – a) - 1
b) 72,25
4 – a) 0
b) 14
c) 7/3
d) 27
5 – a) 1
b) 9
c) 5
d) 15
e) 81
CONTEÚDO V – Distribuições de Variáveis Aleatórias
1 – a) 625/3888
b) 3125/3888
c) 763/3888
69
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
2 – a) 0,096
b) 0,384
c) 100
3 – a) 0,3336
b) 0,6664
c) 0,4213
4 – a) 2
b) 0,0264
5 – a) 12
b) 3
6 – a) 0,9938
b) 0,0606
c) 0,1151
d) 0,1815
e) 0
f) 0,1359
g) 87,2 e 112,8
h) 105,2
7 – a) 88,6
b) 55,3
c) 0,8810
8 – 345
9 – a) 16,52
b) 2.486
10 – a) 0,0281
b) 0,6239
70
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
11 – a) 0,0918
b) 0,9962
c) 0,7463
d) 8,745
CONTEÚDO VI – Inferência Estatística
1 – 0,9535
2 – a) 10,0021247    10,0024753
b) n = 15,37 ≈ 16
3 – a) n = 220,52 ≈ 221
b) n = 539,17 ≈ 540
4 – 420,27    529,73
5 – a) 0,3361    0,4839
b) n = 9,83 ≈ 10
6 – n = 2.662,56 ≈ 2.663
71
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO IX
REFERÊNCIA BIBLIOGRÁFICA ADICIONAL
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 5 ed. São Paulo: Saraiva, 2002.
CALLEGARI-JAQUES, S. M. Bioestatística: Princípios e Aplicações. Porto Alegre:
Artmed Editora, 2003.
FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 3 ed. São Paulo: Atlas, 1982.
PERES, A. A. Q.; CUNHA, M. T. C. Estatística Básica. Apostila para disciplina IC 280:
Editora UFRRJ, 2001.
SPIEGEL, M. R. Estatística. 3 ed. São Paulo: Makron, 1993.
TRIOLA, M. F. Introdução à Estatística. 7 ed. Rio de Janeiro: LTV, 1999.
VIEIRA, S. Introdução à Bioestatística. 4 ed. rev. Rio de Janeiro: Elsevier, 2008.
72
IC280 – Estatística Básica e IC281 – Introdução à Bioestatística
Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ
CONTEÚDO X
TABELA DA DISTRIBUIÇÃO NORMAL
73
Download