Estatística 1

Propaganda
Estatística 1
2016.2
Sumário
Capítulo 1 – Conceitos Básicos...............................................................................................................3
MEDIDASDEPOSIÇÃO.........................................................................................................................3
MEDIDASDEDISPERSÃO.....................................................................................................................5
EXERCÍCIOSCAPÍTULO1......................................................................................................................8
Capítulo 2 – Outliers e Padronização....................................................................................................12
VALORPADRONIZADO(Z).................................................................................................................12
BOXPLOT...........................................................................................................................................13
EXERCÍCIOSCAPÍTULO2....................................................................................................................16
Capítulo 3 – Associação entre variáveis................................................................................................20
EXERCÍCIOSCAPÍTULO3....................................................................................................................26
Capítulo 4 – Distribuição de Probabilidade...........................................................................................31
DISTRIBUIÇÃODEPROBABILIDADEDEUMAVARIÁVELDISCRETA...................................................31
DISTRIBUIÇÃOBINOMIAL..................................................................................................................32
DISTRIBUIÇÃONORMAL....................................................................................................................33
EXERCÍCIOSCAPÍTULO4....................................................................................................................42
Capítulo 5 – Intervalo de Confiança......................................................................................................47
MÉDIADAPOPULAÇÃODEDESVIOPADRÃOCONHECIDO...............................................................47
MÉDIADAPOPULAÇÃODEDESVIOPADRÃODESCONHECIDO.........................................................48
PROPORÇÃODAPOPULAÇÃO...........................................................................................................51
RESPOSTAS........................................................................................................................................62
EXERCÍCIOSCAPÍTULO1....................................................................................................................62
EXERCÍCIOSCAPÍTULO2....................................................................................................................63
EXERCÍCIOSCAPÍTULO3....................................................................................................................64
EXERCÍCIOSCAPÍTULO4....................................................................................................................66
EXERCÍCIOSCAPÍTULO5....................................................................................................................67
Capítulo 1 – Conceitos Básicos
MEDIDASDEPOSIÇÃO
As principais medidas de posição são: média aritmética simples, média ponderada, moda,
mediana, quartis e percentis, conforme apresentadas a seguir.
A média aritmética simples é a base soma de todos valores amostrais, dividindo esse
resultado pela quantidade total de amostras. Conforme o exemplo a seguir, é possível entender
esse conceito. Se as pessoas A, B e C ganham, respectivamente, R$1.000,00, R$2.000,00 e
R$3.000,00, a média dessa amostra será R$2.000,00, uma vez que todos os valores somados
resultam em R$6.000,00 e essa soma é dividida por 3 (quantidade da amostra), resultando em R$
2.000,00. Usualmente, a média de uma amostra (uma porção de uma população) é representada
por ! “x barra” e a média da população pela letra grega µ.
FÓRMULA: ! =
%
$&' #$
(
A média ponderada, por sua vez, também será obtida por uma soma de valores dividida
pelo tamanho amostral. O que difere da média aritmética é que cada elemento da amostra terá
um “PESO” (número de repetições desse elemento) e multiplicaremos cada elemento pelo
número do seu peso, somaremos todas multiplicações e dividiremos pela soma de todos os pesos.
Por exemplo, se quisermos saber qual a média de salário numa firma em que existem 2 gerentes
ganhando R$10.000,00 e 10 engenheiros ganhando R$5.000,00, é necessário multiplicar os
fatores correspondentes e depois somar o resultado da seguinte maneira:
)∗+,.,,,.+,∗/,.,,,
().+,)
=
2$5.833,33.
FÓRMULA: 9: =
;' ∗<' .;= ∗<= .⋯;% ∗<%
;' .;= .⋯.;%
=
A ?9
@=1 @ @
A ?
@=1 @
A moda é o valor que aparece com maior frequência em um conjunto de dados, ou seja, o
valor que mais se repete. Por exemplo, no caso das notas dos alunos de uma sala com 10 alunos
forem 4; 5; 5; 5; 7; 7; 7,5; 8; 9 e 10, a moda é a nota que aparece com maior frequência, no caso,
5. Existem amostras bimodais (no caso de haver dois valores que aparecem com maior
frequência) e amodais (no caso de todos os valores aparecerem com a mesma frequência).
FGV–ESTATÍSTICA1–2016.2
3
A mediana é uma medida que não se baseia no valor, mas sim na posição que cada
elemento da amostra ocupa quando os dados estão ordenados em ordem crescente.
Classificamos como mediana o elemento que ocupa a posição central da amostra ordenada, ou
seja, o valor que deixa os 50% menores da amostra antes dele e os 50% maiores depois dele.
Então, caso existam 9 valores numa amostra, deve-se ordenar a amostra em ordem crescente e
então, a mediana será o quinto valor (ficam 4 antes e 4 depois do quinto elemento). Logo, caso
tivermos uma amostra com os seguintes valores: 1, 2, 3, 4, 6, 7, 8, 9, 1000, a mediana será o
quinto valor apresentado, “6”. Algo que devemos ter em mente quando calcularmos média e
mediana é que a MÉDIA é afetada por valores extremos e que fogem do padrão da amostra,
enquanto que o valor da mediana é menos sensível para este evento, uma vez que o que importa
para a mediana é apenas o termo central. No caso ilustrado acima, a mediana é “6”, porém, a
média é aproximadamente 115,55.
No caso de uma quantidade de números pares, a mediana será a média entre os dois
números medianos, logo, com os valores: 1, 2, 3 e 4, a mediana será “2,5”, uma vez que é a
média entre 2 e 3.
Por fim, outras medidas de posição importantes são os percentis e quartis. Organizando-se
os dados em ordem crescente, o p-ésimo percentil divide os dados em duas partes, sendo p%
menores do que o p-ésimo percentil. Assim, por exemplo, 20% dos valores da base de dados são
inferiores ao 20o percentil, 50% dos valores são inferiores ao 50o percentil e assim por diante. Os
25o, 50o e 75o percentis, recebem o nome de 1o, 2o e 3o quartis, respectivamente. Desta forma,
75% dos valores da base de dados são inferiores ao 3o quartil (ou 75o percentil).
Para calcular os percentis, deve-se calcular o índice i (@ =
C
+,,
A) que indica a posição o p-
ésimo percentil em uma amostra de n observações. Se i não for inteiro, deve-se arredondar para
cima (assim, o p-ésimo percentil é o valor que ocupa a posição i+1). Se i for um valor inteiro, o
p-ésimo percentil será a média dos valores que ocupam a posição i e i+1. O exemplo abaixo
ilustra o cálculo das medidas de posição apresentadas.
EXEMPLO 1: Dados os seguintes valores de uma amostra, determine:
Amostra: 3, 5, 6, 6, 6, 7, 8, 10, 15, 21, 25, 29
a-) Média
b-) Mediana
c-) Moda
d-) 20o percentil
FGV–ESTATÍSTICA1–2016.2
4
e-) 3o quartil
Solução do Exemplo 1:
a-) Média: ! =
#$
(
=
+D+
+)
= EE, FG
b-) Mediana: Número par de observações. Assim a Mediana é a média dos dois valores
intermediários (6ª e 7ªobservações):
Med =
H.I
)
= F, G
c-) Moda: Valor que aparece com maior frequência é o 6.
d-) 20º percentil: @ =
C
+,,
A=
),
+,,
12 = 2,4ªMNOPQRSçãM
Assim, o 20º percentil ocorre no 3º termo, ou seja, 6, indicando que aproximadamente 20%
dos dados são menores do que 6.
e-) 3º quartil (75º percentil):
@=
C
+,,
A=
H/
+,,
12 = 9ª observação
Como i é inteiro o 3º quartil é a média entre a 9ª e a 10ª observação à
+/.)+
)
= EW
MEDIDASDEDISPERSÃO
Muitas pessoas acreditam que a média é o fator mais importante na estatística. Porém,
caso os valores não apresentassem desvios, não seria necessário calcular a média, certo? Então
medir a VARIABILIDADE dos dados é extremamente importante. A forma mais utilizada de se
calcular essa variabilidade, ou dispersão dos dados, é por meio do desvio padrão ou da variância.
O desvio padrão é a raiz quadrada da variância.
O desvio padrão de uma população é comumente representado pela letra grega σ e a de
uma amostra pela letra “s”. Desta forma, a variância da população é σ2 e da amostra s2.
FÓRMULA PARA AMOSTRA: O ) =
FGV–ESTATÍSTICA1–2016.2
(#$ X#)=
(X+
e s = O)
5
FÓRMULA PARA POPULAÇÃO: Z ) =
(#$ X[)=
\
e Z = Z)
Embora muitas pessoas sintam um estranhamento ao verem essas fórmulas pela primeira
vez, seu entendimento é simples. Como ela quer calcular a variabilidade de todos os dados
presentes na amostra, é necessário ter um ponto de referência para calcular essa variabilidade,
portanto, a base escolhida é a média, apresentado como ]. Logo, o que é calculado é a distância
de todos os dados até a média, ou, de maneira mais formal, é a "média do quadrado dos desvios
de todos os pontos até a média”. Interpretação: Quanto maior for o desvio-padrão, mais
dispersos serão os dados em torno da média.
GRÁFICOSDEDISPERSÃOUNIDIMENSIONAL(HISTOGRAMA)
O histograma é uma maneira bastante comum de apresentar dados quantitativos. Nele, os
dados são sintetizados em uma distribuição de frequência, que pode ser tanto absoluta como
relativa.
No eixo x do histograma deve-se colocar a variável de interesse. No eixo y fica a
distribuição de frequência (absoluta ou relativa) contida em cada classe (intervalo). Um dos
cuidados que se deve ter no histograma é o tamanho das classes, que devem constituir intervalos
semelhantes para facilitar a comparação. O exemplo a seguir ilustra como é feito um histograma.
EXEMPLO 2: Os dados abaixo são as notas de alguns alunos, selecionados aleatoriamente,
em uma prova de estatística. Com base nos dados elabore o histograma tanto de frequência
relativa quanto de frequência absoluta.
Aluno
1
2
3
4
5
6
7
Nota
0
2,5
3,1
3,4
3,7
3,9
4,5
Aluno
8
9
10
11
12
13
14
Nota
4,9
5,2
5,4
5,5
5,8
5,9
6,2
Aluno
15
16
17
18
19
20
Nota
6,9
7,2
7,3
7,4
9,4
10
FGV–ESTATÍSTICA1–2016.2
6
Solução do Exemplo 2:
Para fazer os histogramas é necessário separar os dados em classes ou intervalos. Como o
enunciado não diz nada sobre as classes, vamos utilizar dez classes. A primeira contempla alunos
que tiraram nota de zero até 0,99. A segunda alunos que tiraram nota de 1 até 1,99, e assim por
diante. Assim temos a seguinte tabela:
Classe
0 – 0,99
1 – 1,99
2 – 2,99
3 – 3,99
4 – 4,99
5 – 5,99
6 – 6,99
7 – 7,99
8 – 8,99
9 – 10
Total
Frequência Absoluta
1
0
1
4
2
5
2
3
0
2
20
Frequência Relativa
5%
0%
5%
20%
10%
25%
10%
15%
0%
10%
100%
Com base na tabela foi possível construir os histogramas, tanto da frequência relativa
quanto da frequência absoluta, conforme os gráficos abaixo:
Freq.Abs
Freq.Relat
5
25%
4
20%
3
15%
2
10%
1
5%
1
2
3
4
5
6
7
8
9
10 Nota
1
2
3
4
5
6
7
8
9
10 Nota
Observação:Existetambémohistogramadedensidades,noqualdecadaretângulodográficosão
iguaisàsfrequênciasrelativasdecadaclasse.Nessecaso,asomadetodasasáreasserá1(ou100%).
FGV–ESTATÍSTICA1–2016.2
7
EXERCÍCIOSCAPÍTULO1
1-) A distribuição de salários de uma empresa é fornecida pela tabela a seguir:
Calcule a média salarial dessa empresa.
2-) A tabela abaixo apresenta a distribuição de frequência dos salários de um grupo de 50
empregados de uma empresa, em certo mês. O salário médio desses empregados, nesse mês, foi
de:
a) R$ 2 637,00
b) R$ 2 520,00
c) R$ 2 500,00
d) R$ 2 420,00
e) R$ 2 400,00
FGV–ESTATÍSTICA1–2016.2
8
3-) Em certa eleição municipal foram obtidos os seguintes resultados:
O número de votos obtido pelo candidato vencedor foi:
a) 178
b) 182
c) 184
d) 188
e) 191
4-) A tabela abaixo mostra o resultado de uma pesquisa com 70 pessoas que possuem automóvel.
A variável estudada é X= número de vezes que trocou de carro nos últimos 5 anos.
Número de vezes que Frequência
trocou de carro
absoluta
0
10
1
15
2
20
3
15
4
10
Qual é o valor do desvio-padrão de X?
a.
b.
c.
d.
e.
1,3
1,6
2,5
4,2
10,5
FGV–ESTATÍSTICA1–2016.2
9
5-) Você é o responsável pela produção de dois antigripais. As únicas informações disponíveis
para planejar a produção são a média e o desvio-padrão histórico das vendas do mês de julho
para cada medicamento. Os resultados são mostrados a seguir:
Média
Desvio-padrão
Antigripal1
105.000
10.000
Antigripal 2
44.000
8.000
Você quer comparar a variabilidade dos dois antigripais para avaliar para qual dos dois
antigripais há menor incerteza nas vendas. Qual das seguintes conclusões é correta neste caso?
a. O desvio-padrão das vendas do antigripal 1 é maior que o desvio-padrão das vendas do
antigripal 2. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais
incerteza.
b. Não há como comparar a variabilidade das vendas dos dois antigripais porque as médias
são diferentes.
c. A média das vendas do antigripal 1 corresponde a 1050% do seu desvio-padrão. A média
das vendas do antigripal 2 corresponde a 550% do seu desvio-padrão. Portanto, as vendas
do antigripal 1 são mais difíceis de prever, pois há mais incerteza.
d. Ambos desvios-padrão são menores que suas respectivas médias. Portanto, os dois
possuem pequena incerteza e são fáceis de prever.
e. Como os dois medicamentos têm médias diferentes, os valores dos desvios-padrão não
devem ser comparados diretamente. O desvio-padrão do antigripal 1 é 9,5% da venda
média, enquanto que o do antigripal 2 é 18% da venda média. Portanto, o desvio-padrão
das vendas do antigripal 2, percentualmente em relação à média, é maior. Desta forma,
considera-se que a incerteza das vendas do antigripal 2 é maior.
FGV–ESTATÍSTICA1–2016.2
10
6-) Em uma empresa, o número de dias para responder uma solicitação de um cliente (variável
“X”) segue a distribuição de frequências abaixo:
x
p(x)
1
0,1
2
0,2
3
0,4
4
0,2
5
0,1
Qual é o desvio-padrão da variável x?
a. 0,490
b. 1,095
c. 1,200
d. 1,414
e. 1,582
7-) Considere o banco de dados com uma amostra de n igual a 5 clientes de uma loja de
departamento:
Cliente
1
2
3
4
5
Nota para o
atendimento
6
4
7
7
6
Se X é a nota para o atendimento, quanto vale:
_
^`+ !^
a.
b.
c.
d.
e.
6
7
10
17
30
FGV–ESTATÍSTICA1–2016.2
11
...
Para obter a apostila completa, passe em um de nossos pontos de venda.
FGV–2016.2
XX
Download