Estatística 1 2016.2 Sumário Capítulo 1 – Conceitos Básicos...............................................................................................................3 MEDIDASDEPOSIÇÃO.........................................................................................................................3 MEDIDASDEDISPERSÃO.....................................................................................................................5 EXERCÍCIOSCAPÍTULO1......................................................................................................................8 Capítulo 2 – Outliers e Padronização....................................................................................................12 VALORPADRONIZADO(Z).................................................................................................................12 BOXPLOT...........................................................................................................................................13 EXERCÍCIOSCAPÍTULO2....................................................................................................................16 Capítulo 3 – Associação entre variáveis................................................................................................20 EXERCÍCIOSCAPÍTULO3....................................................................................................................26 Capítulo 4 – Distribuição de Probabilidade...........................................................................................31 DISTRIBUIÇÃODEPROBABILIDADEDEUMAVARIÁVELDISCRETA...................................................31 DISTRIBUIÇÃOBINOMIAL..................................................................................................................32 DISTRIBUIÇÃONORMAL....................................................................................................................33 EXERCÍCIOSCAPÍTULO4....................................................................................................................42 Capítulo 5 – Intervalo de Confiança......................................................................................................47 MÉDIADAPOPULAÇÃODEDESVIOPADRÃOCONHECIDO...............................................................47 MÉDIADAPOPULAÇÃODEDESVIOPADRÃODESCONHECIDO.........................................................48 PROPORÇÃODAPOPULAÇÃO...........................................................................................................51 RESPOSTAS........................................................................................................................................62 EXERCÍCIOSCAPÍTULO1....................................................................................................................62 EXERCÍCIOSCAPÍTULO2....................................................................................................................63 EXERCÍCIOSCAPÍTULO3....................................................................................................................64 EXERCÍCIOSCAPÍTULO4....................................................................................................................66 EXERCÍCIOSCAPÍTULO5....................................................................................................................67 Capítulo 1 – Conceitos Básicos MEDIDASDEPOSIÇÃO As principais medidas de posição são: média aritmética simples, média ponderada, moda, mediana, quartis e percentis, conforme apresentadas a seguir. A média aritmética simples é a base soma de todos valores amostrais, dividindo esse resultado pela quantidade total de amostras. Conforme o exemplo a seguir, é possível entender esse conceito. Se as pessoas A, B e C ganham, respectivamente, R$1.000,00, R$2.000,00 e R$3.000,00, a média dessa amostra será R$2.000,00, uma vez que todos os valores somados resultam em R$6.000,00 e essa soma é dividida por 3 (quantidade da amostra), resultando em R$ 2.000,00. Usualmente, a média de uma amostra (uma porção de uma população) é representada por ! “x barra” e a média da população pela letra grega µ. FÓRMULA: ! = % $&' #$ ( A média ponderada, por sua vez, também será obtida por uma soma de valores dividida pelo tamanho amostral. O que difere da média aritmética é que cada elemento da amostra terá um “PESO” (número de repetições desse elemento) e multiplicaremos cada elemento pelo número do seu peso, somaremos todas multiplicações e dividiremos pela soma de todos os pesos. Por exemplo, se quisermos saber qual a média de salário numa firma em que existem 2 gerentes ganhando R$10.000,00 e 10 engenheiros ganhando R$5.000,00, é necessário multiplicar os fatores correspondentes e depois somar o resultado da seguinte maneira: )∗+,.,,,.+,∗/,.,,, ().+,) = 2$5.833,33. FÓRMULA: 9: = ;' ∗<' .;= ∗<= .⋯;% ∗<% ;' .;= .⋯.;% = A ?9 @=1 @ @ A ? @=1 @ A moda é o valor que aparece com maior frequência em um conjunto de dados, ou seja, o valor que mais se repete. Por exemplo, no caso das notas dos alunos de uma sala com 10 alunos forem 4; 5; 5; 5; 7; 7; 7,5; 8; 9 e 10, a moda é a nota que aparece com maior frequência, no caso, 5. Existem amostras bimodais (no caso de haver dois valores que aparecem com maior frequência) e amodais (no caso de todos os valores aparecerem com a mesma frequência). FGV–ESTATÍSTICA1–2016.2 3 A mediana é uma medida que não se baseia no valor, mas sim na posição que cada elemento da amostra ocupa quando os dados estão ordenados em ordem crescente. Classificamos como mediana o elemento que ocupa a posição central da amostra ordenada, ou seja, o valor que deixa os 50% menores da amostra antes dele e os 50% maiores depois dele. Então, caso existam 9 valores numa amostra, deve-se ordenar a amostra em ordem crescente e então, a mediana será o quinto valor (ficam 4 antes e 4 depois do quinto elemento). Logo, caso tivermos uma amostra com os seguintes valores: 1, 2, 3, 4, 6, 7, 8, 9, 1000, a mediana será o quinto valor apresentado, “6”. Algo que devemos ter em mente quando calcularmos média e mediana é que a MÉDIA é afetada por valores extremos e que fogem do padrão da amostra, enquanto que o valor da mediana é menos sensível para este evento, uma vez que o que importa para a mediana é apenas o termo central. No caso ilustrado acima, a mediana é “6”, porém, a média é aproximadamente 115,55. No caso de uma quantidade de números pares, a mediana será a média entre os dois números medianos, logo, com os valores: 1, 2, 3 e 4, a mediana será “2,5”, uma vez que é a média entre 2 e 3. Por fim, outras medidas de posição importantes são os percentis e quartis. Organizando-se os dados em ordem crescente, o p-ésimo percentil divide os dados em duas partes, sendo p% menores do que o p-ésimo percentil. Assim, por exemplo, 20% dos valores da base de dados são inferiores ao 20o percentil, 50% dos valores são inferiores ao 50o percentil e assim por diante. Os 25o, 50o e 75o percentis, recebem o nome de 1o, 2o e 3o quartis, respectivamente. Desta forma, 75% dos valores da base de dados são inferiores ao 3o quartil (ou 75o percentil). Para calcular os percentis, deve-se calcular o índice i (@ = C +,, A) que indica a posição o p- ésimo percentil em uma amostra de n observações. Se i não for inteiro, deve-se arredondar para cima (assim, o p-ésimo percentil é o valor que ocupa a posição i+1). Se i for um valor inteiro, o p-ésimo percentil será a média dos valores que ocupam a posição i e i+1. O exemplo abaixo ilustra o cálculo das medidas de posição apresentadas. EXEMPLO 1: Dados os seguintes valores de uma amostra, determine: Amostra: 3, 5, 6, 6, 6, 7, 8, 10, 15, 21, 25, 29 a-) Média b-) Mediana c-) Moda d-) 20o percentil FGV–ESTATÍSTICA1–2016.2 4 e-) 3o quartil Solução do Exemplo 1: a-) Média: ! = #$ ( = +D+ +) = EE, FG b-) Mediana: Número par de observações. Assim a Mediana é a média dos dois valores intermediários (6ª e 7ªobservações): Med = H.I ) = F, G c-) Moda: Valor que aparece com maior frequência é o 6. d-) 20º percentil: @ = C +,, A= ), +,, 12 = 2,4ªMNOPQRSçãM Assim, o 20º percentil ocorre no 3º termo, ou seja, 6, indicando que aproximadamente 20% dos dados são menores do que 6. e-) 3º quartil (75º percentil): @= C +,, A= H/ +,, 12 = 9ª observação Como i é inteiro o 3º quartil é a média entre a 9ª e a 10ª observação à +/.)+ ) = EW MEDIDASDEDISPERSÃO Muitas pessoas acreditam que a média é o fator mais importante na estatística. Porém, caso os valores não apresentassem desvios, não seria necessário calcular a média, certo? Então medir a VARIABILIDADE dos dados é extremamente importante. A forma mais utilizada de se calcular essa variabilidade, ou dispersão dos dados, é por meio do desvio padrão ou da variância. O desvio padrão é a raiz quadrada da variância. O desvio padrão de uma população é comumente representado pela letra grega σ e a de uma amostra pela letra “s”. Desta forma, a variância da população é σ2 e da amostra s2. FÓRMULA PARA AMOSTRA: O ) = FGV–ESTATÍSTICA1–2016.2 (#$ X#)= (X+ e s = O) 5 FÓRMULA PARA POPULAÇÃO: Z ) = (#$ X[)= \ e Z = Z) Embora muitas pessoas sintam um estranhamento ao verem essas fórmulas pela primeira vez, seu entendimento é simples. Como ela quer calcular a variabilidade de todos os dados presentes na amostra, é necessário ter um ponto de referência para calcular essa variabilidade, portanto, a base escolhida é a média, apresentado como ]. Logo, o que é calculado é a distância de todos os dados até a média, ou, de maneira mais formal, é a "média do quadrado dos desvios de todos os pontos até a média”. Interpretação: Quanto maior for o desvio-padrão, mais dispersos serão os dados em torno da média. GRÁFICOSDEDISPERSÃOUNIDIMENSIONAL(HISTOGRAMA) O histograma é uma maneira bastante comum de apresentar dados quantitativos. Nele, os dados são sintetizados em uma distribuição de frequência, que pode ser tanto absoluta como relativa. No eixo x do histograma deve-se colocar a variável de interesse. No eixo y fica a distribuição de frequência (absoluta ou relativa) contida em cada classe (intervalo). Um dos cuidados que se deve ter no histograma é o tamanho das classes, que devem constituir intervalos semelhantes para facilitar a comparação. O exemplo a seguir ilustra como é feito um histograma. EXEMPLO 2: Os dados abaixo são as notas de alguns alunos, selecionados aleatoriamente, em uma prova de estatística. Com base nos dados elabore o histograma tanto de frequência relativa quanto de frequência absoluta. Aluno 1 2 3 4 5 6 7 Nota 0 2,5 3,1 3,4 3,7 3,9 4,5 Aluno 8 9 10 11 12 13 14 Nota 4,9 5,2 5,4 5,5 5,8 5,9 6,2 Aluno 15 16 17 18 19 20 Nota 6,9 7,2 7,3 7,4 9,4 10 FGV–ESTATÍSTICA1–2016.2 6 Solução do Exemplo 2: Para fazer os histogramas é necessário separar os dados em classes ou intervalos. Como o enunciado não diz nada sobre as classes, vamos utilizar dez classes. A primeira contempla alunos que tiraram nota de zero até 0,99. A segunda alunos que tiraram nota de 1 até 1,99, e assim por diante. Assim temos a seguinte tabela: Classe 0 – 0,99 1 – 1,99 2 – 2,99 3 – 3,99 4 – 4,99 5 – 5,99 6 – 6,99 7 – 7,99 8 – 8,99 9 – 10 Total Frequência Absoluta 1 0 1 4 2 5 2 3 0 2 20 Frequência Relativa 5% 0% 5% 20% 10% 25% 10% 15% 0% 10% 100% Com base na tabela foi possível construir os histogramas, tanto da frequência relativa quanto da frequência absoluta, conforme os gráficos abaixo: Freq.Abs Freq.Relat 5 25% 4 20% 3 15% 2 10% 1 5% 1 2 3 4 5 6 7 8 9 10 Nota 1 2 3 4 5 6 7 8 9 10 Nota Observação:Existetambémohistogramadedensidades,noqualdecadaretângulodográficosão iguaisàsfrequênciasrelativasdecadaclasse.Nessecaso,asomadetodasasáreasserá1(ou100%). FGV–ESTATÍSTICA1–2016.2 7 EXERCÍCIOSCAPÍTULO1 1-) A distribuição de salários de uma empresa é fornecida pela tabela a seguir: Calcule a média salarial dessa empresa. 2-) A tabela abaixo apresenta a distribuição de frequência dos salários de um grupo de 50 empregados de uma empresa, em certo mês. O salário médio desses empregados, nesse mês, foi de: a) R$ 2 637,00 b) R$ 2 520,00 c) R$ 2 500,00 d) R$ 2 420,00 e) R$ 2 400,00 FGV–ESTATÍSTICA1–2016.2 8 3-) Em certa eleição municipal foram obtidos os seguintes resultados: O número de votos obtido pelo candidato vencedor foi: a) 178 b) 182 c) 184 d) 188 e) 191 4-) A tabela abaixo mostra o resultado de uma pesquisa com 70 pessoas que possuem automóvel. A variável estudada é X= número de vezes que trocou de carro nos últimos 5 anos. Número de vezes que Frequência trocou de carro absoluta 0 10 1 15 2 20 3 15 4 10 Qual é o valor do desvio-padrão de X? a. b. c. d. e. 1,3 1,6 2,5 4,2 10,5 FGV–ESTATÍSTICA1–2016.2 9 5-) Você é o responsável pela produção de dois antigripais. As únicas informações disponíveis para planejar a produção são a média e o desvio-padrão histórico das vendas do mês de julho para cada medicamento. Os resultados são mostrados a seguir: Média Desvio-padrão Antigripal1 105.000 10.000 Antigripal 2 44.000 8.000 Você quer comparar a variabilidade dos dois antigripais para avaliar para qual dos dois antigripais há menor incerteza nas vendas. Qual das seguintes conclusões é correta neste caso? a. O desvio-padrão das vendas do antigripal 1 é maior que o desvio-padrão das vendas do antigripal 2. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza. b. Não há como comparar a variabilidade das vendas dos dois antigripais porque as médias são diferentes. c. A média das vendas do antigripal 1 corresponde a 1050% do seu desvio-padrão. A média das vendas do antigripal 2 corresponde a 550% do seu desvio-padrão. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza. d. Ambos desvios-padrão são menores que suas respectivas médias. Portanto, os dois possuem pequena incerteza e são fáceis de prever. e. Como os dois medicamentos têm médias diferentes, os valores dos desvios-padrão não devem ser comparados diretamente. O desvio-padrão do antigripal 1 é 9,5% da venda média, enquanto que o do antigripal 2 é 18% da venda média. Portanto, o desvio-padrão das vendas do antigripal 2, percentualmente em relação à média, é maior. Desta forma, considera-se que a incerteza das vendas do antigripal 2 é maior. FGV–ESTATÍSTICA1–2016.2 10 6-) Em uma empresa, o número de dias para responder uma solicitação de um cliente (variável “X”) segue a distribuição de frequências abaixo: x p(x) 1 0,1 2 0,2 3 0,4 4 0,2 5 0,1 Qual é o desvio-padrão da variável x? a. 0,490 b. 1,095 c. 1,200 d. 1,414 e. 1,582 7-) Considere o banco de dados com uma amostra de n igual a 5 clientes de uma loja de departamento: Cliente 1 2 3 4 5 Nota para o atendimento 6 4 7 7 6 Se X é a nota para o atendimento, quanto vale: _ ^`+ !^ a. b. c. d. e. 6 7 10 17 30 FGV–ESTATÍSTICA1–2016.2 11 ... Para obter a apostila completa, passe em um de nossos pontos de venda. FGV–2016.2 XX