PROBABILIDADE E ESTATÍSTICA Profa. Dra. Yara de Souza Tadano [email protected] Aula 4 09/2014 Estatística Descritiva Medidas de Variação Aulas 4 – Medidas de Variação Probabilidade e Estatística 3/42 Medidas de Variação ¨ Vamos analisar os dados para o tempo de espera (em minutos) de clientes em três bancos diferentes. Banco ¨ Cliente 1 Cliente 2 Cliente 3 B1: Fila controlada 6 6 6 B2: Fila única 4 7 7 B3: Múltiplas filas 1 3 14 A tempo médio de espera é o mesmo para todos os bancos. x = 6,0 min Aulas 4 – Medidas de Variação Probabilidade e Estatística 4/42 Medidas de Variação ¨ Pelo gráfico vemos que os tempos de espera variam de banco para banco. Aulas 4 – Medidas de Variação Probabilidade e Estatística 5/42 Medidas de Variação ¨ As medidas de dispersão (ou variação) mais comuns são: ¤ Amplitude (Total); ¤ Desvio-Padrão; ¤ Variância; ¤ Coeficiente de Variação (Medida de dispersão relativa). Aulas 4 – Medidas de Variação Probabilidade e Estatística 6/42 Amplitude Total ¨ A amplitude total (ou intervalo total) é a diferença entre o máximo e o mínimo do conjunto. At = X (n ) − X (1) X (n ) = valor máximo X (1) = valor mínimo Aulas 4 – Medidas de Variação Probabilidade e Estatística 7/42 Desvio-padrão Amostral ¨ O desvio-padrão é a medida de variação mais importante e útil. n 2 s=+ s =+ 2 ∑ (x − x ) i i =1 n −1 n 2 s=+ s =+ Desvio-padrão Amostral n∑ i =1 n ⎛ ⎞ x − ⎜ ∑ xi ⎟ ⎝ i =1 ⎠ n(n − 1) ( ) 2 i 2 Aulas 4 – Medidas de Variação Probabilidade e Estatística Fórmula abreviada para Desvio-padrão Amostral 8/42 Desvio-padrão Amostral ¨ O desvio padrão é uma medida da variação de todos os valores a partir da média. ¨ O valor do desvio padrão é zero quando todos os valores dos dados são o mesmo número. ¨ Maiores valores de s indicam maior variação. ¨ O valor do desvio padrão s pode crescer drasticamente com a inclusão de um ou mais outliers. ¨ A unidade de medida do desvio padrão é a mesma dos dados originais. Aulas 4 – Medidas de Variação Probabilidade e Estatística 9/42 Desvio-padrão Populacional n 2 2 ∑ (x − µ ) i σ =+ σ =+ i =1 N Aulas 4 – Medidas de Variação Probabilidade e Estatística 10/42 Variância ¨ A de um conjunto de valores é uma medida da variação igual ao quadrado do desvio padrão. s 2 Variância Amostral σ 2 Variância Populacional Aulas 4 – Medidas de Variação Probabilidade e Estatística 11/42 Variância ¨ A variância amostral s2 é considerada um estimador nãoviesado da variância populacional, ou seja, os valores de s2 tendem para o valor de σ2 em vez de sistematicamente superestimarem ou subestimarem σ2. Aulas 4 – Medidas de Variação Probabilidade e Estatística 12/42 ¨ Ao compararmos a variação em dois conjuntos de dados diferentes, os desvios-padrão só devem ser comparados se os dois conjuntos de dados usarem a e , e tiverem, aproximadamente, a ¨ Se as forem substancialmente amostras usarem de medida . , ou se as , recorreremos a outra medida de variação. Aulas 4 – Medidas de Variação Probabilidade e Estatística 13/42 Coeficiente de Variação ¨ Ao comparar a variação para , não podemos utilizar o desvio-padrão. ¨ Cabe então, definir uma nova medida de variação, chamada . Aulas 4 – Medidas de Variação Probabilidade e Estatística 14/42 Coeficiente de Variação ¨ O coeficiente de variação (CV), expresso em percentual, descreve o desvio padrão relativo à média. s CV = ×100% x CV Amostral σ CV = ×100% µ CV Populacional Aulas 4 – Medidas de Variação Probabilidade e Estatística 15/42 Exemplo ¨ Usando dados amostrais de altura e massa obtidos em uma pesquisa com 40 homens, encontramos as estatísticas dadas na tabela a seguir. Compare os dois resultados. Média ¨ ¨ Desvio-padrão Altura 173,58 cm 7,67 cm Massa 11,94 kg 78,27 kg Como comparar, se estamos tratando de variáveis diferentes, com unidades de medida diferentes? Usa-se o . Aulas 4 – Medidas de Variação Probabilidade e Estatística 16/42 Medidas de Posição Relativa Aulas 4 – Medidas de Variação Probabilidade e Estatística 17/42 ¨ Medidas de posição relativa são números que mostram a posição dos valores de dados relativamente a outros valores, em um conjunto de dados. ¤ Escores z; ¤ Percentis; ¤ Quartis; ¤ Diagrama em caixa (boxplot). Aulas 4 – Medidas de Variação Probabilidade e Estatística 18/42 Escores z ¨ Encontra-se um (ou ), convertendo-se um valor para uma escala padronizada. ¨ Um escore z (ou valor padronizado) é o número de desviospadrão a que se situa determinado valor x, acima ou abaixo da média. Aulas 4 – Medidas de Variação Probabilidade e Estatística 19/42 Escores z ¨ O escore z é encontrado usando-se: x−x z= s z= x−µ σ Aulas 4 – Medidas de Variação Probabilidade e Estatística Escore z Amostral Escore z Populacional 20/42 Escores z ¨ Arredonde escores z para duas casas decimais. ¨ Exemplo: z = 2,46. ¨ Esta regra se deve ao fato de que a tabela-padrão de escores z apresenta escores z com duas casas decimais. Aulas 4 – Medidas de Variação Probabilidade e Estatística 21/42 Exemplo ¨ ¨ ¨ ¨ Vamos considerar o exemplo anterior, onde foram comparados os coeficientes de variação das alturas e das massas de 40 homens. Vamos comparar dois valores individuais. Qual é mais extremo, 193,55 cm de altura de um homem ou 107,55 kg de massa de um homem? Precisaremos comparar os escores z. Aulas 4 – Medidas de Variação Probabilidade e Estatística 22/42 Escores z ¨ ¨ Valores não-usuais têm escores z menores do que -2 e maiores do que +2. Valores comuns têm escores z entre -2 e +2. Valores Não Usuais -3 -2 Valores Usuais -1 0 1 Valores Não Usuais 2 3 Aulas 4 – Medidas de Variação Probabilidade e Estatística 23/42 Escores z ¨ Sempre que um valor de dado é do que a média, seu escore z correspondente é ¨ . Sempre que um valor de dado é seu escore z correspondente é do que a média, . Aulas 4 – Medidas de Variação Probabilidade e Estatística 24/42 Percentis ¨ Os percentis são exemplos de , que dividem os dados em grupos com aproximadamente o mesmo número de valores em cada grupo. ¨ Os percentis são medidas de localização, denotados por P1, P2, ..., P99 que dividem os dados em de com cerca dos valores em cada um. Aulas 4 – Medidas de Variação Probabilidade e Estatística 25/42 Percentis ¨ ¨ Cálculo do Percentil de um Valor de Dado: O processo para se encontrar o percentil que corresponde a determinado valor x é dado pela seguinte expressão: Número de valores menores que x Percentil do valor de x = ⋅100 Número total de valores ¨ Arredonde para o inteiro mais próximo. Aulas 4 – Medidas de Variação Probabilidade e Estatística 26/42 Exemplo ¨ A tabela abaixo lista os 35 valores dos orçamentos (em milhões de dólares) ordenados, de uma amostra aleatória simples de filmes. Ache o percentil para o valor de U$ 29 milhões. 4,5 30 60 72 120 5 35 65 74 125 6,5 40 68 75 132 7 40 68 80 150 20 41 70 100 160 20 50 70 113 200 Aulas 4 – Medidas de Variação Probabilidade e Estatística 29 52 70 116 225 27/42 Conversão de um percentil em um valor de dado Aulas 4 – Medidas de Variação Probabilidade e Estatística 28/42 Ordene os dados Calcule L = (k/100) × n L é um número inteiro? NÃO Mude L, arredondando-o para o próximo inteiro maior. O valor de Pk é o L-ésimo valor, contando a partir do menor. L é o localizador que dá a posição de um valor; k é o percentil em questão; n é o número de valores. Valor do k-ésimo percentil será a meio caminho entre o L-ésimo valor e o próximo valor, no conjunto ordenado dos dados. Ache Pk calculando a média entre o L-ésimo valor e o próximo valor. Aulas 4 – Medidas de Variação Probabilidade e Estatística 29/42 Exercício ¨ Estabelecendo os limites de velocidade: A seguir estão listadas as velocidades (em mi/h) de carros selecionados aleatoriamente e que viajavam em uma seção da rodovia 405 em Los Angeles. Essa seção da rodovia tem limite de velocidade de 65 mi/h. Os engenheiros de tráfego, em geral, estabelecem o limite de velocidade usando a “regra do 85º percentil”, pela qual o limite de velocidade é estabelecido de modo que 85% dos motoristas estejam, no máximo, a essa velocidade. Aulas 4 – Medidas de Variação Probabilidade e Estatística 30/42 Exercício ¨ ¨ ¨ Ache o 85º percentil das velocidades listadas. Dado que as velocidades são, em geral, arredondadas para o múltiplo de 5 mais próximo, qual limite de velocidade é sugerido por esses dados? Explique sua escolha. O limite de velocidade existente na Rodovia 405 está de acordo com a regra do 85º percentil? 68 68 72 73 65 74 73 72 68 65 65 73 66 71 68 74 66 71 65 73 59 75 70 56 66 75 68 75 62 72 60 73 61 75 58 74 60 73 58 75 Aulas 4 – Medidas de Variação Probabilidade e Estatística 31/42 Quartis ¨ ¨ ¨ ¨ QUARTIS são medidas de localização, denotadas por Q1, Q2 e Q3, que dividem um conjunto de dados em quatro grupos, com cerca de 25% dos valores em cada grupo. Q1 = P25: Separa os 25% inferiores dos 75% superiores dos valores ordenados. Q2 = P50: O mesmo que a mediana (separa os 50% valores ordenados inferiores dos 50% superiores). Q3 = P75: Separa os 75% inferiores dos 25% superiores dos valores ordenados. Aulas 4 – Medidas de Variação Probabilidade e Estatística 32/42 ¨ Não existe um único método para determinar percentis e quartis. ¨ Diferentes programas computacionais resultarão em valores diferentes. Aulas 4 – Medidas de Variação Probabilidade e Estatística 33/42 ¨ Algumas estatísticas podem ser definidas usando-se quartis e percentis: ¨ Amplitude Interquartil (AIQ) = Q3 – Q1 ¨ Amplitude semi-interquartil = (Q3 – Q1) / 2 ¨ Quartil Médio = (Q3 + Q1) / 2 ¨ Amplitude percentil 10-90 = P90 – P10 Aulas 4 – Medidas de Variação Probabilidade e Estatística 34/42 Resumo dos Cinco Números ¨ O resumo dos cinco números consiste: ¤ No valor mínimo; ¤ No Q1; ¤ No Q2; ¤ No Q3; ¤ No valor máximo. Aulas 4 – Medidas de Variação Probabilidade e Estatística 35/42 Diagrama em caixa (Boxplot) ¨ Um é um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo ao valor máximo, em uma no primeiro quartil, na mediana e no terceiro quartil. ¨ O diagrama em caixa nos dá informação sobre a distribuição e dispersão dos dados. Aulas 4 – Medidas de Variação Probabilidade e Estatística 36/42 Diagrama em caixa (Boxplot) ¨ Ache o resumo dos cinco números; ¨ Construa uma escala com valores que incluam os valores máximo e mínimo dos dados; ¨ Construa uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da mediana. ¨ Trace linhas estendendo-se para fora da caixa até os valores mínimo e máximo dos dados. Aulas 4 – Medidas de Variação Probabilidade e Estatística 37/42 Diagramas em caixa modificados ¨ ¨ ¨ ¨ Como considerar outliers em diagramas em caixa? Outliers são valores amostrais que se localizam muito afastados da maioria dos outros valores no conjunto de dados. Em diagramas em caixa modificados, temos uma definição mais específica. Um valor é considerado um outlier se ele está: Acima de Q3 por uma quantidade maior do que 1,5 × AIQ; ¤ Abaixo de Q1 por uma quantidade maior do que 1,5 × AIQ. ¤ Aulas 4 – Medidas de Variação Probabilidade e Estatística 38/42 Diagramas em caixa modificados ¨ Um diagrama em caixa modificado é um diagrama em caixa construído com estas modificações: ¤ Um símbolo especial (asterisco ou ponto) é usado para a identificação de outliers; ¤ A linha sólida horizontal se estende apenas até o menor valor dos dados que não é outlier e até o maior valor dos dados que não é outlier. Aulas 4 – Medidas de Variação Probabilidade e Estatística 39/42 ¨ Data de entrega: 03/10/2014. ¨ Considerando as taxas de pulsação de mulheres e homens da Tabela 1 (na página pessoal). Construa os diagramas em caixa para mulheres e para homens. ¨ Construa também o diagrama em caixa modificado para a pulsação das mulheres. Aulas 4 – Medidas de Variação Probabilidade e Estatística 40/42 Lista de Verificação ¨ Ao planejarmos um experimento, analisarmos dados, é importante considerarmos certos fatores-chave, tais como: ¤ Contexto dos dados; ¤ Fonte dos dados; ¤ Método de amostragem; ¤ Medidas de centro; ¤ Medidas de variação; ¤ Distribuição; ¤ Outliers ou valores atípicos; ¤ Mudanças de padrão ao longo do tempo; ¤ Conclusões; ¤ Implicações práticas. Aulas 4 – Medidas de Variação Probabilidade e Estatística 41/42 Lista de Verificação ¨ ¨ Esta é uma excelente lista de verificação, mas ela não deve substituir o pensamento crítico. Você deve se perguntar se existem outros fatores relevantes, ou se todos os fatores desta lista são relevantes. Aulas 4 – Medidas de Variação Probabilidade e Estatística 42/42