Medida de Tendência Central um valor no centro ou no meio de um conjunto de dados 1 Definições Média (Média Aritmética) o número obtido somando-se todos os valores de um conjunto de dados, dividindo-se pelo total de elementos deste conjunto de dados. 2 Notação Σ denota somatório de um conjunto de valores. x é a variável usada para representar valores individuais dos dados n representa o número de valores em uma amostra N representa o número de todos os valores de uma população. 3 Notação x pronuncia-se ‘x-barra’ e denota a média de um conjunto de valores amostrais x = Σx n µ (minúscula grega ‘mu’) e denota a média de todos os valores de uma população µ = Σx N Calculadoras fornecem a média dos dados 4 Definições Mediana valor do meio de um conjunto de valores, quando estes estão dispostos em ordem crescente (ou decrescente). geralmente denotada por x~ (lê-se ‘x-til’) não é afetada por valores extremos 5 6,72 3,46 3,60 6,44 3,46 3,60 6,44 6,72 (número par de valores) não há um meio exato -- média de dois valores 3.60 + 6.44 MEDIANA é 5,02 2 6,72 3,46 3,60 6,44 26,70 3,46 3,60 6,44 6,72 26,70 (número ímpar de valores) há um meio exato MEDIANA é 6,44 6 Definições Moda o valor que ocorre mais freqüentemente Bimodal Multimodal Amodal denotada por M É a única medida de tendência central que pode ser usada com dados nominais 7 Exemplos a. 5 5 5 3 1 5 1 4 3 5 Õ Moda é 5 b. 1 2 2 2 3 4 5 6 6 6 7 9 Õ Bimodal - c. 1 2 3 6 7 8 9 10 Õ Amodal 2e6 8 Definições Ponto médio o valor que está a meio caminho entre o maior e o menor valor do conjunto de dados. Ponto médio= maior valor + menor valor 2 9 Média de uma Tabela de Freqüências usar pontos médios das classes da variável x Σ (f • x) x = Σf Formula 2-2 x = ponto médio da classe f = freqüência Σf=n 10 Média Ponderada Σ (w • x) x = Σw 11 Melhor Medida de Tendência Central Vantagens - Desvantagens Tabela 2-13 12 Definições Simétrica Dados são simétricos se a metade esquerda de seu histograma é aproximadamente a imagem-espelho da metade direita. Assimétrica Uma distribuição de dados é assimétrica quando não é simétrica. 13 Assimetria Moda = Média = Mediana SIMÉTRICA Média Moda Mediana ASSIMÉTRICA À DIREITA (negativamente) Média Moda Mediana ASSIMÉTRICA À ESQUERDA (positivamente) 14 Tempo de Espera de Clientes em Diferentes Bancos em minutos Banco A 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco B 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 15 Tempo de Espera de Clientes em Diferentes Bancos em minutos Banco A 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 Banco B 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0 Banco A Banco B Média 7.15 7,15 Mediana 7.20 7,20 Moda 7.7 7,7 Ponto médio 7.10 7,10 16 Dotplots of Waiting Times Figura 2-1a 17 Medidas de Variação 18 Medidas de Variação Amplitude maior valor menor valor 19 Medidas de Variação Desvio-padrão uma medida de variação dos valores em relação à média (desvio médio em relação à média) 20 Fórmula do Desvio-padrão Amostral S= Σ (x - x) n-1 2 Fórmula 2-4 Calculadoras fornecem o desviopadrão amostral 21 Desvio-padrão Amostral Fórmula Abreviada s= n (Σx ) - (Σx) n (n - 1) 2 2 Fórmula 2-5 Calculadoras fornecem o desviopadrão amostral 22 Fórmula do Desvio Absoluto Médio Σ x-x n 23 Desvio-padrão Populacional σ = Σ (x - µ) 2 N Calculadoras fornecem o desviopadrão amostral 24 Medidas de Variação Variância Desvio-padrão ao quadrado } Notação s 2 σ 2 25 Variância 2 s = σ 2 = Σ (x - x ) 2 n-1 Σ (x - µ) N 2 Variância amostral Variância populacional 26 Desvio-padrão de uma Tabela de Freqüências Fórmula 2-6 n [Σ(f • x 2)] -[Σ(f • x)]2 S= n (n - 1) Usar os pontos médios de classe como os valores x 27 Regra Prática (desvio-padrão em termos de amplitude x - 2s x x + 2s (máximo valor) (mínimo valor) Amplitude ≈ 4s s≈ Amplitude 4 maior valor - menor valor = 4 28 Valores Amostrais Usuais valor mínimo “usual” ≈ (média) - 2 (desvio-padrão) mínimo ≈ x - 2(s) valor máximo “usual” ≈ (média) + 2 (desvio-padrão) máximo ≈ x + 2(s) 29 FIGURA 2-15 Regra Empírica (aplicada a distribuições em forma de sino) 99.7% dos dados estão dentro de 3 desvios-padrão a contar da média 95% estão dentro de 2 desvios-padrão 68% estão dentro de 1 desvio-padrão 34% 34% 2.4% 2.4% 0.1% 0.1% 13.5% x - 3s x - 2s 13.5% x-s x x+s x + 2s x + 3s 30 Teorema de Chebyshev aplica-se a distribuições com qualquer forma. a proporção (ou fração) de qualquer conjunto de dados a menos de K desvios-padrão a contar da média é sempre 2 pelo menos 1 - 1/K , onde K é um número positivo maior do que 1. pelo menos 3/4 (75%) de todos os valores estão no intervalo que vai de 2 desvios-padrão abaixo da média a 2 desvios-padrão acima da média. pelo menos 8/9 (89%) de todos os valores estão no intervalo que vai de 3 desvios-padrão abaixo da média até 3 desvios-padrão acima da média. 31 Medidas de Variação Dado Isolado Para um conjunto de valores típico, é raro um valor do mesmo diferir da média mais de 2 ou 3 desvios-padrão. 32 Medidas de Posição 1 Medidas de Posição Escores z (ou escore padronizado) é o número de desvios-padrão pelo qual um dado valor x dista da média (para mais ou para menos) 2 Medidas de Posição escore z Amostra População x x z= s x µ z= σ Arredondar para 2 casas decimais 3 FIGURA 2-16 Interpretando Escores Z Valores Incomuns -3 Valores Usuais -2 -1 0 Valores Incomuns 1 2 3 Z 4 Medidas de Posição Quartis, Decis, Percentis 5 Quartis Q1, Q2, Q3 dividem as observações ordenadas em quatro partes iguais 25% (mínimo) 25% 25% 25% Q1 Q2 Q3 (máximo) (mediana) 6 Decis D1, D2, D3, D4, D5, D6, D7, D8, D9 dividem os dados ordenados em dez partes iguais 10% 10% 10% D1 D2 D3 10% 10% 10% D4 D5 10% 10% 10% 10% D6 D7 D8 D9 7 Percentis P1, P2, P3, P4, ..., P98, D99 dividem os dados ordenados em cem partes iguais 8 Quartis, Decis, Percentis Fractis (Quantis) dividem os dados em partes aproximadamente iguais 9 Determinação do Percentil de um dado valor de x Percentil do valor x = número de valores inferiores a x • 100 Número total de valores 10 Determinação do valor referente a um dado percentil L= k 100 •n n k L Pk total de valores no conjunto de dados percentil a ser utilizado indicador que dá a posição de um escore k-ésimo percentil 11 Início Ordenar os dados. (do menor para o maior.) Calcular L= k 100 ( )n Determinação do kmo Percentil onde n = número de valores k = percentil desejado L é um número inteiro? Sim Não O valor do kmo percentil está a meio caminho entre o Lmo valor e o próximo valor mais alto no conjunto original de dados. Obtém-se Pk somando-se o Lmo valor ao próximo valor mais alto e dividindo-se o resultado por 2. Modificar L, arredondando seu valor para o maior inteiro mais próximo. O valor de Pk é o Lmo valor a contar do mais baixo. Figura 2-17 12 Quartis Q1 = P25 Q2 = P50 Q3 = P75 Decis D1 = P10 D2 = P20 D3 = P30 • • • D9 = P90 13 Intervalo Interquartil: Q3 - Q1 Q Q 3 1 Intervalo Semi-interquartil: 2 Quartil Médio: Q1 + Q3 2 Amplitude de percentis 10-90: P90 - P10 14