ESTATÍSTICA E Prof Paulo Renato A. Firmino [email protected] Aulas 05-06 Estatística Descritiva – Medidas de Posição • Mediana: É o valor que se localiza no centro de uma amostra ordenada • Se o número de observações (n) for impar, a mediana será o valor que se localiza na posição (n+1)/2 da amostra ordenada • Se não, a de se ponderar os valores localizados nas posições n/2 e n/2+1 É o valor cuja percentagem de valores menores ou iguais equivale a 50% Dados não ordenados x1 x2 x3 ... xj ... xn quantile(x, prob=0.5) Ordenação sort(x) posição 1 2 3 ... (n+1)/2 ... n Dados ordenados x32 xn xj ... x22 ... x4 Estatí Estatística Aplicada - Paulo Renato A. Firmino 2 Estatística Descritiva – Medidas de Posição • Mediana: Não deve ser usada sobre variáveis nominais, pois requer a ordenação das categorias • Ex. 1: Degradação = {0, 2, 0, 1, 2, 1, 2, 2, 0, 0} → Mediana =1 • Ex. 3: tempo de atendimento = {5, 10, 2.3, 4, 4.1, 3, 7, 2, 4.5, 0.3} → Mediana = (4+4.1)/2 = 4.05 Estatí Estatística Aplicada - Paulo Renato A. Firmino 3 Estatística Descritiva – Medidas de Posição • Exercício 1: Obtenha a mediana nos seguintes casos 1. Tempos de aposentadoria em dada comunidade (em anos): 5, 10, 2.3, 4, 4.1, 3, 7, 2, 4.5, 0.3 2. Considera-se que o seguinte modelo se ajusta bem à distribuição de renda (x) de dado local: f (x) = e 3. − 1 ( x − 630 )2 2 Considere as variáveis de “BSI01”. 6 Estatística Descritiva – Medidas de Posição • Quantil: Uma generalização da mediana é a função Quantil A mediana é o quantil 50% da amostra ordenada (Q50%) De maneira geral, tem-se Q100·p% (o quantil 100·p%) como sendo o valor que se encontra na posição p·n da amostra ordenada Toda a abordagem apresentada para a mediana pode ser aplicada para o cálculo de um quantil qualquer quantile(x, prob=p) Estatí Estatística Aplicada - Paulo Renato A. Firmino 7 Estatística Descritiva – Medidas de Posição • Média aritmética: n É a razão entre a soma dos valores observados e o número de valores observados x= ∑x i=1 i n É a medida de posição que representa o centro de gravidade da amostra Sofre influência de todos os valores da amostra • Isto não ocorre com a moda ou a mediana, por exemplo Não deve ser apliaca a variáveis qualitativas • Realiza operações matemáticas de soma e divisão Ex. 1: tempo de vida: 5, 10, 2.3, 4, 4.1, 3, 7, 2, 4.5, 0.3 → Média = (4+10+2.3+...+0.3)/10 = 4.22 Estatí Estatística Aplicada - Paulo Renato A. Firmino mean(x) 8 Estatística Descritiva – Medidas de Posição • Exercício 2: Obtenha a média nos seguintes casos 1. Tempos de aposentadoria em dada comunidade (em anos): 5, 10, 2.3, 4, 4.1, 3, 7, 2, 4.5, 0.3 2. Considera-se que o seguinte modelo se ajusta bem à distribuição de renda (x) de dado local: f (x) = e 3. − 1 ( x − 630 )2 2 Considere as variáveis de “BSI01”. Estatí Estatística Aplicada - Paulo Renato A. Firmino 10 Estatística Descritiva – Medidas de Posição • Aplicação por tipo de variável: Medida Moda Mediana Média Tipo de variável Qualitativa Quantitativa Nominal Ordinal Pode Pode Pode Não pode Pode Pode Não pode Não pode Pode Estatí Estatística Aplicada - Paulo Renato A. Firmino 11 Estatística Descritiva – Medidas de Dispersão • Medidas de posição permitem inferir sobre o valor que a variável aleatória assumirá Qual será o resultado do lançamento da moeda? Quantos milímetros de chuva teremos na próxima semana? Quanto valerá a cesta básica em Outubro? • Medidas de dispersão permitem medir quão confiáveis são estas inferências Elas medem a variabilidade que caracteriza uma variável como tal A quantidade de milímetros de chuva varia “muito” de uma precipitaçao para outra? O valor da cesta básica tem variado “pouco” ao longo dos meses? Estatí Estatística Aplicada - Paulo Renato A. Firmino 13 Estatística Descritiva – Medidas de Dispersão • Índice de variação qualitativa (IQV): É a razão entre a quantidade de variação observada nos dados e a máxima variação possível É geralmente aplicada a variáveis qualitativas Assume valores entre zero (não há dispersão nos dados) e 1 (observa-se máxima dispersão nos dados) k k(n − ∑ n ) 2 IQV = i=1 n2 (k − 1) • k – nº de classes • n – tamanho da amostra • ni – freqüência da classe i 2 i #freq: the absolute frequency distribution iqv<-function(freq){ k<-length(freq) n<-sum(freq) sum_n2 <- sum(freq*freq) n2 <- n^2 k*(n2-sum_n2)/(n2*(k-1)) } Veja que as categorias observadas não são envolvidas nas contas • Mas sim as suas frequências Estatí Estatística Aplicada - Paulo Renato A. Firmino 14 Estatística Descritiva – Medidas de Dispersão • Exercício 3: Para os seguintes casos, calcule o IQV. Tente interpretar seus resultados. 1. Tempos de falha (em anos): 5, 10, 2.3, 4.5, 4.1, 3, 7, 2, 4, 0.3 2. Sexo de entrevistados (1- masc, 2-femin): 1, 2, 2, 1, 1, 1, 2, 2, 2, 1, 1, 2, 1 3. Grau de instrução de entrevistados (1- sem formação, 2-ens fundam, 3-ens médio, 4-ens super): 1, 4, 1, 2, 2, 4, 3, 3, 1, 2, 3, 2, 2, 3 4. Nº de leitos ocupados de um hospital (por dia): 33, 21, 26, 22, 24, 28, 35, 23, 27, 25, 32, 34 5. Considere as variáveis de “BSI01”. Estatí Estatística Aplicada - Paulo Renato A. Firmino 15 Estatística Descritiva – Medidas de Dispersão • Amplitude: É a diferença entre os valores máximo e mínimo da amostra • Amplitude = max - min Por usar o operador matemático de subtração, não deve ser aplicado a variáveis qualitativas Não mede a dispersão dos dados contidos entre os extremos, tornando-se relativamente pobre l<-range(x) amplitude <- l[2]-l[1] Amplitude max min Estatí Estatística Aplicada - Paulo Renato A. Firmino 16 Estatística Descritiva – Medidas de Dispersão • Variância amostral (s2): n É a razão entre a soma dos quadrados das diferenças entre cada observação e a média e o número de observações (n) menos 1 s2 = 2 ( x − x ) ∑ i i =1 n −1 var(x) Indicada apenas para variáveis quantitativas Considera todas as observações disponíveis A divisão por n-1 se dá de forma a eliminar eventuais vícios de estimadores. Devido à sua unidade de medida ser o quadrado da unidade de medida da variável, é comum que se trabalhe com o desvio padrão (DP): 2 s= s Estatí Estatística Aplicada - Paulo Renato A. Firmino 17 Estatística Descritiva – Medidas de Dispersão • Exercício 4: Para os seguintes casos, calcule a amplitude, variância e o desvio-padrão 1. Produção de grãos de dada comunidade em 4 meses (em toneladas): 1, 2, 4, 3 2. tempos de falha (em anos): 5, 10, 2.3, 4.5, 4.1, 3, 7, 2, 4, 0.3 3. Nº de leitos ocupados de um hospital (por dia): 33, 21, 26, 22, 24, 28, 35, 23, 27, 25, 32, 34 Estatí Estatística Aplicada - Paulo Renato A. Firmino 18 Estatística Descritiva – Medidas de Dispersão • Exercício 5: Para o seguinte caso, calcule a variância e o desvio-padrão 1. A distribuição de frequências do nº de clientes mensais de uma empresa é dada por categoria 1 2 3 Total freq absoluta (ni) 3 5 2 10 Estatí Estatística Aplicada - Paulo Renato A. Firmino 20 Estatística Descritiva – Medidas de Dispersão • Coeficiente de Variação (CV): É a razão entre o desvio-padrão e a média s cv = x Indicado apenas para os casos onde a média difere de zero • Mais usado para variáveis não negativas – Nestes casos, ele expressa a porcentagem de variação da amostra em relação à média – Trata-se de uma medida adimensional • Permite que a dispersão de diversas variáveis seja comparada – Esta seria uma tarefa árdua se recorrêssemos à amplitude, variância e desvio-padrão Estatí Estatística Aplicada - Paulo Renato A. Firmino 21 Estatística Descritiva – Medidas de Dispersão • Exercício 6: Retorne ao Exercício 3 e ao Exercício 4 e calcule o CV. 1. 2. Qual amostra apresenta maior variabilidade? Qual delas é menos dispersa? Estatí Estatística Aplicada - Paulo Renato A. Firmino 22 Estatística Descritiva – Medidas de Dispersão • Aplicação por tipo de variável: Tipo de variável Qualitativa Quantitativa Medida IQV Pode Amplitude Não pode Variância (desvio-padrão) Não pode Pode Pode Pode Estatí Estatística Aplicada - Paulo Renato A. Firmino 23