INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão Prof. Dr. Guanis de Barros Vilela Junior Relembrando !!! •Não é uma CIÊNCIA EXATA!!! •É UMA CIÊNCIA PROBABILÍSTICA !!!!!!! •Serve para “apoiar” um pressuposto teórico •Associa probabilisticamente variáveis •Não estabelece, via de regra, RELAÇÃO CAUSAL! •Pode ser manipulada!(como qualquer conhecimento) Objetivos • Descrever as características de uma amostra; •Identificar as operações matemáticas que podem ser empregadas na análise de dados de acordo com a escala de medida das variáveis; •Selecionar procedimentos adequados à análise descritiva de variáveis qualitativas e quantitativas; •Interpretar as estatísticas utilizadas para representar a tendência central e a dispersão Distribuição de Frequências A tabela abaixo mostra o gasto (em Reais) mensal em Energia Elétrica de 15 empresas Tabela Primitiva Sujeito Gasto 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 3200 1910 2204 2435 2759 3000 3004 2805 1900 1999 2960 3232 2759 2328 2524 Rol Crescente Passo 1: ordenar do menor para o maior gasto. Passo 2: Calcule a Amplitude (diferença entre o maior e o menor) A = 3232 – 1900 = 1332 Sujeito Gasto 9 2 10 3 14 4 15 5 13 8 11 6 7 1 12 1900 1910 1999 2204 2328 2435 2524 2759 2759 2805 2960 3000 3004 3200 3232 Medidas de Posição Medidas de Posição Medidas de Tendência Central Medidas Separatrizes ou de Dispersão Medidas de Tendência Central Média Aritmética – é a soma das medidas dividida pelo número de casos, representando-se a média da população por m e a da amostra por x. É uma das medidas mais usadas, entretanto, possui como desvantagem o fato de sofrer grande influência de valores extremos. Na tabela do gasto mensal apresentado anteriormente a média é: S Pi X= n = (39019) / 15 = 2601,26 Reais Medidas de Tendência Central Mediana: é o valor que se encontra na posição central da série de dados. É empregada quando há valores extremos que podem afetar, de maneira acentuada, a média. No rol crescente do gasto mensal, qual é a mediana? 9 2 10 3 14 4 15 5 13 8 11 6 7 1 12 1900 1910 1999 2204 2328 2435 2524 2759 2759 2805 2960 3000 3004 3200 3232 2759 Medidas de Tendência Central Moda: é o valor mais frequente da série de dados. É empregada em pesquisas cujas informações são de natureza qualitativa (escala nominal ou ordinal). Qual é a moda? 9 2 10 3 14 4 15 5 13 8 11 6 7 1 12 1900 1910 1999 2204 2328 2435 2524 2759 2759 2805 2960 3000 3004 3200 3232 2759 Medidas de Tendência Central Quartis: são representados por Q1, Q2, Q3, sendo chamados de primeiro, segundo e terceiro quartil respectivamente. Q1: é um valor que representa que abaixo existem 25% dos casos. Q2: é um valor que representa que abaixo existem 50% dos casos. Q3: é um valor que representa que abaixo existem 75% dos casos. Medidas de Tendência Central Decis: São representados por D1, D2, D3, ... , D9, sendo chamados, respectivamente, de primeiro, segundo, terceiro, ... , nono decil. D1: é o valor que representa que abaixo existem 10% dos casos D2: é o valor que representa que abaixo existem 20% dos casos D3: é o valor que representa que abaixo existem 30% dos casos ..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... .. D9: é o valor que representa que abaixo existem 90% dos casos Medidas de Tendência Central Percentis: São representados por P1, P2, P3, ... , P99, sendo chamados, respectivamente, de primeiro, segundo, terceiro, ... , nonagésimo nono percentil. P1: é o valor que representa que abaixo existem 10% dos casos P2: é o valor que representa que abaixo existem 20% dos casos P3: é o valor que representa que abaixo existem 30% dos casos ..... ...... ..... ...... ....... ....... ....... ....... ........ ........ ...... .. P99: é o valor que representa que abaixo existem 99% dos casos Tabelas de percentis são muito utilizadas em todas as áreas, especialmente para avaliação do crescimento e desenvolvimento de qualquer variável (ex: de crianças; de vendas; de reclamações, etc.) Medidas de Dispersão A população de duas cidades A e B possuem renda média de R$ 5000,00. Sabemos que esta medida de tendência central informa muito pouco sobre a distribuição da renda nas duas cidades, ou seja, não sabemos da proporção de ricos e pobres. Uma das cidades pode apresentar, ao mesmo tempo, uma esmagadora maioria muito pobre e algumas poucas famílias muito ricas, possuindo mesmo assim uma renda média de R$ 5000,00. A outra cidade pode apresentar uma distribuição de renda mais igualitária, tendo uma renda média de R$ 5000,00. Por isto saber da dispersão da renda para estas cidades aponta Distribuição Normal (ou Gaussiana) -2DP - DP +DP +2DP Média Distribuição Normal (ou Gaussiana) 68,3% 95,3% 99,7% Medidas de Dispersão Amplitude É a diferença entre o maior e o menor valor do conjunto de dados. Na tabela de gasto mensal: A = 3232 – 1900 = 1332 Medidas de Dispersão Desvio: É a diferença entre a média e cada um dos valores no conjunto de dados. Pode ser negativo. Variância (s2): É a média aritmética dos quadrados dos desvios. Ou seja: S2 = S(x - m)2 N Medidas de Dispersão Desvio Padrão (SD ou DP): É a raiza quadrada da variância Ou seja: DP = S(x - m)2 N Medidas de Dispersão Erro padrão (EP): É a razão entre o DP e a raiz quadrada do tamanho da amostra Ou seja: EP = DP N É muito importante para a construção de intervalos de confiança Medidas de Dispersão Erro padrão (EP): EP = S N Média da população Diferença entre o real e o esperado Média da amostra A Média da amostra B Medidas de Dispersão Coeficiente de Variação Expressa o Desvio Padrão como porcentagem do valor da média. Ou seja: DP CV = média Quanto menor o CV mais homogênea será a amostra Medidas de Dispersão Escore Z Z= Mede quanto um valor específico afasta-se da média em unidades de desvio – padrão. X-X DP -3 -2 -1 0 +1 +2 +3 Escore Z Medidas de Dispersão Z= Escore Z X-X DP É muito útil para comparar valores provenientes de diferentes estudos É de fácil conversão para percentil Medidas de Dispersão Exemplo: Admitamos que para um valor específico o escore Z = +2, então: 50% 48% +2 50+48= 98% Percentil 98: este valor é igual ou superior a 98% dos valores presentes no restante da população Exercício Considerando as estaturas de todos os meninos com 10 anos de idade de um vilarejo, obteve-se uma estatura média de 120 cm e um Desvio Padrão de 20 cm. Como se localiza dentro desta população, uma criança, que aos 10 anos de idade, apresenta estatura de 80 cm? Z= X-X DP 80 - 120 = - 2 = 20 Esta criança está no percentil 2, ou seja, ela tem uma estatura superior ou igual à apresentada por 2% das crianças de sua comunidade. ENTÃO ?!?!?!?!... Então.... •Esta criança precisa de atenção imediata! •PODE ser multifatorial (alimentação ruim, sedentarismo, doenças, genética, condições ambientais, sociais, psiquismo, etc). •OBRIGADO PELA ATENÇÃO !!!!!