UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS Departamento de Estatística Luiz Medeiros http://www.de.ufpb.br/~luiz/ ► Vimos que é possível sintetizar os dados sob a forma de distribuições de frequências e gráficos gráficos.. ► Pode ser de interesse apresentar esses dados através de medidas descritivas que sintetizam as características da distribuição distribuição.. ► Para representar um conjunto de dados de forma condensada utilizaremos algumas medidas de posição e de dispersão dispersão.. MEDIDAS DE POSIÇÃO - MÉDIA Média Aritmética Simples Simples:: É a soma das observações dividida pelo número de observações. observações. Seus valores tendem a se localizar em um ponto central dentro de um conjunto de dados. dados. Em geral é a medida de posição mais comum. comum. A média aritmética de X é dada por por:: Para dados agrupados por valor: Exemplo: Calcule a média da distribuição de Exemplo: frequência por valor ► PROPRIEDADES DA MÉDIA ARITMÉTICA ► i) A soma algébrica dos desvios de um conjunto de números em relação a média aritmética é zero. ► ii) Quando somamos ou subtraímos uma constante aos valores de uma variável, a média fica aumentada ou diminuída dessa constante. ► iii) Quando multiplicamos ou dividimos todos os valores de uma variável por uma constante, a média fica multiplicada ou dividida por essa constante. ► PROPRIEDADES DA MÉDIA ARITMÉTICA ► IMPORTANTE: Quando um conjunto de dados contém valores extremos não é aconselhável o uso da média para representação dos dados. ► EXEMPLO: A partir da distribuição de renda calcule a renda média dos Engenheiros em uma Empresa. ► 2500 3300 5500 2700 4200 6000 3000 4800 7000 3200 5000 80000 MÉDIA ARITMÉTICA PONDERADA ► Nos cálculos envolvendo média aritmética simples, todas as ocorrências têm exatamente a mesma importância ou o mesmo peso peso.. ► No entanto, existem casos onde as ocorrências têm importância relativa diferente diferente.. Nestes casos, o cálculo da média deve levar em conta esta importância relativa ou peso relativo relativo.. Exemplo: As aplicações mais comuns no mercado financeiro são: Exemplo: são: Poupança, Certificado de Depósito Bancário (CDB), Recibo de Depósito Bancário (RDB) e os Fundos de Investimento. Investimento. Uma multinacional decide aplicar parte do seu lucro em três diferentes aplicações no período de um ano. ano. Segue abaixo o montante aplicado em cada uma das aplicações no período. período. Tipos de Aplicações Poupança CDB Valor das Aplicações R$ 250.000,00 R$ 100.000,00 Rentabilidade 7% 11% RDB R$ 80.000,00 12% Qual foi a rentabilidade média (em percentual) da empresa com as aplicações no final do período? Justifique sua resposta. resposta. MEDIDAS DE POSIÇÃO - MEDIANA Mediana: Ocupa a posição central de uma série de observações Mediana: ordenadas, ou seja, é o valor que divide os dados em duas partes iguais (isto é, em duas partes de 50 50% % cada) cada).. É denotada por Me Me.. Caso 1 - “n” ímpar ímpar:: Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é o valor central, isto é Me = elemento que está na posição (n+1)/2; Caso 2 - “n” par par:: Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é a média aritmética dos valores centrais, isto é Me = média aritmética entre os elementos das posições n/2 e (n/2)+1 MEDIDAS DE POSIÇÃO - MODA Moda: É o valor (valores) mais frequente na distribuição de valores, e Moda: será denotado por MO. a. Se todos os valores se repetem a mesma quantidade de vezes, dizemos que não há moda, ou seja, a distribuição é amodal; amodal; b. Se um valor ocorre com mais frequência, frequência, dizemos que a distribuição é unimodal;; unimodal c. Se dois valores se repetem a mesma quantidade de vezes e com mais freqüência, dizemos que a distribuição é bimodal. bimodal. d. Se mais de dois valores se repetem a mesma quantidade de vezes e com a mesma freqüência, dizemos que a distribuição é multimodal. Exemplo: Uma multinacional estuda implementar uma nova Exemplo: política de incentivo financeiro a suas equipes de vendas. vendas. Com o objetivo de estabelecer uma meta mínima a empresa estudou o comportamento das vendas de três diferentes equipes durante seis meses meses.. Os valores obtidos (em milhões de R$) foram: foram: Equipes A B C Vendas 40 27 35 38 29 31 27 37 38 25 44 27 38 43 36 37 30 29 A equipe de qual região é a mais eficiente nas vendas? b) Foi estabelecida uma remuneração extra para a equipe em que o número de meses das vendas superiores a média geral seja, no mínimo, 60 60% %. Verifique se alguma equipe ganhou essa remuneração.. Por quê? remuneração a) ► Exemplo: De acordo com informações obtidas de uma Exemplo: multinacional, o salário dos funcionários que possuem curso superior são: são: R$ 2500, 2500,00 – 3200, 3200,00 – 1800, 1800,00 – 1600,,00 – 1900, 1600 1900,00 – 2100, 2100,00 – 2500, 2500,00 – 2000, 2000,00 – 4500,,00 – 4900, 4500 4900,00 – 1500, 1500,00 – 3300, 3300,00 – 2500, 2500,00 00.. Baseado nas informações da empresa determine determine:: a) Qual o salário médio dos funcionários que possuem curso superior? b) Qual o salário mais frequente? frequente? c) Qual o salário mediano? MEDIDAS DE POSIÇÃO - QUARTIS, DECIS E PERCENTIS Em alguns casos, o pesquisador tem interesse em conhecer outros aspectos relativos ao conjunto de dados.. Nessa direção, os quartis dados quartis,, decis e percentis podem fornecer informações relevantes à pesquisa pesquisa.. ► Quartis: São as observações que dividem o rol em 4 partes Quartis: iguais e são denotadas por Q1, Q2 e Q3. ► Decis: São as observações que dividem o rol em 10 partes Decis: iguais e são denotadas por D1,D2, . . . ,D9. ► Percentis: São as observações que dividem o rol em 100 Percentis: partes iguais e são denotadas por P1, P2, . . . , P99. Note ainda que Q2 = D5 = P50 = Me. ASSIMETRIA ► Média = mediana = moda -> distribuição simétrica ► Média > Mediana > Moda -> distribuição assimétrica positiva ► Média < Mediana < Moda -> distribuição assimétrica negativa MEDIDAS DE DISPERSÃO ► As medidas de posição apresentadas fornecem a informação dos dados apenas a nível pontual, sem ilustrar outros aspectos referentes à forma como os dados estão distribuídos na amostra. amostra. ► As medidas de dispersão são utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores. valores. MEDIDAS DE DISPERSÃO Exemplo: Notas de três turmas de Estatística da UFPB Observações importantes i) ii) iii) iv) As três turmas possuem a mesma média. As notas estão distribuídas sob diferentes formas. A média resume o conjunto de dados apenas posição central. A média não fornece informações sobre a variabilidade dos dados. Solução: Apresentar junto da média uma medida que sumarize a Solução: variabilidade do conjunto de dados. dados. MEDIDAS DE DISPERSÃO – AMPLITUDE TOTAL ► Amplitude Total: Total: Uma forma simples de medir a dispersão em um conjunto de observações é através da amplitude total: total: AT = max max(X (X1, . . . ,X ,Xn) − min min(X (X1, . . . ,X ,Xn) Verifica-se que a amplitude como medida de Verificadispersão é limitada limitada.. Essa medida só depende dos valores extremos, ou seja, não é afetada pela dispersão dos valores internos MEDIDAS DE DISPERSÃO - VARIÂNCIA ► a) A variância de um conjunto de dados (amostra ou população) é uma medida de “VARIABILIDADE ABSOLUTA”. ABSOLUTA”. Ela mede a variabilidade do conjunto em termos de desvios quadrados em relação à média aritmética. aritmética. É uma quantidade sempre não negativa e expressa em unidades quadradas do conjunto de dados, sendo de difícil interpretação. interpretação. Para dados agrupados por valor: MEDIDAS DE DISPERSÃO – DESVIO PADRÃO É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expressa na mesma unidade de medida do conjunto de dados. dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e é obtida a partir da variância variância.. S= 2 S MEDIDAS DE DISPERSÃO – COEFICIENTE DE VARIAÇÃO É uma medida de “VARIABILIDADE RELATIVA”, útil para comparar a variabilidade de observações com diferentes unidades de medida. medida. É definida por: por: Exemplo: VALORES MÉDIA D.P. C.V. 1-2-3 2 1 50 % 100 - 200 - 300 200 100 50 % 101 - 102 - 103 102 1 1% ► É importante expressar a variabilidade em termos relativos porque, por exemplo, um desviodesvio-padrão igual a 1 pode ser muito pequeno se a magnitude dos dados é da ordem de 1.000, mas pode ser considerado muito elevado se esta magnitude for da ordem de 10. ► Observe também que o coeficiente de variação é adimensional e por este motivo permite a comparação das variabilidades de diferentes conjuntos de dados. CONSIDERAÇÕES GERAIS ► O conjunto de todos os possíveis elementos de uma determinada pesquisa constitui uma população estatística. estatística. Sua média é a média populacional, usualmente representada pela letra grega µ. Na grande maioria das situações práticas, a média populacional é desconhecida e deve ser estimada a partir de dados amostrais. amostrais. Se a amostra for extraída de forma adequada, a média amostral X é uma boa estimativa de µ. ► A amplitude, apesar de ser muito fácil de calcular, tem a desvantagem de levar em consideração apenas os dois valores extremos (máximo e mínimo) da massa de dados, desprezando os demais demais.. ► A variância populacional é representada por σ2. Usualmente, a variância populacional é desconhecida e deve ser estimada a partir dos dados amostrais. amostrais. Se a amostra foi extraída de forma adequada, a variância amostral S2 é uma boa estimativa de σ2. ► e S tomadas na amostra, denominadas ESTATÍSTICAS, são estimativas dos PARÂMETROS POPULACIONAIS µ, As medidas X , S2 σ2 e σ (supostos desconhecidos) desconhecidos).. CONSIDERAÇÕES GERAIS Curtose Exemplo: Na tabela abaixo encontraExemplo: encontra-se a estrutura do produto interno bruto do Brasil, em bilhões de reais, segundo as atividades econômicas. econômicas. a) Em qual dos setores ocorre a maior variabilidade? PERÍODO AGROPECUÁRIA INDÚSTRIA SERVIÇOS 2002 6,6 27,1 66,3 2003 7,4 27,8 64,8 2004 6,9 30,1 63 2005 5,7 29,3 65 2006 5,5 28,8 65,8 2007 5,6 27,8 66,6 Exemplo: Uma certa empresa que fabrica duas linhas de Exemplo: produtos (A e B) necessita reestruturar sua produção. produção. Foi realizado um estudo para tal finalidade e uma das variáveis consideradas foi VENDA (quantidade mensal) de cada tipo de produto (A e B). B). Para este estudo foi tomado como referência o primeiro semestre de determinado ano, onde foram verificados as seguintes VENDAS VENDAS:: a) b) PRODUTO A 13 32 28 25 24 25 PRODUTO B 25 20 29 30 26 20 Em relação a esta variável, qual dos produtos (A ou B) apresentou maior estabilidade nas VENDAS mensais? A empresa decide penalizar a equipe que obteve, em algum mês, um volume de venda inferior a X -1,5S. Alguma equipe foi penalizada?