CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 8 DE NOVEMBRO DE 2016 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 10 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense SEÇÃO 14.4: MEDIDAS DE DISPERSÃO MEDIDAS DE DISPERSÃO Existem várias maneiras diferentes de descrever a dispersão de um conjunto de dados. Nesta seção descreveremos as três maneiras mais usadas. A AMPLITUDE Uma abordagem óbvia para se descrever a dispersão de um conjunto de dados é considerar a diferença entre os valores máximo e mínimo no conjunto de dados. Esta diferença é denominada amplitude (range) e ela será denotada pela letra R (de range, amplitude em inglês). Assim, R = Max – Min. A amplitude de um conjunto de dados é uma peça de informação útil quando não existem outliers no conjunto de dados. Na presença de outliers, a amplitude nos conta uma história distorcida. Por exemplo, a amplitude dos resultados do exame de estatística (Exemplo 14.1) é igual a 24 – 1 = 23 pontos, indicando uma grande dispersão das pontuações (isto é, indicando a existência de um grupo muito heterogêneo de estudantes). É verdade, mas se desconsiderarmos os dois outliers, os 73 resultados restantes têm uma amplitude muito menor: 16 – 6 = 10 pontos. A AMPLITUDE INTERQUARTÍLICA Para eliminar a possível distorção provocada por outliers, uma prática comum para se medir a dispersão de um conjunto de dados consiste em utilizar a amplitude interquartílica (nterquartile range), denotada pelo IQR. A amplitude interquartílica é a diferença entre o terceiro quartil e o primeiro quartil (IQR = Q3 – Q1). Ela nos diz o quão dispersos estão os 50% dados centrais. Para muitos tipos de dados do mundo real, a amplitude interquartílica é uma medida de dispersão útil. EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007 – PARTE 3 O resumo dos cinco números para os resultados em matemática do teste SAT de 2007 (ver Exemplo 14.15) é dado por Min = 200 (sim, alguns candidatos erraram todas as perguntas!), Q1 = 430, M = 510, Q3 = 590 e Max = 800 (sim, alguns candidatos acertaram todas as questões!). Disto resulta que os resultados em matemática do teste SAT de 2007 tiveram amplitude de 600 pontos (R = 800 – 200 = 600) e amplitude interquartílica de 160 pontos (IQR = 590 – 430 = 160). O DESVIO PADRÃO A medida de dispersão mais importante e mais comumente usada para um conjunto de dados é o desvio padrão. O conceito chave para se compreender o desvio padrão é o conceito de desvio em relação à média. Se A é a média do conjunto de dados e x é o valor de um dado, a diferença x – A é o desvio em relação à média (deviation from the mean) de x. Os desvios em relação à média nos dizem o quão longe os valores dos dados estão do valor médio dos dados. A ideia é usar essas informações para descobrir o quão dispersos os dados estão. Os desvios em relação à média também formam um conjunto de dados, o qual gostaríamos de resumir. Uma forma seria calcular a média dos desvios, mas, se fizermos isso, os desvios negativos e os desvios positivos se cancelarão mutuamente, de modo que vamos acabar com uma média sempre igual a zero: N N N N N N N ∑ ( x − A) ∑ x − ∑ A ∑ x − A∑1 ∑ x − AN ∑ x i =i 1 N i =i 1 =i 1 =i 1 = N = i =i 1 =i 1 N = i i =i 1 N = N − A = A − A = 0. O DESVIO PADRÃO O cancelamento de desvios positivos e negativos podem ser evitados elevando-se ao quadrado cada um dos desvios. Os desvios ao quadrado nunca são negativos, e se calcularmos a sua média, obteremos uma medida de dispersão importante denominada de variância (variance), denotada por V. Finalmente, se tomarmos a raiz quadrada da variância, obteremos o desvio padrão, representado pela letra grega σ e, às vezes, pela sigla SD (standard deviation em inglês). De forma mais esquemática: • Seja A a média de um conjunto de dados. Para cada valor x no conjunto de dados, calcule o seu desvio em relação à média (x – A) e eleve ao quadrado cada um desses números. Os resultados são denominados desvios quadrados (squared deviations). • Calcule a média dos desvios quadrados. Este número é denominado a variância V do conjunto de dados. • O desvio padrão é a raiz quadrada da variância (σ = V1/2). Observação: em algumas definições é conveniente definir a variância como a soma dos desvios quadrados dividida por N – 1 ao invés de N. Uma explicação será dada posteriormente (estimados não enviesados em inferência estatística). EXEMPLO 14.19: CÁLCULO DE UM DESVIO PADRÃO Ao longo do semestre, Ângela fez todos os deveres de casa. Suas notas nos 10 trabalhos (ordenados do menor para o maior) foram 85, 86, 87, 88, 89, 91, 92, 93, 94 e 95. Nosso objetivo neste exemplo é calcular o desvio padrão do conjunto de dados da maneira antiga (ou seja, com lápis e papel). O primeiro passo é calcular a média do conjunto de dados. Não é difícil de se ver que A = 90. Temos sorte: este é um número inteiro! O segundo passo é calcular os desvios em relação à média e, em seguida, os desvios quadrados. Os pormenores são mostrados nas segunda e terceira colunas da Tabela 14-11. Quanto a média dos desvios quadrados, obtemos (25 + 16 + 9 + 4 + 1 + 1 + 4 + 9 + 16 + 25)/10 = 11. Isto significa que a variância é V = 11 e, portanto, o desvio padrão (arredondados para uma casa decimal) é σ = 111/2 ≈ 3,3 pontos. O DESVIO PADRÃO Desvios padrões são medidos nas mesmas unidades que os dados originais. Assim, no Exemplo 14.19, o desvio padrão das notas dos deveres de casa de Ângela foi de cerca de 3,3 pontos. O que devemos concluir com essa informação (3,3 pontos)? É claro, a partir de apenas um olhar casual nas pontuações de Ângela, que ela foi muito consistente em seus deveres de casa, nunca se afastando muito acima ou muito abaixo de sua média de 90 pontos. O desvio padrão é, na verdade, uma forma de medir esse grau de consistência. Um pequeno desvio padrão nos diz que os dados são consistentes e que a dispersão dos dados é pequena, como é o caso com as pontuações de Ângela. A última palavra em consistência dentro de um conjunto de dados é quando os valores de todos os dados são iguais (como é o caso da amiga de Ângela, Chloe, que tirou 20 em todos os deveres de casa). Quando isso acontece, o desvio padrão é 0. Por outro lado, quando há uma grande inconsistência no conjunto de dados, teremos um grande desvio padrão. Isto é ilustrado por outra amiga de Ângela, Tiki, cuja pontuações foram 5, 15, 25, 35, 45, 55, 65, 75, 85 e 95. O desvio padrão deste conjunto de dados é comparativamente maior: quase 29 pontos. O DESVIO PADRÃO O desvio padrão é, sem dúvida, a medida de dispersão mais importante e mais frequentemente usada. No entanto, o conceito não é particularmente intuitivo. Aqui estão algumas orientações básicas que recapitulam a nossa discussão anterior: • O desvio padrão de um conjunto de dados é medido nas mesmas unidades que os dados originais. Por exemplo, se os dados estão em metros, então o desvio padrão também é dado em metros. Por outro lado, se o desvio padrão é dado em dólares, então podemos concluir que os dados originais devem ter sido dinheiro (preços de casas, salários ou algo assim). Por certo, os dados não poderiam ter sido os resultados das medidas das alturas de pessoas. • Não faz sentido comparar desvios padrões de conjuntos de dados que são dados em unidades diferentes. Mesmo para os conjuntos de dados que são dados nas mesmas unidades (digamos, por exemplo, os resultados de testes), a escala usada dever ser a mesma. Não devemos tentar comparar desvios padrões para as pontuações do teste SAT que tem uma escala de 200 a 800 pontos com desvios padrões das pontuações de tarefas de casa medidas em uma escala de 0 a 100 pontos. O DESVIO PADRÃO • Para conjuntos de dados que são dados em uma mesma escala, uma comparação dos desvios padrões pode nos dizer algo sobre a dispersão dos dados. Se o desvio padrão é pequeno, podemos concluir que os dados estão todos amontoados: há pouca dispersão. À medida que o desvio padrão aumenta, podemos concluir que os dados estão começando a se dispersar. Quanto mais dispersos eles estiverem, maior será o desvio padrão. Um desvio padrão igual a 0 significa que todos os valores dos dados são todos iguais. CONCLUSÃO Quer queiramos ou não, na era da informação, estamos nadando em um mar de dados. Hoje, os dados são a moeda comum do discurso científico, social e econômico. Satélites poderosos varrem constantemente nosso planeta, coletando quantidades prodigiosas de dados meteorológicos, geológicos e geográficos. Agências governamentais recolhem milhões de números a cada ano sobre o nosso modo de viver, trabalhar, gastar e morrer. Mesmo em nossas atividades menos sérias, tais como esportes, somos inundados com dados. Confrontado com o problema comum de “dilúvio de dados”, estatísticos e cientistas criaram muitas formas engenhosas para organizar, visualizar e resumir grandes quantidades de dados. Neste capítulo discutimos alguns conceitos básicos nesta área da estatística. CONCLUSÃO Resumos gráficos de dados podem ser produzidos por diagramas de barras, pictogramas, diagramas de setores, histogramas e assim por diante. Existem muitos outros tipos de descrições gráficas que não discutimos neste capítulo. O tipo de resumo gráfico que é o mais adequado para uma situação depende de muitos fatores, e criar uma "imagem" boa de um conjunto de dados é muito mais uma arte do que uma ciência. Resumos numéricos de dados, quando usados apropriadamente, nos ajudam a entender o padrão geral de um conjunto de dados sem que tenhamos que nos prender a detalhes. Eles se dividem em duas categorias: (1) medidas de posição, como a média, a mediana e os quartis e (2) medidas de dispersão, tais como a amplitude, a amplitude interquartílica e o desvio padrão. Às vezes, até mesmo combinamos resumos numéricos com resumos gráficos, como é o caso do boxplot. Apenas tocamos em todos esses tópicos neste capítulo: o assunto é grande e, pela necessidade, apenas arranhamos a superfície. CONCLUSÃO Nos dias de hoje, somos todos consumidores de dados e, em um momento ou em outro, é provável que sejamos fornecedores de dados também. Assim, entender os conceitos básicos de como os dados são organizados e resumidos tornou-se um requisito essencial para o sucesso pessoal e boa cidadania. ALGUMAS OBSERVAÇÕES ALGORITMOS DE ORDENAÇÃO O cálculo dos percentis (incluindo a mediana e os quartis) requer que o conjunto de dados esteja ordenado. Como ordenar de maneira eficiente um conjunto de dados? Esse problema é estudado em computação e vários algoritmos com desempenhos e características diferentes existem. Na página WEB de nosso curso você encontrar links onde poderá aprender um pouco sobre o assunto. DESVIO PADRÃO VERSUS DESVIO MÉDIO ABSOLUTO σ ∑ ∑ N N 2 xi ( xi − A) i 1= i 1 = versus MD N −A N Recomendação de leitura: Revisiting A 90-Year-Old Debate: The Advantages of The Mean Devation por Stephen Gorard (British Journal of Educational Studies, v. 53, n. 4, pp. 417-430, 2005), disponível na página WEB de nosso curso. Também vale a pena dar uma conferida no verbete Mean Deviation da Enciclopédia MathWorld: http://mathworld.wolfram.com/MeanDeviation.html DESVIO MEDIANO ABSOLUTO O desvio padrão e o desvio médio absoluto consideram desvios com relação à média dos dados. O desvio mediano absoluto considera desvios com relação à mediana. Para calcular o desvio mediano absoluto, calcule primeiro a mediana de todos os dados. Em seguida, calcule a distância entre cada dado e a mediana. Isto formará um novo conjunto de dados.. O desvio mediano absoluto é a mediana deste novo conjunto de dados. O desvio mediano absoluto é mais resistente a outliers do que o desvio padrão. No desvio padrão, os desvios com relação à média são elevados ao quadrado de modo que grandes desvios são ponderados mais fortemente e, assim, outliers podem ter forte influência no seu valor. No desvio mediano absoluto, os desvios de um pequeno número de outliers são irrelevantes. DIAGRAMAS DE CAULE E FOLHAS (TEXTO E EXEMPLOS DE CARLOS TERNEIRO DA UNIVERSIDADE DE COIMBRA) DIAGRAMAS DE CAULE E FOLHAS O propósito de se exibir dados graficamente é o de dar um panorama visual das características interessantes e importantes do conjunto de dados. Decidir qual é a melhor representação gráfica para um determinado conjunto de dados é uma questão que pode não ser respondida antes que os dados sejam analisados e vistos de maneiras diferentes. Um diagrama de caule e folhas é uma representação gráfica/numérica adequada para conjuntos de dados de pequeno porte com apenas valores positivos e ela é particularmente útil quando é importante se manter os dados numéricos originais. DIAGRAMAS DE CAULE E FOLHAS Passos para se construir um diagrama de caule e folhas: 1. Separar cada observação num caule, formado pelos algarismos dominantes do número, e numa folha, formada pelos restantes algarismos. 2. Colocar os caules numa coluna por ordem crescente de cima para baixo, e desenhar uma linha vertical à direita dessa coluna de números. 3. Colocar à direita de cada caule as respectivas folhas, por ordem crescente da esquerda para a direita. EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS Consideremos o seguinte conjunto de dados relativo ao peso em gramas de 42 ratos diabéticos: 40, 46, 45, 46, 43, 47, 52, 39, 45, 42, 42, 44, 40, 41, 51, 42, 41, 38, 45, 48, 39, 49, 38, 38, 42, 48, 49, 40, 38, 46, 42, 38, 51, 48, 44, 48, 40, 44, 38, 41, 45, 52. Seguindo os passos da construção: EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS O diagrama anterior dá uma pobre ideia da distribuição da variável na parte central do mesmo. Neste caso é habitual separar cada caule em semicaules. No caso do exemplo anterior, isto corresponderia a considerar os semicaules 3, 3, 4, 4, 5 e 5, e a associar ao primeiro semicaule as folhas 0, 1, 2, 3 e 4, e ao segundo semicaule as folhas 5, 6, 7, 8 e 9. Eis o diagrama de caule e folhas resultante: Por vezes justifica-se ainda dividir cada caule em 5 subcaules. Ao primeiro subcaule associamos as folhas 0 e 1, ao segundo as folhas 2 e 3, ao terceiro as folhas 4 e 5, ao quarto as folhas 6 e 7, e, finalmente, ao quinto subcaule associavamos as folhas 8 e 9. EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS Para testar uma nova farinha para pintos, de um grupo de 40 pintos com um dia de vida selecionaram-se 20 aos quais foi administrada a nova farinha (grupo experimental), tendo aos restantes sido dada a ração habitual (grupo de controle). Passadas três semanas os pintos foram pesados tendo-se obtido os seguintes ganhos no peso (em gramas): EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS Pretendendo-se representar a distribuição dos pesos dos pintos do grupo de controle por um diagrama de caule e folhas, surgem duas possibilidades para separar as observações em caule e folhas. Tomando a observação 383 para exemplificar, podemos optar por considerar 3 o caule e 83 a folha, ou, em alternativa, considerar 38 o caule e 3 a folha. A segunda opção é desapropriada uma vez que levaria a um diagrama com demasiados caules e poucas folhas por caule. Tomando então a primeira opção, somos conduzidos ao diagrama seguinte em que cada caule tem uma amplitude de 100: EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS Para facilitar a leitura representamos cada folha por um só algarismo o que neste caso corresponde a desprezarmos o algarismo das unidades. Obtemos então o diagrama de caule-e-folhas simplificado: Reparemos que, contrariamente aos diagramas anteriores, neste diagrama simplificado não são registadas as verdadeiras observações uma vez que estas aparecem truncadas. Tal como no Exemplo 1.2.2 podemos ainda dividir cada caule em semicaules: EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS Podemos ainda dividir cada caule em semicaules: EXEMPLO: TRUNCANDO DIAGRAMAS DE CAULE E FOLHAS Uma das aplicações mais interessantes dos diagramas de caule-e-folhas é a possibilidade de comparar dois conjuntos de observações conjugando os diagramas de caule e folhas respectivos. O diagrama seguinte permite uma comparação simples dos grupos de controle e experimental, revelando evidências de que para os pintos considerados a nova farinha é preferível à antiga. Para que esta comparação seja válida é importante que o número de observações em cada um dos grupos seja aproximadamente o mesmo. DIAGRAMAS DE CAULE E FOLHAS DIAGRAMAS DE PONTOS (DOT PLOTS): WILKINSON E CLEVELAND DIAGRAMAS DE PONTOS DE WILKINSON O diagrama de pontos de Wilkinson é uma tipo de representação gráfica semelhante a um histograma: os valores dos dados são mostrados ao longo de um eixo horizontal. Um ponto é então marcado sobre cada valor no conjunto de dados. Os diagramas de pontos de Wilkinson são úteis para realçar aglomerados, lacunas e outliers. Exemplo: o diagrama de pontos de Wilkinson a seguir exibe a quantidade de motoristas com carteira de habilitação em cada 1000 habitantes por estado nos Estados Unidos. Fonte: Departamento de Transportes dos Estados Unidos. DIAGRAMAS DE PONTOS DE CLEVELAND Aqui seguiremos o artigo Dot Plots: A Useful Alternative to Bar Charts de Naomi Robbins. Leitores fazem várias análises ao interpretar diagramas: eles podem julgar o comprimento de um segmento de reta, a área de um setor circular, a posição de um ponto ao longo de uma escala, o declive de uma reta ou uma série de outros atributos dos pontos, linhas e barras que são desenhados. Cleveland e McGill (1984) identificaram os julgamentos que são executados ao se interpretar diagramas e conduziram, com cuidado, experimentos para determinar quais destes julgamentos são realizados com mais precisão. A partir dos resultados destes experimentos, eles então propuseram um diagrama. O resultado foi o diagrama de pontos (de Cleveland). DIAGRAMAS DE PONTOS DE CLEVELAND O diagrama de pontos na Figura 1 mostra as receitas das 60 maiores empresas da lista Fortune 1000. A Figura 2 mostra essas mesmas receitas através de um diagrama de barras. A maioria dos leitores não terá problemas em interpretar qualquer um dos dois diagramas. Note, contudo, que o diagrama de pontos é menos confuso, menos redundantes e usa menos tinta. DIAGRAMAS DE PONTOS DE CLEVELAND DIAGRAMAS DE PONTOS DE CLEVELAND DIAGRAMAS DE PONTOS DE CLEVELAND A lista Fortune 1000 também apresenta os lucros dessas empresas. A Figura 3 mostra os resultados para estas 60 empresas na mesma ordem que nas Figuras 1 e 2, para ajudar a fazer a comparação entre os diagramas. DIAGRAMAS DE PONTOS DE CLEVELAND O poder do diagrama de pontos torna-se evidente quando queremos combinar a informação da Figura 1 (ou 2) com a informação da Figura 3 em um único diagrama. Receitas e lucros são mostrados na Figura 4. DIAGRAMAS DE PONTOS DE CLEVELAND A apresentação na Figura 4 seria muito mais desordenada e mais difícil de interpretar se usássemos diagramas de barras. DIAGRAMAS DE PONTOS DE CLEVELAND Outra vantagem da Figura 4 é que ela não depende de cor, de modo que ela pode ser usada em publicações em preto e branco, sem perda de clareza. Os dois grupos podem ser distinguidos por meio de símbolos diferentes. AGORA: EXERCÍCIOS EM SALA DE AULA