diagrama de caule e folhas

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA
8 DE NOVEMBRO DE 2016
TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS
AULA 10
Humberto José Bortolossi
http://www.professores.uff.br/hjbortol/
Universidade Federal Fluminense
SEÇÃO 14.4: MEDIDAS DE DISPERSÃO
MEDIDAS DE DISPERSÃO
Existem várias maneiras diferentes de descrever a dispersão de um conjunto de
dados. Nesta seção descreveremos as três maneiras mais usadas.
A AMPLITUDE
Uma abordagem óbvia para se descrever a dispersão de um conjunto de dados é
considerar a diferença entre os valores máximo e mínimo no conjunto de dados.
Esta diferença é denominada amplitude (range) e ela será denotada pela letra R (de
range, amplitude em inglês). Assim, R = Max – Min.
A amplitude de um conjunto de dados é uma peça de informação útil quando não
existem outliers no conjunto de dados. Na presença de outliers, a amplitude nos
conta uma história distorcida. Por exemplo, a amplitude dos resultados do exame de
estatística (Exemplo 14.1) é igual a 24 – 1 = 23 pontos, indicando uma grande
dispersão das pontuações (isto é, indicando a existência de um grupo muito
heterogêneo de estudantes). É verdade, mas se desconsiderarmos os dois outliers,
os 73 resultados restantes têm uma amplitude muito menor: 16 – 6 = 10 pontos.
A AMPLITUDE INTERQUARTÍLICA
Para eliminar a possível distorção provocada por outliers, uma prática comum para
se medir a dispersão de um conjunto de dados consiste em utilizar a amplitude
interquartílica (nterquartile range), denotada pelo IQR. A amplitude
interquartílica é a diferença entre o terceiro quartil e o primeiro quartil
(IQR = Q3 – Q1). Ela nos diz o quão dispersos estão os 50% dados centrais. Para
muitos tipos de dados do mundo real, a amplitude interquartílica é uma medida de
dispersão útil.
EXEMPLO 14.15: OS RESULTADOS EM MATEMÁTICA
DO TESTE SAT EM 2007 – PARTE 3
O resumo dos cinco números para os resultados em matemática do teste SAT de
2007 (ver Exemplo 14.15) é dado por Min = 200 (sim, alguns candidatos erraram
todas as perguntas!), Q1 = 430, M = 510, Q3 = 590 e Max = 800 (sim, alguns
candidatos acertaram todas as questões!). Disto resulta que os resultados em
matemática do teste SAT de 2007 tiveram amplitude de 600 pontos (R = 800 – 200
= 600) e amplitude interquartílica de 160 pontos (IQR = 590 – 430 = 160).
O DESVIO PADRÃO
A medida de dispersão mais importante e mais comumente usada para um conjunto
de dados é o desvio padrão. O conceito chave para se compreender o desvio padrão
é o conceito de desvio em relação à média. Se A é a média do conjunto de dados e x
é o valor de um dado, a diferença x – A é o desvio em relação à média (deviation
from the mean) de x. Os desvios em relação à média nos dizem o quão longe
os valores dos dados estão do valor médio dos dados. A ideia é usar essas
informações para descobrir o quão dispersos os dados estão.
Os desvios em relação à média também formam um conjunto de dados, o qual
gostaríamos de resumir. Uma forma seria calcular a média dos desvios, mas, se
fizermos isso, os desvios negativos e os desvios positivos se cancelarão
mutuamente, de modo que vamos acabar com uma média sempre igual a zero:
N
N
N
N
N
N
N
∑ ( x − A) ∑ x − ∑ A ∑ x − A∑1 ∑ x − AN ∑ x
i
=i 1
N
i
=i 1 =i 1 =i 1
=
N
=
i
=i 1 =i 1
N
=
i
i
=i 1
N
=
N
− A = A − A = 0.
O DESVIO PADRÃO
O cancelamento de desvios positivos e negativos podem ser evitados elevando-se ao
quadrado cada um dos desvios. Os desvios ao quadrado nunca são negativos, e se
calcularmos a sua média, obteremos uma medida de dispersão importante
denominada de variância (variance), denotada por V. Finalmente, se tomarmos
a raiz quadrada da variância, obteremos o desvio padrão, representado pela letra
grega σ e, às vezes, pela sigla SD (standard deviation em inglês). De forma mais
esquemática:
• Seja A a média de um conjunto de dados. Para cada valor x no conjunto de dados,
calcule o seu desvio em relação à média (x – A) e eleve ao quadrado cada um
desses números. Os resultados são denominados desvios quadrados (squared
deviations).
• Calcule a média dos desvios quadrados. Este número é denominado a variância
V do conjunto de dados.
• O desvio padrão é a raiz quadrada da variância (σ = V1/2).
Observação: em algumas definições é conveniente definir a variância como a soma
dos desvios quadrados dividida por N – 1 ao invés de N. Uma explicação será dada
posteriormente (estimados não enviesados em inferência estatística).
EXEMPLO 14.19: CÁLCULO DE UM DESVIO PADRÃO
Ao longo do semestre, Ângela fez todos os deveres de
casa. Suas notas nos 10 trabalhos (ordenados do menor
para o maior) foram 85, 86, 87, 88, 89, 91, 92, 93, 94 e 95.
Nosso objetivo neste exemplo é calcular o desvio padrão
do conjunto de dados da maneira antiga (ou seja, com lápis
e papel).
O primeiro passo é calcular a média do conjunto de dados.
Não é difícil de se ver que A = 90. Temos sorte: este é um
número inteiro! O segundo passo é calcular os desvios em
relação à média e, em seguida, os desvios quadrados.
Os pormenores são mostrados nas segunda e terceira
colunas da Tabela 14-11. Quanto a média dos desvios
quadrados, obtemos (25 + 16 + 9 + 4 + 1 + 1 + 4 + 9 + 16
+ 25)/10 = 11. Isto significa que a variância é V = 11 e,
portanto, o desvio padrão (arredondados para uma casa
decimal) é σ = 111/2 ≈ 3,3 pontos.
O DESVIO PADRÃO
Desvios padrões são medidos nas mesmas unidades que os dados originais. Assim,
no Exemplo 14.19, o desvio padrão das notas dos deveres de casa de Ângela foi de
cerca de 3,3 pontos. O que devemos concluir com essa informação (3,3 pontos)?
É claro, a partir de apenas um olhar casual nas pontuações de Ângela, que ela foi
muito consistente em seus deveres de casa, nunca se afastando muito acima ou
muito abaixo de sua média de 90 pontos. O desvio padrão é, na verdade, uma forma
de medir esse grau de consistência. Um pequeno desvio padrão nos diz que os dados
são consistentes e que a dispersão dos dados é pequena, como é o caso com
as pontuações de Ângela.
A última palavra em consistência dentro de um conjunto de dados é quando
os valores de todos os dados são iguais (como é o caso da amiga de Ângela, Chloe,
que tirou 20 em todos os deveres de casa). Quando isso acontece, o desvio padrão é
0. Por outro lado, quando há uma grande inconsistência no conjunto de dados,
teremos um grande desvio padrão. Isto é ilustrado por outra amiga de Ângela, Tiki,
cuja pontuações foram 5, 15, 25, 35, 45, 55, 65, 75, 85 e 95. O desvio padrão deste
conjunto de dados é comparativamente maior: quase 29 pontos.
O DESVIO PADRÃO
O desvio padrão é, sem dúvida, a medida de dispersão mais importante e mais
frequentemente usada. No entanto, o conceito não é particularmente intuitivo. Aqui
estão algumas orientações básicas que recapitulam a nossa discussão anterior:
• O desvio padrão de um conjunto de dados é medido nas mesmas unidades que
os dados originais. Por exemplo, se os dados estão em metros, então o desvio
padrão também é dado em metros. Por outro lado, se o desvio padrão é dado em
dólares, então podemos concluir que os dados originais devem ter sido dinheiro
(preços de casas, salários ou algo assim). Por certo, os dados não poderiam ter
sido os resultados das medidas das alturas de pessoas.
• Não faz sentido comparar desvios padrões de conjuntos de dados que são dados
em unidades diferentes. Mesmo para os conjuntos de dados que são dados nas
mesmas unidades (digamos, por exemplo, os resultados de testes), a escala usada
dever ser a mesma. Não devemos tentar comparar desvios padrões para
as pontuações do teste SAT que tem uma escala de 200 a 800 pontos com
desvios padrões das pontuações de tarefas de casa medidas em uma escala de 0
a 100 pontos.
O DESVIO PADRÃO
• Para conjuntos de dados que são dados em uma mesma escala, uma comparação
dos desvios padrões pode nos dizer algo sobre a dispersão dos dados. Se o desvio
padrão é pequeno, podemos concluir que os dados estão todos amontoados: há
pouca dispersão. À medida que o desvio padrão aumenta, podemos concluir que
os dados estão começando a se dispersar. Quanto mais dispersos eles estiverem,
maior será o desvio padrão. Um desvio padrão igual a 0 significa que todos
os valores dos dados são todos iguais.
CONCLUSÃO
Quer queiramos ou não, na era da informação, estamos nadando em um mar de
dados. Hoje, os dados são a moeda comum do discurso científico, social e
econômico. Satélites poderosos varrem constantemente nosso planeta, coletando
quantidades prodigiosas de dados meteorológicos, geológicos e geográficos.
Agências governamentais recolhem milhões de números a cada ano sobre o nosso
modo de viver, trabalhar, gastar e morrer. Mesmo em nossas atividades menos
sérias, tais como esportes, somos inundados com dados.
Confrontado com o problema comum de “dilúvio de dados”, estatísticos e cientistas
criaram muitas formas engenhosas para organizar, visualizar e resumir grandes
quantidades de dados. Neste capítulo discutimos alguns conceitos básicos nesta área
da estatística.
CONCLUSÃO
Resumos gráficos de dados podem ser produzidos por diagramas de barras,
pictogramas, diagramas de setores, histogramas e assim por diante. Existem muitos
outros tipos de descrições gráficas que não discutimos neste capítulo. O tipo de
resumo gráfico que é o mais adequado para uma situação depende de muitos fatores,
e criar uma "imagem" boa de um conjunto de dados é muito mais uma arte do que
uma ciência.
Resumos numéricos de dados, quando usados apropriadamente, nos ajudam
a entender o padrão geral de um conjunto de dados sem que tenhamos que nos
prender a detalhes. Eles se dividem em duas categorias: (1) medidas de posição,
como a média, a mediana e os quartis e (2) medidas de dispersão, tais como
a amplitude, a amplitude interquartílica e o desvio padrão. Às vezes, até mesmo
combinamos resumos numéricos com resumos gráficos, como é o caso do boxplot.
Apenas tocamos em todos esses tópicos neste capítulo: o assunto é grande e, pela
necessidade, apenas arranhamos a superfície.
CONCLUSÃO
Nos dias de hoje, somos todos consumidores de dados e, em um momento ou em
outro, é provável que sejamos fornecedores de dados também. Assim, entender
os conceitos básicos de como os dados são organizados e resumidos tornou-se um
requisito essencial para o sucesso pessoal e boa cidadania.
ALGUMAS OBSERVAÇÕES
ALGORITMOS DE ORDENAÇÃO
O cálculo dos percentis (incluindo a mediana e os quartis) requer que o conjunto de
dados esteja ordenado.
Como ordenar de maneira eficiente um conjunto de dados?
Esse problema é estudado em computação e vários algoritmos com desempenhos e
características diferentes existem.
Na página WEB de nosso curso você encontrar links onde poderá aprender um
pouco sobre o assunto.
DESVIO PADRÃO VERSUS DESVIO MÉDIO ABSOLUTO
σ
∑
∑
N
N
2
xi
( xi − A)
i 1=
i 1
=
versus
MD
N
−A
N
Recomendação de leitura: Revisiting A 90-Year-Old Debate: The Advantages of The
Mean Devation por Stephen Gorard (British Journal of Educational Studies, v. 53,
n. 4, pp. 417-430, 2005), disponível na página WEB de nosso curso.
Também vale a pena dar uma conferida no verbete Mean Deviation da Enciclopédia
MathWorld:
http://mathworld.wolfram.com/MeanDeviation.html
DESVIO MEDIANO ABSOLUTO
O desvio padrão e o desvio médio absoluto consideram desvios com relação à média
dos dados.
O desvio mediano absoluto considera desvios com relação à mediana. Para
calcular o desvio mediano absoluto, calcule primeiro a mediana de todos os dados.
Em seguida, calcule a distância entre cada dado e a mediana. Isto formará um novo
conjunto de dados.. O desvio mediano absoluto é a mediana deste novo conjunto de
dados.
O desvio mediano absoluto é mais resistente a outliers do que o desvio padrão. No
desvio padrão, os desvios com relação à média são elevados ao quadrado de modo
que grandes desvios são ponderados mais fortemente e, assim, outliers podem ter
forte influência no seu valor. No desvio mediano absoluto, os desvios de um
pequeno número de outliers são irrelevantes.
DIAGRAMAS DE CAULE E FOLHAS
(TEXTO E EXEMPLOS DE CARLOS TERNEIRO DA
UNIVERSIDADE DE COIMBRA)
DIAGRAMAS DE CAULE E FOLHAS
O propósito de se exibir dados graficamente é o de dar um panorama visual das
características interessantes e importantes do conjunto de dados. Decidir qual é
a melhor representação gráfica para um determinado conjunto de dados é uma
questão que pode não ser respondida antes que os dados sejam analisados e vistos
de maneiras diferentes.
Um diagrama de caule e folhas é uma representação gráfica/numérica adequada
para conjuntos de dados de pequeno porte com apenas valores positivos e ela é
particularmente útil quando é importante se manter os dados numéricos originais.
DIAGRAMAS DE CAULE E FOLHAS
Passos para se construir um diagrama de caule e folhas:
1. Separar cada observação num caule, formado pelos algarismos dominantes do
número, e numa folha, formada pelos restantes algarismos.
2. Colocar os caules numa coluna por ordem crescente de cima para baixo, e
desenhar uma linha vertical à direita dessa coluna de números.
3. Colocar à direita de cada caule as respectivas folhas, por ordem crescente da
esquerda para a direita.
EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS
Consideremos o seguinte conjunto de dados relativo ao peso em gramas de 42 ratos
diabéticos: 40, 46, 45, 46, 43, 47, 52, 39, 45, 42, 42, 44, 40, 41, 51, 42, 41, 38, 45,
48, 39, 49, 38, 38, 42, 48, 49, 40, 38, 46, 42, 38, 51, 48, 44, 48, 40, 44, 38, 41, 45,
52. Seguindo os passos da construção:
EXEMPLO: DIAGRAMAS DE CAULE E FOLHAS
O diagrama anterior dá uma pobre ideia da distribuição da variável na parte central
do mesmo. Neste caso é habitual separar cada caule em semicaules. No caso do
exemplo anterior, isto corresponderia a considerar os semicaules 3, 3, 4, 4, 5 e 5, e
a associar ao primeiro semicaule as folhas 0, 1, 2, 3 e 4, e ao segundo semicaule
as folhas 5, 6, 7, 8 e 9. Eis o diagrama de caule e folhas resultante:
Por vezes justifica-se ainda dividir cada caule em 5 subcaules. Ao primeiro subcaule
associamos as folhas 0 e 1, ao segundo as folhas 2 e 3, ao terceiro as folhas 4 e 5, ao
quarto as folhas 6 e 7, e, finalmente, ao quinto subcaule associavamos as folhas 8 e
9.
EXEMPLO: TRUNCANDO DIAGRAMAS
DE CAULE E FOLHAS
Para testar uma nova farinha para pintos, de um grupo de 40 pintos com um dia de
vida selecionaram-se 20 aos quais foi administrada a nova farinha (grupo
experimental), tendo aos restantes sido dada a ração habitual (grupo de controle).
Passadas três semanas os pintos foram pesados tendo-se obtido os seguintes ganhos
no peso (em gramas):
EXEMPLO: TRUNCANDO DIAGRAMAS
DE CAULE E FOLHAS
Pretendendo-se representar a distribuição dos pesos dos pintos do grupo de controle
por um diagrama de caule e folhas, surgem duas possibilidades para separar
as observações em caule e folhas. Tomando a observação 383 para exemplificar,
podemos optar por considerar 3 o caule e 83 a folha, ou, em alternativa, considerar
38 o caule e 3 a folha. A segunda opção é desapropriada uma vez que levaria a um
diagrama com demasiados caules e poucas folhas por caule. Tomando então
a primeira opção, somos conduzidos ao diagrama seguinte em que cada caule tem
uma amplitude de 100:
EXEMPLO: TRUNCANDO DIAGRAMAS
DE CAULE E FOLHAS
Para facilitar a leitura representamos cada folha por um só algarismo o que neste
caso corresponde a desprezarmos o algarismo das unidades. Obtemos então
o diagrama de caule-e-folhas simplificado:
Reparemos que, contrariamente aos diagramas anteriores, neste diagrama
simplificado não são registadas as verdadeiras observações uma vez que estas
aparecem truncadas.
Tal como no Exemplo 1.2.2 podemos ainda dividir cada caule em semicaules:
EXEMPLO: TRUNCANDO DIAGRAMAS
DE CAULE E FOLHAS
Podemos ainda dividir cada caule em semicaules:
EXEMPLO: TRUNCANDO DIAGRAMAS
DE CAULE E FOLHAS
Uma das aplicações mais interessantes dos diagramas de caule-e-folhas é
a possibilidade de comparar dois conjuntos de observações conjugando
os diagramas de caule e folhas respectivos. O diagrama seguinte permite uma
comparação simples dos grupos de controle e experimental, revelando evidências de
que para os pintos considerados a nova farinha é preferível à antiga. Para que esta
comparação seja válida é importante que o número de observações em cada um dos
grupos seja aproximadamente o mesmo.
DIAGRAMAS DE CAULE E FOLHAS
DIAGRAMAS DE PONTOS (DOT PLOTS):
WILKINSON E CLEVELAND
DIAGRAMAS DE PONTOS DE WILKINSON
O diagrama de pontos de Wilkinson é uma tipo de representação gráfica semelhante
a um histograma: os valores dos dados são mostrados ao longo de um eixo
horizontal. Um ponto é então marcado sobre cada valor no conjunto de dados. Os
diagramas de pontos de Wilkinson são úteis para realçar aglomerados, lacunas e
outliers.
Exemplo: o diagrama de pontos de Wilkinson a seguir exibe a quantidade de
motoristas com carteira de habilitação em cada 1000 habitantes por estado nos
Estados Unidos. Fonte: Departamento de Transportes dos Estados Unidos.
DIAGRAMAS DE PONTOS DE CLEVELAND
Aqui seguiremos o artigo Dot Plots: A Useful Alternative to Bar Charts de Naomi
Robbins.
Leitores fazem várias análises ao interpretar diagramas: eles podem julgar
o comprimento de um segmento de reta, a área de um setor circular, a posição de
um ponto ao longo de uma escala, o declive de uma reta ou uma série de outros
atributos dos pontos, linhas e barras que são desenhados.
Cleveland e McGill (1984) identificaram os julgamentos que são executados ao se
interpretar diagramas e conduziram, com cuidado, experimentos para determinar
quais destes julgamentos são realizados com mais precisão. A partir dos resultados
destes experimentos, eles então propuseram um diagrama. O resultado foi
o diagrama de pontos (de Cleveland).
DIAGRAMAS DE PONTOS DE CLEVELAND
O diagrama de pontos na Figura 1 mostra as receitas das 60 maiores empresas da
lista Fortune 1000. A Figura 2 mostra essas mesmas receitas através de um
diagrama de barras. A maioria dos leitores não terá problemas em interpretar
qualquer um dos dois diagramas. Note, contudo, que o diagrama de pontos é menos
confuso, menos redundantes e usa menos tinta.
DIAGRAMAS DE PONTOS DE CLEVELAND
DIAGRAMAS DE PONTOS DE CLEVELAND
DIAGRAMAS DE PONTOS DE CLEVELAND
A lista Fortune 1000 também apresenta os lucros dessas empresas. A Figura 3
mostra os resultados para estas 60 empresas na mesma ordem que nas Figuras 1 e 2,
para ajudar a fazer a comparação entre os diagramas.
DIAGRAMAS DE PONTOS DE CLEVELAND
O poder do diagrama de pontos torna-se evidente quando queremos combinar
a informação da Figura 1 (ou 2) com a informação da Figura 3 em um único
diagrama. Receitas e lucros são mostrados na Figura 4.
DIAGRAMAS DE PONTOS DE CLEVELAND
A apresentação na Figura 4 seria muito mais desordenada e mais difícil de
interpretar se usássemos diagramas de barras.
DIAGRAMAS DE PONTOS DE CLEVELAND
Outra vantagem da Figura 4 é que ela não depende de cor, de modo que ela pode ser
usada em publicações em preto e branco, sem perda de clareza. Os dois grupos
podem ser distinguidos por meio de símbolos diferentes.
AGORA: EXERCÍCIOS EM SALA DE AULA