Resumo - Estatística descritiva e análise exploratória de dados

Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Estatística descritiva e análise exploratória de
dados
1
Conceitos fundamentais
1.1
População e amostra
Como em todas as ciências, em Estatística utiliza-se uma linguagem própria.
Para se falar e escrever sobre Estatística tem-se necessidade de conhecer o
significado de certos termos como: população, amostra, variável estatística,
etc.
Muitos dos termos utilizados em Estatística são também utilizados no
dia-a-dia mas com significado diferente.
Considere-se o seguinte exemplo.
Exemplo 1.1. Um empresário de uma fábrica de fósforos tinha necessidade
de fazer um controlo de qualidade dos fósforos produzidos pela sua fábrica
num mês. Naturalmente não ia acender todos os fósforos produzidos para
saber se eram de boa qualidade. Retirava um número significativo de fósforos que iria utilizar e depois tirava conclusões acerca da totalidade de fósforos produzidos. Nesta situação, os fósforos produzidos no mês constituíam
a população e os que foram utilizados para testar a qualidade dos mesmos
constituíam a amostra.
Em estatística, população é um conjunto de elementos com qualquer característica em comum e com interesse para o estudo, por exemplo:
• Os resultados de lançar uma moeda ao ar um número indefinido de
vezes;
• Os habitantes de Lisboa maiores de 18 anos;
As populações podem ser finitas ou infinitas, consoante seja finito ou
infinito o número de elementos que as compõem e podem também ser reais (população das idades dos alunos que frequentam determinado curso de
desporto em 2002) ou hipotéticas (conjunto dos resultados obtidos com o
sucessivo lançamento de uma moeda).
Dá-se o nome de unidades estatísticas (ou indivíduos) aos elementos que
compõem a população.
As propriedades de uma população ou variáveis, são as características
comuns aos seus elementos. Por exemplo, relativamente à população de
C. Fernandes & P. Ramos
• A população ser infinita;
• Economia de dinheiro;
• Economia de tempo;
• Comodidade;
• Testes destrutivos.
• Os peixes de um lago.
Estatística descritiva e análise exploratória de dados
famílias portuguesas, pode estar-se interessado nas seguintes propriedades:
rendimento mensal, número de filhos, despesas mensais com a habitação, etc.
Cada estudo estatístico é feito para atingir determinado objectivo. Dependendo do objectivo do estudo, vai observar-se cada unidade estatística em
relação a uma ou mais variáveis.
As variáveis observadas podem ser qualitativas ou quantitativas. Variáveis qualitativas são aquelas que estão relacionados com uma qualidade e
apresentam-se com várias modalidades.
Chamamos modalidades às diversas situações possíveis em que se pode
encontrar uma unidade estatística quanto a dado atributo. Por exemplo
o sexo pode ser feminino ou masculino, o estado civil pode ser casado ou
solteiro, etc.
As variáveis quantitativas são aquelas a que é possível atribuir uma medida. Por exemplo, o número de golos ou de faltas durante um jogo de
futebol.
A amostra é um subconjunto finito da população que se supõe representativo desta.
Chamamos dado estatístico ao resultado da observação de uma variável
qualitativa ou quantitativa.
A utilização de uma amostra e não da população num estudo estatístico
deve-se, pelo menos, a uma das seguintes razões:
O sucesso de um estudo estatístico, baseado no estudo de uma amostra,
depende da escolha desta. Uma amostra mal escolhida conduz a conclusões
erradas.
1.2
Censo e sondagem
Num censo ou recenseamento são observados todos os indivíduos da população relativamente aos diferentes atributos que estão a ser objecto do estudo
estatístico.
Em 2001 e em 2011, o Governo mandou realizar um censo. As vantagens
da obtenção de resultados por este processo são, acima de tudo, de segurança
1/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
2/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
nas conclusões. O Governo para tomar medidas acertadas necessita conhecer
com rigor as necessidades dos cidadãos sobre habitação, escolas, hospitais,
energia, etc. Por isso, em Portugal se realizam censos de 10 em 10 anos. A
alternativa ao censo é a sondagem.
Numa sondagem, o estudo estatístico baseia-se numa parte da população,
isto é, numa amostra que deve ser representativa dessa população.
A realização de sondagens é tão habitual nas sociedades actuais que podemos dizer que elas se relacionam, em maior ou menor grau, com a vida
da generalidade das pessoas. Recorrendo a empresas especializadas, os partidos políticos encomendam sondagens para estimar o número de votantes;
as empresas promovem sondagens para prever o número de compradores dos
seus produtos e os investigadores efectuam sondagens para avaliar o impacto
social das suas descobertas. A economia de meios, a comodidade, a rapidez
e o pequeno número de elementos que pode ser necessário destruir constituem vantagens das sondagens comparativamente com os censos. A grande
dificuldade em obter resultados de confiança, a partir de sondagens, reside
na necessidade de utilizar amostras representativas da população, o que nem
sempre é fácil de se conseguir.
na amostra.
Esta característica inferencial desta estatística faz com que ela seja designada por estatística inferencial e aproxima-se do objectivo fundamental das
ciências em geral ao generalizar resultados a universos cada vez mais vastos.
A esta inferência está associada um certo grau de incerteza. A probabilidade é a medida dessa incerteza. Avaliado o grau de incerteza, caminhar do
particular para o geral passa a ser um risco calculado.
1.3
Nota 1.1. Há variáveis, como a idade, que podem ser consideradas contínuas
ou discretas. Se se considerar a idade um número inteiro de anos, trata-se
de uma variável discreta. Se se considerar, simplesmente, a idade de uma
pessoa, ela é uma variável contínua.
Estatística descritiva e estatística indutiva
A estatística descritiva tem por finalidade descrever certas propriedades relativas a um conjunto de dados.
Depois de efectuadas as observações fica-se na posse de um conjunto caótico de dados, o que naturalmente dificulta a obtenção de conclusões. É
perante esta desordem que a estatística descritiva revela a importância e interesse das suas técnicas, ao permitir classificar esses dados e deles fornecendo
características sumárias. Este processo de reunir a informação contida nos
dados com base num pequeno número de valores característicos é conhecido
por processo de redução de dados. Obviamente que no processo de redução
dos dados há informações que se perdem, o que destaca a escolha acertada
dos valores característicos.
Naturalmente, os métodos descritivos, enquanto meios que permitem ordenar a “desordem” e sintetizar a diversidade das informações contidas nos
dados, podem aplicar-se quer à população quer à amostra. Tal aplicabilidade pode ser explicada, apesar das diferentes dimensões da população e da
amostra, pelo carácter semelhante dos seus elementos.
Já no caso da estatística indutiva ou inferência estatística a situação é
diferente. Neste caso trata-se de generalizar os resultados obtidos à custa de
um conjunto de elementos a um outro conjunto mais numeroso. A estatística
indutiva procura inferir propriedades da população a partir de propriedades
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
3/45
1.4
Variável discreta e variável contínua
Quando as variáveis estatísticas são quantitativas, podem dividir-se ainda
em dois grupos:
• Variáveis estatísticas discretas (só podem tomar um número finito ou
infinidade numerável de valores). Por exemplo, o número de golos numa
jornada na 1a liga;
• Variáveis estatísticas contínuas (podem tomar qualquer valor dentro de
um intervalo). Por exemplo, os tempos numa corrida de fórmula 1.
Nota 1.2. Embora as variáveis quantitativas se classifiquem em contínuas
e discretas, na prática funcionam como discretas, pois os instrumentos de
medida utilizados não permitem obter todos os valores de um intervalo.
Os dados podem ser expressos em vários tipos de escalas. As mais frequentes são as seguintes:
• Escala binária: esta escala é usada em características com apenas dois
estados possíveis, por exemplo, macho/ fêmea, presente/ausente, etc.
• Escala nominal: esta escala é usada em características que apresentam
mais de dois estados. Cada estado designa uma classe. As classes devem
ser exaustivas (qualquer dado pertence a uma das classes), mutuamente
exclusivas (cada dado pertence a uma só classe) e não ordenáveis (não
existe nenhum critério relevante que permite estabelecer preferência
por qualquer classe em relação às restantes). Por exemplo, cor dos
olhos, marcas de reagentes, etc. Estas classes podem ser designadas,
em particular, por números. Neste caso, para que a escala seja nominal,
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
4/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
não se poderá estabelecer qualquer relação de ordem entre tais números.
Por exemplo, classificação dos consumidores pelo sexo: 0 (feminino) ou
1 (masculino).
• Escala ordinal: esta escala ordena numa sequência lógica os vários estados (classes) que a característica pode assumir mas sem que exista
qualquer implicação das distâncias entre eles. A ordenação é feita segundo algum critério relevante. Por exemplo, classificações de um teste:
mau, medíocre, suficiente, bom ou muito bom.
• Escala intervalar: esta escala não só ordena os valores que a característica pode assumir como permite estabelecer distâncias entre os diferentes pontos da escala, sendo necessária a existência de uma unidade
de medida constante. A origem é, no entanto, arbitrária, por exemplo,
a temperatura, a altitude, etc.
• Escala absoluta: esta escala é como a escala intervalar só que além de
uma unidade de medida constante, a origem é fixa, zero significa nada.
Por exemplo, a concentração de dióxido de carbono, altura, etc.
Podemos considerar que os três primeiros tipos de escalas correspondem
a características qualitativas enquanto que nos dois últimos estão incluídas
as características quantitativas.
2
Organização e apresentação dos dados
2.1
Fases do método estatístico
Num estudo estatístico, normalmente, segue-se um conjunto de passos que
se designam por fases do método estatístico:
• Definição do problema: a primeira fase consiste na definição e formulação correcta do problema a ser estudado;
• Planificação: definido o problema, é preciso determinar um processo
para o resolver e, em especial, como obter informações sobre a variável em estudo. É nesta fase que se decide pela observação de toda a
população ou de uma amostra;
• Recolha de dados: os dados podem ser recolhidos através de:
– observação;
C. Fernandes & P. Ramos
– pesquisa bibliográfica.
• Organização dos dados: há duas formas de apresentação que não se
excluem mutuamente:
– apresentação por tabelas;
– apresentação por gráficos.
• Análise e interpretação dos dados: nesta fase calculam-se novos números com base nos dados estatísticos. Estes novos números permitem
fazer uma descrição do fenómeno evidenciando algumas das suas características particulares.
2.2
Distribuição de frequências
Dá-se o nome de distribuição de frequências ao conjunto de todos os valores
de uma variável estatística com as correspondentes frequências: absolutas
(número de vezes que esse valor foi observado) ou relativas (quociente entre
a frequência absoluta da variável e o número total de observações). A sua
disposição prática é designada por quadro de frequências.
Exemplo 2.1. Foram examinados 100 lotes de 50 peças produzidas por uma
máquina, para verificação do número de peças defeituosas por lote. Os resultados apresentam-se no seguinte quadro de frequências absolutas:
Número de peças
defeituosas por lote
0
1
2
3
4
5
6
Total
Número de lotes
(Frequências absolutas)
3
11
21
30
23
7
5
100
A distribuição de frequências pode ser unidimensional, bidimensional,
tridimensional, etc., consoante a variável estatística seja de uma, duas, três,
etc. dimensões. No Exemplo 2.1, a distribuição é unidimensional.
– questionários;
Estatística descritiva e análise exploratória de dados
– experimentação;
5/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
6/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Podemos distinguir dois tipos de distribuições de frequências:
• de valores da variável agrupados por frequência;
• de valores da variável agrupados em intervalos de classe.
Utilizam-se as distribuições de valores da variável agrupados por frequência quando o número de valores que toma a variável é pequeno. O procedimento está indicado principalmente para variáveis discretas, como é o caso
do Exemplo 2.1.
Empregam-se as distribuições de valores da variável agrupados em intervalos de classe quando o número de valores assumidos pela variável é grande
ou quando se trata de variáveis contínuas.
As distribuições de frequências podem classificar-se ainda em ordinárias
e acumuladas. Nas distribuições ordinárias, a cada valor ou classe de valores
da variável corresponde a sua frequência; nas distribuições de frequências
acumuladas, a cada valor ou classe de valores da variável corresponde a sua
frequência mais a de todos os valores, ou classes de valores, anteriores (ou
posteriores).
Exemplo 2.2. Utilizando os mesmos dados apresentados no Exemplo 2.1,
tem-se a distribuição de valores da variável agrupados:
Valor
da
variável
0
1
2
3
4
5
6
Total
Frequências absolutas
Ordinárias Acumuladas
` ˘
pFi q
Fi
3
3
11
14
21
35
30
65
23
88
7
95
5
100
100
Frequências relativas
Ordinárias Acumuladas
` ˘
pfi q
fi
0,03
0,03
0,11
0,14
0,21
0,35
0,30
0,65
0,23
0,88
0,07
0,95
0,05
1,00
1,00
Classes
de
valores
r0; 3r
r3; 5r
r5; 6s
Total
Frequências absolutas
Ordinárias Acumuladas
` ˘
pFi q
Fi
35
35
53
88
12
100
100
Frequências relativas
Ordinárias Acumuladas
` ˘
pfi q
fi
0,35
0,35
0,53
0,88
0,12
1,00
1,00
Neste caso de distribuição de frequências devemos considerar outros elementos e conceitos além dos mencionados anteriormente.
O intervalo de variação da variável X é o intervalo que contém todos os
valores da variável X, isto é, I “ rmin txi u ; max txi us.
Classes são intervalos (intervalos de classe) cuja reunião contém o intervalo de variação da variável observada. Se considerarmos k intervalos de
classe, I1 , I2 , . . . , Ik , então para que a arrumação dos valores observados nas
diferentes classes seja feita sem ambiguidade, os intervalos devem ser disjuntos, isto é, i ‰ j ñ Ii XIj “ tu, e para que não figurem valores por classificar,
I Ď I1 Y I2 Y ¨ ¨ ¨ Y Ik .
Podemos então considerar,
I1 “ rl1 ; l2 r , I2 “ rl2 ; l3 r , . . . , Ik “ rlk ; lk`1 s ,
onde, l1 ă l2 ă ¨ ¨ ¨ ă lk ă lk`1 , l1 ď min txi u e lk`1 ě max txi u.
A amplitude da classe é dada por aj “ lj`1 ´ lj .
O centro da classe Ij é o ponto médio do intervalo, isto é, xj “
O número k de classes:
lj`1 `lj
.
2
• deve depender do número n de observações efectuadas;
• não deve ser tão elevado que sobressaiam irregularidades acidentais
devido ao pequeno número de indivíduos por classe;
• não deve ser tão pequeno que conduza a uma perda de informação.
Agrupando, por exemplo, os valores da variável nas classes r0; 3r, r3; 5r e
r5; 6s, obtém-se a distribuição de valores da variável agrupados em intervalos
de classe:
Para determinar o número k de classes a tomar, não há regras fixas.
Iremos usar a seguinte regra:
"
k “?5 , se n ă 25
,
k » n , se n ě 25
para amostras de pequenas dimensões.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
7/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
8/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Para amostras grandes deve usar-se a fórmula de Sturges:
Fi
fi “
Fi
n
x1
F1
rl2 ; l3 r
..
.
x2
..
.
F2
..
.
F 1 “ F1
F 2 “ F1 ` F2
..
.
f1 “
F1
n
F2
n
rlk ; lk`1 s
xk
Fk
n
fk “
Fk
n
k “ 1 ` tlog2 nu “ 1 ` t3, 322 ˆ log10 nu,
log10 n
“
log10 2
1
“ 1`
log10 n “
log10 2
Total
“ 1 ` 3, 322 log10 n,
onde tyu é a parte inteira de y. Em alternativa, podemos usar o menor
número natural k tal que 2k ě n.
Depois de determinado k e se as classes tiverem amplitude constante
temos que,
lk`1 ´ l1
ai “
“ amplitude de cada classe.
k
Sempre que possível, é vantajoso que os intervalos de classes possuam
a mesma amplitude, a fim de que seja mais sugestiva a comparação das
frequências de cada classe.
De acordo com o exposto, o quadro de frequências para uma distribuição
unidimensional de valores agrupados apresenta o aspecto seguinte:
Fi
Fi
x1
F1
x2
..
.
F2
..
.
F 1 “ F1
F 2 “ F1 ` F2
..
.
f1 “
Fi
n
F1
n
F2
n
xk
Fk
n
Fk
n
Total
n
fk “
fi “
f2 “
..
.
2.3
2.3.1
f2 “
..
.
fi
f 1 “ f1
f 2 “ f1 ` f2
..
.
1
1
n
Análise gráfica das distribuições de frequência de
valores agrupados
Gráficos de linhas de frequências ordinárias
Para o construir um gráfico de linhas ou polígono de frequências basta representar no eixo horizontal os valores da variável estatística xi e no eixo vertical
os correspondentes valores das frequências absolutas ou relativas. Depois de
representados os pontos pxi , frequênciaq, obtém-se o gráfico de linhas unindo
esses pontos por segmentos de recta.
Um gráfico de linhas de frequências absolutas ou relativas tem então a
seguinte forma:
fi
f 1 “ f1
Frequências
X
das classes
rl1 ; l2 r
dado que
1 ` log2 n “ 1 `
Ponto médio
Fi
X
f 2 “ f1 ` f2
..
.
1
1
0
Valores da variável
O quadro de frequências para uma distribuição de valores agrupados em
intervalos de classe apresenta o aspecto seguinte:
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
9/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
10/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Exemplo 2.3. Consideremos a variável que representa o número de pares de
sapatos vendidos numa sapataria ao longo de uma semana, cuja distribuição
é definida pela tabela seguinte:
Fi
4
5
8
11
14
14
9
5
70
Um gráfico de barras de frequências absolutas ou relativas tem então a
seguinte forma:
fi
0,06
0,07
0,11
0,16
0,20
0,20
0,13
0,07
1,00
Frequências
Xi
35
36
37
38
39
40
41
42
Total
• as barras devem estar separadas umas das outras por espaços iguais.
0
Recorrendo a esta tabela podemos fazer o gráfico de linhas de frequência
absoluta:
Valores da variável
Exemplo 2.4. Utilizando os dados apresentados no Exemplo 2.3, podemos
representar o gráfico de barras de frequência absoluta:
16
Frequência absoluta
Frequência absoluta
16
14
12
10
8
6
4
12
10
8
6
4
2
0
2
0
14
35
36
37
38
39
40
41
42
Tamanho dos sapatos
35
36
37
38
39
40
41
42
Tamanho dos sapatos
Na construção do gráfico recorreu-se à frequência absoluta. No entanto,
poderíamos igualmente recorrer à frequência relativa, obtendo-se:
2.3.2
Gráficos de barras de frequências ordinárias
Frequência relativa
No gráfico de barras a altura de cada barra traduz o valor da frequência
absoluta ou relativa, respeitante a cada valor da variável. No eixo horizontal
assinalam-se os valores possíveis da variável e no eixo vertical as frequências
absolutas ou relativas.
Na construção de um gráfico de barras deve atender-se a que:
0,2
0,1
0
• apenas uma das dimensões das barras varia;
35
36
37
38
39
40
41
42
Tamanho dos sapatos
• a dimensão que varia corresponde às frequências dos valores da variável
estatística;
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
11/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
12/45
2.3.3
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Frequência absoluta acumulada
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Gráficos de linhas de frequências acumuladas
Frequências acumuladas
Tal como se pode construir o gráfico de linhas de frequências absolutas e
relativas, podemos, analogamente, construir o gráfico de linhas de frequências
absolutas acumuladas ou relativas acumuladas.
Um gráfico de linhas de frequências absolutas ou relativas acumuladas
tem então a seguinte forma:
80
70
60
50
40
30
20
10
0
35
36
37
38
39
40
41
42
Tamanho dos sapatos
2.3.4
0
Gráficos de barras de frequências acumuladas
Tal como construímos o gráfico de barras de frequências absolutas e relativas, podemos, analogamente, construir o gráfico de barras de frequências
absolutas acumuladas ou relativas acumuladas.
Um gráfico de barras de frequências absolutas ou relativas acumuladas
tem então a seguinte forma:
Valores da variável
Fi
Fi
fi
fi
35
36
37
38
39
40
41
42
Total
4
5
8
11
14
14
9
5
70
4
9
17
28
42
56
65
70
0,06
0,07
0,11
0,16
0,20
0,20
0,13
0,07
1,00
0,06
0,13
0,24
0,40
0,60
0,80
0,93
1,00
0
Valores da variável
Exemplo 2.6. Utilizando os dados apresentados no Exemplo 2.5, podemos
representar o gráfico de barras de frequência absoluta acumulada:
Frequência absoluta acumulada
Xi
Frequências acumuladas
Exemplo 2.5. Utilizando os dados apresentados no Exemplo 2.3, podemos
calcular as frequências acumuladas:
Recorrendo a esta tabela podemos fazer o gráfico de linhas de frequência
absoluta acumulada:
80
70
60
50
40
30
20
10
0
35
36
37
38
39
40
41
42
Tamanho dos sapatos
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
13/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
14/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
2.4.1
Análise gráfica das distribuições de frequência de
valores agrupados em intervalos de classe
Frequência absoluta
2.4
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Histograma de frequências ordinárias
No caso dos valores agrupados em intervalos de classe é muito frequente representar a distribuição através de um histograma. É um gráfico formado
por rectângulos adjacentes em que a área dos rectângulos é proporcional às
frequências ordinárias absolutas ou relativas. Se todos os intervalos tiverem a
mesma amplitude, as alturas dos rectângulos serão proporcionais às frequências das classes e então, tomam-se as alturas numericamente iguais a essas
frequências. Se os intervalos de classe não tiverem a mesma amplitude, essas
alturas deverão ser ajustadas.
Um histograma de frequências absolutas ou relativas tem então a seguinte
forma:
4
3
2
1
1,75 1,83 1,91 1,99 2,07 2,15
Frequência relativa
Altura/m
0,3
0,2
0,1
0
1,75 1,83 1,91 1,99 2,07 2,15
Altura/ m
Classes
Como os intervalos de classe são iguais, resulta imediatamente que as
áreas dos rectângulos são proporcionais às respectivas frequências.
Um histograma é construído marcando no eixo horizontal os intervalos
de classe e no eixo vertical as respectivas frequências.
Exemplo 2.7. Consideremos a variável que representa a altura no conjunto
dos jogadores da equipa de basquetebol, cuja distribuição é definida pela tabela
seguinte:
Classes (altura em m)
r1, 75; 1, 83r
r1, 83; 1, 91r
r1, 91; 1, 99r
r1, 99; 2, 07r
r2, 07; 2, 15s
Total
Fi
3
4
6
3
2
18
fi
0,17
0,22
0,33
0,17
0,11
1,00
Estatística descritiva e análise exploratória de dados
Na construção de um histograma deve ter-se em conta que:
• os dados devem estar agrupados em classes;
• representa-se no eixo horizontal os intervalos de classe;
• representa-se no eixo vertical as frequências das classes;
• as barras são desenhadas verticalmente e não há qualquer espaço entre
elas;
• a área e cada uma das barras é proporcional à respectiva frequência.
2.4.2
Recorrendo agora aos intervalos de classe e às respectivas frequências absolutas e relativas, podemos construir os dois histogramas seguintes:
C. Fernandes & P. Ramos
5
0
Frequências
0
6
15/45
Polígono de frequências ordinárias
O polígono de frequências resulta da união sucessiva, através de segmentos
de recta, dos pontos médios dos lados superiores dos diferentes rectângulos
de um histograma, que correspondem aos pontos médios das classes.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
16/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Frequências
Frequências acumuladas
Um polígono de frequências absolutas ou relativas tem então a seguinte
forma:
0
0
Frequência absoluta
Exemplo 2.8. Utilizando os dados apresentados no Exemplo 2.7 e tendo em
conta o histograma das frequências absolutas apresentado anteriormente, o
polígono de frequências absolutas terá a forma:
Exemplo 2.9. Utilizando os dados apresentados no Exemplo 2.7, podemos
calcular as frequências acumuladas:
Classes
(altura em m)
r1, 75; 1, 83r
r1, 83; 1, 91r
r1, 91; 1, 99r
r1, 99; 2, 07r
r2, 07; 2, 15s
Total
6
5
4
3
2
1
0
Classes
Classes
Fi
Fi
fi
fi
3
4
6
3
2
18
3
7
13
16
18
0,17
0,22
0,33
0,17
0,11
1,00
0,17
0,39
0,72
0,89
1,00
1,67 1,75 1,83 1,91 1,99 2,07 2,15 2,23
Altura/ m
Recorrendo a esta tabela podemos fazer o histograma de frequências absolutas acumuladas:
2.4.3
Frequência absoluta acumulada
Naturalmente, para construir o polígono de frequências não é necessário
recorrer ao histograma. Basta determinar os pontos cujas abcissas correspondem aos pontos médios das classes e cujas ordenadas correspondem às
frequências das respectivas classes e, em seguida, unir esses pontos por segmentos de recta.
Histograma de frequências acumuladas
Tal como construímos o histograma de frequências absolutas ou relativas, podemos, analogamente, construir o histograma de frequências absolutas acumuladas ou relativas acumuladas, considerando as frequências acumuladas
de cada classe.
Um histograma de frequências absolutas ou relativas acumuladas terá
então a seguinte forma:
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
17/45
18
16
14
12
10
8
6
4
2
0
1,75 1,83
1,91 1,99 2,07
2,15
Altura/m
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
18/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
2.4.4
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3
Polígono de frequências acumuladas
Sobre o histograma de frequências acumuladas pode definir-se o chamado polígono de frequências acumuladas, também chamado de ogiva de frequências,
tal como se fez para o polígono de frequências.
Um polígono de frequência acumulada terá então a seguinte forma:
Medidas descritivas
As medidas descritivas classificam-se em medidas de localização (de tendência
central ou de tendência não central), de dispersão (ou de variabilidade), de
assimetria e de achatamento (ou curtose).
Frequências acumuladas
3.1
Medidas de localização de tendência central
As medidas de localização (ou de tendência central) indicam os pontos em
torno dos quais se encontram os valores da variável estatística, ou seja, localizam a distribuição. Por exemplo, as distribuições representadas pelas duas
curvas do Exemplo 3.1 apresentam medidas de localização diferentes.
Exemplo 3.1.
0
Classes
No caso do polígono de frequências acumuladas, observe-se que à esquerda
do limite inferior da primeira classe a frequência acumulada é zero, à direita
da última classe é igual ao efectivo total n (1 no caso de se considerar a
frequência relativa) e ao longo de cada classe aumenta proporcionalmente.
0
Frequência absoluta acumulada
Exemplo 2.10. Utilizando os dados apresentados no Exemplo 2.9 e tendo em
conta o histograma das frequências acumuladas apresentado anteriormente,
o polígono de frequências absolutas acumuladas terá a forma:
As medidas de localização que vamos estudar são:
• Média;
18
16
• Mediana;
14
12
• Moda.
10
8
3.1.1
6
4
A média pxq da variável estatística X define-se por:
2
0
Média
1,75 1,83 1,91 1,99 2,07 2,15
x“
Altura/ m
řk
k
Fi xi ÿ
“
fi xi ,
n
i“1
i“1
Nota 2.1. Normalmente quando se pretendem evidenciar as diferentes modalidades de uma variável qualitativa usam-se gráficos circulares, pictogramas
ou gráficos de barras.
ř
com n “ ki“1 Fi , onde Fi representa cada uma das frequências absolutas, fi
representa cada uma das frequências relativas e xi representa um valor da
variável (se X é discreta e os dados estão agrupados) ou um ponto médio da
classe (se X é contínua e os dados estão agrupados em intervalos de classe).
Estatística descritiva e análise exploratória de dados
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
19/45
C. Fernandes & P. Ramos
20/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Dá-se o nome de desvio em relação à média à variável D “ X ´ x com
di “ xi ´ x.
No caso de dados não agrupados a média é dada por:
řn
xi
x “ i“1 .
n
Exemplo 3.2. Considere os seguintes dados 70, 95, 85, 80, 130, 125, 135,
85, 90, 105.
A média será:
70 ` 95 ` 85 ` 80 ` 130 ` 125 ` 135 ` 85 ` 90 ` 105
“ 100.
x“
10
3.1.2
Mediana
Outra medida de localização muito empregada no estudo das distribuições de
frequências é a mediana pMeq. É o valor que divide a distribuição de valores
em duas partes iguais. Supondo que as observações dos valores da variável
estatística estão ordenados sob forma crescente x1 ď x2 ď x3 ď ¨ ¨ ¨ ď xn , há
a considerar duas hipóteses:
• se n é ímpar:
2
• se n é par:
Me “
Exemplo 3.3. Tomando a distribuição de frequências de valores,
xi
0
3
5
7
9
11
13
Total
vem x “
1545
207
Fi
10
25
35
43
42
30
22
207
Me “ xp n`1 q ;
onde xpiq é o i-ésimo valor observado na amostra ordenada. O cálculo da
mediana pode ser efectuado através deste processo, quer os dados estejam
não agrupados ou agrupados por frequência.
Fi xi
0
75
175
301
378
330
286
1545
Exemplo 3.5. Considere os seguintes dados 3, 4, 4, 4, 5, 7, 8, 8, 8, 10.
x `x
A correspondente mediana é Me “ p5q 2 p6q “ 5`7
“ 6.
2
Exemplo 3.6. Considere os seguintes dados 3, 4, 4, 5, 6, 8, 8, 8, 10.
A correspondente mediana é Me “ 6, ou utilizando os dados agrupados:
“ 7, 46.
Exemplo 3.4. Considerando um conjunto de dados agrupados em intervalos
de classe, vem:
Classes
r0; 5r
r5; 10r
r10; 15s
Total
xi
2, 5
7, 5
12, 5
Fi
4
10
6
20
xp n q ` xp n `1q
xp n q ` xp n`2 q
2
2
2
“ 2
;
2
2
Fi xi
10
75
75
160
Tem-se n “ 9 e
n`1
2
xi
Fi
Fi
3
1
1
4
2
3
5
1
4
6
1
5
8
3
8
10
1
9
“ 5 logo Me “ xp5q “ 6.
Uma fórmula alternativa para obter a mediana é dada por:
Tendo-se então x “
160
20
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
Me “ p1 ´ kq xpiq ` kxpi`1q ,
“ 8.
onde i “
ek“
xpiq é o i-ésimo valor observado na amostra
ordenada e tyu é a parte inteira de y.
t 21 n` 21 u
21/45
1
n` 12 ´i,
2
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
22/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Exemplo 3.7. Considere os seguintes dados 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9, 9.
Determine a mediana.
Comecemos por determinar o valor de i “ t 12 ˆ 12 ` 12 u “ t6, 5u “ 6 e de
k “ 21 ˆ 12 ` 12 ´ 6 “ 0, 5.
Assim, a mediana é Me “ p1 ´ 0, 5q xp6q `0, 5xp7q “ 0, 5ˆ5`0, 5ˆ6 “ 5, 5.
r3, 0; 3, 5r obtém-se a frequência acumulada 12, já superior a 10. Pode pois
garantir-se que a mediana é um dos valores da classe r3, 0; 3, 5r (classe mediana). Logo, Me “ 3 ` 10´6
ˆ 0, 5 “ 3, 33.
6
No caso dos dados estarem agrupados por intervalos de classe, a mediana
é o valor tal que a ordenada levantada no ponto do eixo das abcissas divide
a área do histograma em duas partes iguais, isto é, a mediana será o valor
n
`da1 ˘abcissa a que corresponde a frequência absoluta (relativa) acumulada 2 ,
.
2
Obtém-se o valor da mediana através da seguinte fórmula:
Me “ Li `
n
2
´ F i´1
ˆ ai ,
FM e
No caso de os dados se apresentarem através de um histograma de frequências acumuladas, pode usar-se um procedimento geométrico para determinar
uma estimativa da mediana.
Para tal, podemos recorrer ao procedimento gráfico seguinte:
• começamos por construir o polígono de frequências absolutas (relativas)
acumuladas;
• marcamos no eixo vertical o valor n2 , para o caso de se considerarem
as frequências absolutas, ou 0,5, para o caso de se considerarem as
frequências relativas;
• conduzimos por esse ponto do eixo vertical uma recta horizontal até
intersectar o polígono de frequências acumuladas;
onde:
• Li - limite inferior da classe mediana;
• conduzimos pelo ponto, assim definido no polígono de frequências acumuladas, uma recta vertical até intersectar o eixo horizontal. O ponto
de intersecção da recta vertical com o eixo define a mediana procurada.
• n - número de elementos da amostra;
• F i´1 - frequência absoluta acumulada anterior à classe mediana;
Exemplo 3.9. Utilizando os dados apresentados no Exemplo 3.8, podemos
obter a mediana graficamente:
• FM e - frequência absoluta da classe mediana;
• ai - amplitude da classe mediana.
Classes
Fi
Fi
r2, 0; 2, 5r
2
2
4
6
r3, 0; 3, 5r
6
12
5
17
r2, 5; 3, 0r
r3, 5; 4, 0r
r4, 0; 4, 5s
3
15
10
5
2,0
2,5
3,0
Me
3,5
4,0
4,5
Peso / kg
20
Vamos determinar a mediana desta distribuição, procurando o peso do
“ 10˝ bebé. Como pode observar-se, até à classe r2, 5; 3, 0r, inclusive, o
total das frequências acumuladas é 6 e adicionando a frequência da classe
Estatística descritiva e análise exploratória de dados
20
0
20
2
C. Fernandes & P. Ramos
Frequênca absoluta acumulada
Exemplo 3.8. Considerem-se os pesos, em kg, de 20 bebés à data do seu
nascimento, cuja distribuição é dada pela tabela seguinte:
23/45
Observando o gráfico, conclui-se que a mediana é aproximadamente igual
a 3,3 kg. A recta vertical conduzida pelo ponto do eixo Ox que tem por abcissa
o valor da mediana divide o histograma em duas áreas iguais.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
24/45
Frequência absoluta
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• a perpendicular, baixada do ponto de intersecção das linhas obtidas
anteriormente para o eixo das abcissas, determina, neste, a localização
gráfica da moda.
6
5
4
A1 = A2
3
A1
2
Exemplo 3.10.
A2
1
0
2,0
2,5
3,0
Me
3,5
4,0
4,5
70
Peso / kg
Frequência
3.1.3
60
Moda
Para um conjunto de dados não agrupados ou agrupados por frequência,
sendo x1 ď x2 ď x3 ď ¨ ¨ ¨ ď xn os n valores de uma variável estatística,
chama-se moda Mo ao valor que ocorre com mais frequência. Para dados
agrupados em intervalos de classe, dá-se o nome de classe modal a qualquer
classe cuja frequência não é inferior à das restantes classes (classe com maior
frequência absoluta).
Obtém-se o valor da moda através da seguinte fórmula:
Mo “ Li `
∆1
ˆ ai ,
∆1 ` ∆2
onde:
• ∆1 - excesso de frequência absoluta da classe modal sobre a imediatamente inferior;
• ∆2 - excesso de frequência absoluta da classe modal sobre a imediatamente superior;
40
30
20
10
0
45
50
55
Mo
60
65
70
60
65
70
Consumo diário de leite em pó em gr
Para um conjunto de dados pode existir mais do que uma moda, ou
até nem existir moda. Se o conjunto de dados tiver duas modas, ele diz-se
bimodal, no caso de ter mais do que duas modas, diz-se multimodal. Se o
conjunto de dados não tiver moda, ele diz-se amodal.
3.1.4
• Li - limite inferior da classe modal;
50
Comparação entre Média, Mediana e Moda
As distribuições de frequência podem ser simétricas ou não em relação a um
eixo. No último caso, chamam-se assimétricas ou enviesadas.
A posição relativa da média, mediana e moda dá informação sobre a curva
da distribuição.
Em distribuições simétricas unimodais, a média, a mediana e a moda têm
o mesmo valor.
• ai - amplitude da classe modal.
No caso de os dados se apresentarem através de um histograma, pode
usar-se um procedimento geométrico para determinar uma estimativa da
moda. Para tal procede-se do seguinte modo:
• determina-se a classe modal;
Média = Mediana = Moda
• unem-se os vértices superiores do rectângulo da classe modal com os
vértices das classes contínuas;
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
25/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
26/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Numa distribuição assimétrica positiva, a média é maior do que a mediana
e esta, geralmente (salvo casos extremos), maior do que a moda.
onde xpiq é o i-ésimo valor observado na amostra ordenada, tyu é a parte
inteira de y e 0 ă p ă 1.
Uma outra fórmula para obter os quantis é dada por:
Media na
Média
Mo da
Qp “ p1 ´ kq xpiq ` kxpi`1q ,
Numa distribuição assimétrica negativa, a média é menor do que a mediana e esta, geralmente (salvo em casos extremos), menor do que a moda.
onde i “ tnp ` 1 ´ pu, k “ np ` 1 ´ p ´ i, 0 ă p ă 1, xpiq é o i-ésimo valor
observado na amostra ordenada e tyu é a parte inteira de y.
A mediana corresponde ao quantil de ordem 21 . Os quartis correspondem
aos quantis de ordem 14 , 42 e 34 . Os decis correspondem aos quantis de ordem
1
9
1
2
, 2 , 3 , . . . , 10
. Os percentis correspondem aos quantis de ordem 100
, 100
,
10 10 10
3
99
,
.
.
.
,
.
100
100
O cálculo dos quantis pode ser efectuado através deste processo, quer os
dados estejam não agrupados ou agrupados por frequência.
3.2.2
Quartis
Vimos que a Mediana divide o conjunto de valores observados em duas partes
iguais. O quartil é uma medida que divide o conjunto de valores observados
em quatro partes iguais. Existem três quartis: Q1 , Q2 e Q3 :
Média
Mediana
Moda
• Q1 “ Q 1 - obtém-se determinando a mediana do conjunto de valores
4
observados que fica à esquerda da mediana;
• Q2 “ Q 2 “ Q 1 - corresponde à mediana;
4
2
• Q3 “ Q 3 - obtém-se determinando a mediana do conjunto de valores
4
que fica à direita da mediana.
3.2
3.2.1
Medidas de localização de tendência não central
Quantis
Os quantis dividem os dados em grupos com igual número de observações. Os
três principais quantis designam-se por quartis, decis e percentis. O quartil
é uma medida que divide o conjunto de valores observados em quatro partes
iguais, pelo que, temos três quartis. O decil divide o conjunto de valores
observados em dez partes iguais, pelo que, temos nove decis. O percentil
divide o conjunto de valores observados em cem partes iguais, pelo que,
temos noventa e nove percentis.
O quantil de ordem p, Qp , obtém-se da seguinte forma:
" xpnpq `xpnp`1q
, se np é inteiro
2
Qp “
,
xptnpu`1q
, se np não é inteiro
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
27/45
Sendo x1 , x2 , . . . , xn os n valores ordenados por ordem crescente de uma
variável quantitativa e representando por Q1 , Q2 e Q3 o primeiro, segundo e
terceiro quartis, respectivamente,
Q1
x1
Q2
Me
Q3
xn
tem-se:
• o primeiro quartil, Q1 “ Q 1 , é o valor que divide a sequência em
4
duas partes, de tal modo que, pelo menos, 14 ou 25% das observações
sejam inferiores ou iguais a esse valor e 34 ou 75% das observações sejam
superiores a esse valor;
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
28/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• o segundo quartil, Q2 “ Q 2 “ Q 1 , é o valor que divide a sequência
4
2
em duas partes iguais, de tal modo que, pelo menos, 21 ou 50% das
observações sejam inferiores ou iguais a esse valor e 21 ou 50% das
observações sejam superiores a esse valor;
• o terceiro quartil, Q3 “ Q 3 , é o valor que divide a sequência em duas
4
partes, de tal modo que, pelo menos, 34 ou 75% das observações sejam
inferiores ou iguais a esse valor e 41 ou 25% das observações sejam
superiores a esse valor.
Exemplo 3.11. Consideremos o conjunto de valores observados: 1, 4, 5, 6,
8, 9, 11, 14, 15, 18, 20. Determine os quartis.
• Para p “
1
4
• Para p “
2
4
• Para p “
3
4
vem np “
“
1
2
“
1
2
11
4
“ 2, 75 logo Q 1 “ xp3q “ 5;
4
vem np “
11
2
“ 5, 5 logo Q 1 “ xp6q “ 9;
vem np “
33
4
“ 8, 25 logo Q 3 “ xp9q “ 15.
• Para p “
2
4
“
• Para p “
11.
3
4
“
vem np “
1
2
1
2
4
Para obter o segundo quartil (mediana), vamos começar por determinar
o valor de i “ t 21 ˆ 12 ` 1 ´ 21 u “ t6, 5u “ 6 e de k “ 12 ˆ 12 ` 1 ´ 12 ´ 6 “ 0, 5.
Assim, o segundo quartil é
2
Classes
Fi
Fi
0
10
10
Q 3 “ p1 ´ 0, 25q xp9q ` 0, 25xp10q “ 0, 75 ˆ 7 ` 0, 25 ˆ 8 “ 7, 25.
35
Exemplo 3.14. A tabela seguinte representa a distribuição do número de
páginas de 25 livros escolares:
3
25
5
35
70
7
43
113
9
42
155
11
30
185
13
23
208
Total
208
4
Número de páginas por livro
r175; 200r
r200; 225r
r225; 250r
r250; 275r
r275; 300s
208
4
“ 52 logo Q 1 “
vem np “
vem np “
4
208
2
624
4
xp52q `xp53q
2
“ 104 logo Q 1 “
2
4
“
5`5
2
xp104q `xp105q
2
“ 156 logo Q 3 “
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
Q 1 “ p1 ´ 0, 75q xp3q ` 0, 75xp4q “ 0, 25 ˆ 3 ` 0, 75 ˆ 4 “ 3, 75.
Tal como fizemos nos casos anteriores, para obter o terceiro quartil, vamos
começar por determinar o valor de i “ t 34 ˆ 12 ` 1 ´ 34 u “ t9, 25u “ 9 e de
k “ 34 ˆ 12 ` 1 ´ 34 ´ 9 “ 0, 25. Assim, o terceiro quartil é
4
Determine os quartis.
• Para p “
Exemplo 3.13. Considere os seguintes dados 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9,
9. Determine os quartis.
Comecemos por determinar o primeiro quartil. Para este caso temos o
valor de i “ t 41 ˆ 12 ` 1 ´ 14 u “ t3, 75u “ 3 e de k “ 41 ˆ 12 ` 1 ´ 14 ´ 3 “ 0, 75.
Assim, o primeiro quartil é
Q 1 “ Me “ p1 ´ 0, 5q xp6q ` 0, 5xp7q “ 0, 5 ˆ 5 ` 0, 5 ˆ 6 “ 5, 5.
2
Exemplo 3.12. Consideremos a distribuição de frequências de valores.
1
4
No exemplo que se segue iremos utilizar, para o cálculo dos quartis, a
segunda fórmula apresentada.
Localize graficamente cada um dos quartis.
Para calcular os quartis começa-se por construir a tabela de frequências
acumuladas.
“ 5;
“
xp156q `xp157q
2
7`7
2
“
Número de livros
3
5
8
7
2
“ 7;
11`11
2
“
29/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
30/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Classes
Fi
Fi
r175; 200r
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Tratando-se de dados agrupados em intervalos de classe, a fórmula para
obter os quartis é idêntica à da mediana:
F i p%q
3
3
r200; 225r
5
8
12
32
r225; 250r
8
16
64
r250; 275r
7
23
92
r275; 300s
2
25
100
Qc “ Li `
c n4 ´ F i´1
ˆ ai ,
Fi
onde:
• Li - limite inferior da classe que contém o quartil c;
• c - toma os valores 1, 2 ou 3 para o primeiro, segundo e terceiro quartil,
respectivamente;
A observação da tabela permite identificar a classe a que pertence cada
um dos quartis:
• n - número de elementos da amostra;
• Q 1 pertence à classe r200; 225r, pois F i (em %) toma aí o menor valor
4
igual ou superior a 25%;
• F i´1 - frequência absoluta acumulada anterior à classe que contém o
quartil c;
• Q 1 pertence à classe r225; 250r, pois F i (em %) toma aí o menor valor
2
igual ou superior a 50%;
• Fi - frequência absoluta da classe que contém o quartil c;
• Q 3 pertence à classe r250; 275r, pois F i (em %) toma aí o menor valor
4
igual ou superior a 75%.
• ai - amplitude da classe que contém o quartil c.
Exemplo 3.15. Na tabela indicam-se os ganhos diários, em euros, dos empregados de uma empresa:
Recorrendo ao polígono de frequências acumuladas, podemos determinar
valores aproximados dos quartis. Para tal basta usar
usado
´ o procedimento
¯
no caso da mediana, o que permite localizar Q 1 Q 1 “ Me , e repetir o
2
2
Frequência relativa acumulada (%)
procedimento para Q 1 e Q 3 , agora considerando 25% ou
4
4
e 75% ou 43 das observações, respectivamente.
1
4
Ganhos diários
Fi
r10; 30r
4
4
16
20
r30; 50r
das observações
84
104
r70; 90r
156
260
r90; 110r
24
284
r110; 130r
10
294
r130; 150s
6
300
Total
300
r50; 70r
100
90
80
75
70
60
50
40
30
25
20
Determine o primeiro, segundo e terceiro quartis.
Para Q 1 , como n4 “ 75, o intervalo correspondente a esta frequência
4
acumulada é r50; 70r. Logo
10
0
175
Q
Q
Q
200 1225 2 250 3 275
300
Nº de páginas
Q 1 “ 50 `
4
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
Fi
31/45
75 ´ 20
ˆ 20 “ 63, 09.
84
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
32/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
“ 150, o intervalo correspondente a esta frequência
Para Q 1 , como 2n
4
2
acumulada é r70; 90r. Logo
150 ´ 104
ˆ 20 “ 75, 9.
156
3n
Para Q 3 , como 4 “ 225, o intervalo correspondente a esta frequência
4
acumulada é r70; 90r. Logo
Q 1 “ 70 `
2
225 ´ 104
ˆ 20 “ 85, 5.
156
Em conclusão podemos dizer que há 75 empregados (25%) com um ganho
diário até 63,09 euros, 150 empregados (50%) com um ganho diário até 75,9
euros e 225 empregados (75%) com um ganho diário até 85,5 euros.
3.2.4
Outliers
Em estatística, outlier, é uma observação que apresenta um grande afastamento das restantes observações, ou que é inconsistente com estas. Sendo
IQ “ Q3 ´ Q1 “ Q 3 ´ Q 1 o intervalo inter-quartis, temos que:
4
4
• as observações cujo valor estiver no intervalo Q3 ` 1, 5 ˆ IQ a Q3 `
3IQ ou no intervalo Q1 ´ 3IQ a Q1 ´ 1, 5IQ são consideradas outliers
moderados;
Q 3 “ 70 `
4
3.2.3
• as observações cujo valor é inferior a Q1 ´3IQ ou superior a Q3 `3ˆIQ
são consideradas outliers extremos ou severos.
Diagrama de extremos e quartis sem outliers
Decis e percentis
O decil divide o conjunto de valores observados em dez partes iguais e o
percentil em cem partes iguais. Teremos, assim, 9 decis e 99 percentis.
Se se tratar de dados não agrupados ou agrupados por frequência procede1
,
se de forma idêntica aos quartis, ou seja, obtendo os quantis de ordem 10
2
3
9
,
,
.
.
.
,
para
o
caso
dos
decis
1,
2,
3,
.
.
.
,
9,
respectivamente,
ou
os
10 10
10
1
2
3
99
quantis de ordem 100
, 100
, 100
, . . . , 100
para o caso dos percentis 1, 2, 3, . . . ,
99, respectivamente.
Para dados agrupados em intervalos de classe a expressão que nos dá os
decis é análoga à dos quartis:
Dc “ Li `
n
c 10
´ F i´1
ˆ ai ,
Fi
Q3/4
max{xi}
Diagrama de extremos e quartis com outliers
Q1/4
Q2/4=Q1/2=Me
Q3/4
o
m
o*
M
onde:
n
c 100
• m é o menor dos valores observados que não é um outlier;
´ F i´1
ˆ ai ,
Fi
• M é o maior dos valores observados que não é um outlier;
com c “ 1, 2, . . . , 99.
Exemplo 3.16. Com os dados do Exemplo 3.15, calcule D8 e P6 .
Para D8 , como 8n
“ 240, o intervalo correspondente a esta frequência
10
acumulada é 70 - 90. Logo D8 “ 70 ` 240´104
ˆ 20 “ 87, 43.
156
6n
Para P6 , como 100
“ 18, o intervalo correspondente a esta frequência
acumulada é 30 - 50. Logo P6 “ 30 ` 18´4
ˆ 20 “ 47, 5.
16
Em conclusão podemos dizer que há 240 empregados (80%) com um ganho
diário até 87,43 euros e 18 empregados (6%) com um ganho diário até 47,5
euros.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
Q2/4=Q1/2=Me
min{xi}
*
com c “ 1, 2, . . . , 9.
Para os percentis temos:
Pc “ Li `
Q1/4
33/45
• ˝ representa um outlier moderado;
• ˚ representa um outlier extremo ou severo.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
34/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3.3
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Medidas de dispersão ou de variabilidade
3.3.3
Embora as medidas de localização forneçam indicações sobre os valores mais
representativos de uma distribuição, não indicam a sua estrutura interna,
isto é, a forma como os diferentes valores se distribuem a longo do intervalo
de variação.
Considerando as três distribuições:
Momentos centrais
São as médias aritméticas das 1a , 2a , 3a , 4a , potências dos desvios em relação à
média aritmética. Para o cálculo dos momentos deve-se proceder do seguinte
modo:
• 44, 45, 50, 51, 60;
• Põe-se em coluna os valores de xi (representa um valor da variável,
se X é discreta ou um ponto médio de classe, se X é contínua) e as
respectivas frequências;
• 5, 5, 30, 100, 110;
• Calcula-se a média aritmética;
• 1, 1, 1, 1, 246;
• Calculam-se os desvios di “ xi ´ x e as potências dos desvios d2i , d3i , d4i ;
verifica-se que possuem a mesma média x “ 50. Como é evidente, a dispersão (ou variabilidade) dos valores da variável em relação à média, em cada
uma das distribuições, é diferente. Na primeira distribuição, a variabilidade
é pequena: os valores da variável são próximos da média; na segunda, essa
variabilidade é grande: os valores da variável encontram-se muito mais afastados da média; finalmente, na terceira, a dispersão é muito maior do que
na anterior. As medidas de dispersão ou medidas de variabilidade, permitem conhecer a forma como os valores da variável estatística se distribuem
(dispersam) em redor dos valores centrais.
3.3.1
Amplitude total
A amplitude total é a medida de dispersão mais simples. É a diferença entre
os valores extremos assumidos pela variável estatística:
"
max pxi q ´ min pxi q , se X é discreta
R“
.
lk`1 ´ l1
, se X é contínua
O emprego desta medida de dispersão apresenta alguns inconvenientes. A
principal desvantagem resulta dela depender apenas dos valores extremos
assumidos pela variável e não dos valores intermédios. Duas distribuições
podem ter a mesma amplitude total mas dispersões muito diferentes.
3.3.2
Intervalo inter-quartis
• Fazem-se e põe-se em coluna os produtos Fi di , Fi d2i , Fi d3i , Fi d4i e fazemse os respectivos somatórios;
• Calculam-se os momentos pelas fórmulas:
řk
řk
Fi d2i
Fi di
,
m2 “ i“1
,
m1 “ i“1
n´1
n´1
ř
řk
k
Fi d4i
Fi d3i
,
m4 “ i“1
,
m3 “ i“1
n´1
n´1
řk
onde n “ i“1 Fi . No caso dos dados não agrupados temos que Fi “ 1,
para qualquer valor de xi .
3.3.4
Desvio médio
Da definição de média, é imediato reconhecer que a soma dos desvios das
observações em relação à média é nula. Este facto leva à definição de desvio
absoluto médio ou simplesmente desvio médio dos valores xi em relação à
média. O desvio médio em relação à média aritmética ou, simplesmente,
desvio médio é definido por:
řk
řk
Fi | xi ´ x |
Fi | di |
dm “ i“1
“ i“1
,
n´1
n´1
O intervalo inter-quartis é a diferença entre o terceiro quartil e o primeiro
quartil:
IQ “ Q3 ´ Q1 “ Q 3 ´ Q 1 .
onde Fi representa cada uma das frequências absolutas e xi representa um
valor da variável (se X é discreta) ou um ponto médio de classe (se X é
contínua). Por outras palavras, o desvio médio é a média aritmética dos
desvios absolutos em relação à média. Quanto menos dispersos se encontrarem os valores xi relativamente à média x, menor será o desvio médio, e
reciprocamente.
Estatística descritiva e análise exploratória de dados
Estatística descritiva e análise exploratória de dados
4
C. Fernandes & P. Ramos
4
35/45
C. Fernandes & P. Ramos
36/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3.3.5
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Variância
•
A variância é uma medida da variabilidade dos dados em relação à média.
No caso de se ter dados não agrupados, a variância é dada por:
řn
řn 2
řn 2
pxi ´ xq2
x
n
x ´ nx2
s2 “ i“1
“ i“1 i ´
.
x2 “ i“1 i
n´1
n´1
n´1
n´1
Caso os dados estejam agrupados, a variância é dada por:
řk
řk
řk
Fi x2i
Fi pxi ´ xq2
n
Fi x2i ´ nx2
“ i“1
´
,
s2 “ i“1
x2 “ i“1
n´1
n´1
n´1
n´1
onde Fi representa cada uma das frequências absolutas e xi representa um
valor da variável (se X é discreta) ou um ponto médio de classe (se X é
contínua).
ř10
i“1
pxi ´ xq2 “ 4650 e
s2 “
řn
ou
s2 “
• s“
řn
i“1
pxi ´ xq2
“
n´1
i“1
x2i ´ nx2
“
n´1
i“1
?
ř10
ř10
x2i “ 104650 logo
ř10
pxi ´ xq2
4650
“
“ 516, 667
10 ´ 1
9
i“1
x2i ´ 10x2
104650 ´ 10 ˆ 1002
“
“ 516, 667.
10 ´ 1
9
i“1
516, 667 “ 22, 73.
Exemplo 3.18. Calcule o desvio padrão da distribuição de frequências apresentada.
Nota 3.1. Para o cálculo da variância apresentaram-se duas fórmulas. A
segunda fórmula pode ser obtida fazendo:
řn
řn
2
px2 ´ 2xi x ` x2 q
i“1 pxi ´ xq
s2 “
“ i“1 i
“
n
´
1
n´1 ř
řn 2
řn
n
n
1
i“1 xi
i“1 xi
“
´ 2x
` x2 i“1 “
n´1 n
nř
´1
řnn´ 1 2
n
n
n
x2
n
i“1 xi
x2 .
“
´ 2x2
` x2
“ i“1 i ´
n´1
n´1
n´1
n´1
n´1
xi
Fi
Fi xi
x2i
Fi x2i
xi ´ x
Fi pxi ´ xq2
0
1
2
3
4
5
Total
12
16
27
20
16
9
100
0
16
54
60
64
45
239
0
1
4
9
16
25
0
16
108
180
256
225
785
´2, 39
´1, 39
´0, 39
0, 61
1, 61
2, 61
68, 55
30, 91
4, 11
7, 44
41, 47
61, 31
213, 79
Nota 3.2. A variância vem expressa na unidade de medida dos dados ao
quadrado.
Então:
3.3.6
Desvio padrão
O desvio padrão é a raiz quadrada positiva da variância, em qualquer um
dos casos (dados não agrupados, agrupados por frequência ou agrupados
por
?
intervalos de classe). Representa-se por s e obtém-se fazendo s “ s2 .
O desvio padrão indica a proximidade com que os valores estão agrupados à volta da média. Um valor pequeno do desvio padrão significa que as
observações estão pouco “espalhadas” à volta da média. O desvio padrão vem
expresso na mesma unidade de medida que os dados.
• x“
ř
F i xi
“ 239
“ 2, 39;
n
100
ř
2
Fi x2i ´nx2
“ 785´100ˆp2,39q
n´1
100´1
• s2 “
2, 16;
?
• s “ 2, 16 “ 1, 47.
“ 2, 16 ou s2 “
ř
Fi pxi ´xq2
n´1
“
213,79
100´1
“
Exemplo 3.17. Consideremos os seguintes valores observados: 70, 95, 85,
80, 130, 125, 135, 85, 90, 105. Calcule o desvio padrão.
ř
• 10
i“1 xi “ 1000 logo
řn
ř10
xi
xi
1000
x “ i“1 “ i“1 “
“ 100;
n
10
10
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
37/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
38/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Exemplo 3.19. Calcule o desvio padrão da distribuição de frequências apresentada.
Classes
xi
Fi
Fi xi
x2i
Fi x2i
xi ´ x
Fi pxi ´ xq2
r20; 25r
r25; 30r
r30; 35r
r35; 40r
r40; 45r
r45; 50r
r50; 55r
r55; 60s
Total
22, 5
27, 5
32, 5
37, 5
42, 5
47, 5
52, 5
57, 5
9
27
36
45
18
9
3
3
150
202, 5
742, 5
1170, 0
1687, 5
765, 0
427, 5
157, 5
172, 5
5325
506, 25
756, 25
1056, 25
1406, 25
1806, 25
2256, 25
2756, 25
3306, 25
4556, 25
20418, 75
38025, 00
63281, 25
32512, 50
20306, 25
8268, 75
9918, 75
197287, 50
´13
´8
´3
2
7
12
17
22
1521
1728
324
180
882
1296
867
1452
8250
ř
• s2 “
8250
150´1
F i xi
“ 5325
n
150
ř
Fi x2i ´nx2
n´1
197287,5´150ˆp35,5q2
150´1
“ 55, 37;
?
• s “ 55, 37 “ 7, 44.
“ 55, 37 ou s2 “
ř
Fi pxi ´xq2
n´1
s
ˆ 100%.
x
• se 15% ă cv ă 30%, os dados apresentam uma variabilidade média;
• se cv ě 30%, os dados apresentam uma variabilidade elevada.
A média será tanto mais representativa dos dados quanto menor o valor
deste coeficiente. Valores de cv ą 50% indicam uma pequena representatividade da média.
Estes coeficientes são particularmente úteis quando pretendemos comparar a dispersão de duas distribuições:
“
• em que as respectivas variáveis não estão expressas na mesma unidade,
ou seja, devemos adoptar uma medida de dispersão independente da
unidade de medida da variável estatística;
• com médias amostrais muito diferentes.
O desvio médio é uma medida de dispersão absoluta. As medidas de
dispersão relativa não dependem das unidades em que a variável é expressa,
pelo que são úteis para comparar duas ou mais distribuições relativamente
à dispersão (principalmente quando as unidades das variáveis são diferentes). Como medidas de dispersão relativa temos o coeficiente de dispersão, o
coeficiente de variação, coeficiente de dispersão resistente e o coeficiente de
variação resistente.
3.3.7
cv “
• se cv ď 15%, os dados apresentam uma variabilidade fraca;
“ 35, 5;
“
Coeficiente de variação
O coeficiente de variação, cv , mede o grau de concentração de valores em
torno da média em valor percentual:
Diz-se que:
Então:
• x“
3.3.8
3.3.9
cdr “
3.3.10
Coeficiente de dispersão
O coeficiente de dispersão, cd , mede o grau de concentração de valores em
torno da média. É dado pelo quociente entre o desvio padrão corrigido e a
média:
s
cd “ .
x
Coeficiente de dispersão resistente
O coeficiente de dispersão resistente obtém-se considerando o quociente entre
o intervalo inter-quartis e a mediana:
IQ
.
Me
Coeficiente de variação resistente
O coeficiente de variação resistente obtém-se considerando o quociente entre
o intervalo inter-quartis e a mediana e é apresentado em valor percentual:
cvr “
IQ
ˆ 100%.
Me
Os dois últimos coeficientes são mais resistentes quando existem outliers.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
39/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
40/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3.4
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
• ca ą 0, a distribuição é assimétrica positiva:
Medidas de assimetria
A assimetria é a falta de simetria do histograma, ou da curva de frequências, em relação à vertical que passa pela abcissa correspondente à média
aritmética.
As medidas de assimetria sintetizam até que ponto uma distribuição de
frequência é enviesada, deformada ou assimétrica. Estas medidas utilizam-se
para classificar distribuições unimodais e elucidam-nos sobre a forma geral da
distribuição, isto é, se é simétrica ou, em caso contrário, se se afasta muito ou
pouco da simetria. Quando a distribuição é simétrica, o coeficiente de assimetria é nulo. Quando não é nulo, a distribuição é assimétrica, sendo o grau
de assimetria tanto maior quanto maior for o valor absoluto do coeficiente.
Como medida de assimetria absoluta usamos o momento central de 3a ordem, m3 . O momento de 3a ordem tem como dimensões o cubo das unidades
das observações. O seu valor depende, portanto, das unidades de medida, o
que não é desejável para se efectuar comparações. É assim mais vantajoso
usar-se o coeficiente de assimetria que é uma medida de assimetria relativa:
ca “
m3
3{2
m2
“
m3
.
s3
Se:
Este é o coeficiente que na maioria dos casos aparece nos outputs dos programas estatísticos. No entanto, para estudar a assimetria, podemos ainda
usar um dos seguintes coeficientes:
• coeficiente de Pearson
x ´ Mo
,
s
com ´3 ď G ď 3, apenas podendo ser usado quando a distribuição é
unimodal;
G“
• coeficiente de assimetria
• ca ă 0, a distribuição é assimétrica negativa:
3 px ´ Meq
,
s
G1 “
com ´3 ď G1 ď 3;
• coeficiente de Bowley
G2 “
Q 3 ` Q 1 ´ 2Me
4
4
IQ
,
com ´1 ď G2 ď 1, sendo este o coeficiente mais resistente a outliers.
• ca “ 0, a distribuição é simétrica:
Para qualquer um dos coeficientes diz-se que:
• se o seu valor é negativo a distribuição é assimétrica negativa;
• se o seu valor é nulo a distribuição é simétrica;
• se o seu valor é positivo a distribuição é assimétrica positiva.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
41/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
42/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3.5
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
Medidas de achatamento
Para definirmos e visualizarmos o achatamento de uma distribuição de frequências, necessitamos da denominada curva normal que apresenta as seguintes
características fundamentais:
Como medida de achatamento absoluto usamos o momento central de
4a ordem, m4 . Contudo, o momento de 4a ordem depende das unidades de
medida das observações, o que atrapalha quando se pretende efectuar comparações entre distribuições de frequência distintas. Surge assim o coeficiente
de curtose que é uma medida de achatamento relativa:
• é simétrica em relação à recta x “ x;
cc “
• x ´ s e x ` s são os pontos de inflexão da curva;
m4
m4
“ 4.
m22
s
Se:
• no intervalo rx ´ s; x ` ss encontram-se 68,27% das observações;
• cc ă 3 (ou cc ´ 3 ă 0), a curva diz-se platicúrtica (a distribuição é mais
achatada que a normal):
68,27%
x−1s
x
x+1s
• no intervalo rx ´ 2s; x ` 2ss encontram-se 95,45% das observações;
• cc “ 3 (ou cc ´ 3 “ 0), a curva diz-se mesocúrtica (o achatamento é
igual ao da normal):
95,45%
x−2s
x+2s
x
• no intervalo rx ´ 3s; x ` 3ss encontram-se 99,73% das observações.
• cc ą 3 (ou cc ´ 3 ą 0), a curva diz-se leptocúrtica (a distribuição é
menos achatada que a normal):
99,73%
x−3s
x
x+3s
O achatamento de uma distribuição refere-se à intensidade das frequências
nos valores vizinhos dos valores centrais. As medidas de achatamento (ou
curtose) medem o grau de afunilamento ou de achatamento de uma curva
simétrica (ou aproximadamente simétrica) em relação à curva normal.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
43/45
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
44/45
Instituto Superior de Engenharia de Lisboa
Área Departamental de Matemática
Resumos sobre Probabilidades e Estatística
3.5.1
Coeficiente de achatamento
Para estudar o achatamento da distribuição, podemos ainda usar o coeficiente
de achatamento:
IQ
k“
,
2 pP90 ´ P10 q
onde P90 corresponde ao quantil Q0,9 e P10 corresponde ao quantil Q0,1 .
Se:
• k ă 0, 263 a distribuição de frequências tem um achatamento menor
do que o da curva normal. A distribuição é leptocúrtica;
• k “ 0, 263 a distribuição de frequências tem um achatamento igual ao
da curva normal. A distribuição é mesocúrtica;
• k ą 0, 263 a distribuição de frequências tem um achatamento maior do
que o da curva normal. A distribuição é platicúrtica.
Este coeficiente é mais resistente a outliers.
Estatística descritiva e análise exploratória de dados
C. Fernandes & P. Ramos
45/45