Unidade II - UNIPVirtual

Propaganda
ESTATÍSTICA
Unidade II
4 DISTRIBUIÇÃO DE FREQUÊNCIAS
Ao longo de nosso estudo, observamos que, para extrair
dos dados estatísticos de que dispomos a correta análise e
interpretação, o primeiro passo deverá ser a correta organização
e sumarização destes dados; caso contrário, esses números não
5 farão qualquer sentido.
Além disso, dependendo do tamanho do nosso conjunto de
dados, podemos organizá-los em um rol de dados simples, ou
seja, por ordem de grandeza (crescente ou decrescente), ou em rol
(novamente ordenando o conjunto de dados) e, posteriormente,
10 tabelando sua distribuição de frequências.
A distribuição de frequências é o modo de tratamento de
dados utilizado quando é grande a quantidade de dados brutos,
e passamos a agrupar os dados estatísticos em subconjuntos
com características semelhantes – as classes ou categorias.
15
A distribuição de frequência é a organização de dados em
classes ou intervalos, para determinar o número de observações
ou a percentagem de observações de cada classe, chamada de
frequência de classes.
Para apresentar estes dados, podemos utilizar gráficos e
20 tabelas, bem como utilizar as medidas de posição e variabilidade
para interpretá-los, mas não sem organizá-los previamente em
uma distribuição, sem a qual ficaria impossível o cálculo de
algumas das medidas necessárias, como média, variância etc.
53
Unidade II
Tabela 4.1
Idade de 100 estudantes formandos do curso de serviço social
de uma Universidade AB em dez/2008
Idade
Número de estudantes
20 a 22
8
22 a 24
10
24 a 26
12
26 a 28
20
28 a 30
17
30 a 32
15
32 a 34
9
34 a 36
5
36 a 38
3
38 a 40
1
Total = 100
A tabela acima é uma distribuição de frequências das idades
dos estudantes que estão se formando no curso de serviço social
de uma determinada Universidade fictícia AB. A primeira classe
corresponderia ao grupo de estudantes formandos em serviço
5 social no ano de 2008 e que possuem entre 20 e 22 anos, e
é indicada pelo símbolo 20 |- 22. A frequência desta classe
corresponde a oito, porque existem oito estudantes cuja idade
faz parte desta classe.
4.1 A construção de uma distribuição de
frequências para dados contínuos
Para se construir uma determinada distribuição de frequências
10 é preciso, em primeiro lugar, definir o tipo de variável em
questão, para depois definir os passos que devem ser seguidos
para a construção desta distribuição. Vamos supor o conjunto
de dados abaixo, referente às idades de uma amostra de cem
alunos formandos em serviço social de uma Universidade AB:
54
ESTATÍSTICA
Tabela 4.2
Dados das idades dos estudantes formandos de serviço social
da Universidade AB
20
20,4
20,5
21
21
22
22
22
22,1
22,2
22,3
22,5
22,6
22,7
22,8
22,9
23
24
24,1
24,2
24,3
24,4
24,5
25
25
25,3
25,5
25,7
26
26
26,2
26,3
26,4
26,5
26,6
26,7
26,8
26,9
27
27
27,1
27,2
27,3
27,4
28
28
28
28
28
28
28,2
28,3
28,5
29
29
29
29
29,1
29,1
29,2
29,3
29,4
29,5
29,5
30
30
30
31
31
31
31
31,1
31,2
31,3
31,4
31,5
31,6
31,6
32
32
32
32
32,3
33
33
33
34
34
34
34
34
34,5
35
35
36
36
37
37,5
38
40
Como podemos observar, os dados já estão dispostos em
ordem crescente de grandeza, em um rol, muito embora se trate
de um conjunto de números superior a trinta observações. Esta
amostra diz respeito às idades dos alunos de uma determinada
5 Universidade fictícia AB que estão se formando no curso de serviço
social. Estamos considerando, portanto, uma variável contínua.
Uma variável contínua é aquela
que pode assumir qualquer valor num
intervalo contínuo.
Como vimos, tratar um conjunto de dados sob a forma de uma
distribuição de frequências significa organizá-los em intervalos
de classes. Precisamos, então, definir o número de classes, o
10 tamanho destas classes para, então, enquadrar os dados nas
classes pela simples contagem destes dados amostrais.
A primeira coisa que devemos fazer ao nos depararmos com
um conjunto de dados como este apresentado na tabela 4.2 é
procurar calcular a amplitude total (ou intervalo). Nesse caso,
15 será muito mais fácil, pois os números já estão dispostos em
um rol. Conforme vimos anteriormente, a amplitude total (ou
intervalo) poderá ser calculada da seguinte forma:
Atotal = Vmáximo – Vmínimo
Atotal = 40 – 20 = 20
55
Unidade II
No caso do nosso exemplo, a amplitude total será igual a 20.
O valor da amplitude total será importante porque, juntamente
com o número de classes, definirá a chamada “amplitude de
classes”.
Mas como então estabelecer o número de classes? A teoria
estatística tem se desenvolvido ao longo dos anos e chegou
ao consenso de que é aconselhável estabelecer o número de
classes entre um mínimo de cinco e um máximo de vinte classes.
Uma distribuição de frequências que possua mais de vinte
10 classes torna a apresentação dos dados muito confusa e de
mais difícil avaliação. Se estabelecemos um número de classes
inferior a cinco, podemos correr o risco de ocultar informações
importantes sobre os dados disponíveis.
5
Quando se quer determinar o número de classes em
15 função do conjunto de dados disponíveis, basta tirarmos
a raiz quadrada de n, onde n corresponderia ao total de
observações (seja da população ou da amostra). Sendo assim,
temos:
Númeroclasses = n
20
No caso do exemplo apresentado acima, temos um total de
observações n=100, portanto, o número de classes será igual a
10; vejamos:
Nclasses = n
Nclasses = 100 = 10
25
Uma vez estabelecido o número de classes, é preciso pensar
qual será o tamanho de cada classe, ou, dito de outra forma,
faz-se necessário determinar a amplitude de classe desta
distribuição de frequências. Para isto calculamos a amplitude
total desta distribuição, a qual corresponde a uma medida
30 absoluta de variabilidade.
56
ESTATÍSTICA
Assim, temos:
Amplitudeclasses
Amplitudetotal
=
Númeroclasses
A amplitude de classes será
calculada, então, tomando-se o valor
da amplitude total e dividindo-se pelo
número de classes.
Seguindo o exemplo que estamos trabalhando, já fizemos
o cálculo da amplitude total e do número de classes; podemos,
5 então, passar para o cálculo da amplitude de classes do exemplo.
Temos, então:
A classes =
A total
Nclasses
A classes =
20
=2
10
A amplitude das classes da distribuição de frequências que
10 estamos procurando construir em nosso exemplo será igual a
dois. Isso representa o intervalo ou tamanho de cada classe,
em que iremos dispor os nossos dados. É importante ressaltar
que uma distribuição de frequência não obrigatoriamente
apresenta uma única amplitude de classes, posto que mantenha
15 a composição estrutural da distribuição.
Temos agora o número de classes, a amplitude de classes;
podemos, então, calcular o intervalo de classes. O intervalo de classes
é composto por um limite inferior (número menor) e por um limite
superior (número maior). Os limites inferior e superior podem ou
20 não estar inclusos no intervalo de classes, existindo uma simbologia
própria dentro da estatística para expressar isso. Vejamos exemplos
possíveis a partir da tabela 4.1 acima:
• 20|–|22: diz-se que é um intervalo fechado, pois tanto o
20 quanto o 22 participam do intervalo;
25
• 22–|24: diz-se que este é um intervalo aberto, já que o
limite inferior, 22, não participa do intervalo, ao passo que
o limite superior participa do intervalo;
57
Unidade II
•-20|–22: caso o exemplo se apresentasse assim, teríamos
um intervalo de classe aberto, já que o limite inferior
participa do intervalo, mas o limite superior não participa
do intervalo;
5
•-20 – 22: aqui teríamos um intervalo de classe aberto, em
que nem o limite inferior, nem o limite superior participam
do intervalo.
Após o cálculo do número de classes e da amplitude de
classes, devemos definir os limites inferior e superior de cada
10 classe, começando com o menor valor, ou, no caso de dados
fracionais, com um inteiro logo abaixo do menor valor. No
nosso exemplo, podemos calcular as classes da seguinte
forma:
15
20
•-para a primeira classe:
– limite inferior: 20;
– limite superior: 20 + amplitude de classe = 20 + 2 = 22.
•-para a segunda classe:
– limite inferior: limite superior da classe anterior = 22;
– limite superior: limite inferior da segunda classe +
amplitude de classe = 22 + 2 = 24.
E assim sucessivamente até a classe de número 10, no
nosso exemplo, que terá como limite inferior 38 e como limite
superior 40. É importante frisar que determinado valor não
pode pertencer a mais de uma classe, mas, por outro lado, para
25 cada valor deve haver uma classe, não permitindo a existência
de lacunas na fixação destas mesmas classes.
Uma vez definido o número de classes e a amplitude total,
a partir delas podemos estabelecer a amplitude de classes,
e podemos também definir os limites superior e inferior de
30 cada classe; resta agora confrontar as nossas classes com as
observações de que dispomos na tabela 4.2.
58
ESTATÍSTICA
Mediante contagem, devemos construir nossa distribuição de
frequência, fixando cada observação numa classe determinada.
Quando indicamos o número de observações existentes em um
dado intervalo, temos a chamada frequência absoluta simples
(fi).
5
A frequência absoluta é o número de
vezes em que o dado aparece naquele
determinado conjunto de números.
É importante destacar que nenhuma classe poderá
apresentar frequência absoluta igual a zero. Assim, uma primeira
construção que podemos fazer nos leva à tabela 4.1, só que
agora colocaremos a notação estatística trabalhada até aqui.
Então, temos:
Tabela 4.3
Distribuição de frequência das idades
Classes
Frequência absoluta simples
20 |— 22
8
22 |— 24
10
24 |— 26
12
26 |— 28
20
28 |— 30
17
30 |— 32
15
32 |— 34
9
34 |— 36
5
36 |— 38
3
38 |— 40
1
∑
100
É importante ressaltar que na construção da distribuição
de frequências acima, uma vez que determinado valor tenha
sido incluso em determinado intervalo de classes, não deverá
ser incluso em um outro. Daí a razão pela qual temos intervalos
em que o limite inferior está incluído, pois ele corresponde ao
15 mesmo valor do limite superior da classe anterior, portanto, o
referido valor provavelmente já deve ter sido alocado numa
classe anterior. Por exemplo, na tabela 4.2 temos a observação
10
59
Unidade II
do dado “22” que se repete três vezes, e que será incluso no
primeiro intervalo de classes. Mas esse valor não deverá ser
incluso novamente no segundo intervalo de classes.
A seguir, devemos calcular as frequências absolutas
5 simples acumuladas (fi, R).
Frequência
absoluta
simples
acumulada indica o número de
observações acumuladas até o limite
superior de uma classe.
Por exemplo, na terceira classe, teríamos trinta alunos
com idade entre 20 e 26 anos se formando em serviço social.
Vejamos como ficaria a nova tabela, incluindo a nova notação
da frequência acumulada:
Tabela 4.4
Classes
10
60
Frequência absoluta
simples (ƒi )
Frequência absoluta simples
acumulada (ƒi ,
20 |— 22
8
8
22 |— 24
10
18
24 |— 26
12
30
26 |— 28
20
50
28 |— 30
17
67
30 |— 32
15
82
32 |— 34
9
91
34 |— 36
5
96
36 |— 38
3
99
38 |— 40
1
100
∑
100
A)
Um outro dado importante que podemos extrair da
construção de uma distribuição de frequências é a frequência
relativa simples (fi, R).
Frequência relativa simples nos
mostra a participação relativa do número
de observações em uma dada classe,
e deverá ser calculada da seguinte
forma:
fi ,R =
fi
∑ fi
,
geralmente expressa em percentual.
ESTATÍSTICA
A soma das frequências relativas de todas as classes será
igual a 1, se expressa em forma fracionária, ou a 100% se
expressa em percentual. No caso da distribuição de frequências
que estamos construindo, temos agora a seguinte tabela:
Classes
ƒi
20 |— 22
22 |— 24
24 |— 26
26 |— 28
28 |— 30
30 |— 32
32 |— 34
34 |— 36
36 |— 38
38 |— 40
8
10
12
20
17
15
9
5
3
1
100
∑
Tabela 4.5
ƒi , A
8
18
30
50
67
82
91
96
99
100
ƒi , R
0,08
0,10
0,12
0,20
0,17
0,15
0,09
0,05
0,03
0,01
1
4.2 A construção de uma distribuição de
frequências para dados discretos
5
Numa distribuição de frequência de dados contínuos,
os valores individuais sofrem uma perda de identidade uma
vez agrupados em classes, o que gera a perda de uma certa
quantidade de informações. Isto ficará claro ao calcularmos
a média aritmética em uma distribuição de frequência e
10 compararmos o resultado ao obtido mediante o cálculo dos
dados individualmente, até mesmo no exemplo que demos neste
módulo. Os resultados não serão os mesmos, considerando esta
perda de informação.
Dependendo do tipo de dados e dos objetivos do observador,
15 esse fenômeno pode ou não ocorrer numa distribuição
de frequência com dados discretos. Quando não há perda
de informação, é possível que os dados originais sejam
reconstituídos a partir da tabela de distribuição de frequência
com dados discretos. No caso de dados contínuos, isso não é
20 possível.
61
Unidade II
Essencialmente, não existem diferenças substanciais entre
uma distribuição de frequência com dados contínuos e uma
com dados discretos. Os cálculos das frequências acumuladas e
relativas são feitos da mesma forma, bem como os cálculos das
5 medidas de posição e variabilidade.
4.3 Representação gráfica de dados agrupados
Como já mencionado na Unidade I, a confecção de gráficos
permite uma melhor visualização dos dados, mostrando mais
claramente as diferenças existentes. Os gráficos mais comuns são
o gráfico de setor, de coluna ou de barra e o gráfico de curva. O
10 tipo de gráfico a ser utilizado depende do que se deseja enfatizar.
Assim, o gráfico de coluna ou de barra mostra diferenças entre
os valores absolutos, o gráfico de curva é utilizado quando se
deseja mostrar variações ao longo do tempo, e o gráfico de setor,
também conhecido como “gráfico de pizza”, é utilizado quando
15 se deseja ressaltar diferenças entre proporções. Esses gráficos
podem ser facilmente feitos em planilhas eletrônicas, como, por
exemplo, o Excel.
No caso de dados agrupados, ou de distribuições de
frequência, a representação gráfica utilizada é o histograma,
20 ou, ainda, o polígono de frequência.
Reforçando os conceitos:
25
•-histograma: é a representação gráfica de uma distribuição
de frequência por meio de retângulos justapostos em que a
base colocada no eixo horizontal corresponde aos intervalos
de classe e a altura é proporcional à frequência das classes.
30
•-polígono de frequências: é a representação gráfica de
uma distribuição de frequência por meio de um polígono.
Cada vértice do polígono tem como abscissa o ponto médio
de classe e como ordenada proporcional à frequência dessa
classe.
62
Distribuição de frequências é uma
técnica para apresentar uma coleção
de objetos classificados de modo a
mostrar o número existente em cada
classe. Mais ainda do que a técnica
de apresentar cotações, é importante
considerar a possibilidade de apresentar
distribuições especiais, tal como no
caso da distribuição de frequências
de probabilidades e de frequências de
amostragens.
ESTATÍSTICA
Exemplo: salários de funcionários de uma determinada
empresa:
Intervalos
Salários
Freq.
Freq. acum.
15750 |-- 29000
29000
238
238
29000 |-- 42250
42250
144
382
42250 |-- 55500
55500
35
417
55500 |-- 68750
68750
29
446
68750 |-- 82000
82000
16
462
82000 |-- 95250
95250
6
468
95250 |-- 108500
108500
4
472
108500 |-- 121750
121750
1
473
121750 |-- 135000
135000
0
473
Histograma
250
200
150
100
50
0|
42
00
29
15
75
0|
–2
90
0
–4 0
25 225
0
0
55 |– 5
50 55
00
0
68 |– 6
75 87
0 | 50
82 – 82
00
0
0 | 00
95 – 9
2
5
10 50 |– 250
85
00 108
12 |– 500
17 12
50 17
|– 50
13
50
00
0
Polígono de frequência
250
200
150
100
50
0
15750 29000 42250 55500 68750 82000 95250 108500 121750
|–
|–
|–
|–
|–
|–
|–
|–
|–
29000 42250 55500 68750 82000 95250 108500 121750 135000
63
Unidade II
Vamos ressaltar novamente:
Estatística descritiva é o nome dado ao conjunto de
técnicas analíticas utilizadas para resumir o conjunto de todos
os dados coletados numa dada investigação a relativamente
poucos números e gráficos. Ela envolve basicamente:
• distribuição de frequência: é o conjunto das
frequências relativas observadas para um dado
fenômeno estudado, sendo a sua representação gráfica
o histograma (diagrama em que o eixo horizontal
representa faixas de valores da variável aleatória e o
eixo vertical representa a frequência relativa). Por uma
consequência da Lei dos Grandes Números, quanto
maior o tamanho da amostra, mais a distribuição de
frequência tende para a distribuição de probabilidade.
Frequência
relativa (%)
Histograma
50
40
30
20
10
0
A
B
C
D
E
Faixa da variável aleatória
• medidas da tendência central: são indicadores que
permitem que se tenha uma primeira ideia, um resumo
de como se distribuem os dados de um experimento,
informando o valor (ou faixa de valores) da variável
aleatória que ocorre mais tipicamente. Ao todo, são três
parâmetros:
- média: é a soma de todos os resultados dividida pelo
número total de casos, podendo ser considerada um
resumo da distribuição como um todo;
- moda: é o evento ou categoria de eventos que ocorreu
com maior frequência, indicando o valor ou categoria
mais provável;
64
ESTATÍSTICA
- mediana: é o valor da variável aleatória a partir do
qual metade dos casos se encontra acima dele e
metade se encontra abaixo.
Frequência
relativa (%)
Histograma
50
40
30
20
10
0
Tendência
central
A
B
C
D
E
Faixa da variável aleatória
• medidas de dispersão: são medidas da variação de
um conjunto de dados em torno da média, ou seja, da
maior ou menor variabilidade dos resultados obtidos.
Elas permitem identificar até que ponto os resultados se
concentram ou não ao redor da tendência central de um
conjunto de observações. Incluem a amplitude, o desvio
médio, a variância, o desvio padrão, o erro padrão e o
coeficiente de variação, cada um expressando diferentes
formas de se quantificar a tendência que os resultados
de um experimento aleatório têm de se concentrarem
ou não em determinados valores (quanto maior a
dispersão, menor a concentração, e vice-versa).
Frequência
relativa (%)
Histograma
50
40
30
20
10
0
Dispersão
A
B
C
D
E
Faixa da variável aleatória
A ideia básica é a de se estabelecer uma descrição
dos dados relativos a cada uma das variáveis, dados esses
levantados através de uma amostra.
65
Unidade II
Façamos alguns exemplos para tornar as definições e suas
aplicações técnicas mais claras.
Exemplo 1: em uma pesquisa feita para detectar o número de
filhos de empregados de uma multinacional, foram encontrados
5 os seguintes valores:
1
5
2
4
4
3
2
2
2
5
5
1
3
0
4
2
3
2
0
2
1
3
4
3
2
2
4
1
3
2
Responda as questões abaixo, para x=2 e x=4.
10 Solução
• Rol (dados em ordem crescente):
0
2
3
0
2
3
1
2
4
1
2
4
1
2
4
1
2
4
2
3
4
2
3
5
2
3
5
2
3
5
• Tabela de distribuição de frequências:
15
X
F
fr
f%
F↓
F↑
F%↓
F%↑
0
2
0,067
6,7
2
30
6,7
100
1
4
0,133
13,3
6
28
20
93,3
2
10
0,333
33,3
16
24
53,3
80
3
6
0,2
20
22
14
73,3
46,7
4
5
0,167
16,7
27
8
90
26,7
5
3
0,1
10
30
3
100
10
Total
30
1
100
-
-
-
-
• Algumas considerações ou conclusões:
--Quantos empregados têm “x” filhos? A resposta é dada
através de f (frequência absoluta simples).
66
ESTATÍSTICA
--Quantos empregados têm menos de “x” filhos? A resposta
é dada através de F↓� (frequência absoluta acumulada
“abaixo de”).
5
--Quantos empregados têm mais de “x” filhos? A resposta é
dada através de F↑ (frequência absoluta acumulada “acima
de”).
--Quantos empregados têm “x” filhos ou menos? A resposta
é dada através de F↓ (frequência absoluta acumulada
“abaixo de”).
10
--Quantos empregados têm “x” filhos ou mais? A resposta é
dada através de F↑ (frequência absoluta acumulada “acima
de”).
Exemplo 2: um determinado hospital está interessado em
analisar a quantidade de creatinina (em miligramas por 100
15 mililitros) encontrada na urina (de 24 horas) de seus pacientes
internados com problemas renais. Os dados são os seguintes:
20
1,51
1,69
1,67
1,46
1,76
1,66
1,52
1,65
1,22
1,60
1,72
1,62
1,36
1,66
1,58
1,22
1,23
1,56
1,96
1,43
1,90
1,54
1,68
1,54
1,43
1,66
1,26
1,59
1,65
1,47
1,73
1,69
1,51
1,47
1,47
1,40
1,68
1,43
1,15
1,31
1,52
1,86
1,61
1,49
2,18
1,89
2,29
1,57
1,73
1,08
1,80
1,46
1,47
1,58
1,33
1,55
1,81
1,33
1,53
2,00
2,34
1,86
1,52
1,38
1,83
1,60
1,58
1,66
1,75
1,40
1,56
1,50
1,59
1,37
1,71
1,57
1,86
1,83
1,46
1,49
1,40
1,44
1,83
2,02
1,26
1,43
1,51
1,57
1,66
1,73
1,90
1,31
1,44
1,51
1,58
1,66
1,75
1,96
1,33
1,46
1,52
1,58
1,66
1,76
2,00
1,33
1,46
1,52
1,58
1,66
1,80
2,02
1,36
1,46
1,52
1,59
1,67
1,81
2,18
1,37
1,47
1,53
1,59
1,68
1,86
2,29
1,38
1,47
1,54
1,60
1,68
1,86
2,34
Solução
25
30
•-Rol (dados em ordem crescente):
1,08
1,15
1,22
1,22
1,23
1,40
1,40
1,40
1,43
1,43
1,47
1,47
1,49
1,49
1,50
1,54
1,55
1,56
1,56
1,57
1,62
1,65
1,65
1,60
1,61
1,69
1,69
1,71
1,72
1,73
1,86
1,86
1,86
1,86
1,89
67
Unidade II
• Amplitude total (dá uma ideia do campo de variação dos
dados):
A = LS - LI = (2,34) - (1,08) = 1,26
Analisando-se a quantidade de creatinina encontrada na
5 urina dos 84 pacientes, verificou-se que ocorreu a variação de
1,26 no seu campo (de 1,08 a 2,34).
• Estabelecer o número de classes (c):
c = 1 + (3,3333.....).log(n) = 1 + (3,3333....).log(84) = 7,414
c = 7.
10
• Estabelecer o intervalo de classe (i): i = A / c = (1,26) / 7
= 0,18.
• Construção da tabela:
Classes
Pm
fi
fr
f%
f%↓
f%↑
F↓
F↑
1,08 |- 1,26
5
1,17
0,059 5,9
5,9
100
5
84
1,26 |- 1,44
13
1,35
0,155 15,5
21,4
94,1
18
79
1,44 |- 1,62
32
1,53
0,381 38,1
59,5
78,6
50
66
1,62 |- 1,80
18
1,71
0,214 21,4
80,9
40,5
68
34
1,80 |- 1,98
11
1,89
0,131 13,1
94,0
19,1
79
16
1,98 |- 2,16
2
2,07
0,024 2,4
96,4
6,0
81
5
2,16 |- 2,34
3
2,25
0,036 3,6
100
3,6
84
3
Total
84
-
1
-
-
-
-
100
Observações
15
1) O melhor valor para representar cada classe é o ponto
médio (Pm), o qual se obtém pela fórmula
Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2.
68
ESTATÍSTICA
2) fi: número de elementos de cada classe; fr: mede o quanto
cada valor significa em relação à unidade; f%: mede o
quanto cada valor significa com relação a 100.
5
3) 1,08 |- 1,26 intervalo fechado à esquerda (pertencem à classe
valores iguais ao extremo inferior) e aberto à direita (não
pertencem à classe valores iguais ao extremo superior).
4) não necessariamente o último número será o limite
superior da última classe, mas obrigatoriamente as classes
devem conter todos os elementos.
10
•-Algumas considerações ou conclusões:
--Quantos pacientes têm quantidade de creatinina no
intervalo de “x”? A resposta é dada através de f (frequência
absoluta simples). Ex.: Quantos pacientes têm quantidade
de creatinina no intervalo [1,44; 1,62)? R.: 32 pacientes.
15
--Quantos pacientes têm quantidade de creatinina inferior
ao intervalo “x”? A resposta é dada através de F↓ (frequência
absoluta acumulada “abaixo de”). Ex.: Quantos pacientes
têm quantidade de creatinina inferior ao intervalo [1,80;
1,98)? R.: 68 pacientes.
20
--Quantos pacientes têm quantidade de creatinina superior
ao intervalo “x”? A resposta é dada através de F↑ (frequência
absoluta acumulada “acima de”). Ex.: Quantos pacientes
têm quantidade de creatinina superior ao intervalo [1,80;
1,98)? R.: 5 pacientes.
25
Atenção: para dados agrupados ou distribuição de
frequências.
•-Elementos principais:
--classe: é cada um dos intervalos em que os dados são
agrupados;
69
Unidade II
--limites de classes: são os valores extremos de cada
classe:
• li = limite inferior de uma classe;
• Li = limite superior de uma classe;
5
--amplitude: é a diferença entre o maior valor e o
menor valor de certo conjunto de dados. Pode ser
referida ao total de dados ou a uma das classes em
particular:
• amplitude total (At): é calculada pela seguinte expressão:
10
At = Max. (rol) – Min.(rol);
• amplitude das classes (h): é a relação entre a amplitude
total e o número de classes, conforme mostra a expressão
a seguir:
Máx(rol) − Mín(rol)
, onde n é o número de intervalos de
n
classe;
h=
15
--ponto médio de classe (xi): é calculado pela seguinte
expressão:
xi =
20
Li + li
;
2
--frequência absoluta (fi): frequência absoluta de uma
classe de ordem i é o número de dados que pertencem a
essa classe;
--frequência relativa (fri): frequência relativa de uma classe
de ordem i é o quociente da frequência absoluta dessa
classe (fi) pelo total, ou seja,
70
ESTATÍSTICA
fi
.
Total
Obs.: a soma de todas as frequências absolutas é igual ao
total.
fri =
5
--frequência acumulada (Fi): frequência acumulada de
uma classe de ordem i, é a soma das frequências até a
classe de ordem i;
--frequência relativa acumulada (Fri): frequência relativa
acumulada de uma classe de ordem i, é a soma das
frequências relativas até a classe de ordem i.
5 AS MEDIDAS DE POSIÇÃO E VARIABILIDADE
EM UMA DISTRIBUIÇÃO DE FREQUÊNCIA
10
Vamos agora usar os conhecimentos obtidos no módulo 4
para aprender a calcular as medidas de posição e variabilidade
em uma distribuição de frequência.
Ao longo deste módulo, continuaremos utilizando o mesmo
exemplo que trabalhamos no módulo 4, da distribuição de
15 frequência das idades dos alunos formandos em serviço social
de uma Universidade fictícia AB.
Idade de 100 estudantes formandos do curso de serviço social
de uma Universidade AB em dez/2008
Idade
Número de estudantes
20 a 22
8
22 a 24
10
24 a 26
12
26 a 28
20
28 a 30
17
30 a 32
15
32 a 34
9
34 a 36
5
36 a 38
3
38 a 40
1
Total = 100
71
Unidade II
Podemos, ao longo deste módulo, aproveitar uma série de
informações que construímos a partir dos dados brutos que
tínhamos no módulo 4, tal como disposto na tabela abaixo, e,
partindo destas informações, construir as medidas de posição e
5 variabilidade para uma distribuição de frequência.
Tabela 5.1
Classes
ƒi
ƒi, A
ƒi, R
20 |- 22
8
8
0,08
22 |- 24
10
18
0,10
24 |- 26
12
30
0,12
26 |- 28
20
50
0,20
28 |- 30
17
67
0,17
30 |- 32
15
82
0,15
32 |- 34
9
91
0,09
34 |- 36
5
96
0,05
36 |- 38
3
99
0,03
38 |- 40
1
100
0,01
Σ
100
1
5.1 As medidas de posição
5.1.1 A média
No módulo 2, como trabalhávamos com um conjunto de
dados pequeno, para calcular a média deste grupo de números,
era necessário organizá-los em um rol, identificar os valores de
xi, fazer o somatório e então calcular a média a partir da fórmula
10 apresentada.
No entanto, quando temos uma distribuição de frequências,
nem sempre dispomos dos valores de todas as observações,
ou a amostra é, por vezes, tão grande que não é viável fazer o
cálculo da mesma maneira que fazemos quando os dados estão
15 dispostos em um rol. Geralmente, quando estamos diante de
uma distribuição de frequência, o que dispomos é do número
72
ESTATÍSTICA
de observações em cada classe, mas não dispomos dos valores
em si de xi. Portanto, as observações em uma dada distribuição
de frequência serão representadas pelo ponto médio de cada
classe. A fórmula para o cálculo do ponto médio será:
5
Pmedio = Xi =
Limiteinf erior + Limitesup erior
2
Para o cálculo da média aritmética usase uma fórmula que deriva da fórmula
de cálculo da média ponderada para
determinar a média de uma distribuição
de frequência; substituem-se os pesos
pelas frequências de classes, e xi pelo
ponto médio, representado por Xi.
Assim, temos que a média, numa distribuição de frequências,
é:
x=
∑ fiXi , onde
n
x : média aritmética da distribuição
de frequência;
ƒi: frequência absoluta simples;
Xi : ponto médio de cada classe;
n : número de observações.
No nosso exemplo de distribuição de frequência das
10 idades, podemos calcular a média a partir da construção de uma
nova tabela:
Tabela 5.2
Classes
ƒi
ƒi, A
ƒi, R
Xi
ƒi, Xi
20 |- 22
8
8
0,08
21
168
22 |- 24
10
18
0,10
23
230
24 |- 26
12
30
0,12
25
300
26 |- 28
20
50
0,20
27
540
28 |- 30
17
67
0,17
29
493
30 |- 32
15
82
0,15
31
465
32 |- 34
9
91
0,09
33
297
34 |- 36
5
96
0,05
35
175
36 |- 38
3
99
0,03
37
111
38 |- 40
1
100
0,01
39
39
Σ
100
1
2818
73
Unidade II
Calculando a média aritmética para o exemplo, onde n =
100, temos, então:
x=
∑ fiXi
n
(8.21) + (10.23) + (12.25) + (20.27) + (17.29) + (15.31) + (9.33) + (5.35) + (3.37) + 39
x=
100
168 + 230 + 300 + 540 + 493 + 465 + 297 + 175 + 111 + 39 2818
5 x=
=
100
100
x = 28,18.
A idade média dos estudantes de serviço social da
Universidade AB que se formaram no ano de 2008 seria de
28,18 anos de acordo com a distribuição de frequência aqui
10 construída.
5.1.2 A mediana
Em uma distribuição de frequências de uma variável contínua,
devem-se seguir alguns passos para calcular a mediana.
Como vimos também no módulo
2, a mediana é o elemento que ocupa
a posição central num determinado
conjunto de dados ordenados.
Da mesma forma que nos dados organizados em um rol,
precisamos primeiro identificar a posição da mediana. O primeiro
n
15 passo é calcular a ordem , e parte-se para a frequência
2
acumulada para identificar a classe que contém a mediana. Feito
isto, utiliza-se a seguinte fórmula para o cálculo da mediana:
n
( − ∑ f ).h
~
x =  MD
+ 2 inferior da classe da mediana;
MD: limite
n
F
n : tamanhoMD
da amostra;
( − ∑ f ).h
~
onde:
x =  MD + 2
∑ƒ: soma das frequências anteriores à da mediana;
FMD
h : amplitude da classe da mediana;
FMD: frequência da classe da mediana.
Para a distribuição de frequência, temos que seguir estes
20 passos para calcular a mediana.
74
ESTATÍSTICA
No exemplo anterior, calcular:
n 100
=
= 50 ;
2
2
• identificar a classe da mediana a partir da frequência
acumulada, procurando descobrir onde a observação de
número 50 está alocada. No nosso exemplo, ela estará
na quarta classe, que possui limite inferior de 26 e limite
superior de 28;
• primeiro calculamos
5
• calcular a mediana através de:
n
( − ∑ ƒ ).h
~
x =  MD + 2
, onde  MD = 26; n = 100; ∑ ƒ = 30;FMD = 20
FMD
10
~
x = 26 +
(50 − 30).2
= 26 + 2
20
~
x = 28.
A mediana de nossa distribuição de frequência será 28 anos,
ou seja, 50% dos alunos que se formaram em serviço social
nesta Universidade AB têm, no máximo, 28 anos.
5.1.3 A moda
15
Depois disso aplica-se a chamada fórmula de Czuber,
descrita abaixo, para o cálculo da moda, que nos dirá qual a
observação mais frequente daquela distribuição. O cálculo da
moda será:
Para calcular a moda, é preciso
identificar o intervalo de classes de
maior frequência, pois é nele que ela se
encontra.
Mod : valor da moda;
L1: limite inferior da classe modal;
D1: diferença entre a frequência da classe modal
D
Mod = L1 + ( 1 ).h , onde e a frequência da classe anterior;
D1+D2
D2 diferença entre a frequência da classe modal
e a frequência da classe posterior;
h: amplitude de classe.
75
Unidade II
Calculemos então a moda para a nossa distribuição de frequência
das idades dos alunos de serviço social da Universidade AB que se
formaram em 2008. A classe modal será a quarta classe, pois é
aquela que apresenta a maior frequência. Temos, então:
5


(20 − 12)
Mod = 26 + 
 .2
20
12
20
17
−
+
−
(
)
(
)


16
 8 
Mod = 26 + 
 .2 = 26 + = 27, 5
11
8+3
A moda seria, portanto, de 27,5 anos, o que significa que a
maior quantidade de alunos formando-se no curso de serviço
social desta universidade fictícia teria 27,5 anos.
5.2 As medidas de dispersão numa
distribuição de frequência
5.2.1 O desvio médio
10
No caso de uma distribuição de frequência, esta diferença
será calculada da seguinte forma:
Dmedio =
∑ Xi − x .fi , onde
n
Dmédio: desvio médio absoluto;
Xi: ponto médio de cada classe;
x: média da distribuição de frequência;
ƒi: frequência absoluta;
n: total de observações.
No nosso exemplo, temos, então:
Tabela 5.3
Classes
ƒi
20 |- 22
8
ƒi, Xi
Xi - x
|x - x |. ƒ
8
0,08
21
168
-7,18
57,44
i
i
22 |- 24
10
18
0,10
23
230
-5,18
51,8
24 |- 26
12
30
0,12
25
300
-3,18
38,16
26 |- 28
20
50
0,20
27
540
-1,18
23,6
28 |- 30
17
67
0,17
29
493
0,82
13,94
30 |- 32
15
82
0,15
31
465
2,82
42,3
32 |- 34
9
91
0,09
33
297
4,82
43,38
34 |- 36
5
96
0,05
35
175
6,82
34,1
36 |- 38
3
99
0,03
37
111
8,82
26,46
38 |- 40
1
100
0,01
39
39
10,82
10,82
Σ
100
��
76
Xi
ƒi, A ƒi, R
1
Recapitulando o módulo 3, o desvio
médio indica a diferença entre cada
observação e a média aritmética de um
determinado conjunto de dados.
2818
342
ESTATÍSTICA
Dmedio =
Dmedio =
∑ Xi − x .fi
n
342
= 3, 42
100
Logo, o desvio médio de nossa distribuição de frequência será
de 3,42. A média, a diferença da idade de cada formando em relação
5 à média aritmética da distribuição das idades será de 3,42.
5.2.2 Variância
Como vimos no módulo 3, a variância também é uma medida
de dispersão que tem a média como ponto de referência.
Quando se trata de uma distribuição de frequência de dados
populacionais, temos:
10 σ2 = ∑
2
( Xi − µ) fi
N
onde:
A variância nos indica o grau de
variabilidade de uma determinada
distribuição de frequência com relação
a sua média aritmética.
σ2: variância populacional;
Xi: ponto médio de cada classe;
µ: média populacional;
ƒi: frequência absoluta simples;
N: tamanho da população.
Para o caso da variância de valores amostrais, devemos
usar:
s2 =
∑ ( Xi − x)2 fi
n −1
onde:
s2: variância amostral;
Xi: ponto médio de cada classe;
x: média aritmética amostral;
ƒi: frequência absoluta simples;
n: total de observações da
amostra.
No caso da distribuição de frequência das idades, é preciso
15 acrescentar mais duas colunas à tabela para calcular, no nosso
exemplo, a variância amostral:
77
Unidade II
∑ ( Xi − x)2 fi
s2 =
n −1
Tabela 5.4
Classes
ƒi
ƒi, A
ƒi, R
Xi
ƒi, Xi
Xi - x
|x - x |. ƒ
(Xi - x)2
(Xi - x)2 ƒi
20 |- 22
8
8
0,08
21
168
-7,18
57,44
51,5524
412,42
22 |- 24
10
18
0,10
23
230
-5,18
51,8
26,8324
268,32
24 |- 26
12
30
0,12
25
300
-3,18
38,16
10,1124
121,35
26 |- 28
20
50
0,20
27
540
-1,18
23,6
1,3924
27,85
28 |- 30
17
67
0,17
29
493
0,82
13,94
0,6724
11,43
30 |- 32
15
82
0,15
31
465
2,82
42,3
7,9524
119,28
32 |- 34
9
91
0,09
33
297
4,82
43,38
23,2324
209,09
34 |- 36
5
96
0,05
35
175
6,82
34,1
46,5124
232,56
36 |- 38
3
99
0,03
37
111
8,82
26,46
77,7924
233,38
38 |- 40
1
100
0,01
39
39
10,82
10,82
117,0724
117,07
Σ
100
��
1
2818
Assim, temos:
s2 =
1752, 25
= 17, 60 .
100 − 1
Logo, a variância amostral de nosso exemplo é 17,60.
5.2.3 Desvio padrão
5
Para calcular o desvio padrão, basta extrair a raiz quadrada do
valor da variância, seja ela variância populacional ou variância
amostral:
σ = σ2 .
Já o desvio padrão amostral será dado como segue:
10
78
s = s2 .
i
i
342
1752,25
ESTATÍSTICA
No exemplo acima, o nosso desvio padrão seria, então:
s = 17, 60 = 4,1952 .
Exemplo 1: consideremos a distribuição relativa a 34
famílias de quatro filhos, tomando para variável o número de
5 filhos do sexo masculino:
Nº de
meninos
(xi)
ƒi
0
2
(0-2,3)=-2,3 (-2,3)2=5,29
2(5,29)=10,58
1
6
(1-2,3)=-1,3 (-1,3)2=1,69
6(1,69)=10,14
2
10
(2-2,3)=-0,3 (-0,3)2= 0,09 10(0,09)=0,9
3
12
(3-2,3)=0,7
(0,7)2= 0,49
12(0,49)=5,88
4
4
(4-2,3)=1,7
(1,7)2=2,89
4(2,89)=11,56
(xi - x)
Σƒ = 34
i
ƒi(xi - x)2
(xi - x)2
Σƒ (x - x) = 39,06
i
i
2
Lembrando: em estatística, um
histograma é uma representação gráfica
da distribuição de frequências de um
conjunto de medições, normalmente
um gráfico de barras verticais.
O histograma é um gráfico composto
por retângulos justapostos, e a base de
cada um deles corresponde ao intervalo
de classe e a sua altura à respectiva
frequência. Quando o número de dados
aumenta indefinidamente e o intervalo
de classe tende a zero, a distribuição de
frequência passa para uma distribuição
de densidade de probabilidades. A
construção de histogramas tem caráter
preliminar em qualquer estudo e é um
importante indicador da distribuição
de dados. Pode indicar se uma
distribuição aproxima-se de uma função
normal, como pode indicar mistura de
populações quando se apresentam
bimodais.
Informações técnicas sobre como
elaborar um histograma, bem como
sua interpretação, são encontradas em
literaturas clássicas de estatística.
Calcule a amplitude, o desvio padrão (S), a variância (S2) e o
coeficiente de variação (cv).
Solução
Amplitude:
10
R= 4 – 0 = 4 meninos,
ou seja, a maior variação encontrada neste conjunto de
dados é de quatro meninos.
Obs.: sabemos que a média para este conjunto de dados é
x = 2,3 filhos.
79
Unidade II
Desvio padrão:
n
s=
∑ ƒi(xi − x)2
i=1
n −1
=
ƒ1( x1 − x )2 + ƒ2 ( x2 − x )2 + ... + ƒn( xn − x )2
=
n −1
=
2(0 − 2, 3)2 + 6(1 − 2, 3)2 + 10(2 − 2, 3)2 + 12(3 − 2, 3)2 + 4(4 − 2, 3)2
=
34 − 1
=
2( −2, 3)2 + 6( −1, 3)2 + 10( −0, 3)2 + 12(0, 7)2 + 4(17
, )2
=
33
5 =
2(5, 29) + 6(1, 69) + 10(0, 09) + 12(0, 49) + 4(2, 89)
=
33
=
10, 58 + 10,14 + 0, 9 + 5, 88 + 11, 56
=
33
=
39, 06
= 11836
,
≅ 1, 088 ≅ 1 filho ,
33
ou seja, o número médio de filhos homens por família
de quatro filhos é de 2,3, com uma variabilidade de,
10 aproximadamente, um filho, ou seja, a maior parte das famílias
com quatro filhos têm entre
2,3 + 1 = (1,3 e 3,3) ≅ (1 e 3) filhos homens.
Variância:
S2 = (S)2 = (1,008)2 ≅ 1,1837 (filhos homens)2.
15
Coeficiente de variação:
S 1, 088
=
≅ 0, 4730
, ou seja, existe uma variabilidade
2, 3
x
de 47,30% dos dados em relação à média (variabilidade alta).
cv =
80
ESTATÍSTICA
Exemplo 2: considere a seguinte distribuição de frequência
referente aos salários de operários de uma determinada
fábrica:
Custos R$
Classes de fr.
Pm (xi)
ƒi
(xi - x)
(xi - x)2
ƒi(xi - x)2
450 |- 550
500
8
(500-754,68)=-254,68
(-254,68)2 = 64861,90
8(64861,90)= 518895,2
550 |- 650
600
10
(600-754,68)=-154,68
(-154,68)2 = 23925,90
10(23925,90)=239259,0
650 |- 750
700
11
(700-754,68)=-54,68
(-54,68)2 = 2989,90
11(2989,90)=32888,9
750 |- 850
800
16
(800-754,68)=45,32
(45,32)2 = 2053,90
16(2053,90)=32862,4
850 |- 950
900
13
(900-754,68)=145,32
(145,32)2 = 21117,90
13(21117,90)=274532,7
950 |- 1050
1000
5
(1000-754,68)=245,32
(245,32)2 = 60181,90
5(60181,90)=300909,5
1050 |- 1150
1100
1
(1100-754,68)=345,32
(345,32)2 = 119245,90
1(119245,90)=119245,9
Total
64
Σƒ (x - x) = 1518593,6
i
i
2
Calcule a amplitude, o desvio padrão (S), a variância (S2) e o
5 coeficiente de variação (cv).
Solução
Amplitude:
R= 1150 – 450 = 700,
ou seja, a maior diferença existente entre os salários dos
10 operários desta determinada fábrica é de R$ 700,00.
Obs.: sabemos que a média para este conjunto de dados é
x = 754,69 reais.
81
Unidade II
Desvio padrão:
n
s=
=
∑ ƒi(xi − x)2
i=1
n −1
=
ƒ1( x1 − x )2 + ƒ2 ( x2 − x )2 + ... + ƒn( xn − x )2
=
n −1
8(500 − 754, 68)2 + 10(600 − 754, 68)2 + 11700
( − 754, 68)2 + 16(800 − 754, 68)2 + 13(900 − 754, 68)2 + 5(1000 − 754, 68)2 + 11100
( − 754, 68)2
=
64 − 1
8( −254, 68)2 + 10( −154, 68)2 + 11( −54, 68)2 + 16(45, 32)2 + 13(145, 32)2 + 5(245, 32)2 + 1345
( , 32)2
=
=
63
(
, 90) + 16(2053, 90) + 13(21227, 90) + 5(60181, 90) + 1119245
(
, 90)
5 = 8(64861, 90) + 10(23925, 90) + 112989
=
63
=
518895, 2 + 239259, 0 + 32888, 90 + 32862, 40 + 274532, 70 + 300909, 5 + 119245, 90
1518593, 60
≅
=
63
63
= 24104, 66 ≅ 155, 26 (reais) ,
ou seja, a média dos salários é de R$754,68, com uma
variabilidade de aproximadamente R$155,26, ou seja, a maior
10 parte dos operários recebe entre 754,68 + 155,26 = (599,42 e
909,94) reais.
Variância:
S2 = (S)2 = (155,26)2 ≅ 24104,66 (reais)2.
Coeficiente de variação:
15
82
S 155, 26
=
≅ 0, 2057
, ou seja, existe uma variabilidade
x 754, 68
de 20,57% dos dados em relação à média.
cv =
ESTATÍSTICA
6 CORRELAÇÃO E REGRESSÃO LINEAR
6.1 Introdução
Após uma coleta de dados referentes a duas ou mais
variáveis para uma mesma amostra, é comum tentar estabelecer
uma relação matemática entre estas variáveis. Deve-se então
proceder à avaliação da existência de associação entre estas
5 duas características quantitativas:
Se duas variáveis quantitativas variam juntas, diz-se que as
mesmas estão correlacionadas.
Tecnicamente,
o
pesquisador
parte de hipóteses sobre o estudo em
questão; por exemplo:
Existe associação entre a quantidade
de chumbo presente na água e o volume
de dejetos despejados em determinado
rio?
O nível de pressão arterial está
relacionado à idade das pessoas?
Qual a relação entre o consumo de
bens e a inflação?
Exemplos de dados correlacionados:
• idade e altura das crianças;
10
• tempo de prática de esportes e ritmo cardíaco;
• tempo de estudo e nota na prova;
• taxa de desemprego e taxa de criminalidade;
• expectativa de vida e taxa de analfabetismo.
A primeira providência para se determinar a relação é construir
15 um gráfico em um sistema de coordenadas retangulares, obtendo
então o que normalmente é chamado de diagrama de dispersão.
Pelo diagrama, muitas vezes, é possível visualizar a curva
que melhor se aproxima dos pontos da distribuição. Tomemos
por exemplo as distribuições abaixo:
a)
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
83
Unidade II
b)
5
4
3
2
1
-1
0
-0,5 0
-1
0,5
1
1,5
2
2,5
3
3,5
4
2,5
3
3,5 4 x
2,5
3
-2
c)
y
11
10
9
8
7
6
5
4
3
2
1
0
-1,5 -1 -0,5 -1 0 0,5
-2
1
1,5
2
d)
y
6,0
5,0
4,0
3,0
2,0
1,0
0,0
84
0
0,5
1
1,5
2
3,5
4 x
ESTATÍSTICA
Através da matemática, pode-se reconhecer que, nestes
gráficos:
a) não há previsão da curva aproximada;
b) a curva aproximada é uma parábola (y = ax2 + bx + c);
5
c) a curva aproximada é uma reta (y = ax + b);
d) a curva aproximada é uma hipérbole (y = a/x + b).
O processo de ajustamento de uma distribuição de variáveis a
uma curva é denominado regressão. A relação matemática entre
as variáveis pode ser obtida em função de x ou em função de y.
10
A equação de y em função de x, y = f(x) é denominada
equação de regressão de y sobre x, e a equação de x em função
de y, x = f(y) é denominada equação de regressão de x sobre y.
É aconselhável obter as duas equações e verificar qual delas
é a de melhor ajuste.
15
As duas formas também são interessantes quando se deseja
interpolar, isto é, dado um valor (fora da tabela) de x, calcular o
valor de y a ele associado ou, quando dado um valor de y (fora
da tabela), determinar um valor de x associado a ele.
Tendo em vista os objetivos deste curso, analisaremos apenas
20 a regressão linear usando o método dos mínimos quadrados.
6.2 Coeficientes de correlação entre duas
variáveis
A avaliação quantitativa do ajuste das variáveis à equação
de uma curva se faz por um número, entre -1 e 1, denominado
coeficiente de correlação. Este coeficiente indica o grau em que as
duas variáveis se ajustam segundo uma equação matemática.
25
Definição: sejam x e y duas variáveis pesquisadas e y = f(x)
a equação ajustada ao conjunto de valores obtidos para x e y.
85
Unidade II
Define-se o coeficiente de correlação R entre as duas variáveis
por:
R=
∑( y esp − y )2
∑( y − y )2
Onde:
∑(yesp - y) denomina-se variação esperada;
5
∑(y - y) denomina-se variação total;
yesp
são os valores de y calculados a partir da relação
matemática determinada para as duas variáveis, e
y é a média dos valores tabelados para y.
A expressão acima pode também ser escrita na forma:
10
R2 = (variação esperada)/(variação total).
Os valores de R pertencem sempre ao intervalo [-1, 1].
Se R = 1 ou R = -1, as variáveis apresentam uma correlação
perfeita. À medida que R se aproxima de zero por valores
menores ou maiores que zero, as variáveis não apresentam
15 correlação.
Entretanto, é bom não confundir correlação com
dependência. Duas grandezas podem ter um ótimo grau
de correlação (próximo de –1 ou de + 1) e não apresentar
nenhuma dependência. Neste caso, a equação de regressão
20 não tem nenhuma validade.
Tomando, por exemplo, as variáveis X = eleitores que
escolheram um candidato, A e Y = eleitores fumantes
selecionados em uma mesma amostra, a tabela amostral pode
apresentar um alto grau de correlação, mas, provavelmente,
25 as duas variáveis não apresentam nenhuma relação de
dependência.
86
ESTATÍSTICA
6.3 Coeficiente de correlação linear
A definição do coeficiente de correlação apresentada no
item anterior pode ser usada para qualquer curva de regressão.
Entretanto, no seu uso, é necessário determinar a equação dessa
curva antes de calcular o coeficiente.
5
No caso específico de uma regressão linear, outras fórmulas
podem ser usadas. Entre elas, destacamos a fórmula de Pearson,
que é dada por
R=
n∑ xy − ∑ x ∑ y
[n∑ x − (∑ x ) ].[ n∑ y − ( ∑ y ) ]
2
2
2
2
,
onde n é o número de pares de observações.
10
Os limites de R são –1 e +1, ou seja –1 < R < 1, R pertence
ao intervalo [-1, +1].
Se:
R = +1, a correlação linear entre X e Y é perfeita positiva.
R = -1, a correlação linear entre X e Y é perfeita negativa.
15
R = 0, não existe correlação linear entre X e Y.
Geralmente, estabelece-se uma classificação para a
intensidade da correlação linear, ou seja, qual é a qualidade do
ajuste dos dados à reta de regressão. A classificação é assim
constituída:
20
0 < | R | < 0,3, correlação muito fraca, provavelmente a
relação matemática se afasta dos dados.
0,3 < | R | < 0,6, correlação relativamente fraca.
0,6 < | R | < 1, dados fortemente correlacionados.
87
Unidade II
A tabela a seguir mostra os dados coletados para as variáveis
x e y, bem como os elementos necessários para o cálculo do
coeficiente de correlação linear.
x
Somas
r=
y
x*y
x^2
y^2
1
3
3
1
9
2
4,8
9,6
4
23,04
3
7,1
21,3
9
50,41
4
9
36
16
81
5
10,9
54,5
25
118,8
6
13,2
79,2
36
174,2
21
48,0
203,6
91
456,50
n=6
6 * 203, 6 − 21 * 48
(6 * 91 − 21 * 21) * (6 * 456, 5 − 48, 48)
= 0,999452
O valor do coeficiente de correlação linear é r = 0,999452.
Como r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente
correlacionadas. Ou seja, a reta de regressão linear terá
declividade positiva e apresentará um bom ajuste ao conjunto
de pontos da tabela.
10 Regressão linear
5
O processo de regressão linear consiste em determinar a
equação da reta que melhor se ajusta ao conjunto de pontos de
uma distribuição.
No processo de regressão linear, é aconselhável expressar:
15
20
88
• y em função de x, obtendo uma equação do tipo
y = ax + b. Nesse caso, x é a variável independente e y
é a variável dependente, isto é, y é estimado em função de
x. A equação obtida é denominada equação de regressão
de y sobre x. Usa-se essa equação quando se deseja
obter valores de y que correspondem a valores de x não
ESTATÍSTICA
constantes da tabela (interpolação – valores no intervalo
da tabela e extrapolação – valores fora do intervalo da
tabela);
• x em função de y obtendo uma equação do tipo x = cy
+ d. Para essa equação, y é a variável independente, e x,
a variável dependente. Deve ser usada quando se quer
determinar valores de x, quando são dados valores de y que
não constam na tabela. A equação obtida é denominada
equação de regressão de x sobre y.
5
10
Pode-se demonstrar que a reta, y = ax + b, que melhor se
ajusta a uma distribuição de valores x e y é tal que:
a=
n( ∑ xy ) − ( ∑ x ).( ∑ y )
b=
n( ∑ x2 ) − ( ∑ x )2
( ∑ y ).( ∑ x2 ) − ( ∑ x ).( ∑ xy ) .
n.( ∑ x2 ) − ( ∑ x )2
Para obter a equação de x em função de y, x = cy + d, as
expressões são semelhantes. Basta trocar x por y e y por x nas
15 expressões anteriores.
Este método é de grande valia na interpretação dos
dados estatísticos obtidos, além de possibilitar, dentro das
hipóteses estabelecidas para o assunto, uma previsão inicial de
comportamentos futuros.
20
Exemplo: determinar a equação da reta que melhor se ajusta
aos pontos da tabela:
x
y
1,0
3,01
2,1
5,21
3,0
7,01
3,5
8,01
3,8
8,61
3,9
8,81
4,0
9,01
6,0
13,01
89
Unidade II
Completando a tabela com os valores necessários para os
cálculos de a e de b, temos:
x
Somas
y
x^2
y^2
xy
1,0
3,01
1,00
9,0601
3,010
2,1
5,21
4,41
27,1441
10,941
3,0
7,01
9,00
49,1401
21,030
3,5
8,01
12,25
64,1601
28,035
3,8
8,61
14,44
74,1321
32,718
3,9
8,81
15,21
77,6161
34,359
4,0
9,01
16,00
81,1801
36,040
6,0
13,01
36,00
169,2601
78,060
27,30
62,68
108,31
551,6928
244,193
Calculando a e b, com n = 8 = números de pares:
5
a = (8*244,193 – 27,30*62,68)/(8*108,31 – 27,302) = 2.
b = (62,68*108,31 – 27,30*244,193)/(8*108,31 – 27,302) = 1,01.
Assim, a reta de regressão de y sobre x é y = 2x + 1,01.
6.4 Na prática
É interessante observar trabalhos publicados utilizando o
método em serviços sociais. Dois exemplos são apontados neste
10 trabalho.
1. Associação do índice CPO-D com indicadores
socioeconômicos e de provisão de serviços
odontológicos no Estado do Paraná, Brasil
Baldani,Márcia Helena
Vasconcelos, Ana Glória Godói
Antunes, José Leopoldo Ferreira
Disponível em: <http://www.scielo.br/scielo.php?script=sci_
arttext&pid=S0102-311X2004000100030>.
Este estudo ecológico investigou as associações entre cárie
15 dentária, indicadores socioeconômicos e de oferta de serviços
90
ESTATÍSTICA
odontológicos no Estado do Paraná, Brasil, para o ano de 1996. Dois
tipos de informações foram reunidos: 1) dados sobre prevalência de
cárie dentária (CPO-D aos 12 anos) para os municípios do Estado;
2) dados relativos às condições socioeconômicas e de oferta de
5 serviços odontológicos. Com base em análise de regressão linear
simples demonstrou-se correlação significativa entre o índice de
cárie dentária nos municípios e os vários indicadores sociais e
de oferta de serviços. Resultados da análise de regressão linear
múltipla apontaram que apenas um indicador de desigualdade
10 de renda permaneceu significativamente associado com cárie
dentária, demonstrando que as piores condições de saúde bucal
não podem ser dissociadas das disparidades de renda. Observou-se
correlação negativa significativa entre o CPO-D e a proporção
de população que recebe água fluorada, principalmente nos
15 municípios com piores indicadores de desigualdade de renda.
Nesse sentido, sublinha-se a importância desse benefício não só
como recurso para a redução dos níveis de cárie, como também
para atenuar o impacto das desigualdades socioeconômicas sobre
a prevalência de cárie dentária.
20
2. Homicídios e desigualdades sociais no Município de
São Paulo
Procure mais artigos em livros,
revistas e endereços eletrônicos! Veja
como esta ferramenta traz efetivamente
resultados a sua escolha profissional.
Vilma Pinheiro Gawryszewski1; Luciana Scarlazzari Costa2
Revista Saúde Pública vol.39 no.2 São Paulo Apr. 2005
A relação entre renda e mortalidade por violência vem sendo
estudada nos últimos anos. A Síntese de Indicadores Sociais
2002, lançada pelo IBGE, refere que o traço mais marcante da
25 sociedade brasileira é a desigualdade. O propósito do estudo
é testar a associação entre as taxas de homicídios e alguns
indicadores de saúde e socioeconômicos.
Estudo ecológico, de corte transversal. Foram analisados
dados do Município de São Paulo, ano 2000, quanto a coeficientes
30 de homicídios e cinco indicadores: taxa de mortalidade infantil,
renda média do chefe de família, percentual de adolescentes
Secretaria de Saúde do Estado de São Paulo. São Paulo, SP, Brasil.
Departamento de Epidemiologia. Faculdade de Saúde Pública.
Universidade de São Paulo. São Paulo, SP, Brasil.
1
2
91
Unidade II
de 15 a 17 anos que não frequentavam a escola, percentual de
adolescentes grávidas de 14 a 17 anos e densidade demográfica.
Para testar essas associações foram utilizados o coeficiente de
correlação de Pearson e a regressão linear múltipla.
5
O coeficiente de homicídios foi 57,3/100.000. A correlação
entre taxas de homicídios e renda média foi negativa e forte
(r=-0,65). Maiores coeficientes foram encontrados nos distritos
com menor renda e menores naqueles com maiores rendas.
Para o percentual de adolescentes que não frequentavam a
10 escola (r=0,68) e para o percentual de adolescentes grávidas
(r=0,67) a associação encontrada foi positiva e forte. Para a
taxa de mortalidade infantil a correlação encontrada foi r=0,24
(para todos p<0,05). A densidade demográfica não apresentou
correlação significativa com o coeficiente de homicídios. Na
15 análise de regressão linear múltipla foram significativas somente
as variáveis renda média (negativa), trabalhada com o seu
logaritmo e percentual de adolescentes que não frequentavam
a escola (positiva) (para ambos indicadores: p<0,01).
Os achados apontam para o problema dos homicídios e sua
20 relação com as disparidades socioeconômicas do Município
de São Paulo. O desenvolvimento econômico e a redução
das iniquidades podem ter impacto nas taxas de mortalidade
violenta.
Referências bibliográficas
BRUNI, A. L. Estatística aplicada à gestão empresarial. 2. ed. São
Paulo: Atlas, 2008.
CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009.
DOWNING, D. ; CLARK, J. Estatística aplicada. São Paulo:
Saraiva, 2000.
92
Download