Estatística

Propaganda
Profa. Regina Maria Sigolo Bernardinelli
Estatística
Gestão Financeira / Gestão de Recursos
Humanos / Logística / Marketing
REGINA MARIA SIGOLO BERNARDINELLI
ESTATÍSTICA
Ensino a Distância — E a D
Revisão 09/2008
LISTA DE FIGURAS
Figura
1.
Classificação de uma Variável
9
Gráfico
1.
Setores
16
Gráfico
2.
Colunas
16
Gráfico
3.
Histograma
17
Gráfico
4.
Polígono de Freqüências
18
Gráfico
5.
Curva Normal
41
Gráfico
6.
Probabilidade
42
Gráfico
7.
Normal Padrão ou Normal Reduzida
42
Figura
2.
Intervalo de Confiança – Média Populacional
49
Gráfico
8.
Correlação Linear Positiva
55
Gráfico
9.
Correlação Linear Negativa
55
Gráfico
10.
Correlação Nula
56
LISTA DE TABELAS
Tabela
1.
Informações de Questionário Estudantil – Dados Brutos
10
Tabela
2.
Variável Sexo
11
Tabela
3.
Variável Toler
12
Tabela
4.
Variável Idade
12
Tabela
5.
Variável Peso
13
Tabela
6.
Variável TV
14
Tabela
7.
1ª Lista de Exercícios – Exercício 3
19
Tabela
8.
1ª Lista de Exercícios – Exercício 5
20
Tabela
9.
1ª Lista de Exercícios – Exercício 7
21
Tabela
10.
1ª Lista de Exercícios – Exercício 8
21
Tabela
11.
1ª Lista de Exercícios – Exercício 9
22
Tabela
12.
Exemplo 1 – Variável Idade
26
Tabela
13.
Exemplo 2 – Variável Peso
27
Tabela
14.
Exemplo 1 – Variável Idade
32
Tabela
15.
Exemplo 2 – Variável Peso
33
Tabela
16.
2ª Lista de Exercícios – Exercício 4
34
Tabela
17.
2ª Lista de Exercícios – Exercício 7
35
Tabela
18.
Exemplo 1 – Correlação Linear
56
Tabela
19.
Exemplo 1 – Correlação Linear
57
Tabela
20.
Exemplo 2 – Correlação Linear
58
Tabela
21.
Exemplo 2 – Correlação Linear
59
Tabela
22.
3ª Lista de Exercícios – Exercício 11
62
Tabela
23.
Normal Padrão
63
1
SUMÁRIO
APRESENTAÇÃO
1
1.
INTRODUÇÃO
2
2.
NOÇÕES BÁSICAS
3
2.1.
Arredondamento de Dados
3
2.2.
População e Amostra
4
2.2.1.
População
4
2.2.2.
Amostra
4
2.2.3.
A Escolha da Amostra
4
3.
ORGANIZAÇÃO DE DADOS
7
3.1.
Tipos de Variáveis
8
3.1.1.
Variáveis Qualitativas
8
3.1.1.1.
Variável Qualitativa Nominal
8
3.1.1.2.
Variável Qualitativa Ordinal
8
3.1.2.
Variáveis Quantitativas
8
3.1.2.1.
Variáveis Quantitativas Discretas
9
3.1.2.2.
Variáveis Quantitativas Contínuas
9
3.2.
Distribuição de Freqüências
11
3.2.1.
Exemplos
11
3.2.1.1.
Tabela de Freqüência para a Variável Sexo
11
3.2.1.2.
Tabela de Freqüência para a Variável Toler
12
3.2.1.3.
Tabela de Freqüência para a Variável Idade
12
3.2.1.4.
Tabela de Freqüência para a Variável Peso
13
3.2.1.5.
Tabela de Freqüência para a Variável TV
14
4.
GRÁFICOS ESTATÍSTICOS
15
4.1.
Gráfico de Setores ou Disco ou Pizza ou Diagrama Circular
15
4.2.
Gráfico de Colunas ou Barras
16
4.3.
Histograma
17
4.4.
Polígono de Freqüências
17
4.5.
1ª Lista de Exercícios
18
5.
MEDIDAS
23
5.1.
Medidas de Posição
23
5.1.1.
Medidas de Posição para um Conjunto de Dados
23
5.1.1.1.
Média Aritmética ou simplesmente Média ( x )
23
5.1.1.2.
Mediana (md)
24
5.1.1.3.
Moda (mo)
25
5.2.
Medidas de Dispersão
28
5.2.1.
Medidas de Dispersão para um Conjunto de Dados
28
5.2.1.1.
Amplitude Total (R)
29
5.2.1.2.
Variância ( σ 2 (população ) ou S 2 (amostra) )
29
5.2.1.3.
Desvio Padrão ( σ (população ) ou S (amostra) )
30
5.2.1.4.
Coeficiente de Variação ( CV )
31
5.3.
2ª Lista de Exercícios
33
6.
PROBABILIDADES
37
6.1.
Definições
37
6.1.1.
Fenômeno Determinístico
37
6.1.2.
Fenômeno Aleatório ou Probabilístico
37
6.1.3.
Espaço Amostral (S)
38
6.1.4.
Evento (E)
38
6.1.5.
Probabilidade
38
6.2.
Propriedades
39
6.3.
Outras Definições
39
6.3.1.
Variável Aleatória Discreta
39
6.3.2.
Função Discreta de Probabilidade
39
6.3.3.
Variável Aleatória Contínua
40
6.3.4.
Função Contínua de Probabilidade
40
7.
VARIÁVEIS ALEATÓRIAS CONTÍNUAS
41
7.1.
Modelo Normal ou Distribuição Normal
41
7.1.1.
Gráfico
41
8.
ESTIMAÇÃO
45
8.1.
Estimação por Intervalo
45
8.1.1.
Intervalo de Confiança para a Média Populacional (variância
46
conhecida)
8.1.2.
Intervalo de Confiança para a Proporção
50
8.1.3.
Intervalo de Confiança para a Média Populacional (variância
51
desconhecida)
9.
CORRELAÇÃO
54
9.1.
Correlação Linear Simples
54
9.1.1.
Coeficiente de Correlação de Pearson
54
9.1.2.
Correlação Linear Positiva
55
9.1.3.
Correlação Linear Negativa
55
9.1.4.
Correlação Nula
56
9.2.
3ª Lista de Exercícios
60
9.3.
Respostas – Listas de Exercícios
64
9.3.1.
1ª Lista de Exercícios
64
9.3.2.
2ª Lista de Exercícios
65
9.3.3.
3ª Lista de Exercícios
66
REFERÊNCIAS
67
74
1
APRESENTAÇÃO
Esta apostila reúne os principais tópicos de Estatística, de forma condensada e
objetiva, com a finalidade de orientar o aluno do CURSO SEMIPRESENCIAL no
desenvolvimento do conteúdo dessa disciplina.
Em sua elaboração não tive a pretensão de demonstrar as diversas fórmulas
matemáticas nela existentes, mas sim, de mostrar suas aplicações nos diversos assuntos
abordados.
É, portanto, um guia indispensável para acompanhar as aulas BREEZE.
A disciplina ESTATÍSTICA tem, por objetivo, fornecer ao aluno subsídios que o
auxiliem nas demais disciplinas do CURSO SEMIPRESENCIAL, bem como desenvolverlhe a capacidade de utilizar os diversos métodos estatísticos e raciocínio necessário para
interpretação e análise de pesquisas na área a que se destina.
Profª. Regina Maria Sigolo Bernardinelli
2
1. INTRODUÇÃO
A palavra “estatística”, de origem latina, significou por muito tempo “ciência dos
negócios do Estado”. Os que governavam, sentindo necessidade de informações,
organizavam departamentos que tinham a responsabilidade de fazer essas investigações.
As sociedades modernas acumulam grande quantidade de dados numéricos relativos a
eventos sociais, econômicos, científicos, esportivos etc.
Desse modo notamos que o uso da pesquisa é bastante comum nas várias atividades
humanas.
Exemplos:
1º) O índice de analfabetismo no Brasil.
2º) A mortalidade infantil no Nordeste brasileiro.
3º) A porcentagem de crianças vacinadas na última campanha de vacinação.
4º) A pesquisa realizada pelas indústrias, entre os consumidores, para o lançamento de um
novo produto.
5º) As pesquisas eleitorais, fornecendo elementos para que os candidatos direcionem suas
campanhas.
6º) As pesquisas utilizadas pelas emissoras de TV, mostrando a preferência dos espectadores,
para organizar sua programação.
A realização de uma pesquisa envolve muitas etapas como: a escolha da amostra, a
coleta e a organização dos dados, o resumo e a apresentação desses dados, e também a
interpretação dos resultados para a obtenção de conclusões e tomada de decisões razoáveis.
Todas essas etapas são trabalhadas com métodos científicos pela Estatística.
O tratamento estatístico de um conjunto de dados pode envolver dois processos
distintos, isto é, a descrição dos dados e o estabelecimento de conclusões sobre a população a
partir dos dados obtidos por amostragem. Para tanto, temos:
Estatística Descritiva: utiliza métodos numéricos e gráficos para mostrar os padrões de
comportamento dos dados, para resumir a informação contida nesses dados e para apresentar
a informação de forma conveniente.
Inferência Estatística: utiliza dados de amostras para obter estimativas sobre a população.
3
2. NOÇÕES BÁSICAS
2.1. ARREDONDAMENTO DE DADOS
De acordo com a Fundação IBGE (Instituto Brasileiro de Geografia e Estatística), o
arredondamento é feito da seguinte forma:
a) Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3, ou 4, fica inalterado o último
algarismo a permanecer.
Exemplo: aproximação de uma casa decimal: 53,24 passa a 53,2.
b) Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade
o algarismo a permanecer.
Exemplos: aproximação de uma casa decimal: 42,87 passa a 42,9
25,08 passa a 25,1
53,99 passa a 54,0
c) Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
•
Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma
unidade ao algarismo a permanecer.
Exemplos: aproximação de uma casa decimal: 2,352 passa a 2,4
25,6501 passa a 25,7
76,25002 passa a 76,3
•
Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser
conservado só será aumentado de uma unidade se for ímpar.
Exemplos: aproximação de uma casa decimal: 24,75 passa a 24,8
24,65 passa a 24,6
24,75000 passa a 24,8
24,6500 passa a 24,6
4
2.2. POPULAÇÃO E AMOSTRA
2.2.1. População: é o conjunto de todos os elementos envolvidos no fenômeno a ser
estudado.
2.2.2. Amostra: é o conjunto de elementos retirados da população para a realização do
estudo. É, portanto, um subconjunto da população.
Exemplos:
1º) Queremos obter informações sobre a audiência de certo programa de TV, na Grande São
Paulo.
População: é o conjunto de todos os domicílios da Grande São Paulo que possuem TV.
Amostra: é o conjunto dos domicílios que serão visitados.
2º) Estudar a procedência dos candidatos a uma certa universidade.
População: conjunto de todos os candidatos à referida universidade.
Amostra: conjunto dos candidatos que serão entrevistados.
3º) Queremos fazer um estudo sobre a idade dos alunos do curso de Publicidade e Propaganda
de uma determinada universidade.
População: todos os alunos do curso de Publicidade e Propaganda.
Amostra: uma classe do primeiro ano do curso de Publicidade e Propaganda.
Quando são obtidos dados de toda uma população, dizemos que foi feito um
recenseamento, e a este conjunto de dados damos o nome de censo.
Quando os dados são obtidos de parte da população, foi feita uma amostragem.
2.2.3. A Escolha da Amostra
Os métodos de escolha da amostra devem garantir a representatividade do grupo. É
necessário escolher, no mínimo, 10% do número total dos elementos da população e garantir
por meio de um critério de seleção, que nenhum elemento tenha maior chance de ser
escolhido do que outro. Desse modo, podemos recorrer a diferentes formas de amostragem:
amostragem aleatória simples, amostragem sistemática e amostragem estratificada
proporcional.
Vejamos o procedimento através de dois exemplos.
5
Exemplo 1: Suponhamos uma pesquisa sobre o nível de escolaridade de um grupo de
oitocenta pessoas. Vamos escolher uma amostra com no mínimo oitenta pessoas (10% de
800), selecionadas através de:
a) Amostragem Aleatória Simples: em primeiro lugar, elaboramos uma lista com os
oitocentos nomes dos elementos da população numerados de 1 a 800, para serem submetidos
a um sorteio. Bolas ou cartões, também numerados de 1 a 800, são colocados em uma urna e
bem misturados. Em cada etapa do sorteio, todo número ainda não escolhido tem a mesma
probabilidade de ser sorteado. Esse processo não é muito prático para grandes populações,
quando podemos então trabalhar com uma numeração de 0 a 9, sorteando os números por
meio de blocos de três algarismos e tomando o cuidado de repor na urna todo algarismo dela
retirado. Como temos dez algarismos, cada um deles tem
1
de probabilidade de aparecer
10
em determinada posição. Sempre que um bloco de algarismos indicar um elemento já
selecionado, ou um elemento que não exista na população, será descartado.
Suponhamos que os seguintes algarismos foram obtidos no sorteio:
2
4
3
5
6
4
7
2
0
0
3
5
8
1
1
0
0
5
1
9
8
6
4
3
5
2
4
7
8
9
7
7
6
5
4
2
2
3
0
1
2
1
1
6
7
8
9
1
0
3
4
5
6
7
2
2
8
8
1
9
0
0
6
0
7
2
1
0
5
6
4
3
Agrupando-os em blocos de três, teremos os números:
243
564
720
035
811
005
198
643
524
789
776
121
167
891
034
567
228
819
006
072
105
643.
542
230
Observem que devemos descartar 811, 891 e 819, porque não pertencem à população,
e 643 porque já foi selecionado.
Continuamos o sorteio, até completarmos os 80 elementos da amostra.
b) Amostragem Sistemática: sorteamos um número de 1 a 10, ao acaso. Supondo que tenha
sido obtido o número 6, ele será o primeiro elemento da amostra e os demais serão
determinados em intervalos de dez unidades. Nossa amostra, então, será:
6
16
26
36
46
56
66
76
86
96
106
...
796
Este tipo de amostragem é simples de ser realizado e, aconselhável no caso de
amostras muito grandes.
6
Exemplo 2: Na escola Sapequinha, quer fazer-se um estudo sobre o peso dos alunos de 7 anos
de idade. Existem 120 crianças na faixa de 7 anos de idade distribuídas em cinco classes, do
seguinte modo: a primeira série A tem 20 alunos com 7 anos, a primeira B tem 15, a C tem
35, a D, 30 e a E tem 20. Vamos escolher uma amostra com no mínimo 12 crianças (10% de
120), selecionadas através de:
c) Amostragem Estratificada Proporcional: sorteamos os nomes das crianças em quantidades
proporcionais ao número de crianças com 7 anos de cada classe, que constituem os estratos da
amostra. Vamos agora determinar a porcentagem de crianças com 7 anos, em cada classe, em
relação à população (120 crianças).
A:
120 → 100%⎫
20 ⋅ 100
⇒ a = 16,7%
⎬ ⇒ 120 ⋅ a = 20 ⋅ 100 ⇒ a =
20 → a
120
⎭
B:
120 → 100%⎫
15 ⋅ 100
⇒ b = 12,5%
⎬ ⇒ 120 ⋅ b = 15 ⋅ 100 ⇒ b =
15 → b
120
⎭
De modo análogo, determinamos as porcentagens para as classes C, D e E, obtendo:
C: c = 29,2%
D: d = 25%
E: e = 16,7%
Para calcularmos quantas crianças de cada classe serão sorteadas, para uma amostra de 12
crianças, fazemos:
A: 16,7% de 12 =
16,7
⋅ 12 = 0,167 ⋅ 12 = 2,004 = 2
100
B: 12,5% de 12 = 0,125 . 12 = 1,5 = 2
C: 29,2% de 12 = 0,292 . 12 = 3,504 =3 (neste caso, arredondamos para 3, ao invés de 4,
porque o total de crianças da amostra é 12).
D: 25% de 12 = 0,25 . 12 = 3
E: 16,7% de 12 = 0,167 . 12 = 2,004 = 2
Deste modo, obtivemos a quantidade de elementos de cada estrato e o total da amostra.
7
3. ORGANIZAÇÃO DE DADOS
Dado um conjunto de dados, vamos estudar como devemos “tratar” os valores,
numéricos ou não, a fim de extrair informações a respeito de uma ou mais características de
interesse.
Suponhamos, por exemplo, que um questionário foi aplicado a alunos do 1º ano de
uma escola fornecendo as seguintes informações:
Id: identificação do aluno
Turma: A ou B
Sexo: feminino (F) ou masculino (M)
Idade: em anos
Alt: altura em metros
Peso: em quilogramas
Filhos: nº de filhos na família
Fuma: hábito de fumar: sim (S) ou não (N)
Toler: tolerância ao cigarro: (I) indiferente; (P) incomoda pouco; (M) incomoda muito
Exerc.: horas de atividade física, por semana
Cine: nº. de vezes que vai ao cinema por semana
Op Cine: opinião a respeito das salas de cinema na cidade: (B) regular a boa; (M) muito boa
TV: horas gastas assistindo TV, por semana
Op TV: opinião a respeito da qualidade da programação na TV: (R) ruim; (M) média; (B)
boa; (N) não sabe.
O conjunto de informações, após a tabulação do questionário ou pesquisa de campo, é
denominado de tabela de dados brutos e contém os dados da maneira que foram coletados
inicialmente. (Tabela 1)
Cada uma das características perguntadas aos alunos, tais como o peso, a idade, a
altura, etc. é denominada de variável e, como podemos observar, tem naturezas diferentes
quanto aos possíveis valores que podem assumir.
3.1. TIPOS DE VARIÁVEIS
Existem dois tipos de variáveis: quantitativas (variáveis numéricas) e qualitativas
(variáveis não numéricas).
8
3.1.1. Variáveis Qualitativas
Seus valores representam uma qualidade (ou atributo) do indivíduo pesquisado.
Exemplos: sexo, turma, estado civil, grau de instrução, hábito de fumar etc.
Dentre as variáveis qualitativas, ainda existem dois tipos:
3.1.1.1. Variável Qualitativa Nominal
Não existe ordenação em seus possíveis resultados.
Exemplos: sexo, turma, hábito de fumar.
3.1.1.2. Variável Qualitativa Ordinal
Existe uma certa ordem em seus possíveis resultados.
Exemplos: tamanho (P, M, G); classe social (baixa, média, alta); grau de instrução (1º grau,
2º grau, grau superior); estado civil.
3.1.2. Variáveis Quantitativas
Seus valores são numéricos resultantes de uma contagem ou mensuração.
Exemplos: número de filhos, salário, peso, altura etc..
Dentre as variáveis quantitativas ainda existem dois tipos:
9
3.1.2.1. Variáveis Quantitativas Discretas
Seus possíveis valores formam um conjunto finito ou enumerável de números que
resultam freqüentemente de uma contagem.
Exemplos: número de filhos, idade (em anos), cine (número de vezes que vai ao cinema por
semana).
3.1.2.2. Variáveis Quantitativas Contínuas
Seus possíveis valores formam um intervalo de números reais que resultam
normalmente de uma mensuração.
Exemplos: peso, altura, salário.
ESQUEMA
Variável
Qualitativa
Nominal
Ordinal
Quantitativa
Discreta
Figura 1.: Classificação de uma Variável
Contínua
10
INFORMAÇÕES DE QUESTIONÁRIO ESTUDANTIL
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Turma
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
Sexo
F
F
M
M
F
M
F
F
F
F
F
F
F
M
F
F
F
M
F
F
F
F
F
F
F
F
F
F
F
F
F
M
F
F
M
F
M
M
F
M
F
F
M
F
F
F
F
F
M
M
Idade
17
18
18
25
19
19
20
18
18
17
18
18
21
19
18
19
17
18
20
18
21
18
18
20
20
19
23
18
18
25
18
17
17
17
18
18
17
21
18
18
17
23
24
18
18
19
19
18
17
18
Alt
1,60
1,69
1,85
1,85
1,58
1,76
1,60
1,64
1,62
1,64
1,72
1,66
1,70
1,78
1,65
1,63
1,82
1,80
1,60
1,68
1,70
1,65
1,57
1,55
1,69
1,54
1,62
1,62
1,57
1,65
1,61
1,71
1,65
1,67
1,73
1,60
1,70
1,85
1,70
1,73
1,70
1,45
1,76
1,68
1,55
1,70
1,55
1,60
1,80
1,83
Peso
60,5
55,0
72,8
80,9
55,0
60,0
58,0
47,0
57,8
58,0
70,0
54,0
58,0
68,5
63,5
47,4
66,0
85,2
54,5
52,5
60,0
58,5
49,2
48,0
51,6
57,0
63,0
52,0
49,0
59,0
52,0
73,0
56,0
58,0
87,0
47,0
95,0
84,0
60,0
73,0
55,0
44,0
75,0
55,0
49,0
50,0
54,5
50,0
71,0
86,0
Filho
2
1
2
2
1
3
1
1
3
2
1
3
2
1
1
3
1
2
1
3
2
1
1
1
2
2
2
1
2
4
1
1
3
1
1
1
1
1
1
1
1
2
2
1
1
7
2
1
1
1
Fuma
Não
Não
Não
Não
Não
Não
Não
Sim
Não
Não
Sim
Não
Não
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Sim
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Não
Toler
P
M
P
P
M
M
P
I
M
M
I
M
M
I
I
P
P
P
P
M
P
M
I
I
P
I
M
P
P
M
P
P
M
M
M
P
P
I
P
M
I
M
I
P
M
M
M
P
P
P
Exerc
0
0
5
5
2
2
3
2
3
2
10
0
6
5
4
0
3
3
3
7
8
0
5
0
8
6
8
1
3
1
2
1
2
4
7
5
10
6
5
4
5
2
7
5
0
0
4
2
7
7
Cine
1
1
2
2
2
1
1
2
3
2
2
2
1
1
1
1
1
4
2
2
2
3
4
1
5
2
2
1
1
2
2
1
1
2
1
1
2
4
2
1
4
2
0
1
1
1
3
1
0
0
OpCine
B
B
M
B
B
B
B
M
M
M
B
B
M
M
B
B
B
B
B
B
B
B
B
M
M
B
M
M
B
M
M
B
B
B
B
M
M
B
B
B
B
B
M
B
M
B
B
B
M
M
Tabela 1: Informações de questionário estudantil – dados brutos
TV
16
7
15
20
5
2
7
10
12
10
8
0
30
2
10
18
10
10
5
14
5
5
10
28
4
5
5
10
12
2
6
20
14
10
25
14
12
10
12
2
10
25
14
8
10
8
3
5
14
20
OpTV
R
R
R
R
R
R
R
R
R
R
N
R
R
N
R
R
N
R
R
M
R
R
R
R
N
R
R
R
R
R
N
R
R
R
B
R
N
R
R
R
B
R
N
R
R
R
R
R
R
B
11
3.2. DISTRIBUIÇÃO DE FREQÜÊNCIAS
A partir da tabela de dados brutos (Tabela 1), vamos construir uma nova tabela com
as informações resumidas, para cada variável, denominada tabela de freqüência, que conterá
os valores da variável e suas respectivas contagens, as quais são denominadas freqüências
absolutas ou simplesmente, freqüências.
No caso de variáveis qualitativas ou quantitativas discretas, a tabela de freqüência
consiste em listar os valores possíveis da variável, numéricos ou não e fazer a contagem na
tabela de dados brutos do número de suas ocorrências.
Notação: n i → freqüência do valor i
n → freqüência total = ∑ n i
Para efeito de comparação com outros grupos ou conjuntos de dados, é conveniente
n
trabalharmos com a freqüência relativa, definida por fi = i .
n
3.2.1. Exemplos:
3.2.1.1. Tabela de Freqüência para a Variável Sexo (extraída da Tabela 1):
Sexo
ni
n
fi = i
n
fi ⋅ 100 (%)
F
37
0,74
74
M
13
0,26
26
1,00
100
Total n=50
Sexo: variável qualitativa nominal.
Tabela 2: Variável Sexo
Note que, para variáveis cujos valores possuem ordenação natural (qualitativas
ordinais e quantitativas em geral), incluímos na tabela de freqüência uma coluna contendo as
freqüências acumuladas (fac) (quando o número de valores i for maior do que 2). A
freqüência acumulada até um certo valor é obtida pela soma das freqüências de todos os
valores da variável, menores ou iguais ao valor considerado.
12
3.2.1.2. Tabela de Freqüência para a Variável Toler (extraída da Tabela 1):
fi ⋅ 100 (%) fac (%)
Toler
ni
fac
n
fi = i
n
I
10
10
0,20
20
20
P
21
31
0,42
42
62
M
19
50
0,38
38
100
1,00
100
Total n = 50
Toler: variável qualitativa ordinal.
Tabela 3: Variável Toler
3.2.1.3. Tabela de Freqüência para a Variável Idade (extraída da Tabela 1):
Idade
fac
ni
n
fi = i
n
fi ⋅ 100 (%)
fac (%)
variável
quantitativa
discreta.
17
9
9
0,18
18
18
18
22
31
0,44
44
62
19
7
38
0,14
14
76
20
4
42
0,08
8
84
21
3
45
0,06
6
90
22
0
45
0,00
0
90
23
2
47
0,04
4
94
24
1
48
0,02
2
96
25
2
50
0,04
4
100
1,00
100
Total n = 50
Idade:
Observe através da fac que 90%
dos alunos têm idades até 21 anos.
Tabela 4: Variável Idade
A variável Peso, classificada como quantitativa contínua, apresenta valores que podem
ser qualquer número real num certo intervalo.
13
Pela Tabela 1, verificamos que os valores variam entre 44,0 kg e 95,0 kg e como
existe um grande número de valores diferentes, vamos construir faixas ou classes de valores
e contar o número de ocorrências em cada faixa.
Não existe uma regra formal para determinar o número de faixas ou classes a serem
utilizadas. Entretanto, deve-se observar que com um pequeno número de classes, perde-se
informação, e com um número grande de classes, o objetivo de resumir os dados fica
prejudicado. No geral, é conveniente trabalharmos com 5 a 8 faixas de mesma amplitude,
devendo ressaltar que faixas de tamanho desigual podem ser convenientes para representar
valores nas extremidades da tabela.
Para a variável Peso, usaremos faixas de amplitude 10 e iniciaremos com 40,0 kg.
3.2.1.4. Tabela de Freqüência para a Variável Peso (extraída da Tabela 1):
Peso
ni
fac
n
fi = i
n
fi ⋅ 100 (%)
40,0 ├─ 50,0
8
8
0,16
16
16
45,0
50,0 ├─ 60,0
22
30
0,44
44
60
55,0
60,0 ├─ 70,0
8
38
0,16
16
76
65,0
70,0 ├─ 80,0
6
44
0,12
12
88
75,0
80,0 ├─ 90,0
5
49
0,10
10
98
85,0
90,0 ├─ 100,0
1
50
0,02
2
100
95,0
Total
n = 50
1,00
100
fac (%) Ponto Médio
Tabela 5: Variável Peso
Peso: variável quantitativa contínua.
Observe pela fac que 76% dos alunos pesam menos que 70,0 kg e 100 – 88 = 12%
têm peso maior ou igual a 80,0 kg.
Na Tabela 5 temos 6 faixas ou classes ou intervalos. Consideremos, por exemplo, a 1ª
classe ou intervalo: 40,0 ├─ 50,0, onde temos:
Limite inferior (li): 40,0
Ponto Médio (PM) =
li + ls
2
(
40 + 50 90
=
= 45 )
2
2
14
Limite superior (ls): 50,0
Amplitude ou tamanho do intervalo (h): h = ls – li; (h = 50,0 – 40,0 = 10,0)
O símbolo ├─ : indica que o intervalo é fechado à esquerda e aberto à direita (40,0 faz parte
dessa classe, mas 50,0 não; 50,0 está na 2ª classe).
Na Tabela 1, a variável TV (quantitativa discreta) tem valores inteiros entre 0 e 30 e
uma tabela representando tais valores e respectivas freqüências seria muito extensa e pouco
prática. Por esse motivo, trataremos essa variável como quantitativa contínua, criando, por
exemplo, faixas de amplitude 6 para representar seus valores.
3.2.1.5. Tabela de Freqüência para a Variável TV (extraída da Tabela1):
TV
ni
fac
n
fi = i
n
fi ⋅ 100 (%)
fac (%)
TV:
variável
quantitativa
discreta que foi “tratada” como
0 ├─ 6
14
14
0,28
28
28
6 ├─ 12
17
31
0,34
34
62
12 ├─ 18
11
42
0,22
22
84
18 ├─ 24
4
46
0,08
8
92
24 ├─┤30
4
50
0,08
8
100
Total
n = 50
1,00
100
contínua.
Observe
que
na
última
classe, o intervalo é fechado à
esquerda e à direita, incluindo
Tabela 6: Variável TV
Portanto, o valor 30, e não tendo assim, que abrir mais uma classe por causa de um único
valor. Outra sugestão seria usar uma amplitude maior nessa última classe, por exemplo,
24 ├─ 36 que inclui o valor 30.
15
4. GRÁFICOS ESTATÍSTICOS
A organização dos dados em tabelas de freqüência proporciona um meio eficaz de
estudo do comportamento de características de interesse.
Muitas vezes, a informação contida nas tabelas pode ser mais facilmente visualizada
através de gráficos. Vamos definir quatro tipos básicos de gráficos: setores ou pizza, colunas
ou barras, histograma e polígono de freqüências.
4.1. GRÁFICO DE SETORES OU DISCO OU PIZZA OU DIAGRAMA CIRCULAR
Adapta-se muito bem às variáveis qualitativas, mas também pode ser usado para as
variáveis quantitativas discretas.
Fazendo uso do computador para o traçado do gráfico, basta conhecer as porcentagens
de cada valor da variável. Se ao contrário, formos traçar o gráfico com o auxílio de compasso
e transferidor, precisamos determinar a medida em graus, de cada setor correspondente aos
valores da variável, lembrando que o disco todo mede 360°.
Exemplo: Gráfico de Setores para a Variável Toler (Tabela 3)
I: 20%
P:42%
100% → 360°⎫
⎬ ⇒ 100 ⋅ x = 20 ⋅ 360
20% → x ⎭
x=
20 ⋅ 360
⇒ x = 72°
100
Procedemos de maneira análoga para os valores de P e M.
M: 38%
16
Gráfico de Setores: Variável Toler
I
20%
M
38%
P
42%
Gráfico 1: Setores
4.2. GRÁFICO DE COLUNAS OU BARRAS
Adapta-se melhor às variáveis discretas ou qualitativas ordinais.
Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as
freqüências ou porcentagens no eixo das ordenadas.
Exemplo: Gráfico de Colunas para a Variável Idade (Tabela 4)
Gráfico de Colunas: Variável
Idade
30
ni
20
22
10
0
9
7
4
3
Idade
Gráfico 2: Colunas
0
2
1
2
17
4.3. HISTOGRAMA
É utilizado para variáveis quantitativas contínuas.
Consiste em retângulos contíguos ou adjacentes onde a base, colocada no eixo das
abscissas, corresponde aos intervalos das classes e a altura, colocada no eixo das ordenadas é
dada pela freqüência absoluta ou relativa das classes.
Observação: a área de um histograma é proporcional à soma das freqüências absolutas. No
caso de trabalharmos com as freqüências relativas, a área será igual à constante de
proporcionalidade.
Exemplo: Histograma para a Variável Peso (Tabela 5)
Histograma: Variável Peso
25
22
20
ni
15
10
8
8
6
5
5
0
1
40,0
50,0
60,0
70,0
80,0
90,0
100,0
Peso
Gráfico 3: Histograma
4.4. POLÍGONO DE FREQÜÊNCIAS
É também utilizado para variáveis quantitativas contínuas.
Para construir o polígono de freqüências, admitem-se como representantes de cada
classe os pontos médios de cada intervalo que as definem. Após obter os pontos (ponto médio,
freqüência correspondente) em relação a cada intervalo, estes são ligados entre si por meio de
18
segmentos de retas, sendo que o primeiro e o último deles são ligados ao eixo das abscissas,
na metade de classes hipotéticas, imediatamente anterior à primeira e posterior à última.
Exemplo: Polígono de Freqüências para a Variável Peso (Tabela 5)
Polígono de Freqüências: Variável Peso
(55,0; 22)
25
ni
20
15
(75,0; 6)
10
5
(45,0; 8)
(85,0; 5)
(95,0; 1)
(65,0; 8)
0
40,0 50,0 50,0 60,0 60,0 70,0
70,0 80,0 80,0 90,0 90,0 100,0
Pe so
Gráfico 4: Polígono de Freqüências
4.5. 1ª Lista de Exercícios
1) Arredonde cada um dos numerais abaixo, conforme a precisão pedida:
a) para o décimo mais próximo:
23,40
234,7832
45,09
48,85002
78,85
12,35
120,4500
129,98
199,97
46,727
28,255
299,951
253,65
123,842
37,485
26,6
128,5
68,2
67,5
49,98
39,49
59
446,4
b) para o centésimo mais próximo:
c) para a unidade mais próxima:
d) para a dezena mais próxima:
42,3
19
265,31
265,0
265
295
302,7
2995,000
2) Na Escola São Leopoldo, para estudar a preferência em relação a refrigerantes, sortearamse 150 estudantes, entre os 1000 matriculados. Responda:
a) Qual é a população envolvida na pesquisa?
b) Que tipo de amostragem foi utilizado e qual é a amostra considerada?
3) A população envolvida em uma pesquisa sobre a incidência de cárie dentária em escolares
da cidade de Morro Grande é apresentada na Tabela 7:
Escola População
A
500
B
250
C
440
D
360
Total
1550
Tabela 7
Baseando-se nesses dados, estratifique uma amostra com 200 elementos.
4) Em uma cidade com 30.000 habitantes deseja-se fazer uma pesquisa sobre a preferência
por tipo de lazer entre pessoas de 20 anos de idade, levando em conta o sexo a que pertencem.
a) Qual a população envolvida na pesquisa?
b) Supondo que na cidade haja 5.500 mulheres e 6.000 homens com 20 anos, determine uma
amostra com 1.200 pessoas.
5) Em uma fábrica foram testadas 400 lâmpadas; a duração delas aparece na distribuição por
freqüência da Tabela 8:
20
Duração
Número de
(em horas)
lâmpadas
300 ├─ 400
14
400 ├─ 500
46
500 ├─ 600
58
600 ├─ 700
76
700 ├─ 800
68
800 ├─ 900
62
900 ├─ 1000
48
1000 ├─ 1100
22
1100 ├─ 1200
6
Total
400
Tabela 8
a) Complete a tabela dada com as demais colunas que você conhece.
b) Qual a amplitude de cada classe?
c) Qual o limite inferior da 3ª classe?
d) Qual o limite superior da 8ª classe?
e) Qual o ponto médio da 5ª classe?
f) Qual a freqüência relativa da 6ª classe?
g) Qual a porcentagem de lâmpadas com durabilidade máxima de 500 horas?
h) Qual a porcentagem de lâmpadas com durabilidade de 900 horas ou mais?
6) Com relação às variáveis: Turma, Alt, Filhos, Fuma, Exerc, Cine, Op Cine, Op TV, da
(Tabela 1)
a) Classifique essas variáveis.
b) Faça a distribuição de freqüência para cada uma delas.
c) A variável Exerc, poderia ser tratada de forma diferente com relação à sua classificação?
Justifique sua resposta e em caso afirmativo, construa a nova distribuição de freqüência.
21
d) Construa os gráficos que melhor se adaptam a cada uma das variáveis acima.
7) Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de
meses previstos de fisioterapia, se haverá (S) ou não (N) seqüelas após o tratamento e o grau
de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são
apresentados na Tabela 9:
Pacientes
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Fisioterapia
7
8
5
6
4
5
7
7
6
8
6
5
5
4
5
Seqüelas
S
S
N N
N
S
S
N N
S
S
N
S
N
N
Cirurgia
A M A M M B A M B M
B
B
M
M
A
Tabela 9
a) Classifique cada uma das variáveis.
b) Para cada variável, construa a tabela de freqüência e faça uma representação gráfica.
c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de barras para a
variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse
grupo?
8) Os dados da Tabela 10 referem-se ao salário (em salários mínimos) de 20 funcionários
administrativos em uma indústria.
10,1
7,3
8,5 5,0
4,2
3,1 2,2 9,0 9,4 6,1
3,3
10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1
Tabela 10
a) Construa uma tabela de freqüência, agrupando os dados em intervalos de amplitude 2 a
partir de 1.
b) Construa o histograma.
9) Um grupo de estudantes do ensino médio foi submetido a um teste de matemática
resultando em:
22
Nota
Freqüência
0 ├─ 2
14
2 ├─ 4
28
4 ├─ 6
27
6 ├─ 8
11
8 ├─ 10
4
Tabela 11
a) Construa o histograma.
b) Se a nota mínima para aprovação é 5, qual será a porcentagem de aprovação?
23
5. MEDIDAS
Nosso interesse é caracterizar o conjunto de dados através de medidas que resumam a
informação, por exemplo, representando a tendência central dos dados ou a maneira pela qual
estes dados estão dispersos.
5.1. MEDIDAS DE POSIÇÃO
Se estivermos numa parada de ônibus e nos pedirem alguma informação sobre a
demora em passar um determinado ônibus, ninguém imagina que poderíamos dar como
resposta uma tabela de freqüências que coletamos no último mês. Quem perguntou deseja
uma resposta breve e rápida que sintetize a informação que dispomos e não uma completa
descrição dos dados. É para isto que servem as medidas de posição.
As medidas de posição ou medidas de tendência central para um conjunto de dados
qualquer (população ou amostra) são: a média, a mediana e a moda.
5.1.1. Medidas de Posição para um Conjunto de Dados
Seja uma variável X com observações representadas por x1 , x 2 , x 3 , K , x n .
5.1.1.1. Média Aritmética ou simplesmente Média ( x )
É a soma dos valores da variável dividida pelo número total de observações.
n
x=
x1 + x 2 + L + x n
=
n
∑ xi
i =1
n
(dados não agrupados);
x=
∑ ( n i⋅ x i )
n
Exemplo: Calcular a média aritmética dos valores: 9, 12, 8, 6, 14, 11, 5
(dados agrupados)
24
x=
9 + 12 + 8 + 6 + 14 + 11 + 5 65
=
= 9,29
7
7
Para calcularmos a média quando os dados estão agrupados em classes, representamos
todos os valores de cada classe pelo ponto médio da classe.
5.1.1.2. Mediana (md)
É o valor da variável que ocupa a posição central dos dados ordenados. Temos duas
considerações a fazer:
a) O número de observações (n) é ímpar: a mediana será o valor da variável que ocupa a
posição de ordem
n +1
.
2
Exemplo: Calcular a mediana dos valores: 9, 12, 8, 6, 14, 11, 5.
Em primeiro lugar, vamos organizar os dados em ordem crescente:
5, 6, 8, 9, 11, 12, 14
n = 7 (ímpar) ∴
n +1 8
= = 4 ∴ a mediana é o 4º elemento da seqüência ⇒ md = 9
2
2
b) O número de observações (n) é par: não existe portanto um valor que ocupe o centro;
convencionou-se que a mediana será a média aritmética dos valores que ocupam as posições
de ordem
n
2
e
n
+1.
2
Exemplo: Calcular a mediana dos valores já ordenados: 6, 8, 9, 11, 12, 14
n = 6 (par) ∴
n
=3 e
2
n
+ 1 = 4 ∴ a mediana será dada pela média aritmética entre o
2
3º e 4º elementos da seqüência ⇒ md =
9 + 11 20
=
= 10
2
2
Para calcularmos a mediana quando os dados estão agrupados em classes, não levamos
em consideração se n é par ou ímpar e procedemos do seguinte modo:
25
1º) Calcula-se
n
.
2
2º) Pela freqüência acumulada, identifica-se a classe que contém a mediana.
n
− fac ) ⋅ h
2
3º) Aplica-se a fórmula: md = limd +
, onde:
ni md
(
li md = limite inferior da classe md
n = nº total de elementos da amostra
fac = freqüência acumulada da classe anterior à classe md
ni md = freqüência da classe md
h = amplitude da classe md
5.1.1.3. Moda (mo)
É o valor da variável mais freqüente da distribuição.
Exemplo: Calcular a moda para o seguinte conjunto de dados: 65, 87, 49, 58, 65, 65, 67, 83,
87, 79, 87.
mo = 65 (aparece 3 vezes) e mo = 87 (aparece 3 vezes). Temos duas modas, portanto a
distribuição é bimodal. Quando a distribuição não apresentar moda, será chamada de amodal;
se tiver uma só moda, recebe o nome de unimodal, e se apresentar várias modas será
multimodal.
Para calcularmos a moda quando os dados estão agrupados em classes, usaremos o
seguinte processo:
1º) Identifica-se a classe modal (a que possuir maior freqüência).
2º) Aplica-se a fórmula: mo = li mo +
Δ1
⋅ h , onde:
Δ1 + Δ 2
li mo = limite inferior da classe modal
Δ1 = diferença entre a freqüência da classe modal e a imediatamente anterior
Δ 2 = diferença entre a freqüência da classe modal e a imediatamente posterior
26
Exemplos
1) Calcule média, mediana e moda para a variável Idade. (Tabela 12) (Ver Tabela 4):
∑ (n i⋅x i ) = 945 = 18,9 (média)
Idade ( x i )
ni
fac
ni ⋅ xi
17
9
9
153
18
22
31
396
19
7
38
133
20
4
42
80
21
3
45
63
22
0
45
0
31, e portanto o 25º elemento é igual
23
2
47
46
ao 26º elemento e ambos correspondem
24
1
48
24
ao valor da variável igual a 18
25
2
50
50
∴ md =
Total
n = 50
x=
50
n = 50 é par, portanto, a mediana será a
média aritmética dos dois valores
centrais
fac
∑ (n i ⋅ x i ) = 945
n
n
= 25 e
2
observamos
n
+ 1 = 26 . Pela
2
que
o
valor
da
freqüência acumulada até 18 é igual a
18 + 18
= 18 (mediana)
2
Tabela 12
Para o cálculo de mo, olhamos a maior freqüência (22) que corresponde à idade de 18anos.
∴ mo = 18 (moda)
2) Calcule média, mediana e moda para a variável Peso. (Tabela 13) (Ver Tabela 5)
27
fac Ponto Médio ( x i )
ni ⋅ xi
Peso
ni
40,0 ├─ 50,0
8
8
45,0
360,0
50,0 ├─ 60,0
22
30
55,0
1210,0
60,0 ├─ 70,0
8
38
65,0
520,0
70,0 ├─ 80,0
6
44
75,0
450,0
80,0 ├─ 90,0
5
49
85,0
425,0
90,0 ├─ 100,0
1
50
95,0
95,0
Total
n = 50
∑ (n i ⋅ x i ) = 3060,0
Tabela 13
x=
∑ ( n i ⋅ x i ) = 3060,0 = 61,2 (média)
n
50
n 50
=
= 25 . Pela fac (30), a 2ª classe contém a mediana, isto é, o intervalo 50,0 ├─ 60,0.
2
2
n
50
( − 8 ) ⋅ 10
− fac ) ⋅ h
(25 − 8 ) ⋅ 10
md = li md + 2
= 50,0 + 2
= 50,0 +
=
ni md
22
22
(
50,0 +
170
= 57,73 (mediana)
22
n i = 22 ⇒ classe mod al : 2 ª
mo = li mo +
Δ1
⋅h
Δ1 + Δ 2
mo = 50,0 +
22 − 8
14
⋅ 10 = 50,0 +
⋅ 10 = 50,0 + 5 = 55,0 (moda)
(22 − 8) + (22 − 8)
2.14
Observação
As medidas de posição podem ser utilizadas em conjunto para auxiliar a análise dos dados,
mas existem situações em que uma pode ser mais conveniente do que a outra. Por exemplo,
28
quando existe um ou mais valores muito discrepantes, a média é muito influenciada por este
valor e se torna inadequada para representar o conjunto de dados, sendo melhor trabalhar com
a mediana. Por outro lado, para conjuntos de dados muito numerosos, a ordenação é custosa e
a mediana se torna difícil de calcular.
5.2. MEDIDAS DE DISPERSÃO
Um bairro nobre da capital paulista inclui uma das maiores favelas de São Paulo. O
que podemos dizer da renda média do bairro? Certamente, os altos rendimentos de alguns
residentes serão suficientes para fazer a média atingir um patamar comparável às melhores
economias do mundo, porém a discrepância entre os diversos valores deve ser muito grande.
O que podemos estar esquecendo é a variabilidade dos valores da variável e isto não é captado
pela média e sim pelas medidas de dispersão.
As medidas de dispersão ou de variabilidade servem para quantificar a variabilidade
dos valores da variável, isto é, a dispersão dos dados, ou a forma como os valores de cada
conjunto se espalham ao redor das medidas de tendência central.
5.2.1. Medidas de Dispersão para um Conjunto de Dados
Sejam x1 , x 2 , x 3 , K , x n os valores assumidos por uma variável X.
Consideremos, por exemplo, as séries:
A: 10, 10, 11, 12, 12, 13, 14, 14, 14, 15
com x = 12,5 e md = 12,5
B: 7, 7, 8, 9, 12, 13, 13, 16, 17, 23
com x = 12,5 e md = 12,5
Observamos que essas séries não são homogêneas apesar de ambas terem o mesmo
valor para a média e mediana. É preciso, pois, calcular as constantes de dispersão que medem
os afastamentos dos valores dessas séries em torno do valor central.
Dentre as medidas de dispersão ou de variabilidade mais usadas, temos: amplitude
total, variância, desvio padrão e coeficiente de variação.
29
5.2.1.1. Amplitude Total (R)
É a diferença entre o maior e o menor valor de um conjunto de dados.
R = x máx. − x mín.
Exemplos:
Para a série A: R = 15 – 10 = 5
Para a série B: R = 23 – 7 = 16
A utilização da amplitude total como medida de dispersão é muito limitada, pois só
leva em consideração dois valores de todo o conjunto de dados.
5.2.1.2. Variância ( σ 2 (população) ou S 2 (amostra) )
Para medir a dispersão dos valores de uma variável em torno da média, é interessante
estudar o comportamento dos desvios de cada valor em relação à média, isto é, d i = x i − x .
Na determinação de cada desvio d i , estaremos medindo a dispersão entre cada x i e a média
x . Porém se somarmos todos os desvios, teremos
n
n
i =1
i =1
∑ di = ∑ ( x i − x ) = 0 . Para contornar o
problema, resolveu-se considerar o quadrado de cada desvio ( x i − x ) 2 . Assim, defini-se:
Variância: é a média aritmética dos quadrados dos desvios.
N
σ2=
∑ ( xi − μ ) 2
i =1
N
N
=
∑ di2
i =1
N
N
N
σ2=
∑ ( xi − μ ) 2 ⋅ ni
i =1
N
(dados não agrupados)
=
∑ di2 ⋅ n i
i =1
N
Para uma população,
onde μ é a média da
população e N é o
tamanho da população
(dados agrupados)
n
S2=
∑ ( xi − x ) 2
i =1
n
(dados não agrupados)
Para uma amostra,
onde x é a média da
amostra e n é o
tamanho da amostra
30
n
S2=
∑ ( xi − x ) 2 ⋅ ni
i =1
n
(dados agrupados)
A seguir estão outras fórmulas que podem ser usadas para facilitar o cálculo da
variância populacional e amostral.
n
1 N 2
2
2 1
σ = ∑ x i − μ (dados não agrupados) S = ∑ x i2 − ( x ) 2 (dados não agrupados)
N i =1
n i =1
2
σ2=
1 N
1 n
( n i ⋅ x i2 ) − μ 2 (dados agrupados) S 2 = ∑ ( n i ⋅ x i2 ) − ( x ) 2 (dados agrupados)
∑
n i =1
N i =1
Exemplos:
Para a série A: S 2 =
1 n 2
1
x i − ( x ) 2 = ⋅ 1591 − 156,25 = 159,1 − 156,25 = 2,85
∑
n i =1
10
Para a série B: S 2 =
1 n 2
1
x i − ( x ) 2 = ⋅1799 − 156,25 = 179,9 − 156,25 = 23,65
∑
n i =1
10
5.2.1.3. Desvio Padrão ( σ (população ) ou S (amostra) )
O desvio padrão é a raiz quadrada da variância.
É assim definido para que a unidade original da variável, se houver, seja mantida, pois,
pela fórmula do cálculo da variância, a unidade é elevada ao quadrado.
σ=
σ 2 (desvio padrão populacional)
S=
S 2 (desvio padrão amostral)
Exemplos:
Para a série A: S =
2,85 = 1,69
Para a série B: S =
23,65 = 4,86
31
Observação: o desvio padrão define em torno da média populacional ou amostral um
intervalo
[μ – σ, μ + σ ] ou [ x − S , x + S ] de amplitude 2σ ou 2S, respectivamente,
chamado zona de normalidade.
5.2.1.4. Coeficiente de Variação ( CV )
O coeficiente de variação é uma medida relativa da dispersão que serve para
comparar o grau de concentração em torno da média de conjuntos de dados distintos.
CV =
σ
⋅100% (para população)
μ
CV =
S
⋅100% (para amostra)
x
Exemplos:
Para a série A: CV =
1,69
⋅100% = 13,52 %
12,5
Para a série B: CV =
4,86
⋅100% = 38,88 %
12,5
Vemos, portanto, que há maior variação na série B do que na A, pois o CV na série B é bem
maior que na série A.
Exemplos
1) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável
Idade. (Tabela14) (Ver Tabela 12):
32
Idade ( x i )
ni
fac
ni ⋅ xi
n i ⋅ x i2
17
9
9
153
2601
18
22
31
396
7128
19
7
38
133
2527
20
4
42
80
1600
21
3
45
63
1323
22
0
45
0
0
23
2
47
46
1058
24
1
48
24
576
25
2
50
50
1250
Total
n = 50
∑ (n i ⋅ x i ) = 945 ∑ ( n i ⋅ x i2 ) = 18063
Tabela 14
R = 25 – 17 = 8 (amplitude total)
S 2=
1 n
∑ ( n i ⋅ x i2 ) − ( x )2
n i =1
S 2=
1
⋅18063 − (18,9 ) 2 = 361,26 − 357,21 = 4,05 (variância)
50
Já foi calculado em 5.1.1. (Exemplo1): x = 18,9
S=
S 2 = 4,05 = 2,01 (desvio padrão)
CV =
S
2,01
⋅100% =
⋅100% = 10,63% (coeficiente de variação)
18,9
x
2) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável
Peso. (Tabela 15) (Ver Tabela 13):
33
Peso
ni
fac
Ponto Médio
ni ⋅ xi
n i ⋅ x i2
( xi )
40,0 ├─ 50,0
8
8
45,0
360,0
16200,0
50,0 ├─ 60,0
22
30
55,0
1210,0
66550,0
60,0 ├─ 70,0
8
38
65,0
520,0
33800,0
70,0 ├─ 80,0
6
44
75,0
450,0
33750,0
80,0 ├─ 90,0
5
49
85,0
425,0
36125,0
90,0 ├─ 100,0
1
50
95,0
95,0
9025,0
Total
n = 50
∑ (n i ⋅ x i ) = 3060,0 ∑ ( n i ⋅ x i2 ) = 195450,0
Tabela 15
R = 95,0 – 44,0 = 51,0 kg (amplitude total - Tabela 1)
S 2=
1 n
( n i ⋅ x i2 ) − ( x ) 2
∑
n i =1
S 2=
1
⋅195450,0 − ( 61,2 ) 2 = 3909,0 − 3745,44 = 163,56kg 2 (variância)
50
Já foi calculado em 5.1.1. (Exemplo2): x = 61,2kg
S=
S 2 = 163,56 = 12,79kg (desvio padrão)
CV =
12,79
S
⋅100% =
⋅100% = 20,90% (coeficiente de variação)
61,2
x
5.3. 2ª LISTA DE EXERCÍCIOS
1) Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um
entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados
foram os seguintes:
2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2.
Organize os dados numa tabela de freqüência e determine todas as medidas de posição e de
dispersão.
34
2) Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado
no fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os
seguintes:
1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5 e 2,2.
a) Utilizando os dados brutos, determine as medidas de posição e de dispersão desse conjunto.
b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.
c) Calcule, a partir da tabela de freqüência e com o ponto médio como representante de cada
faixa, as medidas de posição e de dispersão. Comente as diferenças encontradas com o item
(a).
d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o de
(a) ou o de (c) ?Justifique.
3) A pulsação de 10 estudantes no início de uma prova de estatística foram as seguintes (em
batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Calcule as medidas de posição
e de dispersão desse conjunto de dados.
4) Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e modelo
tiveram o seu consumo observado durante 1000 quilômetros. A informação obtida é
apresentada na Tabela 16 em km/litro.
Faixas
Freqüência
7 ├─ 8
27
8 ├─ 9
29
9 ├─ 10
46
10 ├─ 11 43
11 ├─ 12 55
Tabela 16
35
Determine as medidas de posição e de dispersão do consumo.
5) Se a média das alturas de um grupo de pessoas é 175 cm e o desvio padrão é 20 cm, uma
pessoa com estatura de 150 cm está dentro da normalidade? Por quê?
6) Numa escola, duas turmas conseguiram os seguintes resultados:
Turma A: x = 45 , S = 10
Turma B: x = 45 , S = 3,5
Responda:
a) Qual a turma mais homogênea? Por quê?
b) Um aluno com média 40 é considerado normal na turma A? E na turma B? Por quê?
7) Na aplicação de um teste de motricidade, conseguiram-se os resultados da Tabela 17.
Pontos
ni
5├─ 10
2
10├─ 15
4
15├─ 20 10
20├─ 25 15
25├─ 30
9
30├─ 35
5
Tabela 17
Responda:
a) Qual é a média aritmética?
b) Qual é o desvio padrão?
c) Qual a zona considerada de normalidade?
d) Uma criança que obteve 28 pontos é considerada com motricidade normal? Por quê?
8) Na pesagem de 20 crianças de quinta série, obtiveram-se os seguintes resultados, em kg:
38
40
45
42
45
40
43
38
36
45
45
40
41
41
38
46
32
48
46
42
43
44
50
38
40
Nesse grupo de crianças, um menino com 35 kg seria considerado com peso normal? Por quê?
37
6. PROBABILIDADES
Neste capítulo não existe a pretensão de um estudo completo sobre a teoria das
probabilidades, mas sim do conhecimento de alguns conceitos que serão aplicados
posteriormente.
6.1. DEFINIÇÕES
6.1.1. Fenômeno Determinístico
É aquele em que repetindo um experimento, nas mesmas condições, o resultado
esperado é sempre o mesmo.
Exemplo: se um corpo percorre uma distância de 120 km, com velocidade média de 60 km/h,
podemos determinar, pelas leis da Física, que ele gastará 2 horas para percorrer o referido
espaço, e isto sempre ocorrerá, desde que sejam mantidas as mesmas condições.
6.1.2. Fenômeno Aleatório ou Probabilístico
É aquele cujo resultado não pode ser previsto com certeza, ainda que mantidas as
mesmas condições de realização.
Exemplo: no lançamento de um dado, não podemos dizer, com certeza, qual será o resultado.
Só podemos saber que é provável que ocorra o resultado 1, ou 2, ou 3, ou 4, ou 5, ou 6.
A maioria dos fenômenos tratada pela Estatística é de natureza aleatória ou
probabilística. Na própria escolha da amostra, temos um fenômeno probabilístico.
Veremos que modelos podem ser estabelecidos para quantificar as incertezas das
diversas ocorrências.
38
6.1.3. Espaço Amostral (S)
É o conjunto de todos os resultados possíveis de um certo fenômeno aleatório.
6.1.4. Evento (E)
É um subconjunto do espaço amostral.
Exemplo: lançamos uma moeda duas vezes. Se C indica cara e R, coroa, temos:
S = {(C, C); (C, R); (R, C); (R, R)} (Espaço Amostral)
Seja o evento “obtenção de faces iguais”. Temos: E = {(C, C); (R, R)} (Evento)
Seja o evento “obtenção de cara no 1º lançamento”. Temos: E = {(C, C); (C, R)} (Evento)
Exemplo: um experimento consiste em retirar uma lâmpada de um lote e medir seu tempo de
vida antes de se queimar. Um espaço amostral conveniente é: S = {t: t ≥ 0}, isto é, o conjunto
de todos os números reais não negativos. Seja o evento “o tempo de vida da lâmpada é
inferior a 20 horas”. Temos: E = {t: 0 ≤ t < 20}. Este é um exemplo de espaço amostral
contínuo, enquanto os outros anteriores são discretos.
6.1.5. Probabilidade
É a relação entre o número de possíveis resultados de E e todos os possíveis resultados
do experimento. Indicamos: P(E)
P(E) =
n º de resultados que produzem E
n º de resultados possíveis na exp eriência
No caso dos dois eventos acima, P(E) =
2 1
= .
4 2
39
6.2. PROPRIEDADES
Sendo o modelo probabilístico um modelo teórico para as freqüências relativas,
podemos verificar algumas das propriedades a seguir:
•
Como toda freqüência relativa é um número entre 0 e 1, temos que: 0 ≤ P(E) ≤ 1, para
qualquer evento E.
•
Considerando o espaço todo S e o conjunto vazio como eventos, temos:
P(S) = 1 (evento certo)
e
P(Ø) = 0 (evento impossível)
6.3. OUTRAS DEFINIÇÕES
6.3.1. Variável Aleatória Discreta
Uma quantidade X, associada a cada possível resultado do espaço amostral S, é
denominada de variável aleatória discreta, se assume valores num conjunto enumerável de
pontos do conjunto real, com certa probabilidade de ocorrência.
6.3.2. Função Discreta de Probabilidade
A função que atribui a cada valor x1 , x 2 , x 3 , K, x n da variável aleatória X sua
probabilidade de ocorrência p1 , p 2 , p3 , K, p n , respectivamente, é denominada de função
discreta de probabilidade ou, simplesmente, função de probabilidade.
Notação: p ( x i ) = P ( X = x i ) = pi , i = 1, 2, 3, K ou ainda
X
x1
x2
x3 K
pi
p1
p2
p3 K
Uma função de probabilidade satisfaz: 0 ≤ pi ≤ 1 e
∑ pi = 1 .
40
6.3.3. Variável Aleatória Contínua
Uma quantidade X, associada a cada possível resultado do espaço amostral S, é
denominada de variável aleatória contínua, se assume valores num intervalo do conjunto
dos números reais, com certa probabilidade de ocorrência.
Exemplos: renda, salário, tempo de uso de um equipamento, área atingida por certa praga
agrícola.
6.3.4. Função Contínua de Probabilidade
Função contínua de probabilidade ou função densidade de probabilidade para
uma variável aleatória contínua X é toda função f (X) que satisfaz a duas condições:
a) f (X) ≥ 0, para todo X ∈ ( −∞, + ∞ ) ;
b) a área definida por f (X) é igual a 1.
41
7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Dentre os principais modelos teóricos para variáveis aleatórias contínuas (definição
6.3.3), estudaremos o modelo normal, pois, vários fenômenos tais como estatura, QI,
orientação política, desgaste dos pisos, etc., aproximam-se, na prática, muito bem desse
modelo.
7.1. Modelo Normal ou Distribuição Normal
Dizemos que uma variável aleatória contínua X tem distribuição normal com
μ e σ2,
parâmetros
respectivamente
a
média
e
a
variância
da
distribuição,
− ∞ < μ < +∞ e 0 < σ 2< +∞ , se a sua função densidade de probabilidade (definição
6.3.4) é dada por:
f ( X) =
1
σ
2π
2
2
⋅ e− ( X −μ) / 2 ⋅ σ , para −∞ < X < +∞ .
Notação: X ~ N( μ , σ 2 ) , significa: X tem distribuição normal com parâmetros μ e σ 2 .
7.1.1. Gráfico
f(X)
0
μ-σ
μ
μ+σ
Gráfico 5: Curva Normal
Observando-se o gráfico, temos:
X
42
a) f ( X ) é simétrica em relação a μ, isto é, f (μ + X ) = f (μ – X ), para todo X, −∞ < X < +∞ .
b) f ( X ) → 0
quando
X → ±∞ .
c) o valor máximo de f ( X ) se dá para X = μ, isto é, a curva normal é unimodal e
média ( μ ), mediana ( Md ) e moda ( Mo ) coincidem.
d) E ( X ) = μ ( valor esperado ou média)
e) Var ( X ) = σ 2 ( variância)
f(X)
Como calcular P ( a ≤ X ≤ b)?
0
μ
a
b
X
Gráfico 6: Probabilidade
As probabilidades para o modelo normal são calculadas com o auxílio de tabelas, e,
para evitarmos a multiplicação desnecessária de tabelas para cada par de valores
( μ , σ 2 ) ,utiliza-se uma transformação que conduz sempre ao cálculo de probabilidades com
uma variável de parâmetros ( 0 , 1 ), isto é, μ = 0 (média) e σ 2 = 1 (variância).
Desse modo, se X ~ N( μ , σ 2 ) , definimos uma nova variável Z =
X−μ
, para qual
σ
demonstra-se que μ ( Z ) = 0 e σ 2 ( Z ) = 1.
Logo Z ~ N( μ , σ 2 ) e é denominada de Normal Padrão ou Normal Reduzida.
f(Z)
-1
0
1
Gráfico 7: Normal Padrão ou Normal Reduzida
Agora, para calcularmos P ( a ≤ X ≤ b), fazemos a seguinte transformação:
Z
43
P ( a ≤ X ≤ b) = P (
a −μ
b−μ
≤Z≤
) , onde X ~ N( μ , σ 2 ) .
σ
σ
Portanto, quaisquer que sejam os valores de μ e σ, utilizamos a Normal Padrão para
obter probabilidades com a distribuição normal.
Os valores P ( 0 ≤ Z ≤ z ), z ≥ 0 são tabelados.
Pela simetria da curva normal, podemos calcular valores de probabilidades em outros
intervalos e também temos que a probabilidade de estar à direita (ou à esquerda) de zero é 0,5.
Como a probabilidade é sempre um nº compreendido entre 0 e 1, a tabela contém apenas a
parte decimal.
Exemplo
1) As alturas de 10.000 alunos têm distribuição aproximadamente normal, com média 170 cm
e desvio padrão 5 cm. Qual a probabilidade de termos:
a) Alunos com alturas entre 165 cm e 170 cm.
b) Entre 165 cm e 180 cm.
c) Entre 168 cm e 185 cm.
d) Menores que 160 cm.
e) Maiores que 180 cm.
f) Qual o número esperado de alunos com altura superior a 165 cm?
Resolução
Variável X: altura, com X ~N ( 170, 25 ); μ = 170 cm e σ 2 = 25.
P ( a ≤ X ≤ b) = P (
a −μ
b−μ
≤Z≤
)
σ
σ
a) P ( 165 < X < 170 ) = P (
165 − 170
170 − 170
<Z<
) = P ( -1< Z < 0 ) (na tabela não
5
5
existem valores negativos; pela simetria da curva normal, a área representada por
P ( -1 < Z < 0 ) é igual à área representada por P ( 0 < Z < 1 ) = 0,3413 (Tabela da Normal
Reduzida)
∴ P ( 165 < X < 170 ) = 34,13%.
44
b) P ( 165 < X < 180 ) = P (
165 − 170
180 − 170
<Z<
) = P ( -1 < Z < 2 ) =
5
5
= P ( -1 < Z < 0 ) + P (0 < Z < 2 ) = P (0 < Z < 1 ) + P ( 0 < Z < 2 ) (Tabela da Normal
Reduzida)
= 0,3413 + 0,4772 = 0,8185 ∴ P ( 165 < X < 180 ) = 81,85%.
c) P ( 168 < X < 185 ) = P (
168 − 170
185 − 170
<Z<
) = P ( - 0,4 < Z < 3 ) =
5
5
= P (- 0,4 < Z < 0 ) + P ( 0 < Z < 3 ) = P ( 0 < Z < 0,4 ) + P ( 0 < Z < 3 ) (Tabela da Normal
Reduzida) = 0,1554 + 0,4987 = 0,6541 ∴ P ( 168 < X < 185 ) = 65,41%
160 − 170
) = P ( Z < - 2 ) = P ( Z > 2 ) (pela simetria da Normal)
5
d) P ( X < 160 ) = P ( Z <
P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 = 0,0228 ∴ P ( X < 160 ) =2,28%
e) P ( X > 180 ) = P ( Z >
180 − 170
) = P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 =
5
0,0228
∴ P ( X > 180 ) = 2,28%
f) P ( X > 165 ) = P ( Z >
165 − 170
) = P ( Z > - 1 ) = P ( Z < 1 ) (pela simetria da Normal)
5
P ( Z < 1 ) = 0,5 + P ( 0 < Z < 1 ) = 0,5 + 0,3413 = 0,8413 ∴ P ( X > 165 ) = 84,13%.
Como são 10.000 alunos, teremos: 10.000 . 0,8413 = 8.413 alunos é o número esperado de
alunos com altura superior a 165 cm.
45
8. ESTIMAÇÃO
A estimação faz parte da Inferência Estatística que tem por objetivo fazer
generalizações sobre uma população com base em dados de uma amostra.
Existem dois tipos de estimação: por ponto e por intervalo.
Na estimação por ponto é proposto um único valor para substituir o parâmetro (dado
da população). Assim, o estimador por ponto da média aritmética populacional μ é a média
aritmética amostral x ; o estimador por ponto da variância populacional σ 2 é a variância
amostral S2 .
8.1. ESTIMAÇÃO POR INTERVALO
A estimação por ponto não permite julgar qual a possível magnitude do erro que
estamos cometendo ao substituir o parâmetro por um único valor. Daí surge a idéia de
construir intervalos de confiança, que são baseados na distribuição amostral do estimador
pontual, incorporando à estimativa pontual do parâmetro informações a respeito de sua
variabilidade.
Um intervalo de confiança é determinado por dois valores que são os seus limites,
chamados “limites de confiança”, que com certa probabilidade incluam o verdadeiro valor do
parâmetro da população.
Logo, a estimação por intervalo consiste na fixação de dois valores tais que γ seja a
probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do
parâmetro.
γ é chamado de coeficiente de confiança ou nível de confiabilidade.
1 – γ é o nível de significância ou nível de incerteza ou ainda grau de desconfiança.
Portanto, a partir de informação de amostra, devemos calcular os limites de um
intervalo, que em γ % dos casos inclua o valor do parâmetro a estimar e em (1 – γ)% dos
casos não inclua o valor do parâmetro.
46
8.1.1. Intervalo de Confiança (IC) para a Média Populacional (variância conhecida)
Consideremos, inicialmente, o intervalo de confiança para a média μ (desconhecida)
de uma certa população Normal, com variância conhecida σ 2 . Supondo uma amostra X de
σ2
) , onde X é a média
tamanho n, com valores X1 , X 2 , K, X n , temos que X ~ N ( μ ,
n
amostral.
Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com
coeficiente de confiança γ, como:
⎡
⎤
IC (μ , γ ) = ⎢X − z γ . σ X ; X + z γ . σ X ⎥ = X − z γ . σ X ≤ μ ≤ X + z γ . σX , onde:
⎢⎣
⎥⎦
2
2
2
2
X é a média amostral.
z γ é obtido da tabela da Normal Padrão, localizando o valor de
2
γ
no corpo da tabela e
2
obtendo o valor z γ nas margens correspondentes.
2
σ
é o desvio padrão da média amostral.
n
σX =
Os “limites de confiança” citados anteriormente são os números obtidos por
X − z γ . σX e X + z γ . σX .
2
2
A expressão IC (μ , γ ) envolve a quantidade X que é uma variável aleatória, e sendo
assim, o intervalo obtido também é aleatório, com probabilidade γ de conter o verdadeiro
valor da média populacional μ.
Assim, uma interpretação conveniente para o intervalo de confiança é: se obtivermos
várias amostras de mesmo tamanho, e, para cada uma delas calcularmos os correspondentes
intervalos de confiança com coeficiente de confiança γ, esperamos que a proporção de
intervalos que contenham o valor de μ seja igual a γ.
47
Exemplo
Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo Normal
com média μ desconhecida e variância igual a 0,01 m 2 . Uma amostra de dez animais foi
sorteada e forneceu média 1,69 m. Desejamos uma estimativa para o parâmetro desconhecido
μ, com coeficiente de confiança de 95%.
Identificando os dados do problema, temos: σ 2 = 0,01; n = 10; X = 1,69; γ = 95%;
X ~ N (μ ,
σ2
)
n
γ
95
⇒ γ = 0,95 ∴ = 0,475 ( localizamos este valor no corpo da tabela da
100
2
Normal Padrão e encontramos o valor de z γ = 1,96 ).
γ = 95% ⇒ γ =
2
σX =
0,1
σ
=
n
10
IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2
IC (μ , 95% ) = [1,69 − 1,96 ⋅
2
0,1
0,1
; 1,69 + 1,96 ⋅
]
10
10
IC (μ , 95% ) = [ 1,63 ; 1,75 ]
Concluindo, podemos dizer que em 100 intervalos construídos, 95 contêm a
verdadeira média e, de modo geral, admitimos que o intervalo calculado é um dos que contém
a verdadeira média μ. Por essa razão, além de informar o intervalo obtido, devemos também
fornecer o índice de confiança utilizado.
Observações:
•
A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior
e inferior, isto é, X + z γ . σ X − (X − z γ . σ X ) = 2 z γ . σ X
2
•
2
2
A semi-amplitude, ou seja, z γ . σ X nos fornece o erro envolvido na estimação.
2
48
•
Se a população for finita e de tamanho N conhecido, e se a amostra de tamanho n dela
retirada for sem reposição, então: σ X =
σ
.
n
N−n
N −1
Exemplo
De uma população de 1.000 elementos com distribuição aproximadamente normal com
σ 2 = 400 , tira-se uma amostra de 25 elementos, obtendo-se X = 150 . Fazer um IC para μ, ao
nível de 5%.
Identificando os dados do problema, temos: N = 1000; σ 2 = 400 ; n = 25; X = 150 ;
1 – γ = 5%.
X ~ N (μ, σ 2X ) , com σ X =
1 – γ = 5% ⇒ 1 − γ =
σ
.
n
N−n
N −1
5
γ
= 0,05 ⇒ γ = 1 − 0,05 = 0,95 ∴ = 0,475 (localizamos este valor
100
2
no corpo da tabela da Normal Padrão e encontramos o valor de z γ = 1,96)
2
σX =
σ
.
n
975
N − n 20 1000 − 25
=
.
= 4.
= 3,95
N −1
5
1000 − 1
999
IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2
2
IC (μ , 95%) = [150 – 1,96 . 3,95 ; 150 + 1,96 . 3,95]
IC (μ , 95%) = [142,26 ; 157,74]
49
Esquema para melhor compreensão
População
X
amostra
( μ , σ2 )
n
x1 ± 1,96
amostra
σ
n
n
x 2 ± 1,96
σ
n
amostra
M
n
x k ± 1,96
μ − 1,96
σ
n
μ
μ + 1,96
x1
σ
n
σ
n
x2
xk
Figura 2: Intervalo de Confiança – Média Populacional
50
8.1.2. Intervalo de Confiança para a Proporção
Quando o tamanho da amostra ( n ) for grande, temos: p̂ ~ N (p,
pq
) , onde p̂ é a
n
proporção amostral e q = 1 – p. Consideramos uma amostra grande quando n > 30.
Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para p, com
coeficiente de confiança γ, como:
IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ] = p̂ − z γ . σ p̂ ≤ p ≤ p̂ + z γ . σ p̂ , onde:
2
2
2
2
p̂ é a proporção amostral.
z γ é obtido da tabela da Normal Padrão, localizando o valor de
2
γ
no corpo da tabela e
2
obtendo o valor z γ nas margens correspondentes.
2
σ p̂ =
p̂ . q̂
é o desvio padrão da proporção amostral, com q̂ = 1 − p̂ .
n
Exemplo
Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo de
confiança para p, com coeficiente de confiança γ = 90%.
Identificando os dados do problema, temos: p̂ =
80
= 0,2 ⇒ q̂ = 1 − p̂ = 1 − 0,2 = 0,8 ;
400
n = 400; γ = 90%
pˆ ~ N ( p ,
pq
)
n
90
γ
⇒ γ = 0,90 ∴ = 0,45 ( localizamos este valor no corpo da tabela da
100
2
Normal Padrão e encontramos o valor de z γ = 1,64).
γ = 90% ⇒ γ =
2
σ pˆ =
pˆ . qˆ
=
n
0,2 . 0,8
=
400
0,16 0,4
=
= 0,02
400 20
51
IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ]
2
2
IC (p , 90%) = [0,2 – 1,64 . 0,02 ; 0,2 + 1,64 . 0,02]
IC (p , 90%) = [ 0,167 ; 0,233 ]
Observação:
•
Para a Proporção, o erro envolvido na estimação é dado por: z γ . σ p̂
2
8.1.3. Intervalo de Confiança (IC) para a Média Populacional (variância desconhecida)
Para estimarmos a média de uma população normal com variância desconhecida,
quando o tamanho (n) da amostra for grande, n > 30, substituímos σ 2 pela variância amostral
S2 e usamos a distribuição normal.
Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com
coeficiente de confiança γ, como:
IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] , onde:
2
2
X é a média amostral.
z γ é obtido da tabela da Normal Padrão, localizando o valor de
2
obtendo o valor z γ nas margens correspondentes.
2
σX =
S
é o desvio padrão da média amostral, com
n
n
S = S2 e S2 =
1 n 2
{∑ xi −
n − 1 i =1
( ∑ x i )2
i =1
n
} ou S2 =
2
1 n 2
{∑ xi − n X }
n − 1 i =1
γ
no corpo da tabela e
2
52
Exemplos
1) De uma população normal com parâmetros desconhecidos, tiramos uma amostra de
tamanho 100, obtendo-se X = 112 e S = 11. Fazer um IC para μ ao nível de 10%.
Identificando os dados do problema, temos: n = 100; X = 112 ; S = 11; 1 – γ = 10% = 0,10
1 – γ = 0,10 ⇒ γ = 0,90 ⇒
γ
= 0,45 (localizamos este valor no corpo da tabela da Normal
2
Padrão e encontramos o valor de z γ = 1,64 )
2
S
11
11
=
=
= 1,1
n
100 10
σX =
IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2
2
IC (μ , 90%) = [112 – 1,64 . 1,1 ; 112 + 1,64 . 1,1]
IC (μ , 90%) = [110,20 ; 113,80]
2) A altura dos homens de uma cidade apresenta distribuição normal. Para estimar a altura
média dessa população, levantou-se uma amostra de 150 indivíduos obtendo-se
150
150
i =1
i =1
2
2
∑ x i = 25800 cm e ∑ x i = 4440075 cm . Ao nível de 2%, determinar um IC para a altura
média dos homens da cidade.
Vamos inicialmente determinar a média e a variância amostrais. Temos: n = 150
n
X=
∑ xi
i =1
n
150
=
∑ xi
i =1
150
=
25800
= 172 cm
150
n
1
{ ∑ x i2 −
S =
n − 1 i =1
2
n
( ∑ x i )2
i =1
n
150
( ∑ x i )2
1
1
(25800) 2
2
i =1
}=
{ ∑ xi −
}=
{4440075 −
} = 16,61
150 − 1 i −1
150
14 9
150
∴ S = S2 = 16,61 = 4,08 cm
150
53
1 – γ = 2% = 0,02 ⇒ γ = 0,98 ⇒
γ
= 0,49 (localizamos este valor no corpo da tabela da
2
Normal Padrão e encontramos o valor de z γ = 2,32 )
2
σX =
S
4,08
=
= 0,33
n
150
IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2
2
IC (μ , 98%) = [172 – 2,32 . 0,33 ; 172 + 2,32 . 0,33]
IC (μ , 98%) = [171,23 cm ; 172,77 cm] = [1,71 m ; 1,73 m]
Logo, podemos afirmar com uma certeza de 98% que, apesar dos parâmetros populacionais
serem desconhecidos, a altura média dos homens dessa cidade está compreendida entre 1,71m
e 1,73 m.
54
9. CORRELAÇÃO
É o estudo da existência e do grau de relação entre variáveis, tendo por objetivo medir
e avaliar o grau de relação existente entre duas variáveis aleatórias. Por exemplo, o peso pode
estar relacionado com a idade das pessoas; o consumo das famílias pode estar relacionado
com sua renda; as vendas de uma empresa e os gastos promocionais podem relacionar-se;
bem como a demanda de um determinado produto e seu preço.
9.1. CORRELAÇÃO LINEAR SIMPLES
Procura medir a relação entre as variáveis X e Y através da disposição dos pontos
(X, Y) em torno de uma reta.
9.1.1. Coeficiente de Correlação de Pearson
É o instrumento de medida da correlação linear.
rXY =
( X) ( Y)
∑ XY − ∑ n ∑
2
2
⎡
(
(
X) ⎤ ⎡
Y) ⎤
∑
∑
2
2
⎢∑ X −
⎥ ⎢∑ Y −
⎥
n ⎥⎢
n ⎥
⎢
⎣
− 1 ≤ rXY ≤ 1 .
⎦⎣
⎦
, onde n = número de observações e
55
9.1.2. Correlação Linear Positiva
A correlação será positiva quando valores crescentes de X estiverem associados a
valores crescentes de Y, ou valores decrescentes de X estiverem associados a valores
decrescentes de Y.
Y
0
X
Gráfico 8: Correlação Linear Positiva ( 0 < rXY < 1 )
Quando todos os pontos pertencerem à reta, a correlação é chamada correlação
linear perfeita positiva e rXY = 1 .
9.1.3. Correlação Linear Negativa
A correlação será negativa quando valores crescentes de X estiverem associados a
valores decrescentes de Y, ou valores decrescentes de X estiverem associados a valores
crescentes de Y.
Y
0
X
Gráfico 9: Correlação Linear Negativa ( − 1 < rXY < 0 )
56
Quando todos os pontos pertencerem à reta, a correlação é chamada correlação
linear perfeita negativa e rXY = −1 .
9.1.4. Correlação Nula
A correlação será nula quando não houver relação entre as variáveis X e Y, ou seja,
quando as variações de X e Y ocorrerem independentemente não existe correlação entre
elas.
Y
0
X
Gráfico 10: Correlação Nula ( rXY = 0 )
A correlação será tanto mais forte quanto mais próximo estiver o resultado de + 1 ou
de – 1 e será tanto mais fraca quanto mais próximo o resultado estiver de zero.
Exemplos
1) Calcular o coeficiente de correlação linear entre as variáveis X e Y, usando os dados da
Tabela 18.
Observação: para maior facilidade, construiremos uma tabela, onde a partir dos valores de X
e Y, determinaremos todas as somas necessárias (Tabela 19)
Y 10 8 6 10 12
X
2
4 6
8
Tabela 18
10
57
rXY =
( X) ( Y)
∑ XY − ∑ n ∑
2
2
⎡
(
(
X) ⎤ ⎡
Y) ⎤
∑
∑
2
2
⎢∑ X −
⎥ ⎢∑ Y −
⎥
n ⎥⎢
n ⎥
⎢
⎣
rXY =
⎦⎣
30 ⋅ 46
288 −
5
=
2
⎡
30 ⎤ ⎡
462 ⎤
⎢220 −
⎥ ⎢444 −
⎥
5 ⎦⎣
5 ⎦
⎣
Y
X
X2
Y2
XY
10
2
4
100
20
8
4
16
64
32
6
6
36
36
36
10
8
64
100
80
⎦
12
= 0,42
40 ⋅ 20,8
12 10 100 144 120
Total 46 30 220 444 288
Tabela 19
A correlação linear entre as variáveis X e Y é positiva , porém baixa.
2) A Tabela 20 mostra os resultados de uma pesquisa com 10 famílias de uma determinada
região.
58
Famílias
Renda
Poupança
Número de Filhos
Média de Anos de Estudo da
Família
A
1000,00
4000,00
8
3
B
1500,00
7000,00
6
4
C
1200,00
5000,00
5
5
D
7000,00
20000,00
1
12
E
8000,00
20000,00
2
16
F
10000,00
30000,00
2
18
G
2000,00
8000,00
3
8
H
3000,00
8000,00
2
8
I
1000,00
3000,00
6
4
J
6000,00
15000,00
1
8
Tabela 20
Calcular o coeficiente de correlação linear entre Poupança e Número de Filhos das dez
famílias.
rXY =
( X) ( Y)
∑ XY − ∑ n ∑
2
2
⎡
(
(
X) ⎤ ⎡
Y) ⎤
∑
∑
2
2
⎢∑ X −
⎥ ⎢∑ Y −
⎥
n ⎥⎢
n ⎥
⎢
⎣
⎦⎣
⎦
59
Poupança (X)
Número de
X2
Y2
XY
Filhos (Y)
4000,00
8
16000000,00
64
32000,00
7000,00
6
49000000,00
36
42000,00
5000,00
5
25000000,00
25
25000,00
20000,00
1
400000000,00
1
20000,00
20000,00
2
400000000,00
4
40000,00
30000,00
2
900000000,00
4
60000,00
8000,00
3
64000000,00
9
24000,00
8000,00
2
64000000,00
4
16000,00
3000,00
6
9000000,00
36
18000,00
15000,00
1
225000000,00
1
15000,00
∑ X = 120000,0
∑ Y = 36 ∑ X2 = 2152000000, ∑ Y 2 = 184
0
00
Tabela 21
rXY =
( X) ( Y)
∑ XY − ∑ n ∑
2
2
⎡
(
(
X) ⎤ ⎡
Y) ⎤
∑
∑
2
2
⎢∑ X −
⎥ ⎢∑ Y −
⎥
n ⎥⎢
n ⎥
⎢
⎣
⎦⎣
⎦
∑ XY = 292000,
00
60
rXY =
120000 ⋅ 36
10
=
14400000000 ⎤ ⎡
1296 ⎤
⎡
⎢2152000000 −
⎥ ⋅ ⎢184 − 10 ⎥
10
⎣
⎦ ⎣
⎦
292000 −
− 140000
= −0,71
712000000 ⋅ 54,4
A correlação linear entre as variáveis X e Y é forte e negativa, isto é, famílias com poupança
alta têm menor número de filhos.
9.2. 3ª LISTA DE EXERCÍCIOS
1) Seja X ~ N (4 , 1). Determine:
a) P (X ≤ 4)
b) P (4 < X < 5)
c) P (2 ≤ X < 5)
d) P (5 ≤ X ≤ 7)
e) P (X ≤ 1)
f) P (0 ≤ X ≤ 2)
2) Para X ~ N (90 , 100), obtenha:
a) P (X ≤ 115)
b) P (X ≥ 80)
c) P (X ≤ 75)
d) P (-10 ≤ X – 90 ≤ 10)
e) O valor de a tal que P (90 – a ≤ X ≤ 90 + a) = γ, γ = 0,95
3) Para X ~ N (-5 , 10), calcule:
a) P (-5 < X ≤ -2)
b) P (X + 5 < -2) + P (X + 5 > 2)
61
4) Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo uma
distribuição Normal de média 130 kg e desvio padrão 20 kg. Para efeito de determinar o
tratamento mais adequado, os 25% pacientes de menor peso são classificados de “magros”,
enquanto os 25% de maior peso de “obesos”. Determine os valores que delimitam cada uma
dessas classificações.
5) Por analogia a produtos similares, o tempo de reação de um novo medicamento pode ser
considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos (a média é
desconhecida). Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu
tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9; 3,4; 3,5; 4,1; 4,6;
4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de
confiança para o tempo médio de reação. Use γ = 96%.
6) Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem a marca X de
detergente. Construir um intervalo de confiança para p = proporção das donas-de-casa que
preferem X com coeficiente de confiança γ = 90%.
7) Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma
amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Construa um
intervalo de confiança para a média populacional μ com coeficiente de confiança γ = 95%.
8) Deseja-se fazer uma pesquisa para saber a aceitação de um novo produto no mercado. Qual
é o número de pessoas que deve ser entrevistado com 7% de erro e 95% de segurança?
9) Deseja-se fazer uma pesquisa junto a uma empresa para saber o interesse dos funcionários
em realizar cursos no exterior. Existem 3 mil funcionários, sendo 1,8 mil com mais de dez
anos de empresa e 1,2 mil com menos. Qual deve ser o tamanho da amostra probabilística
estratificada sabendo-se que em cursos semelhantes 5% dos funcionários acima de dez anos e
10% dos com menos de dez anos de empresa participaram. Considerar 2% de erro e 95,5% de
segurança.
10) Com relação à Tabela 20, calcule:
a) O coeficiente de correlação linear entre Renda Familiar e Poupança.
b) O coeficiente de correlação linear entre Renda Familiar e Número de Filhos.
62
c) O coeficiente de correlação linear entre Média dos Anos de Estudo e Número de Filhos.
d) O coeficiente de correlação linear entre Renda Familiar e Média dos Anos de Estudo.
11) A Tabela 22 mostra o volume de vendas (em 1000 unidades) e os gastos promocionais
(em 100000 reais). Calcular a correlação entre as duas variáveis.
Vendas
Promoção
80 90 95 95 100 110 115 110 120 130
2
4
5
6
8
8
10
10
12
15
Tabela 22
12) Querendo se estimar a média de uma população X com distribuição normal, levantou-se
uma amostra de 100 observações obtendo-se X = 30 e S = 4. Ao nível de 90%, determinar o
limite de confiança para a verdadeira média da população.
13) Um pesquisador deseja estabelecer o peso médio dos jovens entre 14 e 20 anos. Apesar de
desconhecer a média e o desvio padrão populacional, sabe por literatura da área que a
distribuição dos pesos é aproximadamente normal. Retira-se uma amostra casual simples de
60 jovens obtendo peso médio de 67 kg e desvio padrão de 9 kg.
a) Ao nível de 5% de significância, estabelecer um IC para o peso médio populacional.
b) Qual o tamanho da amostra que o pesquisador deveria tomar para ter uma probabilidade de
95% de certeza de cometer um erro de 1,5 kg?
63
Tabela 23: Normal Padrão
64
9.3. RESPOSTAS – LISTAS DE EXERCÍCIOS
9.3.1. 1ª Lista de Exercícios
1) a) 23,4; 48,9; 120,4; 234,8; 78,8; 130,0; 45,1; 12,4; 200,0
b) 46,73; 253,65; 28,26; 123,84; 299,95; 37,48
c) 27; 68; 128; 50; 68; 39
d) 40; 270; 300; 60; 260; 300; 450; 260; 3000
2) a) População: 1000 alunos matriculados; b) Amostragem aleatória simples; Amostra: 150
alunos sorteados.
3) A: 64; B: 32; C: 58; D: 46;
4) a) População: pessoas de 20 anos; b) F: 574; M: 626
5) a) PM: 350; 450; 550; 650; 750; 850; 950; 1050; 1150
fac: 14; 60; 118; 194; 262; 324; 372; 394; 400
f i : 0,04; 0,11; 0,14; 0,19; 0,17; 0,16; 0,12; 0,05; 0,02
f i . 100%: 4; 11; 14; 19; 17; 16; 12; 5; 2
b) 100horas; c) li = 500; d) ls = 1100; e) PM = 750; f) f i = 0,16; g) 15%; h) 19%
6) a) Qualitativa Nominal;
Quantitativa contínua;
Quantitativa Discreta;
Qualitativa
Nominal;
Quantitativa Discreta; Quantitativa Discreta; Qualitativa Ordinal; Qualitativa Ordinal;
c) Sim, como quantitativa contínua, pois existe um número grande de valores diferentes.
Sugestão: iniciar em 0 com amplitude de classe igual a 2.
65
d) Setores; Histograma e Polígono de Freqüência; Colunas; Setores; Colunas ou Histograma e
Polígono de Freqüências; Colunas; Setores ou Colunas; Setores ou Colunas.
7) a) Fisioterapia: quantitativa discreta
Seqüelas: qualitativa nominal
Cirurgia: qualitativa ordinal
b) Fisioterapia: gráfico de colunas
Seqüelas: gráfico de setores
Cirurgia: gráfico de colunas
c) Gráfico de colunas
O número de meses de Fisioterapia diminuiu para os pacientes sem seqüelas.
9) b) 34%
9.3.2. 2ª Lista de Exercícios
1) Média: 1,56; Mediana: 2; Moda: 1 e 2.
2) a) Média: 1,88; Mediana:1,8; Moda: 1,5
c) Média: 1,93; Mediana: 1,8; Moda: 1,6 e 1,8; As diferenças não foram grandes. A solução
(a) é mais exata.
d) O de (c), pois sem o computador é praticamente impossível organizar 500 dados brutos.
3) Média: 86,20 bat / min; Variância: 16,36 ( bat / min)2 ; Desvio Padrão: 4,04 bat / min.
4) Média: 9,85; Variância: 1,88; Desvio Padrão: 1,37.
5) Não, porque a zona de normalidade está entre 155 cm e 195 cm.
66
6) a) B, pois o desvio padrão é menor
b) É considerada normal em A, pois a zona de normalidade está entre 35 e 55. Em B, não,
pois a zona de normalidade está entre 41,5 e 48,5
7) a) Média: 21,9; b) Desvio Padrão:6,34; c) Zona de normalidade: 15,56 a 28,24; d) Sim,
pois 28 está dentro da zona de normalidade.
8) Não, pois está fora da zona de normalidade.
9.3.3. 3ª Lista de Exercícios
1) a) 0,5000; b) 0,3413; c) 0,8185; d) 0,1574; e) 0,0013; f) 0,0228
2) a) 0,9938; b) 0,8413; c) 0,0668; d) 0,6826; e) 19,6
3) a) 0,3289; b) 0,5286
4) Magros: 116,6 kg; Obesos: 143,4 kg
5) Média: 4,745; [ 3,828; 5,662 ]
6) [ 0,677; 0,732 ]
7) IC (μ , 95%) = [ 30,26 ; 32,74 ]
8) 196
9) 377; 515
10) a) 0,9835; b) -0,7586; c) -0,736; d) 0,947
11) 0,9817
12) IC (μ, 90%) = [29,34; 30,66]
13) a) IC (μ, 95%) = [64,723; 69,278];
b) n = 139
67
REFERÊNCIAS
BUSSAB, W. O. & MORETTIN, P. A., Estatística Básica 4 ed. – São Paulo: Atual, 1987.
NAZARETH, H. R. S, Curso Básico de Estatística 4 ed. – São Paulo: Ática, 1991.
TOLEDO, G. L. & OVALLE, I. I., Estatística Básica 2 ed. – São Paulo: Atlas, 1985.
MAGALHÃES, M. N. & LIMA, A. C. P., Noções de Probabilidade e Estatística 6 ed. –
São Paulo: Edusp, 2004.
CARVALHO, L. R., Apostila de Bioestatística – Botucatu – S P: UNESP, 2000.
MORETTIN, L. G., Estatística Básica – Vol. 2 – Inferência – São Paulo: Pearson Makron
Books, 2000.
Download