Probabilidade e Estatística II.indd

Propaganda
VICE-REITORIA DE ENSINO DE GRADUAÇÃO E CORPO DISCENTE
COORDENAÇÃO DE EDUCAÇÃO A DISTÂNCIA
PROBABILIDADE E
ESTATÍSTICA II
Rio de Janeiro / 2008
TODOS
OS DIREITOS RESERVADOS À
UNIVERSIDADE CASTELO BRANCO
UNIVERSIDADE CASTELO BRANCO
Todos os direitos reservados à Universidade Castelo Branco - UCB
Nenhuma parte deste material poderá ser reproduzida, armazenada ou transmitida de qualquer forma ou
por quaisquer meios - eletrônico, mecânico, fotocópia ou gravação, sem autorização da Universidade Castelo
Branco - UCB.
Un3p Universidade Castelo Branco
Probabilidade e Estatística II / Universidade Castelo Branco. – Rio de Janeiro:
UCB, 2008. - 40 p.: il.
ISBN 978-85-86912-75-7
1. Ensino a Distância. 2. Título.
CDD – 371.39
Universidade Castelo Branco - UCB
Avenida Santa Cruz, 1.631
Rio de Janeiro - RJ
21710-250
Tel. (21) 2406-7700 Fax (21) 2401-9696
www.castelobranco.br
Responsáveis Pela Produção do Material Instrucional
Coordenadora de Educação a Distância
Prof.ª Ziléa Baptista Nespoli
Coordenadora do Curso de Graduação
Sônia Albuquerque - Matemática
Conteudistas
Débora Cristina Alves Rego
Supervisor do Centro Editorial – CEDI
Joselmo Botelho
Apresentação
Prezado(a) Aluno(a):
É com grande satisfação que o(a) recebemos como integrante do corpo discente de nossos cursos de graduação, na certeza de estarmos contribuindo para sua formação acadêmica e, conseqüentemente, propiciando
oportunidade para melhoria de seu desempenho profissional. Nossos funcionários e nosso corpo docente esperam retribuir a sua escolha, reafirmando o compromisso desta Instituição com a qualidade, por meio de uma
estrutura aberta e criativa, centrada nos princípios de melhoria contínua.
Esperamos que este instrucional seja-lhe de grande ajuda e contribua para ampliar o horizonte do seu conhecimento teórico e para o aperfeiçoamento da sua prática pedagógica.
Seja bem-vindo(a)!
Paulo Alcantara Gomes
Reitor
Orientações para o Auto-Estudo
O presente instrucional está dividido em cinco unidades programáticas, cada uma com objetivos definidos e
conteúdos selecionados criteriosamente pelos Professores Conteudistas para que os referidos objetivos sejam
atingidos com êxito.
Os conteúdos programáticos das unidades são apresentados sob a forma de leituras, tarefas e atividades complementares.
As Unidades 1, 2 e 3 correspondem aos conteúdos que serão avaliados em A1.
Na A2 poderão ser objeto de avaliação os conteúdos das cinco unidades.
Havendo a necessidade de uma avaliação extra (A3 ou A4), esta obrigatoriamente será composta por todo o
conteúdo de todas as Unidades Programáticas.
A carga horária do material instrucional para o auto-estudo que você está recebendo agora, juntamente com
os horários destinados aos encontros com o Professor Orientador da disciplina, equivale a 60 horas-aula, que
você administrará de acordo com a sua disponibilidade, respeitando-se, naturalmente, as datas dos encontros
presenciais programados pelo Professor Orientador e as datas das avaliações do seu curso.
Bons Estudos!
Dicas para o Auto-Estudo
1 - Você terá total autonomia para escolher a melhor hora para estudar. Porém, seja
disciplinado. Procure reservar sempre os mesmos horários para o estudo.
2 - Organize seu ambiente de estudo. Reserve todo o material necessário. Evite
interrupções.
3 - Não deixe para estudar na última hora.
4 - Não acumule dúvidas. Anote-as e entre em contato com seu monitor.
5 - Não pule etapas.
6 - Faça todas as tarefas propostas.
7 - Não falte aos encontros presenciais. Eles são importantes para o melhor aproveitamento
da disciplina.
8 - Não relegue a um segundo plano as atividades complementares e a auto-avaliação.
9 - Não hesite em começar de novo.
SUMÁRIO
Quadro-síntese do conteúdo programático ...................................................................................................11
Contextualização da disciplina .....................................................................................................................13
UNIDADE I
DISTRIBUIÇÃO DE PROBABILIDADE E DISTRIBUIÇÃO BINOMIAL
1.1 - Introdução ............................................................................................................................................15
1.2 - Distribuição binomial ..........................................................................................................................16
UNIDADE II
DISTRIBUIÇÃO DE POISSON
2.1 - Distribuição de Poisson .......................................................................................................................18
UNIDADE III
DISTRIBUIÇÃO NORMAL E CURVA NORMAL
3.1 - A distribuição normal e a curva normal ...............................................................................................20
UNIDADE IV
CORRELAÇÃO LINEAR E REGRESSÃO LINEAR
4.1 - Correlação linear ..................................................................................................................................25
4.2 - O coeficiente da correlação linear ........................................................................................................26
4.3 - Regressão linear ...................................................................................................................................27
UNIDADE V
INFERÊNCIA ESTATÍSTICA E TESTE DE HIPÓTESES – ASPECTOS GERAIS
5.1 - Inferência estatística ...........................................................................................................................30
5.2 - Testes de hipóteses ...............................................................................................................................32
Glossário .......................................................................................................................................................34
Gabarito.........................................................................................................................................................36
Referências bibliográficas .............................................................................................................................37
Quadro-síntese do conteúdo
programático
UNIDADES DO PROGRAMA
OBJETIVOS
I - DISTRIBUIÇÃO DE PROBABILIDADE E
DISTRIBUIÇÃO BINOMIAL
• Identificar uma distribuição de probabilidade binomial;
• Calcular a probabilidade binomial.
1.1 - Introdução
1.2 - Distribuição binomial
II - DISTRIBUIÇÃO DE POISSON
2.1 - Distribuição de Poisson
III - DISTRIBUIÇÃO NORMAL E CURVA
NORMAL
• Identificar uma distribuição de probabilidade de
Poisson;
• Calcular a probabilidade de Poisson.
• Identificar uma distribuição de probabilidade
normal;
• Calcular a probabilidade normal.
3.1 - A distribuição normal e a curva normal
IV - CORRELAÇÃO LINEAR E REGRESSÃO
LINEAR
4.1 - Correlação linear
4.2 - O coeficiente da correlação linear
4.3 - Regressão linear
V - INFERÊNCIA ESTATÍSTICA E TESTE DE
HIPÓTESES – ASPECTOS GERAIS
5.1 - Inferência estatística
5.2 - Testes de hipóteses
• Identificar grandezas correlacionadas ou não;
• Calcular o coeficiente de correlação;
• Descrever, através de um modelo matemático, a relação
entre duas variáveis, partindo de n observações das mesmas.
• Abordar sucintamente os aspectos gerais da inferência
estatística e do teste de hipóteses.
11
Contextualização da Disciplina
Ao elaborarmos este instrucional, procuramos apresentar a teoria de modo resumido, evitando as receitas
prontas e o formalismo excessivo, os assuntos foram apresentados de tal forma que podem ser utilizados também para o estudo daqueles que queiram rever ou reciclar seus conhecimentos da disciplina. O objetivo é fazer
com que você compreenda as idéias básicas da disciplina de Probabilidade e Estatística II e, quando necessário,
saiba transferir as estruturas adquiridas as outras áreas de conhecimento.
Esperamos que este material seja útil no desenvolvimento de seus trabalhos e no seu aprendizado.
13
UNIDADE I
DISTRIBUIÇÃO DE PROBABILIDADE E
DISTRIBUIÇÃO BINOMIAL
1.1 - Introdução
Variável Aleatória e Distribuição de Probabilidade
Seja x uma variável aleatória que pode assumir os valores x1, x2, x3, ..., xn. A cada valor xi, correspondem
pontos do espaço amostral. Associamos, então, a cada valor xi, a probabilidade pi de ocorrência de tais pontos
no espaço amostral.
Assim, temos:
∑ pi = 1
Os valores x1, x2, x3, ..., xn e seus correspondentes p1, p2, p3, ..., pn definem uma distribuição de probabilidade.
Exemplo: Seja o espaço amostral relativo ao “lançamento simultâneo de duas moedas” r = {(k , k ), (k , c ), (c, k ), (c, c )}, onde
k representa a face cara e c representa a face coroa. A variável x representa o “número de caras” que aparece.
Logo, x assume os seguintes valores {0,1,2} de acordo com a tabela abaixo:
Logo, podemos escrever:
Ao definir a distribuição de probabilidade, estabelecemos uma correspondência biunívoca entre os valores da
variável x e os valores da variável P. Esta correspondência define uma função; os valores xi = { i = 1,2,...n}, o
conjunto imagem.
Essa função, assim definida, é denominada função probabilidade e é representada por:
f(x) = P(x = xi)
A função P(x = xi) determina a distribuição de probabilidade de variável aleatória x.
15
16
1.2 - Distribuição Binomial
Consideremos os experimentos que satisfaçam as seguintes condições:
• O experimento deve ser repetido, nas mesmas condições, um número finito de vezes (n);
• As provas repetidas devem ser independentes, isto é, o resultado de uma não deve afetar os resultados das
sucessivas;
• Em cada prova, deve aparecer um dos dois possíveis resultados: sucesso e insucesso;
• No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1 – p) do insucesso
manter-se-ão constantes.
Resolveremos problemas tais como determinar a probabilidade de se obter k sucessos em n tentativas.
O experimento de “obtenção de caras em cinco lançamentos sucessivos e independentes de uma moeda”
satisfaz essas condições.
⎛n⎞
P(X = k ) = ⎜⎜ ⎟⎟ p k q n − k , indica-se b (k: n, p)
⎝k ⎠
Onde:
• P(X = k ) é a probabilidade de que o evento se realize k vezes em n provas.
⎛n⎞
• ⎜⎜ ⎟⎟ é o coeficiente binomial de n sobre k, igual a
⎝k ⎠
.
• p é a probabilidade de que o evento se realize em uma só prova – sucesso.
• q é a probabilidade de que o evento não se realize no decorrer dessa prova – insucesso.
Essa função define a distribuição binomial.
Vale observar que se a probabilidade de realização de um evento (sucesso) é p, a probabilidade de não realização desse evento (insucesso) é 1 – p = q.
Exemplo: Uma moeda é lançada cinco vezes seguidas e independentes. Calcule a probabilidade de serem
obtidas três caras nessas cinco provas.
SOLUÇÃO: Temos n = 5 e k = 3.
⎛ 5⎞
⎛ 5⎞
Pela lei binomial, podemos escrever: P(X = 3) = ⎜⎜ ⎟⎟ p 3 q 5−3 = ⎜⎜ ⎟⎟ p 3 q 2
⎝ 3⎠
⎝ 3⎠
Se a probabilidade de obtermos “cara” numa só prova (sucesso) é p =
“cara” numa só prova (insucesso) é q = 1 −
Logo:
1 1
= , então:
2 2
1
, a probabilidade de não obtermos
2
Exercícios de Auto-avaliação
1 - Calcule:
a) 5!
b) 6!
2!4!
c) ⎛⎜ 8 ⎞⎟
⎜ ⎟
⎝ 3⎠
d) ⎛⎜ 7 ⎞⎟
⎜ ⎟
⎝5⎠
e) ⎛⎜ 4 ⎞⎟
⎜ ⎟
⎝ 4⎠
f) ⎛⎜ 4 ⎞⎟
⎜ ⎟
⎝0⎠
2 - Determine a probabilidade de, ao lançar três vezes uma moeda honesta, aparecerem:
a) 3 caras
b) 2 caras e 1 coroa
c) 2 coroas e 1 cara
d) 3 coroas
3 - Determine a probabilidade de, em cinco lances de um dado honesto, aparecer um 3.
a) Nenhuma vez
b) Uma vez
c) Duas vezes
d) Três vezes
e) Quatro vezes
f) Cinco vezes
4 - Determine a probabilidade de, em uma família de quatro crianças, haver:
a) Pelo menos um menino.
b) Pelo menos um menino e uma menina.
Admitir que a probabilidade do nascimento de um menino é de ½.
5 - Se 20% dos parafusos produzidos por uma máquina são defeituosos, determine a probabilidade de entre
quatro parafusos escolhidos ao acaso:
a) Um ser defeituoso.
b) Nenhum ser defeituoso.
c) No máximo dois parafusos serem defeituosos.
17
18
UNIDADE II
DISTRIBUIÇÃO DE POISSON
2.1 - Distribuição de Poisson
Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de um evento for
próxima de zero, o evento será denominado raro. Na prática, considera-se um evento como raro quando o
número de tentativas é, pelo menos, igual a 50 (n≥50), ao passo que np é menor que 7. Nesses casos, a distribuição binomial é muito aproximada da de Poisson, com λ = np.
Logo, para n grande e p pequeno, podemos aproximar as probabilidades b (k: n, p) (seqüências de k sucesso,
n ensaios de Bernoulli, p probabilidade do sucesso) por:
np
A distribuição de Poisson é largamente empregada quando se deseja contar o número de eventos de um certo
tipo que ocorre em um intervalo de tempo, ou superfície, ou volume. Por exemplo:
• Número de chamadas telefônicas recebidas por um PABX durante um intervalo pequeno de tempo;
• Número de falhas de um computador em um dia de operação;
• Número de relatórios de acidentes enviados a uma companhia de seguros em uma semana.
De modo geral, dizemos que a variável aleatória X tem uma distribuição de Poisson com parâmetro λ > 0, se:
Exemplo: Um PABX recebe uma média de cinco chamadas por minuto. Supondo que as chamadas que chegam constituam uma distribuição de Poisson, obtenha a probabilidade de que o PABX não receba chamadas
durante um intervalo de um minuto.
Segue-se que λ = 5 chamadas por minuto e P(X = 0 ) =
e −5 .5 0
= e −5 = 0,0067 .
0!
Por outro lado, se quisermos a probabilidade de se obter no máximo duas chamadas em quatro minutos, temos
que λ = 20 chamadas em quatro minutos, logo,
P(X ≤ 2 ) = P(X = 0 )+ P(X = 1)+ P(X = 2 ) =
0
0
0
e − 220
.20 0 e − 220
.20 1 e − 220
..20
20 2
.20
.20
+
+
=
0!
1!
2!
0
20
0
= e − 220
+ 20
20 .e − 20
+ 200.e − 220
= e − 2020 (1 + 20
20 + 200 ) =
=
0
= 221.e − 220
≈ 0.
Exercícios de Auto-avaliação
1- Seja x uma variável aleatória que representa o número de vezes que a palavra “PLATYPLUS” é pronunciada em um determinado dia. Supondo que x tenha distribuição de Poisson com parâmetro λ = 1 , quanto é
2
P( x > 1) ?
2 - Se x é uma variável aleatória de Poisson com parâmetro λ = 10. Quanto é P(1 ≤ x ≤ 3) ?
3 - O número de petroleiros que chegam a uma refinaria em cada dia ocorre segundo a distribuição de Piosson,
com 1=2. As atuais instalações, podem atender, no máximo, a três petroleiros por dia. Se mais de três aportarem
num dia, o excesso é enviado a outro porto. Em um dia, qual a probabilidade de ser enviar petroleiros para
outro porto?
Sugestão: calcule P( x ≥ 4) = 1 − P( x = 0) − P( x = 1) − P( x = 2) − P( x = 3)
19
20
UNIDADE III
DISTRIBUIÇÃO NORMAL E CURVA NORMAL
3.1 - A Distribuição Normal e a Curva Normal
Dentre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal.
Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela se
aproximam.
O aspecto gráfico de uma distribuição normal é o da figura abaixo:
Observações:
1ª) A variável aleatória X pode assumir todo e qualquer valor real;
2ª) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média
( x ), que recebe o nome de curva normal ou de Gauss;
3ª) A área total é limitada pela curva;
4ª) A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo
das abscissas sem, contudo, alcançá-lo.
5ª) Como a curva é simétrica em torno de x , a probabilidade de ocorrer valor maior do que a média é igual
à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escrevemos: P (X >
x ) = P (X < x ) = 0,5.
Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a
probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto.
Exemplo: seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina.
Vamos supor que essa variável tenha distribuição normal com média
x =2 cm e desvio padrão s = 0,04 cm.
Pode-se haver o interesse em conhecer a probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05 cm.
É fácil notar que essa probabilidade, indicada por: P (2 < x < 2,05), corresponde à área hachurada na figura abaixo:
Obs.: O cálculo dessa probabilidade exige recursos matemáticos mais sofisticados. Esse problema é contornado através da
x−x
variável z =
que tem distribuição normal reduzida, isto é, tem distribuição normal de média 0 e desvio padrão 1.
s
As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo
necessidade de serem calculadas.
A tabela dá página seguinte é uma distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a média 0 e um valor z, isto é: P(0<Z<z).
Se X é uma variável aleatória normal de média e o desvio padrão s, podemos escrever:
P( x < X < x) = P(0 < Z < z ), com z =
x−x
s .
Voltemos então para nosso problema.
Queremos calcular: P(2<X<2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o
valor de z que corresponde a x = 2,05 ( x = 2 ⇒ z = 0, pois
x = 2).
Temos, então:
z=
x − x = 22,05
,05 − 2 = 00,05
,05
= 11,25
,25 , onde:
s
00,04
,04
00,04
,04
P(2< X < 2,05) = P ( 0< Z < 1,25).
Procuremos agora na tabela o valor de z = 1,25.
Na primeira coluna encontramos o valor de 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que
corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes, encontramos o valor 0,3944, o que nos permite escrever:
P ( 0< X < 1,25) = 0,3944.
Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média
o valor x = 2,05 é 0,3944 . Escrevemos então:
P(2< X < 2,05) = P ( 0< Z < 1,25) = 0,3944 ou 39,44%.
ÁREA SOB A CURVA NORMAL
Padronizada de 0 a Z
x =2e
21
22
Exercícios Resolvidos
Determine as probabilidades:
Exemplo 1: P (-1,25 < z < 0)
A probabilidade procurada corresponde à parte hachurada da figura:
Pela simetria da curva
P (-1,25 < z < 0) = P (0 < z < 1,25) = 0,3944
Exemplo 2: P (-0,5 < z < 1,48)
Área hachurada:
Cálculo:
P (-0,5 < z < 1,48) = P (-0,5 < z < 0) + P (0 < z < 1,48)
P (-0,5 < z < 1,48) = P (0 < z < 0,5)
P (-0,5 < z < 1,48) = P (0 < z < 0,5) + P (0 < z < 1,48)
= 0,1915 + 0,4306
= 0,6221
Exemplo 3: P (0,8 < Z < 1,23)
Área hachurada
Cálculo:
P (0,8 < Z < 1,23) = P (0 < Z < 1,23) - P (0 < Z < 8)
= 0,3907 – 0,2881
= 0,1026
Exemplo 4: P(Z > 0,6)
Área hachurada
Cálculo:
P(Z < 0,6) = P (Z > 0) – P(0 < Z < 0,6) = 0,5 – 0,2258 = 0,2742
Exemplo 5: P( Z < 0,92)
Área hachurada.
Cálculo:
P(Z < 0,92) = P(Z < 0) + P(0 < Z < 0,92) = 0,5 + 0,3212 = 0,8212
Exercícios de Auto-avaliação
1 - Sendo Z uma variável aleatória com distribuição normal reduzida, calcule:
a) P (0 < z < 1,44)
b) P (-0,85 < z < 0)
c) P (-1,48 < z < 2,05)
d) P (0,72 < z < 1,89)
e) P (z > -2,03)
f) P (z < -0,66)
23
24
2 - Os salários semanais dos operários industriais são distribuídos, normalmente, em torno da média de
R$500,00, com desvio padrão de R$40,00. Calcule a probabilidade de um operário ter salário semanal situado
entre R$490,00 e R$520,00.
3 - Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio padrão 10. Determine a probabilidade de um indivíduo submetido ao teste ter nota:
a) Maior que 120.
b) Maior que 80.
c) Entre 85 e 115.
d) Maior que 100.
4 - Os pesos de 600 estudantes são normalmente distribuídos com média de 65,3 Kg e desvio padrão de 5,5 kg.
Determine o número de estudantes que pesam:
a) Entre 60 e 70 kg
b) Mais que 63,2 Kg
c) Menos que 68 kg
UNIDADE IV
CORRELAÇÃO LINEAR E REGRESSÃO LINEAR
4.1 - Correlação Linear
Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma classe da faculdade A e pelas
notas obtidas por eles em Matemática e Estatística.
TABELA 1
GRÁFICO 1
Representando, em um sistema coordenado cartesiano ortogonal, os pares ordenados (xi , yi), obtemos uma
nuvem de pontos que denominamos diagrama de dispersão.
Esse diagrama nos fornece uma idéia da correlação existente.
No gráfico 1, os pontos obtidos, vistos em conjunto, formam uma elipse em diagonal.
Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos, então, que
a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear.
25
26
Assim, uma correlação é:
a) linear positiva: se os pontos têm como “imagem” uma reta ascendente (como no gráfico 1);
b) linear negativa: se os pontos têm como “imagem” uma reta descendente;
c) não-linear: se os pontos têm como “imagem” uma curva;
d) Se os pontos apresentam-se dispersos, não oferecendo uma “imagem” definida, concluímos que não há
relação alguma entre as variáveis em estudo.
4.2 - O Coeficiente da Correlação Linear
O instrumento empregado para a medida da correlação linear é o coeficiente de correlação. Esse coeficiente
deve indicar o grau de intensidade da correlação entre duas variáveis e ainda o sentido dessa correlação (positivo ou negativo).
Faremos uso do coeficiente de correlação, que é dado por:
Coeficiente de Correlação ( r )
Interpretação do Coeficiente de Correlação ( r )
Os limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [-1, 1].
r=+1
O valor de r =1 mostra uma relação linear positiva
perfeita.
r=-1
O valor de r = -1 mostra uma relação linear negativa
perfeita.
r=0
O valor de r = 0 mostra que X e Y são não correlacionadas linearmente, embora possam ter outro tipo de
relacionamento.
0 < | r | < 0,3
Um valor de r próximo a 0 (zero) indica fraco relacionamento linear entre as variáveis e nada podemos
concluir sobre a relação entre as variáveis.
0,3 ≤ | r | < 0,6
Há uma correlação fraca entre as variáveis.
0,6 ≤ | r | ≤ 1
Há uma correlação significativa entre as variáveis.
Exemplo: Vejamos o cálculo do coeficiente de correlação para o exemplo da tabela 1 no início deste capítulo.
Vamos construir a tabela 2:
TABELA 2
Logo: r =
10 x 473 − 65 x65
(10 × 481 − 65²)(10 × 475 − 65²)
r=
4735 − 4225
(4810 − 4225)(4750 − 4225)
r=
505
505
=
= 0,911
554,18
585 × 525
r = 0,911
Este resultado indica uma correlação linear positiva altamente significativa entre as duas variáveis.
4.3 - Regressão Linear
Ajustamento da Reta
Podemos dizer que a análise de regressão tem por objetivo descrever, através de um modelo matemático, a
relação entre duas variáveis, partindo de n observações das mesmas.
A variável sobre a qual desejamos fazer uma estimativa recebe o nome de variável dependente y e a outra
recebe o nome de variável independente X:
A partir do exemplo da seção anterior, vamos procurar determinar o ajustamento de uma reta para obter uma
função definida por:
y = ax + b
Onde a e b são parâmetros.
27
28
Utilizando os valores obtidos na tabela 2, podemos calcular os valores dos parâmetros a e b com a ajuda das
fórmulas:
nΣxiyi − ΣxiΣyi
nΣxi 2 − (Σxi ) 2
a=
b = y − ax
e
Onde:
n = o nº de observações;
x = é a média dos valores x
Σxi ⎞
⎛
⎜x =
⎟;
n ⎠
⎝
y = é a média dos valores y
Σyi ⎞
⎛
⎜y =
⎟.
n ⎠
⎝
Temos, então, os seguintes cálculos:
a=
10 x 473 − 65 x65
= 0,8632
10 x 481 − (65) 2
Como x =
65
65
= 6,5
= 6,5 e b =
10
10
Vem:
b = 6,5 − 0,8632 x6,5 = 6,5 − 5, 6108 = 0,8892
Segue que: a = 0,86
e
b = 0,89
Logo: y = 0,86x + 0,89
Observação: O resultado na realidade é uma estimativa da verdadeira equação de regressão. Por exemplo:
- O valor estimado para x = 0 é y = 0,89
- O valor estimado para x =5 é y = 0,86 (5) + 0,89 = 5,19
Exercícios de Auto-avaliação
29
1 - Determine o coeficiente de correlação para os valores das variáveis xi e yi abaixo:
xi 4 6 8 10 12
yi 12 10 8 12 14
2 - A partir da tabela:
xi 1
2 3 4 5
6
yi 70 50 40 30 20 10
a) Calcule o coeficiente de correlação;
b) Determine a reta ajustada;
c) Estime o valor de y para x = 0.
3 - Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (xi) e o “volume de
produção nas empresas industriais” (yi), fez-se uma amostragem que inclui 20 empresas, completando-se os
seguintes valores:
Σxxi = 11,34
Σxyi = 20,72
Σxxi2 = 12,16
Determine:
a) O cálculo do coeficiente de correlação;
b) A equação de regressão de y para x;
c) A equação de regressão de x para y.
Σxyi2 = 84,96
Σxxiyi = 22,13
30
UNIDADE V
INFERÊNCIA ESTATÍSTICA E TESTE DE HIPÓTESES –
ASPECTOS GERAIS
5.1 - Inferência Estatística
Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informações de uma amostra.
Você pode estar familiarizado com o termo população num sentido biológico/geológico. Em estatística, o termo não se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia também se referir, por exemplo,
a fósseis, rochas e sedimentos num determinado local, etc.
A população se refere a todos os casos ou situações as quais o pesquisador quer fazer inferências ou estimativas. Diferentes pesquisadores podem fazer inferências acerca da concentração de poluentes num determinado
lençol freático; predizer a quantidade de petróleo num poço a ser perfurado e assim por diante.
Note que o investigador pode não estar interessado em todos os aspectos da população. O pesquisador pode
não querer estudar a concentração de todos os tipos de poluentes, mas somente a de alguns poluentes mais
importantes para seu estudo.
Uma amostra é um subconjunto da população usado para obter informação acerca do todo.
Mas exatamente por que tomamos uma amostra? Por que não usamos a população toda?
Respostas possíveis:
- Custo alto para obter informação da população toda.
- Tempo muito longo para obter informação da população toda.
- Algumas vezes, isso é impossível, como no estudo da poluição atmosférica.
- Algumas vezes, isso é logicamente impossível, como em ensaios destrutivos.
Características de uma população que diferem de um indíviduo para outro e das quais tem-se interesse em
estudar são chamadas variáveis. Exemplos: comprimento, massa, idade, temperatura, número de ocorrências,
etc. de cada unidade (membro) da população (que são desconhecidos). Os verdadeiros (desconhecidos) valores
populacionais são chamados observações.
Princípios de Estimação
Utilizaremos estimativas de uma amostra como nosso melhor “chute” para os verdadeiros valores populacionais. Exemplos são a média amostral, o desvio padrão e a mediana da população (que são desconhecidos). Os
verdadeiros (desconhecidos) valores populacionais são chamados parâmetros.
Note que estatísticas são usualmente representadas por letras romanas, por exemplo, para a média amostral,
enquanto parâmetros são usualmente representados por letras gregas, por exemplo, para a média populacional
e para o desvio padrão populacional.
É claro que, à medida que a amostra aumenta, mais informações nós teremos acerca da população de interesse.
Obtendo uma Amostra
Obtemos uma amostra para fazer interferências válidas somente se a amostra é representativa da população.
Na prática, não existe forma de garantir isso sem ter informação da população inteira para comparar a amostra.
E, em tais circunstâncias, não haveria necessidade de amostragem!
Em vez disso, podemos assegurar que não existe vício sistemático em nossa amostra através de uma seleção
aleatória dos membros da população. Uma amostra aleatória independente é uma amostra selecionada de tal
forma que:
1 - Todos os membros da população têm a mesma chance de serem selecionados.
2 - Cada combinação possível de um número de membros tem a mesma chance de ser selecionada.
Em princípio, a melhor forma de obter uma amostra aleatória de tamanho n é ter uma lista de todos os membros da população, dar a todos um número, digamos de 1 a N, e então escolher aleatoriamente N para definir a
amostra. É claro que na prática isso não é exeqüível, especialmente quando a população é infinita.
Na maioria dos casos, é difícil obter amostras aleatórias. Considere o seguinte diagrama que mostra à população de círculos. Pense neles como se fossem grânulos de tamanhos diferentes. O diâmetro médio destes
círculos é mm.
Suponha que selecionemos uma amostra de cinco desses círculos jogando um lápis sobre o papel repetidamente até que tenhamos atingido cinco círculos. Qual é o diâmetro médio de nossos cinco círculos? O valor
está perto de mm?
No exemplo acima, o esquema amostral causou um vício. Um vício similar seria obtido, por exemplo, na amostragem de um particular tipo de animal – pode ser que os animais que se consegue capturar e medir são aqueles que não
podem correr tão rápido, ou, ao usar uma amardilha, você pode amostrar somente os animais mais famintos, etc.
Sempre que uma amostra é obtida o processo de amostragem, deve estar bem documentada, de tal forma que
as inferências retiradas acerca da população podem ser avaliadas à luz da estratégia amostral.
A Idéia Básica de Intervalos de Confiança
Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido).
Podemos estimar o parâmetro usando θ informação de nossa amostra. Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de θ.
Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores
plausíveis para o parâmetro baseado nos dados amostrais.
Um intervalo de confiança de 95% para um parâmetro populacional fornece um intervalo no qual estaríamos
95% confiantes de cobertura do verdadeiro valor do parâmetro.
Tecnicamente, 95% de todos os intervalos de confiança que construímos conterão o verdadeiro valor do
parâmetro (dado que todas as suposições envolvidas estejam corretas). Então, se obtivermos um intervalo de
confiança para o parâmetro θ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média,
desses intervalos de confiança não conterão θ.
31
32
Podemos obter intervalos de confiança de 95% para: médias, diferenças de médias, proporções, diferenças
em proporções, etc.
Podemos também criar intervalos de confiança de 90%, 99%, 99,9% etc., mas os intervalos de confiança de
95% são os mais utilizados.
5.2 - Testes de Hipóteses
Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados principais de um
estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou não de uma hipótese
específica (se dois grupos têm a mesma média ou não, ou se o parâmetro tem um valor em particular ou não).
Testes de hipóteses fornece-nos a estrutura para que façamos isso.
Intervalos de confiança e testes de hipóteses estão intimamente relacionados. Mas esses estudos fogem ao escopo
do nosso curso, tais conceitos poderão ser úteis em futuros cursos de pós-graduação que aluno venha estudar.
33
Se você:
1)
2)
3)
4)
concluiu o estudo deste guia;
participou dos encontros;
fez contato com seu tutor;
realizou as atividades previstas;
Então, você está preparado para as
avaliações.
Parabéns!
34
Glossário
Correlação
É o estudo da existência e do grau de relacionamento entre variáveis.
Correlação Linear Simples
Mede a relação entre as variáveis X e Y através da disposição dos pontos em torno de uma reta.
Distribuição Binomial
Problemas do tipo determinar a probabilidade de se obterem k sucessos em n tentativas.
⎛n⎞
P(X = k ) = ⎜⎜ ⎟⎟ p k q n − k , indica-se b (k: n, p)
⎝k ⎠
Onde:
• P(X = k ) é a probabilidade de que o evento se realize k vezes em n provas.
⎛n⎞
• ⎜⎜ ⎟⎟ é o coeficiente binomial de n sobre k, igual a
.
⎝k ⎠
• p é a probabilidade de que o evento se realize em uma só prova - sucesso.
• q é a probabilidade de que o evento não se realize no decorrer dessa prova - insucesso.
Essa função define a distribuição binomial.
Distribuição de Poisson
Na distribuição binomial, se n for muito grande, enquanto a probabilidade p da ocorrência de um evento
for próxima de zero, o evento será denominado raro. Na prática, considera-se um evento como raro quando
o número de tentativas é, pelo menos, igual a 50 (n ≥ 50), ao passo que np é menor que 7. Nesses casos, a
distribuição binomial é muito aproximada da de Poisson, com λ = np.
Logo, para n grande e p pequeno, podemos aproximar as probabilidades b (k: n, p) (seqüências de k sucesso,
n ensaios de Bernoulli, p probabilidade do sucesso) por:
Distribuição de Probabilidade
Seja x uma variável aleatória que pode assumir os valores x1, x2, x3, ..., xn. A cada valor xi, correspondem pontos do espaço amostral. Associamos, então, a cada valor xi, a probabilidade pi de ocorrência de tais pontos no
espaço amostral.
Assim, temos:
∑ pi = 1
Os valores x1, x2, x3, ..., xn e seus correspondentes p1, p2, p3, ..., pn definem uma distribuição de probabilidade.
Distribuição Normal e Curva Normal
Dentre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal.
Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela se aproximam.
O aspecto gráfico de uma distribuição normal é o da figura abaixo:
Inferência Estatística
Inferência estatística é o processo pelo qual estatísticos tiram conclusões acerca da população usando informações de uma amostra.
Regressão
Descreve através de um modelo matemático a relação existente entre duas variáveis.
Supondo X a variável explicativa e Y a variável explicada, Y = f(X) +, Y é função da variável X e são as influências sobre Y não devidas a X.
Um modelo de regressão linear de Y sobre X consiste em obter uma reta que melhor represente a relação verdadeira entre as variáveis. A determinação dos parâmetros desta reta é denominada ajustamento.
Através de um diagrama de dispersão, determina-se a função através da qual os valores de X explicarão os de Y.
Testes de Hipóteses
Em geral, intervalos de confiança são a forma mais informativa de apresentar os achados principais de um
estudo.
35
36
Gabarito
UNIDADE I
1 - a) 120
b) 15
c) 56
2 - a) 1/8
b) 3/8
c) 3/8
3 - a) 3125
7776
b) 3125
7776
4 - a) 15/16
b) 7/8
5 - a) 0,4096
b) 0,4096
d) 21
e) 1
f) 1
d) 1/8
d) 125
3888
c) 625
3888
25
e) 125
7776
f)
1
7776
c) 0,9728
UNIDADE II
1 - 0,09020
2 - 0,010290
3 - 0,14287
UNIDADE III
1 - a)0,4251
b)0,3023
c)0,9104
d)0,2064
3 - a)0,0228
b)0,9772
c)0,8664
d)0,5
4 - a) 0,6338
b) 0,6480
2 - 29,02%
c)0,6879
UNIDADE IV
1 - r = 0,42
2 - a) - 0,99
3 - a) 0,54
b) y = - 11,4x+76,6
b) y = 1,81x+0,01
c) y = 76,6
c) x = 0,16y+0,40
e) 0,9788
f)0,2546
Referências Bibliográficas
BUSSAB, Wilton de Oliveira & MORETIN, P. Estatística Básica. São Paulo: Atual, 1998.
CRESPO, Antônio Arnot. Estatística Fácil. 17 ed. São Paulo: Saraiva, 2002.
DOWING, Douglas e CLARK, Jeffrey. Estatística Aplicada. 2 ed. São Paulo: Saraiva, 2005.
HAZZAN, Samuel. Fundamentos da Matemática Elementar n.º5: Combinatória, Probabilidade. 7 ed. São Paulo:
Atual, 2004.
LIPSCHUTZ, Seymour. Probabilidade. São Paulo: Makron Books do Brasil, 1994.
MEYER, Paul L. Probabilidade: Aplicação a Estatística. São Paulo: LTC, 1984.
TRIOLA, Mário F. Introdução à Estatística. Rio de Janeiro: LTC, 1999.
37
Download