INTRODUÇÃO À ANÁLISE ESTATÍSTICA

Propaganda
INTRODUÇÃO À ANÁLISE ESTATÍSTICA
VOLUME I
Patrícia Pinto
EDIÇÃO, DISTRIBUIÇÃO E VENDAS
SÍLABAS & DESAFIOS - UNIPESSOAL LDA.
NIF: 510212891
www.silabas-e-desafios.pt
[email protected]
Sede:
Rua Dorilia Carmona, nº 4, 4 Dt
8000-316 Faro
Telefone: 289805399
Fax: 289805399
Encomendas: [email protected]
TÍTULO
INTRODUÇÃO À ANÁLISE ESTATÍSTICA — Volume I
AUTORA
PATRÍCIA PINTO
1ª edição
Setembro 2015
Sílabas & Desafios, Unipessoal Lda.
ISBN: 978-989-99114-9-9
Depósito legal:
Pré-edição, edição, composição gráfica e revisão: Sílabas & Desafios Unipessoal, Lda.
Pré-impressão, impressão e acabamentos: Gráfica Comercial, Loulé
Capa: Joana Guita Pinto; http://www.ladybug-ctrlc.com/
Reservados todos os direitos. Reprodução proibida. A utilização de todo, ou partes,
do texto, figuras, quadros, ilustrações e gráficos, deverá ter a autorização expressa
do autor.
2
Aos meus filhos, Filipa e João Maria
3
4
AGRADECIMENTOS
Estou imensamente grata a todos os colegas que partilharam comigo a
lecionação das unidades curriculares de Estatística I (licenciatura em
Economia), Estatística (licenciatura em Gestão de Empresas) e de Análise de
Dados II (licenciatura em Sociologia) da Faculdade de Economia da
Universidade do Algarve pelo interesse e comentários em torno destes textos
que permitiram a sua melhoria. O meu agradecimento estende-se aos
estudantes, pela motivação que sempre me transmitem e que conduziria à
concretização desta publicação.
Agradeço também à Fundação para a Ciência e Tecnologia (FCT) que apoia o
meu trabalho de investigação no âmbito do Centro de Investigação sobre
Espaços e Organizações (CIEO), ao abrigo do projeto UID/SOC/04020/2013.
Patrícia Pinto
5
6
ÍNDICE
NOTA INTRODUTÓRIA
13
CAPÍTULO 1.
TEORIA DAS PROBABILIDADES
15
1.1.
EXPERIÊNCIA ESTATÍSTICA, ESPAÇO AMOSTRA E DIAGRAMAS EM ÁRVORE
15
1.2.
ACONTECIMENTOS ELEMENTARES E ACONTECIMENTOS COMPOSTOS
18
1.3.
O CONCEITO DE PROBABILIDADE. PROPRIEDADES
19
1.4.
PROBABILIDADES MARGINAIS
26
1.5.
PROBABILIDADES CONJUNTAS
29
1.6.
PROBABILIDADES CONDICIONADAS
32
1.7.
ACONTECIMENTOS INDEPENDENTES VERSUS ACONTECIMENTOS DEPENDENTES 36
1.8.
PROBABILIDADE DA REUNIÃO DE ACONTECIMENTOS
39
1.9
TEOREMA DE BAYES
48
CAPÍTULO 2.
VARIÁVEIS ALEATÓRIAS DISCRETAS. CONCEITOS GERAIS.
55
2.1.
CONCEITO DE VARIÁVEL ALEATÓRIA. VARIÁVEIS ALEATÓRIAS DISCRETAS E
VARIÁVEIS ALEATÓRIAS CONTÍNUAS
55
2.2.
DISTRIBUIÇÃO DE PROBABILIDADE DE UMA VARIÁVEL ALEATÓRIA DISCRETA
58
2.3.
MÉDIA DE UMA VARIÁVEL ALEATÓRIA DISCRETA
63
2.4.
VARIÂNCIA E DESVIO PADRÃO DE UMA VARIÁVEL ALEATÓRIA DISCRETA
66
2.5.
FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
71
2.6.
DISTRIBUIÇÕES DE PROBABILIDADE DE DUAS VARIÁVEIS ALEATÓRIAS
74
2.7.
COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO SIMPLES
80
CAPÍTULO 3.
DISTRIBUIÇÃO BINOMIAL E DE POISSON
87
3.1.
A DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL
87
3.2.
A DISTRIBUIÇÃO DE PROBABILIDADE DE POISSON
100
CAPÍTULO 4.
VARIÁVEIS ALEATÓRIAS CONTÍNUAS. CONCEITOS GERAIS.
111
4.1.
FUNÇÃO DE DENSIDADE DE PROBABILIDADE
111
4.2.
MÉDIA, VARIÂNCIA E DESVIO PADRÃO DE UMA VARIÁVEL ALEATÓRIA CONTÍNUA
117
CAPÍTULO 5.
DISTRIBUIÇÃO NORMAL
119
5.1.
CARACTERÍSTICAS E PARÂMETROS DA DISTRIBUIÇÃO NORMAL
119
5.2.
A DISTRIBUIÇÃO NORMAL ESTANDARDIZADA
123
5.3.
APROXIMAÇÃO DAS DISTRIBUIÇÕES BINOMIAL E DE POISSON PELA DISTRIBUIÇÃO
NORMAL
140
BIBLIOGRAFIA
147
7
8
ÍNDICE DE FIGURAS
Figura 1.1. Diagrama em árvore para a experiência “realização de três exames na
época de recurso”.......................................................................................................17
Figura 1.2. Diagrama em árvore para a experiência “seleção de um licenciado” ......35
Figura 1.3. Diagrama em árvore para a situação “escolha ou não de um mestrado por
parte de três recém-licenciados”. ...............................................................................38
Figura 1.4. Diagrama de Venn para dois acontecimentos mutuamente exclusivos. ..39
Figura 1.5. Diagrama em árvore para a experiência “seleção de três estudantes para
efetuarem um estágio” ...............................................................................................42
Figura 1.6. Diagrama de Venn para dois acontecimentos não mutuamente exclusivos
....................................................................................................................................43
Figura 1.7. Representação de P(A) no Diagrama de Venn ..........................................45
Figura 1.8. Representação de P(B) no Diagrama de Venn ..........................................45
Figura 1.9. Representação de P(C) no Diagrama de Venn ..........................................45
Figura 1.10. Representação de 𝑃𝐴 ∪ 𝐵 no diagrama de Venn ...................................47
Figura 1.11. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 47
Figura 1.12. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 47
Figura 1.13. Representação de 𝑃(𝐴 ∩ 𝐵) no diagrama de Venn................................ 48
Figura 1.14. Diagrama em árvore para a experiência “seleção de um cliente” ..........50
Figura 1.15. Árvore invertida para a experiência “seleção de um cliente”. ...............53
Figura 2.1. Gráfico da distribuição de probabilidade da variável aleatória X e
respetiva função de distribuição de probabilidade ....................................................61
Figura 3.1. Diagrama em árvore para a experiência “observação das preferências de
férias de três clientes” ................................................................................................ 90
Figura 3.2. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.2
....................................................................................................................................94
Figura 3.3. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.5
....................................................................................................................................96
Figura 3.4. Gráfico da distribuição de probabilidade da variável X com n = 3 e p = 0.8
....................................................................................................................................96
Figura 3.5. Gráfico da distribuição de probabilidade da variável X ..........................105
Figura 3.6. Gráfico da distribuição de probabilidade da variável X ..........................106
Figura 4.1. Histograma e polígono de frequências relativas do quadro 4.1 .............112
Figura 4.2. Histograma e polígono de densidades de frequências relativas .............113
Figura 4.3. Gráfico da função de densidade de probabilidade de uma variável
aleatória contínua .....................................................................................................114
Figura 4.4. A área abaixo da curva como uma probabilidade ..................................115
Figura 4.5. Área abaixo da curva como uma probabilidade .....................................116
Figura 4.6. A área total abaixo da curva de densidade de probabilidade .................117
9
Figura 5.1. Distribuição normal com média  e desvio padrão  .............................119
Figura 5.2. A área total abaixo da curva normal .......................................................120
Figura 5.3. A curva normal é simétrica em relação à média .....................................120
Figura 5.4. As abas da curva normal nunca tocam o eixo horizontal .......................121
Figura 5.5. A função de densidade de probabilidade normal ...................................122
Figura 5.6. Três curvas normais com a mesma média e desvio padrão diferente ....122
Figura 5.7. Três curvas normais com o mesmo desvio padrão e médias diferentes 123
Figura 5.8. Relação entre a curva normal e a curva da distribuição normal
estandardizada .........................................................................................................125
Figura 5.9. Área entre 10 e 14.6 ...............................................................................126
Figura 5.10. Equivalência da área entre 𝑥 = 10 e 𝑥 = 14.6 e à área entre 𝑧 = 0 e 𝑧 =
1.15 ...........................................................................................................................127
Figura 5.11. Igualdade das área entre 𝑧 = 0 e 𝑧 = 1.15 e 𝑧 = - 0.15 e 𝑧 = 0 ...............128
Figura 5.12. Equivalência da área à direita de 𝑥 = 15.5 e a área à direita de 𝑧 = 1.375
..................................................................................................................................129
Figura 5.13. A área à direita de z = 1.375 .................................................................130
Figura 5.14. Igualdade das áreas à direita de 𝑧 = 1.375 e à esquerda de 𝑧 = - 1.375131
Figura 5.15. Equivalência da área entre 𝑥 = 14 e 𝑥 = 16 da área entre 𝑧 = 1 e 𝑧 = 1.5
..................................................................................................................................132
Figura 5.16. Equivalência da área entre 𝑥 = 14 e 𝑥 = 16 da área entre 𝑧 = 1 e 𝑧 = 1.5
..................................................................................................................................133
Figura 5.17. Equivalência entre a área à direita de 𝑥 = 9.5 e a área à direita de 𝑧 = 0.125 .........................................................................................................................134
Figura 5.18. Equivalência entre a área à esquerda de 𝑥 = 12 e a área à esquerda de 𝑧
= 0.5 ..........................................................................................................................135
Figura 5.19. Determinação do valor 𝑧 ......................................................................136
Figura 5.20. Determinação do valor 𝑧 ......................................................................137
Figura 5.21. Determinação do valor 𝑥 ......................................................................139
Figura 5.22. Distribuição binomial com n = 20 e p = 0.5 e distribuição normal com
média e desvio padrão idênticos ao da distribuição binomial ..................................141
Figura 5.23. Aproximação da distribuição de probabilidade de uma variável aleatória
discreta à distribuição de probabilidade de uma variável aleatória contínua ..........143
10
ÍNDICE DE QUADROS
Quadro 1.1. Quadro de frequências absolutas e relativas. ........................................24
Quadro 1.2. Classificação dupla das respostas de 1000 licenciados. .........................27
Quadro 1.3. Probabilidades marginais e probabilidades conjuntas. ..........................30
Quadro 1.4. Probabilidades condicionadas. ...............................................................34
Quadro 2.1. Frequências absolutas do nº de utilizações dos serviços de Multibanco
....................................................................................................................................56
Quadro 2.2. Frequências absolutas e relativas do nº de utilizações dos serviços de
multibanco ..................................................................................................................58
Quadro 2.3. Distribuição de probabilidade da variável aleatória X = número de vezes
que um cliente utiliza os serviços de multibanco .......................................................59
Quadro 2.4. Distribuição de probabilidade da variável aleatória X = número de
recém-licenciados que se inscrevem num mestrado ..................................................62
Quadro 2.5. Distribuição de probabilidade da variável aleatória X = cotação obtida
em cada resposta por um aluno que responda ao acaso ...........................................65
Quadro 2.6. Distribuição de probabilidade das vendas do vendedor A .....................66
Quadro 2.7. Distribuição de probabilidade das vendas do vendedor B .....................66
Quadro 2.8. Cálculos necessários à determinação de Var(X) .....................................69
Quadro 2.9. Cálculos necessários à determinação de Var(Y) .....................................69
Quadro 2.10. Distribuição de probabilidade de X ......................................................72
Quadro 2.11. Distribuição de probabilidade de L .......................................................73
Quadro 2.12. Classificação dupla de 120 estudantes. ................................................75
Quadro 2.13. Probabilidades Marginais e Probabilidades Conjuntas. .......................75
Quadro 2.14. Distribuição de probabilidade marginal da v.a. X .................................76
Quadro 2.15. Distribuição de probabilidade marginal da v.a. Y .................................76
Quadro 2.16. Distribuição de probabilidade conjunta das v.a. X e Y ..........................76
Quadro 2.17. Distribuição de probabilidade condicionada de X ................................ 79
Quadro 2.18. Distribuição de probabilidade condicionada de Y ................................ 80
Quadro 2.19. Cálculo da covariância ..........................................................................82
Quadro 3.1. Distribuição de probabilidade de X ........................................................93
Quadro 3.2. Parte da tabela da distribuição binomial para n = 3 e p = 0.2 ................95
Quadro 3.3. Distribuição binomial para n = 3 e p = 0.5 ..............................................95
Quadro 3.4. Distribuição binomial para n = 3 e p = 0.8 ..............................................96
Quadro 3.5. Parte da tabela da Distribuição de Poisson para λ = 1 ..........................104
Quadro 4.1. Frequências absolutas e frequências relativas da altura de 1000
portugueses ..............................................................................................................111
Quadro 5.1. Parte da tabela da distribuição normal estandardizada .......................127
Quadro 5.2. Parte da tabela da distribuição normal estandardizada .......................136
11
12
NOTA INTRODUTÓRIA
O manual que aqui se apresenta resulta da já longa experiencia
pedagógica da autora na lecionação de unidades curriculares de Estatística e
de Análise de Dados em cursos de licenciatura em Economia, Gestão de
Empresas e Sociologia na Faculdade de Economia da Universidade do
Algarve. Trata-se de um conjunto de textos introdutórios preparados para
apoiar os estudantes nas referidas unidades curriculares e que visam dar a
conhecer conceitos fundamentais no âmbito do cálculo de probabilidades,
bem como evidenciar algumas variáveis particularmente importantes na
análise estatística e a sua distribuição. O presente manual tem
essencialmente um cariz didático, procurando apresentar os diferentes
conceitos teóricos enquadrados em exemplos práticos de aplicação às
Ciências Sociais e, deste modo, facilitar o seu entendimento.
Assim, o capítulo 1 é dedicado à teoria das probabilidades e introduz
algumas noções e regras básicas que permitem o seu cálculo. O capítulo 2
apresenta os principais conceitos que envolvem as chamadas variáveis
aleatórias discretas, designadamente a sua distribuição de probabilidade e
parâmetros mais relevantes. O capítulo 3 explora duas distribuições de
probabilidade discretas com especial interesse na análise estatística, a
distribuição binomial e a distribuição de Poisson. O capítulo 4 faz uma
abordagem semelhante ao capítulo 2 mas, desta vez, no contexto das
chamadas variáveis aleatórias contínuas. Por último, o capítulo 5 aborda
uma das distribuições contínuas mais importantes na análise estatística, a
distribuição normal.
13
14
CAPÍTULO 1.
TEORIA DAS PROBABILIDADES
A Inferência Estatística está sempre associada a alguma incerteza. Com
efeito, a generalização dos resultados obtidos com base numa amostra a
toda a população é um processo complexo que envolve sempre um certo
grau de erro. Por exemplo, quando uma empresa de sondagens prevê que
um determinado partido político sairá vencedor nas próximas eleições, fá-lo
baseando-se numa série de premissas, algumas das quais poderão revelarse falsas. Nomeadamente, a referida empresa espera que a amostra obtida
seja representativa da população, isto é, que contenha em proporção tudo o
que a população possui, qualitativa e quantitativamente. A empresa espera
ainda que as intenções de voto manifestadas durante o processo de
amostragem se mantenham no dia do ato eleitoral.
A teoria das probabilidades permite precisamente avaliar o grau de
(in)certeza que acompanha a Inferência Estatística e daí a importância de
proceder ao seu estudo. Neste capítulo apresentaremos os conceitos
básicos bem como algumas regras que permitem calcular probabilidades.
1.1.
Experiência Estatística, Espaço Amostra e Diagramas em
Árvore
Considere-se os seguintes exemplos:
Exemplo 1.1. O gestor de produção de uma fábrica de embalagens seleciona
ao acaso uma embalagem recentemente saída da linha de produção. Essa
embalagem pode estar em boas condições ou ser defeituosa.
{teoria das probabilidades}
Exemplo 1.2. Um jogador lança uma vez um dado vulgar. Os resultados
possíveis são 1,2,3,4,5 ou 6.
Os exemplos apresentados permitem introduzir o conceito de experiência
estatística.
EXPERIÊNCIA ESTATÍSTICA – processo que, uma vez
realizado, produz um e um só resultado incerto entre
vários resultados possíveis.
No exemplo 1.1, a experiência estatística é a inspeção aleatória de uma
embalagem. Na verdade, deste ato resultará um só resultado (a embalagem
ou está em boas condições ou é defeituosa) entre dois resultados possíveis.
No exemplo 1.2, a experiência estatística consiste no lançamento do dado.
Também nesta situação apenas é possível obter um resultado (desconhecese qual) entre seis resultados possíveis.
Defina-se agora espaço amostra ou espaço amostral.
ESPAÇO AMOSTRA OU ESPAÇO AMOSTRAL – conjunto
formado por todos os resultados de uma experiência
estatística. O espaço amostra representa-se por S.
Assim, no exemplo 1.1, 𝑆 = {𝑏𝑜𝑚, 𝑑𝑒𝑓𝑒𝑖𝑡𝑢𝑜𝑠𝑜} . No exemplo 1.2, 𝑆 =
{1, 2, 3, 4, 5, 6}.
Naturalmente, nem todas as experiências estatísticas são assim tão simples.
Algumas possibilitam muito mais resultados possíveis e, por isso, dão
origem a espaços amostra bem mais complexos. Nestes casos, é frequente o
recurso a diagramas em árvore que permitem visualizar facilmente todos os
resultados possíveis da experiência.
16
{teoria das probabilidades}
DIAGRAMA EM ÁRVORE – diagrama que permite
visualizar todos os resultados possíveis de uma
experiência estatística.
Exemplo 1.3. Um estudante vai ser submetido a três exames na época de
recurso. Ele pode passar ou reprovar em cada uma das provas. Pretende-se
determinar o espaço amostra.
Resolução: Para determinar o espaço amostra, desenhe-se o diagrama em
árvore correspondente em que “R” significa que o estudante reprova e “P”
que o estudante passa em cada exame:
Figura 1.1. Diagrama em árvore para a experiência “realização de três exames na
época de recurso”
P
P
R
P
R
R
1º Exame
2º Exame
P
PPP
R
P
PPR
PRP
R
PRR
P
RPP
R
P
RPR
RRP
R
3º Exame
RRR
Espaço Amostra
(Resultados Possíveis)
Neste caso, a experiência estatística consiste na realização dos três exames
por parte do estudante. De facto, também neste caso, um só resultado
poderá ocorrer entre os oito resultados possíveis. O espaço amostra é,
então,
𝑆 = {𝑃𝑃𝑃, 𝑃𝑃𝑅, 𝑃𝑅𝑃, 𝑃𝑅𝑅, 𝑅𝑃𝑃, 𝑅𝑃𝑅, 𝑅𝑅𝑃, 𝑅𝑅𝑅}.
17
{teoria das probabilidades}
1.2.
Acontecimentos Elementares e Acontecimentos Compostos
Comecemos por definir acontecimento.
ACONTECIMENTO – qualquer subconjunto do espaço amostra.
Portanto, um acontecimento pode ser constituído por um ou por mais
resultados de uma experiência estatística. No primeiro caso, fala-se em
acontecimento elementar ou acontecimento simples e, no segundo caso,
em acontecimento composto.
ACONTECIMENTO ELEMENTAR OU ACONTECIMENTO
SIMPLES – acontecimento que inclui um e um só dos
resultados (finais) da experiência estatística.
Exemplo 1.4. No exemplo anterior, há oito acontecimentos elementares
que correspondem aos oito ramos da árvore. Definam-se esses
acontecimentos da seguinte forma:
A1 = o estudante é aprovado nos três exames
A2 = o estudante é aprovado nos dois primeiros exames e reprova no
terceiro
A3 = o estudante é aprovado no primeiro e no terceiro exames e reprova
no segundo
A4 = o estudante é aprovado no primeiro exame e reprova nos restantes
A5 = o estudante é reprovado no primeiro exame e aprovado nos
restantes
A6 = o estudante é reprovado no primeiro e no terceiro exames e
aprovado no segundo
A7 = o estudante é reprovado nos dois primeiros exames e aprovado no
terceiro
A8 = o estudante é reprovado nos três exames
18
{teoria das probabilidades}
ou, de forma mais simples:
𝐴1 = (𝑃𝑃𝑃), 𝐴2 = (𝑃𝑃𝑅), 𝐴3 = (𝑃𝑅𝑃), 𝐴4 = (𝑃𝑅𝑅),
𝐴5 = (𝑅𝑃𝑃), 𝐴6 = (𝑅𝑃𝑅), 𝐴7 = (𝑅𝑅𝑃), 𝐴8 = (𝑅𝑅𝑅).
ACONTECIMENTO COMPOSTO – acontecimento que inclui
dois ou mais resultados de uma experiência estatística.
Por outras palavras, um acontecimento diz-se composto se inclui dois ou
mais acontecimentos elementares.
Exemplo 1.5. Ainda no âmbito do exemplo 1.3, considere-se agora o
seguinte acontecimento:
A = o estudante é aprovado em pelo menos dois dos exames a que é
submetido
Este acontecimento ocorrerá se o estudante obtiver aprovação em dois ou
em três exames, isto é, se se verificarem os acontecimentos A1, A2, A3 ou A5.
Assim, o acontecimento A diz-se um acontecimento composto visto ser
formado por quatro acontecimentos elementares:
𝐴 = {𝑃𝑃𝑃, 𝑃𝑃𝑅, 𝑃𝑅𝑃, 𝑅𝑃𝑃}.
1.3.
O Conceito de Probabilidade. Propriedades
Uma possível definição de probabilidade é a seguinte:
PROBABILIDADE – valor numérico que reflete as
hipóteses de ocorrência de um determinado
acontecimento. A probabilidade de ocorrência do
acontecimento A representa-se por P(A).
19
{teoria das probabilidades}
Qualquer probabilidade goza das de duas propriedades importantes:
1) A probabilidade de qualquer acontecimento varia entre 0 e 1. Mais
formalmente, pode escrever-se:
0 ≤ 𝑃(𝐴) ≤ 1.
Naturalmente, uma probabilidade igual a 1 significa que o acontecimento
ocorrerá com certeza. Trata-se de um acontecimento certo. Pelo contrário,
uma probabilidade igual a 0 significa que o acontecimento nunca ocorrerá.
Neste caso, fala-se em acontecimento impossível. Finalmente, uma
probabilidade próxima de 1 indica um acontecimento altamente provável e
uma probabilidade próxima de 0, um acontecimento pouco provável.
Observe-se também que as probabilidades podem ser igualmente
apresentadas sob a forma de percentagens.
2) A soma das probabilidades de todos os acontecimentos elementares de
uma experiência estatística é igual a 1. Assim, sejam 𝐴1 , 𝐴2 ,…, 𝐴𝑛 , n
acontecimentos elementares. Então, pode escrever-se:
𝑛
𝑃(𝐴1 ) + 𝑃(𝐴2 )+. . . +𝑃(𝐴𝑛 ) = ∑ 𝑃(𝐴𝑖 ) = 1.
𝑖=1
Já vimos como interpretar probabilidades. Analisemos agora alguns
métodos que tornam possível o seu cálculo.
Basicamente, três métodos são utilizados com frequência por forma a
atribuir uma probabilidade a um determinado acontecimento. São eles:
1) o método clássico
2) o método da frequência relativa
3) o método subjetivo
O MÉTODO CLÁSSICO
O método clássico pode ser usado se todos os resultados da experiência
20
Download