Estatistica e Probabilidade

Propaganda
Estatística e Probabilidade
Muitos anos antes de Cristo as necessidades que exigiam o
conhecimento numérico começaram a surgir, pois contar e recensear
sempre foi uma preocupação em todas as culturas.
O primeiro dado estatístico disponível foi o de registos de egípcios
presos de guerra na data de 5000 a.C.
em 3000 a.C. existem também registos egípcios da falta de mão-deobra relacionada a construção de pirâmides.
No ano de 2238 a.C. o Imperador da China Yao, ordenou que fosse feito
o primeiro recenseamento com fins agrícolas e comerciais.
Estatistica e Probabilidade
 Em 600 a.C. no Egipto todos os indivíduos tinham que declarar todos os
anos ao governo de sua província a sua profissão e suas fontes de
rendimento, caso não a fizessem seria declarada a pena de morte.
 Já na Era de Cristo o governador romano da Síria, Quirino, que incluía a
Judeia e a Galileia, por ordem do Senado, teve que fazer um recenseamento
no qual as pessoas tinham que ser entrevistadas no local de sua origem.
 Como está escrito na Bíblia, Lucas cap. 2:1-2 - O imperador César
Augusto mandou uma ordem para todos os povos do Império. Todas as
pessoas deviam se registar para que fosse feita uma contagem da
população. Foi então que São José e a Virgem Maria saíram de Nazaré,
na Galileia, para Belém, na Judeia, para responder ao censo ordenado
pelo imperador César Augusto. Foi enquanto estavam na cidade que
Jesus nasceu.
Estatistica e Probabilidade
 A Estatística é uma parte da matemática aplicada que fornece métodos para
colecta, organização, descrição, análise e interpretação de dados e para a
utilização dos mesmos na tomada de decisões.
 A importância da estatística pode ser vista através da sua utilização ao nível
do Estado, de organizações sociais e profissionais, do cidadão comum e ao nível
científico. O grau de importância atribuída à estatística é tão grande que
praticamente todos os governos possuem organismos oficiais destinados à
realização de estudos estatísticos. Em Moçambique esse organismo é designado
por Instituto Nacional de Estatística ( I.N.E.)
 A Estatística possui dois grandes ramos:
 I – Estatística Descritiva: compreende a colecta, a organização, a
descrição dos dados, o cálculo, de forma a apresentar coeficientes de
forma conveniente e comunicativa.
Estatistica e Probabilidade
 II – Estatística Indutiva ou Inferencial: compreende procedimentos
empregados na análise e na interpretação dos dados para chegar a
grandes conclusões ou inferências sobre populações com base em
dados amostrais, associados a uma margem de incerteza.
Fundamentam ainda as medidas de incerteza que resultam na teoria da
probabilidade.
 População e Amostra
 População: Somatório dos indivíduos ou elementos, com qualquer
característica comum e que estão sujeitos a uma análise estatística, por
terem interesse para o estudo.
Estatistica e Probabilidade
 Quanto à sua origem pode ser:
 um conjunto de pessoas;
 um conjunto de objectos ou;
 um conjunto de acontecimentos.
 Quanto à sua natureza pode ser:
 Existente ou real;
 Hipotética ou parcialmente existente;
 Pode ainda ser:
 um conjunto finito ou
 um conjunto infinito.
Estatística e Probabilidade
 Amostra: é um subconjunto retirado da população, que se supõe ser
representativo de todas as características da mesma, sobre o qual será
feito o estudo, com o objectivo de serem tiradas conclusões válidas
sobre a população.
 Por que realizar um estudo por amostragem
 · Natureza destrutiva de certos testes;
 ·
A impossibilidade física de verificar todos os elementos na
população;
 O custo de estudar todos os elementos em uma população é
frequentemente proibitivo;
 Muitas vezes as estimativas baseadas em uma amostra são mais
precisas do que os resultados obtidos através de censos;
Estatistica e Probabilidade
 Tempo muito elevado para apuramento de resultados em censos;
 Caso 01
 O João é licenciado em Engenharia Civil pela Universidade Católica de
Moçambique e está a trabalhar para a fábrica VisaTexteis. A fábrica
recebeu recentemente uma encomenda de 500 rolos de linhas de várias
cores. O João tem de verificar se os rolos recebidos estão de acordo com
as especificações feitas. Entre as especificações de qualidade, exigia-se
que cada rolo tivesse pelo menos 500 metros de comprimento. Como
deve o João proceder?
Estatistica e Probabilidade
 Caso 02
 Para elaborar uma notícia, um determinado jornal semanal pretende
saber qual a opinião dos moçambicanos relativamente a um dado
projecto governamental. Como deve o Jornal proceder?
Estatistica e Probabilidade
 Variável
 Em Estatística, uma variável é um atributo mensurável que
tipicamente varia entre indivíduos.
Variável quantitativa
São aquelas que são numericamente mensuráveis, por exemplo, a
idade, a altura, o peso. Estas ainda se subdividem em:
Estatistica e Probabilidade
 Variável Quantitativa Continua: São aquelas que assumem valores
dentro de um conjunto contínuo, tipicamente os números reais. São
exemplos, o peso ou a altura de uma pessoa.
 Variável Quantitativa Discreta: São aquelas que assumem valores
dentro de um tempo finito ou enumerável, tipicamente números
inteiros. Um exemplo é o número de filhos de uma pessoa.
 Variável Qualitativa
 São aquelas que se baseiam em qualidades e não podem ser
mensuradas numericamente. Estas ainda se subdividem em:
Estatistica e Probabilidade
 Variável Qualitativa Ordinal: São aquelas que podem ser colocadas
em ordem, por exemplo, a classe social (A,B,C,D, ou E)e a variável
"Peso" medida em 3 níveis (pouco pesados, pesados, muito pesados).
 Variável Qualitativa Nominal: São aquelas que não podem ser
hierarquizadas ou ordenadas, como a cor dos olhos, o local de
nascimento.
Estatística e Probabilidade
 Amostragem: é o procedimento pelo qual um grupo de pessoas ou um
subconjunto de uma população é escolhido com vista a obter informações
relacionadas com um fenómeno, e de tal forma que a população inteira nos
interessa esteja representada.
 Tipos e Métodos de Amostragem
 Amostragens Probabilísticas e não Probabilísticas
 A Amostragem é probabilista, quando a seleção é aleatória de tal forma que
cada elemento tem igual probabilidade de ser sorteado para a amostra. Assim se
conhece a probabilidade de todas as combinações amostrais possíveis.
Estatística e Probabilidade
 Exemplo
 Numa empresa deseja-se escolher 3 diretores entre seus chefes executivos.
A escolha é aleatória e não depende do prestígio, da capacidade, dos anos de
serviço, etc. Temos uma amostragem probabilística.
 Amostragem não probabilística
 Não se conhece a probabilidade de um elemento da população ser escolhido para
participar da amostra.
 Amostragem em que há uma escolha deliberada dos elementos da amostra.
 Confia no julgamento pessoal do pesquisador.
Estatística e Probabilidade
 Técnicas de Amostragens Probabilísticas
 As técnicas de amostragem probabilística servem para assegurar uma certa
precisão na estimação dos parâmetros da população, reduzindo o erro amostral.
O objectivo desta abordagem é obter a melhor representatividade possível.
 As técnicas de amostragem probabilísticas mais comuns são:
 A Amostragem Aleatória Simples;
 A Amostragem Sistemática;
 A Amostragem Aleatória Estratificada;
 A Amostragem em Cachos.
Estatística e Probabilidade
 Amostragem Aleatória Simples é uma técnica segundo a qual cada um
dos elementos (sujeitos) que compõe a população alvo tem igual
probabilidade de ser escolhido para fazer parte de uma amostra.
 Exemplo: Pretende-se obter uma amostra representativa, de 10%, de
uma população de 200 alunos de uma escola.
Estatística e Probabilidade
 1º) Numerar os alunos de 1 a 200;
 2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em
uma urna;
 3º) Retirar 20 pedaços de papel, um a um, da urna, formando a amostra da
população.
 Uma amostra aleatória simples poder ser constituída segundo duas
técnicas: amostra com reposição amostra sem reposição
Estatística e Probabilidade
 Amostragem com reposição, a unidade seleccionada retorna para a
população. Portanto, em cada nova selecção, a população mantém a mesma
quantidade de unidades elementares.
 Amostragem sem reposição, a unidade seleccionada não retorna para a
população. Portanto, em cada selecção a população é reduzida de uma
unidade elementar.
 É importante observar que, em geral, as amostragens são realizadas
sem reposição.
Estatística e Probabilidade
 Amostragem Sistemática
 Na pratica o processo de seleccionar uma amostra aleatória simples de uma
população com grande dimensão, não é tão simples como o descrito
anteriormente. Se a dimensão da população for grande o processo torna-se
muito trabalhoso. Então uma alternativa é considerar uma amostra aleatória
sistemática. Por exemplo, se pretendermos seleccionar uma amostra de 150
alunos de uma Universidade com 6000 alunos.
Estatística e Probabilidade
 Amostra Estratificada – Divide-se a população em várias subpopulações
estratos, e de cada uma destes estratos extrai-se aleatoriamente uma
amostra. O conjunto de todas estas amostras constitui a amostra pretendida.
 Amostragem por Cachos ou Conglomerados: A população é
dividida em cachos, onde cada cacho é representativo da população.
Selecciona-se aleatoriamente um conjunto de cachos e a amostra é
constituída por todos os elementos dos cachos seleccionados.
Estatística e Probabilidade
 Suponha que se deseja estimar a despesa média mensal que uma família tem
com a saúde numa cidade grande, como deve ser escolhida a amostra?
 A amostragem aleatória simples é inviável, pois pressupõe uma listagem de
todas as famílias da cidade, o que é praticamente impossível de se obter. A
alternativa da amostragem estratificada é também inviável, já que aqui também
é necessária uma listagem dos elementos por estrato. A melhor escolha é
amostragem por cachos. O sistema de referência pode ser constituído por todas
os bairros da cidade. Cada bairro é um cacho. Extrai-se uma amostra aleatória
simples dos bairros e nelas pesquisa-se a despesa familiar em todas as casas.
Estatística e Probabilidade
 Amostragens Não Probabilísticas
 É um procedimento de selecção segundo o qual cada elemento da população
não tem a mesma probabilidade de ser escolhido para formar a amostra.
 Técnicas de Amostragens Não-Probabilísticas

 A Amostragem por Conveniência
 A Amostragem por Cotas
 A Amostragem Bola de Neve
Estatística e Probabilidade
 Amostragem Acidental ou de Conveniência
 É formada por sujeitos facilmente acessíveis, que estão presentes num
determinado local e momento preciso. Neste tipo de amostra tem a
vantagem de ser simples de organizar e pouco onerosa, todavia este tipo de
amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40
pessoas sejam representativas da população-alvo. São utilizadas em estudos
que não têm como finalidade a generalização dos resultados.
Estatística e Probabilidade
 Amostragem por Cotas
 Idêntica à amostragem aleatória estratificada, já que é constituída por um
número pré-determinado de pessoas em cada uma das várias categorias da
população. A amostragem por cotas difere da estratificada apenas pelo facto
dos sujeitos não serem escolhidos aleatoriamente no interior de cada cota ou
de cada grupo.
Estatística e Probabilidade
 Amostragem Bola de Neve

 Consiste em escolher sujeitos que seriam difíceis de encontrar de
outra forma. Toma-se por base, redes sociais amizades e
conhecimentos.
 Por exemplo: quando o investigador encontra sujeitos que satisfazem
os critérios escolhidos pede-lhes que indiquem outras pessoas de
características similares
Estatística e Probabilidade
 Dados brutos
 Quando colectamos os dados para uma pesquisa, estas observações são
chamadas de dados brutos.
 Exemplo de dados brutos corresponde ao tempo em minutos que um
pedreiro faz um tijolo de uma determinada empresa.
 Geralmente, este tipo de dados traz pouca ou nenhuma informação ao leitor,
sendo necessário organizar os dados, com o intuito de aumentar sua
capacidade de informação.
Estatística e Probabilidade
P
T
P
T
P
T
P
T
P
T
1
104
9
122
17
129
25
144
33
183
2
108
10
142
18
138
26
151
34
138
3
138
11
106
19
122
27
146
35
115
4
101
12
201
20
161
28
82
36
179
5
163
13
169
21
167
29
137
37
142
6
141
14
120
22
189
30
132
38
111
7
90
15
210
23
132
31
172
39
140
8
154
16
98
24
127
32
87
40
136
Tabela 1: Tempo (t) em minutos para fazer um tijolo por um pedreiro (P) de uma determinada empresa.
Estatística e Probabilidade
 Rol – é a mais simples organização numérica, e a ordenação dos dados em
ordem crescente ou decrescente.
 Amplitude total – corresponde à diferença entre o maior e o menor valor
abservado em um conjunto de dados.
 Como podemos observar na tabela a seguir nº 2 a simples organização dos
dados em rol, aumenta muito a capacidade de informação destes, voce pode
verificar que o menor tempo observado foi de 82 minutos, e o maior , 210
Minutos.
Estatística e Probabilidade
Tabela 1: Tempo (t) em minutos para fazer um tijolo por um pedreiro (P) de uma determinada empresa.
Estatística e Probabilidade
 Outra informação que podemos obter nos dados por meio da tabela 2
(organização em rol crescente) é que alguns tempos, como 122 min,
132 min, 138 min e 142 min, foram os mais frequentes, ou seja, os
mais citados na pesquisa.
 Então surge uma pergunta:
 Como podemos organizar os dados de uma forma mais eficiente,
na qual se possa apresentar uma quantidade maior de
informações?
Estatística e Probabilidade
 Uma maneira de organizar um conjunto de dados para melhor representá-lo
é por meio de uma tabela de distribuição de frequência (tabela onde são
apresentadas as frequências de cada uma das classes).
 Classes: - Intervalos nos quais os valores da variável analisada são
agrupados.
 Intervalos abertos: Os limites da classe (inferior e superior) não pertencem
a ela.
 Intervalos fechados: Os limites de classe (superior e inferior) pertencem a
classe em questão
Estatística e Probabilidade
 Intervalos mistos: Um dos limites pertence a classe, e o outro, não.
 Então, vamos exercitar.
 Pretendemos agrupar os dados em classe ou intervalos de valores, o
que devemos fazer?
 Devemos identificar o valor mínimo e o valor máximo de entre todas
as observações, bem como o número total de observações.
Estatística e Probabilidade
 Neste caso, temos Xmin=82 (valor mínimo) e Xmax=210 (valor
máximo), sendo n=40 (número total de observações).
 Existem formas de determinar o melhor número de classes, tendo
em conta o número de observações recolhidas.
 Uma das formas de determinar o número de classes (K) é através da
fórmula: K = √n , para n ≤ 100 e K = 5log n, para n > 100
 Sabemos o valor da letra n (nº de observações) e o objectivo é
determinar o valor de K (nº de classes).
Estatística e Probabilidade
 Usando a fórmula anterior já podemos descobrir o melhor número de
classes pelas quais vamos distribuir os valores dos tempos dos 40
consumidores.
 Na pesquisa, como temos n=40 Pedreiros, teremos então, o
número de classes definido por K = √n = √40 = 6.32, e como o
número
de
classe
é
inteiro,
usaremos
6
classes.
O
arredondamento utilizado neste material é o padrão de
algarismo significativos (como foi aprendido no ensino médio)
Estatística e Probabilidade
 Já sabemos, então, que temos de formar 6 classes para organizarmos os
dados que foram recolhidos.
 Como vamos obter as Classes?
 Em primeiro lugar vamos efectuar a seguinte operação:
 Xmax - Xmin
(Diferença entre o valor máximo e o valor mínimo das
observações)
 Temos, então : 210 – 82 = 128
 Vamos dividir o resultado encontrado
amplitude (h) de cada uma das classes.
pelo nº de classes, obtemos a
Estatística e Probabilidade
 Neste caso: h=128/6=21.333
 Conhecida a amplitude de classes, voce deve determinar os
intervalos de classe.
 Depois calcula-se o ponto médio de cada classe, que o
somatorio do limite inferior mais limite superior dividido por
dois.
Então, podemos obter uma tabela
Estatística e Probabilidade
 Frequência absoluta (fa) corresponde ao número de observações que
temos em uma determinada classe ou em um determinado atributo de uma
variável qualitativa.
 Frequência relativa (fr) corresponde a proporção do número de
observações em uma determinada classe em relação ao total de observações
que temos.
Estatística e Probabilidade
 Histogramas são gráficos utilizados para representar tabelas
intervalares.
 Histogramas: São constituídos por um conjunto de retângulos, com
bases assentadas sobre um eixo horizontal, tendo o centro da mesma
no ponto médio da classe que representa, e cuja altura é proporcional
à frequência da classe.
 Polígono de frequência – é um gráfico de análise no qual as
frequências das classes são localizadas sobre perpendiculares
levantadas nos pontos médios das classes
Estatística e Probabilidade
 Medidas de Posição
 As medidas de posição ou tendência central constituem uma
forma mais sentética de apresentar os resultados contidos nos
dados observados, pois representam um valor central, em torno
do qual os dados se concentram.
 As medidas de tendência central mais empregadas são a média,
a mediana e a moda.
Estatística e Probabilidade
 Média Aritmética: pela sua facilidade de cálculo e de compreensão
aliadas às suas propriedades matemáticas, é a medida de localização
mais conhecida e utilizada. Pode ser de dois tipos: Simples ou
Ponderada.
 A média aritmética simples, representada por x, é calculada
considerando que todas as observações participam com o mesmo
peso. Assim, para um conjunto de n observações (x1, x2,....xn), a
média aritmética simples ou simplesmente média é definida por
Estatística e Probabilidade
Estatística e Probabilidade
 Exemplo xi = 9,7,5,10,4 temos
Estatística e Probabilidade
 Média Aritmética Ponderada, representada por xp, é calculada
considerando que pelo menos um das observações deve participar com
peso diferente das demais. Assim, se as observações x1, x2,..., xn) forem
associadas aos pesos p1, p2, ... pn a média aritmética ponderada é dada.
Estatística e Probabilidade
 Exemplo: Para xi 7, 8, 6,10 e
Pi= 10,10,8,2
Estatística e Probabilidade
 Mediana
 A mediana, é representada por Md, é a medida que divide um conjunto de dados
ordenados em duas partes iguais: 50% dos valores ficam abaixo e 50% ficam
acima da mediana.
 Existem dois casos diferentes para o cálculo da mediana, mas em ambos o
primeiro passo a ser tomado é a de ordenação dos dados.
 1º Caso: quanto n é ímpar
 Determinamos, primeiramente, a posição mais central (p) do conjunto de
dados ordenado
Estatística e Probabilidade
Estatística e Probabilidade
 Exemplo
 Xi= 4,5,7,9,10
Estatística e Probabilidade
 2º Caso: quando n é par
 Neste caso, temos duas posições centrais no conjunto de dados
ordenado, denotadas por p1 e p2. Ao utilizarmos a expressão P=
n+1/2, obtemos um valor não inteiro. As posições p1 e p2 são os dois
inteiros mais próximos do valor de p.
 A mediana será a média aritmética simples dos valores do conjunto
de dados que ocupam as posições p1 e p2, ou seja ,
Estatística e Probabilidade
Estatística e Probabilidade
 Exemplo
 Para xi = 4,5,7,9,10,12,
Estatística e Probabilidade
 Com intervalos de classe
 Devemos seguir os seguintes passos:
 1º) Determinamos as frequências acumuladas ;
 2º) Calculamos ; ∑ fa/2
 3º) Marcamos a classe correspondente à frequência acumulada
imediatamente superior à ∑ fa/2 . Tal classe será classe mediana ;
 4º) Calculamos a Mediana pela seguinte fórmula:
 Md= Li + [(∑fa/2 – faa)] x h /fa
 Li = é o limite inferior da classe mediana.
Estatística e Probabilidade
 faa = é a frequência acumulada da classe anterior à classe mediana.
 fa = é a frequência simples da classe mediana.
 h = é a amplitude do intervalo da classe mediana
 Vamos usar a nossa tabela de dados agrupados
Estatística e Probabilidade
Estatística e Probabilidade









∑ fa/2 =40/2=20
Logo a classe mediana sera [126 - 147]
Li = 126
faa = 8
fa = 15
h = 21
Substituito esses valores a fórmula, obtemos
Md = 126 + [(20 – 8) x 21]/15 =
Obs: Esta mediana é estimada, pois nao temos todas 40
valores da observacao
Estatística e Probabilidade
 Moda, é representada por Mo, é o valor de maior ocorrência num conjunto
de dados. É a única medida que pode não existir e, existindo, pode não ser
única.
 Exemplos
 X=peso (Kg)
 Para xi = 2,3,7,5,7,5,8,7,9, temos Mo = 7 Kg
 Para xi = 1,3,4,5,4,8,6,8 temos Mo = 4Kg e 8 Kg (conjunto bimodal)
 Para xi = 5,7,8,3,9,1,4, não existe Mo (conjunto amodal)
 Para xi = 1,3,4,4,5,1,3,5 não existe Mo (conjunto amodal)
Estatística e Probabilidade
 Com intervalos de classe:
 A classe que apresenta a maior frequência é denominada classe modal. Pela
definição, podemos afirmar que a moda, neste caso, é o valor dominante
que está compreendido entre os limites da classe modal. O método mais
simples para o cálculo da moda consiste em tomar o ponto médio da classe
modal. Damos a esse valor a denominação de moda bruta.
 Mo = Li + Ls/2 onde
 Li = limite inferior da classe modal e
 Ls = limite superior da classe modal.
Estatística e Probabilidade
 Método mais elaborado pela fórmula de CZUBER: Mo = Li +
(d1/(d1+d2)) x h
 Li= limite inferior da classe modal..... e..... L* = limite superior da classe
modal
 d1 = frequência da classe modal - frequência da classe anterior à da classe
modal
 d2 = frequência da classe modal - frequência da classe posterior à da classe
modal
 h = amplitude da classe modal
Estatística e Probabilidade
 Outras medidas de posição denominadas separatrizes serão definidas a seguir.
 A principal caracteristica das medidas separatrizes consiste na separacao da serie em
partes iguais que apresentam o mesmo numero de valores
 As principais sao os quartis, decis e percentis.
 Quartis
 Os quartis, representados por Qi, onde i=1,2 e 3, são três medidas que dividem um
conjunto de dados ordenados em quatro partes iguais. São elas:
 Primeiro quartil (Q1): 25% dos valores ficam abaixo e 75% ficam acima desta medida.
Estatística e Probabilidade
 Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima
desta medida. O segundo quartil de um conjunto de dados corresponde a
mediana(Q2=Md).
 Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima
desta medida.
Estatística e Probabilidade
 O processo para obtenção dos quartis, da mesma forma que o da
mediana, consiste em, primeiramente, ordenar os dados e, em seguida,
determinar a posição (p) do quartil no conjunto de dados ordenados.
Existem dois casos diferentes para a determinação de p:
Estatística e Probabilidade
 O quartil Q1 será o valor do conjunto de dados que ocupa a posição p, ou
seja, Q1= xp no caso de p não ser um número inteiro, o quartil será a média
aritmética dos dois valores que ocupam as posições correspondentes ao
menor e ao maior inteiro mais próximo de p. Por exemplo, se p=7.5, o
quartil será a média aritmética dos valores que ocupam as posições 7 e 8.
Estatística e Probabilidade
Estatística e Probabilidade
Download