Notas de aula de probabilidade e estatistica

Notas de aula da disciplina Probabilidade e Estatística
Professor M. Sc. André Luiz
DAMAT - UTFPR
Esta apostila apresenta os tópicos principais abordados em sala de aula, contendo
definições, teoremas, exemplos. Sua leitura não é obrigatória, porem auxilia no
entendimento do conteúdo estudado. Referencias são feitas ao final do material, não
aparecendo às citações no texto afim de não sobrecarregar a leitura.
Curitiba
2012
1 . Conceitos e definições
1.1 O que é Estatística?
Podemos entender o termo Estatística como sendo um conjunto de técnicas que permitem,
de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos
ou experimentos, realizados em qualquer área do conhecimento.
A grosso modo podemos dividir a Estatística em três áreas:

Estatística Descritiva

Probabilidade

Inferência Estatística
1.1.1 Estatística Descritiva
É, em geral, utilizada na etapa inicial da análise, quando tomamos contato com os dados
pela primeira vez. Objetivando tirar conclusões de modo informal e direto, a maneira mais
simples seria a observação dos valores colhidos. Assim, a estatística descritiva pode ser
definida como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de
que possamos tirar conclusões a respeito de características de interesse.
1.1.2 Probabilidade
Probabilidade pode ser pensada como a teoria matemática utilizada para estudar a incerteza
oriunda de fenômenos de caráter aleatório.
Observação. Alguns autores consideram a Probabilidade como uma das divisões da
Estatística.
1.1.3 Inferência Estatística
É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das
informações e conclusões obtidas a partir de subconjuntos de valores, usualmente de
dimensão muito menor. Deve ser notado que, se tivermos acesso a todos os elementos que
desejamos estudar, não é necessário o uso das técnicas de inferência estatística.
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a todo o
conjunto de dados, por razões de natureza econômica, ética ou física.
Estudos complexos que envolver tratamento estatístico dos dados, usualmente, incluem as
três áreas mencionadas anteriormente.
1.2 Fases do Método Estatístico
1.2.1 Definição do Problema e planejamento
Descrição dos objetivos da pesquisa e identificação da população/amostra.
Identificação das variáveis, método de investigação, técnicas de amostragem, apuração dos
dados, pesquisa piloto e cronograma físico-financeiro.
1.2.2 Coleta de Dados
A coleta pode ser direta e indireta. É direta quando feita sobre elementos informativos de
registros obrigatórios (nascimentos, casamentos, importação e exportação de mercadorias),
elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os
dados são coletados pelo próprio pesquisador através de inquéritos e questionários, como é
o caso das notas de verificação e de exames do censo demográfico, etc.
A coleta direta de dados pode ser classificada relativamente ao fator tempo em:
a) contínua – também denominada registro, é feita continuamente, tal como a de
nascimentos, casamentos e óbitos ou como no de vendas a vista de uma empresa
comercial;
b) periódica – quando feita em intervalos constantes de tempo, como os censos em geral
(de 10 em 10 anos) e os balanços de uma empresa comercial;
c) ocasional – quando feita de tal modo que não se considera o tempo em continuidade e
nem periódico, a saber, independente do tempo e é feita quando a requer o estudo de um
fenômeno. São realizadas a fim de atender a uma conjuntura ou a uma emergência, como
no caso de epidemias que assolam ou dizimam rebanhos inteiros.
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do
conhecimento de outros fenômenos relacionados com o fenômeno estudado. Como por
exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que é feita através de dados
colhidos por uma coleta direta. É coleta indireta também, a pesquisa sobre a duração de
vida do ser humano que pode ser feita com os dados colhidos através da coleta direta,
obtidos pelos cartórios ou os valores representativos das vendas de uma empresa que são
extraídos das notas fiscais e do caixa.
1.2.3 Crítica dos dados
Com o propósito de identificar possíveis falhas e imperfeições que possam ocasionar erros
grosseiros ou de certo vulto e assim, influenciar os resultados, os dados devem se
cuidadosamente criticados.
A crítica pode ser externa ou interna.
a) Externa: quando visa às causas dos erros por parte do informante, por distração ou má
interpretação das perguntas que lhe foram feitas;
b) Interna: quando visa observar os elementos originais dos dados da coleta.
1.2.4 Apuração dos dados
É o processamento dos dados obtidos e a disposição mediante critérios de classificação.
Pode ser manual, eletromecânica ou eletrônica.
1.2.5 Exposição ou apresentação dos dados
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser
apresentados sob forma adequada (tabelas ou gráficos), tornando mais fácil o exame
daquilo que está sendo objeto de tratamento estatístico e posterior obtenção de médias,
modas, medianas, etc.
1.2.6 Análise dos resultados
Como já dissemos, o objetivo último da Estatística é tirar conclusões sobre o todo
(população) a partir de informações fornecidas por parte representativa do todo (amostra).
Assim, realizadas as fases anteriores (Estatística Descritiva), fazemos uma análise dos
resultados obtidos através dos métodos da Estatística Indutiva ou Inferencial, que tem por
base a indução ou inferência, e tiramos desses resultados conclusões e previsões.
1.3 Variável
Seja o exemplo a seguir:
Três pessoas estão em uma sala à espera para uma entrevista. Um questionário é entregue
a cada uma dessas pessoas e deve ser entregue. No questionário existem 4 perguntas
pessoais, sendo elas: 1. Gênero (Sexo); 2. Idade (em anos); 3. Altura (em cm) e 4. Fumante.
As respostas foram colocadas em na tabela a seguir:
Gênero
Idade
Altura
Fumante
Pessoa 1
Masculino
19
1.79
Não
Pessoa 2
Feminino
22
1.69
Sim
Pessoa 3
Feminino
21
1.64
Não
Cada uma das características perguntadas as pessoas, gênero, idade, altura e fumante, é
denominada de variável. Assim a variável Gênero assume o valore masculino ou feminino, a
variável idade os valores 19 anos, 22 anos e assim por diante.
É fácil de verificar que as variáveis possuem naturezas diferentes em relação aos valores
que podem assumir. Tal fato deve ser levado em consideração nas analises.
Podemos dividir as variáveis em dois grupos qualitativas ou quantitativas:
1.3.1 Variável qualitativa – quando seus valores são expressos por atributos: sexo
(masculino – feminino), cor da pele (branca, preta, amarela, vermelha, parda), tamanho
(pequeno, médio ou grande) etc.
1.3.1.1 Qualitativa ordinal – tem uma ordenação natural, indicando intensidades
crescentes de realização. Exemplo. Classe Social (baixa, média ou alta).
1.3.1.2 Qualitativa nominal – quando não é possível estabelecer uma ordem natural.
Exemplo. Fuma (sim, não).
1.3.2 Variável quantitativa – quando seus valores são expressos em números (salários dos
operários, idade dos alunos de uma escola etc.).
1.3.2.1 Variável discreta
Uma variável quantitativa que só pode assumir valores pertencentes a um conjunto
enumerável recebe o nome de variável discreta.
Por exemplo, na determinação do número de alunos de certa turma, a variável, “número de
alunos” é discreta.
1.3.2.2 Variável contínua – uma variável quantitativa que pode assumir, teoricamente,
qualquer valor entre dois limites, chama-se variável contínua.
Por exemplo, na determinação das alturas dos adolescentes de uma escola, a variável
“altura” é continua. Seja uma classe onde o menor aluno possui 155 cm e o mais alto 190
cm, os demais alunos podem assumir qualquer altura nesse intervalo, digamos 168,5 cm.
De um modo geral, as medições dão origem a variáveis contínuas e as contagens ou
enumerações, a variáveis discretas.
1.4 População e Amostra
1.4.1 População Estatística ou Universo Estatístico
É o conjunto de entes portadores de pelo menos uma característica comum.
Por exemplo, os estudantes constituem uma população, apresentam pelo menos uma
característica comum: são os que estudam.
As populações podem ser finitas, como, por exemplo, os alunos matriculados em
determinada matéria, ou infinitas, como por exemplo, os resultados obtidos quando se joga
um dado sucessivamente. Existem populações que embora finita, são consideradas infinitas
para qualquer finalidade prática. Como exemplo, imagine o número de grãos de areia de
uma praia.
Como em qualquer estudo estatístico temos em mente pesquisar uma ou mais
características dos elementos de alguma população, esta característica deve estar
perfeitamente definida.
1.4.2 Amostra
Por impossibilidade ou inviabilidade econômica ou temporal, muitas vezes, limitamos as
observações referentes a uma determinada pesquisa a apenas uma parte da população. A
essa parte proveniente da população em estudo denominamos amostra.
“Uma amostra é um subconjunto finito de uma população”
Exemplo:
Se quisermos estudar as idades dos alunos matriculados em uma disciplina, então todos os
alunos formão a população e se apenas tomarmos as idades dos alunos, estaríamos
retirando uma amostra da população total.
1.4.3 Amostragem
É uma técnica especial para recolher amostras, de uma mesma população, que garanta,
tanto quanto possível, o acaso na escolha.
Dessa forma, cada elemento da população passa a ter a mesma chance de ser escolhido, o
que garante à amostra o caráter de representatividade, da população da qual foi extraída.
Uma amostra é representativa de uma população quando é composta por elementos
escolhidos de forma não tendenciosa, geralmente, por um procedimento que garanta a
casualidade, procedimento importante para a confiabilidade dos resultados e necessário à
inferência.
Como é difícil conhecer a população dos indivíduos pesquisados, utilizamos a amostragem
para tentar obter as características da população utilizando alguns indivíduos apenas.
A amostragem deve ser usada quando:
a) a população é particularmente grande ou infinita;
b) as observações ou mensurações têm alto custo;
c) as medidas exigem testes destrutivos;
d) há necessidade de rapidez etc.
1.4.4 Técnicas de Amostragem
a) Amostragem casual ou aleatória simples
Este tipo de amostragem é equivalente a um sorteio lotérico.
Na pratica, a amostragem casual ou aleatória simples pode ser realizada numerando-se a
população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer,
k números dessa seqüência, os quais corresponderão aos elementos pertencentes à
amostra.
b) Amostragem proporcional estratificada
Muitas vezes a população se divide em subpopulações (estratos). Como é provável que a
variável em estudo apresente, de estrato, um comportamento heterogêneo e, dentro de
cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da
amostra leve em consideração tais estratos.
É exatamente isso que fazemos quando empregamos a amostragem proporcional
estratificada, que, além de considerar a existência dos estratos, obtém os elementos da
amostra proporcional ao número de elementos dos mesmos.
A amostragem por estratificação tem as seguintes características:
1) dentro de cada estrato há uma grande homogeneidade, ou então uma pequena
variabilidade:
2) entre os estratos há uma grande heterogeneidade, ou então uma grande variabilidade.
c) Amostragem por Conglomerados
A população é dividida em diferentes conglomerados (grupos). Seleciona-se um
conglomerado e dentro dele são realizados os estudos.
Há uma mudança fundamental na unidade de sorteio. Passamos de elemento para grupo.
Consideramos conglomerados os grupos de elementos com as seguintes características:
1) dentro de cada conglomerado há uma grande heterogeneidade, ou então uma grande
variabilidade;
2) entre os conglomerados há uma grande homogeneidade, ou então uma pequena
variabilidade.
d) Amostragem Sistemática
Quando os elementos da população já se acham ordenados, não há necessidade de
construir o sistema de referências. São exemplos os prontuários médicos de um hospital, os
prédios de uma rua, as linhas de produção, etc. Nestes casos, a seleção dos elementos que
constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo
de amostragem denominamos sistemática.
Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um
para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o
tamanho da amostra em 10% da população.
Exemplo
Suponhamos uma rua contendo novecentos prédios, dos quais desejamos obter uma
amostra formada por cinqüenta prédios. Podemos, neste caso, usar o seguinte
procedimento: como 900/50 = 18, escolheremos por sorteio casual um número de 1 a 18
(inclusive), o qual indicaria o primeiro elemento sorteado para a amostra; os demais
elementos seriam periodicamente considerados de 18 em 18. Assim, se o número sorteado
fosse o 4, tomaríamos, pelo lado direito da rua, o 4º prédio, o 22º, o 40º etc, até voltarmos
ao início da rua, pelo lado esquerdo.
1.4.5 Tendenciosidade da Amostra
Sempre é possível que a amostra obtida seja tendenciosa ou viciada, isto é, não
representativa da população.
2. Apresentação de Dados
Basicamente a apresentação de dados é feita através de tabelas, quadros e gráficos.
Tabela é um arranjo de dados na forma de grade com laterais abertas enquanto o quadro
possui as laterais fechadas. As tabelas são mais utilizadas para informações numéricas e
os quadros para informações não numéricas.
2.1 Componentes de uma tabela ou quadro
a) Cabeçalho – informações sobre os dados da tabela/quadro. O que? Quando? Onde?
b) Corpo – espaço interno à tabela/quadro destinado à apresentação dos dados.
c) Rodapé – contém a fonte dos dados e demais informações necessárias ao entendimento,
tais como, como notas ou chamadas.
3. Distribuições de Frequências
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem
assumir, para que tenhamos uma visão ampla da variação dessa ou dessas variáveis. E
isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos.
3.1 Dados Brutos
São aqueles que ainda não foram organizados. Um exemplo é o conjunto das alturas de 100
estudantes tirado de uma lista alfabética do registro da universidade.
3.2 Rol.
É um arranjo de dados brutos em ordem crescente ou decrescente. Pode-se realizar a
ordenação com o auxílio softwares, caso possua muitos dados, ou manualmente, quando o
número de dados é reduzido.
3.3 Frequência simples ou absoluta
Frequência simples ou absoluta (fi) do valor xi é o número de vezes que a variável estatística
assume o valor xi.
Mas o processo dado pode ser inconveniente, já que exige muito espaço, mesmo quando o
número de valores da variável é de tamanho razoável. Sendo possível, a solução mais
aceitável, pela própria natureza da variável contínua, é o agrupamento de valores em vários
intervalos. Deste modo, estaremos agrupando os valores da variável em intervalos, sendo
que, em Estatística, preferimos chamar de classes.
Chamando de frequência de uma classe o número de valores da variável pertencentes à
classe.
3.4 Classes de Frequência
Classes de frequência ou, simplesmente, classes são intervalos de variação da variável. As
classes são representadas simbolicamente por i, sendo i = 1, 2, 3,....,k (onde k é o número
total de classes da distribuição).
3.5 Limite de Classe
Denominamos de limite de classe os extremos de cada classe. O menor número é o limite
inferior da classe ( ℓi ) e o maior número, o limite superior da classe(Li).
Obs. Segundo Resolução 886/66 do IBGE o intervalo de classe deve ser fechado à
esquerda e aberto à direita, e utiliza-se o símbolo |.
3.6 Amplitude de um Intervalo de Classe
Amplitude de um intervalo de classe ou, simplesmente, intervalo de classe é a medida do
intervalo que define a classe.
Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por hi
Assim:
hi = Li – ℓi
3.7 Ponto Médio de uma Classe
É o ponto intermediário do intervalo de classe e é obtido somando-se o limite inferior ao
limite superior e dividindo-se a soma por 2.
3.8 Amplitude Total (R)
É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados.
Assim, no exemplo da seção 1.3 temos que a amplitude das idades dos entrevistados é:
R = 22 – 19 = 3
3.9 Somatório (∑)
O símbolo ∑ é usado para escrever abreviadamente expressões que envolvem sucessivas
adições. Assim, indicamos a adição dos termos fi, com i variando de 1 até k (k  N*), como:
k
f
i 1
i
ou
f
i
3.9.1 Propriedades do somatório
P1) Seja X = {xi}i = 1, ..., k uma variável e α uma constante, então,
  .x
i
   xi .
k
P2) Seja α uma constante, então
  k. .
1
P3) O somatório de uma soma de variáveis é igual à soma dos somatórios de cada uma das
variáveis:
 x
i
 yi    xi   yi
P4) O somatório de uma diferença de variáveis é igual à diferença dos somatórios de cada
uma das variáveis:
 x
i
 y i    xi   y i
3.10 Frequência Absoluta Acumulada
Podemos completar a tabela de freqüências absolutas com uma coluna de freqüências
absolutas acumuladas (fia) ou somente freqüência acumulada, cujos valores são obtidos
adicionando a cada freqüência absoluta os valores das freqüências anteriores.
3.11 Frequência Relativa
Chama-se frequência relativa (fr) do valor de xi da variável o quociente entre a freqüência
absoluta (fi) e o número de elementos N da amostra e é, geralmente, expressa em
porcentagem, ou seja:
fr 
fi
N
4. Representação Gráfica
Após a coleta de dados em uma pesquisa, vimos que uma maneira de organizar dados de
forma concisa é construir tabelas de frequências. Uma vez obtida a tabela de frequências
podemos visualizar melhor os dados destas, construindo-se gráficos.
A apresentação em gráficos, das distribuições de freqüências de uma variável em estudo,
permite ao leitor uma visualização acurada dos resultados inseridos nas tabelas.
Existem diversos tipos de gráficos e a escolha adequada depende basicamente do tipo de
dado e da finalidade da apresentação. Os gráficos podem ser facilmente elaborados com
uso de softwares específicos, tal como o software Excel.
4.1 Gráfico de Linha
Estudamos gráficos de linha desde o ensino fundamental, onde construímos os gráficos de
funções de uma variável. Tais gráficos são feitos no chamado plano cartesiano (xy), onde
confrontamos para cada valor de x, variável, com seu respectivo par y = f(x). Nos gráficos de
linha de variáveis estatísticas são construídos da mesma maneira, ou seja, para cada
variável xi temos um correspondente yi = f(xi).
Os gráficos de linhas são muito utilizados para mostrar a evolução durante certo período
(séries temporais). O gráfico permite visualizar muito bem o crescimento, o decréscimo ou a
estabilidade do objeto a ser analisado.
4.2 Gráfico de Barras.
É um tipo de gráfico em que barras horizontais com larguras iguais e comprimentos
proporcionais à frequência de cada dado.
O gráfico de barras é apropriado para representar graficamente os dados qualitativos, porém
pode, também, ser utilizado para representar dados quantitativos discretos.
4.3 Gráfico de Colunas.
É um tipo de gráfico em que barras verticais com larguras iguais e comprimentos
proporcionais à frequência de cada dado. Os valores da variável são colocados no eixo
horizontal, e as frequências no eixo vertical. Indicado para séries temporais, séries
conjugadas, variáveis qualitativas e quantitativas discretas.
4.5 Histograma.
Para dados agrupados em classes, a representação gráfica da distribuição de frequências é
feita por meio de um histograma, que é um gráfico formado por um conjunto de colunas
retangulares. No eixo das abscissas marcamos as classes, cujas amplitudes correspondem
às bases dos retângulos. No eixo das ordenadas marcamos as frequências absolutas ou
relativas, que correspondem às alturas dos retângulos. Os pontos médios das bases dos
retângulos coincidem com os pontos médios dos intervalos de classes.
4.5.1 Roteiro para construção do histograma.
a) Obtenha a tabela de frequência a partir dos dados, agrupando-os em classes;
b) desenhe dois eixos ortogonais de bom tamanho;
c) divida o eixo horizontal em tantas partes quanto for o número de classes mais dois
(considere uma classe à esquerda da primeira classe e outra à direita da última classe, para
deixar espaço suficiente para traçar o polígono de frequência, que veremos mais adiante), e
marque os números correspondentes aos limites inferior e superior de cada classe;
d) identifique a maior frequência da classe na tabela de frequência; escolha um número
adequado, maior ou igual àquela frequência; marque esse número na extremidade do eixo
vertical; divida o eixo vertical em algumas partes e marque os números correspondentes;
e) para cada classe, desenhe um retângulo com largura igual a amplitude da classe com
altura igual à frequência da classe.
4.6 Gráfico Polígono de Frequência.
O polígono de frequência também é estruturado a partir da tabela de frequência, tal qual o
histograma.
Define-se o gráfico polígono de frequência como um gráfico de linha, onde os pontos a
serem conectados pela linha são os pontos médios dos intervalos de classe para as
abscissas com as correspondentes frequências para as ordenadas.
4.7 Gráfico Polígono de Frequências Acumuladas (Ogiva)
A representação gráfica da frequência acumulada é denominada ogiva e é construída por
segmentos de reta interligando os pontos definidos pela frequência acumulada e pelo
limite superior de cada classe.
5. Medidas de posição ou de tendência central
A pretensão é de determinar as medidas que oferecem o posicionamento da distribuição dos
valores de uma variável que desejamos analisar. Ou seja, são medidas utilizadas para
representar fenômenos coletivos através de um único valor, fornecendo uma idéia geral a
respeito do fato ou fenômeno analisado.
Dividem-se em:
Matemáticas:



Média aritmética;
Média geométrica;
Média harmônica.
Não matemáticas:


Moda;
Mediana.
5.1 Média aritmética
i) É a mais comum e mais intuitiva das medidas de posição;
ii) Tem uso generalizado, ou seja, aplica-se a um grande número de situações práticas;
iii) Deve ser empregada com cautela, pois sofre influência de todos os valores
presentes na amostra (série);
iv) É representada por:
x  média da amostra;
  média populacional.
Calculo da média aritmética
a) Série simples, lista de dados ou dados brutos (Amostra)
Seja x  x1 , x2 , ..., xn  uma amostra com n observações, a média aritmética é:
n
x  x2    xn
x 1

n
x
i 1
i
.
n
Média aritmética de uma população de tamanho N  n :
N
xi
x1  x 2    x n    x N 
i 1
.


N
N
b) Séries agrupadas ( f i )
n
x f  x2 f 2    xn f n
x 1 1

f1  f 2    f n
x
i 1
n
f
i 1
fi
i
.
i
Média aritmética de uma população de tamanho N  n :
N
x f  x2 f 2    xn f n    x N f N
x 1 1

f1  f 2    f n    f N
x
i 1
N
i
f
i 1
fi
.
i
5.2 Média geométrica
Deve ser utilizada sempre que a série (amostra):
 Aproximar-se de uma Progressão Geométrica (PG);
 Representa percentagens sucessivas (quando diferentes porcentagens incidem uma
sobre as outras).
Cálculo da média geométrica
a) Série simples (amostra)
Seja x  x1 , x2 , ..., xn  uma amostra com n observações no formato de uma PG, a média
geométrica simples desse conjunto de dados é obtida por:
G  n x1 .x2 ..x n  n
n
x
.
i
i 1
b) Séries agrupadas ( f i )
Seja x  x1 , x2 , ..., xn  uma amostra com n observações no formato de uma PG, onde
podem ocorrer repetições nos valores observados. Temos que a média geométrica desse
conjunto de dados é obtida por:
n
G   i x1f1 .x1f 21 ..x1f n   fi  xifi .
f
i 1
Podemos ver que quando trabalhamos com a média geométrica para séries agrupadas,
temos a multiplicação de valores com uma potência relacionada, assim podendo conduzir a
valores elevados. Uma solução alternativa que se apresenta nesses casos consiste em
utilizar logaritmos e transformar as expressões para as que seguem:
Série simples (amostra)
log G 
ln G 
 log x
i
n
 ln x
Série agrupada ( f i )
 log x  f 
f
 ln x  f 
ln G 
f
log G 
i
i
i
i
i
n
anti log log G   10  G
x
i
i
anti log ln G   e x  G
5.3 Média harmônica (H)
É um tipo especial de média, deve ser usada quando a série apresentar uma relação inversa
entre os dados, por exemplo, nos casos de cálculo de velocidade média ou consumo médio,
pois, à medida que a velocidade ou consumo aumentam, o tempo envolvido diminui.
”A média harmônica corresponde ao inverso da média aritmética com os dados invertidos.”
Cálculo da média harmônica
a) Série simples (amostra)
Seja x  x1 , x2 , ..., xn  uma amostra com n observações, a média harmônica desse
conjunto de dados é:
H
n
1
  x
 i



.
b) Séries agrupadas ( f i )
Se x  x1 , x2 , ..., xn  e f   f1 , f 2 ,, f n  , então a média harmônica de x é:
H
f
i
f
  xi
 i



.
5.4 Mediana
É utilizada para destacar o elemento central em um conjunto de dados, ou seja, a mediana é
o elemento que divide uma série (amostra) em duas partes iguais.
0%
Me
100%
Por estar no centro da série em termos da quantidade de elementos, a mediana não sofre
interferência dos valores extremos. Por isso acaba sendo uma medida mais útil e mais
interessante do que a própria média, principalmente para a análise e interpretação de fatos
socioeconômicos, onde é frequente a presença de valores extremos fortemente
diferenciados.
Cálculo da mediana
a) Série simples ( n ímpar)
A mediana corresponde ao termo central.
b) Série simples ( n par)
A mediana corresponde a média aritmética simples dos valores dos dois termos centrais.
c) Série Agrupada

 n 1
n ímpar, a mediana será o elemento central 
;
 2 

n n 
n par, a mediana será a média entre os elementos centrais   e   1 .
2 2 
5.5 Moda (Mo)
É utilizada para destacar o elemento que mais se repete num conjunto de dados, ou seja,
moda é o elemento que tiver a maior frequência.
Cálculo da moda
a) Séries simples (amostra)
A moda não é calculada, apenas indicada.
b) Série agrupada ( f i )
Basta identificar qual é o elemento que apresenta a maior frequência.
6. Medidas de ordenação ou separatrizes
São medidas utilizadas para fazer cortes ordenados em uma série (amostra), visando
identificar características relevantes. Dividem-se em:




Mediana;
Quartis;
Decis;
Percentis.
6.1 Mediana
É o elemento que divide a série em partes iguais (50% abaixo e 50% acima do seu valor).
6.2 Quartis
São elementos que dividem a amostra (série) em quatro partes iguais, ou seja, de 25% em
25%.
6.3 Decis
São elementos que dividem a série em dez partes iguais, ou seja, de 10% em 10%.
6.4 Percentis
São elementos que dividem a série em cem partes iguais, ou seja, de 1% em 1%.
Podemos notar que a mediana, quartis e os decis são conjuntos de percentis, assim
podemos substituir todas as separatrizes apenas pelos percentis.
Decis
D1
D2
Percentis
P10
P20


D9
P90
Quartis
Q1
Q2
Q3
Mediana
Me
Percentis
P25
P50
P75
Percentis
P50
Tais medidas de ordenação são geralmente utilizadas nas distribuições de frequência de
variáveis contínuas. Porém, é possível efetuar seu cálculo para séries simples e agrupadas
de dados discretos.
Cálculo de medidas de ordenação nas séries simples e agrupadas
i) Ordena-se a série de forma crescente;
ii) Atribui-se um número natural a cada posição do elemento, ou seja, 1ª posição recebe
o número 1 e assim até a última posição n .
Como podemos substituir qualquer uma das três medidas pelos percentis, apenas uma
equação é necessária:
n 1
x 1

100%  0% p  0%
onde:
n é o número de observações;
x é a ordem de uma determinada observação;
p é o percentil desejado expresso em %.
Ainda, sendo conhecido o percentil p , temos que:
p 

x  (n  1)
1.
100 

7. Medidas de dispersão
São medidas utilizadas para avaliar o grau de dispersão, ou variabilidade, dos valores em
torno da média. Servem para medir a representatividade da média.
x ou 
7.1 Amplitude total
É a diferença entre os extremos, ou seja, a maior observação menos a menor:
R  xmax  xmin .
A amplitude é uma medida limitada, já que leva em consideração apenas os extremos,
assim pode não indicar o tamanho da variabilidade das observações.
7.2 Variância
Quando analisamos a dispersão dos dados em relação à média estudamos os desvios d i
de cada valor x i em relação à média x ou  . Assim, se os d i forem próximos à zero,
teremos pouca dispersão. Caso contrário, a dispersão será alta.
d
Podemos verificar que a soma dos desvios
i
 0 , assim, para o cálculo da variância
utilizaremos o quadrado dos desvios (d i ) 2 , sendo que:
d i  xi  x
d i  xi  
ou
d
( d i ) 2  ( xi  x ) 2
0
i
ou
( d i ) 2  ( xi   ) 2
A variância é apresentada em dois conceitos:


Populacional –  2 ;
Amostral – S 2 .
A variância,  2 , referente à população com N observações é igual a soma dos quadrados
dos desvios dividido por N . Assim:

d

2
N
2
i
 (x

i
 )2
N
x

2
i
N
  xi

 N

2

 .


Para dados agrupados:

d

2
2
fi
i
N
 (x

i
 )2 fi
N
x

2
i
N
fi
  xi f i

 N





2
A variância, S 2 , de uma amostra com n observações é igual a soma dos quadrados dos
desvios, dividido por (n  1) , assim:
S
2
d

2
i
n 1
 (x

i
 x)2
n 1
2

xi  
1 

2
 x i 
.

n 1 
n 


Para dados agrupados:
S
2
d

2
i
fi
n 1
 (x

i
 x)2 fi
n 1
2

xi f i  
1 

2
 x i f i 
.

n 1 
n


7.3 Desvio Padrão
Quando calculamos a variância, estamos estudando a dispersão de uma amostra, porém,
como utilizamos os quadrados dos desvios, a variância acaba nos informando o valor da
dispersão com uma dimensão a mais que a amostra.
Por exemplo, se a variável em análise dor medida em metro, a variância será expressa por
m2 .
Portanto, para deixar a na mesma dimensão da amostra, devemos extrair a raiz quadrada
da variância, denominando de desvio padrão ou erro padrão:

   2 – desvio padrão populacional;

S  S 2 – desvio padrão amostral.
O desvio padrão reflete a variação média absoluta dos dados em torno da média aritmética.
A teoria dos seis sigmas (seis desvios padrão) na área da qualidade, busca reduzir ainda
mais a variabilidade dos processos produtivos, ou seja, busca reduzir a possibilidade do
processo apresentar defeito.
Interpretação do desvio padrão.
1º) Regra Empírica:
Para qualquer distribuição amostral ou populacional com média x ou  e desvio padrão S
ou  , há:



O intervalo ( x  S ) ou (    ) contém entre 60% e 80% de todas as observações. A
porcentagem se aproxima de 70% para distribuições aproximadamente simétricas,
chegando a 90% para distribuições fortemente assimétricas;
O intervalo ( x  2S ) ou (   2 ) contém aproximadamente 95% das observações
para distribuições simétricas e aproximadamente 100% para distribuições com
assimetria elevada;
O intervalo ( x  3S ) ou (   3 ) contém aproximadamente 100% das observações,
para distribuições simétricas.
2º) Teorema de Tchebycheff
Para qualquer distribuição com média e desvio padrão:


O intervalo ( x  2S ) ou (   2 ) contém, no mínimo, 75% de todas as observações;
O intervalo ( x  3S ) ou (   3 ) contém, no mínimo, 89% de todas as observações.
7.4 Coeficiente de variação de Pearson
É uma medida relativa de dispersão. O coeficiente de variação (CV) mede a dispersão
relativa. Assim:
CV 
S
.100
x
ou
CV 

.100 .

onde:
S é o desvio padrão amostral;
 é o desvio padrão populacional;
x é a média amostral;
 é a média populacional.
Interpretação do Coeficiente de Variação.
CV  15%
15%  CV  30%
30%  CV
Existe baixa dispersão – boa representatividade para a média aritmética como medida
como medida de posição;
Há média dispersão – a representatividade da média aritmética como medida de
posição
Há elevada dispersão – a representatividade da média aritmética como medida de
posição é ruim.
7.5 Escore padronizado
Também é uma medida de dispersão relativa.
Zi 
( xi  x )
S
ou
Zi 
( xi   )

.
O valor do escore padronizado reflete a dispersão da observação x i em relação à média.
Um valor Z i  0 indica que a observação x i está à esquerda da média, enquanto um
escore positivo indica que a observação está à direita da média.
7.6 Detectando Outliers
Às vezes quando trabalhamos com amostras de observações reais podemos nos deparar
valores extremos muito diferentes da media. Chamamos tais valores de outliers.
Esses valores podem provocar distorções na análise dos resultados. Portanto, é
interessante identificar-los, antes mesmo de iniciar as análises.
1º Método:
Podemos calcular o escore padronizado ( Z i ) e considerar outliers as observações com
Zi  3 .
2º Método:
Podemos utilizar o conceito do gráfico boxplot presente em alguns softwares estatísticos.
Analiticamente, primeiro precisamos calcular o primeiro e o terceiro quartil ( Q1  P25 e
Q3  P75 ).
A diferença entre Q3 e Q1 é chamado intervalo interquartílico.
I  Q3  Q1 .
Os dados situados fora dos intervalos que serão anunciados a seguir, podem ser
considerados dados extremos moderados.
Outliers moderados:
Linf  ( Q1  3I )  (Q1  1,5I )
Lsup  (Q3  3I )  (Q3  1,5I )
Outliers severos
Linf  Q1  3I
Linf  Q1  3I
7.7 Medidas de assimetria
É o grau de afastamento, de uma distribuição, da unidade de simetria. Em uma distribuição
simétrica, há igualdade entre os valores da média, mediana e moda.
Distribuição Simétrica
x  Me  Mo
Distribuição Assimétrica Positiva
Mo  Me  x
Distribuição Assimétrica Negativa
x  Me  Mo
Cálculo do coeficiente de assimetria.
1º Coeficiente de Pearson:
AS1 
(x  M 0 )
S
ou
AS1 
(  M 0 )

2º Coeficiente de Pearson:
AS1 
Q3  Q1  2M e
Q3  Q1
Interpretação quanto ao sinal:
Se:

AS  0 , diz-se que a distribuição é simétrica;

AS  0 , diz-se que a distribuição é assimétrica positiva;

AS  0 , diz-se que a distribuição é assimétrica negativa.
Interpretação quanto à intensidade (considerando os resultados em módulo):
Se:

0  AS1  1 – Assimetria fraca;

1  AS1 – Assimetria forte.

0  AS 2  0.2 – Assimetria fraca;

0,2  AS1  1 – Assimetria forte.
Ou
7.8 Medidas de Curtose
É utilizado para calcular o achatamento de uma série estatística, podendo ocorrer três
possibilidades:
Para medir o grau de curtose, utilizamos o seguinte coeficiente de Kelley:
K
P75  P25
2( P90  P10 )
Interpretação:



Se K  0,263 – Curva Mesocúrtica;
Se K  0,263 – Curva Leptocúrtica;
Se K  0,263 – Curva Platicúrtica.
8. Probabilidades
8.1 Experiência aleatória
Considere uma experiência comportando resultados imprevisíveis e mutuamente exclusivos,
ou seja, em cada repetição dessa experiência é impossível prever, com absoluta certeza,
qual o resultado será obtido, além disso, a ocorrência de um deles exclui os demais.
Por exemplo:
O lançamento de um dado de seis faces, cujos possíveis resultados são: {1, 2, 3, 4, 5, 6} .
Toda experiência aleatória, e seus possíveis resultados, mutuamente exclusivos, são
chamados de eventos simples.
8.2 Espaço amostral
É o conjunto de todos os eventos simples possíveis, ou seja, todos os valores que podem
aparecer, no caso do dado, ou todos os fenômenos possíveis de acontecer.
Exemplo: Na previsão do clima para uma cidade, temos três tipos de fenômenos possíveis:
C  {chuva, sol, nublado} , que é o espaço amostral para o clima.
8.3 Medidas de probabilidade – escola objetivista
Da definição clássica de probabilidade temos:
Dado um espaço amostral finito S  {a1 , a2 , ..., an } com ai (i  1, ..., n) pontos amostrais que
podem ter a mesma “chance” de acontecer, ou seja, são considerados equiprováveis. Então,
todo subconjunto A do espaço amostral S é chamado de evento, com sua probabilidade
calculada por:
P( A) 
m número de casos favoráveis

n
número de casos possíveis
Por exemplo: No caso dos dados, a probabilidade do número 3 sair é igual à:
P(3) 
1
6
que é a probabilidade para qualquer outro número sair.
8.4 Medidas de probabilidades – escola subjetivista
Tal escola considera a probabilidade como a medida de uma crença pessoal de que
determinado evento tenha ocorrido, ocorrerá ou esteja ocorrendo.
Uma declaração do grau de crença em um acontecimento, com base em considerações
pessoais, denomina-se probabilidade subjetiva. Quando um gerente declara que é de 80% a
probabilidade de êxito do lançamento de um produto, ele está utilizando a probabilidade
subjetiva em face do acontecimento de um evento, no caso, lançamento do produto.
8.5 Regras básicas da probabilidade
8.5.1 Campo de variação das possibilidades
A probabilidade de um evento acontecer varia de 0 à 1.
0  P( A)  1  0%  P( A)  100%
8.5.2 Probabilidade do espaço amostral
É sempre igual a 1:
P(S )  1  P(S )  100%
8.5.3 Regra da adição de probabilidades
A probabilidade da ocorrência do evento A ou B (ou de ambos) é dada por:
P( A  B)  P( A)  P( B)  P( A  B)
caso A e B sejam mutuamente exclusivos, isto é, A  B   temos:
P( A  B)  P( A)  P( B) .
Podemos estender essa idéia para um conjunto A*  ( A1 , A2 , ..., Ap ) formado por eventos
mutuamente exclusivos:
P( A1  A2  ...  Ap )  P( A1 )  P( A2 )  ...  P( Ap )   P( Ai ) .
8.5.4 Probabilidade de um evento complementar
Se A c é o evento complementar de A temos então:
P( Ac )  1  P( A) .
8.6 Multiplicação de probabilidades e independência estatística
Dois eventos são ditos estatisticamente independentes se a ocorrência de um deles não
afetar a ocorrência do outro. Assim, num experimento de lançar uma moeda duas vezes, a
probabilidade de sair cara, ou coroa, no segundo lançamento, não é afetada pelo resultado
do primeiro.
Assim temos que, dados dois eventos, A e B, a probabilidade da ocorrência conjunta é
definida pela regra da multiplicação.
P( A  B)  P( A).P( B) .
Generalizando, temos que para vários eventos A*  ( A1 , A2 , ..., Ap ) a probabilidade conjunta
é definida por:
P( A1  A2  ...  Ap )  P( A1 ) P( A2 )...P( Ap )   P( Ai ) .
8.6.1 Probabilidade condicionada
Caso, em um experimento, a condição de independência de dois eventos não estiver
estabelecida, estaremos trabalhando com um problema de probabilidade condicional.
Dados dois eventos, A e B, a probabilidade de que o evento B ocorra, dado que o evento A
já ocorreu, é a probabilidade condicionada de B a A, escrita por P( B / A) . Similarmente,
podemos escrever a probabilidade da ocorrência de A, condicionada à ocorrência de B,
como P( A / B) (lê-se probabilidade de A dado que B aconteceu, ou probabilidade de A
condicionada à ocorrência de B).
Portanto, dados dois eventos, A e B, que não são independentes, a probabilidade
condicionada de A, dado que B aconteceu, é definida por:
P( A / B) 
P( A  B)
.
P( B)
8.6.2 Regra geral da multiplicação de probabilidades
A partir da definição de probabilidade condicional, é possível enunciar a regra geral de
multiplicação de probabilidade:
“A probabilidade da ocorrência simultânea de dois eventos, A e B, do mesmo espaço
amostral, é igual ao produto da probabilidade de um deles pela probabilidade condicionada
do outro, dado o primeiro”.
P( A  B)  P( A) P( B / A)  P( B) P( A / B) .
8.6.3 Independência de eventos
Um evento B é dito independente do evento A se a probabilidade de B é igual a
probabilidade condicional de B dado que A acontece, ou seja, se P( B)  P( B / A) .
Se:
P( A  B)  P( A) P( B / A)
com P( B)  P( B / A) temos
P( A  B)  P( A) P( B) .
8.7 Teorema de Bayes
Sejam
E1 , E2 , ..., Ek
eventos
mutuamente
exclusivos,
tais
que
P( E1 )  P( E2 )  ...  P( Ek )  1 . Seja A um evento qualquer, que se sabe ocorrerá em
conjunto com, ou em conseqüência, um dos eventos E i . Então, a probabilidade de
ocorrência de um evento E i , dada a ocorrência de A, é dada por:
P( Ei / A) 
P( E i ) P( A / Ei )
.
P( E 1) P( A / E1 )  P( E 2 ) P( A / E 2 )  ...  P( E k ) P( A / Ek )
Este resultado relaciona a probabilidade a priori P( E i ) com a probabilidade a posteriori
P( A / Ei ) , probabilidade da ocorrência de A.
9. Distribuições de probabilidades de variáveis aleatórias discretas
9.1 Variáveis aleatórias
Seja  um experimento aleatório e S o espaço amostral associado ao experimento. Uma
função X que associe a cada elemento s  S um número real X (s) é denominada variável
aleatória (v.a.).
9.1.1 Variável aleatória discreta
Seja X uma variável aleatória. Se o número de valores possíveis de X for finito ou infinito
enumerável, denominaremos X de variável aleatória discreta.
9.1.2 Variável aleatória contínua
Seja X uma variável aleatória. Se o contra domínio de X é um intervalo, ou uma coleção
de intervalos, denominaremos X de variável aleatória continua.
9.2 Função de probabilidade
Seja X uma variável aleatória discreta. Sejam x1 , x2 , ... seus possíveis valores. A cada
resultado xi associaremos um número p( xi )  P( X  xi ) , denominando probabilidade de
xi , tal que:
a) p( xi )  1 ; x i ;
b)
 p( x )  1 .
i
Essa função é denominada função de probabilidade da variável aleatória X .
A distribuição de probabilidade de X é dada pelos pares [ xi ; p( xi )], i  1, 2, ... e poderá ser
expressa por uma tabela, gráfico ou fórmula.
9.3 Função de distribuição acumulada
Dado X variável aleatória discreta, define-se função de distribuição acumulada em um
ponto x , a soma das probabilidades dos valores x i menores ou iguais a x .
F ( x )   p ( xi ) .
xi  x
9.4 Esperança ou média de uma variável aleatória
Seja x uma v. a. discreta, com valores x1 , x2 , ..., xk , os valores esperados de x (ou
esperança matemática de x ), ou média de x , é definida como:
k
 ( x )  E[ x]   xi p( xi ) .
i 1
9.5 Variância e desvio-padrão de uma variável aleatória discreta
A definição de variância de uma v. a. discreta x é dada por:
 (2x )  Var[ x]  V [ x]  E[( x   ) 2 ] ,
desenvolvendo o quadrado temos:
 (2x )  E[ x 2 ]   2
onde E[ x 2 ] 
x
2
i
p ( xi ) e    x i p ( x i ) .
O desvio padrão é igual à raiz quadrada positiva da variância
 ( x )   (2x ) .
9.6 Distribuição de Bernoulli
É um modelo que da a probabilidade de sucesso quando se realiza um experimento que
admite dois resultados – sucesso ou fracasso – com probabilidade  de sucesso e (1   )
para fracasso.
9.6.1 Exemplo de experiência de Bernoulli
Lançar uma moeda e verificar a face que cai voltada para cima.
Se a moeda for não viciada, assumindo que a face voltada para cima seja cara como
sucesso, temos que coroa é um fracasso.
p 1
2
e q  (1  p)  1 .
2
Uma variável aleatória Bernoulli com  como probabilidade de “sucesso” tem função de
probabilidade dada por:
P x ( x)  Px ( X  x)   x (1   )1 x ;
E[x]  
x  0,1;
0  1
e V [ x]   (1   ) .
9.7 Distribuição Binomial
Uma v. a. Y tem distribuição binomial com parâmetros n e  quando assume valores no
conjunto {0,1, 2, ..., n} e sua f. p. é dada pela expressão:
n
P Y ( y)  PY (Y  y )    y (1   ) n y ;
 y
E[ x]  n
y  0,1, 2, ...
; 0    1,
e V [ x]  n (1   ) .
A v. a. binomial corresponde ao número de sucessos em n provas do tipo Bernoulli,
independentes.
Exemplos:
1) Y conta o número de meninos em uma família com n  5 crianças, com   1 .
2
2) Y conta o número de peças defeituosas em um lote com n  20 peças, com
probabilidade de defeitos   0,001 .
9.8 Distribuição Hipergeométrica
Uma v. a. X tem distribuição chamada Hipergeométrica se a sua função de probabilidade é
dada por:
 K  N  K 
 

x
n

x

Px ( X  x)   
N
 
n
E[ x]  n
K
N
e V [ x]  n
K N K N n
,
.
.
N
N
N 1
x  0,1, 2, ..., n ;
K  0,1, 2, ..., N ;
n  1, 2, ..., N ;
N  0,1, 2, ... .
9.9 Distribuição de Poisson
Uma v. a. X tem distribuição de Poisson quando a sua f. p. é da forma:
Px ( X  x) 
 x .e 
x!
E[x]  
x  0,1, 2, ... ;
e V [x]   .
 0