1 - estatística

Propaganda
CURSO DE ESTATÍSTICA
BÁSICA E PROBABILIDADE
Prof. Cezar Augusto Cerqueira
2014
1
1 - ESTATÍSTICA: NOÇÕES GERAIS
A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise de dados,
sendo uma ferramenta fundamental no processo de resolução de problemas e tomada de
decisões. O uso da estatística é de fundamental importância na identificação de problemas,
na determinação do tipo de dados pertinentes à análise destes, sua coleta, tratamento e
posterior tomada de decisões, a partir das conclusões estabelecidas, contribuindo na
elaboração de um plano de ação para a resolução do problema em questão.
Informações numéricas analisadas servem de base para tomada de decisões. As
estatísticas nos auxiliam a entender melhor os fenômenos em geral.
EM GERAL, CONHECEMOS ESTATÍSTICAS:



Demográficas
Econômicas
De saúde
Educacionais
Empresariais, etc.
A obtenção das estatísticas é apenas uma das faces do problema;
É preciso aprofundar a análise
Números não foram feitos apenas para serem exibidos ou armazenados
IMPORTÂNCIA E ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA:








Para saber como apresentar e descrever informações de forma apropriada
Para saber como tirar conclusões a partir de grandes populações, com base somente
na informação obtida em amostras.
Para saber como melhorar processos
Para saber como obter previsões confiáveis.
Ferramenta fundamental no processo de solução de problemas
Gestores modernos lidam com grande quantidade de informação.
Auxílio na determinação de planos de ação para resolução de problemas
Tomada de decisões “bem informadas“
2
ESTATÍSTICA: IMPORTANCIA PARA A EMPRESA:




Aumento na competitividade
Eliminação de desperdícios
Redução na necessidade de inspeção
Aumento no grau de satisfação dos clientes
UMA PALAVRA SOBRE FONTES DE DADOS
LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta de
dados:
1.
2.
3.
4.
Obter dados já publicados por fontes governamentais, industriais ou individuais.
Planejar e executar um experimento para obter os dados necessários.
Planejar e executar uma pesquisa ou levantamento de campo.
Realizar uma análise através de um estudo observacional.
No Brasil o governo é o principal produtor de dados sócio-econômicos e demográficos
e o IBGE seu órgão oficial de estatística, que planeja e executa uma ampla gama de
pesquisas, tendo como carro-chefe o Censo Demográfico, realizado a cada dez anos e que
produz informações populacionais, que possibilitam uma investigação sobre os
componentes da dinâmica demográfica brasileira, com destaque para dados sobre a
composição da população por estrutura etária, sexo, educação, trabalho e rendimento, além
de aspectos ligados à mortalidade, fecundidade e migração, entre outros.
O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da produção
industrial, comercial do setor de serviços; sobre emprego e desemprego, registro civil, taxas
de inflação; além de dados sobre a realidade dos municípios do país, sobre o setor de saúde,
entre outros. Os governos estaduais e municipais também produzem uma ampla série de
informações de nível de agregação mais localizado, complementando o chamado sistema
estatístico nacional.
A segunda fonte de dados mencionada é a experimentação, técnica na qual um controle
rigoroso é exercido no tratamento dado aos participantes. Nesse tipo de levantamento
geralmente são utilizados procedimentos estatísticos mais sofisticados, como testes de
hipóteses e análise de variância, entre outros.
A terceira fonte de obtenção de dados é a realização de pesquisas, procedimento no qual
nenhum controle é exercido sobre os participantes, no que tange ao seu comportamento. A
população é indagada sobre questões relativas a crenças, valores, atitudes, características
pessoais, entre outras. As respostas obtidas são devidamente tratadas para posterior análise.
Na análise observacional o pesquisador observa diretamente o comportamento de seu
objeto de estudo, geralmente em seu ambiente natural. Este tipo de levantamento, em geral,
se aplica a situações onde pesquisas são impraticáveis ou de difícil execução. Tais estudos
coletam informações, na forma de grupo, para auxiliar em processos de tomadas de decisão.
Uma técnica bastante utilizada é o grupo focal, empregada para estruturar questões em
aberto. Outros tipos de levantamentos observacionais são ainda utilizados, em diversas
situações, entre os quais destacamos dinâmicas de grupo, “brainstorming”, etc.
3
GRANDES ÁREAS EM ESTATÍSTICA:
A trabalho com dados estatísticos pode ser visualizada em três grandes áreas:



Estatística Descritiva
Probabilidades
Inferência estatística
ESTATÍSTICA DESCRITIVA

Utilizada na etapa inicial de análise

Conjunto de técnicas destinadas a descrever e resumir os dados.
Tabelas
Descrição
Gráficos
Organização
Medidas
Resumo
Técnicas Visuais
Algumas estatísticas descritivas:
-
Taxas de inflação
Taxas de desemprego
Taxas de mortalidade infantil
Renda per capta
Taxa de alfabetização
Índice de leitos por habitantes, etc.
4
PROBABILIDADE

Teoria matemática utilizada para se estudar a incerteza, oriunda de fenômenos de
caráter aleatório.
INFERÊNCIA ESTATÍSTICA:


Trata da análise e interpretação de dados amostrais
O principio básico é tirar conclusões sobre a população a partir de uma amostra de
dados obtida da mesma.
APLICAÇÃO
a) Uma montadora de automóveis compra amortecedores de outra indústria, em lotes
de 100 peças. De cada lote é retirada uma amostra, com base na proporção de
defeituosos contidos nessa amostra é tomada uma decisão quanto à aceitação ou não
do lote.
b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato de terem
ou não um plano de saúde; cerca de 400 disseram que o possuem.
O processo de coleta/ interpretação dos dados pode ser resumido no esquema abaixo:
População
Amostra
Descrição
Análise/da amostra inferência
Decisão
5
NOÇÕES DE AMOSTRAGEM
Os dados representam a base para a tomada de decisões confiáveis. Na área de
qualidade, por exemplo, quando coletamos dados, nosso propósito primordial é obter
informações sobre lotes de produtos, sobre a estabilidade de processos, sobre a
capacidade de um processo atender às especificações e sobre resultados obtidos sob
alterações que visem melhorar a qualidade do processo. Nesse sentido cabe destacar os
conceitos de:


POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma
característica em comum, sobre o qual desejamos estabelecer conclusões ou
implementar ações.
AMOSTRA – Parte ou subconjunto da população a ser estudada.
POR QUE USAR AMOSTRAGEM?



Estudo de grandes populações.
Redução de custos.
Resultados mais precisos em menor espaço de tempo.
Aleatória simples
Estratificada
PROBABILÍSTICA
Sistemática
Grupos (cluster)
Multifásica
AMOSTRAGEM
(Tipos)
NÃO PROBABILÍSTICA
6
Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance de seleção.
Denota-se por “n” o tamanho da amostra e “N” o tamanho da população. Cada item
da população é numerado de 1 a N. A chance de seleção de cada elemento é dada
por 1/N. As amostras podem ser escolhidas com ou sem reposição. O sorteio
geralmente é feito com o auxílio de tabelas de números aleatórios.
Amostra Sistemática – Os N elementos da população são divididos em “k” grupos,
onde k=N/n. O primeiro elemento é sorteado por um número aleatório entre 1 e k,
sendo o restante da amostra obtido pela seleção de cada k-ésimo elemento
respectivo na população.
Amostra Estratificada – a estratificação consiste na divisão de um grupo original em
diversos subgrupos, com base em determinados fatores. Na área de qualidade os
fatores geralmente são equipamentos, fabricante, operadores, métodos de produção,
determinadas condições ambientais de produção, entre outros.
Amostras de grupos ou clusters – nesse caso, os N elementos são divididos em
grupos ou clusters. Uma amostra aleatória de grupos é obtida e todos os elementos
do grupo são investigados. Em algumas situações uma sub-amostra dentre de cada
gruo inicialmente sorteado pode também ser adotada. Os grupos podem ser tomados
como municípios, bairros, quarteirões, setores censitários, condomínios, etc.
7
2 – APRESENTAÇÃO DE DADOS
No processo de análise de dados, o pesquisador tem à sua mão uma série de
informações relativas a uma população ou uma amostra, e necessita resumir tais dados para
torna-los informativos, para compará-los com outros resultados ou verificar sua adequação
a um modelo teórico. Portanto, antes de passar a análise descritiva propriamente dita, que
antecede a etapa de inferência, é conveniente observar alguns procedimentos de resumo de
dados e sua apresentação na forma tabular ou gráfica.



Dados brutos desorganizados, não trazem informação!
Ë importante organizar e resumir os dados
Obter dos dados a maior quantidade de informação
TIPOS DE VARIÁVEIS
Os dados coletados no trabalho de pesquisa, gerenciamento de processos, controle
de qualidade de produtos e serviços, em geral podem ser de natureza qualitativa ou
quantitativa. Variáveis como sexo, educação, estado civil, nível de qualidade de uma peça
(perfeita ou defeituosa), são de natureza qualitativa. Tais variáveis ainda podem ser
classificadas como nominais, quando não existe nenhuma ordenação nas categorias (p/ex:
sexo, estado civil), ou ordinais, quando apresentam alguma ordenação (p/ex: grau de
instrução). As variáveis quantitativas podem ser classificadas como discretas ou contínuas.
As discretas resultam geralmente de contagens do número de ocorrências de determinada
característica de interesse. As variáveis contínuas são aquelas cujos valores possíveis
formam um intervalo de números reais e resultam normalmente de mensurações. São
apresentados a seguir alguns exemplos de variáveis discretas e contínuas:
Discretas
-número de filhos de um casal
-número de defeitos em uma chapa de aço
-número de acidentes de trabalho em uma semana em certa fábrica.
Contínuas
-Peso ou altura de um indivíduo
-Espessura de uma peça
-Tempo de vida de uma lâmpada, etc
IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende do tipo
de variável com que se trabalha.
8
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS



Após coletar, deve-se organizar os dados.
Para conhecer melhor a distribuição das variáveis de interesse procura-se dispor os
dados em tabelas e gráficos.
Objetiva-se obter uma melhor visualização do fenômeno.
CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS
Exemplo:
A Tabela 2.1 apresenta a distribuição dos empregados do setor de produção de certa
empresa segundo o seu grau de instrução.
Tabela 2.1
Empregados do setor de produção, segundo o grau de instrução, 2005.
GRAU DE INSTRUÇÃO Freqüência (fi)
Primeiro Grau
15
Segundo Grau
25
Superior
10
TOTAL
50
FONTE: Pesquisa direta
9
REPRESENTAÇAO GRÁFICA:
GRÁFICO DE SETORES:
Útil na representação de variáveis de natureza qualitativa.
Empregados do Setor de Produção, segundo grau de
instrução - 2000
20%
30%
Primeiro Grau
Segundo Grau
Superior
50%
CASO DE VARIÁVEIS DISCRETAS
Para ilustrar, considere os dados abaixo representando a distribuição da variável
número de filhos dos empregados do setor de produção.
Tabela 2.2
Distribuição do número de filhos dos empregados do setor de produção
NÚMERO DE FILHOS
Freqüência ( fi)
0
5
1
10
2
20
3
9
4
6
10
REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas
Número de filhos
20
18
16
14
12
freq. 10
8
6
4
2
0
0
1
2
3
4
filhos
CASO DE VARIÁVEIS CONTÍNUAS
Foram obtidas as rendas mensais, em salários mínimos, dos empregados do setor de
produção.
Tabela 2.3
Distribuição de freqüências das rendas dos empregados
do setor de produção
CLASSE DE
RENDA(sal.min.)
4 |----- 8
8 |----- 12
12 |----- 16
16 |----- 20
20 |----- 24
TOTAL
Freq.
simples(fi)
Freq.
Relativa Freq. Acumulada (Fi)
7
14,0
7
8
16,0
15
20
40,0
35
10
20,0
45
5
10,0
50
50
100,0
-
11
O HISTOGRAMA
É considerado como uma das sete Ferramentas da Qualidade. Representa um modelo
estatístico para o padrão de ocorrencia dos valores de determinada população
O histograma é um gráfico de barras no qual o eixo horizontal é subdividido em vários
pequenos intervalos, sendo construída uma barra vertical, de área proporcional ao número
de observações na amostra cujos valores pertencem ao intervalo correspondente.
As informações são dispostas de modo a permitir a possível visualização da forma da
distribuição dos dados e a percepção do valor central e da dispersão em torno desta valor
central.
Exemplo de Histograma:
Distribuição dos salários dos empregados do setor de produção
25
freq. simples
20
15
10
5
0
6
10
14
18
22
sal.min.
O Histograma pode ser construído de acordo com a experiência do profissional com
a variável a ser representada, que pode estabelecer a melhor distribuição desta em classes
ou intervalos. Em seguida é apresentado um roteiro para o caso geral de elaboração de um
histograma.
12
Roteiro para elaboração de um Histograma:
Coletar “n” observações
Escolher o número de intervalos (k)
Calcular a amplitude total dos dados (R): R = Max - Min
Calcular o comprimento de cada intervalo (amplitude de classe, h): h=R/k
Arredondar convenientemente h
Calcular os limites de cada intervalo
Construir a tabela de frequencias, que deve conter:
Limites de cada intervalo; ponto médio; frequencia simples (fi); frequencia relativa;
frequencia acumulada (simples e relativa)
9. Desenhar o Histograma.
1.
2.
3.
4.
5.
6.
7.
8.
Tipos de Histograma:
Simétrico:
 Valor médio no centro
 Frequencia mais alta no centro diminuindo gradualmente de forma simétrica em
direção aos extremos
100
80
60
40
20
0
13
Assimetria Positiva e Negativa
Distribuição dos salários dos empregados do setor de produção da
Companhia B
16
14
freq. simples
12
10
8
6
4
2
0
6
10
14
18
22
sal.min.
A Companhia B apresenta uma distribuição com uma ASSIMETRIA POSITIVA,
ou seja, uma cauda mais acentuada no lado direito da distribuição e uma maior
concentração em valores mais baixos. Nesse caso, a média é aumentada em função de
alguns valores elevados incomuns, sendo maior que a mediana.
Distribuição dos salários dos empregados do setor de produção da
Companhia C
16
14
freq. simples
12
10
8
6
4
2
0
6
10
14
18
22
sal.min.
A distribuição dos salários da Companhia C apresente uma ASSIMETRIA
NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais elevados da
14
distribuição. No caso a média é reduzida em função de alguns valores mais baixos, sendo
inferior à mediana.
Estratificação de Histogramas
O histograma pode, em alguns casos, esconder determinados padrões que só vem a
ser identificados quando construímos histogramas estratificados por alguma variável de
interesse. Quando estratificado o Histograma pode exibir diferentes distribuições para
distintos fatores. A existencia de diferentes distribuições podem estar contribuindo para
aumentar a variabilidade do processo.
15
Histograma e os limites de especificação
O histograma é uma ferramenta fundamental no sentido de se obter uma visão da
capacidade de um processo em estar atendendo determinados limites de especificação.
Alguns caos estão ilustrados na Figura a seguir:
A DISPOSIÇÃO RAMO-E-FOLHA
Consiste de uma outra ferramenta valiosa para organizar um conjunto de dados e ao
mesmo tempo, compreender a maneira com os valores se distribuem e se agrupam ao longo
da amplitude de observação no conjunto de dados.


Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos restantes).
Devemos escolher poucos ramos em relação ao total de observações (entre 5 e 20).
Exemplo: Considere os dados abaixo representando a resistência à compressão de uma
amostra de 80 corpos de prova de liga de alumínio:
105
97
245
163
207
134
218
199
160
196
221
154
228
131
180
178
157
151
175
201
183
153
174
154
190
76
101
142
149
200
186
174
199
115
193
167
171
163
87
176
121
120
181
160
194
184
165
145
160
150
181
168
158
208
133
135
172
171
237
170
180
167
176
158
156
229
158
148
150
118
143
141
110
133
123
146
169
158
135
149
Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir:
16
Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova.
Ramo Folha
76
87
97
10 51
11 580
12 103
13 413535
14 29583169
15 471340886808
16 3073050879
17 8544162106
18 361410
19 960934
20 7108
21 8
22 189
23 7
24 5
Frequencia
1
1
1
2
3
3
6
8
12
10
10
7
6
4
1
3
1
1
O GRÁFICO DE PARETO
Consiste de um gráfico de barras verticais que dispõem a informação, de forma a
tornar evidente e visual a priorização de temas. O gráfico de Pareto é considerado uma das
sete Ferramentas da Qualidade.
O princípio de Pareto estabelece que os problemas relacionados à qualidade se
traduzem na forma de perdas e podem ser classificados em duas categorias: “ os poucos
vitais” e os “muitos triviais”. Em torno de 80% dos problemas vem de 20% das causas,
desse modo, atacar 1/5 das causas solucionaria 4/5 dos problemas
Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da qualidade, com
o objetivo de resolver o seguinte problema: aumento no número de lentes defeituosas
produzidas pela empresa, a partir de fevereiro de 2004. Em uma etapa de observação, a
empresa classificou uma amostra de lentes produzidas, de acordo com os tipos de defeitos
encontrados, tendo obtido os resultados da Tabela 2.4, a seguir.
17
Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela indústria
Tipo de Defeito
Freqüência de Total
Freqüência
Percentual
defeitos
relativa (%)
Acumulado
Acumulado
Revest. Inadequado
55
55
43,3
43,3
Trinca
Arranhão
41
96
32,3
75,6
12
108
9,4
85,0
Espessura inadequada
11
119
8,7
93,7
Mal-acabada
5
124
3,9
97,6
outros
3
127
2,4
100,0
127
-
100,0
-
Total
FONTE: Indústria de lentes
Gráfico de Pareto para os defeitos das lentes
O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade, destacando-se:
18






Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes categorias:
equipamentos, insumos, informação do processo ou medidas, condições ambientais,
pessoas, métodos ou procedimentos.
Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias: qualidade,
custo, entrega, segurança, etc.
Gráfico de Pareto expresso em unidades monetárias
Gráfico de Pareto estratificado (por operador, etc)
Comparações tipo antes e depois
Desdobramento de gráficos de Pareto (causas e sub-causas)
19
3–MEDIDAS ASSOCIADAS A VARIÁVEIS
QUANTITATIVAS
O resumo dos dados na forma de tabelas, bem como a visualização da sua
distribuição, na forma de gráficos, são importantes elementos na análise dos mesmos.
Entretanto, é fundamental que se disponha de um sumário dos dados na forma numérica.
São apresentadas a seguir as principais medidas utilizadas para se quantificar os
valores centrais da distribuição dos dados (locação), bem como o grau de dispersão dos
dados em torno dos valores centrais (variabilidade).
3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,
mediana
CÁLCULO DE MEDIDAS DE LOCAÇÃO
A média aritmética é a medida mais comumente utilizada para representar um
conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito através da fórmula:
n
X 
 Xi
i 1
n
A mediana corresponde ao valor central de uma distribuição. No caso de dados
brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos dados dispostos em
ordem crescente, o elemento de ordem X([n+1/2]) . No caso de n ser par, a mediana é obtida
como a média aritmética dos dois valores centrais da distribuição dos dados em ordem
crescente, ou seja:
Me 
X ( n / 2)  X ([ n / 2]1)
2
Caso os dados estejam dispostos em uma tabela de freqüências os cálculos são
efetuados através das expressões a seguir. No caso da média aritmética:
k
X 
X
i 1
i
fi
n
20
No caso da mediana, tem-se:
Me  Li 
[(0,5)n  Fant ]
.c
f Me
Onde:
Li = limite inferior da classe mediana;
Fant = freqüência acumulada até a classe anterior
fMe = freqüência simples na classe mediana
c = amplitude da classe mediana.
OUTRAS MEDIDAS DE LOCAÇÃO
A distribuição dos dados pode ser divida em mais de duas partes. No caso de dividila em quatro partes iguais, os pontos de corte correspondentes são chamados de Quartis e
representam medidas estratégicas na distribuição. O primeiro quartil (Q1) é um valor que
tem aproximadamente um quarto (25%) das observações abaixo de si. O segundo quartil
tem aproximadamente 50% das observações abaixo de seu valor e corresponde à mediana,
medida anteriormente estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75%
das observações.
Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª
observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As regras a
seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005):
1) Se o ponto de posicionamento resultante for um numero inteiro, a
observação numérica correspondente àquele ordinal será o valor do quartil.
2) Se o ponto de posicionamento estiver entre dois números inteiros, a média
de seus respectivos valores será tomada como o quartil.
3) Se o ponto de posicionamento resultante não se tratar de um número inteiro,
nem correspondente á metade do intervalo entre dois inteiros, uma regra a
ser aplicada pode ser a de arredondar para o inteiro mais próximo e
selecionar o valor numérico relativo à observação correspondente.
4) Uma outra regra a ser adotada na situação 3 pode ser interpolar entre os
valores correspondentes.
Como exemplo, vamos calcular os quartis para a série de dados abaixo:
9,8
21,5
11,3
25
12,5
38,9
13,5
16,5
17,5
18
18,1
18,7
19
20
Q1 = (n+1)/4 = (14+1)/4 = 3,75
Assim, pela regra 3 o primeiro quartil corresponde à quarta observação ordenada, ou
seja, Q1 = 13,5. Por outro lado,
21
Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima primeira
observação ordenada, ou seja, Q3 = 20.
3.2 MEDIDAS DE VARIABILIDADE
A variabilidade está presente em todo e qualquer processo produtivo de bens ou
serviços. De modo geral, pode-se dizer que a variabilidade é resultado de uma série de
alterações nas condições sob as quais as observações são tomadas. Segundo WERKEMA
(1995), tais alterações podem refletir diferenças entre matérias-primas, condições de
equipamentos, métodos de trabalho, condições ambientais e operadores envolvidos no
processo. A redução da variabilidade de processos permite que a produção de itens cuja
característica de interesse esteja próxima de um valor alvo desejado e dentro de limites
especificados.
CÁLCULO DE MEDIDAS DE VARIABILIDADE
A discrição dos dados através de medidas de locação pode esconder importantes
informações com respeito variabilidade dos dados. Como exemplo ilustrativo, suponha que
3 grupos de alunos submeteram-se a um teste, obtendo-se os valores abaixo:
GRUPO A
GRUPO B
GRUPO C
3
1
5
4
3
5
5
5
5
6
7
5
7
9
5
Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não apresentam
diferenças quanto ao aspecto de locação; entretanto a variabilidade dos resultados difere
bastante entre os 3 grupos, sendo necessária uma medida que sumarize esse aspecto.
Uma medida, de caráter preliminar, de abordagem da dispersão é a chamada
amplitude do conjunto de dados, correspondente à diferença entre o valor máximo e o valor
mínimo. No caso dos dados acima, a amplitude do grupo A seria: Xmax-Xmin= 7-3 = 4. Para
o grupo B seria de 8 (9-1) e para o gruo C seria igual a 0 (zero).
Embora a amplitude seja uma medida simples da variação total nos dados, ela não
leva em consideração o modo como os dados estão distribuídos entre os valores extremos.
O grau de dispersão ou variabilidade dos dados em torno da média pode ser
avaliado através de medidas como a variância, o desvio padrão e o coeficiente de variação.
O princípio básico é medir o desvio das observações (di), em relação à média do grupo. No
caso dos dados do grupo A acima, teríamos os seguintes valores para os di: -2, -1, 0, 2, 2. A
variabilidade poderia ser pensada como a soma desses desvios, porém essa não é uma boa
alternativa porque tal soma é igual a zero para qualquer conjunto de dados. Uma
alternativa, portanto é trabalhar com a soma dos quadrados desses desvios e em seguida
22
obter um desvio médio. Desse modo a fórmula para o cálculo da variância populacional de
um conjunto de dados pode ser expressa como:
n
2 
(X
i 1
i
 X )2
n
Alternativamente, pode-se mostrar que tal expressão pode ser escrita como:
( X i )
1
  [ X i2 
]
n
n
2
2
Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que apresenta
algumas propriedades interessantes, como representante da variância de uma população,
lembrando que a diferença entre as duas fórmulas diminui à medida que o tamanho da
amostra aumenta.
( X i )
1
s 
[ X i2 
]
n 1
n
2
2
Considerando os dados relativos às notas dos alunos do grupo A, temos que:
X
2
i
X
i
 135
 25
Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das notas será
dada por:
S2 = ¼(135 – 125) = 2,5.
No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da expressão:
( X i f i )
1
s 
[ X i2 f i 
]
n 1
n
2
2
23
Para ilustrar considere o cálculo da variância dos salários dos empregados, a partir
da Tabela 4:
Cálculo da variância dos dados da Tabela 4 (salários dos empregados)
CLASSE DE
Freq.
Freq.
Freq.
Ponto
RENDA(sal.min.) simples(fi) Relativa Acumulada (Fi) médio(Xi)
4 |----- 8
7
14,0
7
6
8 |----- 12
8
16,0
15
10
12 |----- 16
20
40,0
35
14
16 |----- 20
10
20,0
45
18
20 |----- 24
5
10,0
50
22
TOTAL
50
100,0
-
Xifi
42
80
280
180
110
692
Xi2fi
252
800
3920
3240
2420
10632
Desse modo, tem-se que:
s2 
1
692 2
[10.632 
]  21,525
49
50
Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo grupo, por
exemplo, se há maior grau de dispersão com relação ao peso dos indivíduos ou com relação
à sua altura, ou, em outro caso, se desejássemos comparar o grau de dispersão de grupos
com médias bastante distintas. Em tais casos não seria aconselhável utilizar o desvio
padrão, sendo necessário o uso de uma medida de dispersão relativa, adimensional, que é o
caso do COEFICIENTE DE VARIAÇÃO, cuja expressão corresponde à relação entre o
desvio padrão e a média aritmética dos dados, sendo portanto escrito como:
 
s
X
Uma outra medida de dispersão que pode ser empregada é a chamada
amplitude interqualtil, representada pela diferença entre o terceiro e o primeiro
quartis, ou seja:
J = Amplitude Interquartil = Q3-Q1.
Esta medida considera a dispersão nos dados que estão entre os 50% de
observações centrais, não sendo, portanto, influenciada pelas observações extremas.
24
3.3 O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT
Tanto a média como o desvio-padrão podem ser bastante afetados por observações
extremas e não fornecem informação sobre o grau de assimetria da distribuição. Para tentar
contornar tais dificuldades, TUCKEY (1977) propôs o uso de cinco medidas, conhecido
como o esquema dos cinco números, que são: a Mediana, o primeiro e terceiro Quartis e os
valores Extremos do conjunto de dados. O esquema pode ser visualizado na figura abaixo:
Me
Q1
Min
Q3
Max
O Box Plot é uma representação gráfica que procura descrever, de forma
simultânea, diversas características importantes de um conjunto de dados, tais como
tendência central, variabilidade, assimetria e valores extremos ou “outliers”. Seu desenho
tem como base o esquema dos 5 números, tomando os valores extremos como um múltiplo
da amplitude interquartil, geralmente considera-se o valor de 1,5 vezes a amplitude
interquartil. Uma observação a mais de 3 amplitudes interquartis é considerada um
“outlier" “extremo”. O Box Plot é representado pela figura abaixo, onde a linha central da
caixa corresponde à mediana dos dados, com o canto esquerdo (ou inferior) no primeiro
quartil e o canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os
valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos como: E1 =
Q1 – 1,5 J e E2 = Q3 +1,5 J.
E1
Q1
Me
Q3
E2
25
EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de uma
amostra de 14 fundos de baixo risco.
Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco
Fundo
BRINSON Global equity
Phoenix-Zweig Managed asset C
AIM Global Gr In A
MFS Global Tot Ret A
Fremont Global
Scudder Global
Van Kampen Global eq All B
Fidelity Global balanced
Tweedy Browne Global Value
MERRILL LYNCH Gbl Value D
MORG STAN DW European Growth
DREYFUS PREMIER Worldwide Gr A
ACORN Int
JANUS Worldwide
Retorno 3Anos
9,77
11,35
12,46
13,8
15,47
17,48
18,37
18,47
18,61
20,72
21,49
22,47
31,5
38,16
FONTE: LEVINE ET AL. 2005
A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª observações,
ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O primeiro quartil corresponde
à observação (n+1)/4 = 3,75, aproximada pela 4ª observação, logo Q1 = 13,8. O terceiro
quartil é aproximado pela observação (3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou
seja, Q3 = 21,49. A amplitude interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse
modo, os valores extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 =
21,49 + 1,5(7,69) = 33,02.
26
4 NOÇÕES DE PROBABILIDADE
O primeiros estudos começaram com problemas formulados pelo Barão de Méré e
discutidos por matemáticos como Pascal e Fermat (1654), geralmente envolvendo jogos de
azar. A teoria de probabilidades se aplica a experimentos aleatórios, que são aqueles cujo
resultado não podem ser previstos com certeza. A despeito do caráter casual que envolve o
resultado de um experimento aleatório, é possível construir um modelo que o reproduza,
sem que seja necessária a sua observação. Como exemplo ilustrativo, poderíamos
considerar um experimento simples como o lançamento sucessivo de um dado. Os
resultados possíveis e respectivas probabilidades podem ser escritos como:
Resultado
Probabilidade
1
1/6
2
1/6
3
1/6
4
1/6
5
1/6
6
1/6
Ainda como ilustração, considere um lote contendo 50 peças, das quais 10 são
defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados possíveis e
respectivas probabilidades podem ser escritos como:
Resultado
Perfeita(P)
Probabilidade 4/5
Defeituosa(D)
1/5
Um modelo probabilístico associado a um experimento aleatório, conforme
observado acima, pode ser especificado por um espaço amostral (S), que consiste no
conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos do espaço
amostral são denominados de eventos, geralmente denotados por letras latinas maiúsculas
A,B,C, ou A1, A2, etc.
DEFINIÇÕES DE PROBABILIDADE
Uma probabilidade pode ser atribuída com base nas características teóricas da
realização do experimento, como é o caso do exemplo do lançamento do dado, visto
anteriormente. No caso, a probabilidade clássica a priori é baseada no conhecimento prévio
sobre o experimento. No caso mais simples, em que cada resultado é igualmente provável
(equiprovável), a probabilidade de ocorrência do evento é dada pela expressão:
P
casos favoráveis
casospossí veis
Uma probabilidade também pode ser obtida de forma empírica, através da
freqüência relativa. Pode-se verificar que à medida que o número de realizações do
experimento aumenta, a freqüência relativa de um evento de interesse tende a se estabilizar
em um valor que representa a sua verdadeira probabilidade. Os resultados são baseados em
dados observados e não no conhecimento prévio sobre o fenômeno investigado. Tal
27
definição de probabilidade pode ser aplicada para calcular, por exemplo, a percentagem de
indivíduos fumantes em uma escola, a proporção de votos de um candidato político ou
ainda o percentual de analfabetos em uma comunidade.
Uma probabilidade pode ser definida como uma função que satisfaz os seguintes
axiomas:
1) P(A)  0
2) P(S) = 1
n
n
j 1
j 1
3) P( Aj )   P( Aj )
Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai  Aj) = 
ALGUMAS PROPRIEDADES
1) Seja A um evento qualquer, então 0  P(A)  1.
2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A).
3) P(A  B) = P(A) + P(B) – P(A  B), sendo A e B eventos quaisquer.
PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA
Em muitas situações, o cálculo da probabilidade de um evento pode ser feito com
base em alguma informação adicional fornecida, sendo o espaço amostral atualizado. Essa
nova probabilidade recalculada pode ser chamada probabilidade condicional.
Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B ocorrer,
dado que o evento A ocorreu é dada por:
P( B | A) 
P( A  B)
P( A)
onde P(A)  0.
Definição: dois eventos A e B são independentes se a informação da ocorrência de A não
altera a chance da ocorrência de B, ou seja:
P(B|A) = P(B)
Ou seja,
P(A  B) = P(A).P(B)
28
APLICAÇÃO
A tabela abaixo apresenta o número de alunos matriculados no Departamento de
Matemática de certa universidade:
CURSO
Matemática (A)
Física (F)
Informática (C)
Estatística (D)
MASC. (M)
FEM (F)
60
15
10
15
30
10
15
5
Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes:
a)
b)
c)
d)
e)
f)
P(A)
P(D)
P(H)
P(A  M)
P(B  F)
P(M | C).
29
5. VARIÁVEIS ALEATÓRIAS
Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de uma
realização para outra do experimento. Podem ser classificadas de acordo com o
esquema abaixo:
DISCRETA
Surgem através de um processo de contagem
Ex: Número de filhos de um casal, Número de defeitos
em uma chapa metálica, etc
VARIÁVEL ALEATÓRIA
CONTÍNUA
Resulta de um processo de medição, assumindo
valores num conjunto infinito não enumerável
Ex: Peso, Altura, Renda, etc.
5.1. CASO DISCRETO:



A variável aleatória assume valores X1, X2, ...... Xn
A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn
Pode–se definir uma função de probabilidades, f (x), tal que:
f ( x)  0
e
 f ( x)  P( X
 x)  1
30
Em resumo tem-se:
X
X1
X2
X3
...... XN
Distribuição de
Probabilidades
P(X=x)
P1
P2
P3
...... PN
MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA:
 Xi . P ( X = xi )
Média:
E(X)=
Variância:
V ( X ) = E (X2 ) – E2 ( X )
Onde: E ( X2 ) =
X
2
.P(X=x )
5.2. CASO CONTÍNUO:


A Variável assume valores em intervalos
Pode–se definir a função de densidade de Probabilidades, f (x) , tal que:
1. f ( x)  0

2.
 f ( x)dx  1

b
3. P(a  X  b)   f ( x)dx
a
31
APLICAÇÃO:
1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao acaso, sem
reposição.
Seja X V.A representando o número de defeituosas.
a) Determinar o espaço amostral do experimento e suas respectivas probabilidades.
b) Obtenha a distribuição de probabilidades da variável X.
c) Calcule E ( X ) e V ( X ).
2) Repetir o exercício acima usando amostragem com reposição.
32
6. MODELOS DISCRETOS:
6.1.
DISTRIBUIÇÃO DE BERNOULLI
Seja um experimento com apenas dois resultados possíveis: Sucesso e Fracasso.
Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso contrário.
Tem-se então a seguinte distribuição de probabilidades para tal variável:
X
P(X=x)
0
1
(1–P)
P
É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq
6.2.



DISTRIBUIÇÃO BINOMIAL
Tem-se n realizações independentes de um experimento tipo Bernoulli.
A Probabilidade de sucesso “p” é constante.
Deseja-se obter a chance de ocorrerem k sucessos nas n realizações.
Seja X Variável aleatória definida como o número de sucessos nas n realizações.
Então:
Função de Probabilidades
Binomial
P (X = K ) = ( KN ) . pk. ( 1- p)n-k
Verifica-se que, no caso da Distribuição Binomial, temos:
Média =
np
e
VARIÂNCIA =
npq
PARÂMETROS
33
6.3.
MODELO DE POISSON:
Distribuição de probabilidades discreta com importantes aplicações, em casos que
envolvem contagem de eventos que ocorrem em intervalos de tempo, volume, superfície.
APLICAÇÕES:




Chegada de clientes numa fila
Ocorrência de falhas por metro quadrado de tecido produzido
Número de chamadas telefônicas que chegam numa central
Limite da Distribuição Binomial
Formula:
Onde:
P (X  k) =
e  t (t ) K
k!
 = taxa de ocorrências.
t = n.º de unidades de tempo ou espaço.
6.4. MODELO HIPERGEOMÉTRICO
Considere uma população de N elementos, dos quais r têm uma certa característica.
Retira-se dessa população uma amostra de n elementos. Define-se X como o nº de sucessos
( nº de elementos com a característica citada ) na amostra. Deseja-se calcular P(X=k), que
é dado por:
( rk )( nNkr )
P( X  k ) 
( nN )
34
APLICAÇÃO:
1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas.
Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se ter:
a) Exatamente 2 defeituosas
b) No máximo, uma perfeita
2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto.
a) Nenhum cliente em intervalo de 01 minuto.
b) Exatamente 06 clientes em 02 minutos.
3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de qualidade
examina cada caixa testando 5 motores. Se nenhum deles for defeituoso a caixa é aceita.
Se houver ao menos um defeituoso toda a caixa é testada. Sabendo que há 6 motores
com defeito numa caixa, calcule a probabilidade desta ser examinada por completo.
35
7. MODELOS CONTÍNUOS
7.1. DISTRIBUIÇÃO NORMAL




O exame dos gráficos de freqüência sugere a curva representativa da distribuição da
variável.
As curvas de distribuição permitem o cálculo de probabilidades sobre a Variável
estudada.
A curva normal é uma das mais importantes e utilizadas na Estatística.
Muitas variáveis, na prática, seguem o modelo normal.
O Modelo Normal possui dois parâmetros: a média () e o desvio padrão ().

Notação X~N(

, )
GRÁFICO DA CURVA NORMAL:
68%
-

+
Do gráfico acima, observa-se algumas importantes propriedades da curva normal:
1)
2)
3)
4)
A área sob a curva é igual a 1.
A curva é simétrica em relação à sua média.
A curva possui dois pontos de inflexão em ( + ) e ( - ).
A curva possui um ponto máximo em x = .
36
USO DA TABELA NORMAL
Para se calcular probabilidades associadas à curva normal, deve ser utilizar p
X 
chamado escore padrão, definido como: Z =
.

A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre de
interesse:
0
z
Como exemplo, vamos obter as seguintes áreas:
1) P ( 0 < Z < 1 ) = 0,3413
0
1
2) P ( Z > 1 ) = 0,50 – 0,3413
1
37
3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413
-1

0
A Tabela Normal também pode ser usada no sentido inverso, ou seja:
Dada uma determinada área, qual o escorre corresponde?
Considere a situação abaixo:
5%
z=1,64
0
z
2,5%
z = 1,96,
-z
0
=5%
z
38
APLICAÇÃO:
Diâmetro de parafusos produzidos por certa indústria, segue o modelo normal, com
média de 172mm e desvio padrão de 5mm.
a) Qual a proporção de parafusos com diâmetro inferior a 177mm?
b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm?
c) Qual o valor acima do qual estão 2,5% dos diâmetros?
39
8. DISTRIBUIÇÕES AMOSTRAIS
As características de uma população podem ser descritas através de
estatísticas populacionais, conhecidas como parâmetros, que podem então ser
definidos como medidas numéricas que descrevem características de uma
população. Os parâmetros são quantidades desconhecidas que precisam ser
estimadas com o uso de uma amostra extraída da população.
Uma importante etapa no trabalho de análise de dados é a inferência
estatística, onde estatísticas amostrais tais como a média aritmética, o desvio padrão
ou a proporção, são utilizadas para estimar os parâmetros populacionais
correspondentes.
As distribuições amostrais podem ser vistas como:


Distribuição de probabilidades de uma estatística amostral
Indicam como variam as estatísticas devido a variações no processo de
amostragem.
Onde está a Variabilidade?



Na própria estatística
Na distribuição da população em estudo
Tem relação inversa com o tamanho da amostra
8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS
Para introduzir a idéias da distribuição amostral de médias, considere o
exemplo a seguir.
EXEMPLO 8.1: Suponha que nossa população de estudo é formada pelo
número de defeitos encontrados em quatro chapas metálicas produzidas por certa
indústria, cujos valores são: 3, 4 e 5. A média populacional é dada por:
 = (3+4+5)/4 = 4 defeitos por chapa.
A variância populacional do número de defeitos é dado por:
2 
(3  4) 2  (4  4) 2  (5  4) 2
 0,6666
3
Vamos agora selecionas amostras de tamanho 2 dessa população que, no total
são 3 = 9 amostras possíveis, cujos resultados encontram-se na tabela abaixo:
2
40
Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser extraídas da
população do exemplo 8.1
Amostra
Média
Amostral
(3,3)
3
(3,4)
3,5
(3,5)
4
(4,3)
3,5
(4,4)
4
(4,5)
4,5
(5,3)
4
(5,4)
4,5
(5,5)
5
Como cada uma das 9 amostras tem a mesma chance de ocorrência, a distribuição
de probabilidades da média amostral é dada por:
Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1
Valor da média
Probabilidade
3
1/9
3,5
2/9
4
3/9
4,5
2/9
5
1/9
A média da distribuição amostral de médias pode ser obtida como:
1
9
2
9
3
9
2
9
1
9
 x  3.  3,5.  4.  4,5.  5.  4
Portanto a média da distribuição amostral de médias é igual à média populacional,
anteriormente calculada. Por outro lado, a variância da distribuição amostral de médias
pode ser calculada por:
 x2  E( X 2 )  E 2 ( X ) , onde
1
2
3
2
1
E ( X 2 )  3 2.  3,5 2.  4 2.  4,5 2.  5 2  16,333 , portanto:
9
9
9
9
9
2
2
2
2
 x  E( X )  E ( X )  16,333  4  0,333
41
Portanto, a variância da distribuição amostral de médias poderia ser obtida como:
 x2 
2
n

0,6666
 0,3333 .
2
Em resumo, a média da distribuição amostral de médias coincide com a média
populacional,  x   , enquanto a variância da distribuição amostral de médias equivale a
 
2
x
2
n
, cujo desvio-padrão é dado por  x 

n
.
AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL
No caso de populações normalmente distribuídas, com média aritmética  e desvio
padrão , pode-se mostrar que a distribuição amostral de médias também será normalmente
distribuída com média  e desvio padrão
z
(x  )


n
. A estatística:
(x  ) n
,
x

tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum).
Em resumo, podemos afirmar sobre a distribuição amostral de médias que:



É obtida a partir da média aritmética de uma série de amostras de tamanho n,
extraída de uma população que tem média  e desvio padrão .
A média da distribuição amostral de médias é igual à média populacional
A variância da distribuição amostral de médias é dada por:
2
n

O desvio padrão da distribuição amostral de médias (erro-padrão da média) é
dado por:

n

Para um tamanho de amostra suficientemente grande, a distribuição amostral de
médias é aproximadamente normal.
42

A estatística correspondente à equação abaixo é aproximadamente N(0,1).
z 
(Z

n
Z
(x  ) n

APLICAÇÃO:
1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de 100 dias
com desvio padrão de 8 dias. Tomando-se uma amostra de 36 lâmpadas ao acaso,
pergunta-se;
a) Qual média e desvio padrão da distribuição amostral de médias?
b) Que percentual de lâmpadas terá vida média superior a 99 dias?
c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias?
43
8.3. DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES
Em muitas situações trabalhamos com variáveis de natureza categórica, onde
cada elemento é classificado como possuidor ou não de certa característica, ou
variáveis tipo zero-um. Uma determinada peça pode ser classificada como
defeituosa ou perfeita; um indivíduo pode ser classificado como a favor ou contra a
pena de morte, etc. Nesses casos é importante estimar a proporção de sucessos em
uma amostra, obtida como:
P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é o
tamanho da amostra. De forma semelhante ao que foi tratado na distribuição
amostral de médias podemos resumir, no caso de proporções, que:


A média da distribuição amostral de proporções é igual à proporção
populacional
O desvio padrão da distribuição amostral de proporções é dado por:
p 


p(1  p)
N
Para amostras suficientemente grandes a distribuição amostral de proporções
segue o modelo normal.
A estatística da equação abaixo é aproximadamente N(0,1).
z
pP

p
APLICAÇÃO:
1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de fabricação.
Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de defeituosas?
44
9. ESTIMAÇÃO: NOÇÕES GERAIS
Vimos que a inferência estatística é o campo da estatística no qual são tomadas
decisões sobre populações, com base na informação extraída de uma amostra. Nesse
processo são produzidas estimativas sobre os parâmetros populacionais de interesse ou
formuladas testes de hipóteses sobre os mesmos. Tais estimativas podem ser obtidas de
forma pontual ou por intervalos.
Um gerente de uma empresa de produtos automotivos pode, por exemplo, estar
interessado em verificar como se comporta a resistência à tração de determinado
componente, produzido sob diferentes variações na tensão elétrica. Inicialmente ele
pode estar interessado em estimar a resistência média à tração, sob determinada tensão.
Nesse caso ele poderá obter uma estimativa pontual ou um intervalo de confiança para a
resistência média populacional, com base em uma amostra obtida.
Em uma outra situação ele poderia estar interessado em verificar como se comporta
a resistência média à tração, sob duas diferentes tensões elétricas no momento da
produção, para testar se há diferenças estatisticamente significativas nesse parâmetro,
sob as diferentes condições de produção. Nesse caso, ele estaria diante de um problema
de decisão, que pode ser resolvido via testes de hipóteses estatísticas. A hipótese seria
de que a resistência média à tração sobre a tensão t1 seria, por exemplo, superior à
resistência média à tração em peças produzidas sob a tensão t2.
Em resumo, podemos afirmar que:





Resultados extraídos de uma amostra podem ser usados para produzir inferências sobre
a população.
Parâmetro: medida numérica que descreve alguma característica da população.
Estatísticas: funções de valores amostrais.
A estimação pode ser pontual ou por intervalos
Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de testes de
hipóteses estatísticas.
O processo de inferência sobre dados estatísticos pode ser sumarizado no esquema a
seguir:
45
Pontual
–
observações
a
partir
calcula-se
de
uma
estimativa.
ESTIMAÇÃO
Por intervalo - fixação de dois
valores com probabilidade (1-)
de conter o verdadeiro valor do
parâmetro.
AMOSTRAGEM
TESTES DE HIPÓTESES – permite decidir por um valor
do parâmetro ou por sua modificação, com um risco
conhecido.
A média amostral é um estimador pontual natural da média populacional. Com o
uso de resultados do chamado Teorema do Limite Central, podemos encontrar e expressão
para a construção de um intervalo de confiança para a verdadeira média populacional. Tal
intervalo pode ser obtido pela expressão:

x  Z
n
2
, onde:
x Corresponde à média amostral,
Z/2 corresponde ao valor tabelado, obtido na tabela da distribuição normal,
 Corresponde ao nível de significância adotado e

n
Corresponde ao desvio-padrão da distribuição amostral da média.
46
Para uma probabilidade de 95% de confiança, tal intervalo fica:
x  1,96

n
O que significa que, construídos dessa forma, cerca de 95% dos intervalos conterão
o verdadeiro valor do parâmetro  (média populacional).
Quando o desvio padrão populacional é desconhecido, o mesmo deve ser
substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t de Student
em lugar da distribuição Normal. No caso de uma amostra como temos que estimar o
desvio padrão e o mesmo necessita da estimação prévia da média, perde-se um grau de
liberdade. Portanto a valor t corresponde a (n-1) graus de liberdade. No caso de duas
amostras (diferença de médias) tal valor corresponde a (n1+n2-2) graus de liberdade.
Estimadores pontuais e por intervalos de alguns parâmetros populacionais mais
freqüentemente usados, tais como médias, proporções e diferenças de médias são
resumidos no quadro abaixo:
Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros populacionais
PARÂMETRO
ESTIMADOR
PONTUAL
ESTIMADOR POR INTERVALO
___
___
X  / Z  / 2
X
Média
(com variância conhecida)
___
Média
(com variância desconhecida)
X
Proporção
P
___
X  /  t / 2
^
^
P /  Z / 2
__
Diferenças de Médias
(variâncias conhecidas)
__
Diferenças de Médias
(variâncias desconhecidas)
__
X 1 X 2
__
X 1 X 2
__

N
S
n
P(1  P)
n
__
( X 1  X 2 )  /  Z / 2
__
__
( X 1  X 2 )  /  t / 2 Sc
 12
n1

 22
n2
1
1

n1 n2
47
APLICAÇÃO:
Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o produto. Foi
selecionada uma amostra de 25 latas que produziu um peso médio de 5,0Kg e desvio
padrão de 1,5Kg, construir um intervalo de confiança para média populacional.
Uma amostra de 50 componentes eletrônicos, extraída de um grande lote, apresenta 5
componentes defeituosos. Construir um intervalo de confiança para a proporção de
defeituosos no lote.
48
11. CORRELAÇÃO
Coeficientes de correlação têm como objetivo principal avaliar o tipo de intensidade da
relação entre duas variáveis.
11.1. DIAGRAMA DE DISPERSÃO


Gráfico que representa no plano cartesiano duas variáveis quantitativas
Ferramenta simples que permite aprofundar o estudo da associação entre 2
variáveis.
Passos para construção de um diagrama de dispersão:
1. Coletar ao menos 30 pares de observações (x,y) das variáveis a serem estudadas;
2. Registrar os dados em uma tabela;
3. Escolher uma variável a ser representada no eixo ‘x’ (preditora) e outra variável em
‘y’ (dependente);
4. Determinar os valores máximo e mínimo para cada variável;
5. Escolher as escalas para ‘x’ e ‘y’
6. Representar no gráfico os pares de observações (x,y).
7. Registrar informações importantes que devem constar no gráfico: título, legendas,
unidades de medidas, etc
Exemplo:
Na tabela abaixo, estão representadas o tempo de serviço e o volume de vendas
semanais de uma amostra de 5 vendedores de determinado produto:
VENDEDOR
A
B
C
D
E
TEMPO DE
SERVIÇO
(Anos)
1
3
4
6
8
VENDAS
( Unidades)
35
40
42
50
55
Diagrama de dispersão correspondente:
49
55
Y vendas
50
45
40
35
0
1
2
3
4
5
6
7
8
9
X tempo
INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO:
De acordo com o exame do diagrama de dispersão, podemos ter as seguintes situações:
Correlação
Forte
Positiva
rxy  1
50
Correlação
Perfeita
Negativa
rxy= - 1
Correlação
Perfeita Positiva
rxy= 1
y
y
x
x
Correlação Moderada
Ausencia de correlação
51




Quando as variáveis crescem no mesmo sentido temos o caso de correlação positiva.
Quando as variáveis crescem em sentidos opostos temos uma correlação negativa.
Se os dados estão perfeitamente alinhados sobre uma reta temos uma correlação
perfeita.
Quando o crescimento de uma variável é acompanhado de variações casuais da outra
variável a correlação é nula.
Estratificação de Diagrama de Dispersão
Em muitos casos a estratificação de um diagrama de dispersão permite a descoberta da
causa de um problema.
Exemplo:
Os dados a seguir representam a variação da temperatura de peças de metal produzidas em
função da velocidade do torno. No gráfico a, estão representados os dados gerais e não é
possível identificar um padrão. No gráfico b os dados foram estratificados pelo fabricante
(A e B) e é possível identificar que, em ambos os casos, há uma associação positiva entre as
duas variáveis, observando-se ainda que os dados do fabricante a indicam temperaturas
mais elevadas que os do fabricante b, para níveis semelhantes de velocidade do torno.
11.2. COEFICIENTE DE CORRELAÇÃO LINEAR
Para medir o grau da associação linear entre duas variáveis quantitativas
usamos o coeficiente de correlação linear cuja fórmula é:
r
XY

S XY
S XX S YY
, onde
52
S XY   XY 
S XX   X 
2
SYY   Y 
2
 X Y
n
( X ) 2
n
( Y ) 2
n
CUIDADO!


Correlação não implica em relação de causa efeito.
Podemos, por exemplo, encontrar uma alta correlação entre o n. º de internações
por desidratação e a venda de sorvetes, e a verdadeira causa pode ser o aumento
da temperatura.
O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais próximo de
1 maior o grau de associação linear positiva entre as variáveis e quanto mais
próximo de –1 maior o grau de associação negativa.
ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS x QUALITATIVAS
No caso o objetivo principal é fazer uma comparação do comportamento de uma
Variável contínua por grupos, visando captar diferenças: i)nos níveis médios, ii)em
variabilidade, iii)na forma da distribuição, iv)detalhes individuais. As ferramentas mais
utilizadas nesses casos são: Diagrama de Pontos, Gráficos tipo Box-Plot, Gráfico Ramo-eFolhas.
ASSOCIAÇÕES ENTRE VARIÁVEIS: AMBAS QUALITATIVAS
Nesse caso as ferramentas mais utilizadas tratam da construção de tabelas de
contingencia, considerando uma variável como dependente e outra explicativa. O objetivo
principal é verificar e medir associações entre as variáveis, além de encontrar distribuições
percentuais, distribuições marginais e distribuições condicionais.
Um exemplo: a tabela a seguir apresenta a distribuição, em certa Faculdade, dos
alunos dos diversos cursos, por sexo.
53
Escolha de áreas de estudo por sexo
Sexo
Área
Mulheres Homens
Contábeis
68
56
Administração
91
40
Economia
5
6
Finanças
63
59
A partir dos dados pode ser obtida uma distribuição percentual dos dados dos
cursos, considerando o sexo do aluno:
Mulheres Homens
Contábeis
54.8
45.2
Administração
69.5
30.5
Economia
45.5
54.5
Finanças
51.6
48.4
Total
58.5
41.5
Total
100.0
100.0
100.0
100.0
100.0
11.3- REGRESSÃO LINEAR SIMPLES
O diagrama de dispersão pode revelar importantes informações acerca da relação
entre duas variáveis X e Y, que pode assumir a forma de funções matemáticas simples ou
mais complicadas. Quando os pontos traçados no diagrama de dispersão se agrupam em
torno de uma reta, podemos obter a equação dessa reta e assim determinar um modelo
matemático para a relação entre as variáveis. Tal modelo tem a seguinte forma:
Yi = A + BXi + ei, onde:
Yi = variável dependente ou variável resposta.
Xi = variável explicativa
A = coeficiente linear da reta ou ponto de interseção de Y
B = coeficiente angular da reta ou inclinação.
O coeficiente linear da reta corresponde ao ponto onde a mesma corta o eixo-Y, ou
seja, o ponto onde o valor da variável explicativa X é zero. A inclinação indica o quanto
varia a média da variável Y para o aumento de uma unidade na variável X.
Este modelo tem uma série de hipóteses que permitem estimar seus parâmetros e
proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta que melhor se aproxima
dos dados, chamada reta de mínimos quadrados, representada pela expressão:
54

Yi  a  bX i , que pode ser obtida a partir da minimização da soma dos quadrados
dos desvios, que representam as diferenças entre valores observados e estimados para a
variável dependente Y, ou seja, minimizando a expressão:

F   (Yi  Yi ) 2  [Yi  (a  bX i )]2
Os valores dos coeficientes linear e angular resultantes desse processo de
minimização podem ser escritos como:
b
S XY
e a  y  bx
S XX
Quando os desvios ou resíduos são valores pequenos é sinal de que o modelo está
produzindo resultados compensadores. Para uma avaliação da capacidade preditiva da
variável explicativa no contexto do modelo linear ajustado, diversas alternativas podem ser
utilizadas. Inicialmente podemos obter uma medida, chamada soma de quadrados total, que
corresponde à variação quadrática os valores de Y em torno de sua média aritmética, ou
seja:
SQTOTAL   (Yi  Y ) 2
Tal soma de quadrados pode ser desmembrada um duas outras somas: uma que
corresponde à soma dos quadrados dos desvios da regressão e a outra que corresponde à
variação explicada pelo modelo ou soma dos quadrados da regressão, ou seja:
SQTOTAL   (Yi Yˆi ) 2   (Yˆi  Y ) 2 , ou seja,
SQTOTAL = SQRESIDUAL + SQREGRESSÃO.
A relação entre a variação explicada pelo modelo ajustado (SQREGRESSÂO) e a
variação total (SQTOTAL) mede o potencial explicativo do modelo ajustado, ou o
percentual de variação explicada. Tal relação é conhecida como coeficiente de variação R2,
ou seja:
R2 
SQREGRESSA O
SQTOTAL
O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e naturalmente
quanto mais próximo de 100% maior o poder explicativo do modelo ajustado.
Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o uso de:
SQREGRESSAO = bSxy.
55
APLICAÇÃO:
Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha:
a) Coeficiente de correlação entre as variáveis
b) A reta de regressão
c) Qual o valor das vendas semanais para um empregado com 7 anos de experiência?
56
REFERENCIAS BIBLIOGRÁFICAS:
BERQUÓ, ELZA et al. Bioestatística, São Paulo, EPU, 1986.
BUSSAB, W. O e MORETTIN, P. A . Estatística básica, Atual Editora, São Paulo, 1986.
BUSSAB, W. O. Análise de Variância e de Regressão, São Paulo, Atual, 1986.
CALEGARE, ALVARO J. A. Técnicas de Garantia da Qualidade, Rio de Janeiro, Ao
Livro Técnico, 1985.
DRAPER, N. e H. SMITH. Applied Regression Analysis, New York, John Willey, 1966.
FONSECA, JAIRO S. e MARTINS, G. A ., Curso de Estatística, São Paulo, Atlas, 1987.
GATTAS, R. R. Elementos de Probabilidade e Inferência, São Paulo, Atlas, 1978.
GUEDES, M. e GUEDES, J. S., Bioestatística para profissionais de Saúde, Brasília, Ao
livro Técnico, 1988.
HOFFMAN, RODOLFO e VIEIRA, S., Análise de Regressão, São Paulo, Hucitec, 1982
HUFF, D. Como Mentir com Estatística, São Paulo, Ediouro, 1992.
JURAN, J. M. Planejamento para a Qualidade, São Paulo, Pioneira, 1986.
JURAN, J. M. e GRYNA F. M., Controle para a Qualidade, VOL. 6, São Paulo,
Makron Books, 1993.
LEVINE D. N. ET AL, Estatística – Teoria e Aplicações, Rio de Janeiro, LTC Editora,
2005.
MAGALHÂES, M. N. e PEDROSO DE LIMA, A. C. Noções de Probabilidade e
Estatística, IME-USP, São Paulo, 2000.
MONTGOMERY, D. C., RUNGER, G.C. e HUBELE, N. F., Estatística Aplicada à
Engenharia, 2ª Edição, Rio de Janeiro, LTC, 2005.
MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000.
MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books, 1998.
MORETTIN, P. A . Introdução à Estatística para Ciências Exatas, São Paulo, 1991.
PARATHAMAN, D. Controle da Qualidade, São Paulo, Mc. Graw Hill, 1990.
57
STEVESON, W. J. Estatística Aplicada à Administração, São Paulo, Harbra, 1986.
SHAMBLIN, J. E. Pesquisa Operacional, São Paulo, Atlas, 1979.
VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas, 1986.
VIEIRA, S. , O que é Estatística, São Paulo, Brasiliense, 1987.
WEBSTER, A . L. Estatística aplicada à Administração e Economia, São Paulo, 2006.
WERKEMA, M. C. Ferramentas Estatísticas Básicas para o Gerenciamento de Processos,
FCO, UFMG, Belo Horizonte, 1996.
58
59
Download