CURSO DE ESTATÍSTICA BÁSICA APLICADA E CEP

Propaganda
CURSO DE ESTATÍSTICA BÁSICA APLICADA E
CEP
Prof. Cezar Augusto Cerqueira
1
SUMÁRIO
1 - ESTATÍSTICA: NOÇÕES GERAIS ..................................................................................................................................... 3
2 – APRESENTAÇÃO DE DADOS........................................................................................................................................... 9
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS
..............................................................................................................10
2.2 REPRESENTAÇÃO GRÁFICA ..........................................................................................................................11
3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS .............................................................................................. 18
3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,.................................................................18
3.2 MEDIDAS DE VARIABILIDADE ....................................................................................................................... 20
3.3 ASSIMETRIA .................................................................................................................................................... 24
3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT...............................................................26
4 NOÇÕES DE PROBABILIDADE ......................................................................................................................................... 28
5. VARIÁVEIS ALEATÓRIAS ................................................................................................................................................. 31
5.1CASO DISCRETO ............................................................................................................................................. 31
5.2 CASO CONTÍNUO ........................................................................................................................................... 32
6. MODELOS DISCRETOS .................................................................................................................................................... 34
6.1 .DISTRIBUIÇÃO DE BERNOULLI .................................................................................................................... 34
6.2 DISTRIBUIÇÃO BINOMIAL ............................................................................................................................. 34
6.3 MODELO DE POISSON ................................................................................................................................... 35
6.4 MODELO HIPERGEOMÉTRICO ...................................................................................................................... 35
7. MODELOS CONTÍNUOS ................................................................................................................................................... 37
7.1 DISTRIBUIÇÃO NORMAL ............................................................................................... .............................. 37
8- DISTRIBUIÇÕES AMOSTRAIS .......................................................................................................................................... 41
8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS ....................................................................................................... 41
8.2-DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES .........................................................................................45
9 ESTIMAÇÃO: NOÇÕES GERAIS ........................................................................................................................................ 46
10. TESTES DE HIPÓTESES ................................................................................................................................................. 50
11. CORRELAÇÃO ................................................................................................................................................................ 58
11.1 DIAGRAMA DE DISPERSÃO ......................................................................................................................... 58
11.2 COEFICIENTE DE CORRELAÇÃO LINEAR .................................................................................................. 60
12 – REGRESSÃO ..................................................................................................................................................................61
13 – NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS ........................................................................................63
14 NOÇÕES DE ESTATÍSTICA NO EXCEL ...........................................................................................................................70
BIBLIOGRAFIA ........................................................................................................................................................................88
2
1 - ESTATÍSTICA: NOÇÕES GERAIS
A ESTATÍSTICA é a ciência que trata da coleta, processamento e análise
de dados, sendo uma ferramenta fundamental no processo de resolução de
problemas e tomada de decisões. O uso da estatística é de fundamental
importância na identificação de problemas, na determinação do tipo de dados
pertinentes à análise destes, sua coleta, tratamento e posterior tomada de
decisões, a partir das conclusões estabelecidas, contribuindo na elaboração de
um plano de ação para a resolução do problema em questão.
•
A estatística, portanto reúne métodos para:
•
•
Coleta
Processamento
Análise e interpretação de dados
Informações numéricas analisadas servem de base para tomada de
decisões;
As estatísticas nos auxiliam a entender melhor os fenômenos em geral;
EM GERAL, CONHECEMOS ESTATÍSTICAS:
•
•
•
Demográficas
Econômicas
De saúde
Educacionais
Empresariais, etc.
A obtenção das estatísticas é apenas uma das faces do problema;
É preciso aprofundar a análise
Números não foram feitos apenas para serem exibidos ou armazenados
ALGUMAS RAZÕES PARA SE CONHECER ESTATÍSTICA:
•
•
•
•
Para saber como apresentar e descrever informações de forma apropriada
Para saber como tirar conclusões a partir de grandes populações, com
base somente na informação obtida em amostras.
Para saber como melhorar processos
Para saber como obter previsões confiáveis.
3
UMA PALAVRA SOBRE FONTES DE DADOS
LEVINE ET AL (2005) destacam quatro fontes-chave no processo de coleta
de dados:
1. Obter dados já publicados por fontes governamentais, industriais ou
individuais.
2. Planejar e executar um experimento para obter os dados necessários.
3. Planejar e executar uma pesquisa ou levantamento de campo.
4. Realizar uma análise através de um estudo observacional.
No Brasil o governo é o principal produtor de dados sócio-econômicos e
demográficos e o IBGE seu órgão oficial de estatística, que planeja e executa uma
ampla gama de pesquisas, tendo como carro-chefe o Censo Demográfico,
realizado a cada dez anos e que produz informações populacionais, que
possibilitam uma investigação sobre os componentes da dinâmica demográfica
brasileira, com destaque para dados sobre a composição da população por
estrutura etária, sexo, educação, trabalho e rendimento, além de aspectos ligados
à mortalidade, fecundidade e migração, entre outros.
O IBGE produz ainda, em suas diversas pesquisas, dados sobre a evolução da
produção industrial, comercial do setor de serviços; sobre emprego e desemprego,
registro civil, taxas de inflação; além de dados sobre a realidade dos municípios do
país, sobre o setor de saúde, entre outros. Os governos estaduais e municipais
também produzem uma ampla série de informações de nível de agregação mais
localizado, complementando o chamado sistema estatístico nacional.
A segunda fonte de dados mencionada é a experimentação, técnica na qual
um controle rigoroso é exercido no tratamento dado aos participantes. Nesse tipo
de levantamento geralmente são utilizados procedimentos estatísticos mais
sofisticados, como testes de hipóteses e análise de variância, entre outros.
A terceira fonte de obtenção de dados é a realização de pesquisas,
procedimento no qual nenhum controle é exercido sobre os participantes, no que
tange ao seu comportamento. A população é indagada sobre questões relativas a
crenças, valores, atitudes, características pessoais, entre outras. As respostas
obtidas são devidamente tratadas para posterior análise.
Na análise observacional o pesquisador observa diretamente o comportamento
de seu objeto de estudo, geralmente em seu ambiente natural. Este tipo de
levantamento, em geral, se aplica a situações onde pesquisas são impraticáveis
ou de difícil execução. Tais estudos coletam informações, na forma de grupo, para
auxiliar em processos de tomadas de decisão. Uma técnica bastante utilizada é o
grupo focal, empregada para estruturar questões em aberto. Outros tipos de
levantamentos observacionais são ainda utilizados, em diversas situações, entre
os quais destacamos dinâmicas de grupo, “brainstorming”, etc.
4
GRANDES ÁREAS EM ESTATÍSTICA:
A trabalho com dados estatísticos pode ser visualizada em três grandes
áreas: |
•
•
•
Estatística Descritiva
Probabilidades
Inferência estatística
ESTATÍSTICA DESCRITIVA
•
Utilizada na etapa inicial de análise
•
Conjunto de técnicas destinadas a descrever e resumir os dados.
Tabelas
Descrição
Gráficos
Organização
Medidas
Resumo
Técnicas Visuais
Algumas estatísticas descritivas:
•
Taxas de inflação
Taxas de desemprego
Taxas de mortalidade infantil
Renda per capta
Taxa de alfabetização
Índice de leitos por habitantes, etc.
As estatísticas descritivas tornam o dado mais compreensível
5
PROBABILIDADE
•
Teoria matemática utilizada para se estudar a incerteza, oriunda de
fenômenos de caráter aleatório.
INFERÊNCIA ESTATÍSTICA:
•
•
Trata da análise e interpretação de dados amostrais
O principio básico é tirar conclusões sobre a população a partir de uma
amostra de dados obtida da mesma.
APLICAÇÃO
a) Uma montadora de automóveis compra amortecedores de outra indústria,
em lotes de 100 peças. De cada lote é retirada uma amostra, com base na
proporção de defeituosos contidos nessa amostra é tomada uma decisão
quanto à aceitação ou não do lote.
b) Um jornal investigou 900 pessoas residentes na capital sobre qual o fato
de terem ou não um plano de saúde; cerca de 400 disseram que o
possuem.
O processo de coleta/ interpretação dos dados pode ser resumido no esquema
abaixo:
População
Amostra
amostra
inferência
Descrição
Análise/da
Decisão
6
NOÇÕES DE AMOSTRAGEM
Os dados representam a base para a tomada de decisões confiáveis. Na
área de qualidade, por exemplo, quando coletamos dados, nosso propósito
primordial é obter informações sobre lotes de produtos, sobre a estabilidade de
processos, sobre a capacidade de um processo atender às especificações e
sobre resultados obtidos sob alterações que visem melhorar a qualidade do
processo. Nesse sentido cabe destacar os conceitos de:
•
•
POPULAÇÃO – Conjunto de elementos de um universo, com pelo menos uma
característica em comum, sobre o qual desejamos estabelecer conclusões ou
implementar ações.
AMOSTRA – Parte ou subconjunto da população a ser estudada.
POR QUE USAR AMOSTRAGEM?
•
•
•
Estudo de grandes populações.
Redução de custos.
Resultados mais precisos em menor espaço de tempo.
Aleatória simples
Estratificada
PROBABILÍSTICA
Sistemática
Grupos (cluster)
Multifásica
AMOSTRAGEM
(Tipos)
NÃO PROBABILÍSTICA
7
Amostra Aleatória Simples – cada sujeito ou item tem a mesma chance
de seleção. Denota-se por “n” o tamanho da amostra e “N” o tamanho da
população. Cada item da população é numerado de 1 a N. A chance de
seleção de cada elemento é dada por 1/N. As amostras podem ser
escolhidas com ou sem reposição. O sorteio geralmente é feito com o
auxílio de tabelas de números aleatórios.
Amostra Sistemática – Os N elementos da população são divididos em “k”
grupos, onde k=N/n. O primeiro elemento é sorteado por um número
aleatório entre 1 e k, sendo o restante da amostra obtido pela seleção de
cada k-ésimo elemento respectivo na população.
Amostra Estratificada – a estratificação consiste na divisão de um grupo
original em diversos subgrupos, com base em determinados fatores. Na
área de qualidade os fatores geralmente são equipamentos, fabricante,
operadores, métodos de produção, determinadas condições ambientais de
produção, entre outros.
Amostras de grupos ou clusters – nesse caso, os N elementos são
divididos em grupos ou clusters. Uma amostra aleatória de grupos é obtida
e todos os elementos do grupo são investigados. Em algumas situações
uma sub-amostra dentre de cada gruo inicialmente sorteado pode também
ser adotada. Os grupos podem ser tomados como municípios, bairros,
quarteirões, setores censitários, condomínios, etc.
8
2 – APRESENTAÇÃO DE DADOS
No processo de análise de dados, o pesquisador tem à sua mão uma série
de informações relativas a uma população ou uma amostra, e necessita resumir
tais dados para torna-los informativos, para compará-los com outros resultados ou
verificar sua adequação a um modelo teórico. Portanto, antes de passar a análise
descritiva propriamente dita, que antecede a etapa de inferência, é conveniente
observar alguns procedimentos de resumo de dados e sua apresentação na forma
tabular ou gráfica.
•
•
•
Dados brutos desorganizados, não trazem informação!
Ë importante organizar e resumir os dados
Obter dos dados a maior quantidade de informação
TIPOS DE VARIÁVEIS
Os dados coletados no trabalho de pesquisa, gerenciamento de processos,
controle de qualidade de produtos e serviços, em geral podem ser de natureza
qualitativa ou quantitativa. Variáveis como sexo, educação, estado civil, nível de
qualidade de uma peça (perfeita ou defeituosa), são de natureza qualitativa. Tais
variáveis ainda podem ser classificadas como nominais, quando não existe
nenhuma ordenação nas categorias (p/ex: sexo, estado civil), ou ordinais, quando
apresentam alguma ordenação (p/ex: grau de instrução). As variáveis quantitativas
podem ser classificadas como discretas ou contínuas. As discretas resultam
geralmente de contagens do número de ocorrências de determinada característica
de interesse. As variáveis contínuas são aquelas cujos valores possíveis formam
um intervalo de números reais e resultam normalmente de mensurações. São
apresentados a seguir alguns exemplos de variáveis discretas e contínuas:
Discretas
-número de filhos de um casal
-número de defeitos em uma chapa de aço
-número de acidentes de trabalho em uma semana em certa
fábrica.
Contínuas
-Peso ou altura de um indivíduo
-Espessura de uma peça
-Tempo de vida de uma lâmpada, etc
IMPORTANTE!: A técnica estatística a ser utilizada na análise dos dados depende
do tipo de variável com que se trabalha.
9
2.1 DISTRIBUIÇÃO DE FREQUÊNCIAS
•
•
•
Após coletar, deve-se organizar os dados.
Para conhecer melhor a distribuição das variáveis de interesse procura-se
dispor os dados em tabelas e gráficos.
Objetiva-se obter uma melhor visualização do fenômeno.
CASO DE VARIÁVEIS NOMINAIS OU ORDINAIS
Exemplo:
A Tabela 2.1 apresenta a distribuição dos empregados do setor de
produção de certa empresa segundo o seu grau de instrução.
Tabela 2.1
Empregados do setor de produção, segundo o grau de instrução, 2005.
GRAU DE INSTRUÇÃO Freqüência (fi)
Primeiro Grau
15
Segundo Grau
25
Superior
10
TOTAL
50
FONTE: Pesquisa direta
10
2.2 REPRESENTAÇAO GRÁFICA:
GRÁFICO DE SETORES:
Útil na representação de variáveis de natureza qualitativa.
Empregados do Setor de Produção, segundo grau de
instrução - 2000
20%
30%
Primeiro Grau
Segundo Grau
Superior
50%
CASO DE VARIÁVEIS DISCRETAS
Para ilustrar, considere os dados abaixo representando a distribuição da
variável número de filhos dos empregados do setor de produção.
Tabela 2.2
Distribuição do número de filhos dos empregados do setor de produção
NÚMERO DE FILHOS
Freqüência ( fi)
0
5
1
10
2
20
3
9
4
6
11
REPRESENTAÇÃO GRÁFICA: Gráfico de Colunas
Número de filhos
20
18
16
14
12
freq. 10
8
6
4
2
0
0
1
2
3
4
filhos
12
CASO DE VARIÁVEIS CONTÍNUAS
Foram obtidas as rendas mensais, em salários mínimos, dos empregados
do setor de produção.
Tabela 2.3
Distribuição de freqüências das rendas dos empregados
do setor de produção
CLASSE DE
RENDA(sal.min.)
4 |----- 8
8 |----- 12
12 |----- 16
16 |----- 20
20 |----- 24
TOTAL
Freq.
simples(fi)
Freq.
Relativa Freq. Acumulada (Fi)
7
14,0
7
8
16,0
15
20
40,0
35
10
20,0
45
5
10,0
50
50
100,0
-
REPRESENTAÇÃO GRÁFICA (Histograma):
Distribuição dos salários dos empregados do setor de produção
25
freq. simples
20
15
10
5
0
6
10
14
18
22
sal.min.
13
A DISPOSIÇÃO RAMO-E-FOLHA
Consiste de uma outra ferramenta valiosa para organizar um conjunto de
dados e ao mesmo tempo, compreender a maneira com os valores se distribuem e
se agrupam ao longo da amplitude de observação no conjunto de dados.
•
•
Cada observação é dividida em: ramo (dígitos iniciais) e folha (dígitos
restantes).
Devemos escolher poucos ramos em relação ao total de observações
(entre 5 e 20).
Exemplo: Considere os dados abaixo representando a resistência à compressão
de uma amostra de 80 corpos de prova de liga de alumínio:
105
97
245
163
207
134
218
199
160
196
221
154
228
131
180
178
157
151
175
201
183
153
174
154
190
76
101
142
149
200
186
174
199
115
193
167
171
163
87
176
121
120
181
160
194
184
165
145
160
150
181
168
158
208
133
135
172
171
237
170
180
167
176
158
156
229
158
148
150
118
143
141
110
133
123
146
169
158
135
149
Como ramos consideraremos os valores 7,8,9,...24, o gráfico encontra-se a seguir:
14
Gráfico Ramo-e-Folha – Resistência à compressão de 80 corpos de prova.
Ramo Folha
76
87
97
10 51
11 580
12 103
13 413535
14 29583169
15 471340886808
16 3073050879
17 8544162106
18 361410
19 960934
20 7108
21 8
22 189
23 7
24 5
Frequencia
1
1
1
2
3
3
6
8
12
10
10
7
6
4
1
3
1
1
O GRÁFICO DE PARETO
Consiste de um gráfico de barras verticais que dispõem a informação, de
forma a tornar evidente e visual a priorização de temas.
O princípio de Pareto estabelece que os problemas relacionados à
qualidade se traduzem na forma de perdas e podem ser classificados em duas
categorias: “ os poucos vitais” e os “muitos triviais”.
Exemplo: Uma indústria fabricante de lentes iniciou o ciclo de melhoria da
qualidade, com o objetivo de resolver o seguinte problema: aumento no número de
lentes defeituosas produzidas pela empresa, a partir de fevereiro de 2004. Em
uma etapa de observação, a empresa classificou uma amostra de lentes
produzidas, de acordo com os tipos de defeitos encontrados, tendo obtido os
resultados da Tabela 2.4, a seguir.
15
Tabela 2.4 – Defeitos encontrados em uma amostra de lentes fabricadas pela
indústria
Freqüência de Total
Tipo de Defeito
defeitos
Acumulado
Freqüência
Percentual
relativa (%)
Acumulado
Revest. Inadequado
55
55
43,3
43,3
Trinca
41
96
32,3
75,6
Arranhão
12
108
9,4
85,0
Espessura inadequada
11
119
8,7
93,7
Mal-acabada
5
124
3,9
97,6
outros
3
127
2,4
100,0
127
-
100,0
-
Total
FONTE: Indústria de lentes
Gráfico de Pareto para os defeitos das lentes
60
100,0
50
80,0
40
60,0
defeitos
% Acum
30
40,0
20
20,0
10
0
0,0
outros
Mal-acabada
Espessura
inadequada
Arranhão
Trinca
Revest.
Inadequado
16
O Gráfico de Pareto pode ter ainda grandes aplicações na área de qualidade,
destacando-se:
•
•
•
•
•
•
Gráfico de Pareto para causas, envolvendo, geralmente, as seguintes
categorias: equipamentos, insumos, informação do processo ou medidas,
condições ambientais, pessoas, métodos ou procedimentos.
Gráfico de Pareto para efeitos, envolvendo, geralmente, as categorias:
qualidade, custo, entrega, segurança, etc.
Gráfico de Pareto expresso em unidades monetárias
Gráfico de Pareto estratificado (por operador, etc)
Comparações tipo antes e depois
Desdobramento de gráficos de Pareto (causas e sub-causas)
17
3–MEDIDAS ASSOCIADAS A VARIÁVEIS QUANTITATIVAS
O resumo dos dados na forma de tabelas, bem como a visualização da sua
distribuição, na forma de gráficos, são importantes elementos na análise dos
mesmos. Entretanto, é fundamental que se disponha de um sumário dos dados na
forma numérica.
São apresentadas a seguir as principais medidas utilizadas para se
quantificar os valores centrais da distribuição dos dados (locação), bem como o
grau de dispersão dos dados em torno dos valores centrais (variabilidade).
3.1 MEDIDAS DE TENDÊNCIA CENTRAL (locação): média aritmética,
mediana
CÁLCULO DE MEDIDAS DE LOCAÇÃO
A média aritmética é a medida mais comumente utilizada para representar
um conjunto de dados. No caso de dados brutos, seu cálculo pode ser feito
através da fórmula:
n
X =
∑ Xi
i =1
n
A mediana corresponde ao valor central de uma distribuição. No caso de
dados brutos, sendo o tamanho da amostra (n) ímpar, basta tomar, a partir dos
dados dispostos em ordem crescente, o elemento de ordem X([n+1/2]) . No caso de
n ser par, a mediana é obtida como a média aritmética dos dois valores centrais
da distribuição dos dados em ordem crescente, ou seja:
Me =
X ( n / 2 ) + X ([ n / 2 ]+1)
2
Caso os dados estejam dispostos em uma tabela de freqüências os
cálculos são efetuados através das expressões a seguir. No caso da média
aritmética:
k
X =
∑X
i =1
i
fi
n
18
No caso da mediana, tem-se:
Me = Li +
[(0,5)n − Fant ]
.c
f Me
Onde:
Li = limite inferior da classe mediana;
Fant = freqüência acumulada até a classe anterior
fMe = freqüência simples na classe mediana
c = amplitude da classe mediana.
OUTRAS MEDIDAS DE LOCAÇÃO
A distribuição dos dados pode ser divida em mais de duas partes. No caso
de dividi-la em quatro partes iguais, os pontos de corte correspondentes são
chamados de Quartis e representam medidas estratégicas na distribuição. O
primeiro quartil (Q1) é um valor que tem aproximadamente um quarto (25%) das
observações abaixo de si. O segundo quartil tem aproximadamente 50% das
observações abaixo de seu valor e corresponde à mediana, medida anteriormente
estudada. Já o terceiro quartil (Q3) reúne abaixo de si cerca de 75% das
observações.
Para dados não agrupados o primeiro quartil é calculado como a [(n+1)/4]ª
observação ordenada e o terceiro como a [3(n+1)/4]ª observação ordenada. As
regras a seguir são úteis para o cálculo dos quartis (LEVINE ET AL., 2005):
1) Se o ponto de posicionamento resultante for um numero inteiro, a
observação numérica correspondente àquele ordinal será o valor do
quartil.
2) Se o ponto de posicionamento estiver entre dois números inteiros, a
média de seus respectivos valores será tomada como o quartil.
3) Se o ponto de posicionamento resultante não se tratar de um número
inteiro, nem correspondente á metade do intervalo entre dois inteiros,
uma regra a ser aplicada pode ser a de arredondar para o inteiro
mais próximo e selecionar o valor numérico relativo à observação
correspondente.
4) Uma outra regra a ser adotada na situação 3 pode ser interpolar
entre os valores correspondentes.
19
Como exemplo, vamos calcular os quartis para a série de dados abaixo:
9,8
11,3
21,5 25
12,5
38,9
13,5
16,5
17,5
18
18,1 18,7 19
20
Q1 = (n+1)/4 = (14+1)/4 = 3,75
Assim, pela regra 3 o primeiro quartil corresponde à quarta observação
ordenada, ou seja, Q1 = 13,5. Por outro lado,
Q3 = 3(n+1)/4 = 11,25, logo o valor de Q3 é aproximado pela décima
primeira observação ordenada, ou seja, Q3 = 20.
3.2 MEDIDAS DE VARIABILIDADE
A variabilidade está presente em todo e qualquer processo produtivo de
bens ou serviços. De modo geral, pode-se dizer que a variabilidade é resultado de
uma série de alterações nas condições sob as quais as observações são tomadas.
Segundo WERKEMA (1995), tais alterações podem refletir diferenças entre
matérias-primas, condições de equipamentos, métodos de trabalho, condições
ambientais e operadores envolvidos no processo. A redução da variabilidade de
processos permite que a produção de itens cuja característica de interesse esteja
próxima de um valor alvo desejado e dentro de limites especificados.
CÁLCULO DE MEDIDAS DE VARIABILIDADE
A discrição dos dados através de medidas de locação pode esconder
importantes informações com respeito variabilidade dos dados. Como exemplo
ilustrativo, suponha que 3 grupos de alunos submeteram-se a um teste, obtendose os valores abaixo:
GRUPO A
GRUPO B
GRUPO C
3
1
5
4
3
5
5
5
5
6
7
5
7
9
5
Observa-se que a média dos 3 grupos é igual a 5, portanto, estes não
apresentam diferenças quanto ao aspecto de locação; entretanto a variabilidade
dos resultados difere bastante entre os 3 grupos, sendo necessária uma medida
que sumarize esse aspecto.
Uma medida, de caráter preliminar, de abordagem da dispersão é a
chamada amplitude do conjunto de dados, correspondente à diferença entre o
valor máximo e o valor mínimo. No caso dos dados acima, a amplitude do grupo A
20
seria: Xmax-Xmin= 7-3 = 4. Para o grupo B seria de 8 (9-1) e para o gruo C seria
igual a 0 (zero).
Embora a amplitude seja uma medida simples da variação total nos dados,
ela não leva em consideração o modo como os dados estão distribuídos entre os
valores extremos.
O grau de dispersão ou variabilidade dos dados em torno da média pode
ser avaliado através de medidas como a variância, o desvio padrão e o coeficiente
de variação. O princípio básico é medir o desvio das observações (di), em relação
à média do grupo. No caso dos dados do grupo A acima, teríamos os seguintes
valores para os di: -2, -1, 0, 2, 2. A variabilidade poderia ser pensada como a
soma desses desvios, porém essa não é uma boa alternativa porque tal soma é
igual a zero para qualquer conjunto de dados. Uma alternativa, portanto é
trabalhar com a soma dos quadrados desses desvios e em seguida obter um
desvio médio. Desse modo a fórmula para o cálculo da variância populacional de
um conjunto de dados pode ser expressa como:
n
σ2 =
∑(X
i =1
i
− X )2
n
Alternativamente, pode-se mostrar que tal expressão pode ser escrita como:
(∑ X i )
1
σ = [∑ X i2 −
]
n
n
2
2
Ao se trabalhar com amostras, pode-se utilizar a fórmula abaixo, que
apresenta algumas propriedades interessantes, como representante da variância
de uma população, lembrando que a diferença entre as duas fórmulas diminui à
medida que o tamanho da amostra aumenta.
(∑ X i )
1
s =
[∑ X i2 −
]
n −1
n
2
2
Considerando os dados relativos às notas dos alunos do grupo A, temos que:
∑X
2
i
= 135
21
∑X
i
= 25
Desse modo, aplicando-se a expressão acima, pode-se ver que a variância das
notas será dada por:
S2 = ¼(135 – 125) = 2,5.
No caso de tabelas de freqüência, o cálculo da variância pode ser feito através da
expressão:
(∑ X i f i )
1
s =
[∑ X i2 f i −
]
n −1
n
2
2
Para ilustrar considere o cálculo da variância dos salários dos empregados, a
partir da Tabela 4:
Cálculo da variância dos dados da Tabela 4 (salários dos empregados)
Ponto
CLASSE DE
Freq.
Freq.
Freq.
RENDA(sal.min.) simples(fi) Relativa Acumulada (Fi) médio(Xi)
4 |----- 8
7
14,0
7
6
8 |----- 12
8
16,0
15
10
12 |----- 16
20
40,0
35
14
16 |----- 20
10
20,0
45
18
20 |----- 24
5
10,0
50
22
TOTAL
50
100,0
-
Xifi
42
80
280
180
110
692
Xi2fi
252
800
3920
3240
2420
10632
Desse modo, tem-se que:
s2 =
1
692 2
[10.632 −
] = 21,525
49
50
Imagine agora que nosso objetivo fosse avaliar, dentro de um mesmo
grupo, por exemplo, se há maior grau de dispersão com relação ao peso dos
22
indivíduos ou com relação à sua altura, ou, em outro caso, se desejássemos
comparar o grau de dispersão de grupos com médias bastante distintas. Em tais
casos não seria aconselhável utilizar o desvio padrão, sendo necessário o uso de
uma medida de dispersão relativa, adimensional, que é o caso do COEFICIENTE
DE VARIAÇÃO, cuja expressão corresponde à relação entre o desvio padrão e a
média aritmética dos dados, sendo portanto escrito como:
γ =
s
X
Uma outra medida de dispersão que pode ser empregada é a
chamada amplitude interqualtil, representada pela diferença entre o terceiro
e o primeiro quartis, ou seja:
J = Amplitude Interquartil = Q3-Q1.
Esta medida considera a dispersão nos dados que estão entre os
50% de observações centrais, não sendo, portanto, influenciada pelas
observações extremas.
23
3.3 ASSIMETRIA
Um outro aspecto de interesse na análise de um conjunto de dados referese ao seu formato, ou o grau de assimetria, que está associado com a forma com
que se distribuem os dados em torno dos valores centrais. Desse modo, pode-se
encontrar distribuições com os seguintes aspectos:
Distribuição dos salários dos empregados do setor de produção da
Companhia A
30
freq. simples
25
20
15
10
5
0
6
10
14
18
22
sal.min.
No caso da Companhia A tem-se uma distribuição SIMÉTRICA dos
salários, ou com grau de assimetria zero. Nesse caso a média coincide com a
mediana.
24
Distribuição dos salários dos empregados do setor de produção da
Companhia B
16
14
freq. simples
12
10
8
6
4
2
0
6
10
14
18
22
sal.min.
A Companhia B apresenta uma distribuição com uma ASSIMETRIA
POSITIVA, ou seja, uma cauda mais acentuada no lado direito da distribuição e
uma maior concentração em valores mais baixos. Nesse caso, a média é
aumentada em função de alguns valores elevados incomuns, sendo maior que a
mediana.
Distribuição dos salários dos empregados do setor de produção da
Companhia C
16
14
freq. simples
12
10
8
6
4
2
0
6
10
14
18
22
sal.min.
A distribuição dos salários da Companhia C apresente uma ASSIMETRIA
NEGATIVA, ou seja, uma concentração mais acentuada nos valores mais
25
elevados da distribuição. No caso a média é reduzida em função de alguns valores
mais baixos, sendo inferior à mediana.
E agora se você gostaria de trabalhar em qual das companhias?
3.4 - O ESQUEMA DOS CINCO NÚMEROS E O GRÁFICO BOX PLOT
Tanto a média como o desvio-padrão podem ser bastante afetados por
observações extremas e não fornecem informação sobre o grau de assimetria da
distribuição. Para tentar contornar tais dificuldades, TUCKEY (1977) propôs o uso
de cinco medidas, conhecido como o esquema dos cinco números, que são: a
Mediana, o primeiro e terceiro Quartis e os valores Extremos do conjunto de
dados. O esquema pode ser visualizado na figura abaixo:
Me
Q1
Min
Q3
Max
O Box Plot é uma representação gráfica que procura descrever, de forma
simultânea, diversas características importantes de um conjunto de dados, tais
como tendência central, variabilidade, assimetria e valores extremos ou “outliers”.
Seu desenho tem como base o esquema dos 5 números, tomando os valores
extremos como um múltiplo da amplitude interquartil, geralmente considera-se o
valor de 1,5 vezes a amplitude interquartil. Uma observação a mais de 3
amplitudes interquartis é considerada um “outlier" “extremo”. O Box Plot é
representado pela figura abaixo, onde a linha central da caixa corresponde à
mediana dos dados, com o canto esquerdo (ou inferior) no primeiro quartil e o
canto direito (ou superior) no terceiro quartil. Os valores de E1 e E2 podem ser os
valores mínimo e máximo do conjunto de dados ou, alternativamente, obtidos
como: E1 = Q1 – 1,5 J e E2 = Q3 +1,5 J.
E1
Q1
Me
Q3
E2
26
EXEMPLO: Os dados a seguir representam os retornos anuais para três anos de
uma amostra de 14 fundos de baixo risco.
Tabela 3.1 – Retorno em 3 anos de fundos mútuos de baixo risco
Fundo
BRINSON Global equity
Phoenix-Zweig Managed asset C
AIM Global Gr In A
MFS Global Tot Ret A
Fremont Global
Scudder Global
Van Kampen Global eq All B
Fidelity Global balanced
Tweedy Browne Global Value
MERRILL LYNCH Gbl Value D
MORG STAN DW European Growth
DREYFUS PREMIER Worldwide Gr A
ACORN Int
JANUS Worldwide
Retorno 3Anos
9,77
11,35
12,46
13,8
15,47
17,48
18,37
18,47
18,61
20,72
21,49
22,47
31,5
38,16
FONTE: LEVINE ET AL. 2005
A mediana dos dados corresponde à média aritmética entre a 7ª e a 8ª
observações, ou seja, 18,37 e 18,47, logo, Me = (18,37+18,47)/2 = 18,42. O
primeiro quartil corresponde à observação (n+1)/4 = 3,75, aproximada pela 4ª
observação, logo Q1 = 13,8. O terceiro quartil é aproximado pela observação
(3n+1)/4 = 3(14+1)/4 = 11,25, ou 11ª observação, ou seja, Q3 = 21,49. A amplitude
interquartil é dada por: J=Q3-Q1=21,49-13,8=7,69. Desse modo, os valores
extremos podem ser obtidos como: E1= 13,8 - 1,5(7,69) = 2,26 e E3 = 21,49 +
1,5(7,69) = 33,02.
27
4 NOÇÕES DE PROBABILIDADE
O primeiros estudos começaram com problemas formulados pelo Barão de
Méré e discutidos por matemáticos como Pascal e Fermat (1654), geralmente
envolvendo jogos de azar. A teoria de probabilidades se aplica a experimentos
aleatórios, que são aqueles cujo resultado não podem ser previstos com certeza.
A despeito do caráter casual que envolve o resultado de um experimento
aleatório, é possível construir um modelo que o reproduza, sem que seja
necessária a sua observação. Como exemplo ilustrativo, poderíamos considerar
um experimento simples como o lançamento sucessivo de um dado. Os resultados
possíveis e respectivas probabilidades podem ser escritos como:
Resultado
Probabilidade
1
2
1/6
3
1/6
4
1/6
5
1/6
6
1/6
1/6
Ainda como ilustração, considere um lote contendo 50 peças, das quais 10
são defeituosas e que seja retirada ao acaso uma peça deste lote. Os resultados
possíveis e respectivas probabilidades podem ser escritos como:
Resultado Perfeita(P) Defeituosa(D)
Probabilidade
4/5
1/5
Um modelo probabilístico associado a um experimento aleatório, conforme
observado acima, pode ser especificado por um espaço amostral (S), que consiste
no conjunto dos resultados possíveis e por uma probabilidade. Os subconjuntos
do espaço amostral são denominados de eventos, geralmente denotados por
letras latinas maiúsculas A,B,C, ou A1, A2, etc.
DEFINIÇÕES DE PROBABILIDADE
Uma probabilidade pode ser atribuída com base nas características teóricas
da realização do experimento, como é o caso do exemplo do lançamento do dado,
visto anteriormente. No caso, a probabilidade clássica a priori é baseada no
conhecimento prévio sobre o experimento. No caso mais simples, em que cada
resultado é igualmente provável (equiprovável), a probabilidade de ocorrência do
evento é dada pela expressão:
P=
casos favoráveis
casospossíveis
Uma probabilidade também pode ser obtida de forma empírica, através da
freqüência relativa. Pode-se verificar que à medida que o número de realizações
do experimento aumenta, a freqüência relativa de um evento de interesse tende a
28
se estabilizar em um valor que representa a sua verdadeira probabilidade. Os
resultados são baseados em dados observados e não no conhecimento prévio
sobre o fenômeno investigado. Tal definição de probabilidade pode ser aplicada
para calcular, por exemplo, a percentagem de indivíduos fumantes em uma
escola, a proporção de votos de um candidato político ou ainda o percentual de
analfabetos em uma comunidade.
Uma probabilidade pode ser definida como uma função que satisfaz os
seguintes axiomas:
1) P(A) ≥ 0
2) P(S) = 1
n
n
j =1
j =1
3) P (U A j ) = ∑ P ( A j )
Onde os Aj , j= 1,2,...n são disjuntos ou excludentes, ou seja, ( Ai ∩ Aj) = ∅
ALGUMAS PROPRIEDADES
1) Seja A um evento qualquer, então 0 ≤ P(A) ≤ 1.
2) Seja Ac o chamado evento complementar de A, então P(Ac) = 1 – P(A).
3) P(A ∪ B) = P(A) + P(B) – P(A ∩ B), sendo A e B eventos quaisquer.
PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA
Em muitas situações, o cálculo da probabilidade de um evento pode ser
feito com base em alguma informação adicional fornecida, sendo o espaço
amostral atualizado. Essa nova probabilidade recalculada pode ser chamada
probabilidade condicional.
Definição: dados dois eventos A e B, diz-se que a probabilidade condicional de B
ocorrer, dado que o evento A ocorreu é dada por:
P( B | A) =
P( A ∩ B)
P ( A)
onde P(A) ≥ 0.
Definição: dois eventos A e B são independentes se a informação da ocorrência
de A não altera a chance da ocorrência de B, ou seja:
P(B|A) = P(B)
29
Ou seja,
P(A ∩ B) = P(A).P(B)
APLICAÇÃO
A tabela abaixo apresenta o número de alunos matriculados no
Departamento de Matemática de certa universidade:
CURSO
Matemática (A)
Física (F)
Informática (C)
Estatística (D)
MASC. (M)
FEM (F)
60
15
10
15
30
10
15
5
Uma pessoa é escolhida ao acaso, calcule as probabilidades seguintes:
a)
b)
c)
d)
e)
f)
P(A)
P(D)
P(H)
P(A ∪ M)
P(B ∩ F)
P(M | C).
30
5. VARIÁVEIS ALEATÓRIAS
Variáveis aleatórias são variáveis numéricas cujos resultados podem variar de
uma realização para outra do experimento. Podem ser classificadas de acordo
com o esquema abaixo:
DISCRETA
Surgem através de um processo de contagem
Ex: Número de filhos de um casal, Número de
defeitos em uma chapa metálica, etc
VARIÁVEL ALEATÓRIA
CONTÍNUA
Resulta de um processo de medição, assumindo
valores num conjunto infinito não enumerável
Ex: Peso, Altura, Renda, etc.
5.1. CASO DISCRETO:
•
•
•
A variável aleatória assume valores X1, X2, ...... Xn
A cada valor se associa uma probabilidade respectiva: p1, p2, ...... pn
Pode–se definir uma função de probabilidades, f (x), tal que:
f ( x) ≥ 0
e
∑
f (x) = P ( X = x) = 1
Em resumo tem-se:
31
X
X1
X2
X3
...... XN
Distribuição de
Probabilidades
P(X=x)
P1
P2
P3
...... PN
MÉDIA E VARIÂNCIA DE UMA VARIÁVEL DISCRETA:
Média:
E(X)=
Variância:
∑ Xi
. P ( X = xi )
V ( X ) = E (X2 ) – E2 ( X )
Onde: E ( X2 ) =
∑X
2
.P(X=x )
5.2. CASO CONTÍNUO:
•
•
A Variável assume valores em intervalos
Pode–se definir a função de densidade de Probabilidades, f (x ) , tal que:
1.
f ( x) ≥ 0
+∞
2.
∫ f ( x)dx = 1
−∞
b
3. P (a < X < b) = ∫ f ( x) dx
a
32
APLICAÇÃO:
1) Um lote contém 10 peças, sendo 3 defeituosas. Duas peças são retiradas ao
acaso, sem reposição.
Seja X V.A representando o número de defeituosas.
a) Determinar o espaço amostral do experimento e suas respectivas
probabilidades.
b) Obtenha a distribuição de probabilidades da variável X.
c) Calcule E ( X ) e V ( X ).
2) Repetir o exercício acima usando amostragem com reposição.
33
6. MODELOS DISCRETOS:
6.1.
DISTRIBUIÇÃO DE BERNOULLI
Seja um experimento com apenas dois resultados possíveis: Sucesso e
Fracasso.
Define-se a Variável: X = 1 se ocorre sucesso, com probabilidade p e X = 0, caso
contrário.
Tem-se então a seguinte distribuição de probabilidades para tal variável:
X
0
1
P(X=x)
(1–P)
P
É fácil ver que E( X ) = p e V ( X ) = p (1 – p) = pq
6.2.
•
•
•
DISTRIBUIÇÃO BINOMIAL
Tem-se n realizações independentes de um experimento tipo Bernoulli.
A Probabilidade de sucesso “p” é constante.
Deseja-se obter a chance de ocorrerem k sucessos nas n realizações.
Seja X Variável aleatória definida como o número de sucessos nas n realizações.
Então:
Função de Probabilidades
Binomial
P (X = K ) = ( KN ) . pk. ( 1- p)n-k
Verifica-se que, no caso da Distribuição Binomial, temos:
Média =
np
e
VARIÂNCIA =
npq
PARÂMETROS
34
6.3.
MODELO DE POISSON:
Distribuição de probabilidades discreta com importantes aplicações, em
casos que envolvem contagem de eventos que ocorrem em intervalos de tempo,
volume, superfície.
APLICAÇÕES:
•
•
•
•
Chegada de clientes numa fila
Ocorrência de falhas por metro quadrado de tecido produzido
Número de chamadas telefônicas que chegam numa central
Limite da Distribuição Binomial
Formula:
P (X = k) =
e − λt ( λt ) K
k!
Onde:
λ = taxa de ocorrências.
t = n.º de unidades de tempo ou espaço.
6.4. MODELO HIPERGEOMÉTRICO
Considere uma população de N elementos, dos quais r têm uma certa
característica. Retira-se dessa população uma amostra de n elementos. Define-se
X como o nº de sucessos ( nº de elementos com a característica citada ) na
amostra. Deseja-se calcular P(X=k), que é dado por:
( rk )( nN−−kr )
P( X = k ) =
( nN )
35
APLICAÇÃO:
1. Cerca de 10% das peças produzidas por certa indústria, são defeituosas.
Numa amostra de 10 peças obtidas ao acaso, determinar a probabilidade de se
ter:
a) Exatamente 2 defeituosas
b) No máximo, uma perfeita
2. Na fila de certa Agência Bancária, chegam, em média, 5 clientes por minuto.
a) Nenhum cliente em intervalo de 01 minuto.
b) Exatamente 06 clientes em 02 minutos.
3. Pequenos motores são guardados em caixas com 50 unidades. Um inspetor de
qualidade examina cada caixa testando 5 motores. Se nenhum deles for
defeituoso a caixa é aceita. Se houver ao menos um defeituoso toda a caixa é
testada. Sabendo que há 6 motores com defeito numa caixa, calcule a
probabilidade desta ser examinada por completo.
36
7. MODELOS CONTÍNUOS
7.1. DISTRIBUIÇÃO NORMAL
•
•
•
•
•
•
O exame dos gráficos de freqüência sugere a curva representativa da
distribuição da variável.
As curvas de distribuição permitem o cálculo de probabilidades sobre a
Variável estudada.
A curva normal é uma das mais importantes e utilizadas na Estatística.
Muitas variáveis, na prática, seguem o modelo normal.
O Modelo Normal possui dois parâmetros: a média (µ) e o desvio padrão
(σ).
Notação X~N( µ,σ )
GRÁFICO DA CURVA NORMAL:
68%
µ-σ
µ
µ+σ
Do gráfico acima, observa-se algumas importantes propriedades da curva
normal:
1)
2)
3)
4)
A área sob a curva é igual a 1.
A curva é simétrica em relação à sua média.
A curva possui dois pontos de inflexão em (µ + σ) e (µ - σ).
A curva possui um ponto máximo em x = µ.
37
USO DA TABELA NORMAL
Para se calcular probabilidades associadas à curva normal, deve ser utilizar
X −µ
.
p chamado escore padrão, definido como: Z =
σ
A tabela normal aqui utilizada apresenta a área entre 0 (zero) e o escorre
de interesse:
0
z
Como exemplo, vamos obter as seguintes áreas:
1) P ( 0 < Z < 1 ) = 0,3413
0
1
2) P ( Z > 1 ) = 0,50 – 0,3413
1
38
3) P ( Z > -1 ) = 0,50 + 0,3413 = 0,8413
-1
•
0
A Tabela Normal também pode ser usada no sentido inverso, ou seja:
Dada uma determinada área, qual o escorre corresponde?
Considere a situação abaixo:
5%
z=1,64
0
z
2,5%
z = 1,96,
-z
0
=5%
z
39
APLICAÇÃO:
Diâmetro de parafusos produzidos por certa indústria, segue o modelo
normal, com média de 172mm e desvio padrão de 5mm.
a) Qual a proporção de parafusos com diâmetro inferior a 177mm?
b) Qual a proporção de parafusos com diâmetro entre 167 e 177mm?
c) Qual o valor acima do qual estão 2,5% dos diâmetros?
40
8. DISTRIBUIÇÕES AMOSTRAIS
As características de uma população podem ser descritas através de
estatísticas populacionais, conhecidas como parâmetros, que podem então
ser definidos como medidas numéricas que descrevem características de
uma população. Os parâmetros são quantidades desconhecidas que
precisam ser estimadas com o uso de uma amostra extraída da população.
Uma importante etapa no trabalho de análise de dados é a inferência
estatística, onde estatísticas amostrais tais como a média aritmética, o
desvio padrão ou a proporção, são utilizadas para estimar os parâmetros
populacionais correspondentes.
As distribuições amostrais podem ser vistas como:
•
•
Distribuição de probabilidades de uma estatística amostral
Indicam como variam as estatísticas devido a variações no processo de
amostragem.
Onde está a Variabilidade?
•
•
•
Na própria estatística
Na distribuição da população em estudo
Tem relação inversa com o tamanho da amostra
8.1 DISTRIBUIÇÃO AMOSTRAL DE MÉDIAS
Para introduzir a idéias da distribuição amostral de médias, considere o
exemplo a seguir.
EXEMPLO 8.1: Suponha que nossa população de estudo é formada
pelo número de defeitos encontrados em quatro chapas metálicas
produzidas por certa indústria, cujos valores são: 3, 4 e 5. A média
populacional é dada por:
µ = (3+4+5)/4 = 4 defeitos por chapa.
A variância populacional do número de defeitos é dado por:
(3 − 4) 2 + (4 − 4) 2 + (5 − 4) 2
σ =
= 0,6666
3
2
Vamos agora selecionas amostras de tamanho 2 dessa população
que, no total são 32 = 9 amostras possíveis, cujos resultados encontram-se
na tabela abaixo:
41
Tabela 8.1 - Possíveis amostras de tamanho 2 que podem ser
extraídas da população do exemplo 8.1
Amostra
Média
Amostral
(3,3)
3
(3,4)
3,5
(3,5)
4
(4,3)
3,5
(4,4)
4
(4,5)
4,5
4
(5,3)
(5,4)
4,5
5
(5,5)
Como cada uma das 9 amostras tem a mesma chance de ocorrência, a
distribuição de probabilidades da média amostral é dada por:
Tabela 8.2 – Distribuição da média amostral para o exemplo 8.1
Valor da média Probabilidade
3
1/9
3,5
2/9
4
3/9
4,5
2/9
5
1/9
A média da distribuição amostral de médias pode ser obtida como:
1
9
2
9
3
9
2
9
1
9
µ x = 3. + 3,5. + 4. + 4,5. + 5. = 4
Portanto a média da distribuição amostral de médias é igual à média
populacional, anteriormente calculada. Por outro lado, a variância da distribuição
amostral de médias pode ser calculada por:
σ x2 = E ( X 2 ) − E 2 ( X ) , onde
1
2
3
2
1
E ( X 2 ) = 3 2. + 3,5 2. + 4 2. + 4,5 2. + 5 2 = 16,333 , portanto:
9
9
9
9
9
σ x2 = E ( X 2 ) − E 2 ( X ) = 16,333 − 4 2 = 0,333
42
Portanto, a variância da distribuição amostral de médias poderia ser obtida
como:
σ =
2
x
σ2
n
=
0,6666
= 0,3333 .
2
Em resumo, a média da distribuição amostral de médias coincide com a
média populacional, µ x = µ , enquanto a variância da distribuição amostral de
médias equivale a
σ x2 =
σ2
n
, cujo desvio-padrão é dado por σ x =
σ
n
.
AMOSTRAGEM A PARTIR DE POPULAÇÕES COM DISTRIBUIÇÃO NORMAL
No caso de populações normalmente distribuídas, com média aritmética µ e
desvio padrão σ, pode-se mostrar que a distribuição amostral de médias também
será normalmente distribuída com média µ e desvio padrão
z=
(x − µ)
σx
=
(x − µ) n
σ
σ
n
. A estatística:
,
tem distribuição Normal com media 0 (zero) e desvio padrão 1 (hum).
43
Em resumo, podemos afirmar sobre a distribuição amostral de médias que:
•
•
•
É obtida a partir da média aritmética de uma série de amostras de
tamanho n, extraída de uma população que tem média µ e desvio
padrão σ.
A média da distribuição amostral de médias é igual à média populacional
A variância da distribuição amostral de médias é dada por:
σ2
n
•
O desvio padrão da distribuição amostral de médias (erro-padrão da
média) é dado por:
σ
n
•
Para um tamanho de amostra suficientemente grande, a distribuição
amostral de médias é aproximadamente normal.
•
A estatística correspondente à equação abaixo é aproximadamente
N(0,1).
z =
(Z
σ
n
Z=
(x − µ) n
σ
APLICAÇÃO:
1. Uma indústria de lâmpadas afirma que o tempo de vida de seu produto é de
100 dias com desvio padrão de 8 dias. Tomando-se uma amostra de 36
lâmpadas ao acaso, pergunta-se;
a) Qual média e desvio padrão da distribuição amostral de médias?
b) Que percentual de lâmpadas terá vida média superior a 99 dias?
c) Que percentual de lâmpadas terá vida média entre 99 e 101 dias?
44
8.2 DISTRIBUIÇÕES AMOSTRAL DE PROPORÇÕES
Em muitas situações trabalhamos com variáveis de natureza categórica,
onde cada elemento é classificado como possuidor ou não de certa
característica, ou variáveis tipo zero-um. Uma determinada peça pode ser
classificada como defeituosa ou perfeita; um indivíduo pode ser classificado
como a favor ou contra a pena de morte, etc. Nesses casos é importante
estimar a proporção de sucessos em uma amostra, obtida como:
P= X/n, onde X é o número de ocorrências (sucessos) na amostra e n é
o tamanho da amostra. De forma semelhante ao que foi tratado na
distribuição amostral de médias podemos resumir, no caso de proporções,
que:
•
•
A média da distribuição amostral de proporções é igual à proporção
populacional
O desvio padrão da distribuição amostral de proporções é dado por:
σp =
•
•
p (1 − p )
N
Para amostras suficientemente grandes a distribuição amostral de
proporções segue o modelo normal.
A estatística da equação abaixo é aproximadamente N(0,1).
z=
p−P
σ
p
APLICAÇÃO:
1. Cerca de 5% das peças produzidas por certa indústria apresentam defeito de
fabricação.
Num lote de 100 peças, qual a probabilidade de se ter 10% ou mais de
defeituosas?
45
9. ESTIMAÇÃO: NOÇÕES GERAIS
Vimos que a inferência estatística é o campo da estatística no qual são
tomadas decisões sobre populações, com base na informação extraída de uma
amostra. Nesse processo são produzidas estimativas sobre os parâmetros
populacionais de interesse ou formuladas testes de hipóteses sobre os
mesmos. Tais estimativas podem ser obtidas de forma pontual ou por
intervalos.
Um gerente de uma empresa de produtos automotivos pode, por exemplo,
estar interessado em verificar como se comporta a resistência à tração de
determinado componente, produzido sob diferentes variações na tensão
elétrica. Inicialmente ele pode estar interessado em estimar a resistência média
à tração, sob determinada tensão. Nesse caso ele poderá obter uma estimativa
pontual ou um intervalo de confiança para a resistência média populacional,
com base em uma amostra obtida.
Em uma outra situação ele poderia estar interessado em verificar como se
comporta a resistência média à tração, sob duas diferentes tensões elétricas
no momento da produção, para testar se há diferenças estatisticamente
significativas nesse parâmetro, sob as diferentes condições de produção.
Nesse caso, ele estaria diante de um problema de decisão, que pode ser
resolvido via testes de hipóteses estatísticas. A hipótese seria de que a
resistência média à tração sobre a tensão t1 seria, por exemplo, superior à
resistência média à tração em peças produzidas sob a tensão t2.
Em resumo, podemos afirmar que:
•
•
•
•
•
Resultados extraídos de uma amostra podem ser usados para produzir
inferências sobre a população.
Parâmetro: medida numérica que descreve alguma característica da
população.
Estatísticas: funções de valores amostrais.
A estimação pode ser pontual ou por intervalos
Tomadas de decisões sobre parâmetros podem, ser obtidas através do uso de
testes de hipóteses estatísticas.
O processo de inferência sobre dados estatísticos pode ser sumarizado no
esquema a seguir:
46
Pontual
–
a
partir
de
observações calcula-se uma
estimativa.
ESTIMAÇÃO
Por intervalo - fixação de
dois
valores
com
probabilidade (1-∝) de conter
o
verdadeiro
valor
do
parâmetro.
AMOSTRAGEM
TESTES DE HIPÓTESES – permite decidir por um
valor do parâmetro ou por sua modificação, com um
risco conhecido.
A média amostral é um estimador pontual natural da média populacional.
Com o uso de resultados do chamado Teorema do Limite Central, podemos
encontrar e expressão para a construção de um intervalo de confiança para a
verdadeira média populacional. Tal intervalo pode ser obtido pela expressão:
x ± Zα
2
σ
n
, onde:
x Corresponde à média amostral,
Zα/2 corresponde ao valor tabelado, obtido na tabela da distribuição
normal,
α Corresponde ao nível de significância adotado e
47
σ
Corresponde ao desvio-padrão da distribuição amostral da média.
n
Para uma probabilidade de 95% de confiança, tal intervalo fica:
x ± 1,96
σ
n
O que significa que, construídos dessa forma, cerca de 95% dos intervalos
conterão o verdadeiro valor do parâmetro µ (média populacional).
Quando o desvio padrão populacional é desconhecido, o mesmo deve ser
substituído pela sua estimativa amostral, utilizando-se nesse caso a distribuição t
de Student em lugar da distribuição Normal. No caso de uma amostra como temos
que estimar o desvio padrão e o mesmo necessita da estimação prévia da média,
perde-se um grau de liberdade. Portanto a valor t corresponde a (n-1) graus de
liberdade. No caso de duas amostras (diferença de médias) tal valor corresponde
a (n1+n2-2) graus de liberdade.
Estimadores pontuais e por intervalos de alguns parâmetros populacionais
mais freqüentemente usados, tais como médias, proporções e diferenças de
médias são resumidos no quadro abaixo:
Quadro 9.1 – Estimador pontual e por intervalo para alguns parâmetros
populacionais
PARÂMETRO
ESTIMADOR
PONTUAL
ESTIMADOR POR INTERVALO
___
___
X + /− Z α / 2
X
Média
(com variância conhecida)
___
Média
(com variância desconhecida)
X
Proporção
P
___
X + / − tα / 2
^
^
P + / − Zα / 2
__
Diferenças de Médias
(variâncias conhecidas)
__
Diferenças de Médias
(variâncias desconhecidas)
__
X 1− X 2
__
X 1− X 2
__
σ
N
S
n
P(1 − P)
n
__
( X 1 − X 2 ) + / − Zα / 2
__
__
( X 1 − X 2 ) + / − tα / 2 Sc
σ 12
n1
+
σ 22
n2
1
1
+
n1 n2
48
APLICAÇÃO:
Uma empresa, que enche latas de tinta, tenta manter o peso especificado para o
produto. Foi selecionada uma amostra de 25 latas que produziu um peso médio de
5,0Kg e desvio padrão de 1,5Kg, construir um intervalo de confiança para média
populacional.
Uma amostra de 50 componentes eletrônicos, extraída de um grande lote,
apresenta 5 componentes defeituosos. Construir um intervalo de confiança para a
proporção de defeituosos no lote.
49
10. TESTES DE HIPÓTESES
10.1 – CONSIDERAÇÕES GERAIS
Testes de hipóteses constituem uma outra face do trabalho de inferência
estatística e, a exemplo da estimação por intervalos, também fazem uso da
informação contida em uma amostra.
Uma hipótese estatística geralmente é uma afirmação sobre parâmetros
populacionais e o teste de hipóteses um processo de decisão relativo a uma
hipótese particular.
A informação de uma amostra aleatória é utilizada para avaliar a
plausibilidade da hipótese formulada. Se tal informação for consistente com a
hipótese tenderemos a concluir que não há evidências que favoreçam sua
rejeição, pois o fato de utilizar apenas uma amostra não nos permite concluir com
certeza sobre a veracidade ou não de uma hipótese formulada.
Exemplo 10.1 - Para ilustrar, suponha que uma empresa produtora de
detergente deseja avaliar se a máquina que enche as garrafas plásticas está
adequadamente regulada, para o valor especificado de 5 litros, por garrafa e que o
desvio padrão do processo seja da ordem de 0,5 litros. Caso a máquina esteja
devidamente regulada, espera-se que o valor médio de uma amostra de garrafas
concorde com um valor médio de 5 litros. Formula-se então a chamada hipótese
nula (H0) como sendo:
H0: µ = 5.
Observe que a formulação de tal hipótese leva em conta o parâmetro
populacional µ, uma vez que o interesse não reside apenas na amostra a ser
investigada, mas sim na população de todas as garrafas submetidas ao processo
de enchimento.
Para contrastar com a hipótese nula, uma outra hipótese deve ser
enunciada, estabelecendo ou não um sentido para a diferença entre ambas. A
chamada hipótese alternativa, geralmente é denotada por H1. No caso, suponha
que tal hipótese seja definida como:
H1: µ ≠ 5.
Caso a hipótese nula seja verdadeira, naturalmente espera-se que a mostra
investigada forneça um valor médio próximo do especificado pela mesma. Porém,
devido às variações decorrentes do processo amostral, mesmo que a hipótese
nula seja verdadeira, é possível que valores diferentes da mesma sejam obtidos.
Se a média da amostra fornecer um valor muito distante do valor estabelecido na
hipótese nula, ou seja, 5, seremos levados a concluir que a mesma teria muito
pouca chance de ser verdadeira e, conseqüentemente, pela irregularidade na
máquina de enchimento. A metodologia dos testes de hipóteses nos vai fornecer
50
elementos claros para melhor aquilatar essas diferenças e conseqüentemente
tomar uma decisão, com base em critérios probabilísticos.
Após a formulação das hipóteses, deve ser estabelecida uma estatística do
teste e investigada sua distribuição amostral, que deve ser conhecida. Em
seguida, a distribuição amostral da estatística do teste é dividida em duas regiões:
uma região de aceitação da hipótese nula e uma região de rejeição, também
conhecida como região crítica, que consiste em valores improváveis de ocorrer
para a estatística do teste, caso a hipótese nula seja verdadeira.
Em qualquer processo decisório estamos sujeitos a cometer erros e no
caso de testes de hipóteses não é diferente. Dois tipos de erros são então
observados:
O erro do tipo I que consiste em rejeitar a hipótese nula quando a mesma é
verdadeira.
O erro do tipo II que consiste em não rejeitar a hipótese nula quando a
mesma é falsa.
A probabilidade de ocorrência do erro do tipo I, denotada por α, é chamada
de nível de significância do teste. A fixação de um nível de significância determina
uma região de rejeição de um teste, estabelecendo uma regra de decisão para o
processo. Usualmente, estes valores são fixados em 1%, 5% ou 10%.
De forma resumida, o processo de decisão, baseado em um teste de
hipóteses, pode ser visualizado no seguinte esquema:
•
•
Formula-se uma hipótese sobre a Média populacional desconhecida
Com base numa amostra de tamanho n procura-se decidir sobre essa
hipótese
Rejeitar a hipótese formulada
• Toma-se, então, uma decisão
EVIDÊNCIAS
DA
AMOSTRA
Não rejeitar a hipótese formulada
São definidas as Hipóteses:
H0: µ = µ 0
(hipótese nula)
H1: µ ≠ µ 0
(hipótese alternativa)
51
•
•
•
Supondo que H0 seja verdade: Qual a probabilidade de se obter, para uma
amostra n observações, um valor amostral tão ou mais discrepante que a
média observada?
Se tal probabilidade for muito pequena, a média amostral observada não é
compatível com a hipótese H0. Logo a hipótese formulada tende a ser
rejeitada.
Um teste de hipóteses procura responder a questão:
A diferença entre o valor
amostral e o parâmetro é
devido apenas ao acaso?
(variação amostral)
•
Em geral a regra de decisão para um teste envolve:
-
Uma amostra aleatória
-
Uma estatística amostral
-
Uma distribuição amostral da estatística
-
Definição de erros na forma de probabilidades de significância
Significativo
Rejeição de
H0
Variação
não casual
Resultado
amostral
Não
significativo
Variação
casual
Não rejeita
H0
52
Erros envolvidos num teste de hipóteses:
SITUAÇÃO REAL
CONCLUSÃO DO TESTE
Não Rejeitar H0
Rejeitar H0
H0 VERDADE
H0 FALSA
Certo
Erro tipo II ( β )
Erro tipo I ( α )
Certo
CUIDADO!
•
•
Resultado não significante não prova que, H0 é verdade mas, sim, que os
dados não forneceram evidência suficiente para rejeita-la.
Procurar afastar, na medida do possível, fatores externos que perturbem as
conclusões.
53
10.2 – TESTE DE HIPÓTESE PARA A MÉDIA COM DESVIO PADRÃO
CONHECIDO
Considere o exemplo 10.1, relativo à máquina de enchimento de
detergente. O gerente precisa decidir se a máquina está devidamente regulada,
para um valor médio de 5 litros. Suponha que foi tomada uma amostra de 25
garrafas, sendo obtido um valor médio de 4,75 litros.
Foram formuladas as seguintes hipóteses:
H0: µ = 5.
H1: µ ≠ 5.
No caso o desvio padrão populacional (σ) é conhecido, sendo σ = 0,5.
A distribuição amostral da média segue o modelo Normal, com média igual
à média populacional, ou seja, µ, e desvio padrão igual a
estatística do teste é dada por: Z =
(x − µ) n
σ
σ
. Desse modo, a
n
. (Quadro 10.1).
Fixando um nível de significância de 5%, o tamanho da região crítica é de
0,05 e os valores críticos da distribuição normal podem ser determinados, uma vez
que o desvio-padrão é conhecido. Tais valores críticos podem ser colocados na
forma de unidades de desvio-padrão, chamadas de valor Zcal. Levado em conta
que o teste aqui exemplificado é bi-lateral, a região crítica é divida em duas partes
iguais a α/2, no caso 0,05/2 = 0,025. De acordo com a tabela da distribuição
normal os valores críticos correspondestes a tal área são –1,96 e 1,96, conforme
ilustrado na figura abaixo:
2,5%
z = 1,96,
-z
0
=5%
z
Uma etapa fundamental nessa abordagem de testes de hipóteses é a
fixação de uma regra de decisão, que no caso pode ser formulado como rejeitar a
hipótese nula (H0) se:
Zcal > 1,96 ou se Zcal < -1,96.
54
Portanto, no exemplo em questão, tivemos Zcal= -2,5, portanto <-1,96, valor
na área de rejeição, o que nos permite concluir pela rejeição de H0, indicando que
há evidências de que a máquina estaria realmente mal regulada.
Z cal =
(x − µ0 ) n
σ
=
(4,75 − 5) 25
= − 2,5
0,05
O NÍVEL DESCRITIVO (valor-p) DE UM TESTE DE HIPÓTESES
Na abordagem anterior de um teste de hipóteses, partíamos de um valor α
pré-fixado, entretanto, com a profusão de pacotes estatísticos computacionais, o
chamado método de valor-p (nível observado de significância) tem assumido
crucial importância. Tal método consiste na verdade em uma alternativa, que deixa
a critério do pesquisador que realiza o teste de hipóteses, a possibilidade de
calcular o nível observado de significância, que representa o menor nível a partir
do qual a hipótese nula pode ser rejeitada (valor-p). A regra de decisão do nível
descritivo fica a seguinte:
•
•
Rejeitar H0 se o valor-p for menor que o nível pré-fixado (α), ou
Não rejeitar H0 se o valor-p for maior ou igual a α.
Consideremos o exemplo 10.1, abordado agora por este método. Como o
teste é bi-lateral, teremos que encontrar a probabilidade de que a probabilidade da
estatística Z do teste seja tão extrema quanto a que foi observada, ou seja,
precisamos encontrar a probabilidade de que tal estatística seja inferior a –2,50 ou
superior a 2,50. Consultando a tabela da distribuição normal, chegamos à
conclusão de que a probabilidade de que o valor de Z ser inferior a –2,5 é de
0,0062, que pela propriedade de simetria, é igual à probabilidade de que tal
estatística ser superior a 2,5, logo, o valor-p, ou probabilidade de significância
observada deste teste é da ordem de 0,0062+0,0062= 0,0124 (1,24%), conforme
ilustrado na figura abaixo.
0,62%
z = -2,5
-z
0
=1,24%
z
55
Como o valor-p obtido, αp = 1,24% é inferior ao anteriormente fixado (5%),
chega-se à mesma conclusão da abordagem anterior,ou seja, conclui-se pela
rejeição da hipótese H0.
Convém ressaltar que a hipótese alternativa (H1) ode ser definida em
termos de valores unilaterais, ou seja:
H1: µ < µ0 ou ainda H1: µ > µ0.
O quadro abaixo apresenta um resumo das estatísticas e distribuições
utilizadas nos principais testes de hipótese:
Quadro 10.1 – Estatísticas associadas a alguns testes de hipóteses
TESTE
DISTRIBUIÇÃO
ESTATÍSTICA
__
Média com desvio padrão conhecido
Normal
Z
=
d
( X − µ0 )
N
σ
__
Média com desvio padrão desconhecido
t com (N-1)G.L.
t
( X − µ0 ) N
=
S
d
__
Diferença de médias: amostras pareadas
t com (N-1)G.L.
t
d
D0
=
N
S
d
__
Diferença
de
médias:
independentes
Desvio padrão conhecido
amostras Normal
Z
d
=
__
X 1− X 2
σ 12
N1
+
σ 22
N2
__
Diferença
de
médias:
amostras t com (N+N-2)G.L.
independentes
Desvio padrão desconhecidos e iguais
t
Proporção
Z
Normal
( N 1 − 1) S 1 + ( N 2 − 1) S 2
2
OBS:
S
2
c
=
N1 + N 2 − 2
=
d
S
d
__
X 1− X 2
=
2
c
(1
N1
+ 1
P−P
0
P0 (1 − P0 / n
2
VARIÂNCIA
COMBINADA
56
N2
)
APLICAÇÃO:
1. Um fabricante de lajotas de cerâmica sabe que a resistência de seu produto
segue o modelo Normal com media de 206kg e desvio padrão de 12kg. Retirase uma amostra de 30 lajotas obtendo uma resistência média (x ) de 210kg. Ao
nível de 10% pode-se aceitar que a resistência média tenha aumentado?
2. Certa indústria automobilística afirma que seu carro consome em média 12Km/l
de gasolina.
Um teste com 5 automóveis revelou os seguintes valores: 10,0 11,5 12,0 11,8
11,6. Com base nesses resultados o que se pode concluir quanto à afirmação
do fabricante?
3. Uma grande rede de supermercados deseja saber se o gasto médio por
cliente, na filial de Boa Viagem, é estatisticamente superior à filial de
Encruzilhada. Para isto tomou amostras de clientes em ambas as lojas,
obtendo os seguintes resultados:
BAIRRO
N.º DE ELEMENTOS
MÉDIA
DESVIO PADRÃO
Boa Viagem
15
80
6
Encruzilhada
10
72
9
Qual a sua conclusão sobre o experimento?
57
11. CORRELAÇÃO
Coeficientes de correlação têm como objetivo principal avaliar o tipo de
intensidade da relação entre duas variáveis.
11.1. DIAGRAMA DE DISPERSÃO
•
•
Gráfico que representa no plano cartesiano duas variáveis quantitativas
Ferramenta simples que permite aprofundar o estudo da associação entre 2
variáveis.
Exemplo:
Na tabela abaixo, estão representadas o tempo de serviço e o volume de
vendas semanais de uma amostra de 5 vendedores de determinado produto:
VENDEDOR
A
B
C
D
E
TEMPO DE
SERVIÇO
(Anos)
1
3
4
6
8
VENDAS
( Unidades)
35
40
42
50
55
Diagrama de dispersão correspondente:
55
Y vendas
50
45
40
35
0
1
2
3
4
5
6
7
8
9
X te m p o
58
INTERPRETAÇÃO DO DIAGRAMA DE DISPERSÃO:
De acordo com o exame do diagrama de dispersão, podemos ter as seguintes
situações:
Correlação
Forte
Positiva
rxy → 1
Correlação Forte
Negativa
rxy→ -1
y
y
x
x
Correlação
Perfeita
Negativa
rxy= - 1
Correlação
Perfeita Positiva
rxy= 1
y
y
x
x
Correlação
Não Linear
Ausência de
Correlação
rxy→ 0
y
y
x
x
59
•
•
•
•
Quando as variáveis crescem no mesmo sentido temos o caso de correlação
positiva.
Quando as variáveis crescem em sentidos opostos temos uma correlação
negativa.
Se os dados estão perfeitamente alinhados sobre uma reta temos uma
correlação perfeita.
Quando o crescimento de uma variável é acompanhado de variações casuais
da outra variável a correlação é nula.
11.2. COEFICIENTE DE CORRELAÇÃO LINEAR
Para medir o grau da associação linear entre duas variáveis
quantitativas usamos o coeficiente de correlação linear cuja fórmula é:
r
XY
S XY
=
, onde
S XX S YY
S XY = ∑ XY −
S XX = ∑ X −
2
S YY = ∑ Y 2 −
∑ X ∑Y
n
(∑ X ) 2
n
(∑ Y ) 2
n
CUIDADO!
•
•
Correlação não implica em relação de causa efeito.
Podemos, por exemplo, encontrar uma alta correlação entre o n. º de
internações por desidratação e a venda de sorvetes, e a verdadeira
causa pode ser o aumento da temperatura.
60
O coeficiente de correlação linear rxy varia entre -1 e 1. Quanto mais
próximo de 1 maior o grau de associação linear positiva entre as variáveis e
quanto mais próximo de –1 maior o grau de associação negativa.
12
- REGRESSÃO LINEAR SIMPLES
O diagrama de dispersão pode revelar importantes informações acerca da
relação entre duas variáveis X e Y, que pode assumir a forma de funções
matemáticas simples ou mais complicadas. Quando os pontos traçados no
diagrama de dispersão se agrupam em torno de uma reta, podemos obter a
equação dessa reta e assim determinar um modelo matemático para a relação
entre as variáveis. Tal modelo tem a seguinte forma:
Yi = A + BXi + ei, onde:
Yi = variável dependente ou variável resposta.
Xi = variável explicativa
A = coeficiente linear da reta ou ponto de interseção de Y
B = coeficiente angular da reta ou inclinação.
O coeficiente linear da reta corresponde ao ponto onde a mesma corta o
eixo-Y, ou seja, o ponto onde o valor da variável explicativa X é zero. A inclinação
indica o quanto varia a média da variável Y para o aumento de uma unidade na
variável X.
Este modelo tem uma série de hipóteses que permitem estimar seus
parâmetros e proceder a inferências sobre os mesmos (BUSSAB, 1986). A reta
que melhor se aproxima dos dados, chamada reta de mínimos quadrados,
representada pela expressão:
)
Yi = a + bX i , que pode ser obtida a partir da minimização da soma dos
quadrados dos desvios, que representam as diferenças entre valores observados
e estimados para a variável dependente Y, ou seja, minimizando a expressão:
)
F = ∑ (Yi − Yi ) 2 = ∑ [Yi − (a + bX i )]2
Os valores dos coeficientes linear e angular resultantes desse processo de
minimização podem ser escritos como:
b=
S XY
e a = y − bx
S XX
61
Quando os desvios ou resíduos são valores pequenos é sinal de que o
modelo está produzindo resultados compensadores. Para uma avaliação da
capacidade preditiva da variável explicativa no contexto do modelo linear ajustado,
diversas alternativas podem ser utilizadas. Inicialmente podemos obter uma
medida, chamada soma de quadrados total, que corresponde à variação
quadrática os valores de Y em torno de sua média aritmética, ou seja:
SQTOTAL = ∑ (Yi − Y ) 2
Tal soma de quadrados pode ser desmembrada um duas outras somas:
uma que corresponde à soma dos quadrados dos desvios da regressão e a outra
que corresponde à variação explicada pelo modelo ou soma dos quadrados da
regressão, ou seja:
SQTOTAL = ∑ (Yi −Yˆi ) 2 + ∑ (Yˆi − Y ) 2 , ou seja,
SQTOTAL = SQRESIDUAL + SQREGRESSÃO.
A relação entre a variação explicada pelo modelo ajustado
(SQREGRESSÂO) e a variação total (SQTOTAL) mede o potencial explicativo do
modelo ajustado, ou o percentual de variação explicada. Tal relação é conhecida
como coeficiente de variação R2, ou seja:
R2 =
SQREGRESSAO
SQTOTAL
O valor de R2 varia no intervalo de zero a 1, ou de zero a 100% e
naturalmente quanto mais próximo de 100% maior o poder explicativo do modelo
ajustado.
Pode-se mostrar que o cálculo da SQREGRESSAO pode ser feito com o
uso de:
SQREGRESSAO = bSxy.
APLICAÇÃO:
Com os dados da tabela, sobre o tempo de serviço e vendas, obtenha:
a) Coeficiente de correlação entre as variáveis
b) A reta de regressão
c) Qual o valor das vendas semanais para um empregado com 7 anos de
experiência?
62
NOÇÕES DE CONTROLE ESTATÍSTICO DE PROCESSOS (CEP)
A qualidade de produtos e serviços tem se tornado um fator crucial no mundo dos
negócios, independente se o consumidor seja um sujeito ou empresa. O nível de
exigência e a competitividade tem acentuado ainda mais a busca por produtos de
melhor qualidade, considerando que este termo está diretamente associado ao
que se denomina pela “adequação ao uso”
Os métodos estatísticos desempenham um papel fundamental nos processos de
melhoria da qualidade de produtos e de serviços e estão diretamente associados a
fatores tais como: aumento na competitividade; eliminação de desperdícios;
redução na necessidade de inspeção, além do aumento no grau de satisfação dos
clientes.
O Controle Estatístico de Processos (CEP) consiste em um conjunto de
ferramentas cuja função primordial é buscar a estabilidade de um processo e
melhorar a sua capacidade, sendo crucial a redução da variabilidade e
monitoramento do processo como um todo.
As ferramentas mais importantes do CEP são: Estratificação, Folha de Verificação,
Gráfico de Pareto, Diagrama de Causa e Efeito, Histograma, Diagrama de
Dispersão e Gráfico de Controle.
Como a maioria destas ferramentas já foram abordadas, daremos ênfase nesse
capítulo aos Gráficos de Controle, naturalmente em uma visão introdutória.
Noções de Gráficos de Controle
Todo processo está sujeito a variações devido a causas que são chamadas de
inerentes, que representam a junção de diversas pequenas causas de caráter
essencialmente inevitáveis. Um processo que esteja operando apenas com a
presença de tais causas inerentes é dito sob controle estatístico. Todavia podem
estar presentes em um processo um outro tipo de variabilidade de maior
intensidade que a inerente e motivada causas que supostamente pode ser
adequadamente monitoradas e controladas. Geralmente tais causas estão
associadas, primordialmente a fatores tais como equipamentos desajustados, erro
de operadores ou problemas com matérias primas e insumos, entre outros. O
gráfico de controle é uma ferramenta de monitoramento em tempo real largamente
utilizada e eficaz.
Na construção de um gráfico de controle, as amostras são, geralmente,
selecionadas em uma sequencia de pontos no tempo. De acordo com a finalidade
ou interesse, uma medida estatística é calculada. Tal medida pode ser a média de
uma característica de interesse, a proporção de itens defeituosos, ou o total de
defeitos por unidade. O valor dessa estatística é, então, calculado para cada
amostra. Um gráfico de controle usual exibe a marcação destes valores, obtidos
ao longo do tempo em um gráfico no qual constam uma linha central, um limite de
controle inferior e um limite de controle superior. Se todos os pontos ficarem
situados dentro dos limites de controle, então o processo estaria sob controle, ou
com a presença apenas de causas inerentes, ou seja, a variação observada seria
apenas casual.
63
Gráfico para a média, baseado em valores de parâmetros conhecidos.
Seja X uma característica de interesse, com média populacional µ e desvio padrão
σ e X1, X2, ... Xn uma amostra de tamanho n.
x=
∑X
n
i
→média amostral
Vimos que a distribuição da média, de acordo com o Teorema do Limite Central é
Normal, com média
x
(µ ,
~ Normal
σ
n
)
Os limites de controle inferior e superior são obtidos, respectivamente, pelas
expressões:
LIC = µ − zα 2
σ
n
LSC = µ + zα 2
σ
n
Os valores de z são obtidos da Curva Normal, de acordo com o nível de confiança
adotado, sendo geralmente, utilizados os valores z=2 ou z=3.
Uma opção bastante utilizada na construção de gráficos de controle é trabalhar
com amostras ou subgrupos de menor tamanho chamados de subgrupos
racionais, tomados a intervalos regulares de tempo.
64
Gráfico da média ( x ) e amplitude (R).
Quando os parâmetros µ e σ são desconhecidos devem ser estimados a partir de
estatísticas amostrais. É possível estimar o desvio padrão, com amostras de
tamanho mínimo de 25 unidades. Quando amostras de tamanho pequeno são
utilizadas são recomendados os procedimentos baseados em subgrupos
racionais, estimando-se a variabilidade a partir da amplitude amostral (R ).
Suponha que dispomos de “m” amostras de tamanho “n”, a média global é obtida
a partir das médias de cada amostra ou subgrupo racional:
x=
x1 + x2 + .... + xm
→média global
m
Onde:
xi =
xi1 + xi 2 + .... + xin
→ média da i − ésima amostra
n
Cálculo da amplitude média e estimação do desvio padrão.
R=
R1 + R2 + .... + Rm
→ amplitude média global
m
É possível estimar o desvio padrão pela expressão:
σˆ =
R
d2
65
Gráfico da Média
Os limites de controle para o gráfico da média ficam:
LIC = x − 3
R
= x − A2 R
d2
LSC = x + 3
R
= x + A2 R
d2
Onde:
A2 =
3
d2
n
Os valores de A2 são consultados em tabelas.
Gráfico da Amplitude – R
Os limites de controle para o gráfico da amplitude são:
LIC = R − 3
d3
R = D3 R
d2
LSC = R + 3
d3
R = D4 R
d2
D3 e D4 são Valores
Tabelados
66
Gráfico de controle para a proporção de defeituosos – p
Os valores da estimativa da proporção de itens defeituosos em uma amostra de
tamanho n, bem como a distribuição da média e desvio padrão da proporção são
dados, respectivamente, pelas expressões:
pˆ =
X
n
µ pˆ = p
σ pˆ =
p (1 − p )
n
Os limites de controle para o gráfico de proporção de defeituosos são dados por:
LSC = p + 3
p(1 − p )
n
LM = p
LIC = p − 3
p (1 − p )
n
No caso de trabalhar com subgrupos racionais, são calculados limites baseados
na média aritmética dos subgrupos, ficando as expressões dos limites de controle
dadas por:
67
p (1 − p )
n
LSC = p + 3
LM = p
p (1 − p )
n
LIC = p − 3
m
onde : p =
∑p
i =1
m
i
e
pi =
Xi
n
68
CAPACIDADE DE PROCESSOS
Em algumas situações é importante que, além dos gráficos de controle, tenhamos
alguma medida sobre a capacidade do processo, ou seja, o seu desempenho,
quando estivar operando sobre controle. O Histograma pode ser uma ferramente
de abordagem inicial deste problema, uma vez que exibe importantes informações
acerca de locação, variabilidade e distribuição dos valores obtidos para a medida
de interesse.
Uma outra alternativa é a utilização de medidas de capacidade do processo.
Uma primeira medida é o chamado Índice de Capacidade do Processo ou índice
Cp, cuja expressão é dada por:
Cp =
LSE − LIE
6σ
O numerador da fórmula corresponde à amplitude das especificações, enquanto o
denominador corresponde à amplitude do processo. O desvio padrão do processo
pode ser estimado por:
σˆ =
r
d2
O inverso deste índice corresponde à fração de amplitude das especificações
usadas pelo processo. Considerando que os dados seguem, aproximadamente, o
modelo Normal, um índice que excede a unidade indica que muito poucas
unidades não conformes estão sendo produzidas. Um índice inferior a unidade
sugere um processo muito sensível e com um elevado número de unidades não
conformes. Um índice igual a 1 indica que cerca de 0,27% das unidades
produzidas são não conformes.
A definição de capacidade do processo dada anteriormente supõe que o processo
esteja devidamente distribuído em torno do valor central especificado. Caso o
processo não esteja distribuído em torno de sua média especificada,
evidentemente sua capacidade será menor que a indicada pelo índice Cp. Desse
modo, uma medida mais calibrada, que será útil caso o processo não esteja
centralizado na média, é o chamado Cpk, cuja expressão é dada por:
 LSE − µ µ − LIE 
C pk = min 
;
3σ 
 3σ
69
NOÇÕES DE ESTATÍSTICA NO EXCEL
Construção de uma Distribuição de Frequências e Histograma usando Excel
Considere os dados a seguir representando o Tempo de Vida de uma amostra de 36 lâmpadas:
697
720
773
821
831
835
848
852
852
860
868
870
876
893
899
905
909
911
924
926
926
938
939
943
946
954
971
977
984
1005
1014
1016
1041
1052
1080
1093
Passo 1 – Determinação do Número de Classes (k):
Fórmula:
k= n
No Excel:
Logo k=6 classes.
70
2)Calculo da amplitude das classes (c)
Fórmula:
c=
amplitude total max − min 1093 − 697
=
=
≅ 66 ↑ 70
num de classes
k
6
É conveniente marjorar este valor de “c”, por isso trabalhamos com c=70.
3) O Valor inicial é arbitrário, podendo-se começar do míimo, ou de um valor ligeiramente abaixo deste. No caso iniciaremos
do valor 690.
Uma outra decisão é quanto ao tipo de intervalos de classe a serem adotados. No caso optamos por classes abertas à
direita e fechadas à esquerda, tipo [a,b) ou a|------ b.
A função do Excel que pode ser utilizada é a “frequência”, que necessita que sejam informados o endereço dos dados e os
limites superiores de cada intervalo. Como optamos por intervalos semiabertos à direita, subtraímos 0,1 de cada valor.
Desse modo os limites ficam:
Primeiro intervalo, contndo valores de 690 a 690+70=760, subtraindo 0,1 fica 759,9.
Para obter os valore das classes subsequentes, basta somar 70 a esse valor. Tais valores constituem que o Excel chama
de Matriz Bin (matriz binária).
Uso da função “frequência”
71
Para conclusão da tabela, usa-se alguns recursos adicionais de “embelezamento” para lhe dar um melhor formato e
aparência, de acordo com as Normas de Apresentação Tabular.
72
4) Construção do Histograma
Na Página Inicial vamos à opção “inserir” “colunas”, selecionando a opção “2D”, preferencialmente.
Em seguida, vem o gráfico.
73
12
10
8
6
4
2
0
.
USO DE TABELA DINÂMICA NA CONSTRUÇÃO DE TABELAS
Um recursos muito útil na construção de tabelas e gráficos a partir de bancos de dados é a Tabela Dinâmica, que permite a
construção de tabelas simples e cruzadas, para variáveis em escala nominal ou ordinal.
1)Inicialmente seleciona-se as opções: “inserir”, seguida de “tabela dinâmica”.
74
2)Informamos, em seguida, o endereço dos dados e onde queremos a saída, se em nova planilha ou na própria planilha em
uso, nesse caso informando o endereço da saída.
75
3)Após essa etapa temos uma tela na qual informamos que variável ou variáveis serão utilizadas na construção da(s)
tabela(s). No caso de uma tabela simples arrasta-se a variável de interesse até o campo de linha ou coluna e também ao
campo de valor. Verificar se esta está selecionada a formatação de campo de “contagem de valores”.
76
77
Vamos agora construir uma tabela de dupla entrada, com as variáveis sexo e área.
Arrastamos uma das variáveis, por exemplo “sexo” para a linha e a outra variável , por exemplo “área” para a coluna e
qualquer uma delas para o campo de valores e está pronta a tabela cruzada.
Contagem de Sexo
Area
Sexo
E
H
S
Total Geral
F
16
14
7
37
M
9
2
2
13
25
16
9
50
Total Geral
.
ANÁLISE DESCRITIVA NO EXCEL
O Excel dispõe de diversas funções para o cálculo de estatísticas descritivas, com medidas de centralidade (média, moda e
mediana); dispersão (desvio padrão e variância); assimetria, além do cálculo dos quartis.
No caso da média, mediana e desvio padrão, a sintaxe é bastante semelhante, bastando informar a sintaxe e endereço dos
dados, por exemplo:
Considerando os dados referentes ao tempo de vida de 36 lâmpadas:
No caso da méda: =média(endereço dados)
Mediana: =med(endereço dados)
Desvio padrão amostral: =desvpada(endereço dados)
78
No caso dos quartis 1 e 3 o comando, além de informar o endereço dos dados, informa o numero correspondente ao quartil
desejado (1 ou 3) e o tipo de quartil, optando-se, neste trabalho, pela sintaxe quartil.exc, que coincide com a metodologia de
cálculo mais indicada deste curso.
79
Uma opção mais avançada é utilizar a aba “dados”, seguida de “análise de dados”, “estatística descritiva”, que fornece um
quadro resumido das principais estatísticas descritivas para cada coluna da planilha, o que permite a análise simultânea de
diversas variáveis simultaneamente.
Seleciona-se a opção “resumo estatístico” e rótulos na primeira linha (caso os nomes das variáveis estejam na primeira
linha de cada coluna). Informa-se, ainda, o endereço onde se deseja a saída dos dados.
80
A saída informa os resultados das estatísticas descritivas para cada variável (coluna) do banco de dados.
Id
Média
17
Erro padrão
1,683251
Mediana
17
Modo
#N/D
Desvio padrão
9,66954
Variância da amostra 93,5
Curtose
-1,2
Assimetria
-3E-17
Intervalo
32
Mínimo
1
Máximo
33
Soma
561
Contagem
33
Idade
Média
Erro padrão
Mediana
Modo
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
Alt
19
0,356222
18
18
2,046338
4,1875
3,099649
1,793544
8
17
25
627
33
Média
Erro padrão
Mediana
Modo
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
Peso
1,666667
0,014471
1,65
1,65
0,083129
0,00691
-0,03117
0,772712
0,31
1,54
1,85
55
33
Média
Erro padrão
Mediana
Modo
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
81
59,17879
1,61014
58
58
9,249553
85,55422
1,157595
1,125462
38,2
47
85,2
1952,9
33
ANÁLISE BIDIMENSIONAL: CONSTRUÇÃO DE DIAGRAMA DE DISPERSÃO COM AJUSTE LINEAR
O diagrama de dispersão é uma importante ferramenta na análise da associação entre duas variáveis quantitativas. O Excel
permite a construção do diagrama, com opção de exibição da reta ajustada e do coeficiente de determinação, uma medida
preliminar de qualidade do ajuste. Além do ajuste linear, são oferecidas outras opções como o ajuste exponencial,
logarítmica e potência.
Inicialmente, selecionamos os dados correspondentes às duas variáveis de interesse e o menu “inserir”, seguido de
“dispersão.
82
O resultado inicial do gráfico:
Como os pontos do eixo-Y estão muito concentrados na faixa de 50 a 90, convém alterar o valor mínimo desta escala vertical.
Clicamos duas vezes nos valores da escala vertical e, em seguida, alteramos o mínimo para 40.
83
O gráfico alterado fica:
85,0
80,0
75,0
70,0
65,0
60,0
55,0
50,0
45,0
40,0
1,55
1,60
1,65
1,70
1,75
1,80
1,85
1,90
84
Em seguida, após clicar no gráfico, selecionamos a opção “layout”, seguida de linhas de tendência” e “mais opções de linha de tendência”, “exibir equação e
R2 no gráfico”
O resultado final fica:
85
Uma outra opção, que fornece um resultado mais completo é selecionar na aba “dados” “análise de dados”,
E, em seguida, “regressão”.
Informamos o endereço de cada variável: X (explicativa) e Y (dependente), assinalando a plotagem de linha e endereço da saída.
86
Alguns resultados disponibilizados, com esta opção foram: a tabela de análise de variância, modelo ajustado,
Além de testes de hipóteses e intervalos de confiança para os parâmetros ajustados.
Estatística de regressão
R múltiplo
0,96114122
R-Quadrado
0,923792445
R-quadrado ajustado
0,919558692
Erro padrão
1,832479796
Observações
20
ANOVA
gl
Regressão
Resíduo
Total
1
18
19
Interseção
Alt
Coeficientes
-54,56842716
70,73128265
SQ
MQ
F
F de significação
732,7018204 732,7018 218,1971
1,66608E-11
60,44367963 3,357982
793,1455
Erro padrão
Stat t
valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0%
8,119439166 -6,72071 2,67E-06 -71,62673586 -37,51011846
-71,62673586 -37,51011846
4,788363298 14,77149 1,67E-11
60,67130466
80,79126064
60,67130466 80,79126064
87
13 - BIBLIOGRAFIA
BERQUÓ, ELZA et al. Bioestatística, São Paulo, EPU, 1986.
BUSSAB, W. O e MORETTIN, P. A . Estatística básica, Atual Editora, São Paulo,
1986.
BUSSAB, W. O. Análise de Variância e de Regressão, São Paulo, Atual, 1986.
CALEGARE, ALVARO J. A. Técnicas de Garantia da Qualidade, Rio de Janeiro,
Ao
Livro Técnico, 1985.
DRAPER, N. e H. SMITH. Applied Regression Analysis, New York, John Willey,
1966.
FONSECA, JAIRO S. e MARTINS, G. A ., Curso de Estatística, São Paulo, Atlas,
1987.
GATTAS, R. R. Elementos de Probabilidade e Inferência, São Paulo, Atlas, 1978.
GUEDES, M. e GUEDES, J. S., Bioestatística para profissionais de Saúde,
Brasília, Ao livro Técnico, 1988.
HOFFMAN, RODOLFO e VIEIRA, S., Análise de Regressão, São Paulo, Hucitec,
1982
HUFF, D. Como Mentir com Estatística, São Paulo, Ediouro, 1992.
JURAN, J. M. Planejamento para a Qualidade, São Paulo, Pioneira, 1986.
JURAN, J. M. e GRYNA F. M., Controle para a Qualidade, VOL. 6, São Paulo,
Makron Books, 1993.
LEVINE D. N. ET AL, Estatística – Teoria e Aplicações, Rio de Janeiro, LTC
Editora, 2005.
MAGALHÂES, M. N. e PEDROSO DE LIMA, A. C. Noções de Probabilidade e
Estatística, IME-USP, São Paulo, 2000.
MONTGOMERY, D. C., RUNGER, G.C. e HUBELE, N. F., Estatística Aplicada à
Engenharia, 2ª Edição, Rio de Janeiro, LTC, 2005.
MORETTIN, L.G., Estatística Básica – Inferência, São Paulo, Makron Books, 2000.
88
MORETTIN, L. G. Estatística Básica – Probabilidade, São Paulo, Makron Books,
1998.
MORETTIN, P. A . Introdução à Estatística para Ciências Exatas, São Paulo,
1991.
PARATHAMAN, D. Controle da Qualidade, São Paulo, Mc. Graw Hill, 1990.
VIEIRA, S. e WADA, R., Estatística – Uma Introdução Ilustrada, São Paulo, Atlas,
1986.
VIEIRA, S. , O que é Estatística, São Paulo, Brasiliense, 1987.
STEVESON, W. J. Estatística Aplicada à Administração, São Paulo, Harbra, 1986.
SHAMBLIN, J. E. Pesquisa Operacional, São Paulo, Atlas, 1979.
89
ERROR: syntaxerror
OFFENDING COMMAND: --nostringval-STACK:
/Title
()
/Subject
(D:20150805143912-03’00’)
/ModDate
()
/Keywords
(PDFCreator Version 0.9.5)
/Creator
(D:20150805143912-03’00’)
/CreationDate
(cezar)
/Author
-mark-
Download