INTRODUÇÃO AO PLANEJAMENTO E ANÁLISE ESTATÍSTICA DE

Propaganda
UNIVERSIDADE FEDERAL
DE
SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
DEPARTAMENTO DE ESTATÍSTICA
INTRODUÇÃO AO PLANEJAMENTO
ANÁLISE ESTATÍSTICA DE
EXPERIMENTOS - C
E
CAPÍTULO 2
ANÁLISE DESCRITIVA E EXPLORATÓRIA DE DADOS
ELABORADO POR: PROF. PEDRO FERREIRA FILHO
1º SEMESTRE DE 2009
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2. ANÁLISE
DADOS:
DESCRITIVA
E
EXPLORATÓRIA
DE
Um estudo, ou investigação de uma determinada hipótese, deve do ponto de
vista estatístico, contemplar as etapas de planejamento, coleta, organização, análise
descritiva e exploratória dos dados, inferência estatística e a tomada de decisões
(conclusões).
O papel da estatística pode ser considerado como a de uma “mineração de
dados”. Os dados devem ser cuidadosamente coletados (observados), devidamente
conhecidos e utilizados para analisar e interpretar a sua variabilidade de forma a
possibilitar uma correta resposta à hipótese em estudo.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
12
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2.1. CONCEITOS BÁSICOS EM ESTATÍSTICA:
•
INFORMAÇÃO NUMÉRICA:
Um conjunto de dados estatísticos consiste de uma ou mais medidas, escores
ou valores observados (coletados) de certo número de indivíduos, objetos, ensaios,
experimentos, etc.
•
ASPECTO BÁSICO DA INFORMAÇÃO:
A análise estatística de um conjunto de dados só faz sentido quando existir
“variabilidade” nos valores observados, ou seja, os valores devem apresentar
diferenças nas diferentes unidades de observação utilizadas. A não existência de
variabilidade entre os valores observados torna desnecessária a utilização de
qualquer método estatístico.
•
POPULAÇÃO:
Conjunto de indivíduos ou objetos os quais o pesquisador tem interesse, que
apresentam relevância para a investigação de hipótese em estudo. Podemos ainda
dizer que a população é formada por todos os valores possíveis de serem observados
numa dada situação. No caso de estudos experimentais, o alvo é sempre uma dada
população. A resposta para a hipótese de interesse é dada por uma conclusão a
respeito da população em estudo.
Nesse sentido é fundamental, m qualquer situação, definir claramente qual a
população que se tem interesse. Muitas vezes, por incrível que pareça, isso não está
suficientemente
claro
para
os
responsáveis
pelo
estudo
(experimento).
Conseqüentemente, corre-se o risco de estender conclusões a situações mais amplas
do que aquelas realmente possíveis a partir do estudo realizado.
Uma população pode ser classificada em duas diferentes situações:
População Finita: Todos os elementos da população são
conhecidos e possíveis de serem identificados;
População Infinita: Não é possível uma enumeração de todos
os elementos da população;
Uma população pode ser investigada a partir da observação de seus
elementos através de duas diferentes formas: Censo ou Amostra.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
13
Capítulo 2 – Análise Descritiva e Exploratória de Dados
•
CENSO:
Denominamos de censo aquelas situações onde a investigação é realizada a
partir da observação de todos os elementos de uma população. Esse tipo de
observação somente é possível em populações finitas.
•
AMOSTRA:
Na grande maioria das vezes (quase sempre!) não é possível observar todos
os elementos de uma população, porém é possível observar-se uma parte desta
população. O conjunto de elementos efetivamente observado é denominado
amostra. Podemos então dizer que uma amostra é todo e qualquer subconjunto
necessariamente finito da população.
Para que a amostra seja uma representação realista, não tendenciosa, da
população, é necessário que seus elementos sejam escolhidos de forma
rigorosamente aleatória. Esta condição é fundamental na prática, porque as
“inferências estatísticas” sempre supõem que as amostras são representativas da
população. Por isso ao realizar um experimento, devemos sempre tomar o cuidado
para coletar os dados de modo que a hipótese de aleatoriedade, seja se não,
rigorosamente, pelo menos aproximadamente obedecida.
Amostra Aleatória:
Amostra de N valores ou indivíduos (unidades experimentais) obtidos de tal
forma que todos os possíveis elementos da população tenham a mesma “chance” de
participar na amostra.
OBTENÇÃO DE UMA AMOSTRA EM PESQUISAS CIENTÍFICAS:
Nas pesquisas científicas as amostras, em geral são obtidas de duas diferentes
formas: Estudos observacionais e experimentos planejados.
Nos estudos observacionais os dados são obtidos à medida que se tornam
disponíveis. Por exemplo, suponha que um pesquisador esteja avaliando o
desempenho de um processo de fabricação de componentes plásticos através da
injeção em molde. Pode-se observar o processo, selecionar componentes à medida
que são fabricados e medir importantes características de interesse, tais como a
espessura da parede, o encolhimento ou a resistência da peça. O pesquisador pode
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
14
Capítulo 2 – Análise Descritiva e Exploratória de Dados
medir também e registrar as variáveis de processo potencialmente importantes, tais
como a temperatura do molde, o conteúdo de umidade da matéria-prima e o tempo
do ciclo. Freqüentemente, em um estudo observador, o pesquisador está interessado
em usar os dados para construir um modelo do sistema ou processo. Esses modelos
são freqüentemente chamados de modelos empíricos. Uma outra maneira e que os
dados observados são obtidos através da análise de dados históricos do sistema ou
processo. Por exemplo, na fabricação de semicondutores, e razoavelmente comum
manter registros extensos de cada batelada ou lote de pastilhas que foi produzido.
Esses registros incluiriam dados de teste de características físicas e elétricas das
pastilhas, assim como as condições de processamento sob as quais cada batelada de
pastilhas foi produzida. Se aparecerem questões relativas a uma mudança em uma
importante característica elétrica, a história do processo pode ser estudada em um
esforço para determinar o ponto no tempo onde a mudança ocorreu e para ganhar
algum discernimento em relação as variáveis do processo que devem ser
responsáveis pela mudança. Freqüentemente, esses estudos envolvem um conjunto
muito grande de dados e requerem um firme domínio dos princípios estatísticos, se o
pesquisador quiser alcançar o sucesso.
Nos experimentos planejados, o engenheiro (ou pesquisador) faz
variações propositais nas variáveis controláveis de alguns sistemas ou processos,
observa os dados de saída do sistema resultante e, então, faz uma inferência ou
decisão sobre as variáveis que são responsáveis pelas mudanças observadas no
desempenho de saída. O planejamento de experimentos tem um papel muito
importante no projeto e desenvolvimento de engenharia e na melhoria dos processos
de fabricação. Geralmente, quando produtos e processos são planejados e
desenvolvidos com experimentos planejados, eles têm melhor desempenho, mais
alta confiabilidade e menores custos globais. Experimentos planejados também
desempenham um papel crucial na redução do tempo de condução de um projeto de
engenharia e do desenvolvimento de atividades.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
15
Capítulo 2 – Análise Descritiva e Exploratória de Dados
•
INFERÊNCIA ESTATÍSTICA:
Embora seja observada “apenas” uma amostra, o objetivo de qualquer estudo
é estabelecer conclusões com respeito à população de interesse. A metodologia
utilizada para se fazer a passagem dos resultados obtidos na amostra para
conclusões populacionais é chamada “inferência estatística”.
A inferência estatística pode ser definida em duas etapas:
Estimação: Obter informação sobre uma característica populacional;
Teste de Hipóteses: Utilização da informação amostral para responder as
hipóteses de interesse no estudo.
•
ANÁLISE ESTATÍSTICA:
O processo de organização, processamento, sumarização e retirada de
conclusões sobre um determinado conjunto de dados (amostra) é chamado de
análise estatística. As hipóteses (questões de interesse) daqueles que realizam o
estudo indicam o tipo de dado que precisa der obtido e conseqüentemente a
inferência a ser realizada.
O quadro abaixo resume uma análise estatística de dados.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
16
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Figura 2.1. Análise Estatística.
2.2. ORGANIZAÇÃO, SUMARIZAÇÃO E
REPRESENTAÇÃO DE DADOS:
A organização, sumarização e apresentação dos dados observados são
essenciais para um bom julgamento estatístico, dado que permitem que sejam
identificadas características importantes da amostra e ainda mais, indicar modelos
que podem ser mais adequados para verificação da hipótese em estudo.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
17
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
18
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2.2.1. TIPOS DE VARIÁVEIS:
As informações obtidas em uma amostra são denominadas, usualmente, de
“variáveis” em estudo. Em cada estudo pode-se observar uma ou mais variáveis em
função das necessidades e objetivos a serem investigados. Assim, por exemplo,
pode-se observar uma única medida num dado experimento, como é possível
observar uma série de características de interesse na aplicação de um questionário.
As variáveis observadas em uma amostra podem ser classificadas em dois
tipos:
Variáveis
Categóricas
(Qualitativas)
ou
Variáveis
Contínuas
(Quantitativas).
Variáveis Categóricas: Denominamos variáveis categóricas aquelas medidas
(características) observadas na amostra que apenas identificam a unidade de
observação. Em outras palavras, uma variável categórica identifica um atributo,
classe, qualidade,..., da unidade de observação.
Exemplo: Sexo, Grau de escolaridade, tipo de solo, fornecedor, etc.
As variáveis qualitativas podem ainda ser classificadas como qualitativas
nominais e qualitativas ordinais. As nominais apenas identificam um atributo à
unidade experimental sem qualquer outra propriedade (sexo, por exemplo),
enquanto que as ordinais identificam um atributo que estabelece uma estrutura de
ordem nas unidades de observação (grau de escolaridade, por exemplo).
Variáveis Quantitativas: Denominamos de variáveis quantitativas aquelas medidas
(características) observadas na amostra que estabelecem uma informação resultante
de uma contagem ou de uma mensuração feita na unidade experimental.
As variáveis quantitativas podem também ser classificadas em dois grupos:
Quantitativas discretas ou quantitativas contínuas. As quantitativas discretas podem
assumir um conjunto finito ou enumerável de valores (número de acidentes em uma
determinada região da cidade, por exemplo), por outro lado, as quantitativas
contínuas podem assumir valores num intervalo de números reais.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
19
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Observação:
Uma variável quantitativa pode ser categorizada, porém a recíproca não é possível. É
importante, porém considerar a PERDA DE INFORMAÇÃO que ocorre nesses casos.
Figura 2.2. Classificação das Variáveis.
Para cada tipo de variável existem técnicas apropriadas para organizar e
resumir a informação, embora em muitos casos se verifique as técnicas usadas em
um caso podem ser adaptadas para outros.
2.2.2. APRESENTAÇÃO DOS DADOS:
A apresentação de informações contidas num conjunto de dados pode ser
feita de várias formas. Para cada tipo de variável existe formas mais adequadas e
corretas de apresentá-las. O objetivo de uma apresentação dos dados é organizar os
valores observados de forma a obter o máximo de informação. Os procedimentos
usuais de apresentação de dados são tabelas e gráficos.
Consideremos o seguinte experimento: Uma indústria química formula um
experimento para verificar se um novo método de fabricação de um produto químico
é superior a um método tradicional de fabricação. Um experimento foi realizado
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
20
Capítulo 2 – Análise Descritiva e Exploratória de Dados
obtendo-se dados de produção industrial dos métodos A (Tradicional) e B (Novo
Método), cujos resultados estão apresentados na Tabela 2.1:
TABELA 2.1. Dados de Produção Industrial.
Lote
Método
Produção
Lote
Método
Produção
1
A
89.7
11
B
84.7
2
A
81.4
12
B
86.1
3
A
84.5
13
B
83.2
4
A
84.8
15
B
91.9
5
A
87.3
15
B
86.3
6
A
79.7
16
B
79.3
7
A
85.1
17
B
82.6
8
A
81.7
18
B
89.1
9
A
83.7
19
B
83.7
10
A
84.5
20
B
88.5
O problema apresenta duas variáveis: Método de Produção e Produção
Observada. A variável método de produção é categórica nominal e a variável
produção é quantitativa contínua.
A apresentação usual dos dados observados é feita através de uma tabela
denominada distribuição de freqüências. Nesta forma são apresentados os
valores observados, a freqüência com que cada valor foi observado, o percentual que
este número de freqüência representa em relação ao total de observação, bem como
os respectivos valores acumulados.
Para tabela acima as distribuições de freqüências são dadas por:
TABELA 2.2. Distribuição de Freqüência da Variável Método de Produção Industrial.
Método
Freqüência
Absoluta
Freqüência
Percentual
Freqüência
Acumulada
Percentual
Acumulada
A
10
50.00
10
50.00
B
10
50.00
20
100.00
Método
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
21
Capítulo 2 – Análise Descritiva e Exploratória de Dados
TABELA 2.3. Distribuição de Freqüência da Variável Produção Industrial
Produção
Produção
Freqüência
Absoluta
Freqüência
Percentual
Freqüência
Acumulada
Percentual
Acumulada
79.3
1
5.00
1
5.00
79.7
1
5.00
2
10.00
81.4
1
5.00
3
15.00
81.7
1
5.00
4
20.00
82.6
1
5.00
5
25.00
83.2
1
5.00
6
30.00
83.7
2
10.00
8
40.00
84.5
2
10.00
10
50.00
84.7
1
5.00
11
55.00
84.8
1
5.00
12
60.00
85.1
1
5.00
13
65.00
86.1
1
5.00
14
70.00
86.3
1
5.00
15
75.00
87.3
1
5.00
16
80.00
88.5
1
5.00
17
85.00
89.1
1
5.00
18
90.00
89.7
1
5.00
19
95.00
91.9
1
5.00
20
100.00
Notação:
fi = freqüência do i-ésimo valor
pi = freqüência percentual do i-ésimo valor ⇒ pi = fi / n
n = tamanho da amostra (número de unidades observadas)
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
22
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Fi = freqüência acumulada até o i-ésimo valor, ou seja, número de observações até o
i
i-ésimo valor ⇒
Fi = ∑ f a
a =1
Pi = freqüência percentual acumulada até o i-ésimo valor, ou seja, percentual de
i
Pi = ∑ p a
observações até o i-ésimo valor ⇒
a =1
Observação:
Nos casos de variáveis qualitativas nominais a freqüência acumulada e
percentual acumulada não tem sentido de interpretação.
Problema:
No caso das variáveis quantitativas, como no exemplo acima, podemos ter
que a variável assume um grande número de valores todos (ou a grande maioria)
com baixas freqüências, logo a distribuição de freqüências se torna grande sem uma
maior contribuição para a interpretação dos dados.
Nessas situações, recomenda-se a categorização da variável através do
estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:
TABELA 2.4. Distribuição de Freqüência da Variável Produção Industrial Categorizada.
Produção Categorizada
Produção
Categorizada
Freqüência
Absoluta
Freqüência
Percentual
Freqüência
Acumulada
Percentual
Acumulada
Menor que 80
2
10.00
2
10.00
[80,85)
10
50.00
12
60.00
[85,90)
7
35.00
19
95.00
90 ou mais
1
5.00
20
100.00
Sugestão Usual:
Os intervalos gerados pela categorização devem ter o mesmo comprimento
e/ou aproximadamente mesmas freqüências.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
23
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Uma segunda forma de apresentação dos dados é através de uma
representação gráfica dos mesmos. Usualmente representa-se graficamente a
distribuição de freqüências. O tipo de gráfico a ser utilizado está associado ao tipo de
variável em estudo.
Variáveis qualitativas podem ser representadas por:
•
Gráfico em Barras
•
Gráfico de Setores (Gráfico de “Pizza”)
•
Gráfico em Retângulo
Variáveis quantitativas podem ser representadas por:
•
Diagrama de Pontos
•
Histogramas
•
Polígono de Freqüências
•
Ramos e Folhas
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
24
Capítulo 2 – Análise Descritiva e Exploratória de Dados
REPRESENTAÇÃO GRÁFICA – DADOS CATEGÓRICOS
Sexo
Sexo
Sexo
100
80
Feminino
42%
58.06
60
41.94
58.06
41.94
40
Masculin
o
58%
20
0
Masculino
Feminino
Sexo
Masculino
Feminino
Bom
32%
9.68
32.26
Bom
0
20
40
60
40%
60%
Masculino
80%
100%
Feminino
100%
9.68
80%
58.06
Algum
20%
Dominio de Computador
Nenhum
10%
Nenhum
0%
80
100
Computador
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
Algum
58%Bom
Algum
Nenhum
60%
58.06
40%
20%
0%
32.26
Bom
Algun
Nenhum
25
Capítulo 2 – Análise Descritiva e Exploratória de Dados
REPRESENTAÇÃO GRÁFICA – DADOS QUANTITATIVOS
Ramo e Folhas
5
10
14
(8)
9
6
4
2
1
Diagrama de Pontos
.
.
:
:
: :. .. :. . : .. . . . .. . . . .
.
-----+---------+---------+---------+---------+---------+Peso
56.0
63.0
70.0
77.0
84.0
91.0
5 22222
5 55689
6 0014
6 55555789
7 124
7 57
8 01
85
90
Peso dos Alunos
33
14
87.1%
12
27
11
29.0%
21
No of obs
9
8
7
6
6.5%
3.2% 3.2%
3.2% 3.2%
3.2%
3.2%
3.2%
3.2% 3.2%
3.2% 3.2%
3.2% 3.2%
3.2%
3.2%
3.2%
3.2%
61.3%
18
15
12
5
6.5%
74.2%
24
32.3%
10
16.1%
100.0%
93.5%
30
13
No of obs
15
14
13
12
11
10
9
8
7
6 16.1%
5
4
3
2
1
0
Peso dos Alunos
15
12.9%
29.0%
12.9%
4
9
3
6
6.5%
6.5%
2
<= 53
(53;54]
(54;55]
(55;56]
(56;57]
(57;58]
(58;59]
(59;60]
(60;61]
(61;62]
(62;63]
(63;64]
(64;65]
(65;66]
(66;67]
(67;68]
(68;69]
(69;70]
(70;71]
(71;72]
(72;73]
(73;74]
(74;75]
(75;76]
(76;77]
(77;78]
(78;79]
(79;80]
(80;81]
(81;82]
(82;83]
(83;84]
(84;85]
(85;86]
(86;87]
(87;88]
(88;89]
> 89
No of obs
Peso dos Alunos
3
1
0
0
0
1
PESO
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
2
3
4
PESON
5
6
7
0
1
2
3
4
5
6
7
PESON
26
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2.2.3. SUMARIZAÇÃO DOS DADOS:
A distribuição de freqüências além de apresentar os dados observados,
também pode ser considerada uma sumarização de dados. Porém, na maioria dos
casos, é desejado obter valores que possam representar cada uma das variáveis em
estudo. Esses valores devem ser medidas que, sob algum ponto de vista sejam
representativos dos dados observados. As medidas usualmente utilizadas se referem
a locação e dispersão dos dados.
2.2.3.1. MEDIDAS
DE LOCAÇÃO OU
TENDÊNCIA CENTRAL:
Medidas relacionadas à “posição” dos dados, ou ainda a valores em torno dos
quais os valores observados tendem a se agrupar. As principais medidas de posição
são:
•
Moda
•
Mediana
•
Quartis, Decis, Percentis.
•
Média
•
MODA:
Definição: Valor (Classe, intervalo..) que ocorre com maior freqüência.
Vantagem: Pode ser obtida para qualquer tipo de variável, porém, é mais
apropriada para dados qualitativos nominais.
Observações:
1) Podemos encontrar variáveis em um conjunto de dados com mais de uma
moda (bimodal, tri-modal.);
2) Podemos ter variáveis em um conjunto de dados onde a moda não existe.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
27
Capítulo 2 – Análise Descritiva e Exploratória de Dados
•
MEDIANA:
Definição: Valor que ocupa a posição central num conjunto de dados ordenados,
ou seja, valor para o qual 50% dos valores observados são inferiores e 50% dos
valores observados são superiores a ele.
Condição: Para obtenção da mediana a variável em estudo deve ser pelo menos
qualitativa ordinal.
Cálculo da Mediana:
1) Dados devem ser ordenados
2) Se o número de observações é:
2.1) Ímpar: Mediana é o valor que está no centro da série, ou seja o valor que
ocupa a posição (n+1)/2.
2.2) Par: Mediana é qualquer valor entre aqueles dois valores que estão no
centro da série, ou seja, qualquer valor entre aqueles que ocupam as posições
n/2 e (n/2)+1. Valor usual: Média dos valores que ocupam a posição (n/2) e
(n/2)+1.
•
QUARTIS, DECIS, PERCENTIS:
Definição: A mediana divide o conjunto de dados em duas partes. Quartis decis
e percentis seguem o mesmo princípio, porém dividem os dados observados em
4, 10 e 100 partes respectivamente.
Desta forma temos que:
percentil (50) = mediana ou segundo quartil (Md)
percentil (25) = primeiro quartil (Q1)
percentil (75) = terceiro quartil (Q3)
percentil (10) = primeiro decil
Observação: Mediana, Quartis, Decis, Percentiis também são chamados de
separatrizes.
•
MÉDIA ARITIMÉTICA:
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
28
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Definição: A média aritmética simples de um conjunto de dados observados é o
quociente da divisão por n da soma dos valores destas observações.
Seja x1, x2, x3, .....xn os valores de uma variável observada na amostra. A
média x (lê-se “x barra”) é dada por:
n
x + x 2 + x3 + ... + x n
x= 1
=
n
∑x
i
i =1
n
Onde xi é o símbolo que indica a observação de ordem i = 1,2,....n
Condição: Possível de obtenção apenas para dados quantitativos.
Propriedades: A média aritmética possui propriedades interessantes que podem ser
úteis em determinadas situações:
1) Se x1=x2=x3=......=xn= a então
n
x ==
∑a
i =1
n
=a
“a média de uma constante é a própria constante”;
2) Se a todo valor observado é adicionado uma constante “a”, então:
n
y i = xi + a ⇒ y ==
∑y
i =1
n
n
i
=
∑x
i
+a
i =1
n
= x+a
“se adicionamos uma mesma constante a toda observação, a média também
fica adicionada deste valor”.
3) Se a todo valor observado é multiplicado por uma constante “a”, então:
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
29
Capítulo 2 – Análise Descritiva e Exploratória de Dados
n
y i = axi ⇒ y ==
∑y
n
i
i =1
n
=
∑ ax
i =1
n
i
= ax
“se multiplicamos toda observação por uma mesma constante, a média
também fica multiplicada deste valor”.
4) A soma dos desvios em torno da média é zero:
n
∑ (x
i
− x) = 0
i =1
Observação: Outros tipos de médias são conhecidos tais como: média ponderada,
média harmônica, média geométrica, média aparada. Cada uma destas médias tem
sua utilizada e aplicações específicas e podem ser encontradas na grande maioria de
textos de Estatística Básica.
2.2.3.2. COMPARANDO
CENTRAL:
MEDIDAS
DE
LOCAÇÃO
OU
TENDÊNCIA
Uma comparação da média, mediana e moda, nas situações onde é possível
calcular todos estes valores, podem nos revelar uma informação sobre o
comportamento dos dados, denominada “assimetria”.
Definição: Uma variável é dita ter comportamento (ou distribuição) assimétrica
quando os seus valores estão mais concentrados em um dos seus extremos (valores
altos ou baixos). As possíveis situações de assimetria e simetria são derivadas do
comportamento dos valores da média, mediana e moda e podem ser representadas
da seguinte forma:
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
30
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Figura 2.3. Assimetria de Uma Variável
2.2.3.3. MEDIDAS
DE
DISPERSÃO:
Na análise de uma variável de interesse em qualquer estudo, quase nunca é
suficiente para descrever de modo satisfatório, observar apenas uma única medida
de posição. Podemos facilmente encontrar variáveis que apresentam o mesmo valor
para uma medida de locação (média, por exemplo), porém com dados apresentando
comportamentos completamente diferentes. Esses diferentes comportamentos são
conseqüência de dados com diferentes graus de dispersão.
Objetivo: Verificar o quanto os valores observados estão “dispersos”, ou ainda o
quanto “variam” os dados.
Apresentamos a seguir algumas medidas de dispersão.
•
AMPLITUDE:
Definição: Diferença entre o maior e o menor valor observado na amostra.
Notação:
Seja X(n) = maior valor observado para a variável na amostra;
Seja X(1) = menor valor observado para a variável na amostra;
Amplitude = A = X(n) – X(1)
Observações:
1) Medida sujeita a influencia da presença de valores extremos.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
31
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2) O aumento do número de observações na amostra não produz qualquer
mudança no valor dado pela amplitude.
•
DIFERENÇA DE QUARTIS:
Definição: Valor dado pela diferença entre os valores que delfinem os 50%
dos valores centrais observados.
Notação:
Seja Q(1) = 1º quartil dos dados observados (25% das observações na
amostra);
Seja Q(3) = 3º quartil dos dados observados (75% das observações na
amostra);
Logo Q(3) – Q1) contém 50% das observações e, consequentemente
Diferença de Quartis = DQ = Q(3) – Q(1)
•
VARIÂNCIA – DESVIO PADRÃO:
Definição: A VARIÂNCIA é uma medida de variabilidade dos dados em torno
da média, ou seja, ela quantifica a variabilidade ou o espalhamento ao redor da
média.
É natural procurar uma medida de dispersão que dependa dos desvios de
cada observação em relação à média (xi – x ), e é razoável considerar a soma de
todos estes desvios. Quanto maior forem os desvios, maior será a variabilidade
presente nos dados. Entretanto, pela definição de média, ∑(xi – x ) = 0 para
qualquer conjunto de dados.
Uma alternativa, para se obter uma medida de dispersão, é elevar os desvios
de cada observação em relação à média ao quadrado, isto é,
di= (xi - x )2
Assim,
∑ (xi – x )2
É a soma dos quadrados dos desvios em relação à média. Desta forma somamos
somente valores positivos. Torna-se necessário considerar o nº de observações,
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
32
Capítulo 2 – Análise Descritiva e Exploratória de Dados
pois quanto maior o nº de observações maior será o valor deste somatório. Assim,
a variância amostral é definida por:
n
S2 =
∑ (xi − x )
i =1
2
n −1
Por que (n-1)?
Quando dividimos por n-1 temos que S2 é um estimador não viciado, importante
propriedade da inferência estatística:
Se a amostra é grande, os valores obtidos dividindo por n ou n-1 são praticamente
iguais.
Propriedades da Variância
1) A variância de uma constante é zero, isto é, xi = a, para todo i= 1, 2,..,n
então S2 = 0
2) Se multiplicarmos cada valor da variável por uma constante a, a variância será
a variância da variável original multiplicada por a2.
y = a X, então Var(y) = Var (a x)= a2 Var(x).
3) Se somarmos ou subtrairmos de cada valor da variável uma constante a, a
variância não se altera.
Seja y = X + a, então Var(y) = Var (x + a)= Var(x).
4) Se dividirmos cada valor da variável por uma constante a, a variância será a
variância da variável original dividida por a2.
Seja y =
1
1
1
x então Var(y) = Var ( x )= 2 Var(x).
a
a
a
Note que a unidade de medida de S2 é a unidade de medida das
observações elevada ao quadrado. Então, para obter uma medida de
variabilidade com a mesma unidade de medida das observações extraí-se a raiz
quadrada. Esta medida é denominada DESVIO PADRÃO e definida por:
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
33
Capítulo 2 – Análise Descritiva e Exploratória de Dados
n
S=
∑ (xi − x )
2
i =1
n −1
Observações:
1) S mede a dispersão em torno da média e só deve ser calculado quando a
média é tomada como medida de locação.
2) S ≥ 0. Logo, quanto maior a dispersão em torno da média, maior o valor do
desvio padrão, ou maior valor de S.
Além das medidas de dispersão aqui apresentadas, algumas outras são
encontradas na literatura, como por exemplo, as medidas de simetria e de
achatamento (também ditas de curtose). Para as aplicações que serão feitas ao
longo desse curso, as medidas aqui apresentadas são suficientes, outras medidas
podem ser encontradas em livros de Estatística Básica.
2.2.3.4. MEDIDAS
DE
DISPERSÃO RELATIVA:
Em muitos casos, em particular em situações que desejamos comparar a
dispersão de variáveis com diferentes unidades de medida, é conveniente expressar
a dispersão em termos relativos, ou seja, expressar a variabilidade dos dados tirando
a influência da ordem de grandeza da variável.
•
COEFICIENTE DE VARIAÇÃO:
Definição: O desvio padrão descreve o desvio padrão relativo à média. É
expresso em termos de valores percentuais.
Notação:
O coeficiente de variação, que é definido por:
CV = Sx *100
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
34
Capítulo 2 – Análise Descritiva e Exploratória de Dados
O coeficiente de variação (CV) é adimensional, isto é, um número puro e
usualmente expresso em porcentagem. Sua utilidade é fornecer uma medida para a
homogeneidade do conjunto de dados. Quanto menor o CV mais homogêneo é o
conjunto de dados.
Pelo fato do CV ser adimensional, é possível comparar a variabilidade de dois
conjuntos de dados muitos distintos. O CV é muito útil na comparação de duas
variáveis ou dois grupos que a princípio não são comparáveis (por exemplo, com
ordens de grandeza das variáveis muito diferentes).
Um valor de CV maior que 50% indica um alto grau de dispersão e
conseqüentemente uma baixa representatividade da média. Um valor de CV menor
ou igual a 25% geralmente indicará que o conjunto de dados é razoavelmente
homogêneo. Entretanto, esse padrão varia de acordo com a aplicação. Uma possível
classificação é a seguinte:
CV:
Baixo - (inferior a 0,10);
Médio - (de 0,10 a 0,25);
Alto
Muito Alto - (≥0,35).
- (0,25 a 0,35);
2.2.3.5. UMA REPRESENTAÇÃO GRÁFICA CONJUNTA
DE LOCAÇÃO E DE DISPERSÃO:
DE
MEDIDAS
Como apresentado anteriormente, uma análise de dados deve, minimamente
considerar conjuntamente uma medida de locação e uma medida de dispersão.
Nesse sentido é importante também estabelecer uma representação gráfica conjunta
de medidas de locação e dispersão através da qual seja possível verificar o
comportamento da variável em ambos os aspectos.
•
ESQUEMA DE CINCO NÚMEROS:
Proposta: Identificar 5 valores dentre o conjunto de n observados que possa
dar condições de se ter uma idéia geral do comportamento geral das observações.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
35
Capítulo 2 – Análise Descritiva e Exploratória de Dados
Condição: Possível para variáveis quantitativas;
Valores Propostos (Tukey):
Mediana
Valor Maximo (X(n)) e Valor Mínimo (X(1))
1º e 3º Quartis
Observação:
Alguns outros autores e softwares propõem o uso de média e desvio padrão
no lugar de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as
mesmas são medidas de locação e dispersão que não são influenciadas pela
presença de valores extremos no conjunto de dados e que, portanto permitem uma
mais fácil identificação de presença dos mesmos dentre os valores observados.
•
DESENHO ESQUEMATICO – BOX PLOT:
Proposta: Representação gráfica do esquema de 5 números.
O Box-plot é obtido seguindo-se os passos:
1. Numa reta são marcados o 1º quartil (Q1), a mediana (Q2 ) e o 3º quartil (Q3).
2. Acima dessa reta constrói-se um retângulo com limites iguais às posições do
1º e 3º quartis, cortado por um segmento de reta na posição relativa à
mediana.
3. A partir dos limites do retângulo, traçam-se linhas até:
a. Encontrar um extremo (valor máximo ou mínimo) ou
b. Um valor correspondente a 1,5 DQ, se o extremo correspondente
estiver a mais de 1,5 DQ do quartil respectivo.
Os pontos que estão a mais de 1,5 DQ do quartil correspondente até 3DQ são
chamados pontos externos (* ) e os que estão a mais de 3DQ, pontos soltos (o).
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
36
Capítulo 2 – Análise Descritiva e Exploratória de Dados
BoxBox-Plot
linha
auxiliar
⇓
_Q3+1,5d
altura
_Q3
d
_Q1
*
*
_Q3+1,5d
_Q3
_Q3
_Q3
_md
_md
_md
_Q1
_Q1
_Q1
_Q1-1,5d
_Q1-1,5d
*
Q1 = 1º quartil
md = mediana
Q3 = 3º quartil
*
*
*
d = diferença interquartil
Figura 2.4. Construído o Box - Plot
Construção
LS=Q3+1,5(Q3-Q1)
“Máximo”
Q3
Mediana
Q1
75%
50%
25%
“Mínimo”
LI=Q1-1,5(Q3-Q1)
“Máximo” é o maior valor menor que LS;
“Mínimo” é o menor valor maior que LI.
Figura 2.5. Forma Final do Box - Blot
O Box – Plot é um procedimento que permite iidentificar em um conjunto de
dados:
Simetria
Dispersão
Valores Discrepantes
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
37
Capítulo 2 – Análise Descritiva e Exploratória de Dados
IMPORTANTE:
O Box–Plot, além das aplicações apresentadas, é um procedimento
extremamente importante na comparação de diferentes grupos (tratamentos) que
são observados e, por exemplo, dentre os quais, deseja-se identificar aquele com
melhor desempenho.
Exemplo:
Comparando o total de pontos obtidos pelos alunos ingressos no
processo seletivo 2005 nos diferentes cursos da UFSCar.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
38
Capítulo 2 – Análise Descritiva e Exploratória de Dados
2.3. REFERÊNCIAS BIBLIOGRÁFICAS:
Barros Neto, B., Scarminio, I. S., Bruns, R. E. (2001) – Como Fazer
Experimentos: Pesquisa e desenvolvimento na ciência e na indústria.
Editora da Unicamp, Campinas, SP.
Montgomery, D. C., Runger, G. C. (2003) – Estatística APlicada e
Probabilidade para Engenheiros, LTC Editora, 2a Edição, Rio Janeiro, RJ.
Triola, M. F. (2005) – Introdução a Estatística, LTC Editora, 9ª Edição, Rio
Janeiro.
Anderson, T.W., Sclove, S. L. (1974) – Introductory Statistical Analysis,
Houghton Miflin, Boston.
Vieira, S. (1999) – Princípios de Estatística, Pioneira, São Paulo, SP.
Introdução ao Planejamento e Análise Estatística de Experimentos C – 1o Semestre de 2009
39
Download