capítulo ii

Propaganda
CURSO DE ADMINISTRAÇÃO
INTRODUÇÃO À ESTATÍSTICA
Prof. Me. Clementina Scherpinski
CAPÍTULO II
CASCAVEL - 2010
CAPÍTULO II
INTRODUÇÃO
O que é Estatística?
Quando ouvimos falar em estatística imaginamos taxas de desemprego,
índices de mortalidade, litros por quilômetro, etc. Esta parte da estatística que usa
números para descrever fatos é chamada de forma bastante apropriada, de
Estatística Descritiva. A Estatística Descritiva compreende a organização, o
resumo, a simplificação de informações que podem ser complexas. O objetivo é
tornar as informações mais fáceis de serem entendidas, relatadas e discutidas. A
média industrial Dow-Jones, o custo de vida, o índice pluviométrico, as médias de
estudantes, tudo isso se enquadra nessa categoria.
Outro ramo da Estatística relaciona-se com a probabilidade, e é útil para
analisar situações que envolvem o acaso.
Jogos de dados e de cartas, ou o
lançamento de uma moeda se enquadram nessa categoria. A maioria dos jogos
esportivos também é influenciada pelo acaso até certo ponto.
Um terceiro ramo da Estatística é a inferência. Diz respeito a análise e
interpretação de dados amostrais. (Não é preciso comer um bolo inteiro para saber
se ele é gostoso). A idéia básica da amostragem é efetuar determinada mensuração
sobre uma parcela pequena, mas típica chamada população e utilizar essa
informação para fazer inferência sobre a população toda. Por exemplo, mergulhar a
ponta do pé na água para avaliar a temperatura da piscina. Assistir um programa de
TV alguns minutos para ver se vale a pena assisti-lo até o fim. Folhear um livro.
Testar um novo carro. As fabricas normalmente produzem um pequeno número de
peças (lote piloto) antes de se lançarem à fabricação em grande escala.
Essas três áreas não são separadas ou distintas, ao contrário, elas tendem a
se entrelaçar. Temos então a descrição e resumo de dados, teoria da probabilidade,
e análise e interpretação de dados amostrais.
2
6 - MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS NÃO AGRUPADOS
(sem intervalo de classe) E AGRUPADOS (com intervalo de classe)
ESTATÍSTICA DESCRITIVA
O planejamento de um estudo requer cuidado especial, para que os
resultados tenham confiabilidade. Seja o estudo do perfil de uma determinada
população ou um estudo de caso através de um delineamento experimental, o
pesquisador deve sempre organizar os procedimentos, registrá-los e executá-los
com muita atenção, sempre que possível, à luz de outros estudos inerentes. Isto é
possível com uma revisão de literatura sobre o tema.
Em um estudo, depois que o pesquisador procedeu à coleta de dados, deve
iniciar a análise exploratória, como forma de interpretação e registro dos
resultados.
Para proceder à interpretação de um conjunto de dados, o pesquisador
precisa organizar, sistematizar, enfim, realizar procedimentos que permitam a
compreensão dos resultados, evidenciando as tendências comportamentais dos
dados, com vistas à inferência.
A
estatística
descritiva
de
dados
quantitativos
permite
conhecer
características de uma distribuição, seja de uma amostra ou de uma população.
MEDIDAS DE POSIÇÃO
As medidas de posição permitem ao pesquisador verificar a distribuição e o
comportamento de dados quantitativos no intervalo fechado [Valor Min; Valor Max].
Entre as medidas de posição citam-se a média aritmética, a mediana e a
moda, conhecidas como medidas de tendência central. As separatrizes também
são denominados medidas de posição: 1º, 2º e 3º quartis, decis e percentis. O
segundo quartil equivale à mediana.
3
6.1 Média Aritmética
A partir de um conjunto de dados numéricos o pesquisador poderá proceder
ao cálculo de várias médias como:

Média geométrica: defina como a raiz enésima do produto de n valores
dados;

Média cúbica: é a raiz cúbica da média aritmética dos cubos de valores
dados;

Média proporcional: é a média geométrica de dois valores;

Média harmônica: é o inverso da média aritmética dos inversos de um
conjunto de valores;

Média quadrática: que é a raiz quadrada da média aritmética dos quadrados
de valores dados;

Tri-média: que é obtida através da função maior inteiro.
Entretanto, uma das médias mais utilizada na análise exploratória de dados, é
a média aritmética, que é definida como o quociente entre a soma dos n valores dos
dados com o número de elementos do conjunto.

A média aritmética amostral é dada pela expressão matemática:
Em que:
_
n
_
x
x
i 1
x é a média aritmética da amostra;
i
n
xi iésima observação da variável aleatória;
n é o número de elementos da amostra.
n
x
i 1
i
é o somatório de todos os valores xi
na
amostra.
A expressão matemática da média aritmética, ainda pode ser escrita fazendose a expansão do somatório, ou seja:
_
x
x1  x2  x3 ...  xn
n
4
A média aritmética pode ser populacional e ou amostral. Os procedimentos
matemáticos, em ambos os casos, é o mesmo; o que muda é o significado. A média
de uma amostra é um parâmetro estimado da verdadeira média da população.

A média aritmética populacional é dada pela expressão matemática:
N

 Xi
i 1
N
Em que:
 é a média aritmética da população;
X i são os valores da variável;
N é número de elementos da população.
6.1.1 Dados agrupados:
a) Sem intervalos de classe
Consideremos a distribuição relativa a 34 empresas, tomando para variável
em estudo, o nº. de acidentes do trabalho por empresa durante um ano de trabalho.
O cálculo da quantidade média de acidentes do trabalho por empresa:
xi
0
1
2
3
4
Total
fi
2
6
10
12
4
34
Neste caso, a tabela deveria ser interpretada da seguinte forma,””duas
empresas não tiveram nenhum acidente de trabalho” durante aquele ano; “seis
empresas tiveram um acidente de trabalho” e assim por diante.
Como as freqüências neste caso são números indicadores da intensidade de
cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva
a calcular a média aritmética ponderada, dada pela seguinte fórmula:
x
x1 * P1  x 2 * P2  x 3 * P3  ...  x n * Pn
P1  P2  P3  ...Pn
ou
x
 (x * P )
P
i
i
i
5
Tabela 1: Notas referentes a um teste psicotécnico de 100 futuros
motoristas
Notas
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Total
Freqüência
1
4
1
3
10
6
10
15
17
11
9
6
3
1
2
1
100
Freqüência acumulada
1
5
6
9
19
25
35
50
67
78
87
93
96
97
99
100
b) Com intervalos de classe
Neste caso, convencionamos que todos os valores incluídos em um
determinado intervalo de classe coincidem com o seu ponto médio, e determinamos
a média aritmética ponderada por meio da fórmula:
x
 (f * x )
f
i
i
i
onde: xi é o ponto médio da classe.
6
Tabela 2: Notas de candidatos concorrentes a uma bolsa de estudos
Classes
3 l----- 13
13 l----- 23
23 l----- 33
33 l----- 43
43 l----- 53
53 l----- 63
63 l----- 73
73 l----- 83
83 l----- 93
93 l-----100
Total
Freqüência (fi)
9
12
12
16
16
13
12
05
04
01
100
Freqüência acumulada (Fi)
9
21
33
49
65
78
90
95
99
100
Média de
intervalo (xi)
8
18
28
38
48
58
68
78
88
Outro aspecto a ser destacado é que a média de uma população ou amostra
de uma população tende a ter característica determinante, ou seja, difere. Por
exemplo, à média da estatura de um grupo de alunos da 5ª série do ensino
fundamental, difere da média da estatura de um grupo de alunos universitários,
tendo em vista que, na maioria das vezes, a faixa etária está diretamente ligada à
estatura.
A média das notas dos candidatos constantes da Tabela 1 é uma estimativa
da verdadeira média das notas dos alunos.
Geralmente, a média de uma amostra é utilizada na realização de estudos de
diversas naturezas, dada a dificuldade de se trabalhar com dados da população. Isto
se deve, na maioria das vezes, pela questão dos custos operacionais do estudo, ou
pela inviabilidade operacional de realização dos ensaios. Toda vez que se utiliza a
média da amostra em um estudo, ela é denominada um estimador da verdadeira
média, ou seja, um valor estimado da média verdadeira.
6.2 Mediana
A mediana de um conjunto de dados é o valor do meio em uma seqüência
ordenada de dados. A mediana não é afetada por qualquer observação extrema em
um conjunto de dados. Assim, sempre que uma observação extrema está
7
presente, é apropriado utilizar a mediana em vez da média aritmética para
descrever um conjunto de dados.
Para calcular a mediana em um conjunto de dados coletados em sua forma
crua, precisamos primeiramente posicionar os dados em uma disposição ordenada.
Então, utilizamos a fórmula do ponto de posicionamento (n+1)/2 para encontrar, na
disposição ordenada, o lugar que corresponde ao valor da mediana.
Uma das seguintes regras é seguida:
regra 1:
Se o tamanho da amostra for um número ímpar, a mediana é
representada pelo valor numérico correspondente ao ponto de posicionamento (n +
1)/2 das observações após a ordenação.
Regra 2:
Se o tamanho da amostra for um número par, o ponto de
posicionamento fica entre as duas observações centrais na disposição ordenada. A
mediana é a média dos valores numéricos correspondentes àquelas duas
observações.
A mediana obtida permite ao pesquisador identificar, a partir de seu
valor, que 50% dos elementos do conjunto possuem valores abaixo deste, enquanto
que os demais, estão acima deste valor, conforme Figura 1.
FIGURA 1 – REPRESENTAÇÃO GEOMÉTRICA DA MEDIANA
50
%
X1
50
%
Me
Xn
6.2.1 Dados agrupados
a) Sem intervalos de classe
Devemos seguir os seguintes passos:
8
1º) Determinamos as freqüências acumuladas - Fi;
2º) Encontrarmos a classe onde se encontra a mediana 0,50 *  f i  ;
3º) Marcamos a classe correspondente à freqüência acumulada (Fi) igual ou
imediatamente superior à 0,50 *  f i  . Tal classe será a classe mediana.
xi
0
1
2
3
4
Total
fi
2
6
9
13
5
 35
Fi
2
8
17
30
35
Assim, 0,50 *  f i  =
b) Com intervalos de classe
Devemos repetir os passos 1, 2 e 3 anteriormente citados:
4º) Calculamos a Mediana com a seguinte fórmula:
Md  l i 
(0,50 *  f )  F(anterior ) * h
i
fi
i
onde:
li = é o limite inferior da classe mediana;
0,50 *  f  = valor que divide a série em duas partes iguais;
i
F(ant) = é a Freqüência Acumulada (Fi) da classe anterior a classe mediana;
fi = é a freqüência simples da classe mediana;
hi = é a amplitude do intervalo da classe mediana.
9
Exemplo:
0,50 *  f  =
classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total
fi
4
9
11
8
5
3
40
Fi
4
13
24
32
37
40
i
OBS: Esta mediana é estimada, pois não temos os 40 valores da distribuição.
6.3 Moda
A moda de um conjunto de dados é o valor que aparece com maior
freqüência. Nos conjuntos de dados onde não acontece repetição de valores, usa-se
denominar série amodal. É comum ainda, encontrar séries de valores com dois ou
mais valores, cujas freqüências são iguais. Denomina-se, então, série bimodal,
trimodal e assim sucessivamente.
Em alguns casos, a moda explica melhor a situação da amostra ou da
população do que a média. Isto ocorre, por exemplo, quando determinados valores
de um conjunto de dados em estudo são muito grandes, ou então muito menor que a
maioria.
Exemplo: O conjunto de números 2, 2, 5, 7, 9, 9, 9, 10, 11, 12, 18 tem moda
9.
6. 3.1 Dados agrupados
a) Sem intervalos de classe
Uma vez agrupados os dados, é possível determinar imediatamente a moda:
basta fixar o valor da variável de maior freqüência.
Exemplo: Qual a temperatura mais comum medida no mês abaixo:
10
Temperaturas
0º C
1º C
2º C
3º C
Total
Freqüência= fi
3
9
12
6
30
b) Com intervalos de classe
Neste caso, devemos inicialmente encontrar a classe que apresenta a maior
freqüência, a qual denominaremos de classe modal. Existem duas formas básicas
de encontrarmos a moda.
Um dos métodos, a qual denominamos de moda bruta, consiste em encontra
a classe modal e em seguida calcular o ponto médio desta classe com a seguinte
fórmula:
Mo 
li  Li
2
onde:
li = limite inferior da classe modal; e
Li= limite superior da classe modal.
Exemplo: Calcule a moda do conjunto de dados abaixo:
Classes
fi
xi
50 |------------ 54
4
52
54 |------------ 58
9
56
58 |------------ 62
11
60
62 |------------ 66
8
64
66 |------------ 70
5
68
70 |------------ 74
3
72
Total
40
O outro método é mais elaborado para determinação da moda foi desenvolvido por
CZUBER:
 D1 

 * h i 
Mo  l i  
 D1  D 2 

li= limite inferior da classe modal;
11
D1= fi - f(ant);
D2= fi - f(post);
fi = freqüência simples da classe modal;
f(ant) = freqüência anterior à da classe modal
f(post) = freqüência posterior à da classe modal
hi= amplitude da classe modal
Utilizamos a moda quando desejamos obter uma medida rápida e aproximada
de posição ou quando a medida de posição deva ser o valor mais típico da
distribuição.
6.4 - Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes
iguais. Precisamos, portanto de 3 quartis (Q1, Q2 e Q3) para dividir a série em quatro
partes iguais. O Q1 representa os primeiros 25% dos dados ordenados (1/4), o
Q2=Md encontra-se no meio do conjunto de dados (2/4) e o Q3 representa os
primeiros 75% do conjunto de dados ordenados (3/4).
6.4.1 Dados não-agrupados
Exemplo1: Calcule os quartis da série ímpar: { 5, 2, 6, 9, 10, 13, 15 }
1º) ordenar os dados de forma crescente ou decrescente:
{2, 5, 6, 9, 10, 13, 15}
Q1
Q2
Q3
Exemplo2: Calcule os quartis da série par: {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}
Q2 = Md = (5+6)/2 = 5,5;
12
Q1 será a mediana da série à esquerda do Q2 {1, 1, 2, 3, 5, 5}, então Q1=(2+3)/2 =
2,5;
Q3 será a mediana da série à direita do Q2 {6, 7, 9, 9, 10, 13 }, então Q3=(9+9)/2 = 9;
6.4.2 Dados agrupados
Usar a fórmula 0,25 *  f i  para a determinação do primeiro quartil (Q1),
0,50 *  f 
i
para a determinação do segundo quartil (Q2) e 0,75 *  f i  para a
determinação do terceiro quartil (Q3). Assim a fórmula genérica para determinação
dos quartis será:
Q k  li 
(% *  f )  F(anterior ) * h
i
fi
i
Exemplo 3 - Calcule os quartis da tabela abaixo:
i
1
2
3
4
5
6
classes
50 |------------ 54
54 |------------ 58
58 |------------ 62
62 |------------ 66
66 |------------ 70
70 |------------ 74
Total
fi
4
9
11
8
5
3
 40
Fi
4
13
24
32
37
40
Q1
Q2
Q3
FIGURA 2 – REPRESENTAÇÃO GEOMÉTRICA DOS QUARTIS
X1
Q1
Me
Xn
Q3
7 - MEDIDAS DE DISPERSÃO ( Medidas de variabilidade)
13
As medidas de dispersão medem a variabilidade dos dados em estudo. As
medidas de dispersão como amplitude, variância, desvio padrão e coeficiente de
variação, permitem verificar se o conjunto de dados é homogêneo ou heterogêneo.
7.1 - Amplitude
Amplitude total ou máxima é a diferença entre o maior e o menor valor de um
conjunto de dados. Como no caso da nota média das notas do teste psicotécnico da
Tabela 1, a amplitude máxima é dada pela diferença entre 75 e 60, ou seja, 05.
Logo, as notas do teste variam 05 unidades.
Para estudar a dispersão dos dados, a amplitude não é um dos melhores
meios, pois, este cálculo é efetuado apenas com os valores extremos do conjunto.
Por exemplo, as idades em anos de um grupo de pessoas, são:
2, 5, 8, 10, 14, 18
e 22.
Um segundo grupo, possui as idades: 2, 14, 15, 15, 16,16 e 22.
Nos dois grupos de pessoas, a amplitude máxima é de 20 anos, porém, a
dispersão no primeiro é bem maior que no segundo. Para medir a dispersão de um
grupo de dados, o pesquisador poderá fazer uso do desvio padrão, de procedimento
matemático igualmente fácil, mas muito mais elaborado e que contempla todos os
valores do conjunto de dados em estudo.
7.2 Variância
A variância da amostra é aproximadamente a média das diferenças ao
quadrado entre cada uma das observações de um conjunto de dados. Assim sendo,
para uma amostra contendo n observações x1, x2, ..., xn, a variância da amostra
pode ser escrita como
14
S
2
2
2
2

x1  x    x 2  x   ...   x n  x 

n 1
ou como sendo
S2 
 x
 x
2
i
n 1
_
Em que:
x é a média aritmética da amostra;
xi iésima observação da variável aleatória;
n é o número de elementos da amostra.
7.3 Desvio Padrão
O desvio padrão de uma amostra (representado pela letra S) é definido como
sendo a raiz quadrada da variância da amostra.
Ao iniciar as análises de um agrupamento de dados, a média permite que se
estabeleça um juízo sobre tal conjunto. Porém, não permite avaliar a dispersão,
principalmente para conjunto de dados mais numerosos.
Um dos modos mais simples de se medir a dispersão, é calcular a amplitude
total, entretanto, tal amplitude pode se deixar influenciar pelos valores extremos. O
desvio padrão foge a essa falha por levar em conta todos os valores em questão.
Portanto, o desvio padrão é muito mais conveniente no cálculo da dispersão.
O desvio padrão é definido como a raiz quadrada da média dos quadrados
dos desvios (variância):
Desvio padrão populacional
N

(X
i 1
i
N
 )2
 é desvio padrão populacion al
 é a média populacion al
X i os valores da amostra
N é o número de elementos da população
15
O desvio padrão populacional ou amostral mede a variabilidade dos dados,
com respeito à média. Conjunto de dados com maior dispersão implica em desvios
padrões elevados.
A diferença entre o desvio padrão populacional e o desvio padrão amostral,
está no significado do conjunto e no denominador da expressão matemática que o
determina. Enquanto o desvio padrão amostral é calculado com a média de uma
amostra da população, portanto, expresso a partir de um valor estimado da
verdadeira média, o desvio padrão populacional é obtido com a média verdadeira,
ou seja, a média da população. Então, o denominador n do desvio estimado, é
subtraído de uma unidade como forma de correção, uma vez que essa subtração
implica em um aumento de seu valor e, portanto, o uso do desvio padrão amostral
tem diminuído a possibilidade de erro quando for usado para verificar a variabilidade
dos dados.
Para exemplificar a análise de variabilidade de dados, analisar-se-á 4
amostras de massas de alunos iniciantes em um curso de graduação. Os dados com
as estaturas destes alunos, constam abaixo.
Amostras com massas de alunos de graduação
AMOSTRAS
MASSAS (kg)
Amostra 1
Amostra 2
Amostra 3
Amostra 4
62
63
42
38
58
63
55
46
70
63
65
85
65
63
78
90
60
63
75
56
Em ambas as amostras da tabela acima, a média das massas dos alunos é
63 kg. Entretanto, a dispersão observada não é a mesma. Para a amostra 1, o
desvio padrão amostral é de 4,69 kg, a segunda amostra não possui variabilidade,
na terceira o desvio padrão é de 14,82 e, para a quarta, este valor sobe para 23,32.
Comparando os resultados dos desvios padrões calculados, se observa que, quanto
maior for a dispersão dos dados, maior será o valor numérico do desvio padrão.
Ressalta-se que o desvio padrão somente tem sentido enquanto informação se for
comparado com a média.
O que a Variância e o desvio padrão indicam?
16
A variância e o desvio padrão medem a dispersão “média” em torno da média
aritmética, ou seja, como as observações maiores flutuam acima dela e as
observações menores se distribuem abaixo dela.
7.4 Coeficiente de variação
O coeficiente de variação dá uma idéia da precisão de um experimento ou da
dispersão de um conjunto de dados. É definido como o quociente entre desvio
padrão e a média, multiplicado por 100. Logo, o coeficiente de variação nada mais é
do que o desvio padrão em porcentagem da média.
S
CV  
X

100%

Organizando uma nova tabela, a partir da tabela anterior e agora incluindo a
amplitude máxima, o desvio padrão e o coeficiente de variação, pode-se perceber
que o desvio padrão realmente é um medidor da dispersão de um conjunto de dados
numéricos.
Dados das massas dos alunos do ensino médio
AMOSTRA
MASSAS (kg)
AM (kg)
S (kg)
CV (%)
Amostra 1
Amostra 2
Amostra 3
62
63
42
58
63
55
70
63
65
65
63
78
60
63
75
12
0
36
4,69
0
14,82
7,44%
0
23,52%
Amostra 4
38
46
85
90
56
52
23,32
37,02%
AM = Amplitude Máxima
S = desvio padrão
CV=Coeficiente de variação
Um indicativo de grande variabilidade dos dados acontece quando o desvio
padrão é maior que a média, o que faz com que o coeficiente de variação supere
100%.
17
PIMENTEL GOMES (1987, p. 24) afirma que “Tendo em vista os coeficientes
de variação comumente obtidos nos experimentos de campo ...” pode-se considerar:
CONDIÇÃO
VARIABILIDADE
Baixa
INTERVALO
se
CV < 10%
Média
se
10%<CV <20%;
Alta
se
20%<CV <30%;
Muito alta
se
CV >30%;
O pesquisador pode, também, adotar como parâmetro de análise que um CV
superior a 50%, possui grande variabilidade e, abaixo deste, baixa ou pequena
variabilidade. Entretanto, não há consenso entre os autores, uma vez que depende
muito do tipo de conjunto de dados ou experimento que se está estudando.
No caso da amostra 1, constante da tabela acima, a variabilidade dos dados é
baixa, e de forma subjetiva, um gráfico de dispersão permite ao pesquisador
visualizar tal situação, conforme o Gráfico 1, onde a linha pontilhada representa a
média do conjunto.
GRÁFICO 1 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 1
80
70
70
60
massas (kg)
65
62
60
58
50
40
30
20
10
0
0
1
2
3
4
5
6
alunos
Amostra 1
Já no caso da amostra 2, onde todos os alunos possuem a mesma massa,
não existe variabilidade, conforme mostra o Gráfico 2.
18
GRÁFICO 2 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 2
70
63
massas (kg)
60
63
63
63
63
50
40
30
20
10
0
0
1
2
3
4
5
6
alunos
Amostra 2
GRÁFICO 3 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 3
90
80
78
massas (kg)
70
75
65
60
55
50
42
40
30
20
10
0
0
1
2
3
4
5
6
alunos
Amostra 3
GRÁFICO 4 – DISPERSÃO DAS MASSAS DOS ALUNOS – AMOSTRA 4
100
90
massas (kg)
90
85
80
70
60
56
50
46
40
38
30
20
10
0
0
1
2
3
4
5
6
alunos
Amostra 4
Os gráficos 1, 2, 3 e 4 indicam a variabilidade dos dados subjetivamente.
Entretanto, o gráfico 4 é o que possui maior distanciamento dos dados da amostra,
com respeito à média, simbolizada por uma linha pontilhada horizontal.
19
6.5 A planilha Excel para procedimentos de estatística descritiva
O programa Excel do Windows é uma planilha que pode ser utilizada
pelo pesquisador, pelo estudante, pelo gerente, enfim, por todos aqueles que
queiram executar procedimentos de cálculo estatístico. Abordar-se neste item,
algumas funções matemático-estatísticas que possibilita a obtenção de aplicações
de praticamente, todas as ferramentas da estatística descritiva, tratadas neste
capítulo.
Uma vez que os dados foram inseridos na planilha de dados do Excel, uma
das funções que poderá ser utilizada é a função
, ou seja, a função Colar Função.
Primeiramente, o pesquisador deve escolher uma célula, que uma selecionada será
o local onde o programa fará a inserção da operação escolhida. A partir de um clik
no ícone colar função, abre-se a janela Colar Função do programa. No lado
esquerdo da janela, o pesquisador seleciona a opção Estatística no quadro
Categoria da função, procedimento que exibe, automaticamente, no quadro à direita,
diversas opções de operações estatísticas. Entre as opções, várias funções
estatísticas poderão ser executas. Cita-se a média, a moda, o desvio padrão, a
mediana, os quartis, entre outras. Uma vez feita a opção da função que o operador
deseja executar, e clicando na opção Ok, o operador terá acionado a caixa de
criação de fórmulas – Figura 3, que orienta sobre esta operação.
Quando acionada a caixa de criação de fórmulas, o programa ainda não tem
definido o conjunto de dados que deve proceder ao cálculo da função estatística
escolhida. O pesquisador deve registrar o endereço das células com os dados a
serem processados, bastando clicar no ícone da caixa de diálogo número 1. Depois
deste procedimento, basta selecionar os argumentos (valores ou dados) que deseja
proceder aos cálculos. Para retornar a caixa de criação de fórmulas, basta dar um
clik no ícone ativo na barra de fórmulas,
seguido da opção Ok, ou através da
tecla enter do teclado para inserir o resultado da operação na célula selecionada.
20
FIGURA 3 – CAIXA DE CRIAÇÃO DE FÓRMULAS DO EXCEL
Como exemplo de aplicação, o cálculo da média dos argumentos 1, 3, 5, 6, e
8, inseridos nas células B2 a B6 – Figura 3, gera o resultado: média 4,6. Para
finalizar a operação, basta teclar enter no teclado ou clicar o ícone Ok, para a
inserção do resultado na célula selecionada. Outros cálculos de estatística podem
ser utilizados com operações similares ao cálculo da média descritos.
O Excel também possui uma opção de cálculo macro para um grupo de
argumentos, que realiza de uma só vez, várias operações estatísticas.
Primeiramente, o Excel precisa ter acionada a opção análise de dados, que
está disponível no ícone Ferramentas da barra de menu. Caso esta opção não
esteja disponível, click em Ferramentas, seguido de Suplementos, selecionando a
opção Análise de dados nesta janela – Figura 5. Executados estes procedimentos, o
Excel exib, na opção Ferramentas da barra de menu, o comando Análise de dados.
Para proceder aos cálculos da estatística descritiva através desta opção,
insira o conjunto de dados em uma coluna de dados. Acione a opção Ferramentas
seguido do comando Análise de dados.
21
FIGURA 5 – CAIXA DE DIÁLOGO SUPLEMENTOS
Estes procedimentos abrem a janela Análise de dados – Figura 6 onde o
pesquisador deve escolher a opção estatística descritiva.
Clicando a opção Ok, o Excel abre a janela Estatística descritiva – Figura 7.
Nesta janela, o pesquisador deve indicar no quadro Entrada desta janela, na caixa
de diálogo Intervalo de entrada, em quais células se encontram os argumentos que
deseja proceder aos cálculos da estatística descritiva.
Escolhe também se os cálculos serão efetuados e inseridos em colunas ou
linhas. Nas opções de saída desta janela, o pesquisador pode escolher a mesma
área de trabalho do Excel, ou inserir tais resultados em uma nova planilha. Ainda
pode acionar opções como o intervalo de confiança para a média em níveis de
probabilidade, o resumo estatístico e os valores máximo e mínimo do conjunto, que
já são previstos no resumo estatístico.
A opção de estatística descritiva da planilha Excel permite ao pesquisador
agilizar procedimentos de cálculo, com vistas à realização de análises. Quando se
processa uma quantidade de argumentos reduzidos, como no exemplo em questão,
não se pode mensurar a importância desta opção, enquanto ferramenta de análise e
agilidade no processo. Entretanto, se os argumentos em estudo forem, por exemplo,
da ordem de 300 ou 1000, o cálculo do desvio padrão por exemplo, já demandaria
muito tempo para ser calculado manualmente ou com auxilio de uma calculadora
comum. Portanto, o Excel permite a realização da estatística descritiva de forma ágil
e rápida quando da realização de procedimentos estatísticos com vistas à realização
de análises e inferência.
22
FIGURA 6 – CAIXA DE DIÁLOGO ANÁLISE DE DADOS
Ao acionar a seqüência de comandos ao conjunto de dados 1, 3, 5, 6, e 8, o
resultado gerado pelo programa é dado como na tabela a seguir.
FUNÇÃO ESTATÍSTICA
Média
Erro padrão
Mediana
Moda
Desvio padrão
Variância da amostra
Curtose
Assimetria
Intervalo
Mínimo
Máximo
Soma
Contagem
Maior(1)
Menor(1)
Nível de confiança (95,0%)
RESUMO ESTATÍSTICO
4,6
1,208304597
5
#N/D
2,701851217
7,3
-0,681178457
-0,182523257
7
1
8
23
5
8
1
3,354798334
#N/D: notação do Excel que, neste caso, significa não existir o valor modal.
23
Note-se que a partir do resumo estatístico da tabela anterior, o pesquisador
poderá realizar a análise dos resultados sobre: relações, variabilidades, médias
quartis, entre outros, com vistas à interpretação e inferência.
EXERCÍCIO PROPOSTO
01 – Em um estudo que investiga as causas de morte entre pessoas com asma
severa, os dados foram registrados para dez pacientes que chegaram ao hospital
em estado de parada respiratória e inconscientes. A Tabela 1 lista os batimentos
cardíacos para estes pacientes na internação do hospital. Como podemos
caracterizar esse conjunto de observações?
Tabela 1: Batimentos cardíacos para dez pacientes asmáticos em estado
de parada respiratória
Paciente
1
2
3
4
5
6
7
8
9
10
Batimento Cardíaco
(min.)
167
150
125
120
150
150
40
136
120
150
a) Calcule a média. O que aconteceria com a média se o batimento do paciente 7
fosse removido do grupo? Há influência de uma simples observação não usual sobre
a média?
b) Calcule as medidas de tendência central (mediana, quartis) para todos os
pacientes observados.
c) Calcule as medidas de dispersão (desvio padrão, variância, coeficiente de
variação).
24
REFERÊNCIAS
MUCELIN, C. A. Estatística elementar e experimental aplicada às tecnologias.
Medianeira, PR, 2003.
VIEIRA, S. Elementos de estatística. 3.ed. São Paulo: Atlas, 1999.
STEVENSON; William J. Estatística Aplicada à Administração. Tradução da 2º
edição norte-americana. São Paulo:Harbra, 2001.
25
Download