ESTATÍSTICA

ESTATÍSTICA
MÓDULO 1 – INTRODUÇÃO À ESTATÍSTICA
1.1.Definição de Estatística
Quando estamos às vésperas de uma eleição, muitas pessoas ficam
ansiosas pelos resultados das chamadas pesquisas eleitorais, muitas vezes
decidindo seu voto a partir do resultado provável destas pesquisas.
Há sete anos a Rede Globo de Televisão coloca no ar um programa
chamado Big Brother Brasil, um jogo onde a cada semana dois participantes
são levados ao chamado “paredão” e uma delas é sempre eliminada. Os sites
da Internet, antes do resultado final de cada eliminação, fazem enquetes, ou
pesquisas, fazendo projeções de quem será o provável eliminado a partir da
votação dos internautas. Geralmente, estas projeções se confirmam.
Quando o IBGE (Instituto Brasileiro de Geografia e Estatística) informa
o valor da renda per capita no Brasil está noticiando ao país sua renda média
por habitante.
Todas estas informações só são possíveis dado a existência de uma
técnica que engloba os métodos científicos para a coleta, organização,
apresentação, tratamento e análise de dados, que possibilita não apenas a
formulação de conclusões válidas e importantes baseadas em tais análises,
como também a tomada de decisões a partir das mesmas. O objetivo da
Estatística é fazer com que dados dispersos se transformem em informação
valiosa.
Os gráficos acima são bastante ilustrativos da importância da
estatística como instrumento matemático para análises relevantes que
envolvem nosso dia-a-dia de cidadãos comuns. Estas informações foram
extraídas do relatório trimestral elaborado em dezembro de 2006 pelo BACEN
(Banco Central do Brasil), e mostram as variações das taxas de inflação tanto
levando em consideração os preços de atacado quanto os preços ao
consumidor do ano de 2005 e 2006. Estas informações, que nos afetam
diretamente, só foram possíveis graças a utilização dos instrumentos da
estatística. Estas informações e muitas outras estão disponíveis a todos. Daí a
importância de entendermos e dominarmos esta técnica.
1.2. UNIVERSO, POPULAÇÃO E AMOSTRA
Como dissemos acima, o objetivo da estatística é transformar dados
dispersos em informação valiosa a partir da qual se possa elaborar uma série
de análises e tomar diversas decisões. Mas poderíamos então nos perguntar:
onde e como obteríamos estes dados? Qual seria a base de coleta de dados
para uma determinada observação relevante?
Assim, denominamos universo ao conjunto de possíveis elementos a
serem observados e de onde obteríamos os dados. Por exemplo, o universo
dos macacos. Para alguns teóricos, universo e população se confundem.
Já a população seria um subconjunto do universo, na medida em que
se constitui de um grupo de objetos ou indivíduos com características comuns.
Podemos exemplificar com a população de mico-leão dourado, a população de
chipanzés, etc.
A amostra, por outro lado, diz respeito a uma parte representativa da
população que será examinada quando for impossível ou impraticável observar
todo o grupo representado pela população. Um bom exemplo seria observar
uma pequena amostra de macacos da espécie mico-leão dourado para
determinar seus hábitos e seu comportamento.
Mas como então coletar os dados seja em uma determinada população
ou em uma amostra definida?
Na estatística, a coleta de dados pode ser feita de forma direta ou
indireta. Quando o dado é obtido de uma fonte primária, ou seja, quando eu
colho a informação diretamente na fonte e produzo as informações a partir
disto, tem-se a forma direta. Isto é, quando entrevisto as pessoas para saber
qual o candidato de sua preferência em época de eleição. Apesar de utilizar a
amostragem (construo dados a partir de uma amostra), obtenho a informação
diretamente da fonte.
Se o dado é obtido através de uma fonte secundária, diz-se aí ter uma
fonte indireta. Podemos citar como exemplo de fonte indireta os gráficos de
evolução da inflação que utilizamos para ilustrar a importância da estatística.
Obtemos a informação no site do Banco Central, mas este por sua vez não é a
fonte da informação, este obteve a informação em parte da FGV (Fundação
Getúlio Vargas), em parte do IBGE, esses sim tendo produzido os dados de
inflação a partir de fontes diretas. A FGV e o IBGE são fontes indiretas para o
Banco Central, e o Banco Central é fonte indireta para nós. Mas a FGV e o
IBGE obtiveram os dados de fontes diretas.
EXEMPLO: Um conjunto de tutores desenvolveu uma técnica nova para a
aprendizagem à distância, na Faculdade Sigma, a qual, segundo dizem,
melhora a qualidade de aprendizagem relativamente ao método tradicional.
POPULAÇÃO: Conjunto de todos os alunos que entram para a Faculdade, sem
conhecer a aprendizagem à distância.
AMOSTRA: Conjunto de alunos de algumas Faculdades selecionadas para
este estudo. Os alunos foram separados em dois grupos para se aplicarem as
duas técnicas em confronto.
PROBLEMA: Estudo da amostra, decidir qual a técnica melhor.
MÓDULO 2 – OS RAMOS DA ESTATÍSTICA
Quando os números são utilizados para descrever fatos temos a
estatística descritiva. Esta parte da estatística procura organizar, resumir e
simplificar informações complexas, a fim de torná-las de mais fácil
entendimento, exposição e discussão. São exemplos de medidas da estatística
descritiva a taxa de desemprego, os índices de inflação, a quilometragem
média por litro de combustível, entre outros.
Se, por outro lado, não há a possibilidade da descrição de fatos pela
existência de circunstâncias ou experimentos que envolvam o acaso, faz-se
necessária a utilização da probabilidade, outro ramo da estatística útil para este
tipo de situação. Os jogos de azar, a maior parte dos jogos esportivos, a megasena, as decisões de marketing envolvem, em alguma medida, o acaso, e
portanto, a probabilidade.
Um outro ramo importante da estatística é a inferência, que se propõe
a analisar e a interpretar dados que são obtidos através de uma amostra. A
inferência ou amostragem tem como idéia básica extrair determinadas
informações de uma parcela pequena de uma população determinada, e a
partir disto fazer inferência sobre toda a população. Ou seja, a amostra deverá
necessariamente representar toda a população.
É preciso ter em mente que as três áreas da estatística não são
separadas ou distintas, mas tendem a se entrelaçar. A descrição e o resumo
dos dados tende a ser a primeira fase da análise destes dados, já a teoria e os
fundamentos da amostragem se baseiam na teoria da probabilidade.
2.1. DADOS ESTATÍSTICOS
Quando se trabalha com a observação, a mensuração, a análise e a
interpretação de números, esses números nos conduzirão à índices
inflacionários, índices de desemprego, probabilidade de determinado candidato
ganhar as eleições, etc. Estes números, portanto, serão designados dados
estatísticos. Esses dados precisarão ser organizados e sumarizados para sua
correta interpretação.
Ora, caso os dados ainda não foram numericamente organizados e
processados, eles podem se apresentar a nós com quase nenhum sentido.
Estes seriam os chamados dados brutos. É o processamento e organização
dos dados que os transforma em informação, enfatizando seus aspectos mais
importantes. A informação, portanto, é resultado de um tratamento dos dados.
Para organizar e processar os dados estatísticos podemos utilizar
resumos visuais e numéricos, através de gráficos, mapas, tabelas e modelos
numéricos.
A mensuração ou a observação de itens como índices de preços, renda
mensal per capita de um Estado, etc, dão origem aos dados estatísticos. Como
estes itens originam valores que tendem a apresentar um certo grau de
variabilidade quando são medidos sucessivas vezes são chamados de
variáveis.
É importante identificar quatro tipo de variáveis:
i.
Variáveis Contínuas: é a variável que pode assumir
qualquer valor num intervalo contínuo (dado contínuo).
Exemplos: altura, peso, velocidade, etc.
ii.
Variáveis Discretas: em geral originam-se da contagem de
itens e só podem assumir valores inteiros. Exemplos: número
de alunos em sala de aula, número de professores que
trabalham na escola, etc.
iii.
Variáveis Nominais: são aquelas que existem com o
objetivo de definir categorias, e as observações,
mensurações e análises são feitas levando-se em conta
estas mesmas categorias. Exemplos de categorias seriam a
separação por sexo, idade, nível de escolaridade, etc.
iv.
Variáveis por Posto: quando existe o desejo de dispor os
elementos observados segundo uma ordem de preferência
ou desempenho, atribui-se valores relativos atribuídos para
indicar esta ordem. Exemplo: primeiro, segundo, terceiro.
As variáveis discretas e contínuas são ditas variáveis quantitativas
porque envolvem dados eminentemente numéricos. Já as variáveis nominais e
por posto precisam ser transformadas em valores numéricos para serem objeto
da análise estatística, e são ditas variáveis qualitativas.
2.2. FORMAS INICIAIS DE TRATAMENTO DOS DADOS
Em geral, quando nos propomos a buscar construir informações a partir
de dados, nos deparamos inicialmente com um conjunto de dados brutos que
pouco nos dizem. É preciso organizá-los minimamente para que eles comecem
a fazer algum sentido, viabilizando sua análise.
Uma primeira forma de organização dos dados é o chamado Rol.
Obtemos o rol quando organizamos os dados brutos em ordem crescente ou
decrescente de grandeza. A amplitude do rol é obtida pela diferença entre o
maior e o menor número do rol. Utiliza-se o rol quando o conjunto de dados for
pequeno, ou seja, for inferior a 30 observações.
Por outro lado, quando se trata de um conjunto grande de dados, que
seja superior a 30 observações, utilizamos a distribuição de freqüências.
Consiste em organizar os dados brutos em classes, a fim de identificar o
número de itens pertencentes a cada classe, denominado freqüência de classe.
Os dados são assim organizados em intervalos de classes. Este assunto será
melhor pormenorizado no módulo II.
2.3. NOTAÇÃO POR ÍNDICES
A notação por índices é bastante utilizada na estatística, sendo assim
importante que esclareçamos seu significado. O símbolo xi (onde se lê “x índice
i”) irá representar qualquer um dos n valores assumidos pela variável x,
x1 , x 2, x3 , x 4 ,..., xn . “n” é denominada índice e poderá assumir qualquer dos
números entre 1, 2, 3, 4, ..., n.
2.4. NOTAÇÃO SIGMA (∑)
A maioria dos processos estatísticos vai exigir o cálculo da soma de um
conjunto de números. A letra maiúscula grega sigma (∑) é utilizada para
representar estas somas.
Assim, se uma determinada variável y tiver os valores 3, 5, 7, 9 e 11, o
∑y será:
∑y = 3+5+7+9+11
∑y = 35
Por outro lado, se o consumo semanal de arroz de x, durante um mês
foram 2kg,4kg, 3kg, 5kg, o total consumido por x no mês teria sido:
∑x = 2+4+3+5
∑x = 14, x teria consumido 14kg de arroz durante o mês referido.
A notação sigma possui algumas propriedades que precisamos
desenvolver, para facilitar os conteúdos a serem desenvolvidos posteriormente
nesta disciplina.
n
a)
i 1 x xi x , isto significa que devemos somar as n
observações de x, começando com a primeira.
Por exemplo, num conjunto de dados onde xi {2,4,6,8,10,12} , onde
n=6, teremos:
 x 
x 42
n
6
i
1
i
x 2 4 6 8 10 12
i 1 i
i
Por outro lado, é possível utilizar esta notação quando se pretende
analisar a soma de apenas uma parte dos dados disponibilizados, podendo-se,
portanto abreviar a soma de um conjunto de dados. Desta forma, podemos ter:
3
i) x1 x2 x3 i 1 x i
ii) x8 x9 x10 x11 i 8 xi
11
b) Se cada valor da variável x é multiplicado ou dividido por uma
constante, temos que isso será igual ao valor da constante multiplicado ou
dividido pela somatória de x.
c.x c.x
Assim,
4
4 x
i
i1
4x1 4 x2 4 x3 4 x4
4
4( x1 x2 x3 x 4 ) 4xi
i 1
Por exemplo:
se xi {2, 4,6,8,10,12} ;
onde n=6;
E cada valor de x é multiplicado pela constante c=2, temos:
cx c x
6
6
i1
i1
cxi c xi 2(2) 2(4) 2(6) 2(8) 2(10) 2(12) 2( 2 4 6 8 10 12)
6
2 x
i
i1
6
2xi 2(42) 84
i 1
c) O somatório de uma constante c será igual ao produto da constante
pelo número de vezes (n) que ela se repete. Assim, temos:
n
c
nc
i
ii
Por exemplo, se numa determinada observação o conjunto de dados
de xi {7,7,7,7,7,7} , onde n=6, temos que xi é uma constante c que se repete.
Então teremos:
xi ci
6
6
i1
i 1
xi ci nc 7 7 7 7 7 7 6(7) 42
d) O somatório de uma soma ou de uma diferença de duas variáveis
será igual à soma ou diferença dos somatórios individuais das duas variáveis.
Assim, teremos:
n
n
n
i1
i 1
i
1
n
n
n
i 1
i1
( xi yi ) x i yi
( x
i1
i
yi ) xi y i
Por exemplo:
i
X
Y
(X-Y)
1
8
5
3
2
3
2
1
3
4
0
4
4
5
4
1
-
-
-
-
∑
20
11
9
( x y ) 9
x y 20 11 9
e) O somatório de um conjunto de dados xi ao quadrado nos obriga a
elevar cada elemento de xi ao quadrado para efetuar a soma. Assim, teremos:
n
x
2
i
x12 x22 x32 ... x 2n
i1
Por exemplo, se numa dada observação o conjunto de dados de
xi {2,4,6,8,10} , onde n=5, teremos:
5
x
2
i
22 42 6 2 8 2 10 2 4 16 36 64 100 220
i1
f) O somatório ao quadrado de um conjunto de dados será obtido
pegando-se a soma dos valores de xi e elevando-se ao quadrado. Assim,
teremos:
n
(xi ) ( x1 x2 x3 ... xn )
2
2
i1
Por exemplo, se temos um mesmo conjunto xi {2, 4,6,8,10} , onde n=5,
tal qual no exemplo do item e, teremos um resultado distinto. Senão vejamos:
5
(xi ) ( 2 4 6 8 10) (30) 900
2
i1
2
2
MÓDULO 3 – MEDIDAS DE TENDÊNCIA CENTRAL
Quando estamos diante de um conjunto de dados, seja ele pequeno ou
grande, em geral buscamos medidas que possam ser usadas para indicar um
valor que tende a representar melhor aquele determinado conjunto de
números. E as medidas mais usadas neste sentido são as chamadas medidas
de tendência eventual, ou central, quais sejam: a média, a mediana e a moda.
É preciso ter em mente que estes valores serão medidos de forma
distinta conforme tenhamos um grande conjunto de dados ou um pequeno
conjunto de dados. Também o cálculo destes valores irá ser afetado caso as
variáveis sejam discretas ou contínuas.
Neste módulo trataremos do cálculo destas estatísticas para pequenos
conjuntos de dados, que envolvam apenas o tratamento dos dados em um rol.
A MÉDIA ARITMÉTICA SIMPLES (, x)
3.1.
A média aritmética é um dos valores mais representativos de um
conjunto de dados, e para alguns autores em estatística, a média seria a
medida mais importante a ser estudada nesta disciplina. Obtém-se o valor da
média aritmética dividindo-se o somatório dos valores do conjunto de dados
pelo número de valores total deste conjunto.
Assim, temos que:
n
x
média i 1
n
i
Para a população, calcula-se a média aritmética utilizando os seguintes
parâmetros:
N
Xi
i i , onde
N
 média aritmética da população (parâmetro)
N  Total de observações da população (total da
população)
X I  Cada variável populacional
Para a amostra, calcula-se o valor médio utilizando-se os seguintes
parâmetros:
n
x
i
x i 1 , onde
n
x  média aritmética da amostra (estimativa)
n  número de dados da amostra
xi  cada variável da amostra
É preciso ter em mente, que embora estejamos destacando uma
diferença na notação utilizada para o cálculo da média aritmética em uma
amostra e numa população, a expressão para o cálculo da média é A MESMA
tanto no cálculo da média de uma população quanto de uma amostra. Mas era
importante colocar o aluno a par de todas as notações utilizadas em estatística,
principalmente se houver interesse de maior aprofundamento no assunto.
Vamos agora tomar um exemplo de média aritmética. Supondo um
conjunto de dados xi {2,4,6,8,10,12} , onde N=6, teremos:
N
X

i
1
N
i
2 4 6 8 10 12

7
6
Para simplificar o nosso estudo, padronizaremos a notação para o
cálculo da média, e passaremos a utilizar sempre a notação utilizada para o
cálculo da média aritmética simples em conjuntos de dados amostrais, tal qual
o exemplo abaixo.
Tomemos uma amostra das notas das provas de matemática dos
estudantes da sétima série de uma grande escola de São Paulo xi , onde
xi {87, 42,64,58,90,90,85,63,47,74,100,94} e n=12, então teremos:
n
x
x i 1
n
i
87 42 64 58 90 90 85 63 47 74 100 94

74,5
12
A nota média na prova de matemática dos estudantes da sétima série
desta escola de São Paulo, por amostragem, é 74,5.
São as propriedades que a média aritmética simples possui que a
fazem a medida de tendência central mais usada e mais importante de todas.
São elas:
a)
Em um conjunto de dados, é sempre possível o cálculo da
média, independentemente de quais os elementos que
compõem esse conjunto de dados.
b)
Em um determinado conjunto de dados o valor da média
será único, e corresponderá a uma constante.
Todos os valores de um determinado conjunto de dados irão
afetar a média. Se um valor se modifica, a média aritmética
também irá modificar-se.
Somando-se ou subtraindo-se uma determinada constante c
a cada elemento de um determinado conjunto de dados
xi x1 , x 2 , x3 ,..., x n , a média aritmética ficará aumentada ou
diminuída desta constante c. Se, por outro lado,
multiplicarmos cada elemento deste conjunto de dados por
uma constante c, a nova média será também multiplicada
por esta constante c; se dividirmos cada elemento do
conjunto de dados por esta mesma constante c, a média
será dividida por c.
c)
d)
Assim, se temos um conjunto xi x1 , x 2 , x2 ,..., xn , a média será:
n
x
1
x1 i 1 , logo
n
n
n
(c xi )
xi


nc
i 1
i1
x2 
 x2 
  x2 x1 c
n
n
n
e)
A soma algébrica dos desvios dos números de um conjunto
de dados em torno da média é zero. Isto pode ser
representado da seguinte forma:
x
i
x 0
Por exemplo, se temos um conjunto de dados xi 2,4,6,8,10 , onde n=5,
teremos que :
5
x
x i 1
5
i
2 4 6 8 10

6 ,
5
Se aplicarmos a fórmula acima, teremos:
x x x 6 (2 6) (4 6) (6 6) (8 6) (10 6)
x x 4 2 0 2 4
x x 0
i
i
i
i
3.2.
A MÉDIA ARITMÉTICA PONDERADA
Num conjunto de dados onde cada elemento, ou cada observação
possua a mesma importância, o cálculo da média aritmética simples será
bastante representativo da população ou da amostra estudada. No entanto, se
desejo atribuir pesos distintos ou importâncias distintas aos elementos de um
conjunto de dados, a estatística a ser adotada é a média aritmética ponderada,
onde a cada valor xi deverá ser atribuído um determinado peso wi . A
expressão estatística para o cálculo da média ponderada é:
n
w x
x p i 1n
i i
w
i
1
i
Suponhamos que um estudante tenha que efetuar uma série de 4
exames para obter sua média final para passar de ano. No entanto, cada
exame possui um peso diferente na composição desta média, conforme a
tabela abaixo:
Exame
1
2
3
4
Nota
68
89
45
100
Peso
0,30
0,20
0,40
0,10
1,00
n
w x
x p i 1n
i
i
w
i1
, logo
i
(0,30)68 ( 0,20)89 (0,40) 45 0,10(100)
xp 
0,30 0,20 0,40 0,10
x p 20,4 17,8 18 10 66,2
A nota média será então 66,2, resultado diferente do que seria obtido se
utilizássemos a média aritmética simples.
MÓDULO 4 – MEDIANA E MODA EM UM ROL
Neste módulo continuaremos trabalhando com as medidas de
tendência central chamadas de mediana e moda, que envolvam apenas o
tratamento dos dados em um rol.
4.1.
A MEDIANA
Uma outra medida importante de um conjunto de dados é a mediana.
Ela divide um determinado conjunto de dados, que deverá estar ordenado, em
dois grupos iguais, onde metade terá valores menores que a mediana e
metade terá valores maiores que a mediana.
Antes de calcular a mediana, é preciso organizar os valores em um rol
em ordem crescente, para então contar até a metade dos valores para
encontrar a mediana. Em geral, após organizarmos os dados em um rol,
podemos calcular a posição da mediana com a fórmula abaixo:
(n 1)
posmed 
,
2
onde n é o número de dados observados.
Por exemplo, para um conjunto de dados xi {6,9,3,5,2,9,5,5,8,7,1,7, 2} ,
onde n 13 , teremos primeiro que organizar estes dados em um rol, e depois
encontrar a posição da mediana e então saber qual será a mediana. Senão
vejamos:
rolxi {1,2,2,3,5,5,5,6,7,7,8,9,9}
( n 1) 13 1
posiçãomediana 

7
2
2
mediana 5
Para determinar a mediana:
 Organize o conjunto de dados em um rol;
 Para um conjunto de dados cujo n=ímpar, a mediana será o valor do
meio
 Para um conjunto de dados cujo n=par, a mediana será a média dos
dois valores do meio.
Para um conjunto de dados xi {6,4,,8,3,2,9,7,1} ,onde n=8, teremos
então:
rolxi {1,2,3,4,6,7,8,9}
( n 1) 8 1
posiçãomediana 

4,5
2
2
A mediana será o valor que está a meio caminho dos dois valores
médios, neste caso, que está entre 4 e 6. Como faremos? Deveremos tirar a
média entre os dois valores do meio para obter o valor da mediana. Assim,
teremos:
4 6
mediana 
5
2
4.2.
A MODA
Muitas vezes, em um conjunto de dados, existem valores que se
repetem com uma freqüência maior. A moda é justamente este valor ou estes
valores que mais se repetem em um conjunto de dados. É possível haver
estatísticas que não possuam moda ou que possuam mais de uma moda.
No exemplo que demos acima, para um conjunto de dados
xi {1,2,3,4,6,7,8,9} , não existe moda e diz-se que a o conjunto ou distribuição é
amodal.
A moda é uma estatística muito mais descritiva, e sua importância
cresce na medida em que um valor ou grupo de valores se repete mais que
outros, e neste sentido a moda indicaria o valor “típico” daquele conjunto de
dados em termos de maior ocorrência. No entanto, se compararmos com a
média e a mediana, por não ser útil à análise matemática, a moda é muito
menos útil para a estatística.
Por exemplo, o conjunto de dados xi {2,2,7,9,9,9,10,10,11,12,18} tem moda igual
a 9, porque o número 9 é aquele com maior freqüência, se repetindo três
vezes.