DEFINIÇÕES, CONCEITOS E SÍMBOLOS– Introdução à estatística

Propaganda
DEFINIÇÕES, CONCEITOS E SÍMBOLOS– Introdução à estatística
Para uso exclusivo em sala de aula
Preparado pelo Prof. A. Sales em 2008 e revisto em 2013
Nesta aula teremos algumas definições. Estudaremos o significado de alguns termos que
estaremos usando no decorrer do ano.
DADOS BRUTOS
São chamados de dados brutos os dados de uma série estatística antes da sua organização.
ROL.
Uma vez organizados em ordem crescente ou decrescente os dados estatísticos recebem o
nome de ROL. Esta é a primeira providência que se deve tomar ao deparar com os dados
brutos.
VARIÁVEIS
É o conjunto de resultados possíveis de um fenômeno.
Exemplos:
1. Numa pesquisa em que se deseja obter informações sobre o fenômeno “sexo”, os
resultados possíveis são: sexo masculino e sexo feminino. São duas as variáveis
possíveis: Masculino e Feminino
2. Numa pesquisa onde se deseja obter informações relativas à cor das pessoas, as
varáveis possíveis são: negra, branca, amarela, morena, etc.
3. Quando se deseja trabalhar com o fenômeno altura as variáveis são expressas em
números, da mesma forma que a quantidade de pessoas, de filhos, de alunos, etc.
VARIÁVEIS QUALITATIVAS E QUANTITATIVAS
Essa classificação não depende do assunto que está sendo tratado, mas do caráter da
variável em si.
Quando os valores de uma variável são expressos por atributos como sexo, cor, sim e não,
nome de lugar, estado civil, etc., denomina-se variável qualitativa. A variável é classificada
como quantitativa quando é expressa por um número. Variáveis quantitativas medem
quantidades. Variáveis qualitativas medem qualidades
Obs. Eventualmente uma variável qualitativa pode ser expressa por números, como no caso
de se marcar nº 1 para sexo masculino e 2 para sexo feminino. Ainda assim, a variável é
qualitativa.
Quando os dados estão organizados em uma distribuição de frequência (tabela) a variável é
indicada por x ou por xi, onde i indica a classe em que se encontra. Por exemplo: x1, x2, ...
indicam a variável da primeira classe, variável da segunda classe, e assim por diante.
AS VARIÁVEIS QUALITATIVAS PODEM SER NOMINAIS OU ORDINAIS
Uma variável qualitativa é ordinal quando está relacionada a tamanho (pequeno, médio,
grande), níveis de estudo ( fundamental, médio, superior), grau de severidade de uma
doença, classe social, etc., quando estabelece uma certa ordem de importância entre os
elementos. É variável qualitativa nominal quando não é possível estabelecer uma ordem
entre seus valores. São nominais as variáveis: sexo ou gênero, sim e não, indicação de
localidade, cor, etnia, indicação de turmas ( A, B, C,...), grupos sanguíneos, e tantas
outras.
Uma variável nominal pode ser dicotômica. É quando assume somente dois valores, como
sim ou não, exame positivo ou negativo, etc. Seu uso é muito comum em Bioestatística.
AS VARIÁVEIS QUANTITATIVAS PODEM SER DISCRETAS OU CONTÍNUAS.
São variáveis quantitativas discretas as que são expressas por um número sempre inteiro de
vezes e, de forma geral, uma quantidade finita de vezes. Exemplos: número de filhos,
número de crises de asma, número de vezes em que um fenômeno ocorreu, quantidade de
peças de roupa. É tudo que pode ser contado.
Constituem variáveis quantitativas contínuas tudo o que pode ser medido, como o peso e a
altura, volume de sangue, saliva em ml/min, pressão arterial, etc.
CLASSIFICAÇÃO DAS VARIÁVEIS
Quantitativa
Variáveis
Contínua
Discreta
Nominal
Qualitativa
(Dicotômica
ou não.)
Ordinal
POPULAÇÃO E AMOSTRA
População, em estatística, é um conceito abstrato e tem sentido mais amplo do que aquele
que tem em geografia. População aqui é o conjunto de seres ou de observações. Pode se
referir a pessoas, animais ou coisas.
Amostra é um subconjunto finito da população. É uma parte selecionada de acordo com
uma regra ou plano. A amostra pode ser probabilística e não-probabilística. Amostras nãoprobabilísticas podem ser:
amostras acidentais: compostas por acaso, com pessoas que vão aparecendo;
amostras por quotas: diversos elementos constantes da população/universo, na mesma
proporção;
amostras intencionais: escolhidos casos para a amostra que representem o “bom
julgamento” da população/ universo.
Amostras probabilísticas são obtidas por sorteio e podem ser:
amostras casuais (aleatórias) simples: cada elemento da população tem oportunidade
igual de ser incluído na amostra;
amostras casuais (aleatórias) estratificadas: cada estrato, definido previamente, estará
representado na amostra;
amostras por agrupamento: reunião de amostras representativas de uma população.
10
Para definição das amostras probabilísticas recomenda-se a aplicação de técnicas
estatísticas.
PROCESSOS DE AMOSTRAGEM
Amostra de conveniência. É aquela que se determina sem recorrer a um tratamento
probabilístico. Quando somente se tem acesso a informações decorrentes de um único local
sem possibilidade de se recorrer a outras informações. É uma amostragem não
probabilística e não permite fazer inferência de aplicação geral.
Amostragem aleatória simples. É aquela em que se efetua uma relação completa dos
elementos envolvido e sorteia-se uma amostra entre eles. É do tipo probabilístico.
Amostragem proporcional estratificada. Ocorre quando a população está, dividida em
subpopulações (estratos). Usa-se o recurso da regra de três para determinar a quantidade de
elementos de cada estrato e, daí para a frente, procede-se como na amostragem simples.
Amostragem sistemática. Ocorre quando a população está devidamente ordenada e já se
tem determinado o tamanho da amostra. Divide-se a população pela amostra, obtendo um
número n. Em seguida escolhe-se, por sorteio, o número do elemento que seria o primeiro
da relação. Daí para frente será escolhido cada n-ésimo elemento da relação.
Exemplo:
Se tivermos 80 elementos e queremos uma amostra de 20, fazemos 80/20=4.
Em seguida, sorteamos um número entre 1,2,3 e 4.
Suponha que o número sorteado tenha sido o 3.
Nesse caso, começamos pelo 3º elemento da sequência e os próximos serão: 7º, 11º, etc.
População (ou universo da pesquisa) é a totalidade de indivíduos que possuem as mesmas
características definidas para um determinado estudo.
SOMATÓRIO
A letra grega sigma () é usada para indicar a soma de uma série de valores. fi é o
somatório das frequências simples que também pode ser substituído por n ou N. O N (
maiúsculo) indica o total ou fi da população enquanto o n (minúsculo) indica o total ou
fi da amostra.
MEDIDAS ESTATÍSTICAS
As medidas estatísticas estão classificadas em medidas de posição e medidas de dispersão.
As medidas de posição são a média, a moda, a mediana, os quartis, os decis e os percentis.
As medidas de dispersão são o desvio médio, o desvio padrão, a variância, o coeficiente
de variação, etc. Por enquanto estudaremos apenas as medidas de posição que tendem a
estar no centro quando a sequência está ordenada (em ordem crescente ou decrescente).
São chamadas de medidas de tendência central.
MEDIDAS DE TENDÊNCIA CENTRAL
_
MÉDIA ( x ) ( x com um traço em cima)
É a soma dos valores dividido pelo número deles.
Quando os dados estão organizados em uma tabela de frequência então a média é obtida
k
n x
fazendo
(n1x1+n2x2+...+nkxk)/(n1+n2+...+nk) ou
i 1
i i
n
A média, por ser um valor não necessariamente real, pode ser representada por um número
fracionário mesmo quando se trata de variável discreta. Por exemplo, podemos falar em
11
uma média de duas pessoas e meia, mas não podemos falar que encontramos duas pessoas
e meia. A média é um valor simbólico e por essa razão admite frações.
~
MEDIANA ( x ) (x com um til) é o termo que divide os dados de uma série numérica em
duas partes iguais, ou seja, 50% por cento dos dados estão abaixo da mediana e 50% estão
acima da mediana.
O cálculo da mediana requer, primeiramente, que os dados estejam ordenados de forma
crescente ou decrescente de valor.
Temos dois casos a considerar:
1. O número de dados é ímpar:
n 1
Neste caso, a mediana é dada pela posição do termo de ordem
2
2. Número de dados é par:
n
Determina-se o termo de ordem
e, em seguida, calcula-se a média aritmética entre
2
esse termo e o termo seguinte
A mediana pode ser um número que não faz parte da sequência. Exemplo: na
sequência, 5,7,8 e 9 a mediana é 7,5.
^
MODA ( x ) ( x com acento circunflexo) é o termo de uma série estatística que ocorre com
maior frequência.
A moda pode não existir como também pode não ser única.
Se a série não tiver moda será amodal.
Se tiver uma moda será unimodal.
Se tiver duas modas será bimodal.
Se tiver três modas será trimodal.
E, se tiver muitas modas, será multimodal
Exemplos. Nas sequências abaixo determinar, média, a moda e a mediana:
Sequência (1): 5,5,6,7,7,7,8,8,9,9,10,10,10,11,11,11,12,13,13
Sequência (2): 6,7, 8,8,9,9,9,9,10,10,10,11,11,11,12,13
Com relação à sequência (1), tem-se
172
Media:
=9,05  9
19
Mediana: 9
Modas: 7, 10 e 11
Com relação à sequência (2), tem-se:
154
Média:
 9,56  9,6
16
Moda: 9
9  10
Mediana:
 9,5
2
CLASSIFICAÇÃO DE UMA SÉRIE ESTATÍSTICA:
1. Se média=mediana=moda, então é simétrica ou normal.
2. Se média< mediana< moda, a série é assimétrica negativa
3. Se média>mediana>moda, a série é assimétrica positiva.
AMOSTRAGEM PROPORCIONAL ESTRATIFICADA
12
Vamos voltar um pouco a esse assunto para detalhar o procedimento.
Ocorre quando a população se subdivide em estratos.
Vamos imaginar que na sala de aula haja 60 alunos, sendo 25 do sexo masculino e 35 do
sexo feminino e queremos uma amostra estratificada de 15 deles. Queremos que mulheres
e homens sejam igualmente representados, isto é, tenham uma representação proporcional
à sua quantidade.
Para isso usamos uma regra de três, como segue:
Nº de pessoas 60
Mulheres
35
15 Amostra
x
60x = 35.15
60x=525
x=525/60
x= 8,75  9
Logo, participarão da pesquisa 9 mulheres e 6 homens (9+6=15).
Exercício:
Imaginemos que um profissional de saúde esteja interessado em saber a incidência de uma
determinada patologia em pessoas de três etnias distintas: brancos, negros e índios. O
fichário da clínica consta de 500 fichas de pacientes atendidos e, uma vez separadas,
constatou-se que 200 eram de brancos, 180 de negros e 120 de índios. Se o pesquisador
deseja uma amostra de 80 fichas quantas devem ser de: a) brancos? b) negros? c) índios?
Resp. a) 32 b) 29 c) 19
O princípio que usamos para o cálculo de uma amostra estratificada chama-se regra de três
simples. Ele consiste simplesmente em achar o valor de uma quarta grandeza a partir de
três outras que são conhecidas.
MAIS OBSERVAÇÕES SOBRE ARREDONDAMENTOS
É possível ter, em média, 5,6 pessoas, mas é impossível encontrar 5,6 pessoas vivendo em
realidade. Como já foi dito, média é um valor simbólico. De igual modo a porcentagem
pode ser fracionária mesmo quando se trata de variável discreta porque também é um valor
simbólico. Quando dizemos “7,8% das pessoas” não significa que, obrigatoriamente,
haviam 100 pessoas e 7,8 delas se apresentavam com tal característica. Se num grupo de
30 pessoas tivermos 4 com determinada característica dizemos que, se fossem cem
pessoas, então 13,3% teriam aquela característica.
ERRO AMOSTRAL
Toda amostragem é obtida pensando-se em ter uma representatividade confiável da
população. Porém nem sempre esse objetivo é alcançado e é possível que ocorra o
chamado erro amostral. Esse erro, no entanto, pode ser, pelo menos teoricamente, previsto
e veremos mais tarde como se dá esse procedimento.
CÁLCULO DA MÉDIA COM DADOS AGRUPADOS
Seja a sequência: 5,6,5,8,8,7,2,3,4,3,3,5,6,9,10,2,10,1,1,3
Primeiro fazemos o rol: 1,1,2,2,3,3,3,3, 4, 5,5,5,6,6,7,8,8, 9,10,10
Modo (1): Podemos determinar a média fazendo:
2 x1  2 x2  4 x3  1x4  3x5  2 x6  1x7  2 x8  1x9  2 x10 101

 5,05  5,0
2  2  4 1 3  2 1 2 1 2
20
Modo (2): Podemos também montar o seguinte quadro, que facilitará o trabalho posterior:
13
i
1
2
3
4
5
6
7
8
9
10
A média é=
 fixi
n

xi
1
2
3
4
5
6
7
8
9
10
fi
2
2
4
1
3
2
1
2
1
2
n=fi=20
fixi
2
4
12
4
15
12
7
16
9
20
fixi=101
101
 5,05  5,0
20
DETERMINAÇÂO DA MEDIANA E DA MODA COM DADOS AGRUPADOS
Exemplos. Nas sequências abaixo determinar a moda e a mediana:
Sequência (1): 5,5,6,7,7,7,8,8,9,9,10,10,10,11,11,11,12,13,13
Sequência (2): 6,7, 8,8,9,9,9,9,10,10,10,11,11,11,12,13
Construindo uma distribuição de frequência da sequência (1), vê-se que há três classes
modais (classes: 3, 6 e 7 cujas variáveis são 7, 10 e 11, respectivamente) e, como
 fi  1  n  1  19  1  20  10 , a mediana é o 10º elemento que, consultando a coluna
2
2
2
2
Fi, percebemos estar na 5ª classe, isto é, 9.
i
1
2
3
4
5
6
7
8
9
xi
5
6
7
8
9
10
11
12
13
fi
2
1
3
2
2
3
3
1
2
19
Fi
2
3
6
8
10
13
16
17
19
fixi
10
6
21
16
18
30
33
12
26
172
Com relação à sequência (2), tem-se:
Construindo uma distribuição de frequência da sequência (2), vê-se que a classe modal é
 fi  n  16  8 , a
única e é a 4ª, com a variável 9 e, como  fi é par, fazendo
2
2 2
mediana é o último elemento da 4ª classe e, nesse caso acha-se o média aritmética entre 9 e
10.
i xi
1 6
2 7
fi
1
1
Fi
1
2
fixi
6
7
14
3
4
5
6
7
8
8
9
10
11
12
13
2
4
3
3
1
1
16
4
8
11
14
15
16
16
36
30
33
12
13
153
OBSERVAÇÕES
1. Regra de três é o nome dado a uma regra matemática usada para determinar um quarto
elemento a partir de 3 elementos dados. A regra é válida quando há uma relação de
proporcionalidade (direta ou inversa entre os elementos do problema). Logo, a regra de 3
se baseia no princípio da proporcionalidade.
2. No cálculo da média pelo modo (2): 1) o fato de os valores das duas primeiras colunas
serem iguais foi mera coincidência, 2)observe que criamos a coluna fixi que nada mais é
do que produto da frequência (ou peso) pela variável e substitui o numerador no modo(1).
3.A moda é uma medida pouco usada, embora tenha também a sua utilidade. Um exemplo
da utilidade da moda:
Suponha que no Posto de Saúde de certa cidade comecem aparecer casos de dengue
provenientes de diversos bairros. Suponha ainda que a tabulação dos dados nos forneça o
seguinte quadro:
Bairros
fi
Capinzal
1
Centro
1
Denguito
3
Barro puro
1
Poça Dágua
2
fi = 8
a) Por qual bairro a equipe de combate ao mosquito deve começar, ou intensificar, o
trabalho?
b) Qual deverá ser o segundo bairro a ser atendido?
c) É possível que nos outros três bairros não haja infestação de mosquitos?
PARA PENSAR:
1. Qual a medida que os patrões preferem tomar por base na hora de discutir plano
salarial com os seus empregados? A moda.
2. Sejam os problemas:
Se um pesquisador social resolve pesquisar
A) a massa corporal (peso) do acadêmicos desta sala
B) o estado civil dos acadêmicos desta sala
C) a localidade onde moram os acadêmicos desta sala
D) a classe social a qual pertencem os acadêmicos
E) as cores de roupa mais frequentemente usadas pelos acadêmicos
F) número de membros das famílias dos acadêmicos
G) as etnias as quais pertencem os acadêmicos
Agora tente responder as seguintes perguntas para cada um deles:
a) Qual a variável?
b) Como se expressa (ou indica) essa variável? c) Como ela
deve ser classificada?
Para maiores informações veja:
15
CRESPO, Antonio Arnot. Estatística Fácil. 18.ed. São Paulo: Saraiva, 2005
MAGALHÃES, Marcos N., LIMA, A.C.P. Noções de Probabilidade e Estatística. 5.ed.
São Paulo: EDUSP, 2002.
MENEGHEL, Stela Nazareth (org.) Cadernos de exercícios de epidemiologia.
Canoas,RS: Ed. ULBRA, 2002.
NAZARETH, Helenalda Resende de Souza. Curso básico de estatística. 12. ed. São
Paulo: Ática, 2003.
SILVA, Edna Lúcia da; MENEZES , Estera Muszkat. Metodologia da pesquisa e
elaboração de dissertação. 3. ed. rev. atual. Florianópolis: Laboratório de Ensino a
Distância da UFSC, 2001.
Respostas (Para pensar):
1.a moda
2. A) a) massa corporal b) em valores numéricos c) quantitativa contínua
B) a) estado civil b) casado(a), solt, viúvo(a), divorciado(a), separado(a) judic., união
estável, outros. c) qualitativa nominal
C) a) localidade onde moram, b) nome do bairro ou cidade, c) qualitativa nominal
D) a) classe social b) A,B,C,D,E c) qualitativa ordinal
E) a)cores b) verde, amarela, branca, etc. c) qualitativa nominal
F) a) nº de membros ( tamanho da família), b) 1,2,3,4,5,... ( pequena, média, grande) c)
quantitativa discreta ( qualitativa ordinal).
G) a) etnia b) branco, negro, índio, etc ( ou eurodescendente, afrodescendente, sulamericano, etc) c) qualitativa nominal
16
Download