Noção de variável estatística

Propaganda
1
TIAE, Aula 2, 18 Fev. 2004
Pedro Cosme da Costa Vieira
[email protected]
Noção de variável estatística
É uma simplificação para ser possível descrever o indivíduo
Podemos ter uma ou muitas variáveis estatísticas
Exemplo de variáveis estatísticas na descrição de uma pessoa
Quantidades (variáveis cardinais):
Altura, peso, idade
Qualidades com escala:
Cor do cabelo (preto/ castanho/ c. claro/ loiro/ branco)
(1, 2, 3, 4, 5)
Qualidades sem escala:
Binárias: (“Ter o nariz torto”, “não ter o nariz torto”)
Outras: (verde, vermelho, azul, branco, preto, castanho, outra)
Noção de Amostra
É um grupo limitado de indivíduos pertencentes a uma população
Tem por fim inferir as propriedades da população (descrever)
Existem regras na escolha dos indivíduos que sai fora do âmbito desta disciplina
Escolha aleatória
Frequências absolutas / relativas, p.183-195
Variáveis qualitativas
Considerando primeiro variáveis qualitativas (qualidades com ou sem escala)
uma maneira de descrever a população é quantificar quantos indivíduos há em cada
classe. No exemplo do cabelo, poderíamos caracterizar os portugueses dizendo que 1
milhão tem cabelo preto, 5 milhões têm cabelo castanho, 3 milhões têm cabelo castanho
claro, 1 milhão tem cabelo louro e 1 milhão tem cabelo branco.
A frequência absoluta é pouco prática para podermos comparar populações. Se
quisermos comparar os portugueses com os suecos, seria mais apelativo utilizar a
frequência relativa:
Enquanto que em Portugal, 10% tem cabelo preto, 50% tem cabelo castanho,
30% tem cabelo castanho claro, 10% tem cabelo louro e 10% tem cabelo branco, na
Suécia, 1% tem cabelo preto, 15% tem cabelo castanho, 25% tem cabelo castanho claro,
45% tem cabelo louro e 14% tem cabelo branco.
Sendo que é escolhidos (de forma aleatória) uma amostra de 100 portugueses,
será de prever que a proporção de indivíduos com cabelo preto será próxima de 10%
mas que não seja exactamente esse valor. A Estatística, ciência, permite relacionar a
amostra com a população. Por exemplo, quanto maior dimensão tiver a amostra, mais
próxima dos 10 % de cabelos pretos deve esta estar.
Variáveis quantitativas (cardinais)
Tem que se fazer previamente uma divisão em intervalos:
Dados agrupados em intervalos, p. 187
A principal razão para se fazer a divisão em classes é que cada indivíduo per si
não tem grande relevância na descrição da população de que faz parte. Imaginemos que
temos uma amostra com 10 portugueses em que um tem 1.85 m. Incorremos num
grande erro se afirmarmos que 10% dos portugueses medem exactamente 1.85m. No
2
entanto, se dividirmos a altura em dois intervalos, ]0, 1.75] e ]1.75, 3.00] e se o primeiro
grupo tiver 7 indivíduos, já podemos afirmar com “confiança” que em Portugal a
maioria das pessoas mede menos que 1.75 metros (à volta de 70%).
A divisão da variável contínua em intervalos é subjectiva, podendo ser regular
ou não, p.189. No entanto, e saindo do programa da disciplina, a Estatística fornecesse
regras para uma boa divisão (por exemplo, é aconselhável que na maioria das classes
haja pelo menos 5% dos indivíduos)
Frequência acumulada
Aplica-se apenas a variáveis comparáveis (quantidades cardinais ou qualidades
comparáveis). O conceito aplica-se tanto a frequências absolutas como relativas.
Quantifica a percentagem de indivíduos em que a variável estatística assume um
valor menor ou igual à abcissa associada.
No exemplo das alturas dos indivíduos, F(1.80) = 93.5% traduz que 93.5% dos
indivíduos tem uma altura menor ou igual a 1.80 metros.
O gráfico vai ser em escadas.
Neste caso não há necessidade de se fazer a divisão em classes.
Existem três valores notáveis para a abcissa que se denominam por quartis (25%
é o 1º quartil, 50% é o 2º quartil e 75% é o 3º quartil). O quartil 50% também é
denominado por “Mediana” (porque divide a amostra/população ao meio).
Exercício
Pretende-se comparar o desenvolvimento económico mundial entre os anos de
1990 e de 2000.
Dados: Rendimento per capita em dólares americanos, paridade do poder de
compra, a preços constantes de 1995 de 173 países (de um total de 226) para os anos de
1990 e 2000.
Foram retirados os países sobre os quais não havia dados disponíveis num ou no
outro ano.(Abrir o ficheiro Excel e gravá-lo em U)
http://www.fep.up.pt/docentes/pcosme/TIAE/Aula2.xls
Por razões diversas, nunca será possível saber qual é exactamente o valor do
rendimento per capita, paridade do poder de compra, a dólares americanos constantes de
1995. Por exemplo, notar que uma componente importante da economia é “informal”,
transaccionada, ou não, no mercado “negro”. Assim sendo, mesmo que a base de dados
do Banco Mundial tivesse dados dos 226 países existentes, não podíamos afirmar que
conhecíamos perfeitamente o desenvolvimento económico mundial.
Motivado pela existência de erros de medida, pela contínua entrada (por
nascimento) e saída (por morte) de indivíduos, ou outras razões, em termos abstractos,
nunca será impossível conhece perfeitamente as características de uma população.
Assim sendo, em termos epistemológicos, o nosso conhecimento é sempre assumido
como uma “estimativa”, com maior ou menor erro, das verdadeiras características da
população.
Download