1 TIAE, Aula 2, 18 Fev. 2004 Pedro Cosme da Costa Vieira [email protected] Noção de variável estatística É uma simplificação para ser possível descrever o indivíduo Podemos ter uma ou muitas variáveis estatísticas Exemplo de variáveis estatísticas na descrição de uma pessoa Quantidades (variáveis cardinais): Altura, peso, idade Qualidades com escala: Cor do cabelo (preto/ castanho/ c. claro/ loiro/ branco) (1, 2, 3, 4, 5) Qualidades sem escala: Binárias: (“Ter o nariz torto”, “não ter o nariz torto”) Outras: (verde, vermelho, azul, branco, preto, castanho, outra) Noção de Amostra É um grupo limitado de indivíduos pertencentes a uma população Tem por fim inferir as propriedades da população (descrever) Existem regras na escolha dos indivíduos que sai fora do âmbito desta disciplina Escolha aleatória Frequências absolutas / relativas, p.183-195 Variáveis qualitativas Considerando primeiro variáveis qualitativas (qualidades com ou sem escala) uma maneira de descrever a população é quantificar quantos indivíduos há em cada classe. No exemplo do cabelo, poderíamos caracterizar os portugueses dizendo que 1 milhão tem cabelo preto, 5 milhões têm cabelo castanho, 3 milhões têm cabelo castanho claro, 1 milhão tem cabelo louro e 1 milhão tem cabelo branco. A frequência absoluta é pouco prática para podermos comparar populações. Se quisermos comparar os portugueses com os suecos, seria mais apelativo utilizar a frequência relativa: Enquanto que em Portugal, 10% tem cabelo preto, 50% tem cabelo castanho, 30% tem cabelo castanho claro, 10% tem cabelo louro e 10% tem cabelo branco, na Suécia, 1% tem cabelo preto, 15% tem cabelo castanho, 25% tem cabelo castanho claro, 45% tem cabelo louro e 14% tem cabelo branco. Sendo que é escolhidos (de forma aleatória) uma amostra de 100 portugueses, será de prever que a proporção de indivíduos com cabelo preto será próxima de 10% mas que não seja exactamente esse valor. A Estatística, ciência, permite relacionar a amostra com a população. Por exemplo, quanto maior dimensão tiver a amostra, mais próxima dos 10 % de cabelos pretos deve esta estar. Variáveis quantitativas (cardinais) Tem que se fazer previamente uma divisão em intervalos: Dados agrupados em intervalos, p. 187 A principal razão para se fazer a divisão em classes é que cada indivíduo per si não tem grande relevância na descrição da população de que faz parte. Imaginemos que temos uma amostra com 10 portugueses em que um tem 1.85 m. Incorremos num grande erro se afirmarmos que 10% dos portugueses medem exactamente 1.85m. No 2 entanto, se dividirmos a altura em dois intervalos, ]0, 1.75] e ]1.75, 3.00] e se o primeiro grupo tiver 7 indivíduos, já podemos afirmar com “confiança” que em Portugal a maioria das pessoas mede menos que 1.75 metros (à volta de 70%). A divisão da variável contínua em intervalos é subjectiva, podendo ser regular ou não, p.189. No entanto, e saindo do programa da disciplina, a Estatística fornecesse regras para uma boa divisão (por exemplo, é aconselhável que na maioria das classes haja pelo menos 5% dos indivíduos) Frequência acumulada Aplica-se apenas a variáveis comparáveis (quantidades cardinais ou qualidades comparáveis). O conceito aplica-se tanto a frequências absolutas como relativas. Quantifica a percentagem de indivíduos em que a variável estatística assume um valor menor ou igual à abcissa associada. No exemplo das alturas dos indivíduos, F(1.80) = 93.5% traduz que 93.5% dos indivíduos tem uma altura menor ou igual a 1.80 metros. O gráfico vai ser em escadas. Neste caso não há necessidade de se fazer a divisão em classes. Existem três valores notáveis para a abcissa que se denominam por quartis (25% é o 1º quartil, 50% é o 2º quartil e 75% é o 3º quartil). O quartil 50% também é denominado por “Mediana” (porque divide a amostra/população ao meio). Exercício Pretende-se comparar o desenvolvimento económico mundial entre os anos de 1990 e de 2000. Dados: Rendimento per capita em dólares americanos, paridade do poder de compra, a preços constantes de 1995 de 173 países (de um total de 226) para os anos de 1990 e 2000. Foram retirados os países sobre os quais não havia dados disponíveis num ou no outro ano.(Abrir o ficheiro Excel e gravá-lo em U) http://www.fep.up.pt/docentes/pcosme/TIAE/Aula2.xls Por razões diversas, nunca será possível saber qual é exactamente o valor do rendimento per capita, paridade do poder de compra, a dólares americanos constantes de 1995. Por exemplo, notar que uma componente importante da economia é “informal”, transaccionada, ou não, no mercado “negro”. Assim sendo, mesmo que a base de dados do Banco Mundial tivesse dados dos 226 países existentes, não podíamos afirmar que conhecíamos perfeitamente o desenvolvimento económico mundial. Motivado pela existência de erros de medida, pela contínua entrada (por nascimento) e saída (por morte) de indivíduos, ou outras razões, em termos abstractos, nunca será impossível conhece perfeitamente as características de uma população. Assim sendo, em termos epistemológicos, o nosso conhecimento é sempre assumido como uma “estimativa”, com maior ou menor erro, das verdadeiras características da população.