DEFINIÇÕES, CONCEITOS E SÍMBOLOS– Introdução à estatística Para uso exclusivo em sala de aula Preparado pelo Prof. A. Sales em 2008 e revisto em 2013 Nesta aula teremos algumas definições. Estudaremos o significado de alguns termos que estaremos usando no decorrer do ano. DADOS BRUTOS São chamados de dados brutos os dados de uma série estatística antes da sua organização. ROL. Uma vez organizados em ordem crescente ou decrescente os dados estatísticos recebem o nome de ROL. Esta é a primeira providência que se deve tomar ao deparar com os dados brutos. VARIÁVEIS É o conjunto de resultados possíveis de um fenômeno. Exemplos: 1. Numa pesquisa em que se deseja obter informações sobre o fenômeno “sexo”, os resultados possíveis são: sexo masculino e sexo feminino. São duas as variáveis possíveis: Masculino e Feminino 2. Numa pesquisa onde se deseja obter informações relativas à cor das pessoas, as varáveis possíveis são: negra, branca, amarela, morena, etc. 3. Quando se deseja trabalhar com o fenômeno altura as variáveis são expressas em números, da mesma forma que a quantidade de pessoas, de filhos, de alunos, etc. VARIÁVEIS QUALITATIVAS E QUANTITATIVAS Essa classificação não depende do assunto que está sendo tratado, mas do caráter da variável em si. Quando os valores de uma variável são expressos por atributos como sexo, cor, sim e não, nome de lugar, estado civil, etc., denomina-se variável qualitativa. A variável é classificada como quantitativa quando é expressa por um número. Variáveis quantitativas medem quantidades. Variáveis qualitativas medem qualidades Obs. Eventualmente uma variável qualitativa pode ser expressa por números, como no caso de se marcar nº 1 para sexo masculino e 2 para sexo feminino. Ainda assim, a variável é qualitativa. Quando os dados estão organizados em uma distribuição de frequência (tabela) a variável é indicada por x ou por xi, onde i indica a classe em que se encontra. Por exemplo: x1, x2, ... indicam a variável da primeira classe, variável da segunda classe, e assim por diante. AS VARIÁVEIS QUALITATIVAS PODEM SER NOMINAIS OU ORDINAIS Uma variável qualitativa é ordinal quando está relacionada a tamanho (pequeno, médio, grande), níveis de estudo ( fundamental, médio, superior), grau de severidade de uma doença, classe social, etc., quando estabelece uma certa ordem de importância entre os elementos. É variável qualitativa nominal quando não é possível estabelecer uma ordem entre seus valores. São nominais as variáveis: sexo ou gênero, sim e não, indicação de localidade, cor, etnia, indicação de turmas ( A, B, C,...), grupos sanguíneos, e tantas outras. Uma variável nominal pode ser dicotômica. É quando assume somente dois valores, como sim ou não, exame positivo ou negativo, etc. Seu uso é muito comum em Bioestatística. AS VARIÁVEIS QUANTITATIVAS PODEM SER DISCRETAS OU CONTÍNUAS. São variáveis quantitativas discretas as que são expressas por um número sempre inteiro de vezes e, de forma geral, uma quantidade finita de vezes. Exemplos: número de filhos, número de crises de asma, número de vezes em que um fenômeno ocorreu, quantidade de peças de roupa. É tudo que pode ser contado. Constituem variáveis quantitativas contínuas tudo o que pode ser medido, como o peso e a altura, volume de sangue, saliva em ml/min, pressão arterial, etc. CLASSIFICAÇÃO DAS VARIÁVEIS Quantitativa Variáveis Contínua Discreta Nominal Qualitativa (Dicotômica ou não.) Ordinal POPULAÇÃO E AMOSTRA População, em estatística, é um conceito abstrato e tem sentido mais amplo do que aquele que tem em geografia. População aqui é o conjunto de seres ou de observações. Pode se referir a pessoas, animais ou coisas. Amostra é um subconjunto finito da população. É uma parte selecionada de acordo com uma regra ou plano. A amostra pode ser probabilística e não-probabilística. Amostras nãoprobabilísticas podem ser: amostras acidentais: compostas por acaso, com pessoas que vão aparecendo; amostras por quotas: diversos elementos constantes da população/universo, na mesma proporção; amostras intencionais: escolhidos casos para a amostra que representem o “bom julgamento” da população/ universo. Amostras probabilísticas são obtidas por sorteio e podem ser: amostras casuais (aleatórias) simples: cada elemento da população tem oportunidade igual de ser incluído na amostra; amostras casuais (aleatórias) estratificadas: cada estrato, definido previamente, estará representado na amostra; amostras por agrupamento: reunião de amostras representativas de uma população. 10 Para definição das amostras probabilísticas recomenda-se a aplicação de técnicas estatísticas. PROCESSOS DE AMOSTRAGEM Amostra de conveniência. É aquela que se determina sem recorrer a um tratamento probabilístico. Quando somente se tem acesso a informações decorrentes de um único local sem possibilidade de se recorrer a outras informações. É uma amostragem não probabilística e não permite fazer inferência de aplicação geral. Amostragem aleatória simples. É aquela em que se efetua uma relação completa dos elementos envolvido e sorteia-se uma amostra entre eles. É do tipo probabilístico. Amostragem proporcional estratificada. Ocorre quando a população está, dividida em subpopulações (estratos). Usa-se o recurso da regra de três para determinar a quantidade de elementos de cada estrato e, daí para a frente, procede-se como na amostragem simples. Amostragem sistemática. Ocorre quando a população está devidamente ordenada e já se tem determinado o tamanho da amostra. Divide-se a população pela amostra, obtendo um número n. Em seguida escolhe-se, por sorteio, o número do elemento que seria o primeiro da relação. Daí para frente será escolhido cada n-ésimo elemento da relação. Exemplo: Se tivermos 80 elementos e queremos uma amostra de 20, fazemos 80/20=4. Em seguida, sorteamos um número entre 1,2,3 e 4. Suponha que o número sorteado tenha sido o 3. Nesse caso, começamos pelo 3º elemento da sequência e os próximos serão: 7º, 11º, etc. População (ou universo da pesquisa) é a totalidade de indivíduos que possuem as mesmas características definidas para um determinado estudo. SOMATÓRIO A letra grega sigma () é usada para indicar a soma de uma série de valores. fi é o somatório das frequências simples que também pode ser substituído por n ou N. O N ( maiúsculo) indica o total ou fi da população enquanto o n (minúsculo) indica o total ou fi da amostra. MEDIDAS ESTATÍSTICAS As medidas estatísticas estão classificadas em medidas de posição e medidas de dispersão. As medidas de posição são a média, a moda, a mediana, os quartis, os decis e os percentis. As medidas de dispersão são o desvio médio, o desvio padrão, a variância, o coeficiente de variação, etc. Por enquanto estudaremos apenas as medidas de posição que tendem a estar no centro quando a sequência está ordenada (em ordem crescente ou decrescente). São chamadas de medidas de tendência central. MEDIDAS DE TENDÊNCIA CENTRAL _ MÉDIA ( x ) ( x com um traço em cima) É a soma dos valores dividido pelo número deles. Quando os dados estão organizados em uma tabela de frequência então a média é obtida k n x fazendo (n1x1+n2x2+...+nkxk)/(n1+n2+...+nk) ou i 1 i i n A média, por ser um valor não necessariamente real, pode ser representada por um número fracionário mesmo quando se trata de variável discreta. Por exemplo, podemos falar em 11 uma média de duas pessoas e meia, mas não podemos falar que encontramos duas pessoas e meia. A média é um valor simbólico e por essa razão admite frações. ~ MEDIANA ( x ) (x com um til) é o termo que divide os dados de uma série numérica em duas partes iguais, ou seja, 50% por cento dos dados estão abaixo da mediana e 50% estão acima da mediana. O cálculo da mediana requer, primeiramente, que os dados estejam ordenados de forma crescente ou decrescente de valor. Temos dois casos a considerar: 1. O número de dados é ímpar: n 1 Neste caso, a mediana é dada pela posição do termo de ordem 2 2. Número de dados é par: n Determina-se o termo de ordem e, em seguida, calcula-se a média aritmética entre 2 esse termo e o termo seguinte A mediana pode ser um número que não faz parte da sequência. Exemplo: na sequência, 5,7,8 e 9 a mediana é 7,5. ^ MODA ( x ) ( x com acento circunflexo) é o termo de uma série estatística que ocorre com maior frequência. A moda pode não existir como também pode não ser única. Se a série não tiver moda será amodal. Se tiver uma moda será unimodal. Se tiver duas modas será bimodal. Se tiver três modas será trimodal. E, se tiver muitas modas, será multimodal Exemplos. Nas sequências abaixo determinar, média, a moda e a mediana: Sequência (1): 5,5,6,7,7,7,8,8,9,9,10,10,10,11,11,11,12,13,13 Sequência (2): 6,7, 8,8,9,9,9,9,10,10,10,11,11,11,12,13 Com relação à sequência (1), tem-se 172 Media: =9,05 9 19 Mediana: 9 Modas: 7, 10 e 11 Com relação à sequência (2), tem-se: 154 Média: 9,56 9,6 16 Moda: 9 9 10 Mediana: 9,5 2 CLASSIFICAÇÃO DE UMA SÉRIE ESTATÍSTICA: 1. Se média=mediana=moda, então é simétrica ou normal. 2. Se média< mediana< moda, a série é assimétrica negativa 3. Se média>mediana>moda, a série é assimétrica positiva. AMOSTRAGEM PROPORCIONAL ESTRATIFICADA 12 Vamos voltar um pouco a esse assunto para detalhar o procedimento. Ocorre quando a população se subdivide em estratos. Vamos imaginar que na sala de aula haja 60 alunos, sendo 25 do sexo masculino e 35 do sexo feminino e queremos uma amostra estratificada de 15 deles. Queremos que mulheres e homens sejam igualmente representados, isto é, tenham uma representação proporcional à sua quantidade. Para isso usamos uma regra de três, como segue: Nº de pessoas 60 Mulheres 35 15 Amostra x 60x = 35.15 60x=525 x=525/60 x= 8,75 9 Logo, participarão da pesquisa 9 mulheres e 6 homens (9+6=15). Exercício: Imaginemos que um profissional de saúde esteja interessado em saber a incidência de uma determinada patologia em pessoas de três etnias distintas: brancos, negros e índios. O fichário da clínica consta de 500 fichas de pacientes atendidos e, uma vez separadas, constatou-se que 200 eram de brancos, 180 de negros e 120 de índios. Se o pesquisador deseja uma amostra de 80 fichas quantas devem ser de: a) brancos? b) negros? c) índios? Resp. a) 32 b) 29 c) 19 O princípio que usamos para o cálculo de uma amostra estratificada chama-se regra de três simples. Ele consiste simplesmente em achar o valor de uma quarta grandeza a partir de três outras que são conhecidas. MAIS OBSERVAÇÕES SOBRE ARREDONDAMENTOS É possível ter, em média, 5,6 pessoas, mas é impossível encontrar 5,6 pessoas vivendo em realidade. Como já foi dito, média é um valor simbólico. De igual modo a porcentagem pode ser fracionária mesmo quando se trata de variável discreta porque também é um valor simbólico. Quando dizemos “7,8% das pessoas” não significa que, obrigatoriamente, haviam 100 pessoas e 7,8 delas se apresentavam com tal característica. Se num grupo de 30 pessoas tivermos 4 com determinada característica dizemos que, se fossem cem pessoas, então 13,3% teriam aquela característica. ERRO AMOSTRAL Toda amostragem é obtida pensando-se em ter uma representatividade confiável da população. Porém nem sempre esse objetivo é alcançado e é possível que ocorra o chamado erro amostral. Esse erro, no entanto, pode ser, pelo menos teoricamente, previsto e veremos mais tarde como se dá esse procedimento. CÁLCULO DA MÉDIA COM DADOS AGRUPADOS Seja a sequência: 5,6,5,8,8,7,2,3,4,3,3,5,6,9,10,2,10,1,1,3 Primeiro fazemos o rol: 1,1,2,2,3,3,3,3, 4, 5,5,5,6,6,7,8,8, 9,10,10 Modo (1): Podemos determinar a média fazendo: 2 x1 2 x2 4 x3 1x4 3x5 2 x6 1x7 2 x8 1x9 2 x10 101 5,05 5,0 2 2 4 1 3 2 1 2 1 2 20 Modo (2): Podemos também montar o seguinte quadro, que facilitará o trabalho posterior: 13 i 1 2 3 4 5 6 7 8 9 10 A média é= fixi n xi 1 2 3 4 5 6 7 8 9 10 fi 2 2 4 1 3 2 1 2 1 2 n=fi=20 fixi 2 4 12 4 15 12 7 16 9 20 fixi=101 101 5,05 5,0 20 DETERMINAÇÂO DA MEDIANA E DA MODA COM DADOS AGRUPADOS Exemplos. Nas sequências abaixo determinar a moda e a mediana: Sequência (1): 5,5,6,7,7,7,8,8,9,9,10,10,10,11,11,11,12,13,13 Sequência (2): 6,7, 8,8,9,9,9,9,10,10,10,11,11,11,12,13 Construindo uma distribuição de frequência da sequência (1), vê-se que há três classes modais (classes: 3, 6 e 7 cujas variáveis são 7, 10 e 11, respectivamente) e, como fi 1 n 1 19 1 20 10 , a mediana é o 10º elemento que, consultando a coluna 2 2 2 2 Fi, percebemos estar na 5ª classe, isto é, 9. i 1 2 3 4 5 6 7 8 9 xi 5 6 7 8 9 10 11 12 13 fi 2 1 3 2 2 3 3 1 2 19 Fi 2 3 6 8 10 13 16 17 19 fixi 10 6 21 16 18 30 33 12 26 172 Com relação à sequência (2), tem-se: Construindo uma distribuição de frequência da sequência (2), vê-se que a classe modal é fi n 16 8 , a única e é a 4ª, com a variável 9 e, como fi é par, fazendo 2 2 2 mediana é o último elemento da 4ª classe e, nesse caso acha-se o média aritmética entre 9 e 10. i xi 1 6 2 7 fi 1 1 Fi 1 2 fixi 6 7 14 3 4 5 6 7 8 8 9 10 11 12 13 2 4 3 3 1 1 16 4 8 11 14 15 16 16 36 30 33 12 13 153 OBSERVAÇÕES 1. Regra de três é o nome dado a uma regra matemática usada para determinar um quarto elemento a partir de 3 elementos dados. A regra é válida quando há uma relação de proporcionalidade (direta ou inversa entre os elementos do problema). Logo, a regra de 3 se baseia no princípio da proporcionalidade. 2. No cálculo da média pelo modo (2): 1) o fato de os valores das duas primeiras colunas serem iguais foi mera coincidência, 2)observe que criamos a coluna fixi que nada mais é do que produto da frequência (ou peso) pela variável e substitui o numerador no modo(1). 3.A moda é uma medida pouco usada, embora tenha também a sua utilidade. Um exemplo da utilidade da moda: Suponha que no Posto de Saúde de certa cidade comecem aparecer casos de dengue provenientes de diversos bairros. Suponha ainda que a tabulação dos dados nos forneça o seguinte quadro: Bairros fi Capinzal 1 Centro 1 Denguito 3 Barro puro 1 Poça Dágua 2 fi = 8 a) Por qual bairro a equipe de combate ao mosquito deve começar, ou intensificar, o trabalho? b) Qual deverá ser o segundo bairro a ser atendido? c) É possível que nos outros três bairros não haja infestação de mosquitos? PARA PENSAR: 1. Qual a medida que os patrões preferem tomar por base na hora de discutir plano salarial com os seus empregados? A moda. 2. Sejam os problemas: Se um pesquisador social resolve pesquisar A) a massa corporal (peso) do acadêmicos desta sala B) o estado civil dos acadêmicos desta sala C) a localidade onde moram os acadêmicos desta sala D) a classe social a qual pertencem os acadêmicos E) as cores de roupa mais frequentemente usadas pelos acadêmicos F) número de membros das famílias dos acadêmicos G) as etnias as quais pertencem os acadêmicos Agora tente responder as seguintes perguntas para cada um deles: a) Qual a variável? b) Como se expressa (ou indica) essa variável? c) Como ela deve ser classificada? Para maiores informações veja: 15 CRESPO, Antonio Arnot. Estatística Fácil. 18.ed. São Paulo: Saraiva, 2005 MAGALHÃES, Marcos N., LIMA, A.C.P. Noções de Probabilidade e Estatística. 5.ed. São Paulo: EDUSP, 2002. MENEGHEL, Stela Nazareth (org.) Cadernos de exercícios de epidemiologia. Canoas,RS: Ed. ULBRA, 2002. NAZARETH, Helenalda Resende de Souza. Curso básico de estatística. 12. ed. São Paulo: Ática, 2003. SILVA, Edna Lúcia da; MENEZES , Estera Muszkat. Metodologia da pesquisa e elaboração de dissertação. 3. ed. rev. atual. Florianópolis: Laboratório de Ensino a Distância da UFSC, 2001. Respostas (Para pensar): 1.a moda 2. A) a) massa corporal b) em valores numéricos c) quantitativa contínua B) a) estado civil b) casado(a), solt, viúvo(a), divorciado(a), separado(a) judic., união estável, outros. c) qualitativa nominal C) a) localidade onde moram, b) nome do bairro ou cidade, c) qualitativa nominal D) a) classe social b) A,B,C,D,E c) qualitativa ordinal E) a)cores b) verde, amarela, branca, etc. c) qualitativa nominal F) a) nº de membros ( tamanho da família), b) 1,2,3,4,5,... ( pequena, média, grande) c) quantitativa discreta ( qualitativa ordinal). G) a) etnia b) branco, negro, índio, etc ( ou eurodescendente, afrodescendente, sulamericano, etc) c) qualitativa nominal 16