ESTATÍSTICA MÓDULO 1 – INTRODUÇÃO À ESTATÍSTICA 1.1.Definição de Estatística Quando estamos às vésperas de uma eleição, muitas pessoas ficam ansiosas pelos resultados das chamadas pesquisas eleitorais, muitas vezes decidindo seu voto a partir do resultado provável destas pesquisas. Há sete anos a Rede Globo de Televisão coloca no ar um programa chamado Big Brother Brasil, um jogo onde a cada semana dois participantes são levados ao chamado “paredão” e uma delas é sempre eliminada. Os sites da Internet, antes do resultado final de cada eliminação, fazem enquetes, ou pesquisas, fazendo projeções de quem será o provável eliminado a partir da votação dos internautas. Geralmente, estas projeções se confirmam. Quando o IBGE (Instituto Brasileiro de Geografia e Estatística) informa o valor da renda per capita no Brasil está noticiando ao país sua renda média por habitante. Todas estas informações só são possíveis dado a existência de uma técnica que engloba os métodos científicos para a coleta, organização, apresentação, tratamento e análise de dados, que possibilita não apenas a formulação de conclusões válidas e importantes baseadas em tais análises, como também a tomada de decisões a partir das mesmas. O objetivo da Estatística é fazer com que dados dispersos se transformem em informação valiosa. Os gráficos acima são bastante ilustrativos da importância da estatística como instrumento matemático para análises relevantes que envolvem nosso dia-a-dia de cidadãos comuns. Estas informações foram extraídas do relatório trimestral elaborado em dezembro de 2006 pelo BACEN (Banco Central do Brasil), e mostram as variações das taxas de inflação tanto levando em consideração os preços de atacado quanto os preços ao consumidor do ano de 2005 e 2006. Estas informações, que nos afetam diretamente, só foram possíveis graças a utilização dos instrumentos da estatística. Estas informações e muitas outras estão disponíveis a todos. Daí a importância de entendermos e dominarmos esta técnica. 1.2. UNIVERSO, POPULAÇÃO E AMOSTRA Como dissemos acima, o objetivo da estatística é transformar dados dispersos em informação valiosa a partir da qual se possa elaborar uma série de análises e tomar diversas decisões. Mas poderíamos então nos perguntar: onde e como obteríamos estes dados? Qual seria a base de coleta de dados para uma determinada observação relevante? Assim, denominamos universo ao conjunto de possíveis elementos a serem observados e de onde obteríamos os dados. Por exemplo, o universo dos macacos. Para alguns teóricos, universo e população se confundem. Já a população seria um subconjunto do universo, na medida em que se constitui de um grupo de objetos ou indivíduos com características comuns. Podemos exemplificar com a população de mico-leão dourado, a população de chipanzés, etc. A amostra, por outro lado, diz respeito a uma parte representativa da população que será examinada quando for impossível ou impraticável observar todo o grupo representado pela população. Um bom exemplo seria observar uma pequena amostra de macacos da espécie mico-leão dourado para determinar seus hábitos e seu comportamento. Mas como então coletar os dados seja em uma determinada população ou em uma amostra definida? Na estatística, a coleta de dados pode ser feita de forma direta ou indireta. Quando o dado é obtido de uma fonte primária, ou seja, quando eu colho a informação diretamente na fonte e produzo as informações a partir disto, tem-se a forma direta. Isto é, quando entrevisto as pessoas para saber qual o candidato de sua preferência em época de eleição. Apesar de utilizar a amostragem (construo dados a partir de uma amostra), obtenho a informação diretamente da fonte. Se o dado é obtido através de uma fonte secundária, diz-se aí ter uma fonte indireta. Podemos citar como exemplo de fonte indireta os gráficos de evolução da inflação que utilizamos para ilustrar a importância da estatística. Obtemos a informação no site do Banco Central, mas este por sua vez não é a fonte da informação, este obteve a informação em parte da FGV (Fundação Getúlio Vargas), em parte do IBGE, esses sim tendo produzido os dados de inflação a partir de fontes diretas. A FGV e o IBGE são fontes indiretas para o Banco Central, e o Banco Central é fonte indireta para nós. Mas a FGV e o IBGE obtiveram os dados de fontes diretas. EXEMPLO: Um conjunto de tutores desenvolveu uma técnica nova para a aprendizagem à distância, na Faculdade Sigma, a qual, segundo dizem, melhora a qualidade de aprendizagem relativamente ao método tradicional. POPULAÇÃO: Conjunto de todos os alunos que entram para a Faculdade, sem conhecer a aprendizagem à distância. AMOSTRA: Conjunto de alunos de algumas Faculdades selecionadas para este estudo. Os alunos foram separados em dois grupos para se aplicarem as duas técnicas em confronto. PROBLEMA: Estudo da amostra, decidir qual a técnica melhor. MÓDULO 2 – OS RAMOS DA ESTATÍSTICA Quando os números são utilizados para descrever fatos temos a estatística descritiva. Esta parte da estatística procura organizar, resumir e simplificar informações complexas, a fim de torná-las de mais fácil entendimento, exposição e discussão. São exemplos de medidas da estatística descritiva a taxa de desemprego, os índices de inflação, a quilometragem média por litro de combustível, entre outros. Se, por outro lado, não há a possibilidade da descrição de fatos pela existência de circunstâncias ou experimentos que envolvam o acaso, faz-se necessária a utilização da probabilidade, outro ramo da estatística útil para este tipo de situação. Os jogos de azar, a maior parte dos jogos esportivos, a megasena, as decisões de marketing envolvem, em alguma medida, o acaso, e portanto, a probabilidade. Um outro ramo importante da estatística é a inferência, que se propõe a analisar e a interpretar dados que são obtidos através de uma amostra. A inferência ou amostragem tem como idéia básica extrair determinadas informações de uma parcela pequena de uma população determinada, e a partir disto fazer inferência sobre toda a população. Ou seja, a amostra deverá necessariamente representar toda a população. É preciso ter em mente que as três áreas da estatística não são separadas ou distintas, mas tendem a se entrelaçar. A descrição e o resumo dos dados tende a ser a primeira fase da análise destes dados, já a teoria e os fundamentos da amostragem se baseiam na teoria da probabilidade. 2.1. DADOS ESTATÍSTICOS Quando se trabalha com a observação, a mensuração, a análise e a interpretação de números, esses números nos conduzirão à índices inflacionários, índices de desemprego, probabilidade de determinado candidato ganhar as eleições, etc. Estes números, portanto, serão designados dados estatísticos. Esses dados precisarão ser organizados e sumarizados para sua correta interpretação. Ora, caso os dados ainda não foram numericamente organizados e processados, eles podem se apresentar a nós com quase nenhum sentido. Estes seriam os chamados dados brutos. É o processamento e organização dos dados que os transforma em informação, enfatizando seus aspectos mais importantes. A informação, portanto, é resultado de um tratamento dos dados. Para organizar e processar os dados estatísticos podemos utilizar resumos visuais e numéricos, através de gráficos, mapas, tabelas e modelos numéricos. A mensuração ou a observação de itens como índices de preços, renda mensal per capita de um Estado, etc, dão origem aos dados estatísticos. Como estes itens originam valores que tendem a apresentar um certo grau de variabilidade quando são medidos sucessivas vezes são chamados de variáveis. É importante identificar quatro tipo de variáveis: i. Variáveis Contínuas: é a variável que pode assumir qualquer valor num intervalo contínuo (dado contínuo). Exemplos: altura, peso, velocidade, etc. ii. Variáveis Discretas: em geral originam-se da contagem de itens e só podem assumir valores inteiros. Exemplos: número de alunos em sala de aula, número de professores que trabalham na escola, etc. iii. Variáveis Nominais: são aquelas que existem com o objetivo de definir categorias, e as observações, mensurações e análises são feitas levando-se em conta estas mesmas categorias. Exemplos de categorias seriam a separação por sexo, idade, nível de escolaridade, etc. iv. Variáveis por Posto: quando existe o desejo de dispor os elementos observados segundo uma ordem de preferência ou desempenho, atribui-se valores relativos atribuídos para indicar esta ordem. Exemplo: primeiro, segundo, terceiro. As variáveis discretas e contínuas são ditas variáveis quantitativas porque envolvem dados eminentemente numéricos. Já as variáveis nominais e por posto precisam ser transformadas em valores numéricos para serem objeto da análise estatística, e são ditas variáveis qualitativas. 2.2. FORMAS INICIAIS DE TRATAMENTO DOS DADOS Em geral, quando nos propomos a buscar construir informações a partir de dados, nos deparamos inicialmente com um conjunto de dados brutos que pouco nos dizem. É preciso organizá-los minimamente para que eles comecem a fazer algum sentido, viabilizando sua análise. Uma primeira forma de organização dos dados é o chamado Rol. Obtemos o rol quando organizamos os dados brutos em ordem crescente ou decrescente de grandeza. A amplitude do rol é obtida pela diferença entre o maior e o menor número do rol. Utiliza-se o rol quando o conjunto de dados for pequeno, ou seja, for inferior a 30 observações. Por outro lado, quando se trata de um conjunto grande de dados, que seja superior a 30 observações, utilizamos a distribuição de freqüências. Consiste em organizar os dados brutos em classes, a fim de identificar o número de itens pertencentes a cada classe, denominado freqüência de classe. Os dados são assim organizados em intervalos de classes. Este assunto será melhor pormenorizado no módulo II. 2.3. NOTAÇÃO POR ÍNDICES A notação por índices é bastante utilizada na estatística, sendo assim importante que esclareçamos seu significado. O símbolo xi (onde se lê “x índice i”) irá representar qualquer um dos n valores assumidos pela variável x, x1 , x 2, x3 , x 4 ,..., xn . “n” é denominada índice e poderá assumir qualquer dos números entre 1, 2, 3, 4, ..., n. 2.4. NOTAÇÃO SIGMA (∑) A maioria dos processos estatísticos vai exigir o cálculo da soma de um conjunto de números. A letra maiúscula grega sigma (∑) é utilizada para representar estas somas. Assim, se uma determinada variável y tiver os valores 3, 5, 7, 9 e 11, o ∑y será: ∑y = 3+5+7+9+11 ∑y = 35 Por outro lado, se o consumo semanal de arroz de x, durante um mês foram 2kg,4kg, 3kg, 5kg, o total consumido por x no mês teria sido: ∑x = 2+4+3+5 ∑x = 14, x teria consumido 14kg de arroz durante o mês referido. A notação sigma possui algumas propriedades que precisamos desenvolver, para facilitar os conteúdos a serem desenvolvidos posteriormente nesta disciplina. n a) i 1 x xi x , isto significa que devemos somar as n observações de x, começando com a primeira. Por exemplo, num conjunto de dados onde xi {2,4,6,8,10,12} , onde n=6, teremos: x x 42 n 6 i 1 i x 2 4 6 8 10 12 i 1 i i Por outro lado, é possível utilizar esta notação quando se pretende analisar a soma de apenas uma parte dos dados disponibilizados, podendo-se, portanto abreviar a soma de um conjunto de dados. Desta forma, podemos ter: 3 i) x1 x2 x3 i 1 x i ii) x8 x9 x10 x11 i 8 xi 11 b) Se cada valor da variável x é multiplicado ou dividido por uma constante, temos que isso será igual ao valor da constante multiplicado ou dividido pela somatória de x. c.x c.x Assim, 4 4 x i i1 4x1 4 x2 4 x3 4 x4 4 4( x1 x2 x3 x 4 ) 4xi i 1 Por exemplo: se xi {2, 4,6,8,10,12} ; onde n=6; E cada valor de x é multiplicado pela constante c=2, temos: cx c x 6 6 i1 i1 cxi c xi 2(2) 2(4) 2(6) 2(8) 2(10) 2(12) 2( 2 4 6 8 10 12) 6 2 x i i1 6 2xi 2(42) 84 i 1 c) O somatório de uma constante c será igual ao produto da constante pelo número de vezes (n) que ela se repete. Assim, temos: n c nc i ii Por exemplo, se numa determinada observação o conjunto de dados de xi {7,7,7,7,7,7} , onde n=6, temos que xi é uma constante c que se repete. Então teremos: xi ci 6 6 i1 i 1 xi ci nc 7 7 7 7 7 7 6(7) 42 d) O somatório de uma soma ou de uma diferença de duas variáveis será igual à soma ou diferença dos somatórios individuais das duas variáveis. Assim, teremos: n n n i1 i 1 i 1 n n n i 1 i1 ( xi yi ) x i yi ( x i1 i yi ) xi y i Por exemplo: i X Y (X-Y) 1 8 5 3 2 3 2 1 3 4 0 4 4 5 4 1 - - - - ∑ 20 11 9 ( x y ) 9 x y 20 11 9 e) O somatório de um conjunto de dados xi ao quadrado nos obriga a elevar cada elemento de xi ao quadrado para efetuar a soma. Assim, teremos: n x 2 i x12 x22 x32 ... x 2n i1 Por exemplo, se numa dada observação o conjunto de dados de xi {2,4,6,8,10} , onde n=5, teremos: 5 x 2 i 22 42 6 2 8 2 10 2 4 16 36 64 100 220 i1 f) O somatório ao quadrado de um conjunto de dados será obtido pegando-se a soma dos valores de xi e elevando-se ao quadrado. Assim, teremos: n (xi ) ( x1 x2 x3 ... xn ) 2 2 i1 Por exemplo, se temos um mesmo conjunto xi {2, 4,6,8,10} , onde n=5, tal qual no exemplo do item e, teremos um resultado distinto. Senão vejamos: 5 (xi ) ( 2 4 6 8 10) (30) 900 2 i1 2 2 MÓDULO 3 – MEDIDAS DE TENDÊNCIA CENTRAL Quando estamos diante de um conjunto de dados, seja ele pequeno ou grande, em geral buscamos medidas que possam ser usadas para indicar um valor que tende a representar melhor aquele determinado conjunto de números. E as medidas mais usadas neste sentido são as chamadas medidas de tendência eventual, ou central, quais sejam: a média, a mediana e a moda. É preciso ter em mente que estes valores serão medidos de forma distinta conforme tenhamos um grande conjunto de dados ou um pequeno conjunto de dados. Também o cálculo destes valores irá ser afetado caso as variáveis sejam discretas ou contínuas. Neste módulo trataremos do cálculo destas estatísticas para pequenos conjuntos de dados, que envolvam apenas o tratamento dos dados em um rol. A MÉDIA ARITMÉTICA SIMPLES (, x) 3.1. A média aritmética é um dos valores mais representativos de um conjunto de dados, e para alguns autores em estatística, a média seria a medida mais importante a ser estudada nesta disciplina. Obtém-se o valor da média aritmética dividindo-se o somatório dos valores do conjunto de dados pelo número de valores total deste conjunto. Assim, temos que: n x média i 1 n i Para a população, calcula-se a média aritmética utilizando os seguintes parâmetros: N Xi i i , onde N média aritmética da população (parâmetro) N Total de observações da população (total da população) X I Cada variável populacional Para a amostra, calcula-se o valor médio utilizando-se os seguintes parâmetros: n x i x i 1 , onde n x média aritmética da amostra (estimativa) n número de dados da amostra xi cada variável da amostra É preciso ter em mente, que embora estejamos destacando uma diferença na notação utilizada para o cálculo da média aritmética em uma amostra e numa população, a expressão para o cálculo da média é A MESMA tanto no cálculo da média de uma população quanto de uma amostra. Mas era importante colocar o aluno a par de todas as notações utilizadas em estatística, principalmente se houver interesse de maior aprofundamento no assunto. Vamos agora tomar um exemplo de média aritmética. Supondo um conjunto de dados xi {2,4,6,8,10,12} , onde N=6, teremos: N X i 1 N i 2 4 6 8 10 12 7 6 Para simplificar o nosso estudo, padronizaremos a notação para o cálculo da média, e passaremos a utilizar sempre a notação utilizada para o cálculo da média aritmética simples em conjuntos de dados amostrais, tal qual o exemplo abaixo. Tomemos uma amostra das notas das provas de matemática dos estudantes da sétima série de uma grande escola de São Paulo xi , onde xi {87, 42,64,58,90,90,85,63,47,74,100,94} e n=12, então teremos: n x x i 1 n i 87 42 64 58 90 90 85 63 47 74 100 94 74,5 12 A nota média na prova de matemática dos estudantes da sétima série desta escola de São Paulo, por amostragem, é 74,5. São as propriedades que a média aritmética simples possui que a fazem a medida de tendência central mais usada e mais importante de todas. São elas: a) Em um conjunto de dados, é sempre possível o cálculo da média, independentemente de quais os elementos que compõem esse conjunto de dados. b) Em um determinado conjunto de dados o valor da média será único, e corresponderá a uma constante. Todos os valores de um determinado conjunto de dados irão afetar a média. Se um valor se modifica, a média aritmética também irá modificar-se. Somando-se ou subtraindo-se uma determinada constante c a cada elemento de um determinado conjunto de dados xi x1 , x 2 , x3 ,..., x n , a média aritmética ficará aumentada ou diminuída desta constante c. Se, por outro lado, multiplicarmos cada elemento deste conjunto de dados por uma constante c, a nova média será também multiplicada por esta constante c; se dividirmos cada elemento do conjunto de dados por esta mesma constante c, a média será dividida por c. c) d) Assim, se temos um conjunto xi x1 , x 2 , x2 ,..., xn , a média será: n x 1 x1 i 1 , logo n n n (c xi ) xi nc i 1 i1 x2 x2 x2 x1 c n n n e) A soma algébrica dos desvios dos números de um conjunto de dados em torno da média é zero. Isto pode ser representado da seguinte forma: x i x 0 Por exemplo, se temos um conjunto de dados xi 2,4,6,8,10 , onde n=5, teremos que : 5 x x i 1 5 i 2 4 6 8 10 6 , 5 Se aplicarmos a fórmula acima, teremos: x x x 6 (2 6) (4 6) (6 6) (8 6) (10 6) x x 4 2 0 2 4 x x 0 i i i i 3.2. A MÉDIA ARITMÉTICA PONDERADA Num conjunto de dados onde cada elemento, ou cada observação possua a mesma importância, o cálculo da média aritmética simples será bastante representativo da população ou da amostra estudada. No entanto, se desejo atribuir pesos distintos ou importâncias distintas aos elementos de um conjunto de dados, a estatística a ser adotada é a média aritmética ponderada, onde a cada valor xi deverá ser atribuído um determinado peso wi . A expressão estatística para o cálculo da média ponderada é: n w x x p i 1n i i w i 1 i Suponhamos que um estudante tenha que efetuar uma série de 4 exames para obter sua média final para passar de ano. No entanto, cada exame possui um peso diferente na composição desta média, conforme a tabela abaixo: Exame 1 2 3 4 Nota 68 89 45 100 Peso 0,30 0,20 0,40 0,10 1,00 n w x x p i 1n i i w i1 , logo i (0,30)68 ( 0,20)89 (0,40) 45 0,10(100) xp 0,30 0,20 0,40 0,10 x p 20,4 17,8 18 10 66,2 A nota média será então 66,2, resultado diferente do que seria obtido se utilizássemos a média aritmética simples. MÓDULO 4 – MEDIANA E MODA EM UM ROL Neste módulo continuaremos trabalhando com as medidas de tendência central chamadas de mediana e moda, que envolvam apenas o tratamento dos dados em um rol. 4.1. A MEDIANA Uma outra medida importante de um conjunto de dados é a mediana. Ela divide um determinado conjunto de dados, que deverá estar ordenado, em dois grupos iguais, onde metade terá valores menores que a mediana e metade terá valores maiores que a mediana. Antes de calcular a mediana, é preciso organizar os valores em um rol em ordem crescente, para então contar até a metade dos valores para encontrar a mediana. Em geral, após organizarmos os dados em um rol, podemos calcular a posição da mediana com a fórmula abaixo: (n 1) posmed , 2 onde n é o número de dados observados. Por exemplo, para um conjunto de dados xi {6,9,3,5,2,9,5,5,8,7,1,7, 2} , onde n 13 , teremos primeiro que organizar estes dados em um rol, e depois encontrar a posição da mediana e então saber qual será a mediana. Senão vejamos: rolxi {1,2,2,3,5,5,5,6,7,7,8,9,9} ( n 1) 13 1 posiçãomediana 7 2 2 mediana 5 Para determinar a mediana: Organize o conjunto de dados em um rol; Para um conjunto de dados cujo n=ímpar, a mediana será o valor do meio Para um conjunto de dados cujo n=par, a mediana será a média dos dois valores do meio. Para um conjunto de dados xi {6,4,,8,3,2,9,7,1} ,onde n=8, teremos então: rolxi {1,2,3,4,6,7,8,9} ( n 1) 8 1 posiçãomediana 4,5 2 2 A mediana será o valor que está a meio caminho dos dois valores médios, neste caso, que está entre 4 e 6. Como faremos? Deveremos tirar a média entre os dois valores do meio para obter o valor da mediana. Assim, teremos: 4 6 mediana 5 2 4.2. A MODA Muitas vezes, em um conjunto de dados, existem valores que se repetem com uma freqüência maior. A moda é justamente este valor ou estes valores que mais se repetem em um conjunto de dados. É possível haver estatísticas que não possuam moda ou que possuam mais de uma moda. No exemplo que demos acima, para um conjunto de dados xi {1,2,3,4,6,7,8,9} , não existe moda e diz-se que a o conjunto ou distribuição é amodal. A moda é uma estatística muito mais descritiva, e sua importância cresce na medida em que um valor ou grupo de valores se repete mais que outros, e neste sentido a moda indicaria o valor “típico” daquele conjunto de dados em termos de maior ocorrência. No entanto, se compararmos com a média e a mediana, por não ser útil à análise matemática, a moda é muito menos útil para a estatística. Por exemplo, o conjunto de dados xi {2,2,7,9,9,9,10,10,11,12,18} tem moda igual a 9, porque o número 9 é aquele com maior freqüência, se repetindo três vezes.