ESTATÍSTICA APLICADA À METODOLOGIA DA PESQUISA CIENTÍFICA, PARA TEMAS MILITARES. EsAO ESTATÍSTICA APLICADA À METODOLOGIA DA PESQUISA CIENTÍFICA, PARA TEMAS MILITARES. Volume 1 por Clayton Amaral Domingues - Cap Art 1ª Edição RIO DE JANEIRO EDITORA EsAO --2004 © 2004 by Domingues, Clayton Amaral. Diagramação: Clayton Amaral Domingues – Cap Art Revisão: José Fernando Chagas Madeira – Maj Com Luiz Eduardo Possídio Santos – Cap MB Clayton Amaral Domingues – Cap Art Dados Internacionais de Catalogação na Publicação (CIP) D 671 Domingues, Clayton Amaral. Estatística aplicada: à metodologia da pesquisa científica para temas militares/ Clayton Amaral Domingues. - Rio de janeiro: EsAO, 2004. 85 p. ; il. ; 21 cm. Inclui Bibliografia 1. Estatística – metodologia. 2 Pesquisa – metodologia. I Título. CDD 310 Escola de Aperfeiçoamento de Oficiais Avenida Duque de Caxias, 2071. Rio de Janeiro/ RJ - CEP 21615-220 SUMÁRIO 1 CAPÍTULO 1 - INTRODUÇÃO À CIÊNCIA ESTATÍSTICA......................... 1 2 CAPÍTULO 2 - ESTATÍSTICA DESCRITIVA.................................................. 4 2.1 INTRODUÇÃO À ESTATÍSTICA DESCRITIVA............................................. 4 2.1.1 VARIÁVEIS QUALITATIVAS............................................................................ 5 2.1.2 VARIÁVEIS QUANTITATIVAS......................................................................... 5 2.2 TÉCNICAS DE DESCRIÇÃO GRÁFICA.......................................................... 6 2.2.1 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUALITATIVAS...................... 7 2.2.2 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS DISCRETAS........................................................................................................... 9 2.2.3 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS CONTÍNUAS.......................................................................................................... 13 2.3 CARACTERÍSTICAS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS...... 19 2.3.1 MEDIDAS DE POSIÇÃO..................................................................................... 19 2.3.1.1 MÉDIA.................................................................................................................... 19 2.3.1.2 MEDIANA.............................................................................................................. 21 2.3.1.3 MODA..................................................................................................................... 23 2.3.1.4 QUARTIS E PERCENTIS.................................................................................... 24 2.3.2 MEDIDAS DE DISPERSÃO................................................................................ 25 2.3.2.1 A AMPLITUDE TOTAL...................................................................................... 25 2.3.2.2 A VARIÂNCIA....................................................................................................... 25 2.3.2.3 O DESVIO-PADRÃO............................................................................................ 27 2.3.2.4 O COEFICIENTE DE VARIAÇÃO.................................................................... 28 2.3.3 MEDIDAS DE ASSIMETRIA.............................................................................. 28 2.3.4 MEDIDAS DE ACHATAMENTO OU CURTOSE............................................ 30 2.3.5 CONSIDERAÇÕES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE.... 31 3 CAPÍTULO 3 - AMOSTRAGEM......................................................................... 32 3.1 INTRODUÇÃO....................................................................................................... 32 3.2 AMOSTRAGEM.................................................................................................... 33 3.2.1 AMOSTRAGEM NÃO ALEATÓRIA................................................................. 33 3.2.1.1 AMOSTRAGEM INTENCIONAL...................................................................... 33 3.2.1.2 AMOSTRAGEM VOLUNTÁRIA....................................................................... 33 3.2.2 AMOSTRAGEM ALEATÓRIA........................................................................... 33 3.2.2.1 AMOSTRAGEM ALEATÓRIA SIMPLES........................................................ 33 3.2.2.2 AMOSTRAGEM SISTEMÁTICA....................................................................... 34 3.2.2.3 AMOSTRAGEM ESTRATIFICADA.................................................................. 34 3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS.................................................... 35 4 CAPÍTULO 4 - PROBABILIDADE..................................................................... 38 4.1 EXPERIMENTO ALEATÓRIO........................................................................... 38 4.1.1 ESPAÇO AMOSTRAL ......................................................................................... 38 4.1.2 EVENTOS............................................................................................................... 39 4.2 PROBABILIDADE................................................................................................. 39 4.2.1 EVENTOS COMPLEMENTARES...................................................................... 40 4.2.2 EVENTOS INDEPENDENTES............................................................................ 41 4.2.3 EVENTOS MUTUAMENTE EXCLUSIVOS..................................................... 41 4.3 EMPREGO DA PROBABILIDADE PARA COMPROVAÇÃO DE HIPÓTESES............................................................................................................ 43 4.3.1 ALFA (ERRO TIPO I) .......................................................................................... 44 4.3.2 BETA (ERRO TIPO II) ........................................................................................ 45 4.3.3 SIGNIFICADO....................................................................................................... 46 4.3.4 PODER.................................................................................................................... 46 5 CAPÍTULO 5 – DISTRIBUIÇÃO BINOMIAL E NORMAL........................... 49 5.1 VARIÁVEL ALEATÓRIA................................................................................... 49 5.2 DISTRIBUIÇÃO DE PROBABILIDADE........................................................... 49 5.3 DISTRIBUIÇÃO BINOMIAL.............................................................................. 51 5.4 DISTRIBUIÇÃO NORMAL - CURVA NORMAL............................................ 55 6 CAPÍTULO 6 – CORRELAÇÃO E REGRESSÃO............................................ 57 6.1 INTRODUÇÃO...................................................................................................... 57 6.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON....................................... 57 6.3 CORRELAÇÃO E CAUSA................................................................................... 60 6.4 INTERPRETAÇÃO DE “r” ................................................................................. 60 6.5 TRANSFORMAÇÃO “Z” DO “r” ...................................................................... 61 6.6 REGRESSÃO LINEAR......................................................................................... 63 6.7 LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIÇÃO............... 64 6.8 CORRELAÇÃO PARCIAL.................................................................................. 65 6.9 REGRESSÃO MÚLTIPLA................................................................................... 66 ANEXO I - ESTATÍSTICA DESCRITIVA......................................................... 69 ANEXO II - COMPARAÇÕES ENTRE AMOSTRAS...................................... 70 ANEXO III - RELAÇÃO ENTRE VARIÁVEIS................................................. 71 ANEXO IV - TABELA DE NÚMEROS ALEATÓRIOS................................... 72 ANEXO V - ÁREA SUBTENDIDA PELA CURVA NORMAL REDUZIDA DE 0 A Z.................................................................................................................. 73 ANEXO VI - VALORES CRÍTICOS DOS COEFICIENTES DE CORRELAÇÃO 74 ANEXO VII TABELA PARA TRANSFORMAÇÃO DE r PARA Z................. 75 Capítulo 1 A Ciência Estatística 1. INTRODUÇÃO À CIÊNCIA ESTATÍSTICA Podemos considerar a Estatística como a ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais, visando à tomada de decisões. A razão pela qual consideramos a Estatística uma ferramenta importante para a tomada de decisões está no fato de que ela não deve ser considerada como um fim em si própria, mas como um instrumento (ferramenta) fornecedor de informações que subsidiarão a tomada de melhores decisões, baseadas em fatos e dados. A Estatística é, portanto, uma ciência meio que tem utilidade em outros variados campos do conhecimento. Evidentemente, tanto a parte de organização e descrição dos dados como aquela que diz respeito a sua análise e interpretação são importantes. É razoável também que, para realizar-se a análise e interpretação dos dados observados, procede-se primeiramente a sua organização e descrição. Neste contexto, podemos considerar a Ciência Estatística como dividida basicamente em duas partes: a Estatística Descritiva que se preocupa com a organização e descrição dos dados experimentais, e a Estatística Indutiva*(são também utilizados as termos Estatística Inferencial ou Inferência Estatística, ou, ainda, Indução Estatística), que cuida da análise e interpretação dos dados. A Estatística Descritiva na sua função de organização e descrição dos dados tem as seguintes atribuições: A obtenção dos dados estatísticos é feita normalmente através de questionário ou de observação direta de uma população ou amostra. A organização dos dados consiste na ordenação e crítica quanto à correção dos valores observados, falhas humanas, omissões, abandono de dados duvidosos etc. A redução dos dados - O entendimento e a compreensão de grande quantidade de dados através da simples leitura de seus valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experimentado pesquisador. A Estatística Descritiva apresenta duas formas básicas para a redução do número de dados com os quais devemos trabalhar, chamadas variável discreta e variável contínua. A representação dos dados – Os dados estatísticos podem ser mais facilmente compreendidos quando apresentados por meio de uma representação gráfica, o que permite a visualização instantânea dos mesmos. 2 CIÊNCIA ESTATÍSTICA A obtenção de algumas informações que auxiliam a descrição do fenômeno observado (médias, proporções, tendências, índices, taxas, coeficientes) que facilitam a descrição dos fenômenos observados. Para darmos prosseguimento a apresentação da Estatística Descritiva, tratada mais detalhadamente no capítulo 2, é interessante que se entenda dois conceitos: Dados brutos - é uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo; Rol - é uma seqüência ordenada de dados brutos. Uma vez que o conceito usual do que seja a Estatística se relaciona, em geral, com o que chamaremos de Estatística Descritiva, queremos deixar bem claro desde já qual a finalidade da Estatística Indutiva, que será tratada no volume 2. Para tanto, dois conceitos fundamentais devem ser apresentados: o de população ou universo e o de amostra. Uma população ou universo, no sentido geral, é um conjunto de elementos com pelo menos uma característica comum. Essa característica comum deve delimitar inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Assim, por exemplo, podemos estar interessados em realizar uma pesquisa sobre a idade dos militares do Comando Militar do Leste. Logo, a população física que nos interessa examinar é aquela constituída pela totalidade dos militares existentes no Comando Militar do Leste. Isso parece extremamente simples, mas na verdade ainda não temos exatamente caracterizada a população que nos interessa. Será ela constituída apenas por aqueles que, no momento atual, estão na ativa? Ou deveremos incluir também os que já estão na reserva? Além de tudo, temos também o problema de definir a característica comum que distingue perfeitamente cada um dos elementos da população que realmente nos interessa pesquisar (do Efetivo Profissional ou também deveríamos incluir os do Efetivo Variável?). Uma vez perfeitamente caracterizada a população, o passo seguinte é o levantamento de dados acerca da característica (ou características) de interesse no estudo em questão. Grande parte das vezes, porém, não é conveniente, ou mesmo nem é possível, realizar o levantamento dos dados referentes a todos os elementos da população. Devemos então limitar nossas observações a uma parte da população, isto é, a uma amostra proveniente dessa população. Uma amostra é, pois, um subconjunto necessariamente finito de uma população, pois todos os seus elementos serão examinados para efeito da realização do estudo estatístico desejado. O objetivo da Estatística Indutiva é tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações. O próprio termo "indutiva" decorre da existência de um processo de indução, isto é, um processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusões sobre a realidade, no todo (o oposto ocorre nos processos de dedução, em que, partindo-se do conhecimento do todo, concluímos exatamente sobre o que deve ocorrer em uma parte) . 3 CIÊNCIA ESTATÍSTICA É fácil perceber que um processo de indução não pode ser exato. Ao induzir, portanto, estamos sempre sujeitos a erro. A Estatística Indutiva, entretanto, irá nos dizer até que ponto poderemos estar errando em nossas induções e com que probabilidade. Esse fato é fundamental para que uma indução (ou inferência) possa ser considerada estatística, e faz parte dos objetivos da Estatística Indutiva. É intuitivo que, quanto maior a amostra, mais precisas e mais confiáveis deverão ser as induções realizadas sobre a população. Levando esse raciocínio ao extremo, concluiríamos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a população, ao qual se denomina censo ou recenseamento. Ocorre, em realidade, que diversas razões levam, em geral, à necessidade de recorrer-se apenas aos elementos de uma amostra. Entre elas, podemos citar o custo do levantamento de dados e o tempo necessário para realizá-lo, especialmente se a população for muito grande, ou, então, podemos não ter acesso fácil ou possível a todos os elementos da população, etc. Um outro problema que surge paralelamente é o de amostragem. É claro que, se nossas conclusões referentes à população irão basear-se no resultado de amostras, certos cuidados básicos devem ser tomados no processo de obtenção dessas amostras, ou seja, no processo de amostragem. Muitas vezes, erros grosseiros e conclusões falsas ocorrem devido a falhas na amostragem. Esse problema será tratado com maior destaque no Cap. 3. Em resumo, um estudo estatístico completo, que recorra às técnicas da Estatística Indutiva, irá envolver também, direta ou indiretamente, tópicos de Estatística Descritiva, Cálculo de Probabilidades e Amostragem. Assim, para se desenvolver um curso razoável de Estatística, todos esses assuntos devem ser abordados em maior ou menor grau, dentro de uma seqüência, conforme indicado no diagrama da Fig. 1. Amostragem Estatística Descritiva Cálculo de Probabilidades Estatística Indutiva Figura 1 - Esquema geral de um curso de Estatística. As três ferramentas necessárias para a Inferência Estatística serão abordadas neste volume, para que no Volume 2 possamos abordar os aspectos da inferência e dos testes de hipóteses com mais profundidade. Os ANEXOS I, II e III, indicam as análises inferenciais adequadas para as diversas situações de pesquisa, porém, não descrevem os procedimentos a serem adotados em cada situação particular. Isso ocorre devido ao fato de que a decisão final depende não somente das restrições matemáticas, mas também dos objetivos do estudo e da própria natureza dos achados que serão produzidos. Contudo, é importante ter em mente que as tabulações apresentadas constituem um mapa de referência para auxiliar o pesquisador na escolha do procedimento mais adequado para cada situação de pesquisa. Capítulo 2 Estatística Descritiva 2.1 INTRODUÇÃO À ESTATÍSTICA DESCRITIVA Vimos, no Cap. 1, que a Estatística trabalha com informações referentes ao conjuntos de elementos observados. Nos problemas de Estatística Indutiva, esses elementos constituem uma amostra retirada da população que se deseja estudar. Em muitos casos, entretanto, o conjunto observado pode constituir a população inteira. Para iniciarmos o tratamento dos dados é preciso antes que se tenha(m) bem definida(s) qual(is) a(s) característica(s) de interesse que deverá(ão) ser verificada(s). Ou seja, não iremos trabalhar estatisticamente com os elementos existentes, mas com alguma(s) característica(s) desses elementos que seja(m) fundamental(is) ao nosso estudo. Por exemplo, o conjunto de elementos a ser estudado pode ser a população de uma Brigada. Este é o conjunto dos elementos, fisicamente definido e considerado. É claro que não iremos nem poderemos fazer qualquer tratamento matemático com os militares que formam esse conjunto. É preciso definir qual(is) característica(s) desses militares nos interessa(m) averiguar. Essa característica poderá ser, digamos, a idade dos militares. A idade é uma variável cujos valores (dados numericamente organizados em alguma escala de unidade), dependerão dos elementos considerados. Ou seja, se houver n elementos fisicamente considerados no estudo, esses elementos fornecerão n valores da variável idade, os quais serão então tratados convenientemente pela Estatística Descritiva. No presente capítulo, vamos apenas tratar do caso de variáveis unidimensionais, ou seja, quando apenas uma característica de interesse está associada a cada elemento do conjunto examinado. Esta característica poderá ser qualitativa ou quantitativa. Teremos, portanto, variáveis qualitativas ou quantitativas, como nos exemplos que seguem no Quadro 1. TIPO NOMINAL CARACTERÍSTICA VARIÁVEL DADO Sexo M,F. (QUALITATIVA) grupo sangüíneo A, B, AB,O Categorias ordenadas grau de dor, I, F, FR, S, A. ORDINAL (QUALITATIVA) escores em geral E, MB, B, R, I. Espectro ordenado com Flexões de braço 0a+ INTERVALAR intervalos quantificáveis (QUANTITATIVA) Peso 0a+ Espectro ordenado com Força - <0< + RAZÃO intervalos quantificáveis (QUANTITATIVA) Aceleração - <0< + (2) Duas categorias: dicotômica ou binária; Três ou mais categorias: polinomial. (3) Podem ser contínuas ou discretas. Diferença entre intervalar e razão está na presença do zero absoluto (razão), mas o tratamento estatístico é o mesmo. Categorias não ordenadas Quadro 1 - Variáveis e seus níveis de medidas. 5 ESTATÍSTICA DESCRITIVA 2.1.1 VARIÁVEIS QUALITATIVAS A variável será qualitativa quando resultar de uma classificação por tipos ou atributos, como nos exemplos que seguem: a) População: Variável: b) População: Variável: c) População: Variável: d) População: Variável: militares de uma Brigada. cor dos olhos (pretos, castanhos, azuis, verdes). peças produzidas por uma máquina. qualidade (perfeita ou defeituosa). óbitos em um Hospital de Guarnição, nos últimos cinco anos. causa mortis (moléstias cardiovasculares, cânceres, moléstias do aparelho digestivo, etc). candidatos a um exame para o Quadro Complementar de Oficiais. sexo (masculino ou feminino). 2.1.2 VARIÁVEIS QUANTITATIVAS A variável será quantitativa quando seus valores puderem ser expressos em números. As variáveis quantitativas podem ser subdividas em quantitativas discretas e quantitativas contínuas. Essa classificação corresponde aos conceitos matemáticos de discreto e contínuo. Assim, uma variável contínua será aquela que, teoricamente, pode assumir qualquer valor num certo intervalo razoável de variação. A variável discreta, ao contrário, pode assumir apenas valores pertencentes a um conjunto enumerável. Apresentamos a seguir exemplos de variáveis quantitativas discretas: a) População: Variável: b) População: Variável: c) População: Variável: casais residentes na Vila Militar. número de filhos (1,2,3,...). as jogadas possíveis com um dado. o ponto obtido em cada jogada (1,2,3,4,5,6). munições produzidas em uma linha de montagem. número de defeitos por unidade (1,2,3,...). Essas variáveis são todas discretas, pois seus possíveis valores são apenas números inteiros não-negativos, havendo, ainda, no caso (b), a restrição de estarem compreendidos entre 1 e 6. Como variáveis quantitativas contínuas, temos os exemplos que seguem: a) b) c) d) População: Variável: População: Variável: População: Variável: População: Variável: militares residentes na Vila Militar. idade (18, 18,5, 19,3333, ...). carga transportada por uma viatura. peso líquido (3/4ton, 1ton, 1,5ton, 5ton,....). peças produzidas por uma máquina. diâmetro externo (5mm, 3cm, 1,5m, ...). salários dos militares. descontos em contracheque (R$ 333,33, R$ 1.005,39, R$ 1234,56, ...). 6 ESTATÍSTICA DESCRITIVA Pelos exemplos apresentados, podemos perceber que os valores das variáveis discretas são obtidos mediante alguma forma de contagem, ao passo que os valores das variáveis contínuas resultam, em geral, de uma medição, sendo freqüentemente dados em alguma unidade de medida. Outra diferença entre os dois tipos de variáveis quantitativas está na interpretação de seus valores. Assim, a interpretação de um valor de uma variável discreta é dada exatamente por esse mesmo valor. Quando dizemos que um casal tem dois filhos, isso significa que o casal tem exatamente dois filhos. A interpretação de um valor de uma variável contínua, ao contrário, é a de que se trata de um valor aproximado. Isso decorre do fato de não existirem instrumentos de medida capazes de oferecer precisão absoluta, e, mesmo que existissem, não haveria interesse nem sentido em se querer determinar uma grandeza contínua com todas as suas casas decimais. Assim, ao executarmos a medição de algum valor de uma variável contínua, estamos sempre fazendo uma aproximação, resulta que qualquer valor apresentado de uma variável contínua deverá ser interpretado como uma aproximação compatível com o nível de precisão e com o critério utilizado ao medir. Por exemplo, se o diâmetro externo de uma munição, medido em milímetros, for dado por 7,62 mm, deveremos considerar que o valor exato desse diâmetro será algum valor entre 12,615 e 12,625 mm, que foi aproximado para 7,62 mm devido ao fato de a precisão adotada na medida ser apenas de centésimos de milímetros. Uma convenção útil adotada no presente texto é a de ser a precisão da medida automaticamente indicada pelo número de casas decimais com que se escrevem os valores da variável. Assim, um valor 7,60 indica que a variável em questão foi medida com a precisão de centésimos, não sendo exatamente o mesmo que 7,6, valor correspondente a uma precisão de décimos. Após observar as diferenças mencionadas entre as variáveis quantitativas discretas e contínuas, o leitor poderá ficar surpreso ao verificar que as técnicas da Estatística Descritiva serão praticamente idênticas em ambos os casos. Isso se deve, no entanto, ao fato de, formalmente, os dados referentes a variáveis discretas ou contínuas serem análogos, pois os valores da variável contínua serão sempre apresentados dentro de um certo grau de aproximação. Assim, apenas na interpretação e descrição gráfica dos resultados é que haverá diferenças a serem consideradas, conforme veremos, A Estatística Descritiva pode descrever os dados através de gráficos, distribuições de freqüência ou medidas associadas a essas distribuições, conforme veremos a seguir. 2.2 TÉCNICAS DE DESCRIÇÃO GRÁFICA O primeiro passo para se descrever graficamente um conjunto de dados observados é verificar as freqüências (quantas vezes o valor aparece na série) dos diversos valores existentes da variável. 7 ESTATÍSTICA DESCRITIVA Definimos a freqüência de um dado valor de uma variável (qualitativa ou quantitativa) como o número de vezes que esse valor foi observado. Denotaremos a freqüência do i-ésimo valor observado por fi, sendo n o número total de elementos observados, verifica-se imediatamente que o somatório de todas as freqüências individuais é igual ao número de observações: fi = n A associação das respectivas freqüências a todos os diferentes valores observados define a distribuição de freqüências. Alternativamente, poderemos usar as freqüências relativas. Definimos a freqüência relativa (ou proporção) de um dado valor de uma variável (qualitativa ou quantitativa), como o quociente de sua freqüência pelo número total de elementos observados. Ou seja, denotando por fri a freqüência relativa ou proporção do iésimo elemento observado, temos: fri = fi n sendo fri = 1 = 100/100 = 100% Se de 50 alunos (n) de um curso de pós-graduação 20 (fi) alunos terminarem o curso com menção MB, poderemos dizer que: fri=20/50 = .40 (freqüência relativa) ou 40,00% (percentagem), ou seja, 40,00% dos alunos terminaram o curso com menção MB 2.2.1 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUALITATIVAS No caso de variáveis qualitativas, a descrição gráfica é muito simples, bastando computar as freqüências ou freqüências relativas das diversas classificações existentes, elaborando, a seguir, um gráfico conveniente. Esse gráfico poderá ser um diagrama de barras, um diagrama circular ou outro qualquer tipo de diagrama equivalente. Tomemos, como exemplo, um grupo de 135 candidatos a vagas em um curso de pósgraduação do Centro de Estudos de Pessoal, classificados segundo sua formação específica de graduação (arma/quadro/serviço), conforme a Tab. 1 As duas colunas referentes ao número de militares contêm, respectivamente as freqüências, e as freqüências relativas dadas em porcentagens, em que a formação acadêmica se distribui entre esses candidatos. A variável qualitativa considerada no presente exemplo é dada por essa formação, e as freqüências relativas observadas definem a distribuição de freqüências que essa variável apresentou. Tabela 1 - Formação específica de militares por graduação. Número de militares fi fri* Infantaria 38 .2815 Cavalaria 30 .2222 Artilharia 35 .2593 Engenharia 15 .1111 Outros 17 .1259 Total 135 1.000 * Para fins didáticos, “fri” = freqüência relativa e “%” = porcentagem Formação %* 28,15 22,22 25,93 11,11 12,59 100,0% 8 ESTATÍSTICA DESCRITIVA CANDIDATOS POR GRADUAÇÃO A UM CURSO DE PÓS-GRADUAÇÃO DO CEP FORMAÇÃO ACADÊMICA Infantaria 38 Cavalaria 30 Artilharia 35 Engenharia 15 Outros 17 0 5 10 15 20 25 30 35 40 CANDIDATOS Figura 2 - Diagrama de barras da formação específica de militares por graduação. Esses dados podem ser graficamente representados de diversas formas.Na Fig. 2 eles estão representados por meio de um diagrama de barras e, na Fig. 3 por um diagrama circular. A vantagem da representação gráfica está em possibilitar uma rápida impressão visual de como se distribuem as freqüências ou as freqüências relativas no conjunto de elementos examinados. CANDIDATOS POR GRADUAÇÃO A UM CURSO DE PÓS-GRADUAÇÀO DO CEP Outros 12,6% Engenharia 11,1% Cavalaria 22,2% Infantaria 28,1% Artilharia 25,9% Figura 3 - Diagrama circular da formação específica de militares por graduação. 9 ESTATÍSTICA DESCRITIVA Entretanto deve-se mencionar ainda a possibilidade de se considerarem distribuições segundo outros critérios que não propriamente a freqüência ou a freqüência relativa das observações. Como exemplo, tomemos as superfícies das cinco regiões geográficas que compõem o Brasil, apresentadas na Tab. 2, conforme dados do IBGE (Instituto Brasileiro de Geografia e Estatística). Calculando-se as porcentagens correspondentes, pode-se construir o diagrama circular dado na Fig. 4. Tabela 2 - Regiões geográficas do Brasil. Superfície (km2) % Norte 3.869.637,9 45,30 Centro-oeste 1.612.077,2 18,90 Nordeste 1.561.177,8 18,30 Sudeste 927.286,2 10,80 Sul 577.214,0 6,70 Região Total 8.547.393,1 100,00 ÁREA TERRITORIAL NACIONAL CORRESPONDENTE A CADA REGIÃO DO BRASIL 10,80% 6,70% 45,30% Norte Centro-oeste Nordeste Sudeste 18,30% Sul 18,90% Figura 4 - Diagrama circular das regiões geográficas do Brasil. 2.2.2 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS DISCRETAS No caso das variáveis quantitativas discretas, a representação gráfica será também, normalmente, feita por meio de um diagrama de barras. A diferença em relação ao caso anterior está em que, sendo a variável quantitativa, seus valores numéricos podem ser representados num eixo de abscissas, o que facilita a representação. Note-se que, aqui, existe uma enumeração natural dos valores da variável, o que não havia no caso das variáveis qualitativas. A construção do diagrama de barras é feita, desde que se disponha da tabela de freqüências. Esta, por sua vez, pode ser facilmente construída se conhecemos todos os valores da variável no conjunto de dados. As barras do diagrama podem ser verticais ou horizontais conforme a disposição das variáveis nos eixos cartesianos. 10 ESTATÍSTICA DESCRITIVA Vamos, a titulo de exemplo, representar graficamente o conjunto dado a seguir, constituído hipoteticamente por vinte valores da variável “número de erros de decriptografia” obtidos a partir de mensagens recebidas em um centro de mensagens. Sejam os seguintes os valores obtidos: 2 4 2 1 2 3 1 0 5 1 0 1 1 2 0 1 3 0 1 2 Usando a letra x para designar os diferentes valores da variável, podemos construir a distribuição de freqüências dada na Tab. 3, a partir da qual elaboramos o diagrama de barras correspondente, dado pela Fig. 5. Tabela 3 - Distribuição de freqüências de erros de decriptografia por mensagem. ERROS DE DECRIPTOGRAFIA POR MENSAGEM xi fi 0 4 1 7 2 5 3 2 4 1 5 1 fi= 20 ERROS DE DECRIPTOGRAFIA AVALIADAS 20 MENSAGENS No 8 7 7 6 5 4 5 4 3 2 2 1 1 1 4 5 0 0 1 2 3 NÚMERO DE ERROS Figura 5 - Diagrama de barras para freqüências de erros de decriptografia por mensagem. 11 ESTATÍSTICA DESCRITIVA Caso o interesse fosse pela representação gráfica das freqüências relativas da Tab. 3 poderíamos representá-la conforme a Tab. 4, a partir da qual elaboraríamos o diagrama de barras correspondente, dado pela Fig. 6. Tabela 4 - Distribuição fri dos erros de decriptografia por mensagem. ERROS DE DECRIPTOGRAFIA POR MENSAGEM xi fi fri 0 4 .200 1 7 .350 2 5 .250 3 2 .100 4 1 .050 5 1 .050 fi= 20 fri= 1 ERROS DE CRIPTOGRAFIA POR MENSAGEM 40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% 0 1 2 3 4 5 NÚMERO DE ERROS Figura 6 - Diagrama de barras para freqüências relativas de decriptografia por mensagem. O diagrama de barras, conforme já mencionamos, mostra a distribuição das freqüências no conjunto de dados, Tratando-se de variáveis quantitativas, uma outra forma de representação gráfica é também possível, tendo, às vezes, interesse, com base nas freqüências acumuladas, as quais denotaremos por Fi. A freqüência acumulada, em qualquer ponto do eixo das abscissas, é definida como a soma das freqüências de todos os valores menores ou iguais ao valor correspondente a esse ponto. Analogamente, teríamos as freqüências relativas acumuladas. Fi= fi e Fri= fri 12 ESTATÍSTICA DESCRITIVA Voltando ao exemplo, podemos facilmente verificar que as freqüências acumuladas (Fi) e as freqüências relativas acumuladas (Fri), correspondentes aos valores notáveis da variável, são as dadas na Tab. 5. Tabela 5 - Distribuição Fi e Fri dos erros de decriptografia por mensagem. Erros de decriptografia por mensagem xi fi Fi fri Fri 0 4 4 .200 .200 1 7 11 .350 .550 2 5 16 .250 .800 3 2 18 .100 .900 4 1 19 .500 .950 5 1 20 .500 1.000 20 - 1 - A partir da Tab. 5 pode-se construir o gráfico das freqüências acumuladas apresentado na Fig. 7, e o gráfico das freqüências relativas acumuladas, dado na Fig. 8.. ERROS DE CRIPTOGRAFIA POR MENSAGEM ERROS DE CRIPTOGRAFIA POR MENSAGEM Fi 25 Fri 120,0% 20 100,0% 80,0% 15 60,0% 10 40,0% 5 20,0% 0 0,0% 0 1 2 3 4 5 Nº DE ERROS Figura 7 - Freqüências acumuladas dos erros de decriptografia em 20 mensagens. 0 1 2 3 4 5 Nº DE ERROS Figura 8 - Freqüências relativas acumuladas dos erros de decriptografia em 20 mensagens. De acordo com a Fig. 7 pode-se identificar que 4 mensagens não contêm erro de decriptografia, 11 mensagens contêm até um erro de decriptografia, 16 mensagens contêm até 2 erros de decriptografia, e assim por diante. Da mesma forma, de acordo com a Fig. 8 pode-se identificar que apenas 20,00% das mensagens não contêm erro de decriptografia, 55,00% das mensagens contêm até um erro de decriptografia, 90,00% das mensagens contêm até 3 erros de decriptografia, e assim por diante. 13 ESTATÍSTICA DESCRITIVA 2.2.3 DESCRIÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS CONTÍNUAS No caso das variáveis quantitativas contínuas, o procedimento até a obtenção da tabela de freqüências pode ser análogo ao visto no caso anterior. Entretanto o diagrama de barras não mais se presta à correta representação da distribuição de freqüências, devido à natureza contínua da variável. Examinemos um exemplo: tomemos a amostra a seguir, constituída por 25 valores da variável diâmetro de peças produzidas por uma máquina, dados em milímetros, conforme a tabela primitiva abaixo: 21,5 21,7 21,3 21,5 21,4 21,4 21,6 21,5 21,9 21,5 21,8 21,4 21,7 21,6 21,6 21,5 21,2 21,4 21,3 21,9 21,6 21,7 21,4 21,5 21,5 Na Tab. 6 temos esses mesmos dados organizados em termos de freqüências e de freqüências relativas, simples e acumuladas. Tabela 6 - Distribuições fi, fri, Fi e Fri do diâmetro de peças produzidas por uma máquina. Diâmetro de peças produzidas por uma máquina Classe Medida fi Fi fr (i) (xi) 21,15 21,25 21,2 .040 10 10 .040 21,25 21,35 21,3 23 33 .092 .132 21,35 21,45 21,4 47 80 .188 .320 21,45 21,55 21,5 70 150 .280 .600 21,55 21,65 21,6 38 188 .152 .752 21,65 21,75 21,7 32 220 .128 .880 21,75 21,85 21,8 12 232 .048 .928 21,85 21,95 21,9 18 250 250 - .072 1.000 1,00 - = - Fri Ao passarmos à representação gráfica, porém, devemos lembrar a correta interpretação dos valores das variáveis contínuas. Assim, por exemplo, sabemos que a freqüência 5 associada ao valor 21,4 significa, na verdade, que temos cinco valores compreendidos entre os limites 21,35 e 21,45, que foram aproximados, no processo de medição, para 21,4. Logo, uma representação gráfica correta deverá associar a freqüência 5 ao intervalo 21 ,35 2 1,45. Isso se faz por meio de uma figura formada com retângulos cujas áreas representam as freqüências dos diversos intervalos existentes. Tal figura chama-se histograma e é apresentada na Fig. 9. 14 ESTATÍSTICA DESCRITIVA DIÂMETRO DE PEÇAS PRODUZIDAS POR UMA MÁQUINA fi 80 70 60 50 40 30 20 10 0 21,15 21,25 21,35 21,45 21,55 21,65 21,65 21,85 21,95 mm Figura 9 - Histograma das medidas do diâmetro de peças produzidas por uma máquina (representação pelas classes). Vemos que, no caso das variáveis contínuas, as freqüências serão, na verdade, associadas a intervalos de variação da variável e não a valores individuais. A tais intervalos chamaremos classes de freqüências. As classes de freqüências são comumente representadas pelos seus pontos médios, conforme a Fig. 10. DIÂMETRO DE PEÇAS PRODUZIDAS POR UMA MÁQUINA fi 80 70 60 50 40 30 20 10 0 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 mm Figura 10 - Histograma das medidas do diâmetro de peças produzidas por uma máquina (representação pelos pontos médios das classes). Uma outra representação gráfica que, como o histograma, pode ser feita no caso de variáveis contínuas é dada pelo polígono de freqüências, que se obtêm unindo-se os pontos médios dos patamares. Para completar a figura, consideram-se duas classes laterais com freqüência nula. 15 ESTATÍSTICA DESCRITIVA Uma exceção bastante comum a essa regra aparece no caso de variáveis essencialmente positivas cujo histograma se inicia no valor zero, pois não haveria sentido em se considerar um intervalo com valores negativos. Na Fig. 11 temos o polígono de freqüências correspondente ao histograma da Fig. 10. DIÂMETRO DE PEÇAS PRODUZIDAS POR UMA MÁQUINA fi 80 70 60 50 40 30 20 10 0 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 mm Figura 11 - Polígono de freqüências das medidas do diâmetro de peças produzidas por uma máquina. Podemos ainda construir o polígono de freqüências acumuladas. Este é traçado simplesmente verificando-se as freqüências acumuladas (Fi ou Fri) ao final de cada uma das classes. Pode ser construído em termos das freqüências acumuladas (Fig.12a) ou das freqüências acumuladas relativas (Fig. 12b), conforme os dados da Tab. 6. DIÂMETRO DE PEÇAS PRODUZIDAS POR UMA MÁQUINA DIÂMETRO DE PEÇAS PRODUZIDAS POR UMA MÁQUINA Fi Fri 275 250 225 200 175 150 125 100 75 50 25 0 1,1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 mm Figura 12.a - Ogiva de Galton (Fi) dos diâmetros de peças produzidas por uma máquina. 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 mm Figura 12.b - Ogiva de Galton (Fri) dos diâmetros de peças produzidas por uma máquina. Caso uma peça, para ser aprovada, não pudesse medir menos que 21,65mm, por meio da Ogiva de Galton Fi (Fig. 12a) podemos notar que 188 peças estariam fora das especificações.Se as peças produzidas não pudessem medir 21,55mm ou mais, por meio da Ogiva de Galton Fri (Fig. 12b) é possível notar que 60,00% das peças estariam aprovadas. 16 ESTATÍSTICA DESCRITIVA No exemplo anterior vimos que, no caso das variáveis contínuas, a consideração de classes de freqüências é fundamental para a correta representação gráfica. Naquele exemplo as classes consideradas tinham por pontos médios os próprios valores originais do conjunto de dados disponíveis, o que foi suficiente para a obtenção de uma representação gráfica satisfatória. Muitas vezes, entretanto, uma representação satisfatória dos dados somente é conseguida pelo seu agrupamento em classes de freqüências que englobam diversos valores da variável. A freqüência de cada classe será, nesse caso, igual à soma das freqüências de todos os valores existentes dentro da classe (esse procedimento também pode ser aplicado no caso de variáveis discretas, a fim de se obter uma representação mais conveniente). O procedimento descrito corresponde a uma diminuição proposital da precisão com que os dados foram computados. Ou seja, propositalmente deixamos de lado uma parcela da informação contida nos dados originais, tendo em vista obter uma representação mais adequada. O problema prático a resolver, em tais casos, é o de determinar qual o número de classes a constituir, qual o tamanho ou amplitude dessas classes e quais os seus limites. É claro que, por simplificação, recomenda-se, em muitos casos, a construção de classes de mesma amplitude. Usaremos a seguinte notação: n: k: AT: Lmax: lmin: h: Li: li: número total de dados disponíveis; número de classes; amplitude total da distribuição de freqüência (Lmax – lmin); maior valor da distribuição de freqüências; menor valor da distribuição de freqüências; amplitude do intervalo de classes, diferença entre os limites (Li-li) limite máximo da classe (normalmente aparente); limite mínimo da classe (valor real); A questão do número de classes é teoricamente controvertida. Diversos autores apresentam soluções diferentes. Entretanto, com um pouco de bom-senso e experiência, chega-se sem grande dificuldade a valores satisfatórios para h, k e para os limites das classes. A obtenção de soluções simples é, em geral, desejável. Para fins de orientação adotaremos a fórmula proposta por Sturges: k= 1+3,3 . log n Vamos definir a amplitude do conjunto de dados como sendo a diferença entre o maior e o menor dos valores observados. Vamos designá-la por AT. É claro que, uma vez fixado k: h=AT k Entretanto é importante notar que a amplitude das classes não deverá ser fracionária em relação à precisão com que os dados são apresentados, pois isso impossibilitaria uma correta subdivisão em classes. Notemos também que os limites das classes são, muitas vezes, apresentados sob formas que não correspondem ao significado real dos valores contidos na classe. 17 ESTATÍSTICA DESCRITIVA Dizemos, então, que temos limites aparentes. Em tais casos, pode ser conveniente a determinação dos limites reais das classes. Tomemos como exemplo o conjunto de valores a seguir, que suporemos sejam as observações do número de repetições do exercício remador executado por n = 50 soldados organizados no ROL (dados brutos obtidos, organizados em ordem crescente ou decrescente) abaixo: ROL do número de repetições do exercício remador 41 50 53 55 61 43 50 53 55 62 44 50 54 55 62 46 51 54 56 63 46 51 54 56 64 48 51 54 57 64 48 51 54 57 65 48 53 54 58 67 49 53 55 59 68 49 53 55 61 71 É fácil verificar que a distribuição de freqüências diretamente obtida a partir desses dados seria dada por uma tabela razoavelmente extensa. A representação gráfica dessa distribuição, apresentada na Fig. 13 deixa de ser conveniente para esses dados. RESULTADO OBTIDO POR 50 SOLDADOS NO EXERCÍCIO REMADOR Nr 7 6 5 4 3 2 1 0 41 43 44 46 48 49 50 51 53 54 55 56 57 58 59 61 62 63 64 65 67 68 71 Nr de repetições Figura 13 - Gráfico de colunas do resultado obtido por 50 soldados no exercício remador Vamos determinar o número de classes: Dado que: k= 1+3,3 . log n Onde: n = 50 log 50= 1,69897 Logo: k= 1+3,3 . 1,69897 k= 1+ 5,606601 k= 6,606601 (6 ou 7?) Quadro 2 – Cálculo do número de classes de uma distribuição de freqüências. Notemos que o valor de k pode ser adequado de acordo com AT para que se acomodem os dados de acordo com o intervalo de classe mais conveniente: Dado que: h=AT/k Onde: AT = 71-41= 30 k=6 k=7 Logo: h =30/6 = 5 * h =30/7 = 4,28571 *Adotaremos k = 6, pois h será inteiro (5) Quadro 3 – Cálculo da amplitude de classe de uma distribuição de freqüências. 18 ESTATÍSTICA DESCRITIVA Na Tab 7 são dados os limites das classes e as freqüências respectivas. Nessa tabela, apresentamos os limites das classes dados de três maneiras equivalentes. As duas primeiras são formas usualmente empregadas e correspondem a limites aparentes. A terceira indica os limites reais dessas classes. Note-se que não há possibilidade de dúvida quanto a que classe cada elemento pertence. Tabela 7 - Agrupamento em classes de freqüências do resultado obtido por 50 soldados no exercício remador. Classes Limites aparentes Primeira notação 40 45 50 55 60 65 70 45 50 55 60 65 70 75 Limites reais Segunda notação 40 45 50 55 60 65 70 44 49 54 59 64 69 74 39,5 44,5 49,5 54,5 59,5 64,5 69,5 44,5 49,5 54,5 59,5 64,5 69,5 74,5 Ponto médio (xi) 42.5 47.5 52.5 57.5 62.5 67.5 70.5 = fi 3 8 16 12 7 3 1 50 O histograma e o polígono de freqüências, correspondentes ao agrupamento feito, são dados na Fig. 14 Vemos que essa representação gráfica é muito mais apropriada do que a anteriormente obtida. RESULTADOS DO EXERCÍCIO REMADOR Nr 20 15 10 5 0 42.5 47.5 52.5 57.5 62.5 67.5 70.5 Repetições Figura 14 - Representação gráfica dos dados agrupados. Muitas vezes, o polígono de freqüências obtido sugere o traçado de uma curva contínua.Em outras palavras, se os dados provém de uma amostra, eles estão sugerindo qual seria, aproximadamente, a distribuição da população, para a qual poderíamos adotar algum modelo ideal de distribuição. Um modelo freqüentemente usado é o da distribuição normal, estudada pelo Cálculo de Probabilidades. 19 ESTATÍSTICA DESCRITIVA – MÉDIA 2.3 CARACTERÍSTICAS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS Além da descrição gráfica, muitas vezes é necessário sumariar certas características das distribuições de freqüências por meio de certas quantidades, que iremos estudar a seguir. Tais quantidades são usualmente denominadas de medidas da distribuição de freqüências, por procurarem quantificar alguns de seus aspectos de interesse. Temos assim, as chamadas medidas de posição, de dispersão, de assimetria e de curtose. As medidas de posição e de dispersão são as mais importantes, servindo para localizar as distribuições e caracterizar sua variabilidade, tendo grande aplicação em problemas de Estatística Indutiva. As medidas de assimetria e de achatamento ajudam a caracterizar a forma das distribuições. 2.3.1 MEDIDAS DE POSIÇÃO As medidas de posição servem para localizar a distribuição de freqüências sobre o eixo de variação da variável em questão. Estudaremos cinco dos principais tipos de medidas de posição: a média, a mediana, a moda, os quartis e os percentis. A média e a mediana indicam, por critérios diferentes, o centro da distribuição de freqüências. Por essa razão, costuma-se dizer também que são medidas de tendência central. A moda indica a região de maior concentração de freqüências na distribuição. Os quartis (Q1, Q2, Q3) dividem o conjunto ordenado de valores em quatro subconjuntos com igual número de elementos (25% dos elementos da seqüência). Pode haver o interesse em dividir a seqüência de dados em dez partes iguais, para tanto utilizamos os decis (não abordados neste manual por tratarem-se de um tipo particular de percentis). Os percentis por sua vez dividem a distribuição de freqüência em cem partes iguais (note que: D1 = P10, D2 = P20, D3 = P30, D4 = P40, D5 = P50, D6 = P60, D7 = P70, D8 = P80, e D9 = P90). 2.3.1.1 MÉDIA ( X ) A média de uma distribuição de freqüências é o valor obtido quando todos os dados observados são somados e divididos pelo número de observações. Normalmente utiliza-se a média aritmética (quando os resultados dispostos em tabela primitiva ou ROL), ou a média ponderada (quando os resultados estão categorizados em uma tabela de freqüências) Sendo xi (i = 1,2,...,n) os valores da variável, e fi a média aritmética pode ser calculada pela seguinte fórmula: X= xi / n Por exemplo, utilizaremos os dados do Rol apresentado na Pág.17. (x1=41, x2=43, x3=46, x4=46, x5=,..., x50=71). Onde: xi= 27311 n = 50 Dado que: X= xi / n Logo: X= 2731 / 50 X= 54,62 ~= 55 Poderíamos dizer que "em média", os soldados executaram 55 abdominais. Notemos que X.n = total de abdominais executadas pelos 50 soldados, ou seja, 2731. Quadro 4 – Cálculo da média aritmética. 20 ESTATÍSTICA DESCRITIVA Para o cálculo da média ponderada tomemos, por exemplo, os dados da Tab. 6. apresentados na Tab 8. Tabela 8. Cálculo da média ponderada. Diâmetro de peças produzidas por uma máquina Classe (i) 21,15 21,25 (xi) fi fixi 21,2 1 21,2 21,25 21,35 21,3 2 42,6 21,35 21,45 21,4 5 107 21,45 21,55 21,5 7 150,5 21,55 21,65 21,6 4 21,65 21,75 21,7 3 86,4 65,1 21,75 21,85 21,8 1 21,8 21,85 21,95 21,9 2 43,8 - 25 538,4 = Fórmula da média ponderada: X= fixi Considerando: n xi= ponto médio da classe fi= freqüência de cada classe n= número de observações Onde: Logo: n = 25 fixi= 538,4 X= 538,4 / 25 X= 21, 54 Poderíamos dizer que as peças produzidas pela máquina possuem um diâmetro médio de 21,54mm. Quadro 5 – Cálculo da média ponderada. Considerando uma distribuição por classes de freqüências, podemos definir sua média como o valor obtido, substituindo os xi pelos pontos médios das classes e considerando as fi corno as respectivas freqüências (ou freqüências relativas se for o caso). A média assim calculada para os dados agrupados em classes deverá ser aproximadamente igual à média aritmética exata dos n dados originais. Dentre as propriedades da média, podemos destacar as seguintes: a. multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por essa constante; b. somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante. Utilizando as propriedades citadas, podemos introduzir simplificações no cálculo da média, o que será particularmente útil se os valores xi forem elevados e o cálculo precisar ser feito manualmente. Como hoje é muito comum dispor-se de calculadoras eletrônicas ou softwares que realizam esses cálculos, não nos preocuparemos com essa questão. 21 ESTATÍSTICA DESCRITIVA 2.3.1.2 MEDIANA (Md) A mediana é uma quantidade calculada com base na ordem dos valores que formam o conjunto de dados. Definimos a mediana de um conjunto de n valores ordenados como o valor ou dado que divide a série estatística ao meio (50%dos valores serão menores e 50%dos valores serão maiores que o valor da mediana). A mediana é geometricamente interpretada como ponto tal que uma vertical por ele traçada divide a área sob o histograma em duas partes iguais. Nas variáveis discretas: Sendo n impar, a Md é igual ao valor de ordem (n + 1)/2 desse conjunto. Dados os valores: 35 36 37 38 40 40 41 Logo: 46 Md = 40 Dado que: Md= (n + 1)/2 Onde: n=9 43 Md= (9 + 1)/2 Md= 5º elemento Isto quer dizer que ela possui o valor de x5. Notemos que o x5 (40), é o valor que divide a série estatística ao meio, 50% dos valores são menores ou iguais a 40 e 50%dos valores serão maiores ou iguais a 40. Quadro 6 – Cálculo da mediana com n impar. Se n for par, a Md poderia ser definida como valor médio entre o de ordem n/2 e o de ordem (n/2) + 1. Dados os valores: 12 14 14 15 Dado que: n/ 2< Md < (n/ 2) +1 8/ 2< Md < (8/ 2) +1 4º< Md < 5º Md =(15+16)/2 Md =15,5 Isto quer dizer que ela possui o valor médio entre o 4° e o 5° elemento da série (x4+x5)/2 que é (15+16)/2 = 15,5. Onde: n=8 16 16 17 20 15 < Md < 16 Logo: Notemos que o valor 15,5, embora por vezes não tenha um significado real para a variável, é o valor que divide a série Estatística ao meio, 50%dos valores são menores ou iguais a 15,5 e 50%dos valores serão maiores ou iguais a 15,5. Quadro 7 – Cálculo da mediana com n par. 22 ESTATÍSTICA DESCRITIVA Considerando, agora, uma distribuição em classes de freqüências, podemos calcular um valor para sua mediana pela expressão: Md = l + ( p` - Fant) . h f Onde: l: p`: fi: Fant: h: f: tal que: p`= fi 2 limite inferior da classe que contém a Md número que define a posição em que se encontra a Md (classe que contém a Md) número de elementos do conjunto de dados freqüência acumulada da classe anterior à classe que contém a Md amplitude da classe que contém a Md freqüência da classe que contêm a Md Quadro 8 – Fórmula da mediana para variáveis contínuas. Tomemos, por exemplo, os dados da Tab. 6 apresentados na Tab. 9. Tabela 9. Cálculo da mediana. Diâmetro de peças produzidas por uma máquina Classe Medida fi Fi (i) (xi) 21,15 21,25 21,2 1 1 3 21,25 21,35 21,3 2 21,35 21,45 21,45 21,55 21,4 21,55 8 21,5 5 7 15 21,65 21,6 4 19 21,65 21,75 21,7 3 22 21,75 21,85 21,8 1 23 21,85 21,95 21,9 2 25 - 25 = Onde: fi=25 n = 25 Dado que: p`= fi 2 Logo: p`= 25/2 = 12,5 Dado que: Md = l + (p` - Fant).h f Logo: Md = 21,45+ (12,5-8).0,1 Onde: l=21,45 Fant= 8 7 f=7 Md =21,51 h=21,55-21,45=0,1 Escolhemos a 4ª classe, pois ela contém p`. Notemos que o valor 21,51mm é o valor que divide a série estatística ao meio. Quadro 9 – Cálculo da mediana. A mediana pode ser usada como alternativa, em relação à média, para caracterizar o centro do conjunto de dados. Em certos casos, efetivamente, seu uso é mais conveniente, Por exemplo, no caso de distribuições de rendas, a mediana é, em geral, melhor indicador central que a média, pois não sobre a influência de valores extremos. Como ilustração, imaginemos um conjunto de doze pessoas com as seguintes rendas mensais (R$): 2.500 4,800 2.700 5.000 3,000 5.500 3.200 6.000 3.300 7.000 4.200 80.000 A média desses doze valores é 10.600, ao passo que sua mediana é 4.500, não tendo sido influenciada pelo valor extremo 80.000, muito maior que os demais valores. Vemos, nesse caso, que a mediana fornece uma melhor idéia do centro da distribuição. 23 ESTATÍSTICA DESCRITIVA 2.3.1.3 MODA (Mo) A moda é uma medida de posição, pois indica a região das máximas freqüências. Definimos a moda (ou modas) de um conjunto de valores, como o valor (ou valores) de máxima freqüência. Assim, no exemplo da Fig.13, a moda é 54 pois é o valor que mais se repete, no caso da Tab. 7, a classe modal (kMo) é a 50 55. No caso de distribuições de freqüências em classes de mesma amplitude, é comum definir-se também a moda como um ponto pertencente á classe modal, dado por Mo = l + Onde: l: f*: fant: fpost: h: 1 .h 1+ 2 tal que: 1 = f* - fant 2 = f* - fpost limite inferior da classe que contém a Mo; freqüência da classe que contêm a Mo; freqüência da classe anterior à classe que contêm a Mo; freqüência da classe posterior à classe que contêm a Mo; amplitude da classe que contém a Mo. Quadro 10 – Fórmula da moda. Para o cálculo da moda tomemos, por exemplo, os dados da Tab. 7 apresentados na Tab. 10. Tabela 10. Cálculo da moda. Diâmetro de peças produzidas por uma máquina Classe Medida fi Fi (i) (xi) 21,15 21,25 21,2 1 1 21,25 21,35 21,35 21,45 21,3 2 3 21,4 5 8 21,45 21,55 21,5 7 15 21,55 21,65 21,6 4 19 21,65 21,75 21,7 3 22 21,75 21,85 21,8 1 23 21,85 21,95 21,9 2 25 - 25 = Dado que: Onde: kMo= 4ªclasse f*=7 fant= 5 fpost= 4 1 = f*-fant 2 = f*-fpost Logo: 1=7–5=2 2=7–4=3 Dado que: Mo = l + 1 .h 1+ 2 Onde: Logo: 1= 2 Mo = 21,45 + 2 . 0,1 2= 3 2+3 l= 21,45 Mo = 21,49 h= 21,55-21,45=0,1 Quadro 11 – Cálculo da moda. Relação empírica entre média, mediana e moda A seguinte relação empírica em geral subsiste aproximadamente para os conjuntos de dados observados: X - Mo = 3( X – Md) 24 ESTATÍSTICA DESCRITIVA Essa expressão pode ser apresentada sob diversas formas e indica geometricamente que a mediana situa-se entre a média e a moda, sendo sua distância à moda o dobro de sua distância à média. Sua verificação na prática tende a ser mais perfeita para conjuntos maiores de dados e sendo a moda calculada com base em dados agrupados em classes de freqüências. 2.3.1.4 QUARTIS (Q) E PERCENTIS (P) A idéia de mediana, como vimos, é a de dividir o conjunto ordenado de dados em dois subconjuntos com igual número de elementos. Essa idéia pode ser generalizada. Como dito anteriormente, os quartis (Q1, Q2, Q3), dividem um conjunto ordenado de valores em quatro subconjuntos com igual número de elementos. Sua determinação seria feita de modo semelhante á da mediana. O segundo quartil (Q2), obviamente, é a própria mediana. Se a mediana divide a distribuição de freqüências ao meio, os quartis dividem a dividem em ¼ e 3/4 , ou seja: 25% dos valores < Q1 < 75% dos valores 75% dos valores < Q3 < 25% dos valores 12 14 14 Q1 =14 15 16 Md =15,5 16 17 20 Q3 =16,5 Os valores dos quartis também podem ser obtidos em distribuições contínuas, de acordo com a fórmula dos percentis (fórmula genérica este tipo de medida de posição), de acordo com o quadro 12. P = l + ( p`- Fant) .h f Onde: l: p`: fi: Fant: h: f: c: tal que: p`= c fi 100 limite inferior da classe que contém a posição desejada posição em que se encontra o percentil (classe que contém a P) número de elementos do conjunto de dados freqüência acumulada da classe anterior à classe que contém a P amplitude da classe que contém a P freqüência da classe que contêm a P porcentagem que se deseja obter Quadro 12 – Fórmula geral para quartis e percentis. Para obtermos o valor que divide uma distribuição de freqüências, sendo que 15% dos valores sejam menores ou iguais a este valor, então deveríamos calcular P15, logo c=15 Sabemos que Q1 é o valor que divide a distribuição de freqüências em 25% e 75%, então podemos concluir que o valor de Q1 = P25, logo c=25 Sabemos que Q3 é o valor que divide a distribuição de freqüências em 75% e 25%, então podemos concluir que o valor de Q3 = P75, logo c=25 25 ESTATÍSTICA DESCRITIVA 2.3.2 MEDIDAS DE DISPERSÃO As informações fornecidas pelas medidas de posição podem ser insuficientes para compararmos e classificarmos as séries estatísticas quanto a sua homogeneidade, dispersão ou afastamento dos dados. As medidas de dispersão surgem como maneira de indicar o quanto os dados se apresentam dispersos em torno da região central (medida de posição). Caracterizam, portanto, o grau de variação existente no conjunto de valores. As principais medidas de dispersão são: a amplitude total, a variância, o desvio-padrão e o coeficiente de variação. 2.3.2.1 A AMPLITUDE TOTAL (AT) A amplitude total, já mencionada no item 2.2.3, é definida como a diferença entre o maior e o menor valores do conjunto de dados: AT = Lmax – lmin. É claro que o valor de AT está relacionado com a dispersão dos dados. Entretanto, por depender de apenas dois valores do conjunto de dados, a amplitude total contém relativamente pouca informação quanto à dispersão. Salvo aplicações no controle da qualidade, a amplitude total não é muito utilizada como medida de dispersão. 2.3.2.2 A VARIÂNCIA (s2) A variância é a média dos quadrados das diferenças dos valores em relação à sua própria média, e para dados ordenados em tabelas primitivas ou ROL é dada por: s2 = (xi – X) 2 n-1 Notemos que xi – X corresponde ao desvio que cada elemento possui em relação à média, e que utilizamos o artifício matemático de elevarmos esta diferença ao quadrado [(xi – X)² ] , pois caso contrário o somatório teria o valor zero [ (xi – X)=0], tornando sem sentido a fórmula matemática. Analogamente ao cálculo da média, se os dados constituírem uma distribuição por classes de freqüências, poderemos calcular sua variância pela expressão abaixo, onde xi são os pontos médios das classes e fi as respectivas freqüências. s2 = (xi – X ) 2fi n-1 Como exemplo, vamos executar o cálculo da variância de um conjunto pequeno de dados, formado pelos 20 valores seguintes: 10 12 10 12 10 12 11 13 11 13 A Tab. 11 mostra o cálculo de X de s2. 11 13 11 13 12 14 12 14 12 14 26 ESTATÍSTICA DESCRITIVA Tabela 11. Cálculo da variância (s2) xi fi fixi xi-X ( xi-X )² 10 3 30 -2 4 12 11 4 44 -1 1 4 12 6 72 0 0 0 13 4 52 1 1 4 14 3 42 2 4 12 = 20 240 0 10 32 ( xi-X )²fi O somatório dos desvios em relação à média é igual a zero. Pelo artifício matemático podemos observar o quadrado dos desvios. Dado que: s2 = (xi – X) 2fi n-1 Onde: Logo: s2 =32/20 (xi – X) 2fi= 32 n=5 s2 = 1,68 X= 240/20=12 Quadro 13 – Cálculo da variância. Utilizamos o exemplo da Tab.11. para demonstrarmos que a variância é oriunda dos desvios de cada elemento (ou ponto médio de classe), em relação à média da série estatística. No entanto esta fórmula refere-se ao fato de se estar calculando a variância de uma amostra, incluindo-se n-1 como fator de correção, caso se deseje calcular a variância populacional, conhecido N e a média populacional µ deve-se utilizar a fórmula abaixo: 2 = (xi – µ) 2 N A variância tem, entre outras, as seguintes propriedades: a. multiplicando se todos os valores de uma variável por uma constante, a variância do conjunto fica multiplicada pelo quadrado dessa constante; b. somando-se ou subtraindo-se uma constante a todos os valores de uma variável a variância não se altera. A importância de estudarmos a variância dos dados está no fato da possibilidade de compararmos distribuições amostrais e populacionais. Neste sentido, quanto maior a variância, menor será a concentração dos dados em torno da média. Por outro lado, quanto menor a variância, mais homogênia será a distribuição de freqüências. A variância é uma medida de dispersão extremamente importante na teoria estatística. Do ponto de vista prático, ela tem o inconveniente de se expressar uma unidade quadrática em relação à da variável em questão, o que nem sempre faz sentido. Esse inconveniente é sanado com a definição do desvio padrão, que é a raiz quadrada da variância . 27 ESTATÍSTICA DESCRITIVA 2.3.2.3 O DESVIO-PADRÃO (s) Definiremos o desvio-padrão como a raiz quadrada positiva da variância. Sendo expresso na mesma unidade da variável, ele é mais realístico para efeito da comparação de dispersões e juntamente com a média possibilita uma visão mais consistente a respeito da homogeneidade da série estatística. O desvio-padrão é notado da seguinte forma: (xi – X ) 2fi n-1 s= Tabela 12. Cálculo do desvio-padrão (s) Classe 21,15 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,25 21,35 21,45 21,55 21,65 21,75 21,85 21,95 = (xi) fi fixi (xi – X ) 2fi 21,2 21,3 21,4 21,5 21,6 21,7 21,8 21,9 - 1 2 5 7 4 3 1 2 25 21,2 42,6 107 150,5 86,4 65,1 21,8 43,8 538,4 .11560 .11520 .00980 .00112 .00144 .07680 .06760 .25920 .64676 X= 538,4/25=21,54 Dado que: s= Logo: s= s= (xi – X ) 2fi n-1 64676 24 0,06948333 s = 0,16416 Quadro 14 – Cálculo do desvio padrão. Interpretação do desvio-padrão O desvio-padrão é sem dúvida a medida de dispersão mais importante. Quando uma curva de freqüência é simétrica como a curva abaixo, podemos afirmar que: X + s contém 68,26% dos dados da série X + 2s contém 95,44% dos dados da série X + 3s contém 99,74% dos dados da série Caso a Tab 2.12 possuísse distribuição normal poderíamos dizer que: Aproximadamente 68% das peças produzidas possuem diâmetro que varia entre 21,37 e 21,71mm, 95% entre 21,20 e 21,88mm, e 99% entre 21,13 e 22,05mm Quadro 15 – Interpretação do desvio padrão. 28 ESTATÍSTICA DESCRITIVA 2.3.2.4 O COEFICIENTE DE VARIAÇÃO (Cv) O coeficiente de variação é definido como o quociente entre o desvio-padrão e a média, sendo freqüentemente expresso em porcentagem: Cv = s / X Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio, permitindo-se comparar séries estatísticas. No exemplo visto, o Cv = 0,16416/ 21,54=0,007621=0,76% Supondo-se que outra máquina avaliada, produzisse peças com diâmetro médio X=21,65mm, e desvio-padrão s=0,2003mm, obteríamos um Cv2 =0,009252=0,93%, como Cv1 =0,76%, poderíamos afirmar que a segunda máquina é menos precisa que a primeira, tendo em vista que Cv2> Cv1, ou seja, quanto maior o coeficiente de variação mais dispersos estarão os dados em relação à média, e menos homogênia será a série estatística. 2.3.3 MEDIDAS DE ASSIMETRIA Essas medidas procuram caracterizar como e quanto a distribuição de freqüências se afasta da condição de simetria. As distribuições alongadas à direita são ditas positivamente assimétricas, e as alongadas à esquerda, negativamente assimétricas. As medidas de assimetria, conforme sejam positivas, negativas ou aproximadamente nulas, procuram indicar o tipo de distribuição quanto a esse aspecto. Nas Fig. 16a e Fig.16b são mostrados dois tipos de assimetria. RESULTADO DO 1º TESTE DE APTIDÃO FÍSICA DE RECRUTAS DE UM BATALHÃO DE INFANTARIA RESULTADO DO 1º TESTE DE APTIDÃO DE TIRO DE RECRUTAS DE UM BATALHÃO DE INFANTARIA Nr Nr 140 140 120 100 80 60 40 20 0 120 100 80 60 40 20 0 I R B MB E I R B MB E Conceitos Figura 16a - Assimetria positiva Conceito Figura 16b - Assimetria negativa Para a caracterização do poder da assimetria utiliza-se o coeficiente de assimetria de Pearson, definido como segue: A= 3(X – Md) S Relação A < 0,15 0, 15 < A < 1 A > 1. Classificação Praticamente simétrica Moderadamente assimétrica Fortemente assimétrica Quadro 16 - Classificação da distribuição de freqüência em relação a sua assimetria. 29 ESTATÍSTICA DESCRITIVA Considerações a respeito da assimetria Nos exemplos abaixo poderemos verificar o formato e as características de séries estatísticas com um mesmo número de elementos. Consideremos que os conceitos de uma pista Tiro de Ação Reflexa obedeçam a seguinte ordenação de valores (sendo o número de tiros executado por cada militar igual a 22): DISTRIBUIÇÃO A classe xi fi 02 06 4 6 06 10 8 12 10 14 12 24 14 18 18 22 16 20 30 6 = 78 RESULTADO DO TIRO DE AÇÃO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES A= 3(X – Md) S Onde: X= 12,92 Md= 13,5 S= 5,0087 Nr 35 30 25 20 15 10 5 0 I R B MB E Conceitos A= -.347 Ass. Negativa moderada Figura 17a – Assimetria negativa moderada. DISTRIBUIÇÃO B classe 02 06 xi fi 5 21 06 10 4 8 10 14 12 26 14 18 18 22 16 20 21 5 = 78 RESULTADO DO TIRO DE AÇÃO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES A= 3(X – Md) S Nr Onde: X= 12 Md= 12 S= 4,1478 30 25 20 15 10 5 0 I R B MB E Conceitos A= 0 Simétrica Figura 17b – Assimetria nula. DISTRIBUIÇÃO C classe xi fi 6 30 02 06 06 10 4 8 10 14 12 24 14 18 18 22 16 20 12 6 = 78 RESULTADO DO TIRO DE AÇÃO REFLEXA DE SOLDADOS DE UMA BATERIA DE OBUSES A= 3(X – Md) S Nr Onde: X= 11,08 Md= 10,5 S= 3,6039 35 30 25 20 15 10 5 0 I R B MB E Conceitos Figura 17c – Assimetria positiva moderada. A= +.483 Ass.Positiva moderada 30 ESTATÍSTICA DESCRITIVA 2.3.4 MEDIDAS DE ACHATAMENTO OU CURTOSE As medidas de curtose caracterizam a forma da distribuição quanto a seu achatamento. A comparação é feita em relação à distribuição normal, modelo teórico de distribuição estudado pelo Cálculo de Probabilidades (veja o capítulo 4). As Fig. 18a, Fig. 18b, e Fig. 18c, apresentam os três tipos característicos de distribuição: classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = xi 4 7 9 11 12 13 13 13 12 11 9 7 4 125 classe 5 15 25 35 45 55 65 75 85 95 105 110 115 = xi 0 0 1 2 6 24 59 24 6 2 1 0 0 125 FLEXÕES DE BRAÇO REALIZADAS POR SOLDADOS DA 1ª COMPANIA DE FUZILEIROS Nr 70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repetições Figura 18a – Distribuição Platicúrtica. FLEXÕES DE BRAÇO REALIZADAS POR SOLDADOS DA 2ª COMPANIA DE FUZILEIROS Nr 70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repetições Figura 18b – Distribuição Mesocúrtica. FLEXÕES DE BRAÇO REALIZADAS POR SOLDADOS DA 3ª COMPANIA DE FUZILEIROS Nr 70 60 50 40 30 20 10 0 5 15 25 35 45 55 65 75 85 95 105 110 115 Repetições Figura 18c – Distribuição Leptocúrtica. 31 ESTATÍSTICA DESCRITIVA Como dito anteriormente, a classificação quanto à curtose dá-se em função do achatamento da distribuição de freqüências. Deste modo, uma distribuição normal tem um achatamento mediano, o que chamamos distribuição mesocúrtica (forma de boca de sino). As distribuições mais achatadas que a normal são denominadas platicúrticas (forma de prato) e as menos achatadas são denominadas leptocúrticas (forma de chapéu mexicano). A caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a distribuição for pelo menos aproximadamente simétrica. Desta forma é possível verificar que: a. distribuições platicúrticas apresentam os dados bem dispersos em relação à média, o que caracteriza uma forma de distribuição heterogênia. b. distribuições mesocúrticas apresentam os dados normalmente dispersos em relação à média, o que caracteriza uma forma de distribuição normal. c. distribuições leptocúrticas apresentam os dados muito próximos da média, o que caracteriza uma forma de distribuição homogênia Entre as possíveis medidas de achatamento, mencionaremos apenas o coeficiente percentílico de curtose, dado pela fórmula abaixo: C= Q3 - Q1 2(P90 - P10) Onde: Q1 = 1º quartil; Q3 = 3º quartil; P10 = Percentil 10 e P90 = percentil 90 Classificação quanto à curtose C = 0,263 curva mesocúrtica C < 0,263 curva leptocúrtica C > 0,263 curva platicúrtica Quadro 17 - Classificação da distribuição de freqüência em relação a sua curtose. 2.3.5 CONSIDERAÇÕES SOBRE MEDIDAS DE ASSIMETRIA E CURTOSE No volume 2 trataremos sobre a Estatística Inferencial, onde veremos duas categorias de testes estatísticos: os paramétricos e os não-paramétricos. Neste momento é importante que se diga que a primeira categoria, testes paramétricos, possuem três pressupostos básicos sobre a distribuição dos dados: a. a população estudada deve possuir uma distribuição normal; b. a amostra extraída deve ter as mesmas variações na variável estudada; e c. as observações devem ser independentes. Sempre que estes pressupostos são alcançados, os testes paramétricos aumentam as chances de se rejeitar a hipótese nula, o que denominamos poder do teste (trataremos este conceito no item 4.3 do capítulo 4), desta forma os testes de assimetria e curtose tratados no presente capítulo crescem em importância no sentido de que, para comprovarmos o pressuposto a., deveremos verificar se a amostra, com a qual estamos trabalhando, é simétrica e mesocúrtica, características da distribuição normal. Capítulo 3 Amostragem 3.1 INTRODUÇÃO A busca de informações a respeito de um fenômeno qualquer é necessária para lastrear a tomada de decisões que envolvem este fenômeno. Em particular quando este fenômeno é aleatório, a busca de informações é direcionada para estabelecer a forma da distribuição da variável que descreve o fenômeno e os parâmetros desta distribuição. Existem dois processos de abordagem para a solução deste problema. O primeiro processo consiste em aplicar um Censo, o que identifica diretamente a forma da distribuição da variável e seus parâmetros.O segundo processo consiste em obter estas informações indiretamente, através da Estimação (por meio de amostras). Quando é razoável a aplicação de um censo, o problema está resolvido.Vamos desenvolver o segundo processo, com o objetivo de estimar os parâmetros da distribuição. A estimação é um processo que consiste em avaliar os parâmetros de uma distribuição através de estimadores obtidos em uma amostra, com base no cálculo de probabilidades (instrumental que viabiliza avaliar parâmetros da distribuição a partir dos estimadores).. A qualidade de uma estimação depende basicamente da representatividade da amostra que consiste na capacidade de a amostra reproduzir as características importantes da população. Vamos examinar a seguinte situação. A nutricionista de uma escola militar foi encarregada de avaliar a qualidade nutritiva de uma sopa preparada por um fornecedor (contratado), que será servida a seus alunos. Algumas reclamações de alunos sugerem que a sopa não está satisfazendo o padrão de qualidade nutricional exigido pela escola. Se, de fato, a sopa não atender o padrão de qualidade contratado, a escola devolve a sopa e exige o pagamento da multa contratual. O procedimento viável nesta situação é fazer esta avaliação através de uma amostra. Note que se a nutricionista tiver o cuidado de mexer suficientemente a sopa, conseguirá um bom grau de homogeneidade no produto e uma pequena amostra retirada nestas condições irá conter os ingredientes aproximadamente na mesma proporção em que figuram na sopa. Neste caso, a amostra é bem representativa da população, o que permitirá à nutricionista fazer a avaliação com alto grau de precisão. No entanto, se a nutricionista não tiver o cuidado de mexer a sopa, pode ocorrer que a amostra selecionada não seja representativa da população, o que conduzirá a um erro de avaliação e a suas conseqüências. 33 AMOSTRAGEM Se a nutricionista, mesmo mexendo a sopa, desconfia do grau de homogeneidade da sopa, a maneira de conseguir boa representatividade consiste em aumentar o tamanho da amostra. A análise desta situação leva-nos a concluir que populações com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. À medida que esta variabilidade aumenta, é necessário aumentar o tamanho da amostra aleatória para manter sua representatividade. 3.2 AMOSTRAGEM É o conjunto de técnicas utilizadas para a seleção de uma amostra. Este conjunto de técnicas pode ser subdividido em dois grupos básicos: a amostragem aleatória e a amostragem não aleatória. 3.2.1 AMOSTRAGEM NÃO ALEATÓRIA: 3.2.1.1 AMOSTRAGEM INTENCIONAL Ocorre quando o pesquisador seleciona intencionalmente os componentes da amostra. 3.2.1.2 AMOSTRAGEM VOLUNTÁRIA Ocorre quando o componente da população se oferece voluntariamente para participar da amostra independentemente do julgamento do pesquisador. Estas amostras não permitem o controle da variabilidade amostral, o que inviabiliza o controle da qualidade da estimação. 3.2.2 AMOSTRAGEM ALEATÓRIA: 3.2.2.1 AMOSTRAGEM ALEATÓRIA SIMPLES É aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da população tem a mesma probabilidade de participar da amostra. Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número. Fichas com esses números podem ser misturadas em uma urna. O sorteio das fichas identifica os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles. Uma maneira equivalente de sortear os elementos da amostra consiste no uso de uma Tabela de Números Aleatórios (TNA) (ANEXO IV). Esta tabela contém números previamente sorteados, de forma que, se iniciarmos em um ponto qualquer dessa tabela e anotarmos os números na seqüência das linhas ou colunas a partir deste ponto inicial. Por exemplo, dada uma população finita de 500 sargentos da Vila Militar dos quais nos interessa uma característica comum (possuidores do Curso de Aperfeiçoamento de Sargentos), pelo Almanaque podemos colocá-los em ordem de antiguidade, e escolhida uma amostra de 30 sargentos, procede-se da seguinte forma: 34 AMOSTRAGEM Primeiramente adotaremos um critério para a leitura da TNA: começaremos lendo os números da direita para a esquerda, de cima para baixo, tomados 3 a 3 (a população tem n=500) ; e o ponto inicial será o número contido na 5ª linha e 3ª coluna. Notemos que o número correspondente ao ponto inicial é igual a 8. Logo passaremos a ler os números com 3 dígitos tomando o cuidado de observar que os números formados devem iniciar por 0, 1, 2, 3, 4 e 5(caso o número seja 500) . 116; 9; 467; 586; 082; 066; 69; 047; 56; 184; 6; 451; 112; 353; 245; 5; 041; 134; 322; 017; 031; 329; 69; 192; 75; 401; 65; 429; 7; 274; 99; 009; 5976; 100; 98; 243; 007; 56; 241; 004; 302; 046; 299; 053. Ordenados os números obtidos da TNA poderemos selecionar os sargentos baseados na antiguidade. 004; 007; 009; 017; 031; 041; 046; 047; 053; 066; 082; 100; 112; 116; 134; 184; 192; 241; 243; 245; 274; 299; 302; 322; 329; 353; 401; 429; 451; 467. 3.2.2.2 AMOSTRAGEM SISTEMÁTICA Quando se conhece uma listagem dos elementos da população pode-se obter uma amostra aleatória de n elementos dividindo-se o número de elementos da população pelo tamanho da amostra. Usando o número inteiro mais próximo anterior a esse resultado, selecionamos os elementos da lista que ocorrem com esta periodicidade. Por exemplo, dada uma população finita de 1000 oficiais do CML dos quais nos interessa uma característica comum (possuidores do Curso de Aperfeiçoamento de Oficiais), pelo Almanaque podemos colocá-los em ordem de antiguidade e escolhida uma amostra de 30 oficiais, procede-se da seguinte forma: 1. Dividimos o N da população (1000) pelo valor de n da amostra (30) y = 1000 / 30 = 33,33 que é aproximadamente 33. 2. Sorteia-se um número ao acaso entre 1 e 33, através de uma urna ou pela Tabela de Números Aleatórios. Digamos que o resultado foi 12; 3. O primeiro elemento a ser relacionado na amostra seria o oficial que ocupasse a 12ª posição na lista; o segundo seria o 45°; o terceiro seria o 78°; e assim somaríamos o número 33 até obtermos os 30 elementos da amostra. 3.2.2.3 AMOSTRAGEM ESTRATIFICADA Pode ocorrer que a população seja formada por subgrupos diferentes, mas cada um deles homogêneo (por Pelotões, SU, U, por faixa etária, etc...). Neste caso, vamos selecionar aleatoriamente uma quantidade de cada grupo para formar a amostra, proporcional ao tamanho desse grupo. 35 AMOSTRAGEM Por exemplo, dada uma população finita de 10000 soldado do efetivo variável incorporados no CML dos quais nos interessa uma característica comum (resultado no 1° TAF) sabendo-se que estão dispostos em pelotões em suas respectivas Unidades podemos colocá-los em ordem de antiguidade e escolhida uma amostra de 600 soldados, procede-se da seguinte forma: 1. Inicialmente precisamos saber quantos Pelotões existem no CML, suporemos 33 homens por Pelotão, o que nos dará um valor aproximado de 303 pelotões. 2. Dividiremos então o n amostral (600) pelo número de Pelotões para sabermos quantos soldados de cada pelotão deveremos avaliar. y = 500 / 33 = 1,98 que é aproximadamente 2. 3. O próximo passo será determinarmos randomicamente de que posições no pelotão serão retirados os 2 elementos, o que pode ser feito por sorteio de 1 a 33 ou pela Tabela de números Aleatórios (suporemos que foram sorteados os números 7 e 32). 4. O primeiro elemento a ser relacionado de cada pelotão será o 7° militar da listagem do pelotão; e o segundo será o 32°. 5. Notemos, porém, que se tomarmos 2 soldados por Pelotão ao final da seleção teremos 606 soldados, sendo que a amostra necessária é de 600 soldados. Uma opção seria um sorteio de descarte de 6 soldados relacionados, no entanto, julgamos que um n amostral maior do que o previsto implicará em uma maior precisão na estimação, recomendamos portanto que se mantenham os 606 soldados na amostra. 3.2.2.4 AMOSTRAGEM POR CONGLOMERADOS Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar a amostragem usando somente os elementos desse grupo. Considerando-se que existe uma formação comum aos soldados do Efetivo Variável (EV) durante o Período Básico de Instrução, e ainda que os Objetivos de Instrução são comuns às Armas, Quadro e Serviço, possivelmente não seria necessária uma amostragem âmbito nacional para se verificar o estado da tropa, no tocante a estes objetivos comuns de instrução, bastaria verificar o estado atual dos soldados de um determinado Comando Militar de Área para que se obter inferências sobre todos Soldados EV do Exército. 3.3 FÓRMULAS PARA A DETERMINAÇÃO DO TAMANHO DA AMOSTRA Ao iniciarmos um estudo normalmente nos deparamos com a dúvida de qual o tamanho amostral necessário para que possamos generalizar os resultados de nossa pesquisa, ou mesmo para termos a certeza de que a amostra selecionada irá bem representar a população interesse. Para iniciarmos a amostragem propriamente dita devemos: a. nos certificar se a população de interesse é finita ou infinita (podemos considerar que uma população é infinita se N > 10000); b. estipular uma margem de erro para rejeição da hipótese nula, normalmente = 0, 05 (trataremos deste tipo de erro no Cap. 4); e c. estipular a margem de erro admitida entre a média amostra X e a média populacional µ 36 AMOSTRAGEM Para um melhor ajuste do tamanho amostral deve-se ainda levar em consideração a proporção esperada de sucesso do evento estudado (p) em relação ao seu insucesso (q), sendo p = 1 –q . O Quadro 18 apresenta 2 fórmulas para o cálculo do n amostral levando em consideração se a população é finita ou infinita. POPULAÇÃO INFINITA n = z²( /2) . p.q.N e² Onde: n= z²( /2)= p= q= N= e² = POPULAÇÃO FINITA n= z²( /2) . p.q.N e² ( N-1) + z²( /2) . p.q.N Número de elementos da amostra; Probabilidade aceita para o erro tipo I Proporção esperada de sucesso do evento; Proporção esperada de insucesso do evento; Número de elementos da população; Erro padrão de estimativa ao quadrado, onde e= X - µ; Quadro 18 – Fórmulas para o cálculo do tamanho amostral. Quando não se dispõe de informações sobre o valor de p deve-se realizar uma préamostragem com n1 elementos. Se o valor de n calculado nestas condições, for menor que n1, a pré-amostra já conterá um número suficiente de elementos para garantir a precisão determinada. Caso valor de n for maior que n1, completa-se a pré-amostra selecionando-se (nn1) elementos. Em algumas situações, o problema pode conter uma informação a respeito de p. Neste caso, esta informação poderá ser utilizada no cálculo de n. Se não houver informações a respeito de p e não pudermos realizar uma a préamostragem, o cálculo de n com p=0,5, levará a um tamanho da amostra com o conseqüente problema de custo de amostragem associado (a amostra será muito grande). Exemplo 1. Um pesquisador pretende avaliar a proporção de militares que responderão sim a uma determinada pergunta, com 95% de confiança de que não errará por mais de 3%. Para isto, selecionou ao acaso uma pré-amostra (n1 = 100 militares), e a proporção de respostas sim foi de 20% (20 dos 100). O cálculo do n amostral que bem representará a população de estudo, para a margem de erro adotada está descrito no Quadro 19. Onde: n1= z²( /2)= p= q= N= e² = Dado que: 100 (1,96) ² pois (1- =95%) 0,2 0,8 INFINITA (0,03)² Logo: . p.q.N e² n= (1,96) ² . 0,2 . 0,8 . (0,03) ² n = z²( /2) n= 683 militares Portanto necessitaríamos entrevistar mais 583 militares (683 - 100) Quadro 19 – Cálculo do tamanho amostral para população infinita. 37 AMOSTRAGEM Exemplo 2. Um pesquisador está interessado em estimar a proporção de militares que faz uso do protweb em suas OM. Para isto, amostrou 80 militares de um cadastro de N = 400, cujas funções poderiam ser otimizadas pelo uso da ferramenta, consultando-os por telefone, e verificando que 30 faziam uso diário do protweb. Caso desejasse determine o tamanho da amostra necessária para estimar esta proporção com 90% de confiança, e com erro um máximo de 4% em relação à proporção populacional deveria executar os cálculos conforme o Quadro 20. Onde: n1 = z²( /2)= p= q= N= e² = Dado que: n = 30 (1,64) ² pois (1- =90%) 30/80=0,375 0,625 400 (0,04)² z²( /2) . p.q.N e² ( N-1) + z²( /2) . p.q.N Logo n= (1,64) ² . 0,375. 0,625 . 400 (0,04) ² . 399 +(1,64) ² . 0,375. 0,625.400 n= 199 militares Portanto necessitaria entrevistar mais 119 militares (199-80) Quadro 20 – Cálculo do tamanho amostral para população finita (pré-amostra menor que a amostra necessária) Exemplo 3. Um pesquisador está interessado em estimar a proporção de militares que faz uso do protweb nas OM da Vila Militar do Rio de Janeiro (N= 400 militares). Não sendo possível realizar uma pré-amostragem, e não existindo estudo anterior que lhe permitisse estimar o valor de p, foi obrigado a considerar p=0,5 (ou seja, 50% dos militares faz uso e 50% não faz uso do protweb). Caso desejasse determine o tamanho da amostra necessária para estimar esta proporção com 90% de confiança, e com erro um máximo de 4% em relação à proporção populacional deveria executar os cálculos conforme o Quadro 21. Onde: n1 = z²( /2)= p= q= N= e² = Dado que: n = ---(1,64) ² pois (1- =90%) 0,5 0,5 400 (0,04)² z²( /2) . p.q.N e² ( N-1) + z²( /2) . p.q.N Logo n= (1,64) ² . 0,5. 0,5 . 400 (0,04) ² . 399 +(1,64) ² . 0,5. 0,5.400 n= 352,78 = 353 militares Portanto necessitaria entrevistar mais 353 militares Notemos a diferença em relação ao estudo que foi realizado com pré-amostragem. (353-199=154) Quadro 21 – Cálculo do tamanho amostral para população finita (sem possibilidade de pré-amostragem) Capítulo 4 Probabilidade Embora o cálculo das probabilidades pertença ao campo da Matemática, sua inclusão neste manual se justifica pelo fato de a maioria dos fenômenos de que trata a Estatística ser de natureza aleatória ou probabilística. Conseqüentemente, o conhecimento dos aspectos fundamentais do cálculo de probabilidades é uma necessidade essencial para o estudo da Estatística Indutiva ou Inferencial. Procuramos resumir aqui os conhecimentos que julgamos necessários para termos um ponto de apoio em nossos primeiros passos no caminho da Estatística Inferencial. Esses passos serão apresentados no capítulo seguinte, que trata da conceituação de variável aleatória e das duas principais distribuições de probabilidades de variáveis discretas e contínuas. 4.1 EXPERIMENTO ALEATÓRIO Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim, da afirmação “ é provável que o meu time ganhe a partida de hoje” pode resultar: a) que, apesar do favoritismo, ele perca; b) que, como pensamos, ele ganhe; c) que empate. Como vimos, o resultado final depende do acaso. Fenômenos como esse são chamados fenômenos aleatórios ou experimentos aleatórios, que são aqueles que, mesmo repetidos várias, vezes sob condições semelhantes, apresentam resultados imprevisíveis. 4.1.1 ESPAÇO AMOSTRAL (S) A cada experimento correspondem, em geral, um conjunto de vários resultados possíveis que recebe o nome de espaço amostral, notado por S..Assim, ao lançarmos uma moeda, há dois resultados possíveis: ocorrer cara ou ocorrer coroa. Já ao lançarmos um dado há seis resultados possíveis: 1, 2, 3, 4, 5 ou 6. Os dois experimentos citados anteriormente têm os seguintes espaços amostrais: a) Lançamento de uma moeda: S = {Ca, Co} b) Lançamento de um dado: S = {1, 2, 3, 4, 5, 6}. Do mesmo modo, como em dois lançamentos sucessivos de uma moeda podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois lançamentos, o espaço amostral é: S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}. Cada um dos elementos de S recebe o nome de ponto amostral. 2 é um ponto amostral de S. 2 S 39 PROBABILIDADE 4.1.2 EVENTOS Chamamos de evento qualquer subconjunto do espaço amostral S de um experimento aleatório (os eventos são denotados por letras arábicas maiúsculas). Assim, qualquer que seja E, se E S (E está contido em S), então E é um evento de S. Se E = S, E é chamado evento certo (com probabilidade 1 ou 100%). Se E S e E é um conjunto unitário, E é chamado evento elementar. Se E = ø, E é chamado evento impossível. Exemplo: No lançamento de um dado, onde S = {l, 2, 3, 4, 5, 6}, temos: A = {2, 4, 6} S; logo; A é um evento de S. B = {l, 2, 3, 4, 5, 6} S; logo, B é um evento certo de S (B = S). C = {4} S; logo, C é um evento elementar de S. D = ø S; logo, D é um evento impossível de S. Um evento é sempre definido por uma sentença. Assim, os eventos acima podem ser definidos pelas sentenças: “ Obter um número par na face superior.” “ Obter um número menor ou igual a 6 na face superior.” “ Obter o número 4 na face superior.” “ Obter um número maior que 6 na face superior.” 4.2 PROBABILIDADE Dado um experimento aleatório, sendo S o seu espaço amostral, vamos admitir que todos os elementos de S tenham a mesma chance de acontecer, ou seja, que S é um conjunto equiprovável. Chamamos de probabilidade de um evento A (A P(A) = n(A) n(S) S) o número real P(A), tal que: onde: n(A) é o número de elementos de A; n(S) é o número de elementos de S. Exemplos: a. Considerando o lançamento de uma moeda e o evento A “ obter cara” , temos: Dado que: P(A) = n(A) n(S) Onde : Logo : P(A) = n(A) = 1 = 50,00% S = {Ca, Co} n(S) = 2 n(A) = 1 A = {Ca} n(S) 2 Ou seja, a probabilidade de se obter cara no lançamento de uma moeda é de ½ ou 50,00%. 40 PROBABILIDADE b. Considerando o lançamento de um dado, vamos calcular a probabilidade do evento A “ obter um número par na face superior” : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 3 = 1 = 50,00% A = {2, 4, 6} n(S) 6 2 n(A) = 3 Ou seja, a probabilidade de se obter um número par na face superior de um dado lançado é de ½ ou 50,00% c. Considerando o lançamento de um dado, vamos calcular a probabilidade do evento B “ obter um número menor ou igual a 6 na face superior” : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 6 = 1 = 100,00% B= {1, 2, 3, 4, 5, 6} n{B) = 6 n(S) 6 Ou seja, a probabilidade de se obter um número menor ou igual a 6 na face superior de um dado lançado é de 1 ou 100,00% (a probabilidade do evento certo é igual a 1). d. Considerando o lançamento de um dado, vamos calcular a probabilidade do evento C “ obter um número maior que 6 na face superior” : Dado que: P(A) = n(A) n(S) Onde : Logo : S = {1, 2, 3, 4, 5, 6} n(S) = 6 P(A) = n(A) = 0 = 0 = 0,00% n(S) 6 C=ø n(D) = 0 Ou seja, a probabilidade de se obter um número maior que 6 na face superior de um dado lançado é de 0 ou 0,00% (a probabilidade do evento impossível é igual a zero). 4.2.1 EVENTOS COMPLEMENTARES Sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de que ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), para um mesmo evento existe sempre a relação: p+q=1 q=1-p Assim, se a probabilidade de se realizar um evento e p = 1/5, a probabilidade de que ele não ocorra é: q = 1 –p q = 1- 1/5 q = 4/5 Sabemos que a probabilidade de tirar o valor 4 no lançamento de um dado é: p = 1/6 Logo, a probabilidade de não tirar o valor 4 no lançamento de um dado é: q = 5/6 41 PROBABILIDADE 4.2.2 EVENTOS INDEPENDENTES Dizemos que dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Por exemplo, quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes, a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Assim, sendo p1 a probabilidade de realização do primeiro evento e p2 a probabilidade de realização do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente é dada por: P(1;2) = p1 . p2 Exemplo: Considerando o lançamento de dois dados, vamos calcular a probabilidade do evento D “ obter o número 1 no primeiro dado e o número 3 no segundo dado” : Dado que: P(1;2) = p1 . p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 . 1 = 1 p2 = 1/ 6 6 6 36 Ou seja, a probabilidade de se obter o número 1 no primeiro dado e o número 3 no segundo dado, lançados ao mesmo tempo é de 1/36 ou 2,78%. 4.2.3 EVENTOS MUTUAMENTE EXCLUSIVOS Dizemos que dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento “ tirar cara” e o evento “ tirar coroa” são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P(1;2) = p1 + p2 a. Considerando o lançamento de um dado, vamos calcular a probabilidade do evento E “ obter o número 2 ou o número 3” : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o número 2 ou o número 3 no lançamento de um dado é de 1/3 ou 33,33%. 42 PROBABILIDADE b. Considerando o lançamento de um dado, vamos calcular a probabilidade do evento E “ obter o número 1 ou o número 6” : Dado que: P(1;2) = p1 + p2 Onde : Logo : p1 = 1/ 6 P(1;2) = 1 + 1 = 1 p2 = 1/ 6 6 6 3 Ou seja, a probabilidade de se obter o número 2 ou o número 3 no lançamento de um dado é de 1/3 ou 33,33%. EXERCÍCIOS RESOLVIDOS 1) Qual a probabilidade de sair o ás de ouros quando retiramos uma carta de um baralho de 52 cartas? Como só há um ás de ouros, o número de elementos do evento é 1, logo: p = 1/52 2) Qual a probabilidade de sair um rei quando retiramos uma carta de um baralho de 52 cartas? Como há 4 reis, o número de elementos do evento é 4; logo: p = 4/52 = 1/13 3) Em um lote de 12 peças, 4 são defeituosas. Sendo retirada uma peça, calcule: a. a probabilidade de essa peça ser defeituosa, temos: p = 4/12 = 1/3 b. a probabilidade de essa peça não ser defeituosa. Sendo este evento e o anterior complementares, temos: p =1 - 4/12 = 2/3 4) No lançamento de dois dados, calcule a probabilidade de se obter soma igual a 5. O evento é formado pelos elementos (1, 4), (2, 3), (3, 2) e (4, 1). Como o número de elementos de S é 36, temos: Sendo: n(A)=4 n(S)=36 logo p = 4/36 = 1/9 5) De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro baralho e uma carta do segundo. Qual a probabilidade de a carta do primeiro baralho ser um rei e a do segundo ser o 5 de paus? Temos: Dado que: P(R;5) = pR . p5 Onde : Logo : pR = 4/ 52 = 1/ 13 P(R;5)= 1 . 1 = 1 p5 = 1/52 13 52 676 43 PROBABILIDADE 6) Uma urna A contém: 3 bolas brancas, 4 pretas, 2 verdes; uma urna B contém: 5 bolas brancas, 2 pretas, 1 verde; uma urna C contém: 2 bolas brancas, 3 pretas, 4 verdes. Uma bola é retirada de cada urna. Qual é a probabilidade de as três bolas retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca, preta e verde? Temos: p1 = 3/9 = 1/ 3 ; p2= 2/8 = 1/4 ; p3 = 4/9 Como os três eventos são independentes e simultâneos, vem: P(1;2;3) = p1 . p2 . p3 P(1;2;3) =1/3 . 1/4 .4/9 = 1/27 7) De um baralho de 52 cartas retiram-se, ao acaso, duas cartas sem reposição. Qual é a probabilidade de a primeira carta ser o ás de paus e a segunda ser o rei de paus? A probabilidade de sair o ás de paus na primeira carta é: pA = 1/52 Após a retirada da primeira carta, restam 51 cartas no baralho, já que a carta retirada não foi reposta. Assim, a probabilidade de a segunda carta ser o rei de paus é: PR = 1/51 Como esses eventos são independentes, temos: P(A;R) = pA . pR P(A;R) =1/52 . 1/51 = 1/2652 4.3 EMPREGO DA PROBABILIDADE PARA COMPROVAÇÃO DE HIPÓTESES Normalmente se pergunta quais as chances de que certas coisas aconteçam. Usamos a probabilidade nos eventos diários. Quais são as chances de que chova? Ouvimos um meteorologista dizer que a probabilidade de chuva é de 90/o. Queremos saber se isto significa que irá chover em 90% dos lugares ou, melhor, que as chances são de 90% de que irá chover onde estamos. Os termos probabilidade subjetiva ou probabilidade personalística são usados para descrever esse conceito. Um segundo conceito de probabilidade é chamado de eventos igualmente prováveis. Por exemplo, ao jogarmos um dado, as chances dos números de 1 a 6 ocorrerem são igualmente prováveis. A terceira abordagem da probabilidade envolve o limite da freqüência relativa. Para ilustrar, suponha que joguemos uma moeda 100 vezes esperaríamos 50 caras, mas se obtivermos 45, então fr= 0,45. Jogando 1000 vezes, esperaríamos 500 caras, entretanto, podemos obter 490 caras, fr= 0,490. Se jogarmos 100000, e obtivéssemos 49995 caras, fr=0,49995, note que, quanto maior o valor de n, o limite da freqüência relativa tende a probabilidade real do evento ocorrer, ou seja, 0,5. Em um teste estatístico, extraímos uma amostra de uma população de sujeitos e eventos. Usamos afirmativas de probabilidade para descrever a confiança que depositamos nos achados estatísticos. 44 PROBABILIDADE Freqüentemente, encontraremos um teste estatístico seguido pelo enunciado da probabilidade tal como p < 0,05. Esta interpretação seria que uma diferença ou relação deste tamanho seria esperada menos do que 5 vezes em 100, como um resultado de chance. 4.3.1 ALFA ( ) Em pesquisa, o teste estatístico é comparado a uma tabela de probabilidade para aquela estatística, a qual lhe dirá qual a chance de ocorrência. O experimentador pode estabelecer um nível aceitável de chance de ocorrência ( ) antes do estudo. Este nível de chance de ocorrência pode variar de baixo a alto, mas nunca ser eliminado. Em pesquisa comportamental, alfa (a probabilidade de ocorrência de chance) é freqüentemente de 0,05 ou 0,01 (as possibilidades de que os achados são devidos à chance são ou de 5 em 100 ou de 1 em 100). Em um estudo o experimentador pode cometer 2 tipos de erro: O erro tipo I é rejeitar a hipótese nula quando a hipótese nula é verdadeira. Por exemplo, um pesquisador conclui que existe diferença entre dois métodos de treinamento, mas na verdade não existe. O erro tipo II é não rejeitar a hipótese nula quando a hipótese nula é falsa. No exemplo anterior um pesquisador poderá concluir que não existe diferença entre os dois métodos de treinamento, mas na verdade existe. A Tab.13 é chamada de tabela da verdade, a qual demonstra erros tipo I e II. Como você pode ver, aceitar uma hipótese nula verdadeira, ou rejeitar uma falsa é a decisão correta. Controlamos os erros tipo I estabelecendo alfa. Por exemplo, se alfa é estabelecido em 0,05, então, se 100 experimentos são realizados, uma hipótese nula verdadeira de não-diferença ou de não relação entre as variáveis, seria rejeitada somente em 5 ocasiões. Embora as chances do erro ainda existam, o experimentador especificou-as exatamente pelo estabelecimento de alfa antes do estudo. Tabela 13 - Tabela da verdade Aceitação Rejeição Ho verdadeira Decisão correta Erro tipoII ( ) Ho falsa Erro tipoI ( ) Decisão correta Deve-se de estipular o “ tamanho” do erro tipo I que se está disposto a cometer, antes do inicio de um experimento. Por exemplo, é mais importante que evitemos concluir que um método de treinamento é melhor do que o outro, quando ele realmente não é (Tipo I), do que concluirmos que um método não é melhor do que outro quando ele realmente é (Tipo II)? 45 PROBABILIDADE Por exemplo, em um estudo do efeito de um remédio para o câncer, o experimentador pode não querer aceitar a hipótese nula de “ nenhum efeito” , se existe alguma chance da droga fazer efeito. Assim, o experimentador pode estabelecer um alfa de 0,30 sempre, embora as chances de acontecer um erro tipo I possam ser aumentadas. O experimentador está garantindo que a droga tem todas as oportunidades de mostrar sua efetividade. Por outro lado, estabelecer um alfa de 0,001 diminui enormemente as chances do erro tipo I ocorrer. Não podemos dizer onde estabelecer o alfa; entretanto, podemos dizer que os níveis 0,05 ou 0,01 são amplamente utilizados na comunidade científica. Se o alfa for movido para cima ou para baixo, certifique-se de justificar a razão. Mesmo quando os experimentadores estabelecem o alfa em um nível específico (p. ex., 0,05) antes da pesquisa, eles freqüentemente relatam o alfa para os efeitos específicos do estudo no nível que ocorreu (p. ex., p 0,012). Não há nada de errado com este procedimento, na medida em que estão somente demonstrando em que grau o nível de probabilidade excedeu o nível especificado. Uma abordagem mais adequada pode ser a de relatar o nível exato de probabilidade (p. ex., p 0,024) associado com o teste estatístico (p. ex., r; t). Então avaliaremos o significado da diferença ou relação. Usando a informação estatística (significância e significado), o pesquisador deve interpretar os resultados dentro da teoria e hipóteses que foram formuladas. Em vez de tomar uma decisão somente estatística, esta abordagem coloca a responsabilidade da tomada de decisão onde ela deve estar no pesquisador que colocou o estudo em um modelo teórico, e que considerou pesquisas relacionadas. 4.3.2 BETA ( ) Embora a magnitude do erro tipo I seja especificada pelo alfa, podemos também conter o erro tipo II, cuja magnitude é determinada por beta ( ). Observando a Fig. 19 , podemos notar a sobreposição da distribuição de escores na variável dependente para X (a distribuição da amostragem se a hipótese nula é verdadeira) e Y (a distribuição da amostragem se a hipótese nula é falsa). Distribuição da amostragem sob Ho Distribuição da amostragem se Ho é falsa 1- Y X Figura 17. Áreas de distribuição do erro tipo II 46 PROBABILIDADE Pela especificação do alfa, indicamos que a média de Y (dado uma certa distribuição) deve ser em uma distância especificada da média de X antes da hipótese nula ser rejeitada. Entretanto, se a média de Y localiza-se em algum lugar entre a média de X e o Y especificado, você poderá estar cometendo um erro tipo II ( ); isto é, você não rejeita a hipótese nula quando, de fato, existe uma diferença verdadeira. Como podemos ver, existe uma relação entre alfa e beta; por exemplo, à medida que alfa é diminuído, beta torna-se maior. 4.3.3 SIGNIFICADO (tamanho do efeito) Além de reportar a significância dos resultados, estudiosos precisam se preocupar com o significado dos resultados em suas pesquisas. O significado da diferença entre duas médias pede ser estimado de várias formas, mas uma forma que tem ganhado muita atenção recentemente é o tamanho do efeito (sugerido por Cohen,1969). A fórmula do Tamanho do Efeito (TE) é: TE = (M1 - M2 )/ s Esta fórmula subtrai a média de um grupo (M1) da média do segundo grupo (M2 ), e divide a diferença pelo desvio-padrão. Isto coloca a diferença entre as médias na métrica comum chamada de “ unidades de desvio-padrão” , a qual pode ser comparada às orientações para a pesquisa comportamental sugeridas por Cohen (1969): 0,2 ou menos é um TE pequeno; 0,5 aproximadamente é um TE moderado; 0,8 ou maior é um TE grande. 4.3.4 PODER Poder é a probabilidade de rejeitar a hipótese nula quando esta é falsa (p. ex., detectando uma diferença real), ou a probabilidade de tomar a decisão correta. Ter poder na análise estatística é importante porque isto aumenta as chances de rejeitar a hipótese nula falsa. É claro que, até certo ponto, na pesquisa comportamental, a hipótese nula é sempre falsa! O que este enunciado reflete é que em pesquisa comportamental as médias dos dois grupos nunca são as mesmas. Assim, se suficientes sujeitos são obtidos (uma forma de obter poder), quaisquer duas médias podem ser declaradas significativamente diferentes. As questões mais interessantes em pesquisa comportamental são: 1. O quanto uma diferença é importante na teoria e/ou na prática? 2. Quantos sujeitos são necessários para declarar uma diferença importante como significante? Entendendo o conceito de poder pode-se responder às duas questões anteriores. Se um pesquisador pode identificar o tamanho de um importante efeito por meio de pesquisas prévias ou simplesmente estimar um tamanho do efeito (p. ex., 0,5 é um TE moderado, também chamado delta, ), estabelecer quanto de poder é aceitável (p. ex., uma estimativa comum em ciência comportamental é 0,8), então o tamanho da amostra necessário para o estudo pode ser estimado. 47 PROBABILIDADE As Figuras 20 e 21 oferecem uma visão da relação entre o tamanho da amostra, (eixo y), o poder (eixo x), e o tamanho do efeito (curva TE), quando alfa é 0,05 ou 0,01. Considere o seguinte exemplo: No planejamento de um estudo, o investigador terá dois grupos que serão randomicamente formados, mas ele não sabe quantos sujeitos são necessários para cada grupo para detectar uma diferença significativa entre os tratamentos. Entretanto, existem vários estudos relacionados e o investigador calculou um TE médio = 0,70 favorecendo o grupo experimental nos resultados desses estudos. O investigador decide estabelecer alfa = 0,05 e quer proteger beta em 4 vezes o nível de alfa (assim, beta 0,20) porque Cohen (1988) sugeriu que em ciências comportamentais, a seriedade do erro do tipo I para o tipo II deverá ter a razão de 1 para 4 (0,05 x 4 = 0,20). Uma vez que o poder é 1 - beta (1,0 - 0,2 = 0,8), então o poder é estabelecido em 0,8 (freqüentemente recomendado como poder adequado em pesquisa comportamental, Green, 1991, p. 502). 500 n para 400 cada grupo TE=0,2 300 TE=0,3 200 TE=0,4 100 TE=0,5 TE=0,6 050 TE=0,7 TE=0,8 0,3 0,4 0,5 0,6 0,7 0,8 Poder 0,9 Figura 20 - Curva do tamanho do efeito para = 0,05, teste bicaudal. n para cada grupo 500 TE=0,2 400 TE=0,3 300 TE=0,4 200 TE=0,5 100 TE=0,6 TE=0,7 TE=0,8 050 0,3 0,4 0,5 0,6 0,7 0,8 0,9 Poder Figura 21 - Curva do tamanho do efeito para = 0,01, teste bicaudal. 48 PROBABILIDADE Quando as informações prévias são conhecidas (alfa, TE e poder), então o número de sujeitos necessários em cada um dos dois grupos pode ser estimado da Fig. 20 Deve-se ler a curva TE 0,70 por onde atravessa o eixo x (poder) em 0,8, e então, ler através do eixo y (tamanho da amostra) e observar que 30 sujeitos serão necessários para cada grupo. Conforme o número de sujeitos em cada grupo é reduzido, o poder é reduzido (dado o mesmo TE). Analisando a Fig. 21 (alfa = 0,01), nota-se que para o mesmo nível de poder (0,8) e TE (0,70), o número de sujeitos necessários aumenta de 30 (como na Fig. 20, onde alfa 0,05) para 50. Pode-se verificar, que para um alfa mais rigoroso (p. ex., 0,05 a 0,01), um maior número de sujeitos é requerido para detectar uma diferença significativa. Capítulo 5 Distribuições Binomial e Normal O que pretendemos neste capítulo, é apresentar dois modelos teóricos de distribuição de probabilidade, aos quais um experimento aleatório estudado possa ser adaptado, o que permitirá a solução de grande número de problemas práticos. 5.1 VARIÁVEL ALEATÓRIA Suponhamos um espaço amostral S, e que, a cada ponto amostral seja atribuído um número. Fica, então, definida uma função chamada variável aleatória, indicada por uma letra maiúscula, sendo seus valores indicados por letras minúsculas. Assim, se o espaço amostral relativo ao “ lançamento simultâneo de duas moedas” é 4 {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)} e se X representa “ o número de caras” que aparecem, a cada ponto amostral podemos associar um número para X, de acordo com a Tab. 14. Tabela 14 - Resultados possíveis do lançamento simultâneo de 2 moedas. Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total x 2 1 1 0 4 5.2 DISTRIBUIÇÃO DE PROBABILIDADE Consideremos a distribuição de freqüências relativa ao número de punições semanais em uma companhia, durante o primeiro semestre do ano de instrução, de acordo com a Tab. 15. Tabela 15 - Punições disciplinares durante o primeiro semestre do ano de instrução. Número de punições 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrência 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00% 50 DISTRIBUIÇÕES BINOMIAL E NORMAL Em suma, pode-se extrair da Tab. 15 as seguintes observações: a. a probabilidade estimada de não ocorrer punição disciplinar é de 7,69%; b. a probabilidade estimada de ocorrer uma punição disciplinar é de 11,53%; c. a probabilidade estimada de ocorrerem duas punições disciplinares é de 15,38%; e d. ocorrerem oito punições disciplinares é de 23,08%. Da Tab. 15 poderíamos escrever a Tab. 16, denominada tabela de distribuição de probabilidade. Tabela 16 - Probabilidade de ocorrência de punições disciplinares durante o primeiro semestre do ano de instrução Número de punições 0 1 2 3 4 5 6 7 8 total fi 2 3 4 1 5 2 1 2 6 26 Probabilidade de ocorrência 7,69% 11,53% 15,38% 3,85% 19,23% 7,69% 3,85% 7,69% 23,08% 100,00% Seja X uma variável aleatória que pode assumir os valores x1, x2, x3,...,xn, a cada valor xi correspondem pontos do espaço amostral. Associamos, então, a cada valor xi a probabilidade fri de ocorrência de tais pontos no espaço amostral. Assim, temos: fri = 1 Os valores x1, x2, x3,...,xn, e suas correspondentes fr1, fr2, fr3,..., frn, definem uma distribuição de probabilidade. Assim, voltando à Tab. 16, temos a Tab. 17: Tabela 17 - Verificação das freqüências em que aparece o resultado cara Ponto amostral (Ca, Ca) (Ca, Co) (Co, Ca) (Co, Co) total x 2 1 1 0 4 P(X)=fri 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4 1/2 .1/2=1/4 Verifiquemos que os pontos amostrais (Ca, Co) e (Co, Ca) apresentam cara uma vez, de forma que a probabilidade de sair cara uma vez é 1/4 + 1/4 = 2/4. 51 DISTRIBUIÇÕES BINOMIAL E NORMAL Logo, podemos escrever a Tab. 17, conforme sua distribuição de probabilidades, de acordo com a Tab. 18: Tabela 18 - Verificação das freqüências em que aparece o resultado cara. Número de caras 2 1 0 fri fri 1/4 2/4 1/4 1 Ao definirmos a distribuição de probabilidade, estabelecemos uma correspondência unívoca entre os valores da variável aleatória X e os valores da variável P. Esta correspondência define uma função; os valores x (i = 1, 2 n) formam o domínio da função e os valores P (i = 1, 2, 3, ..., n), o seu conjunto imagem. Essa função, assim definida, é denominada função probabilidade representada por: f(x) = P (X = xi) A função P (X = xi) determina a distribuição de probabilidade da variável aleatória X. Assim, ao lançarmos um dado, a variável aleatória X, definida por “ pontos de um dado” , pode tomar os valores 1, 2, 3, ..., 6. Como a cada um destes valores está associada uma e uma só probabilidade de realização e P(xi) = 1, fica definida uma função de probabilidade, da qual resulta a distribuição de probabilidade Tab. 19: Tabela 19 - Distribuição de probabilidade do lançamento de um dado. X 1 2 3 4 5 6 P(X)= P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1 5.3 DISTRIBUIÇÃO BINOMIAL Vamos, neste item, considerar experimentos que satisfaçam as seguintes condições: (n). a. O experimento deve ser repetido, nas mesmas condições, um número finito de vezes b. As provas repetidas devem ser independentes, isto é, o resultado de uma não deve afetar os resultados das sucessivas. c. Em cada prova deve aparecer um dos dois possíveis resultados: sucesso e insucesso. d. No decorrer do experimento, a probabilidade p do sucesso e a probabilidade q (q = 1p) do insucesso manter-se-ão constantes. Resolveremos problemas do tipo: determinar a probabilidade de se obterem k sucessos em n tentativas. O experimento “ obtenção de caras em cinco lançamentos sucessivos e independentes de uma moeda” satisfaz essas condições. 52 DISTRIBUIÇÕES BINOMIAL E NORMAL Sabemos que, quando da realização de um experimento qualquer em uma única tentativa, se a probabilidade de realização de um evento (sucesso) é p, a probabilidade de não-realização desse mesmo evento (insucesso) é 1 - p = q. Suponhamos, agora, que realizemos a mesma prova n vezes sucessivas e independentes. A probabilidade de que um evento se realize k vezes nas provas é dada pela função: f(X) = P(X = k) = n! k! (n- k)! . pk . qn-k na qual: P(X = k) é a probabilidade de que o evento se realize k vezes em n provas; p é a probabilidade de que o evento se realize em uma só prova sucesso; q é a probabilidade de que o evento não se realize no decurso dessa prova n! é o coeficiente binomial de n sobre k. k! (n- k)! Essa função, denominada lei binomial, define a distribuição binomial. insucesso; EXERCÍCIOS RESOLVIDOS 1) Uma moeda é lançada 5 vezes seguidas e independentes. Calcule a probabilidade de serem obtidas 5 caras nessas 5 provas. Pela lei binomial, podemos escrever: Dado que: P(X = k) = n! . pk . qn-k k! (n- k)! Onde: n=5 Logo: k=3 P(X = 3) = 5! . (1/2)3 . (1/2)5-2 3! (5- 3)! p=1/2 q=1/2 P(X = 3) = 5x4x3x2x1 . 1/8 . 1/4 3x2x1x2x1 P(X = 3) = 5/16 2) Dois times de futebol, A e B, jogam entre si 6 vezes. Encontre a probabilidade de o time A ganhar 4 jogos. Pela lei binomial, podemos escrever: Dado que: P(X = k) = Onde: n=6 k=4 p=1/3 q=2/3 n! . pk . qn-k k! (n- k)! Logo: P(X = 4) = 6! . (1/3)4 . (2/3)6-4 4! (6- 4)! P(X = 4) = 6x5x4x3x2x1 . 1/81 . 4/9 4x3x2x1x2x1 P(X = 4) = 20/243 53 DISTRIBUIÇÕES BINOMIAL E NORMAL 5.4 DISTRIBUIÇÃO NORMAL - CURVA NORMAL Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição normal descrita na Fig. 22. X Figura 22 - Aspecto gráfico de uma distribuição normal. Para uma perfeita compreensão da distribuição normal, observe a Fig. 22 e procure visualizar as seguintes propriedades: a. A variável aleatória X pode assumir todo e qualquer valor real; b. A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média (X), que recebe o nome de curva normal ou de Gauss; c. A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à probabilidade de a variável aleatória X assumir qualquer valor real; d. A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo das abscissas sem, contudo, alcançá-lo; e e. Como a curva é simétrica em torno da X, a probabilidade de ocorrer valor maior do que a média é igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5. Escrevemos: P(X> X) = P(X < X) = 0,5. Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto. Seja X a variável aleatória que representa os diâmetros dos cartuchos de 9mm produzidos por certa máquina, supondo que essa variável tenha distribuição normal com média X = 9 mm e desvio padrão S = 0,04 mm. Pode haver interesse em conhecer a probabilidade de um cartucho ter um diâmetro com valor entre 9 e 9,05 mm É fácil notar que essa probabilidade, indicada pó P(9 < X < 9,05), correspondente à área hachurada na Fig. 23. 54 DISTRIBUIÇÕES BINOMIAL E NORMAL 9 9,05 Figura 23 - Probabilidade de X encontrar-se entre 9mm e 9,05mm. O cálculo direto dessa probabilidade exige um conhecimento de Matemática mais avançado do que aquele que dispomos no curso de 2° grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar, sem demonstração, que, se X é uma variável aleatória com distribuição normal de média X e desvio padrão s, então a variável z tem distribuição normal reduzida, isto é, tem distribuição normal de média o e desvio padrão 1. z = xi – X s As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo necessidade de serem calculadas. O Anexo V contém é uma tabela de distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a média 0 e um dado valor z, isto é: P(0 < Z < z) Temos, então, que se X é uma variável aleatória com distribuição normal de média X e desvio padrão s, podemos escrever: P(X< X < x) = P(0 < Z < z), com z = xi – X s Voltemos, então, ao nosso problema. Queremos calcular P(9 < X < 9,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o valor de z que corresponde a x = 9,05 (x = 9 z = 0, pois X = 9). Temos, então: z = xi – X = 9,05 – 9 = 0,05 = 1,25 s 0,04 0,04 donde: P(9 < X < 9,05) = P(0 < X < 1,25) Procuremos, agora, no Anexo V o valor de z = 1,25. Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes encontramos o valor 0,3944, o que nos permite escrever: P(0 < Z < 1,25) = 0,3944 55 DISTRIBUIÇÕES BINOMIAL E NORMAL Assim, a probabilidade de uma munição 9mm ,fabricada por essa máquina, apresentar um diâmetro entre a média 9mm e o valor x = 9,05mm é 0,3944. Escrevemos, então: P(9 < X < 9,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44% EXERCÍCIOS RESOLVIDOS 1. Determine as probabilidades: 1.a. P( -1,25 < Z < 0) A probabilidade procurada corresponde à parte hachurada da figura: Sabemos que: P(0 < Z < 1,25) = 0,3944 Pela simetria da curva, temos: P( - 1,25 < Z< 0) = P(0 <Z < 1,25) = 0,3944 - 1,25 0 1.b. P(- 0,5 < Z < 1,48) A probabilidade procurada corresponde à parte hachurada da figura: Temos que P(- 0,5 < Z < 1,48) = P(- 0,5 < Z < 0)+ P( 0 < Z < 1,48) Como: - 0,5 0 1,48 P( - 0,5 < Z< 0) = P(0 <Z < 0,5) = 0,1915 P( 0 < Z< 1,48) = 0,4306 Obtemos: P(- 0,5 < Z < 1,48) =0,1915 +0,4306 = 0,6221 1.c. P(0,8 < Z < 1,23) A probabilidade procurada corresponde à parte hachurada da figura: Temos que P( 0,8 < Z < 1,23) = P( 0 < Z < 1,23) - P( 0 < Z < 0,8) Como: 00,8 1,23 P( 0 < Z< 1,23 ) = 0,2881 P( 0 < Z< 0,8) = 0,1026 Obtemos: P( 0,8 < Z < 1,23) = 0,2881 -0,1026 = 0,1855 56 DISTRIBUIÇÕES BINOMIAL E NORMAL 1.d. P(Z > 0,6) A probabilidade procurada corresponde à parte hachurada da figura: Temos que P( Z > 0,6 ) = P( Z > 0) - P( 0 < Z < 0,6) Como: P( Z > 0) = 0,5 e P( 0 < Z < 0,6) = 0,2258 0 0,6 Obtemos: P( Z > 0,6 ) = 0,5 – 0,2258 = 0,2742 1.e. P(Z < 0,92) A probabilidade procurada corresponde à parte hachurada da figura: Temos que P( Z < 0,92 ) = P( Z < 0) + P( 0 < Z < 0,92) Como: 0 0,92 P( Z < 0) = 0,5 e P( 0 < Z < 0,92) = 0,3212 Obtemos: P( Z > 0,6 ) = 0,5 + 0,3212= 0,8212 2. Admitindo-se que 500 alunos de um curso de pós-graduação estão distribuídos normalmente em torno de um grau final de curso 8,5 e com desvio padrão de 0,8, e em se querendo selecionar 10% destes alunos para realizarem um curso de aperfeiçoamento, que nota deveria ser o ponto de corte para a seleção? Devemos inicialmente determinar os valores da variável de distribuição reduzida. Assim: Temos que 0 zxi zxi deve conter todos os valores menores que o ponto de corte que é de 10,00%, logo, devemos encontrar o valor de z que represente 40% dos valores maiores que a média (0,4000) por interpolação o zxi = 1,28 . 40,00% / 39,97% zxi = 1,2810 Se então zxi = xi – X s xi = zxi . s +X logo: xi = 1,2810 . 0,8 + 8,5= 9,5248 Capítulo 6 Correlação e Regressão 6.1 INTRODUÇÃO Este capítulo discute brevemente vários tipos de correlação, a significância dos coeficientes correlacionais, bem como o uso de correlações para previsões, incluindo as correlações parciais. A correlação é uma técnica estatística utilizada para determinar o relacionamento entre duas ou mais variáveis. Freqüentemente um pesquisador está interessado no grau de relacionamento entre variáveis. A correlação pode envolver duas variáveis (correlação simples), tais como o relacionamento entre a altura e o peso, como também três ou mais variáveis (correlação múltipla), como quando alguém investiga o relacionamento entre um critério (variável dependente) tal como força muscular e duas ou mais variáveis determinantes (variáveis independentes), como o peso corporal, porcentagem de gordura, resistência muscular. 6.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON O coeficiente de correlação de Pearson (r) é um valor quantitativo do relacionamento entre duas ou mais variáveis, podendo variar entre 0,00 (correlação nula) e 1,00 (correlação perfeita) tanto na direção positiva quanto na negativa. Portanto, - 1,00 < r < +1,00. Nesse tipo de correlação, existe uma variável critério (ou dependente) e uma variável preditora (ou independente). O r pode ser calculado pela fórmula: n XY – ( X).( Y) r= n X² – ( X)² n Y² – ( Y)² De acordo com a força da relação entre as variáveis, a correlação pode ser positiva, negativa ou nula. Quando os escores de cada par ordenado são plotados em um gráfico de dispersão, formam uma elipse, que quanto mais próxima de uma reta, mais perfeita será a correlação entre as variáveis, conforme as Fig. 24a e Fig. 24c. Quando virtualmente não existe relação entre variáveis, a correlação tende a 0,00. Isso denota independência entre os grupos de escores, que não exibem um padrão discernível, conforme a Fig. 24b. CORRELAÇÃO NULA CORRELAÇÃO POSITIVA CORRELAÇÃO NEGATIVA Y Y Y 145 130 115 100 85 70 55 40 145 130 115 100 85 70 55 40 145 130 115 100 85 70 55 40 20 30 40 50 60 70 X Figura 24a – Correlação positiva 20 30 40 50 60 70 X Figura 24b – Correlação nula 20 30 40 50 60 70 X Figura 24c – Correlação negativa 58 CORRELAÇÃO E REGRESSÃO Uma correlação positiva existe, quando uma pequena quantidade da variável X é associada com uma pequena quantidade da variável Y , e uma grande quantidade da variável X é associada com uma grande quantidade da variável Y. A Tab. 20 apresenta o cálculo de r para as variáveis: peso corporal (X) e força muscular (Y). Tabela 20 – Cálculo do coeficiente de correlação de Pearson. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 = Peso Força (X) (Y) 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 720 58 68 65 78 80 76 92 90 100 98 103 104 114 112 115 120 1473 Cálculo de r XY X² Y² 1740 2176 2210 2808 3040 3040 3864 3960 4600 4704 5150 5408 6156 6272 6670 7200 68998 900 1024 1156 1296 1444 1600 1764 1936 2116 2304 2500 2704 2916 3136 3364 3600 33760 3364 4624 4225 6084 6400 5776 8464 8100 10000 9604 10609 10816 12996 12544 13225 14400 141231 Sendo: r = n XY – ( X).( Y) n X² – ( X)² n = 16 X = 720 e ( X)²= 518400 Y = 1473 e ( Y)²= 2169729 XY = 68998 X² = 33760 Y² = 141231 n Y² – ( Y)² r= 16. 68998 – 720. 1473 16. 33760 – 518400 16. 141231 – 2169729 r= 1103968 – 1060560 540160 – 518400 2259696 – 2169729 43408 147,5127 . 299,945 r= r = 0,98107 A Fig. 25 é uma ilustração gráfica da correlação positiva (r = 0,98107) quase perfeita. CORRELAÇÃO ENTRE FORÇA MUSCULAR E PESO CORPORAL Lb 145 130 115 100 X=92,1 85 70 55 40 20 X=45 30 40 50 60 70 Kg figura 25 – Gráfico de dispersão da relação força muscular X peso corporal. O peso corporal e a força muscular estão correlacionados positivamente nos sujeitos mais pesados, já que esses são geralmente mais fortes do que os mais leves. A correlação não é perfeita porque encontramos sujeitos mais leves que são mais fortes do que sujeitos mais pesados, como por exemplo os sujeitos: 2 e 3; 5 e 6; 7 e 8; 9 e 10; 13 e 14. 59 CORRELAÇÃO E REGRESSÃO Uma correlação negativa existe, quando uma pequena quantidade da variável X é associada com uma grande quantidade da variável Y , e uma grande quantidade da variável X é associada com uma pequena quantidade da variável Y. A Tab.21 apresenta o cálculo de r para as variáveis: peso corporal (X) e flexão na barra (Y). Tabela 21 – Cálculo do coeficiente de correlação de Pearson. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 = Peso (X) 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 1400 Flexões (Y) 20 18 16 15 14 13 12 10 8 7 6 5 4 3 2 1 154 XY X² Y² 1000 990 960 975 980 975 960 850 720 665 600 525 440 345 240 125 11350 2500 3025 3600 4225 4900 5625 6400 7225 8100 9025 10000 11025 12100 13225 14400 15625 131000 400 324 256 225 196 169 144 100 64 49 36 25 16 9 4 1 2018 Cálculo de r Sendo: r = n XY – ( X).( Y) n X² – ( X)² n = 16 X = 1400e ( X)²= 1960000 Y = 154 e ( Y)²= 23716 XY = 11350 X² = 131000 Y² = 2018 r= r= n Y² – ( Y)² 16. 11350 – 1400. 154 16. 131000– 1960000 16. 2018 – 23716 181600 – 215600 2096000 – 1960000 32288 – 23716 – 34000 368,782 . 92,585 r= r = 0,99579 A Fig. 26 é uma ilustração gráfica da correlação positiva (r = – 0,99579) quase perfeita. CORRELAÇÃO ENTRE PESO CORPORAL E FLEXÕES NA BARRA Nr 21 18 15 12 X=9,6 9 6 3 0 45 55 X=45 65 75 85 95 105 115 125 Kg figura 26 – Gráfico de dispersão da relação peso corporal X flexões na barra. A flexão na barra é executada pela suspensão do peso corporal até o queixo passar acima da barra, desta forma, o peso corporal pode fornecer uma tendência, indicando freqüentemente que pessoas mais pesadas tendem a executar um número menor de barras do que as pessoas mais leves. 60 CORRELAÇÃO E REGRESSÃO 6.3 CORRELAÇÃO E CAUSA Uma correlação entre duas variáveis não significa, necessariamente, que uma variável causa a outra. Por exemplo, podemos citar um estudo que pretendesse verificar a relação entre o posto/graduação de militares e seu desempenho no tiro prático de pistola. Muito provavelmente encontraríamos capitães com muito bons resultados e recrutas com péssimos resultados. Pesquisadores inexperientes (ou desatentos) talvez concluíssem que quanto maior o posto/graduação, melhor seria o resultado no teste de tiro prático de pistola. Desta forma, bastaria que promovêssemos todos os recrutas ao posto de coronel para que só houvesse excelentes atiradores de pistola no Exército (parece lógico?!). Não se pretende dizer que uma variável não possa ser a causa de outra, mas que não se pode inferir somente com o resultado de uma correlação. No exemplo ilustrativo acima, dever-se-ia levar em consideração outras variáveis que provavelmente tenham correlação com o resultado do tiro, tais como: experiência do atirador (quanto mais se pratica melhor tende a ser o resultado) e o “ nervosismo” do atirador (com a prática prolongada o atirador tende a ficar menos nervoso durante a performance, melhorando seu resultado). A única forma de demonstrar uma causa é com um experimento no qual uma variável independente pode ser manipulada para produzir um efeito, e as variáveis intervenientes podem ser controladas. Além de se verificar o valor de r, e se é positivo ou negativo, deve-se entender o que significa, em termos de ser alto ou baixo, satisfatório ou insatisfatório. 6.4 INTERPRETAÇÃO DE “ r” Existem muitas formas de se interpretar o r, sendo um dos critérios sua significância (confiabilidade), que representa a probabilidade de obter-se uma relação similar se o estudo fosse repetido n vezes. O nível significância pode ser estabelecido por meio de cálculos matemáticos ou, simplesmente, consultando a Tabela “ r” (Anexo VI). Para tal, deve-se selecionar o nível desejado, tais como 0,05 ou 0,01, e ler a tabela de acordo com os graus de liberdade (gl) adequados [gl são baseados no número de sujeitos (n) corrigidos para tendências amostrais (2 variáveis)], que, para r, gl= n -2 . Para o exemplo de correlação entre o peso corporal e as flexões na barra (r = – 0,99579), os graus de liberdade são n - 2 = 16 - 2 = 14, (onde n refere-se ao número de pares de escores). Ao ler-se a tabela no gl 14, vemos que é necessária uma correlação de 0,4863 para a significância de um teste bi-caudal no nível 0,5 (e 0,5742 no nível 0,01). Logo se pode concluir que uma correlação de r = – 0,98107 é significante. (Explicaremos teste uni-caudal ou bi-caudal na seção sobre a interpretação de t no Volume II). A correlação necessária para um determinado nível de significância diminui com o aumento do número de sujeitos, logo, coeficientes de correlação muito baixos podem ser significantes para uma amostra ampla de sujeitos. No nível 0,05, uma correlação de 0,4227 é significante com 20 gl, r = 0,2500 é significante com 60 gl, e 0,1946 é significante com 100 gl. Por outro lado, uma maior correlação é exigida para a significância no nível 0,01 do que no nível 0,05. 61 CORRELAÇÃO E REGRESSÃO O nível 0,05 significa que se 100 experimentos fossem conduzidos, assumiria-se a possibilidade de se rejeitar a hipótese nula (de que não existe relação), pelo acaso, somente em 5 das 100 ocasiões. No nível 0,01, esperasse cometer este erro somente uma vez a cada 100 experimentos devido ao acaso. Logo, o teste de significância no nível 0,01 é mais preciso do que no nível 0,05, e, portanto, uma correlação maior é exigida para a significância no nível 0,01. A Estatística pode responder se os efeitos são confiáveis, e se eles são significantes. O critério mais comumente usado para a interpretação de r , conforme sua significância, é o coeficiente de determinação (r2), que indica a porção da variação total em uma medida que pode ser explicada, ou devida à variação na outra medida. Para uma correlação de 0,70 entre duas variáveis, apenas cerca da metade (49%) da variação (ou influências) em um teste é associada com a outra. Se r = 0,80, então 64% da performance em um teste são associados com, ou explicados pelos, fatores envolvidos na performance do outro teste. A variação não explicada (1,0 - r2) refere-se à variação em uma variável (dependente) que não ocorre em função da manipulação da outra variável (independente). Com uma correlação de 0,70, existe 49% de variação comum (explicada), e 51% (1,00 - 0,702) de variação de erro (não explicada). Quando se utiliza o coeficiente de determinação para interpretar os coeficientes de correlação, fica evidente que uma relação mais substancial é necessária para explicar uma grande quantidade de variação comum. A Tabela 22 apresenta a relação entre o coeficiente de correlação e as variações explicadas e não explicadas um breve exemplo Tabela 22 – Relação entre r e as variações explicadas e não explicadas r 0,900 0,800 0,700 0,600 0,500 0,400 0.300 Explicada 81% 64% 49% 36% 25% 16% 9% Variação Não Explicada 19% 36% 51% 64% 75% 84% 91% O tamanho comparativo das correlações devidas ao coeficiente de determinação também pode ser observado. Uma correlação de 0,90 não é simplesmente três vezes maior do que uma correlação de 0,30; é nove vezes maior (0,300² = 0,09, ou 9%, e 0,900²= 0,81, ou 81%). 6.5 TRANSFORMAÇÃO “ Z” DO “ r” Um pesquisador pode estar interessado em determinar a média de duas ou mais correlações. É estatisticamente insuficiente tentar calcular a média dos coeficientes por eles mesmos, porque a distribuição de amostras dos coeficientes de correlação não é normal, pois quanto maior for a correlação mais desviada se torna a distribuição. 62 CORRELAÇÃO E REGRESSÃO O método mais satisfatório de aproximação da normalidade de uma distribuição de amostras de relações lineares é pela transformação dos r para valores Z (transformação Z de Fisher). Tal procedimento envolve o uso de logaritmos naturais. Todavia, não necessitamos utilizar a fórmula de Fisher para calcular as transformações, basta utilizar a Tabela para transformação de r para z, localizando o valor Z correspondente para qualquer coeficiente de correlação em particular. Suponha, por exemplo, que obtivemos correlações entre a distância percorrida e a freqüência cardíaca durante a corrida do TAF (correr-caminhar por 12 minutos) em quatro grupos de sujeitos de diferentes de idades. Para combinarmos essas correlações de amostras a fim de se obter uma estimativa válida e confiável da relação entre essas duas variáveis, devese proceder conforme a Tab. 23. Tabela 23 Cálculo da média dos coeficientes de correlação (transformação Z). Grupo etário 18-25 26-33 34-40 41-47 n 33 35 34 35 r 0,700 0,835 0,770 0,735 Z 0,867 1,204 1,020 0,929 = n-3 30 32 31 32 125 Z com peso 26,010 38,528 31,620 29,728 125,886 Passos da utilização dos valores Z para o cálculo da correlação média. a. converter cada correlação para um valor Z utilizando a Tabela para transformação de r para z (Anexo VII); b. contrapesar os valores Z multiplicando-os pelos graus de liberdade para cada amostra, que nesse processo é n – 3; c. somar os valores contrapesados de Z; d. calcular a média do valor Z dividindo-se pela amostra total [ (n-3)]: 125,886/125 = 1,007. e. converter o valor médio do Z contrapesado a uma correlação média consultando-se novamente a Tabela para transformação de r para z, Z = 1,007 o r médio é 0,765. A transformação Z é também utilizada para os testes estatísticos (tais como aqueles para a significância do coeficiente de correlação) e para determinar a significância da diferença entre dois coeficientes de correlação. Alguns autores afirmam que para calcular a média das correlações pela transformação Z, deve-se primeiro estabelecer que não existem diferenças significativas entre as correlações testadas. Uma comparação de diferenças poderia ser feita utilizando um teste de qui-quadrado para os valores de Z com contrapeso (o qui-quadrado é uma técnica não-paramétrica discutida no Volume 2). 63 CORRELAÇÃO E REGRESSÃO 6.6 REGRESSÃO LINEAR Um dos propósitos da correlação pode ser a previsão. Sempre que se deseja estudar determinada variável dependente (sobre a qual deseja-se fazer uma estimativa) , em função de uma variável independente, utiliza-se uma equação de predição (regressão) baseada na correlação entre X e Y. Quanto mais alta for a relação entre as duas variáveis, mais precisamente poder-se-á prever Y a partir de X. Geralmente utilizam-se as fórmulas abaixo descritas para o cálculo da linha de melhor ajustamento (reta de regressão) Y= a+bX Sendo: a = Xy – bXx b= r (Sy/Sx) Onde: Y = variável dependente (critério) a = o ponto de intersecção b = a inclinação da linha de regressão X = variável independente (preditor) Xy e Sy = média e desvio padrão de y Xx e Sx= média e desvio padrão de x r = correlação entre X e Y Quadro 22 – Fórmula da regressão linear A letra a da fórmula de regressão indica a intersecção da linha de regressão no eixo y. Em outras palavras, a é o valor de Y quando X = 0. A inclinação da linha (b) significa a quantidade de mudança em Y que acompanha uma mudança de 1 unidade de X. Utilizando os dados da Tab. 20, peso corporal (X) e força muscular (Y).onde a correlação entre o peso corporal (X) e força muscular (Y) foi r = 0,98107. As médias e os desvios-padrão são os seguintes: Medida Peso Força X S r 45,00 9,522 0,98107 92,06 19,361 0,98107 Sendo: Y= a+bX Onde: b = r (Sy/Sx)= 0,98107 . (19,361/9,522) b = 1,995 a = Xy – bXx = 92,06 - 1,995 . 45,00 a = 2,285 Logo : Y = 2,285 + 1,995.X Quadro 23 – Cálculo da equação de regressão linear Para qualquer peso corporal (X), podemos calcular o escore de força muscular (Y) predito. Por exemplo, um sujeito pesando 100 Kg teria um escore Y (força predita): Y = 2,285 + 1,995.X = 2,285 + 1,995.100 Y = 201,785 Quando prevemos a força muscular a partir do peso corporal a correlação (r = 0,98107) é menor do que 1.00, ou seja a correlação não é perfeita. Deste modo é possível dizer que existe um erro na estimativa de Y a partir de X, o qual chamaremos de erro de predição. 64 CORRELAÇÃO E REGRESSÃO 6.7 LINHA DE MELHOR AJUSTAMENTO E ERRO DE PREDIÇÃO A Fig. 25 mostra que a dispersão dos escores de peso e força não forma uma linha reta, mas sim uma elipse. Conseqüentemente, devemos calcular uma linha de melhor ajustamento para prever Y a partir dos escores X. Para tal pode-se eleger um escore X alto (60Kg), e um baixo (30kg) e aplicamos a fórmula de predição. Para um peso corporal de 60kg, prediz-se Y = 2,285 + 1,995.60= 121,99. Para um peso corporal de 30Kg, predize-se Y= 2,285 + 1,995.30 = 62,14. Deve-se então, plotar esses dois valores previstos no gráfico de dispersão e conectá-los com uma linha reta. Essa linha passa pela intersecção das médias X e Y A Fig. 27 mostra essa linha de melhor ajustamento. Desta forma, pode-se notar que os escores não se situam na linha reta, mas em torno da mesma. Quanto mais próximo da perfeição estiver o nível de correlação entre as variáveis X e Y, mais próximos da linha de melhor ajustamento estarão os escores plotados. CORRELAÇÃO ENTRE FORÇA MUSCULAR E PESO CORPORAL Lb Kg 120 100 X=92,1 80 60 40 20 a= (0; 2,285) X=45 0 0 20 40 60 80 100 120 Kg Figura 27 – Regressão linear da relação força muscular X peso corporal. Na construção dessa linha de melhor ajustamento, selecionamos um alto peso corporal (60) e um peso corporal baixo (30) e predizemos seus valores Y Quando examinamos seus valores Y reais, vemos que existe algum erro na predição. O escore de força previsto para o sujeito de 60kg foi de 121,99Kg, mas ele obteve apenas 120Kg, uma diferença de -1,99Kg. Ao mesmo tempo, esperava-se que o sujeito de 30Kg obtivesse 62,14Kg no dinamômetro, e na verdade ele obteve 58Kg, uma diferença de – 4,14Kg. Essas diferenças entre o escore Y previsto e o real representam erros de predição e são chamados de escores residuais. Se computássemos todos os escores residuais, a média seria zero e o desvio-padrão seria o erro de predição padrão, ou erro de estimativa padrão (Sy.x). 65 CORRELAÇÃO E REGRESSÃO Uma forma mais simples de se obter o erro de predição padrão é utilizar a fórmula Sy.x = Sy 1-r² Sendo: Sy.x = erro de predição padrão Sy = desvio padrão de Y r = correlação entre X e Y Quadro 24 – Fórmula do erro de predição padrão (Sy.x). O erro de predição padrão é interpretado da mesma forma que o desvio-padrão. O valor predito (força) de um sujeito, mais ou menos o erro de estimativa padrão, ocorrerá aproximadamente 68 vezes em 100. Para o exemplo utilizado até o presente momento, um sujeito de 50Kg teria uma força predita de Y = 2,285 + 1,995.50 = 102,04 Kg mais ou menos o erro de predição. Sendo: Sy.x = Sy 1-r² Onde: Sy = 19,361 e r = 0,98107 Logo: Sy.x = 19,361 1 - 0,98107 Sy.x = 19,361 . .013759 Sy.x= 2.66 Quadro 25 – Cálculo de Sy.x para força muscular X peso corporal. Ao medirmos a força muscular de um sujeito de 50Kg, provavelmente encontraremos uma força muscular variando: entre 99.38 Kg e 104,70 Kg (Y + Sy.x ) em 68,26% dos casos; entre 96,72 Kg e 107,36 Kg (Y + 2Sy.x ) em 95,44% dos casos; e entre 94,06 Kg e 110,02 Kg (Y + 3Sy.x ) em 99,74% dos casos. Este intervalo é chamado de “ amplitude de predição” Quanto maior a correlação, menor será o erro de predição. Além disso, quanto menor o desvio padrão do critério, menor será o erro. 6.8 CORRELAÇÃO PARCIAL Quando existe pouca ou nenhuma correlação entre duas variáveis X e Y, que não seja causada por sua dependência comum a uma terceira variável Z, a correlação entre X e Y é algumas vezes equivocada, e pode ser difícil de interpretar. Por exemplo, em uma ampla faixa etária (18 a 47 anos), a correlação entre duas variáveis como resultado no tiro prático de pistola dos sujeitos e seu posto/graduação será, quase certamente, positiva e provavelmente alta, em função do fator experiência no esporte (anos de prática) com o qual elas estão altamente correlacionadas. 66 CORRELAÇÃO E REGRESSÃO Na verdade, a correlação pode diminuir muito se a variabilidade causada pelas diferenças de experiência for eliminada, podendo-se controlar esse fator por meio de duas formas: selecionar apenas sujeitos da mesma idade, ou eliminar-se os efeitos da idade estatisticamente mantendo-a constante. O símbolo para a correlação parcial é r12.3 o qual significa a correlação entre as variáveis 1 e 2 com a variável 3 mantida constante Lembremos novamente a correlação entre o resultado do tiro prático de pistola e o posto/graduação do sujeito. Esse é um exemplo de correlação espúria, o que significa que a correlação entre as duas variáveis é devida à influência comum de uma outra variável (experiência no esporte). Quando o efeito da terceira variável (experiência) é removido, a correlação entre o resultado do tiro prático de pistola e o posto/graduação diminui ou desaparece completamente. Chamaremos as três variáveis a seguir: 1 = resultado no tiro prático de pistola, 2 = posto /graduação, e 3 = experiência (anos de prática). Logo, r12.3 é a correlação parcial entre as variáveis 1 e 2, com 3 sendo mantida constante. Podemos ajustar alguns coeficientes de correlação entre três variáveis: r12 = 0,765; r13 = 0,880; e r23 = 0,850. Sendo: r12.3 = r12. - r1.3 r2.3 1-r13² 1-r23² Onde: r12 = 0,765 Correlação entre 1 e 2 r13 = 0,880 Correlação entre 1 e 3 r23 = 0,850 Correlação entre 2 e 3 Logo: r12.3 = 0,765 - 0,880 . 0,850 1 - 0,880² 1- 0,850² r12.3 = 0,765 – 0,748 0,2256 0,2775 r12.3 = 0.017 0,47497 . 0,52678 r12.3 = 0,068 Quadro 26 – Fórmula e cálculo da correlação parcial. Pode-se notar que a correlação entre o resultado do tiro prático de pistola e o posto/graduação cai à cerca de zero quando a experiência do atirador é isolada. A correlação parcial é principalmente utilizada no desenvolvimento de equações de regressão múltipla com duas ou mais variáveis preditoras. 6.9 REGRESSÃO MÚLTIPLA A regressão múltipla consiste em uma variável dependente (usualmente um critério de algum tipo) e duas ou mais variáveis preditoras (variáveis independentes), tendo em vista que o uso de mais de uma variável preditora, usualmente aumenta a precisão da predição. Caso se desejasse predizer a capacidade de um atirador dever-se-ia analisar a correlação de várias habilidades inerentes ao tiro para se predizer a sua performance com o decorrer dos anos de prática, ou seja utilizando vários preditores ao invés de apenas um. 67 CORRELAÇÃO E REGRESSÃO O coeficiente de correlação múltipla (R) indica a relação entre um critério e o somatório dos pesos suas variáveis preditoras. Segue-se então que R2 representa a quantidade de variância do critério que é explicada pela associação/combinação dos preditores (mesmo conceito do coeficiente de determinação r2). Ao utilizarmos R, desejamos encontrar a combinação de variáveis que fornecerá a predição mais precisa do critério, portanto é importante saber o quanto cada um dos mecanismos de predição contribui para a variação total explicada, encontrando as variáveis que melhor reduzirão os erros de predição. Existem vários métodos de regressão múltipla. Neste manual abordaremos apenas as mais comumente utilizadas, a regressão múltipla progressiva, a regressão múltipla regressiva,o método do R2 máximo e o método de regressão gradativa O método de regressão múltipla progressiva consiste em adicionarmos, progressivamente, uma nova variável preditora. A primeira variável selecionada deve ser aquela com a maior correlação com o critério. As variáveis selecionadas produzem cumulativamente a soma residual mínima de quadrados, significando que a soma residual de quadrados constitui erro. Algumas vezes o pesquisador irá determinar um nível de probabilidade para entrada, como 0,05 ou 0,01. Dessa forma, as variáveis são acrescentadas até que elas não possam mais aumentar de forma significativa a predição do critério. Sempre que duas variáveis possa estar medindo a mesma coisa, a inclusão de ambas não é melhor do que utilizar apenas uma. Após o primeiro passo, a seleção de variáveis adicionais é determinada pelo efeito combinado, não apenas pelo efeito aditivo. Em outras palavras, o processo leva em consideração as inter-relações entre as variáveis X. Após cada variável X ser introduzida, o processo identifica qual das variáveis preditoras restantes explicará a maior quantidade de variação inexplicada. As variáveis devem ser introduzidas conforme a sua importância e o processo termina quando não existe mais uma contribuição significativa para a predição. No método de regressão múltipla regressiva, as variáveis independentes são eliminadas por sua falta de importância. Inicia-se com todas as variáveis independentes e exclui-se aquelas que não contribuem significativamente para a predição do critério. Determina-se um nível de probabilidade para entrada, como 0,05 ou 0,01, e as variáveis que não alcançam o nível de significância, são excluídas. O R2 máximo é o método no qual o chamado melhor de todos os modelos possíveis de urna única variável é selecionado, assim como o melhor modelo de duas variáveis, o melhor modelo de três variáveis e assim por diante, até um critério predeterminado que termina quando o cálculo é alcançado. O método de regressão gradativa é um procedimento de regressão similar à seleção progressiva exceto pelo fato de que a cada passo todas as variáveis independentes são avaliadas para se verificar se cada uma continua contribuindo para a predição. Se uma variável independente não contribui, ela é então excluída (removida) da combinação linear. A equação de predição da regressão múltipla segue o modelo de regressão de duas variáveis (Y = a + bX), diferindo apenas na existência de mais de uma variável X, conforme a equação: Y= a+ b1X1+ b2X2+...+biXi 68 CORRELAÇÃO E REGRESSÃO A premissa básica em uma regressão múltipla é a mesma que na regressão linear simples, ou seja, o tamanho da correlação entre as variáveis de estudo. Quanto maior a correlação, mais precisa será a predição. Todavia, uma limitação da predição relaciona-se com a generalização das constatações, pois as equações de regressão desenvolvidas por uma amostra, freqüentemente perdem em precisão quando aplicadas a outras amostras, o que chamamos de redução. O termo especificidade de população também se relaciona a esse fenômeno, pois ao buscarmos uma maior precisão por meio de procedimentos de seleção das variáveis preditoras (o que reforça as características específicas da amostra), tornamos mais difícil a generalização dos achados para outras populações. Os resultados de uma fórmula de predição para adolescentes provavelmente perderiam muita precisão se aplicada em adultos. Assim, o pesquisador deve selecionar cuidadosamente uma amostra em relação à população para a qual os resultados deverão ser generalizados. Em estudos de previsão, quanto maior a amostra, mais provavelmente ela representará a população da qual foi retirada. Um grande problema com pequenas amostras em estudos de regressão múltipla é que a correlação pode ser espuriamente alta. Existe uma relação direta entre a correlação, e a razão entre o número de sujeitos versus o número de variáveis. O grau no qual o valor esperado de R2 excederá zero quando é zero na população depende de dois fatores: o tamanho da amostra (n) e o número de variáveis (k). Ao selecionarmos o número de sujeitos de uma amostra devemos tomar o cuidado de observar a razão R2 = k - 1 / n – 1. Por fim, é recomendável manter-se uma razão de 10 sujeitos ou mais para cada variável. ANEXOS 69 ANEXO I ESTATÍSTICA DESCRITIVA O quadro abaixo indica os tipos de técnicas estatísticas que podem ser aplicadas para a descrição de conjuntos de dados para se obter um resumo ou descrição geral deles. DISTRIBUIÇÃO NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS N° de Escala Análises Aplicáveis Gráficos Aplicáveis Amostras Numérica Média, Moda, Desvio Padrão, Coeficiente Histograma, Box & Ordinal, de Variação, Intervalo de Confiança, Uma ou Whiskers, Gráfico de Intervalar ou Mínimo, Primeiro Quartil, Mediana, Mais Séries, Ogiva (Função Razão Terceiro Quartil, Máximo, Série de Distribuição). Temporal*. * Quando uma das variáveis registradas for o tempo. DISTRIBUIÇÃO NÃO-NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS N° de Escala Análises Aplicáveis Gráficos Aplicáveis Amostras Numérica Média, Moda, Desvio Padrão, Histograma, Box & Ordinal, Coeficiente de Variação, Intervalo de Uma ou Whiskers, Gráfico de Intervalar ou Confiança, Mínimo, Primeiro Quartil, Mais Séries, Ogiva (Função de Razão Mediana, Terceiro Quartil, Máximo, Distribuição). Série Temporal*. Uma ou Pictograma, Gráfico de Nominal Freqüências, Série Temporal*. Mais Séries. * Quando uma das variáveis registradas for o tempo. ANEXOS 70 ANEXO II COMPARAÇÕES ENTRE AMOSTRAS O quadro abaixo indica as técnicas estatísticas que podem ser aplicadas para a comparação entre os parâmetros de dois ou mais grupos de dados. DISTRIBUIÇÃO NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS Tipo de N° de Amostras Escala Numérica Análises Aplicáveis Relação Duas Amostras Intervalar ou Razão Teste t de Student Pareado Pareadas Três ou Mais Intervalar ou Razão ANOVA c/ Medidas Repetidas Amostras Duas Amostras Intervalar ou Razão Teste t de Student Não-Pareadas Três ou Mais ANOVA c/ Grupos Intervalar ou Razão Amostras Independentes * Variável com apenas dois valores ou duas categorias (variável binária). DISTRIBUIÇÃO NÃO-NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS Tipo de N° de Amostras Escala Numérica Análises Aplicáveis Relação Ordinal, Intervalar Teste de Friedman, Sign-Test, Duas Amostras ou Razão Wilcoxon Matched-Pairs Test Nominal Duas Amostras Teste de McNemar Dicotômica* Pareadas Três ou Mais Ordinal, Intervalar ANOVA de Friedman Amostras ou Razão Três ou Mais Nominal Teste Q de Cochran Amostras Teste Mann-Whitney U, WaldOrdinal, Intervalar Wolfowitz Runs Test, Duas Amostras ou Razão Kolmogorov-Smirnov TwoSample Test Teste de Qui-Quadrado Duas Amostras Nominal Não-Pareadas (Homogeneidade) Três ou Mais Ordinal, Intervalar ANOVA de Kruskal-Wallis Amostras ou Razão Três ou Mais Nominal Teste de Qui-Quadrado Amostras * Variável com apenas dois valores ou duas categorias (variável binária). ANEXOS 71 ANEXO III RELAÇÃO ENTRE VARIÁVEIS O quadro a seguir mostra as técnicas analíticas e procedimentos gráficos aplicáveis quando se quer verificar a existência e/ou caracterizar as relações entre duas ou mais variáveis. DISTRIBUIÇÃO NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS N° de Gráficos Escala Numérica das Variáveis Análises Aplicáveis Variáveis Aplicáveis Correlação de Pearson, Diagrama de Duas Intervalar e/ou Razão Regressão Linear Dispersão (X,Y). Simples. Diagrama Três ou Intervalar e/ou Razão Regressão Múltipla Previsão vs. Mais Observação Regressão Linear Três ou Intervalar e/ou Razão Múltipla, Regressão --Mais Não-Linear Nominal Dicotômica* (VariávelTrês ou --Resposta) e/ou Nominal e/ou Ordinal Regressão Logística Mais e/ou Intervalar e/ou Razão * Variável com apenas dois valores ou duas categorias (variável binária). DISTRIBUIÇÃO NÃO-NORMAL - ESTATÍSTICA DESCRITIVA E GRÁFICOS N° de Gráficos Escala Numérica das Variáveis Análises Aplicáveis Variáveis Aplicáveis Correlação de Diagrama de Duas Ordinal e/ou Intervalar e/ou Razão Spearman. Dispersão (X,Y). Duas Nominal Teste de Qui-Quadrado. --Três ou Correlação Partial Rank Diagrama de Ordinal e/ou Intervalar e/ou Razão Mais de Kendall Dispersão (X,Y). Três ou Nominal Análise Discriminante --Mais Regressão Linear Três ou Intervalar e/ou Razão Múltipla, Regressão --Mais Não-Linear Nominal Dicotômica* (VariávelTrês ou Resposta) e/ou Nominal e/ou Regressão Logística --Mais Ordinal e/ou Intervalar e/ou Razão * Variável com apenas dois valores ou duas categorias (variável binária). ANEXOS 72 ANEXO IV TABELA DE NÚMEROS ALEATÓRIOS 57720039848441796771402113975649865408932968745483 28805351590993988758702771771706320278621674696517 92591852873048869748352518887403629838586586424103 90381291743019758907506415597188137495305278301175 80911694675860820666904756184645111235324550411343 22017031329691927540165429727499009597610098243007 56241004302046299053531105844121647919762951626066 79449262029686643000945669302059878735442250977819 53996645088978507753372577412762380223576201416035 18928735885505213651392850146685793019797266643145 53085896630561257022504128966266436306630132798522 03588029287689511824888946474859192987031033996712 27078188656949980028047051300147189733218582454324 05210859010622249891811755446616077307661012317858 40361327843082333639694205586461123389278952667193 54602528858820001059610536613372010119016110512091 71516340767111737352373160458892734371280498090248 61020181739260667358533442682638340327449604466593 82559313463095265506961765917239799612495280632699 89985414217413576819862860894733152628774538480808 00998484146795137758901450794273633106604340125504 62415078204805884352980319939203049725849595036331 94279069246809921186076383193299511555710927026700 44892928843628251582877418972576106326760226745328 97307695332110542695666552049936584803089363581796 39165804448015595983909554668184396085388866333569 60781103266750340961313020769366308351093383647605 03192347628957779133884760593754394877674985384391 41285267562539599665513690322239330522990339979699 77549850392537425297100356049281668670014889558210 28634161916424838137344883279638716973067750256460 74244885401233596750149814264279791352896978804471 00240337964668750532421663332897263647277365383446 05414769694536167118955197220413239658600369487983 62698497974723665156130869115275592686818043009892 ANEXOS 73 ANEXO V ÁREA SUBTENDIDA PELA CURVA NORMAL REDUZIDA DE 0 A Z z 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0398 0438 0478 0517 0557 0596 0636 0675 0714 0754 0,2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141 0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517 0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879 0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224 0.6 2258 2291 2324 2357 2389 2422 2454 2486 2518 2549 0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852 0,8 2881 2910 2939 2867 2996 3023 3051 3078 3106 3133 9,0 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389 1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621 1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830 1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015 1,3 4032 4049, 4066 4082 4099 4115 4131 4147 4162 4177 1,4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319 1,5 4332 4345 4357 4370 4382 4394 4406 4418 4429 4441 1,6 4452 4463 4474 4484 4496 4505 4515 4525 4535 4545 1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633 1,8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706 1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767 2,0 4772 4778 4783 4788 4793 4798 4803 4808 4812 4817 2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857 2,2 4861 4864 4868 4871 4875 4878 4881 4884 4887 4890 2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916 2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936 2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952 2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964 2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974 2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981 2,9 4981 4982 4982 4983 4984 4984 4985 4985 4986 4986 3,0 4987 4987 4987 4988 4988 4989 4989 4989 4990 4990 3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993 3,2 4993 4993 4994 4994 4994 4994 4994 4995 4995 4995 3,3 4995 4995 4995 4996 4996 4996 4996 4996 4996 4997 3,4 4997 4997 4997 4997 4997 4997 4997 4997 4997 4998 3,5 4998 4998 4998 4998 4998 4998 4998 4998 4998 4998 3,6 4998 4998 4999 4999 4999 4999 4999 4999 4999 4999 3,7 4999 4999 4999 4999 4999 4999 4999 4999 4999 4999 3,8 4999 4999 4999 4999 4999 4999 4999 4999 4999 4999 3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 ANEXOS 74 ANEXO VI VALORES CRÍTICOS DOS COEFICIENTES DE CORRELAÇÃO (TABELA r ) Nível de significância para teste caudal 0,025 0,01 0,005 0,0005 Nível de significância para teste bicaudal 0,10 0,05 0,02 0,01 0,001 0,05 df n – 2 1 2 3 4 5 0,9877 0,9000 0,8054 0,7293 0,6694 0,9969 0,9500 0,8783 0,8114 0,7545 0,9995 0,9800 0,9343 0,8822 0,8329 0,9999 0,9900 0,9587 0,9172 0,8745 1,0000 0,9990 0,9912 0,9741 0,9507 6 7 8 9 10 0,6215 0,5822 0,5494 0,5214 0,4973 0,7067 0,6664 0,6319 0,6021 0,5760 0,7887 0,7498 0,7155 0,6851 0,6581 0,8343 0,7977 0,7646 0,7348 0,7079 0,9249 0,8982 0,8721 0,8471 0,8233 11 12 13 14 15 0,4762 0,4575 0,4409 0,4259 0,4124 0,5529 0,5324 0,5139 0,4973 0,4821 0,6339 0,6120 0,5923 0,5742 0,5577 0,6835 0,6614 0,6411 0,6226 0,6055 0,8010 0,7800 0,7603 0,7420 0,7246 16 17 18 19 20 0,4000 0,3887 0,3783 0,3687 0,3598 0,4683 0,4555 0,4438 0,4329 0,4227 0,5425 0,5285 0,5155 0,5034 0,4921 0,5897 0,5751 0,5614 0,5487 0,5368 0,7084 0,6932 0,6787 0,6652 0,6524 25 30 35 40 45 0,3233 0,2960 0,2746 0,2573 0,2428 0,3809 0,3494 0,3246 0,3044 0,2875 0,4451 0,4093 0,3810 0,3578 0,3384 0,4869 0,4487 0,4182 0,3932 0,3721 0,5974 0,5541 0,5189 0,4896 0,4648 50 60 70 80 90 100 0,2306 0,2108 0,1954 0,1829 0,1726 0,1638 0,2732 0,2500 0,2319 0,2172 0,2050 0,1946 0,3218 0,2948 0,2737 0,2565 0,2422 0,2301 0,3541 0,3248 0,3017 0,2830 0,2673 0,2540 0,4433 0,4078 0,3799 0,3568 0,3375 0,3211 ANEXOS 75 ANEXO VII TABELA PARA TRANSFORMAÇÃO DE r PARA Z r 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,115 0,120 0,125 0,130 0,135 0,140 0,145 0,150 0,155 0,600 0,165 0,170 0,175 0,180 0,185 0,190 0,195 Z 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,116 0,121 0,126 0,131 0,136 0,141 0,146 0,151 0,156 0,161 0,167 0,172 0,177 0,182 0,187 0,192 0,198 r 0,200 0,205 0,210 0,215 0,220 0,225 0,230 0,235 0,240 0,245 0,250 0,255 0,260 0,265 0,270 0,275 0,280 0,285 0,290 0,295 0,300 0,305 0,310 0,315 0,320 0,425 0,330 0,335 0,340 0,345 0,350 0,355 0,360 0,365 0,370 0,375 0,380 0,385 0,390 0,395 Z 0,203 0,208 0,213 0,218 0,224 0,229 0,234 0,239 0,245 0,250 0,255 0,261 0,266 0,271 0,277 0,282 0,288 0,293 0,299 0,304 0,310 0,315 0,321 0,326 0,332 0,337 0,343 0,348 0,354 0,360 0,365 0,371 0,377 0,383 0,388 0,394 0,400 0,406 0,412 0,418 r Z r Z r Z 0,400 0,405 0,410 0,415 0,420 0,425 0,430 0,435 0,440 0,445 0,450 0,455 0,460 0,465 0,470 0,475 0,480 0,485 0,490 0,495 0,500 0,505 0,510 0,515 0,520 0,525 0,530 0,535 0,540 0,545 0,550 0,555 0,560 0,565 0,570 0,575 0,580 0,585 0,590 0,595 0,424 0,430 0,436 0,442 0,448 0,454 0,460 0,466 0,472 0,478 0,485 0,491 0,497 0,504 0,510 0,517 0,523 0,530 0,536 0,543 0,549 0,556 0,563 0,570 0,576 0,583 0,590 0,597 0,604 0,611 0,618 0,626 0,633 0,640 0,648 0,655 0,662 0,670 0,678 0,685 0,600 0,605 0,610 0,615 0,620 0,625 0,630 0,635 0,640 0,645 0,650 0,655 0,660 0,665 0,670 0,675 0,680 0,685 0,690 0,695 0,700 0,705 0,710 0,715 0,720 0,725 0,730 0,735 0,740 0,745 0,750 0,755 0,760 0,765 0,770 0,775 0,780 0,785 0,790 0,795 0,693 0,701 0,709 0,717 0,725 0,733 0,741 0,750 0,758 0,767 0,775 0,784 0,793 0,802 0,811 0,720 0,829 0,838 0,848 0,858 0,867 0,877 0,887 0,897 0,908 0,918 0,929 0,940 0,950 0,962 0,973 0,984 0,996 1,008 1,020 1,033 1,045 1,058 1,071 1,085 0,800 0,805 0,810 0,815 0,820 0,825 0,830 0,835 0,840 0,845 0,850 0,855 0,860 0,865 0,870 0,875 0,880 0,885 0,890 0,895 0,900 0,905 0,910 0,915 0,920 0,925 0,930 0,935 0,940 0,945 0,950 0,955 0,960 0,965 0,970 0,975 0,980 0,985 0,990 0,995 1,099 1,113 1,127 1,142 1,157 1,172 1,188 1,204 1,221 1,238 1,256 1,274 1,293 1,313 1,333 1,354 1,376 1,398 1,422 1,447 1,472 1,499 1,528 1,557 1,589 1,623 1,658 1,697 1,738 1,783 1,832 1,886 1,946 2,014 2,092 2,185 2,298 2,443 2,647 2,994 REFERÊNCIAS BEIGUELMAN, B. Curso prático de bioestatística. 5. ed. Ribeirão Preto: FUNPEC, 2002. BUSSAB, W. O., MORETIN, P. A. Estatística básica. 3. ed. São Paulo: Atual, 1986. CHACON, P. E. Curso breve de estatística. 2. ed. Universidad de Duesto, 1965. COCHRAN, W. G. Técnicas de amostragem. Rio de Janeiro: Editora Fundo de Cultura, 1965. CLARKE, A. B., DISNEY, R. L. Probabilidade e processos estatísticos. Rio de Janeiro: LTC, 1979. COSTA NETO, P.L.O. Estatística. São Paulo: Edgard Blücher, 1977. CRESPO, A. A. Estatística fácil. 17. ed. São Paulo: Saraiva, 2001 EDWARDS, A. L. Statistical Methods. 2. ed. New York: Holt, Rinehart and Winston FONSECA, J.S., MARTINS, G. A. Curso de estatística. 3. ed. São Paulo: Atlas, 1984. GATTÁS, R. R. Elementos de probabilidades e inferência. São Paulo: Atlas, 1978. GOES, L. A. C. Estatística: uma abordagem decisorial. São Paulo: Saraiva, 1940. v. 1. GUEDES, M.L.S.; GUEDES, J.S. Bioestatísca. Rio de Janeiro: Ao Livro Técnico S.A., 1988. GUERRA, J. G., DONAIRES, D. Estatística indutiva. 4. ed. São Paulo: LCT, 1990. KARMEL, P. H., POLASEK, M. Estatística geral e aplicada à economia. 2. ed. São Paulo: Atlas, 1976. MARTINS, G. A., DONAIRES, D. Princípios de estatística. 1. ed. São Paulo: Atlas, 1979. MEYER, P. L. Probabilidade: aplicações à estatística. LCT, 1969. PEARSON, E. S., HARTLEY, H. O. Biometrika tables for statisticians. Vol. 1, 3. ed. Londres: Cambridge University Press. SILVA, E. M., SILVA, E. M., GONÇALVES, V., MUROLO, A. C. Estatística para os cursos de economia, administração e ciências contábeis. 2. ed. São Paulo: Atlas, 1997. v. 1. SPIEGEL, M. R. Estatística. 2. ed. São Paulo: McGraw – Hill, 1985. STEVENSON, W. J. Estatística aplicada à administração. São Paulo: Harbra, 1981. RODRIGUES, P.C. Bioestatística. 2. ed. Aumentada. Niterói: EDUFF, 1993. 77 REFERÊNCIAS THOMAS, J. R., NELSON, J. K. Métodos de pesquisa em atividade física. 3. ed. Porto Alegre: ARTMED, 2002. WONNACOTT, T. H., WONNACOTT, R. J. Estatística aplicada à economia e administração. Rio de Janeiro: LCT, 1981.