ESTATÍSTICA PROF. CESÁRIO JOSÉ FERREIRA JAN/2007 1 ÍNDICE APLICATIVOS - 03 CAPÍTULO 1 - INTRODUÇÃO À TEORIA DOS CONJUNTOS 1.1 – CONCEITO DE CONJUNTO - 04 1.2 – SUBCONJUNTOS 1.3 – CONJUNTO UNIVERSO E CONJUNTO VAZIO - 05 EXERCÍCIOS 1.4 – OPERAÇÕES COM CONJUNTOS - 06 EXERCÍCIOS - 07 1.5 – NUMERAL DE UM CONJUNTO EXERCÍCIOS – 08 CAPÍTULO 5 – ESTATÍSTICA II 5.1 – DISTRIBUIÇÃO DE FREQÜÊNCIA - 34 5.2 – PARÂMETROS ESTATÍSTICOS PARA DADOS AGRUPADOS - 36 EXERCÍCIOS - 37 6.12 – CONSTRUINDO GRÁFICOS NO EXCEL 6.13 - CONSTRUINDO GRÁFICO NO STARCALC - 50 EXERCÍCIOS CAPÍTULO 02 - INTRODUÇÃO À ANÁLISE COMBINATÓRIA 2.0 - INTRODUÇÃO - 09 2.1 - OS PRINCÍPIOS FUNDAMENTAIS DA CONTAGEM EXERCÍCIOS 2.2 - ARRANJOS, COMBINAÇÕES e PERMUTAÇÕES SIMPLES 11 2.3 - CÁLCULO DO NÚMERO DE ARRANJOS SEM REPETIÇÃO 2.4 - PERMUTAÇÃO SIMPLES - 12 2.5 - COMBINAÇÕES SIMPLES EXERCÍCIOS - 13 2.6 - ARRANJOS COM REPETIÇÃO 2.7 - PERMUTAÇÕES COM ELEMENTOS REPETIDOS - 14 EXERCÍCIOS CAPÍTULO 03 - PROBABILIDADE 3.1 – EXPERIMENTOS - 15 3.2 – ESPAÇOS AMOSTRAIS EXERCÍCIOS - 16 3.3 – PROBABILIDADE EXERCÍCIOS - 17 3.4 – ALGUNS TEOREMAS SOBRE PROBABILIDADES 3.5 – PROBABILIDADE CONDICIONAL - 18 3.6 – EVENTOS INDEPENDENTES - 19 EXERCÍCIOS CAPÍTULO 06 – CONSTRUINDO GRÁFICOS 6.1 – INTRODUÇÃO - 42 6.2 – TABULAÇÃO 6.3 - GRÁFICO EM COLUNAS SIMPLES - 43 6.4 – GRÁFICO EM COLUNAS AGRUPADAS 6.5 – GRÁFICO EM BARRAS HORIZONTAIS - 44 6.6 – HISTOGRAMA 6.7 – GRÁFICO EM LINHA - 45 6.8 – OGIVA - 46 6.9 – PIRÂMIDE ETÁRIA - 47 6.10 - GRÁFICOS CIRCULARES - 48 6.11 – PICTOGRAMAS – 49 CAPÍTULO 7 - TESTES DE HIPÓTESES 7.1 – INTRODUÇÃO - 51 7.2 – QUI-QUADRADO 7.3 – O TESTE DO QUI-QUADRADO - 52 7.4 – TESTE DE FISHER - 54 7.5 - TABELA DE NÍVEIS DE SIGNIFICÂNCIA – QUIQUADRADO - 56 EXERCÍCIOS – 57 CAPÍTULO 8 - REGRESSÃO E CORRELAÇÃO 8.1 – INTRODUÇÃO - 59 8.2 – COEFICIENTE DE CORRELAÇÃO ENTRE DUAS VARIÁVEIS - 60 8.3 – COEFICIENTE DE CORRELAÇÃO LINEAR - 61 8.4 – REGRESSÃO LINEAR - 62 EXERCÍCIOS - 63 EXERCÍCIOS COMPLEMENTARES - 64 ANEXO I TESTE DE QI (I) – 66 CAPÍTULO 04 - ESTATÍSTICA I 4.1 – POPULAÇÕES E AMOSTRAS - 22 4.2 – MEDIDAS DE TENDÊNCIA CENTRAL - 23 EXERCÍCIOS - 24 4.3 – USANDO PLANILHAS EXERCÍCIO 4.4 – QUARTIL E PERCENTIL 4.5 – MEDIDAS DE DISPERSÃO - 25 EXERCÍCIOS - 27 4.6 – INTERVALO DE CONFIANÇA - 28 4.7 - TABELA DO COEFICIENTE DE CONFIANÇA (Z) EM PORCENTAGEM - 30 4.8 - TABELA DE DISTRIBUIÇÃO DE STUDENT - 31 EXERCÍCIOS 4.9 – INTERVALO DE CONFIANÇA PARA MÉDIAS DE UMA POPULAÇÃO - 32 EXERCÍCIOS – 33 2 APLICATIVOS Com o objetivo de eliminar cálculos repetitivos e/ou trabalhosos alguns conteúdos apresentarão aplicativos. No índice os aplicativos estão indicados por aplic.nº - xls, onde xls é o link para as páginas onde estão os aplicativos. Ao clicar nos links "xls" serão abertas planilhas de programas que provavelmente estão instalados em seu computador. Estas planilhas podem ser exibidas no EXCEL ( do Microsoft Office), no STARCALC (do Staroffice), BROFFICE CALC (do BrOffice ou OpenOffice) entre outros. Em cada aplicativo são apresentadas informações de como utilizá-los. Recomenda-se ao aluno que estude o conteúdo e aprenda a resolver os problemas também sem o uso dos referidos aplicativos, pois, em concursos ou outras disciplinas que cursará, não será permitido o uso do mesmo. Para cursos ligados à computação, o aluno deve observar a lógica usada nos aplicativos, pois, pode servir como exemplo de programação para uso em outras linguagens. O leitor deve atentar para as informações exibidas nos aplicativos a respeito das células a serem modificadas. Em geral elas são apresentadas com valores em vermelho. Nos aplicativos as células que não podem ser modificadas estão travadas. Entretanto, em alguns programas como o Starcalc, o travamento da célula não é mantido. No Excel e BrOffical Calc o travamento das células é mantido. Caso você modifique células que contém cálculos (fórmulas) feche o aplicativo sem salvá-lo e abra-o novamente. 3 CAPÍTULO 1 INTRODUÇÃO À TEORIA DOS CONJUNTOS 1.1 – CONCEITO DE CONJUNTO O conhecimento das propriedades e operações dos conjuntos é de fundamental importância para o estudo da probabilidade e da estatística, bem como para a Matemática em geral. Um conjunto consiste em geral na coleção de objetos que são chamados de elementos ou membros. Costuma-se indicar os conjuntos por uma letra maiúscula (A, B, C, D, ...) e seus elementos por letras minúsculas (a, b, c, d, ...). Um conjunto fica perfeitamente definido quando: (I) são relacionados todos os seus elementos ou (II) quando se conhecem as propriedades comuns a todos os seus elementos. No primeiro caso a identificação do conjunto é feita por listagem. A listagem dos elementos deverá ser expressa entre duas chaves ou através de diagramas (denominados diagramas de Venn), conforme exemplos abaixo. Conjunto das vogais: V = {a, e, i, o, u} – processo de listagem com chaves. Conjunto dos números inteiros maiores que 2 e menores que 8: Usando o método da propriedade comum, a indicação seria C = {x | P(x)} onde a barra se traduz por “tal que” e P(x) é a propriedade comum aos elementos do conjunto C. Tomando, por exemplo, o conjunto A dos números inteiros positivos menores que 5, indica-se: A = {x | x N e x < 5}. Fazendo a listagem, A = {0, 1, 2, 3, 4}. Nota N é o conjunto dos números naturais, ou seja: N = {0, 1, 2, 3, ...} Se um elemento x faz parte de um conjunto C, dizemos que tal elemento pertence ao conjunto, que se representa por x C. Caso contrário, se o elemento y não pertence ao conjunto C, escreve-se y C. Exemplo: Se A = {a, e, i, o, u} então a A, u A. Porém, p A. 1.2 – SUBCONJUNTOS Sejam A e B dois conjuntos, tais que todo elemento do conjunto A pertence também ao conjunto B. Nestas condições, o conjunto A é denominado subconjunto de B. Nos exemplos abaixo A é um subconjunto de B. Exemplo 1: por listagem A = {1, 2, 3} e B = {0, 1, 2, 3, 4, 5}. Exemplo 2: por diagrama B a h g f b c d e 4 A A ={b, c, d, e} B = {a, b, c, d, e, f, g, h} Para indicar que o conjunto A é um subconjunto de B, escreve-se A B (lê-se A está contido em B), ou B A (lê-se B contém A). Se B A e B A então A é um subconjunto próprio de B. As relações - está contido e - contém são denominadas relações de inclusão. Estas relações somente podem ser usadas quando se referirem a dois conjuntos. A negação das relações de inclusão é indicada por que se lê “não está contido”. Deve-se tomar o devido cuidado para não substituir a relação de inclusão pela relação de pertinência (pertence, não pertence). Estas últimas são aplicadas na relação de elemento com conjunto. Para a relação de inclusão e subconjuntos são válidas as propriedades: P1 – Qualquer que seja o conjunto A, A A e A A. Isto significa que todo conjunto é subconjunto de si mesmo. P2 – Se A B e B A então A = B. Neste caso, A e B apresentam os mesmos elementos. P3 – Se A B e B C, então A C. Esta propriedade é denominada “transitividade”. P4 – O número de subconjuntos de um conjunto com “n” elementos é 2 n. 1.3 – CONJUNTO UNIVERSO E CONJUNTO VAZIO. Na maioria dos casos, o conjunto usado é uma parte (subconjunto) de um conjunto mais amplo denominado conjunto universo. Tomando por exemplo, o conjunto A = {x | x é inteiro positivo e menor que 6} = {1, 2, 3, 4, 5}, este conjunto é um subconjunto do conjunto dos números naturais. Assim, o conjunto dos números naturais, indicado por N, é o conjunto universo que contém o conjunto A descrito. Nota: o próprio conjunto N é um subconjunto do conjunto dos números reais (R). O conjunto universo é comumente representado pela letra maiúscula U. Em diagramas, o conjunto universo é representado por um retângulo. No outro extremo, temos o conjunto desprovido de elementos, como por exemplo, o conjunto C = {x | x é inteiro menor que 7 e maior que 6}. É evidente que não existe nenhum número inteiro entre 6 e 7. Um conjunto desprovido de elementos, como o do exemplo, é denominado conjunto vazio que se representa por { } ou . Importante: {} não é um conjunto vazio. {} é um conjunto cujo elemento é (mesmo que seja um conjunto vazio). EXERCÍCIOS 01 – Para cada um dos conjuntos abaixo, indicá-los sob a forma de listagem e sob a forma de diagramas: (a) A = {x | x é uma consoante entre “d” e “p”} (b) B = {x | x N e 5 < x < 12} (c) C = {x | x N e 5 < x < 8} (d) D = {x | x N e 5 < x < 7} (e) E = {x | x N e 50 < x < 51} (f) F = {x | x N e 1002 < x < 1003}. 02 – Escreva todos os subconjuntos do conjunto A = {b, i, s, t, e, c, a} composto por dois elementos. 5 03 – Quantos subconjuntos tem o conjunto A = {b, i, s, t, e, c, a}? 04 – Use um dos sinais , , , para tornar verdadeira cada uma das sentenças abaixo: (a) –2 ___ {-4, -2, 0, 2, 4} (b) {5} ___ {x | x N e 1 < x < 26} (c) {1, 2, 3, 4, 5} ____ {3, 5} (d) 7 ___ {x | x > 8} (e) { } ___ {1, 2} (f) {2, 4, 6, 8} ___ U. 05 – É correto ou não escrever {1, 2} {1, 2, 3, {1}, {1, 2}}. Justifique sua resposta. 1.4 – OPERAÇÕES COM CONJUNTOS Sejam A e B dois conjuntos. Para os mesmos são definidas as operações: (I) UNIÃO – conjunto formado pelos elementos que pertencem a A ou a B. A união dos conjuntos A e B é indicada por A B que se lê A união B. Simbolicamente, x (A B) x A ou x B. O símbolo é usado para indicar “equivale a”. Obs. O conectivo “ou” é usado para indicar que x pode pertencer somente ao conjunto A, somente ao conjunto B ou simultaneamente a ambos os conjuntos. Exemplo: se A = {1, 2, 3, 4} e B = {2, 4, 5, 6} então A B = {1, 2, 3, 4, 5, 6}. Note que no conjunto A B os elementos 2 e 4 que pertencem aos dois conjuntos ao mesmo tempo não se apresentam repetidos. Usando diagramas: (II) INTERSEÇÃO – conjunto formado pelos elementos comuns aos dois conjuntos. A interseção dos conjuntos A e B é indicada por A B que se lê “A” interseção “B”. Simbolicamente indica-se: x (A B) x A e x B. Obs: o conectivo “e” é usado quando as duas condições devem ser ambas verificadas. Quando a interseção é um conjunto vazio, os dois conjuntos são denominados conjuntos disjuntos. Exemplo: Exemplo: se A = {1, 2, 3, 4} e B = {2, 4, 5, 6} então A B = {2, 4}. Graficamente: (III) DIFERENÇA – o conjunto formado pelos elementos que pertencem ao conjunto A mas que não pertencem ao conjunto B é denominado diferença entre o conjunto A e o conjunto B, denotado por A – B. Simbolizando: x (A - B) x A e x B. 6 Observe o diagrama referente à diferença A – B e B – A. (IV) COMPLEMENTAR – se o conjunto B está contido no conjunto A, a diferença A – B é chamada de complemento de B em relação a A. Neste caso denota-se B’A. Quando o conjunto A é o conjunto universo, a indicação B’U pode ser simplificada para B’ que se lê complemento de B. Costuma-se também identificar B’, complemento de B, como “não B” escrevendo ~B. Na figura a seguir estão representados o conjunto U (retângulo inteiro), o conjunto B (azul) e o complemento de B (verde). As P1 P2 P3 P4 P5 P6 operações com conjuntos apresentam as seguintes propriedades: – A B = B A e A B = B A - comutatividade. – A (B C) = (A B) C e A (B C) = (A B) C - associatividade. – A = e A U = U - absorção - A U = A e A = A – elemento neutro. – A – B = A B’. – (A B)’ = A’ B’ e (A B)’ = A’ B’ . Leis de De Morgan. EXERCÍCIOS - 2 1 – Sejam A = {a, b, c, d, e, f}, B = {b, d, f, g}, C = {a, h, m, n} e U = conjunto das letras do alfabeto latino. Calcule: (a) A B; (b) A (B C); (c) A B; (d) (A B) C; (e) A C (f) B C. (g) B – A (h) B U. (i) A – C (j) (A’)’ B (k) A (B ) (l) B (A ). 2 – Sejam A = {x | x N e 3 < x < 8} e B = {x | x N e 5 < x < 11}. Determine: (a) A B (b) A B (c) A – B (d) B – A 1.5 – NUMERAL DE UM CONJUNTO Define-se o numeral de um conjunto A, que se indica por n(A) como sendo a quantidade de elementos do conjunto A. Exemplo: seja A = {a, b, c, d, e, f, g}. Tem-se que n(A) = 7 pois A tem sete elementos. Com relação ao numeral de conjuntos podem ser verificadas as propriedades: P1 – Se A e B são conjuntos disjuntos (A B = ) então n(A B) = n(A) + n(B). Esta propriedade pode ser estendida para diversos conjuntos desde que a interseção entre dois quaisquer deles for vazia. Nestas condições n(A B C ...) = n(A) + n(B) + n(C) + ... 7 P2 – Se A e B são tais que A B então n(A B) = n(A) + n(B) – n(A B). Deve-se observar que em n(A) + n(B) os elementos da interseção estarão computados duas vezes. P3 – Para três conjuntos n(A B C) = n(A) + n(B) + n(C) – n(A B) – n(A C) – n(B C) + n(ABC). EXERCÍCIOS – 3 1 – O vilarejo Santa Cruz todos os habitantes assistem televisão. No dia 18 de novembro de 2001, foi constatado que 3200 assistiram programas do canal TVK, 1050 assistiram programas do canal TVP e 385 assistiram programas dos dois canais. Quantos habitantes tem o vilarejo Santa Cruz? 2 – Em uma cidade são publicados dois jornais “A Notícia” e “Diário da Cidade”. Após uma pesquisa em que todos os habitantes foram consultados, registrou-se: 6800 habitantes não lêem jornal; 4320 lêem o jornal “A Notícia”, 9230 lêem o jornal “Diário da Cidade” e 915 lêem os dois jornais. Quantos habitantes têm nesta cidade? 3 – Após a prova final em certa escola, verificou-se que somente os professores de Física e de Matemática deixaram alunos em recuperação. Dos 100 alunos, 59 não ficaram em recuperação, 26 ficaram em recuperação na disciplina Física e 12 devem fazer recuperação de Física e Matemática. Quantos alunos ficaram em recuperação: (a) Somente em Física; (b) Somente em Matemática; (d) Em Matemática. 4 – Pesquisando as preferências sobre as frutas: mamão, laranja e maçã, entre os 220 alunos de uma escola foi obtido o resultado indicado na tabela abaixo: Quantas pessoas: (a) não gostam de nenhuma das três frutas? (b) preferem mamão mas não gostam de laranja ou maçã? (c) quantas pessoas escolheram mamão ou laranja como frutas preferidas? 8 CAPÍTULO 02 INTRODUÇÃO À ANÁLISE COMBINATÓRIA 2.0 - INTRODUÇÃO Quando duas moedas (consideradas honestas) forem lançadas para cima, os resultados serão KK, KC, CK e CC onde K significa cara e C significa coroa. Nesta situação temos 4 possíveis resultados. Se no lugar de duas moedas forem usadas 50 moedas, a listagem dos possíveis resultados seria praticamente impossível pois a quantidade de resultados é 2 50 = 1125899906842624. No estudo de Probabilidades e Estatística, situações como esta são comuns. Para tornar possível a análise de casos em que o número de elementos envolvidos é muito grande torna-se importante a teoria da formação dos agrupamentos que se intitula Análise Combinatória. Neste capítulo serão analisados alguns elementos da Análise Combinatória aplicáveis à Probabilidade e à Estatística. 2.1 - OS PRINCÍPIOS FUNDAMENTAIS DA CONTAGEM 1. Princípio Aditivo Suponha que você tenha três conjuntos A, B e C, três conjuntos disjuntos. O conjunto A tem 5 elementos, B tem 4 e C tem 3. Existem 5 possibilidades de escolher um elemento do conjunto A. Da mesma forma, para escolher um elemento dos conjuntos B e C os números de possibilidades serão 4 e 3, respectivamente. A escolha de um único elemento, seja ele de A, ou de B ou de C, o número de possibilidades é 5 + 4 + 3 = 12. Note que, a ocorrência de um dos eventos não está condicionada à ocorrência do evento anterior. Assim é que se pode concluir: “se existem m1 possibilidades de ocorrer um evento E1, m2 possibilidades de ocorrer um evento E2 e m3 para ocorrer o evento E3, o número total de possibilidades de ocorrer o evento E1 ou o evento E2 ou o evento E3, será de m1 + m2 + m3 “ desde que os eventos não apresentem elementos comuns. A afirmação acima é denominada PRINCÍPIO ADITIVO DE CONTAGEM, e que pode ser estendido para qualquer quantidade de eventos. O conectivo que caracteriza a aplicação do princípio aditivo da contagem é o conectivo ou, que conforme já foi visto está associado à união de conjuntos. Seja então os conjuntos A = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}. Considerando os eventos E1 = número de A, menor que 7 e E2 = número par pertencente a A, ter-se-á: - E1 = {1, 2, 3, 4, 5, 6}. O nº de possibilidades de escolher o evento E1 é igual a 6 pois E1 tem 6 elementos. - E2 = {2, 4, 6, 8, 10}. O número de possibilidades de escolher o evento E2 é igual a 5 pois E2 tem 5 elementos. Entretanto, o número de possibilidades de escolher um número menor que 7 ou par pertencente ao conjunto não será igual a 11 (= 6 + 5) e sim igual a 8 pois os elementos 2, 4 e 6 são repetidos nos dois eventos. Neste caso, o número de eventos será n(E1 ou E2) = n(E1) + n(E2) -n(E1 E2) = 6 + 5 - 3 = 8, onde n representa o numeral dos conjuntos indicados (quantidade de elementos do conjunto). 2. Princípio Multiplicativo A figura a seguir representa estradas que ligam as cidades A até B e B até C. Como se pode notar existem 4 possíveis escolhas (eventos) para ir de A até B e 3 para se ir de B até C. Ora, para se ir de A até C, passando por B, o número de caminhos será 4 x 3, pois, para cada escolha de um caminho de A até B teremos 3 escolhas para ir de B até C. 9 Em situações como essa, os eventos são dependentes e devem ocorrer simultaneamente. O que caracteriza a simultaneidade dos eventos é o conectivo “e” . Observe que no princípio aditivo o conectivo usado é o “ou”. Generalizando: “sejam E1, E2, E3, ...En, um conjunto de eventos que podem ocorrer de m1, m2, m3, ... mn maneiras diferentes. A quantidade de possibilidades para os eventos E 1 e E2 e E3 e .... e En é m1.m2.m3. ... .mn .” Este princípio é chamado PRINCÍPIO MULTIPLICATIVO DA CONTAGEM. Seguem algumas aplicações sobre os princípios aditivo e multiplicativo descritos acima. Aplicação 1 - Certa pessoa tem em seu sítio 4 frangos, 2 leitões e 3 carneiros. De quantas maneiras diferentes poderá ele escolher um frango ou um leitão ou um carneiro para a sua ceia de natal? No caso, os eventos são E1 = {x | x é frango}; E2 ={x | x é leitão} e E3 = {x | x é carneiro}. O número de possibilidades de ocorrerem os eventos E1, E2 e E3 são: 4, 2 e 3, respectivamente. Como E1 E2 E3 = , o numero total de possibilidades de ocorrer o evento E1, ou o evento E2 ou o evento E3 será 4 + 2 + 3 = 9. Aplicação 2 - Dos 20 alunos de uma classe, 7 foram reprovados em Biologia e 8 em Química e 3 . O número de maneiras diferentes de escolher um aluno reprovado em Biologia ou em Química será igual a 7 + 8 - 3 = 12. Nesta situação, os eventos são: E1 = {x | x é reprovado em Biologia} e E2 = {x | x é reprovado em Química}. Aplicação 2 - Dos 20 alunos de uma classe, 7 foram reprovados em Biologia e 8 em Química e 3 . O número de maneiras diferentes de escolher um aluno reprovado em Biologia ou em Química será igual a 7 + 8 - 3 = 12. Nesta situação, os eventos são: E1 = {x | x é reprovado em Biologia} e E2 = {x | x é reprovado em Química}. Como n(E1) = 7, n(E2) = 8 e n(E1 E2) = 3, o número de possibilidades de escolher o evento E1 ou o evento E2 é n(E1E2) = n(E1) + n(E2) – n(E1 E2) = 7 + 8 – 3 = 12. Aplicação 3 - Considere os dígitos 1, 2, 3, 4. Quantos números de 4 algarismos podem ser escritos, começados com o dígito 1 e usando todos os quatro dígitos? Existe apenas 1 possibilidade para escolher o dígito da esquerda (dígito 1). Para o segundo dígito existem 3 possibilidades (2, 3, 4), pois, o 1 já foi usado. Para o terceiro dígito existem 2 possibilidades, pois, já foram escolhidos os dois dígitos anteriores. Sobra então apenas 1 possibilidade para o quarto dígito. Assim, a quantidade de números possíveis é 1 x 3 x 2 x 1 = 6. Se na aplicação anterior fosse permitida a repetição de dígitos, a quantidade de números seria 4 x 4 x 4 x 4 = 256. Explique! EXERCÍCIOS 1 – Uma sala tem 10 estudantes matriculados em Inglês, 15 em Espanhol e 12 em Francês, sendo que nenhum aluno pode estar matriculado em duas disciplinas ao mesmo tempo. De quantas maneiras diferentes podemos escolher um aluno que estudo Inglês ou Espanhol ou Francês? Que princípio foi aplicado na solução? 2 – Uma sala tem 10 estudantes matriculados em Inglês, 15 em Espanhol e 12 em Francês. Destes, 4 estudam Inglês e Espanhol, mas não estudam Francês, 3 estudam Francês e Espanhol mas não estudam Inglês, 5 estudam Inglês e Francês mas não estudam Espanhol. 2 alunos estudam os três idiomas. De quantas maneiras diferentes podemos escolher um aluno que estude Inglês ou 10 Espanhol? De quantas maneiras diferentes podemos escolher um aluno que estude Inglês, ou Francês ou Espanhol? 3 – Quantos números de 5 algarismos podemos escrever usando os algarismos 1, 2, 3, 4, 5, 6 e 7 sem que ocorra repetição de um mesmo algarismo no número? 4 – Quantos anagramas podemos formar com as letras da palavra UNIPAC? 5 – Quantos anagramas começados por U podem ser formados com as letras de UNICOR? 6 – Em quantos anagramas da palavra UNIPAC as letras IP ficam juntas e nessa ordem? 7 – Um time de futebol dispõe de 5 jogos de meias, 6 de calções e 4 de camisas. De quantas maneiras diferentes esse tipo pode se apresentar uniformizado para uma partida? 8 – Quantas palavras diferentes, com 7 letras não repetidas, podem ser escritas com as letras da palavra IMACULO de modo que as consoantes fiquem separadas pelas vogais? 9 – Quantas palavras diferentes, de 6 letras não repetidas, podemos formar com as letras de PECADO, de modo que as consoantes fiquem separadas por vogais? 2.2 - ARRANJOS, COMBINAÇÕES e PERMUTAÇÕES SIMPLES Dados os agrupamentos ABC, ACB e ADB, observe que apesar de ABC e ACB serem formados pelos mesmos elementos, eles diferem pela ordem. Quanto aos agrupamentos ABC e ADB, estes diferem pela natureza, pois, são formados por elementos diferentes. É evidente que se dois agrupamentos apresentam elementos diferentes eles são também diferentes. Entretanto, nem sempre ABC e ACB podem ser considerados como agrupamentos. Se tomarmos, por exemplo, ABC e ACB são alunos escolhidos para representar uma classe. Em casos como esse, os grupos ABC e ACB são considerados como um único agrupamento. Se A, B e C são algarismos, o grupo ABC é diferente do grupo ACB. Considerando a ordem e a natureza, são definidos os seguintes tipos de agrupamentos:· (i) ARRANJOS:- são agrupamentos que diferem pela ordem ou pela natureza. (ii) COMBINAÇÕES:- são agrupamentos que diferem apenas pela natureza. (iii) PERMUTAÇÕES:- são agrupamentos que diferem apenas pela ordem. Neste caso, em cada agrupamento devem figurar todos os elementos do conjunto. 2.3 - CÁLCULO DO NÚMERO DE ARRANJOS SEM REPETIÇÃO Seja A = {a, b, c, d} um conjunto com 4 elementos. Formando todos os agrupamentos com 3 elementos, obtém-se: abc, abd, acb, acd, adb, adc, bac, bad, bca, bcd, bda, bdc, cab, cad, cba, cbd, cda, cdb, dab, dac, dba, dbc, dca, dcb, num total de 24 agrupamentos. Na formação dos grupos existem 4 possibilidades para cada uma das letras ocupar a 1ª posição. Escolhida essa letra, restam 3 possibilidades para a 2ª posição e 2 elementos para a 3ª posição. Desta forma vê-se que, pelo princípio multiplicativo, o número de agrupamentos, ou o número de arranjos de 4 elementos tomados três a três (taxa 3) é A4,3 = 4.3.2 = 24. Generalizando, para m elementos tomados à taxa p, teremos: 1ª posição, m possibilidades, 2ª posição, (m - 1) possibilidades, 3ª posição, (m - 2), ...., pª posição, (m - p + 1). Assim, Am,p = m.(m - 1).(m - 2).(m - 3) ....(m - p + 1), ou seja: Am,p = produto de p fatores tomados em ordem decrescente a partir de m. Tomando, por exemplo, A9,4 = 9 x 8 x 7 x 6 = 3024. Multiplicando e dividindo a expressão Am,p = m(m - 1)(m - 2)(m - 3) ....(m - p + 1) por todos os inteiros de m - p até 1 resultará: 11 Am,p = m.(m - 1).(m - 2).(m - 3) ....(m - p + 1).(m - p).(m - p - 1) ... 3.2.1/(m - p) (m - p - 1) ... 3.2.1. O produto de todos os inteiros de m até 1 é representado por m! que se lê fatorial de m. Desta forma: 2.4 - PERMUTAÇÃO SIMPLES Permutações dos elementos de um conjunto com m elementos são agrupamentos que se formam tomando todos os elementos do conjunto e trocando (permutando) as posições desses elementos. Seja, por exemplo, o conjunto A = {a, b, c}. As permutações de abc, são: abc, acb, bac, bca, cab, cba. É fácil observar que as permutações nada mais são que os arranjos de m elementos à taxa m. Denotando por Pm o número de permutações de m elementos pode-se concluir que: Pm = m(m - 1)(m - 2) ... 3.2.1 ou seja Pm = m!. Exemplos: 1 - Quantos são os anagramas formados com as letras da palavra UNIPAC? P6 = 6! = 6.5.4.3.2.1 = 720 2 - Quantos destes anagramas começam com a letra U? Como os anagramas devem começar com a letra U, devem-se permutar apenas as 5 outras letras. Neste caso, P5 = 5! = 5.4.3.2.1 = 120. 3 - Em quantos anagramas as vogais aparecem separadas pelas consoantes? A partir do anagrama UNIPAC, permutando apenas as vogais obtém-se P3 = 3! = 3.2.1 = 6. Para cada distribuição das vogais tem-se P3 = 6 permutações das consoantes. Assim, começadas com vogais, são 6 x 6 = 36 anagramas. Como os anagramas podem também começar por consoante, o total de anagramas é então 2 x 36 = 72 . 2.5 - COMBINAÇÕES SIMPLES A tabela a seguir mostra os arranjos de 5 elementos (a, b, c, d, e) tomados 3 a 3. Na tabela os elementos dispostos em cada linha diferem apenas pela natureza. Assim em cada linha são exibidas as combinações dos 5 elementos tomados 3 a 3, num total de 10. Cada coluna é formada pelas permutações dos elementos que formam cada agrupamento constante da primeira linha, apresentando 6 elementos por coluna. Os 60 arranjos, constituídos por todos os elementos do quadro, é igual ao produto do número de elementos de cada linha C5,3 pelo número de elementos de cada coluna P3. Em conclusão: A5,3 = C5,3 . P3 ou C5,3 = A5,3/P3 Generalizando, Cm,p = Am,p/Pp Exemplo: Qual é o número de comissões de 3 alunos que se podem formar tirados em um conjunto de 7 alunos? Escolhendo três alunos em qualquer ordem, a comissão formada será única. Assim, a situação 12 descreve uma aplicação característica de agrupamentos denominada combinações. Portanto, C7,4 = 7!/[(7 - 4)!.(4!)] = 7.6.5.4.3.2.1/3.2.1.4.3.2.1 = 7.5 = 35. A situação seria diferente se para os três alunos escolhidos fossem distribuídos presentes diferentes. Pois, nesse caso, a distribuição ABC seria diferente da distribuição CAB. Nesta nova situação teremos uma aplicação de agrupamentos denominados arranjos. EXERCÍCIOS 1 - Calcule: ( a ) A6,2 ( b ) A10,4 ( c ) P4 ( d ) P7 ( e ) C8,3 ( f ) C10,4. 2 – Considere os conjuntos A = {a,b, c, d, e} e B = {r, s, t}. Escreva: (a) todos os arranjos possíveis, de 2 elementos, formados pelos elementos do conjunto A. (b) todas as combinações possíveis, de 3 elementos, formados pelos elementos do conjunto A. (c) todas as permutações formadas pelos elementos do conjunto B. 3 - Um restaurante oferece no cardápio 2 saladas distintas, 4 tipos de pratos de carne, 5 variedades de bebidas e 3 sobremesas diferentes. De quantas maneiras diferentes uma pessoa poderia fazer um pedido contendo, uma salada, um tipo de carne e 1 sobremesa? 4 - Um inspetor visita 6 máquinas diferentes durante o dia. A fim de evitar que os operários saibam quando ele os irá inspecionar, o inspetor varia a ordem de suas visitas. De quantas maneiras diferentes poderão ser feitas as visitas? 5 - Cinco alunos foram escolhidos para representar uma turma de um colégio durante o hasteamento da bandeira. Se for necessário que os mesmos formem uma fila, de quantas maneiras diferentes podem ser dispostos os alunos? 6 - De uma sala de 25 alunos devem ser escolhidos 5 alunos para receberem prêmios. De quantas maneiras diferentes poderão ser distribuídos os prêmios se: ( a ) se todos os prêmios forem iguais ( b ) se os prêmios forem diferentes. 7 - Quantos números maiores que 5000 podem ser escritos se forem usados os algarismos 1, 4, 5, 7, 8 e 9? 8 - Dos 10 alunos de um grupo devem ser escolhidos 6. De quantas maneiras isto é possível se, ( a ) dois dos alunos devem sempre fazer parte do grupo dos 6? ( b ) dois dos alunos não podem ser escolhidos? ( c ) os alunos A e B não podem estar juntos no grupo dos 6? 9 - Qual é o número de anagramas da palavra ALUNO que têm as vogais em ordem alfabética? 10 - Cinco pessoas decidem viajar num automóvel. De quantas maneiras diferentes eles podem se assentar se: ( a ) todos sabem dirigir ( b ) apenas 1 sabe dirigir ( c ) se dois sabem dirigir. 2.6 - ARRANJOS COM REPETIÇÃO Para indicar os arranjos com repetição usa-se o símbolo (AR)m,p. Nos arranjos com repetição, cada um dos m elementos pode ser repetido até p vezes. Observe que nessa situação, p pode ser maior que m. Tomando, por exemplo, o conjunto {a, b, c, d}, os arranjos dos 4 elementos tomados 3 a 3, com repetições são: aaa, aab, aac, aad, aba, abb, abc, abd, aca, acb, acc, acd, ada, adb, adc, add, baa, bab,. bac, bad, bba, bbb, bbc, bbd, bca, bcb, bcc, bcd, bda, bdb, bdc, bdd, caa, cab,. cac, cad, cba, cbb, cbc, cbd, cca, ccb, ccc, ccd, cda, cdb, cdc, cdd, daa, dab,. dac, dad, dba, dbb, dbc, dbd, dca, dcb, dcc, dcd, dda, ddb, ddc, ddd. A quantidade destes arranjos pode ser determinada tendo por base o princípio multiplicativo. Seja o conjunto {a1, a2, a3, ... am} de m elementos. Para se formar os arranjos com n elementos, são m possibilidades para o primeiro elemento, m para o segundo, m para o terceiro e assim sucessivamente até o n-esimo elemento. Aplicando o princípio multiplicativo resulta: 13 (AR)m,n = m.m.m... m (n fatores) 2.7 - PERMUTAÇÕES COM ELEMENTOS REPETIDOS Estuda-se nesse caso permutações com elementos que aparecem repetidos no conjunto, como por exemplo, ao escrever os anagramas da palavra ARARA onde o A aparece três vezes e o R aparece duas vezes, ou nos possíveis números de 5 algarismos que se pode escrever usando todos os algarismos de 33214. Seja, por exemplo, o agrupamento aaabc. Seja P53 o número de permutações em que os "as" não permutem entre si. Para cada uma dessas seriam possíveis P3 se os "as" fossem diferentes. O total de permutações, considerando os "as" diferentes será P5 = P53 x P3 P53 = P5 /P3. Usando o mesmo raciocínio para aaabbc, teríamos P6 = P63,2 x P3 x P2 P63,2 = P6/P3.P2. Generalizando, sejam m elementos onde um certo elemento repete-se x vezes, outro y vezes, outro z vezes, e assim sucessivamente, teremos: EXERCÍCIOS 1 - Usando os algarismos 1, 2, 3, 4, 5, 6. ( a ) quantos números de 4 algarismos distintos podemos escrever? ( b ) quantos números de 4 algarismos podem ser escritos? ( c ) quantos números de 4 algarismos podem ser escritos, que comecem com 1 e terminem com 6? 2 - Considere a palavra MATEMÁTICA. ( a ) quantos anagramas são possíveis? ( b ) em quantos destes anagramas as vogais aparecem separadas pelas consoantes? ( c ) em quantos as consoantes aparecem juntas? 3 - Quantos números de 6 algarismos podemos escrever usando os algarismos do número 334223? Quantos desses números são pares? 14 CAPÍTULO 03 PROBABILIDADE 3.1 – EXPERIMENTOS Para as ciências, os experimentos são de fundamental importância. É, a partir deles que se pode induzir as leis que regem os diversos fenômenos. Tendo como base que se um experimento for realizado diversas vezes, sob condições idênticas, os resultados serão essencialmente os mesmos. Tomando por exemplo um pêndulo de comprimento 9,8 m. Se o pêndulo for posto a oscilar, ao nível do mar, o tempo gasto em cada oscilação será de 6,28 s. Assim, é de se esperar que todos os pêndulos de igual comprimento, no mesmo local, gastarão 6,28 s em cada oscilação. Entretanto, se de uma urna com 1 000 000 de esferas, numeradas de 1 a 1 000 000, retirarmos uma esfera de cada vez e a recolocarmos na urna, provavelmente, um resultado obtido não será repetido. Neste caso, os experimentos são ditos experimentos aleatórios. O estudo dos experimentos aleatórios é realizado para se obter uma medida da chance de se obter um determinado resultado. Esse estudo é denominado Probabilidade. Exemplos de eventos aleatórios: (1) – Retirada de determinadas cartas em um baralho com 52 cartas. (2) – Lançamento de dois dados cujas faces são numeradas de 1 a 6. 3.2 – ESPAÇOS AMOSTRAIS Um conjunto, que indicaremos pela letra U, formado por todos os possíveis resultados de um experimento aleatório é denominado espaço amostral. O espaço amostral pode ser representado sob a forma de conjunto (elementos expressos entre chaves) ou em tabelas. Cada subconjunto E, do espaço amostral consiste em um evento. O conjunto formado por todos os possíveis resultados de um experimento aleatório é denominado espaço amostral. Este conjunto é representado pela letra maiúscula U. O espaço amostral pode ser representado sob a forma de conjunto (elementos expressos entre chaves) ou em tabelas. Cada subconjunto E, do espaço amostral é denominado evento. Seguem alguns exemplos de espaços amostrais e eventos. (1) - Lançamento de duas moedas. Na indicação K representa o aparecimento de uma cara e C o aparecimento de uma coroa. O espaço amostral será U = {KK, KC, CK, CC} representado em notação de conjunto. Do espaço amostral podemos extrair eventos como: E(1,K) - aparecimento de pelo menos 1 cara = {KK, KC e CK}; E(2,K) - aparecimento de duas caras = {KK}. (2) – Lançamento de dois dados. O quadro abaixo mostra o espaço amostral indicado sob forma de tabela. 15 São eventos do espaço amostral acima: E(3) - soma das duas faces igual a 3 = {(1, 2), (2, 1)}; E(7) = soma das faces igual a sete = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}. EXERCÍCIOS Construa os seguintes espaços amostrais: (1) Casal com três filhos. Use M para filho do sexo masculino e F para filho do sexo feminino. (2) Lançamento de três moedas. (3) Números de três algarismos distintos obtidos com os dígitos 4, 5, 6. 3.3 – PROBABILIDADE Ao passar em frente a uma casa lotérica é comum observar uma fila de pessoas apostando em algum tipo de jogo. Este fato não é nada novo. Desde a Antiguidade os jogos e as apostas são uma das paixões do homem. A partir do século XVII, os matemáticos Pierre de Fermat (França 1601-1665) e Blaise Pascal (França 1623-1662) iniciaram um estudo organizado sobre a teoria dos jogos com o objetivo principal de prever um próximo resultado e assim obter êxito em suas apostas. Esta teoria é hoje aplicada principalmente no estudo da Física Quântica e nas teorias sobre o Caos. Seja nos jogos ou em qualquer outro experimento aleatório é possível associar uma medida para a incerteza quanto à ocorrência, ou não, de algum evento. Essa medida, denominada probabilidade, tem valor que pode variar de 0 a 1. Para eventos em que a ocorrência é garantida, a probabilidade é igual a 1 (certeza absoluta). Entretanto, para eventos que nunca ocorrerão a probabilidade é avaliada como 0 (evento impossível). Tomando, por exemplo, o espaço amostral U = {2, 4, 6, 8, 10} e E(par) = escolha de um número par, a probabilidade de ao se escolher um número de U se ele par é igual a 1 ou 100%. Isto é: existe 100% de chance de o número ser par. Entretanto, para o evento E(ímpar) = escolha de um número ímpar, a probabilidade de ocorrer o evento E(ímpar) é igual a 0, pois nenhum dos números de U é ímpar. Quando se diz que a probabilidade de ocorrer um certo evento é 2/5 ou 40%, significa que a chance de ocorrer este evento é de 2/5 ou 40% e da não ocorrência é de 3/5 ou 60%. Sistematizando o conceito de probabilidade, devem ser levados em consideração dois métodos: (1) Probabilidade “a priori” (antecipada) Se um evento E, em um espaço amostral U, pode ocorrer de p maneiras diferentes, para um total de n maneiras possível, todas igualmente prováveis, então a probabilidade do evento é Em outras palavras: se o evento E tem n(E) elementos e o espaço amostral U em n(U) elementos, então a probabilidade de ocorrer o evento E será 16 É costume denominar n(E) como número de casos favoráveis e n(U) como número total de casos possíveis. Assim, a definição se apresenta na forma: (2) Probabilidade “a posteriori” (posterior) ou empírica. Usado principalmente quando n(U) é suficiente grande. Neste caso, se após n repetições de um experimento (n suficiente grande) forem observadas p ocorrências de um certo evento E, então a probabilidade de ocorrer tal evento é definida por: EXERCÍCIOS 1 - Três moedas são lançadas para cima. (a) Construa o espaço amostral. (b) Qual é a probabilidade de se obter duas caras e uma coroa? (c) Qual a probabilidade de serem obtidas três coroas? 2 - No lançamento de dois dados, qual é a probabilidade de se obter: (a) duas faces iguais? (b) Uma soma igual a 7? (c) uma soma igual a 11? (d) uma soma maior ou igual a 7? (e) Duas faces diferentes? 3 - Uma sala tem 40 alunos, sendo 25 rapazes. Qual é a probabilidade de: (a) escolher uma moça? (b) escolhidos dois alunos ser o par formado por uma moça e um rapaz? (c) Escolhidos três alunos serem todos eles rapazes? 4 - Num baralho de 40 cartas, qual é a probabilidade de, se retiradas 4 cartas serem elas 4 azes? 5 - De um baralho de 40 cartas, retiram-se 3 cartas. Qual é a probabilidade de sair pelo menos um Ás? 6 - Num jogo da Sena com 50 números são marcados 6 números. Qual é a probabilidade de um cartão, marcado com 6 números, não acertar nenhum? 3.4 – ALGUNS TEOREMAS SOBRE PROBABILIDADES A partir da definição de probabilidades podem ser demonstrados os teoremas abaixo: T1 – Para todo evento E, 0 < P(E) < 1. O número de eventos favoráveis nunca será negativo bem como nunca será maior que o número total de eventos. T2 – A probabilidade da certeza absoluta é igual a 1. 17 T3 – O evento impossível tem probabilidade zero. T4 – A probabilidade de não ocorrer o evento E, que se indica por P(E’) é P(E’) = 1 – P(E). Aplicação: Uma urna contém 20 esferas sendo que somente 8 delas são vermelhas. Qual é a probabilidade de, se retirada uma esfera, não ser ela vermelha? A probabilidade de ser retirada uma esfera vermelha é 8/20. Assim, a probabilidade de a esfera não ser vermelha é 1 – 8/20 = 12/20 = 60%. T5 – Se os eventos E1, E2, E3, ... são mutuamente excludentes, isto é, se nenhum elemento é comum a dois ou mais eventos então, a probabilidade de ocorrer E 1 ou E2 ou E3 ou ... ou En, que indicamos por P(E1E2E3...En) é P(E1) + P(E2) + P(E3) + .... + P(En). Aplicação: Uma urna contém 8 esferas vermelhas, 4 azuis, 5 amarelas e 3 verdes. Retirada uma esfera, qual é a probabilidade de ser a esfera retirada azul ou amarela. Como nenhuma esfera é azul ou amarela ao mesmo tempo. Deste modo, os eventos E1 = ser bola azul e E2 = ser bola amarela são excludente. Tem-se que: P(E1) = 4/20 e P(E2) = 5/20. Assim, P(E1E2) = 4/20 + 5/20 = 9/20 = 45%. T6 – Se E1 e E2 são dois eventos tais que E1 E2 , então P(E1E2) = P(E1) + P(E2) – P(E1 E2). Aplicação: Dos 30 alunos de uma classe, 13 foram reprovados em Biologia, 12 foram reprovados em Química, sendo que entre estes, 7 foram reprovados em Biologia e Química. Qual é a probabilidade de, se escolhido um dos 30 alunos, ser ele reprovado em Biologia ou Química? A probabilidade de ser aluno reprovado em Biologia é P(B) = 13/30, a de ser reprovado em Química é P(Q) = 12/30 e a de ser reprovado em Química e Biologia é P(Q B) = 7/30. Portanto, P(QB) = P(B) + P(Q) - P(Q B) = 13/30 + 12/30 – 7/30 = 18/30 = 60%. Note que, se 7 alunos foram reprovados nas duas disciplinas, estes sete estão contados tanto na Biologia quanto na Química. Assim, o número de alunos reprovados é 13 + 12 – 7 = 18. Seguindo este raciocínio, a probabilidade será também 18/30 = 60%. 3.5 – PROBABILIDADE CONDICIONAL No lançamento de um dado, a probabilidade de uma jogada resultar em um número par e menor que 4 é 1/6 pois apenas o resultado 2 satisfaz às condições. O evento “ser par e menor que 4” é a probabilidade de ocorrer a interseção dos eventos E1 = ser par e E2 = menor que quatro. Se, entretanto, alguém ao lançar o dado, informar que o resultado foi par, o novo espaço amostral passa a ter apenas 3 elementos. A probabilidade é então 1/3. Assim, a probabilidade de se o resultado é um número par, a probabilidade de ser ele par e menor que 4 seria 1/3 = n(E1E2)/n(E1) = [n(E1E2)/n(U)]/[n(E1)/n(U)] = P(E1E2)/P(E1) = (1/6)/(1/2) = 1/3. Designando P(E2/E1) a probabilidade da ocorrência de E2, se E1 já ocorreu, pode-se escrever: Exemplo: De um baralho de 52 cartas (13 de ouros, 13 de espadas, 13 de copas e 13 de paus) qual é a probabilidade de, ao ser retirada uma carta, se ela um 9 de ouros, sabendo-se que a carta retirada é de ouros. 1º processo: como já se sabe que a carta é de ouros, temos apenas 1 nove em um total de 13 cartas. A probabilidade é então: P(9O) = 1/13. 18 2º processo: a probabilidade de ser uma carta de ouros é P(O) =13/52 = 1/4 e a probabilidade de ser um 9 é P(9O) = 1/52 = 1/52. Assim P(9/O) = P(9O)/P(O) = (1/52)/(13/52) = 1/13. 3.6 – EVENTOS INDEPENDENTES Se em uma urna existem 20 bolinhas coloridas, sendo 12 vermelhas e 8 azuis qual será a probabilidade de retirar uma bola vermelha, repor essa bola, e a seguir uma bola azul? Isoladamente, a probabilidade ser retirada uma bola vermelha é 12/20 = 60% e a probabilidade de ser retirada uma bola azul é 8/20 = 40%. Entretanto, condicionado à retirada da bola azul após a vermelha, a probabilidade de sair uma azul na segunda retirada é 40% dos 60%, ou seja 40% x 60% = 0,4 x 0,6 = 0,24 = 24%. Observe, então, que a retirada da segunda bola condicionada à retirada da primeira, corresponde ao produto das duas probabilidades individuais. Concluindo:- Sejam eventos E1, E2, E3 ... tais que a interseção de quaisquer dois deles é um conjunto vazio. Se P(E 1), P(E2), P(E3), ..., são as probabilidades de ocorrência destes eventos, a probabilidade de ocorrer cada evento um após o outro, será P(E1).P(E2).P(E3).... Exemplo 1: Um dado é lançado para cima. Qual é a probabilidade de sair um 3 na primeira jogada e um 5 na segunda? Tem-se: a probabilidade de sair um 3 é 1/6 e a de sair um 5 é também 1/6. Assim, a probabilidade de sair um 3 na primeira jogada e um 5 na segunda é (1/6).(1/6) = 1/36. Exemplo 2: De um baralho com 40 cartas são retiradas 4 cartas. Qual é a probabilidade de saírem as cartas: (a) 2 de ouros, 5 de copas, 3 de espadas, nessa ordem e sem reposição. Tem-se: P(2O) = 1/40; P(5C) = 1/39; P(3E) = 1/38. Note-se que o denominador foi modificado pois se não houver reposição, o número de cartas no baralho diminui. Assim, P(2O5C3e) = (1/40).(1/39).(1/38) = 1/59280. (b) 2 de ouros, 5 de copas, 3 de espadas, nessa ordem e com reposição Como há reposição, P(2O) = P(5C) = P(3E) = 1/40 pois o número de cartas no baralho será sempre 40. Deste modo: P(2O5C3E) = (1/40).(1/40).(1/40) = 1/64000 (c) 2 de ouros, 5 de copas, 3 de espadas, em qualquer ordem e com reposição. Para estas condições P(Evento) = P(2O5C3E) + P(2O3E5C) + P(5C3E20) + P(5C2O3E) + P(3E2O5C) + P(2O3E5C) + P(2O5C3E) = (1/64000).6 = 6/64000 = 3/32000. Note de P(evento) = P3. P(2O5C3E) onde P3 é o número de permutações das 3 cartas. EXERCÍCIOS 1 - Qual é a probabilidade de um casal ao ter 4 filhos, serem eles, na ordem menina, menino, menina, menino. 2 - Qual é a probabilidade de se obter uma soma sete, no lançamento de dois dados, por 4 vezes consecutivas? 3 - Uma urna contém 50 bolas, sendo 10 vermelhas, 15 azuis e 25 amarelas. Qual é a probabilidade de se retirar: a) uma bola amarela? b) Uma bola vermelha, uma azul e outra vermelha, sem reposição? c) Uma bola vermelha, uma azul e outra vermelha, sem reposição? 4 - Paulinho tem 12 miniaturas de automóveis azuis e 8 miniaturas vermelhas. Paulinho, querendo agraciar seu irmão menor, resolve dar para ele algumas miniaturas. Paulinho propôs ao irmão três situações: (I) – Se o irmão, com os olhos vendados, retirar um carrinho vermelho, o carrinho lhe seria doado. (II) – Se o irmão retirar, com os olhos vendados, um carrinho, não repor o mesmo na coleção e retirar outro, sendo os dois vermelhos, os dois carrinhos seriam doados para ele. (III) – Se o irmão retirar, com os olhos vendados, um carrinho, repor o mesmo na coleção e a 19 seguir retirar outro, se o primeiro for vermelho e o segundo azul, os dois carrinhos seriam doados para ele. a) Calcule as probabilidades para cada uma das três situações. b) Considerando que é melhor um pássaro na mão do que dois voando, em qual das situações seria mais garantido o irmão ganhar algum carrinho? Justifique sua resposta 5 - A figura mostra um jogo usado em um parque de diversões. Na parte inferior da figura está indicado quanto você recebe ao acertar a respectiva bandeira. A indicação 2 x 1 significa que se você jogar R$10,00 e ganhar, você receberá R$20,00 (incluindo os seus R$10,00). A bola vermelha pertence ao organizador do jogo. Supondo o jogo honesto, a) qual é a probabilidade de você ganhar se jogar na bandeira do Brasil? b) após um certo número de jogadas, “provavelmente” você ganhará. Quantas vezes você deverá jogar na bandeira que aparece 3 vezes para “provavelmente” ganhar? c) se você for dobrando a sua aposta, e supondo que no número de jogadas previstas no item “b” , ao ganhar você receberá ou não todo o seu dinheiro de volta? (Observação: considerando a possibilidade de ao final de determinado número de jogadas provavelmente você ganhará, isto é se a probabilidade de ganhar ao jogar em uma das bandeiras é ¼, provavelmente você ganhará uma vez ao jogar 4 vezes no mesmo time. 6 - Em uma certa cidade foi feita uma pesquisa sobre assistência a determinados canais de televisão. Das 500 pessoas entrevistadas, 290 assistem ao canal A, 280 assistem ao canal B e 150 assistem outros canais, mas não assistem nem A nem B. Qual é a probabilidade de, se escolhido um dos 500 entrevistados, a) ser ele um dos que assistem A e B? b) ser ele um dos que assistem A ou B? 7 – Uma igreja tem 4 portas. Qual é a probabilidade de uma pessoa entrar por uma das portas e sair por uma porta diferente? 8 – Qual é a probabilidade de num sorteio com figuram 10 números você acertar 4 deles? 9 – Quatro moedas são lançadas para cima. Após quantas jogadas você provavelmente acertará a ordem cara, cara, coroa, coroa? 10 – Uma prova é formada por 10 questões, cada uma com 5 opções. Qual é a probabilidade de um aluno “chutar” todas as questões: a) e acertar todas; b) e acertar as duas primeiras; c) e acertar duas quaisquer; d) não acertar a terceira questão. 11 – Uma urna contém 100 bolas numeradas de 1 a 100. Qual é a probabilidade de, se retirada uma bola, sendo ela par, ter ela um número terminado em zero? 12 – Em um estádio de futebol compareceram 2000 pessoas. Destas 800 torcem pelo time A sendo que 120 vestiam a camisa de seu time, 900 torcem pelo time B estando 150 vestidas com a camisa deste time. As que não torcem por nenhum dos times não vestem camisa de nenhum dos dois times. Qual é a probabilidade de, escolhida uma pessoa: a) ser ela torcedora do time B. b) estar ela vestida com a camisa do time A. 20 c) sendo ela do time A, estar sem a camisa de seu time. Qual é a probabilidade de, se escolhidas duas pessoas: d) serem elas torcedoras do time B. e) ser a primeira torcedora do time A e a segunda do time B. f) nenhuma das duas torcerem por nenhum dos dois times. g) ser uma torcedora do time A e outra do time B. 12 - Ao fazer um levantamento em uma turma de 3ª série, com 50 alunos, verificou-se que: 16 se matricularam em inglês, 15 matricularam-se em espanhol e 7 matricularam-se para cursar os dois idiomas. Determine a probabilidade de, se escolhido um aluno dessa turma: (a) ser ele estudante de inglês ou espanhol; (b) ser ele estudante de inglês ou espanhol; (c) não estar ele matriculado em nenhuma das duas disciplinas. 13 - Numa pesquisa em Barbacena sobre assistência a canais de TV, foram entrevistadas 1000 pessoas.O resultado foi tabelado e o resultado está apresentado na tabela Com base na tabela, calcule a probabilidade da pessoa escolhida (a) não assistir nenhum dos canais especificados (b) assistir apenas o canal A (c) assistir os canais A ou B, mas não assistir o canal C (d) assistir o canal A, ou B ou C (e) assistir o canal A e B e C. (f) assistir o canal A e B mas não assistir o canal C. 21 CAPÍTULO 04 ESTATÍSTICA 4.1 – POPULAÇÕES E AMOSTRAS A Estatística tem por objetivo principal analisar uma distribuição de dados e a partir dos mesmos inferir resultados futuros. O processo estatístico tem duas áreas bem distintas: a primeira consiste em coleta e agrupamento dos dados, enquanto que a segunda, mais ligada diretamente à Matemática tem por objeto a análise destes dados. Muitas vezes à pesquisa dos dados deve-se referir a um determinado grupo que denominada população. Entretanto, nem sempre há necessidade de se pesquisar todos os elementos da população e assim, a pesquisa é feita em uma parcela da população. Esta parcela da população é chamada de amostra. Exemplos de populações e amostras: População:- Todos os eleitores brasileiros Amostra:- 2500 eleitores entrevistados População:- Todos os cidadãos de uma cidade Amostra:- 1200 habitantes maiores de 21 anos População:- Peças produzidas por uma indústria Amostra:- peças que são testadas para garantir qualidade É importante observar que o termo população nem sempre se refere a habitantes de uma região, como é usado correntemente. O estudo de amostras pode levar a conclusões não exatas sobre toda a população. Entretanto, existem inúmeras razões que levam ao uso de amostras no lugar de pesquisar toda a população. As principais razões para se adotar esse processo estão na relação custo/benefício e na impossibilidade de acesso a toda a população. É evidente que quanto mais próxima da população estiver a amostra, mais corretas serão as conclusões que se pode tirar a respeito dos dados levantados. Um outro fato a respeito das amostras é que o processo de pesquisa pode destruir o elemento pesquisado. Se for desejo pesquisar a tensão máxima suportada por peças produzidas em uma indústria, as peças testadas provavelmente serão destruídas e deste modo a firma não poderá colocar tais peças à venda. Dependendo das informações desejadas, na coleta dos dados, pode-se optar por um dos dois métodos: dados individualizados e dados agrupados. As tabelas abaixo mostram dados coletados usando os dois processos: Na primeira tabela a coluna “Notas” representa um conjunto discreto (valores bem determinados). Este é um exemplo característico de dados individualizados. Na segunda tabela, a coluna “Salários” os dados estão listados em intervalos. Nesta, os dados se apresentam agrupados. 22 QUESTÕES Responda:1 – Porque, na maioria das vezes, são estudadas amostras e não população? 2 – É possível dizer se uma determinada amostra representa adequadamente uma população? 3 – Suponha que você deseje pesquisar a preferência de uma população com relação aos candidatos em uma eleição para a prefeitura de sua cidade. Como você escolheria a amostra se: a) sua intenção é obter um resultado não direcionado a um determinado candidato? b) sua intenção é obter um resultado direcionado a um determinado candidato? 4.2 – MEDIDAS DE TENDÊNCIA CENTRAL Uma simples listagem dos dados pesquisados pode não levar a nenhuma conclusão. Por este motivo é importante verificar como os dados se distribuem em relação a um valor mais provável. Consideram-se como parâmetros para análise de uma distribuição as medidas: média, moda e mediana, denominadas medidas de tendência central. Tais medidas são definidas como segue: (I) MÉDIA Sejam x1, x2, x3, ... , xn um conjunto de “n” medidas. Define-se a média destas medidas, que se indica , por Exemplo: para o conjunto de medidas 25, 18, 41, 48, 29, 37, a média é X = (25 + 18 + 41 + 48 + 29 + 37)/6 = 33 (II) MEDIANA 11 Ordenadas as medidas, a mediana (Md) é a medida que ocupa a posição central da distribuição. Se a quantidade de medidas for um número par, ter-se-ão duas medidas ocupando a posição central. Nesse caso, a mediana será a média destas duas medidas. Exemplo: Seja o conjunto 25, 18, 41, 48, 29, 37, 19. Ordenando os dados temos: 18 – 19 – 25 – 29 – 37 – 41 – 48, a mediana é 29 pois esta é a medida que se posiciona no centro da distribuição (3 valores antes e 3 valores depois). No caso do conjunto 19 – 25 – 29 – 37 – 41 – 48, as medidas centrais são 29 e 37. Neste caso, devemos tomar o valor (29 + 37)/2 = 33 como mediana. Dependendo dos valores das medidas, a mediana é melhor que a média para analisar a distribuição. Tomando por exemplo os valores 180, 20, 30, 25, 26, 27, 18, a média é 46,6 enquanto que a mediana vale 26 que está bem mais próximo dos demais valores. No cálculo da média, o número 180 fez com que a média fosse levada para um valor bem acima dos demais. Em situações como essa, a mediana é mais representativa da distribuição do que a média. 23 (III) MODA A moda é usada quando na distribuição onde aparecem valores repetidos. Define-se a moda, (Mo), como sendo a medida que aparece em maior número de vezes. Uma distribuição em que não há elementos repetidos ela é dita amodal. Se dois valores aparecem com a igual quantidade de vezes a distribuição é dita bimodal. Para três valores, trimodal, e assim, sucessivamente. A distribuição 19 – 25 – 29 – 37 – 41 – 48 é amodal pois não nenhum elemento repetido. A moda da distribuição 19 – 25 – 19 - 29 – 37 –19 – 29 - 41 – 48 é 19 pois 19 aparece um maior número de vezes. Para a série 19 – 25 – 19 - 29 – 37 –19 – 29 - 41 – 48 – 29, o 19 e o 29 aparecem 3 vezes cada. Esta distribuição é bimodal pois tem duas modas que são: o 19 e o 29. Numa distribuição simétrica, a média, a moda e a mediana são valores bem próximos ou coincidentes. A partir de agora serão usados os símbolos Mo e Me para designar a moda e a mediana, respectivamente. EXERCÍCIOS Calcule a média, a moda e a mediana para os conjuntos de medidas abaixo: (a) 32, 34, 45, 46, 35, 32, 34, 45, 37, 48, 56, 45, 57, 39, 18, 26, 36, 45, 57 (b) 16, 18, 30, 24, 42, 37, 30, 38, 35, 23, 32, 24, 27 4.3 – USANDO PLANILHAS Os softwares que apresentam planilhas permitem o cálculo direto da média, moda e mediana quando as medidas são todas digitadas. Não há formula direta para cálculo destas medidas quando a tabela apresentar uma distribuição de freqüência. Neste último caso será disponibilizado um aplicativo para o cálculo da média. (Ver site http://www.cesariof.xpg.com.br ou CDRom). No EXCEL, para calcular a média, (1) Digite os valores em uma mesma coluna (2) Clique na célula onde será calculada a média, a moda ou a mediana. (3) Para calcular a média, digite na célula = MÉDIA( (4) Selecione as células onde constam os valores tabelados. (5) Complete a fórmula fechando os parêntese. Na célula deverá ser exibido algo como = MÉDIA(B4:B15) onde B4:B15 são respectivamente a primeira e a última célula com os valores tabelados. Pressione a seguir, a tecla ENTER. Os passos são semelhantes para o cálculo da mediana e da moda. Para a mediana, na célula deve ser digitado =MED( e para a moda digite =MODO( . A seguir selecione as células com os valores e feche o parêntese. No STAROFFICE, no OPENOFFICE e no BROFFICE, utilize os mesmos procedimentos. As fórmulas são =MÉDIA() para a média, =MEDIANA( ) para a mediana e =MODAL( ) para a moda. Obs.: - No caso de tabelas bimodais, trimodais, etc., somente será calculada uma das modas. EXERCÍCIO Usando o STARCALC ou o EXCEL calcule a moda, a mediana e a média dos valores: (a) 50, 10, 40, 30, 20, 80, 40, 15, 30, 10, 30. (b) 32, 34, 45, 46, 35, 32, 34, 45, 37, 48, 56, 45, 57, 39, 18, 26, 36, 45, 57 (c) 16, 18, 30, 24, 42, 37, 30, 38, 35, 23, 32, 24, 27 4.4 – QUARTIL E PERCENTIL 24 A diferença entre o maior e o menor valor de uma distribuição de dados coletados é denominada dispersão. Tomando por exemplo a tabela, já ordenada, 1,12, 15, 17, 19, 19, 21, 23, 25, 26, 105 teremos uma dispersão igual a 104, ou seja 105 – 1. Observando a tabela nota-se que os extremos 1 e 105 estão bem afastados das demais medidas. Se da mesma forem retirados apenas estes dois valores a dispersão torna-se bem menor (igual a 14) e as medidas restantes parecem bem mais centradas em relação aos valores tabelados. Os valores bem afastados da maioria das medidas, denominados valores espúrios (outliers em inglês) podem não condizer com a realidade da distribuição e, com isso, levar a erros grosseiros nas tomadas das decisões quando se faz uma análise dos dados coletados. Algumas técnicas são usadas para eliminar os valores que estejam muito afastados das demais medidas. Entre as diversas técnicas destacamos: o quartil e o percentil que são usadas em partições dos dados. A partição dos dados, pelo método dos quartis, é feita obedecendo às normas: I – Ordena-se o conjunto II – Divide-se a tabela em quatro partes, cada uma delas contendo 25% (ou seja ¼) dos valores tabelados. A primeira, que contem os 25% valores menores é chamada de 1º quartil. A última, que contem os 25% valores maiores, é chamada de 4º quartil. Para a análise dos dados, despreza-se os 1º e 4º quartis. A tabela com os valores restantes é chamada de intervalo interquartil. Pode-se também utilizar outras divisões, como por exemplo, dividir a tabela em 100 partes. Cada uma chamada de percentil, e escolher uma determinada faixa a ser desprezada, não esquecendo de que a quantidade de valores menores a serem desprezados deverá ser igual à quantidade de valores maiores. Exemplo: Considerando a tabela 12, 13, 13, 14, 14, 16, 18, 19, 20, 21, 21, 23, 23, 24, 25, 26, 28, 28, 30, 31. O conjunto tem 20 elementos. Para obter os quartis, divide-se a tabela em 4 partes. Cada uma terá 5 elementos. O primeiro quartil é formado por 12, 13, 13, 14, 14. O quarto quartil será 25, 26, 28, 28, 30. Para analisar a tabela, levando em consideração os quartis, (intervalo interquartil) seriam considerados apenas os valores: 16, 18, 19, 20, 21, 21, 23, 23, 24. Usando o intervalo 10º percentil, calcula-se 10% do total de medidas. Para a tabela do exemplo anterior, 10% de 20 são dois. Eliminam-se então os dois valores menores (12, 13) e os dois valores maiores (28, 30). O conjunto de valores restantes constitui o intervalo 10º percentil. Nos dois exemplos citados, a amplitude passará a ser a diferença entre o maior e o menor valor da tabela restante e não a diferença entre o maior e menor valor na tabela inicial. A escolha do intervalo fica a critério do analista dos dados levando em conta uma série de fatores, inclusive a dispersão dos valores iniciais. 4.5 – MEDIDAS DE DISPERSÃO É de extrema importância para a análise dos dados, verificar o comportamento dos valores tabelados em relação à média. Isto é, estudar a dispersão dos dados em relação à média. No estudo dessa dispersão são usadas as medidas: desvio em relação à média, desvio absoluto, desvio médio absoluto, variância e desvio-padrão. Estas grandezas são definidas como segue: (I) desvio em relação à média, ou simplesmente desvio (d i) É a diferença entre medida e a média. Se xi é uma das medidas, X a média, o desvio de cada uma das medidas é definido por: 25 (II) desvio absoluto. (Di) É o valor absoluto do desvio. (III) desvio médio absoluto É a média dos valores absolutos dos desvios. (IV) variância (v) Duas considerações devem ser feitas para o cálculo da variância. (a) Variância da amostra – quando se deseja apenas uma análise da amostra, ou a amostra é coincidente com toda a população. v= D12 + D22 + D32 + ... + Dn2 n (b) Variância da população – quando, a partir da amostra se deseja inferir sobre a população. Devese também ser usada para uma distribuição em classes com intervalos. (V) desvio padrão (s) A variância envolve a soma de quadrados, portanto, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância que é denominado desvio padrão. Através do desvio padrão pode-se fazer estimativas da dispersão das medidas em relação à média. De acordo com a definição: Os dois valores obtidos para a variância, ao dividir a soma dos quadrados dos desvios por n ou por n –1 devem ser levados em conta para o desvio padrão. Nos itens a seguir, o termo desvio padrão, estará se referindo desvio padrão calculado com relação à população. Isto é, no cálculo da variância, a soma dos quadrados dos desvios será dividida por n - 1. As medidas de dispersão devem acompanhar a precisão das medidas apresentadas na amostra. Isto é, o número de casas decimais das medidas de tendência central e as medidas de dispersão devem apresentar o mesmo número de casas decimais das medidas apresentadas na amostra. 26 Para que tal fato seja observado, devem ser usados os critérios adotados pela Resolução 886/66 do IBGE, que regulamenta a aproximação de medidas. Tal resolução estabelece: 1 - Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último algarismo a permanecer. Ex: 146,63 é arredondado para 146,6 ; 95,02 é arredondado para 95,0. 2 - Quando o primeiro algarismo a ser abandonado é 6,7,8, ou 9, aumenta-se de uma unidade o algarismo a permanecer. Ex: 146,87 é arredondado para 146,9 ; 95,06 é arredondado para 95,1; 361,96 é arredondado para 362,0. 3 - Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: a) Se ao 5 seguir, em qualquer casa, um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer. Ex: 14,651 é arredondado para 14,7; 14,6502 é arredondado para 14,7; 14,650002 é arredondado para 14,7. b) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentando de uma unidade se for ímpar. Exemplos: 132,35 é arredondado para 24,4 pois o 3 é ímpar; 132,85 é arredondado para 132,8 pois o 8 é par; 132,750000 é arredondado para 132,8 e 132,45000 é arredondado para 132,4. Obs: O arredondamento deve ser feito de uma só vez e não através de arredondamentos sucessivos. COMPENSAÇÃO Aplicando as regras do arredondamento, podem ser obtidos diferentes resultados, caso o arredondamento seja feito antes ou após a operação. Veja: 25,32 + 17,85 + 10,44 + 31,17 = 84,78 (efetuando as operações sem arredondamento) 25,3 + 17,8 + 10,4 + 31,2 = 84,7 (efetuando as operações após arredondamento) Entre os dois processos há uma pequena discordância: a soma é exatamente 84,7 quando, pelo arredondamento, deveria ser 84,8. No caso, o resultado aceitável é 84,8. Para evitar diferença entre os resultados, efetua-se a operação com as medidas não arredondadas e aplicam-se as regras de arredondamento no resultado. Conforme dito anteriormente, os valores espúrios, ou estranhos, são valores muito altos ou muito baixos, quando comparados com os demais. Esses valores distorcem tanto a média como o desvio padrão, podendo ser descartados para o cálculo desses parâmetros. Assim, é interessante, separar os valores que dispersam da maioria dos demais valores tabelados e recalcular a nova média e o novo desvio padrão. A exclusão de valores espúrios para o cálculo de parâmetros de uma amostra não significa que esses valores devam ser simplesmente ignorados; a exclusão é feita apenas para o cálculo dos parâmetros (média e desvio padrão), pois eles, em geral, distorcem esses valores. Os procedimentos de exclusão de valores espúrios devem sempre levar em conta o tamanho da amostra, compensando o maior efeito da presença de valores espúrios em amostras menores. No Excel e no StarCalc a variância e o desvio padrão podem ser calculados automaticamente. Para a variância, em ambos, a fórmula é VARP() para a amostra e =VAR() para inferência sobre a população. No cálculo do desvio padrão, as fórmulas são: - para o Excel = DESVPADP() (desvio padrão para a amostra) e = DESVPAD() (para inferências sobre a população ou distribuição de freqüências em intervalos) - para o StarCalc, os correspondentes são = DESV.PAD.P() e DESV.PAD(). Após digitadas as fórmulas, clique entre os dois parênteses e selecione as células onde estão exibidos os valores da tabela. A seguir pressione a tecla ENTER. EXERCÍCIOS Para cada um dos conjuntos de valores abaixo, determinar (I) a média, (II) a variância da amostra, (III) a provável variância da população, (IV) o desvio padrão da amostra, (V) o provável desvio padrão da população. (a) 50, 10, 40, 30, 20, 80, 40, 15, 30, 10, 30. (b) 32, 34, 45, 46, 35, 32, 34, 45, 37, 48, 56, 45, 57, 39, 18, 26, 36, 45, 57 27 (c) 16, 18, 30, 24, 42, 37, 30, 38, 35, 23, 32, 24, 27 (d) 2, 3, 5, 9, 11, 8, 7, 5, 2. 4.6 – INTERVALO DE CONFIANÇA Seja uma distribuição amostral de média X e desvio padrão s. Esta distribuição é dita normal quando o gráfico desta distribuição apresentar a forma semelhante à indicada na figura abaixo. Numa distribuição amostral aproximadamente normal é de se esperar que 68,27% das medidas da amostra estejam no intervalo [ – s, + s], 95,45% estejam no intervalo [ – 2x, + 2s] e 99,73% estejam no intervalo [ – 3x, + 3s]. Estes intervalos são denominados intervalos de confiança de 68,27%, 95,45% e 99,73%, respectivamente. Os extremos dos intervalos são chamados de limites de confiança de 68,27%, 95,45% e 99,73%. É comum representar o intervalo de confiança, com percentual P%, por zs, onde z é o coeficiente de confiança. A tabela abaixo mostra valores para coeficientes de confiança e os respectivos percentuais. Conforme dito anteriormente a tabela deverá ser usada para uma distribuição normal ou uma distribuição com um tamanho suficientemente grande. Em geral para amostra de tamanho maior ou igual a 30, a distribuição amostral se aproxima de uma distribuição normal. Quando o tamanho da amostra é menor que 30, costuma-se usar o coeficiente “t” de confiança de Student. O coeficiente “t” depende do grau de liberdade da amostra. Para uma distribuição aproximadamente normal, com amostras de tamanho maior ou igual a trinta, os valores de "z" e de "t" levam praticamente aos mesmos resultados. Considera-se o grau de liberdade de uma amostra de tamanho “n” como sendo “n – 1”. Ao usar a tabela de Student deve ser observado que a primeira coluna corresponde ao tamanho da 28 amostra menos 1. Veja a tabela de Student na página a seguir. EXERCÍCIOS RESOLVIDOS (1) A média e o desvio padrão das alturas de 1000 alunos são 1,657 m e 0,012 m. Supondo uma distribuição normal das alturas, determine o intervalo que agrupa 866 das alturas (86,6%) da amostra. Solução: considerando o tamanho da amostra que é de 1000 alunos, deve-se usar o coeficiente "z" que para 86,6% (aproximadamente 86,64%) vale 1,5 (ver tabela de valores para z). Isto resulta em 1,657 + 1,5x0,012 = 1,657 + 1,018. Assim, 866 alturas, provavelmente estarão entre 1,639 m e 1,675 m. Analisando graficamente: No gráfico a área preenchida corresponde a 86,6% da área total. São então (1000 – 866)/2 = 67 alunos com altura superior a 1,675 m e 1,639 alunos com altura abaixo de 1,639. É comum usar os limites de confiança para selecionar elementos de um grupo. (2) As notas de 21 alunos de uma classe têm média 6,60 e desvio padrão 1,50. Provavelmente, quantos alunos tiraram notas: (a) entre 5,31 e 7,89? (b) acima de 8,59? Para uma amostra de tamanho inferior a 30 (no caso, o tamanho da amostra é 20) usa-se a tabela de distribuição de Student. (a) tomando o limite 7,89 teremos para o produto ts = 7,89 - 6,60 = 1,29. Sendo o desvio padrão s = 1,50, o valor de t é t = 1,29/1,50 = 0,86. Localizando o valor 0,86 na tabela de Student, para um grau de liberdade igual a 21 - 1 = 20 (lembre que o grau de liberdade é igual ao tamanho da amostra menos 1), encontra-se o percentual de 80%. Portanto, 80%x21 = 0,80x21 = 16,8 alunos terão notas entre 5,31 e 7,89. Como não há fração de alunos o número de alunos com notas entre 5,31 e 7,89 é 16. (b) o desvio em relação à média é 8,59 – 6,60 = 1,99 que corresponde ao produto ts. Como s = 1,50, o valor de t é t = 1,99/1,5 = 1,327. Localizando o valor 1,327 para 21 – 1 = 20 graus de liberdade, obtém-se o valor 90% (usar o valor mais próximo de 1,327 que é 1,325). Assim, são 90% dos alunos entre 6,60 – 1,327x1,5 = 4,61 e 6,60 + 1,327x1,5 = 8,59. Portanto, 100% - 90% = 10% estarão fora desse intervalo. Deste modo, 5% (10%/2) dos alunos têm notas abaixo de 4,61 e 5% dos alunos terão notas superior a 8,59. Concluindo, o número de alunos com nota superior a 8,59 é 5% de 21 = 0,05x21 = 1,05. Como não existe fração de aluno, 1 aluno terá nota superior a 8,59. Veja o gráfico correspondente 29 4.7 - TABELA DO COEFICIENTE DE CONFIANÇA (Z) EM PORCENTAGEM Nas células em azul estão exibidos os valores de z. Tomando por exemplo o percentual 55,28 (em vermelho) o valor de z é 0,76 obtido a partir da linha 0,7 e da coluna 6 que contém o percentual 55,28. Z 0 1 2 3 4 5 6 7 8 9 0,0 0,00 0,80 1,60 2,40 3,20 3,98 4,78 5,58 6,38 7,18 0,1 7,96 8,76 9,56 10,34 11,14 11,92 12,72 13,50 14,28 15,08 0,2 15,86 16,64 17,42 18,20 18,96 19,74 20,52 21,28 22,06 22,82 0,3 23,58 24,34 25,10 25,86 26,62 27,36 28,12 28,86 29,60 30,34 0,4 31,08 31,82 32,56 33,28 34,00 34,72 35,44 36,16 36,88 37,58 0,5 38,30 39,00 39,70 40,38 41,08 41,76 42,46 43,14 43,80 44,48 0,6 45,16 45,82 46,48 47,14 47,78 48,44 49,08 49,72 50,36 50,98 0,7 51,60 52,24 52,84 53,46 54,08 54,68 55,28 55,88 56,46 57,04 0,8 57,62 58,20 58,78 59,34 59,92 60,46 61,02 61,56 62,12 62,66 0,9 63,18 63,72 64,24 64,76 65,28 65,78 66,30 66,80 67,30 67,78 1,0 68,26 68,76 69,22 69,70 70,16 70,62 71,08 71,54 71,98 72,42 1,1 72,86 73,30 73,72 74,16 74,58 74,98 75,40 75,80 76,20 76,60 1,2 76,98 77,38 77,76 78,14 78,50 78,88 79,24 79,60 79,94 80,30 1,3 80,64 80,98 81,32 81,64 81,98 82,30 82,62 82,94 83,24 83,54 1,4 83,84 84,14 84,44 84,72 85,02 85,30 85,58 85,84 86,12 86,38 1,5 86,64 86,90 87,14 87,40 87,64 87,88 88,12 88,36 88,58 88,82 1,6 89,04 89,26 89,48 89,68 89,90 90,10 90,30 90,50 90,70 90,90 1,7 91,08 91,28 91,46 91,64 91,82 91,98 92,16 92,32 92,50 92,66 1,8 92,82 92,98 93,12 93,28 93,42 93,56 93,72 93,86 93,98 94,12 1,9 94,26 94,38 94,52 94,64 94,76 94,88 95,00 91,52 95,22 95,34 2,0 95,44 95,56 95,66 95,76 95,86 95,96 96,06 96,16 96,24 96,34 2,1 96,42 96,52 96,60 96,68 96,76 96,84 96,92 97,00 97,08 97,14 2,2 97,22 97,28 97,36 97,42 97,50 97,56 97,62 97,68 97,74 97,80 2,3 97,86 97,92 97,96 98,02 98,08 98,12 98,18 98,22 98,26 98,32 2,4 98,36 98,40 98,44 98,50 98,54 98,58 98,62 98,64 98,68 98,72 2,5 98,76 98,80 98,82 98,86 98,90 98,92 98,96 98,98 99,02 99,04 2,6 99,06 99,10 99,12 99,14 99,18 99,20 99,22 99,24 99,26 99,28 2,7 99,30 99,32 99,34 99,36 99,38 99,40 99,42 99,44 99,46 99,48 2,8 99,48 99,50 99,52 99,54 99,54 99,56 99,58 99,58 99,60 99,62 2,9 99,62 99,64 99,64 99,66 99,68 99,68 99,70 99,70 99,72 99,72 3,0 99,74 99,74 99,74 99,96 99,96 99,78 99,78 99,78 99,80 99,80 3,1 99,80 99,82 99,82 99,82 99,84 99,84 99,84 99,84 99,86 99,86 3,2 99,86 99,86 99,88 99,88 99,88 99,88 99,88 99,90 99,90 99,90 3,3 99,90 99,90 99,90 99,92 99,92 99,92 99,92 99,92 99,92 99,94 3,4 99,94 99,94 99,94 99,94 99,94 99,94 99,94 99,94 99,94 99,96 3,5 99,96 99,96 99,96 99,96 99,96 99,96 99,96 99,96 99,96 99,96 3,6 99,96 99,96 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98 3,7 99,98 99,98 99,98 99,98 99,98 30 99,98 99,98 99,98 99,98 99,98 3,8 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98 99,98 3,9 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 4.8 - TABELA DE DISTRIBUIÇÃO DE STUDENT GL - grau de liberdade = tamanho da amostra - 1 GL\% 55% 60% 65% 70% 75% 80% 85% 90% 95% 97,5% 99% 99,5% 99,95% 1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619 2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,598 3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,541 12,924 4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610 5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869 6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959 7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,365 3,499 5,408 8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041 9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073 16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,767 24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,726 26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,256 0,389 0,531 0,684 0,856 1,057 1,314 1,703 2,052 2,473 2,771 3,690 28 0,127 0,256 0,389 0,530 0,683 0,856 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659 30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646 40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551 60 0,126 0,254 0,387 0,527 0,679 0,848 1,046 1,296 1,671 2,000 2,390 2,660 3,460 120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373 >120 0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291 EXERCÍCIOS 1 - Ao pesquisar a variação do comprimento dos pregos produzidos por uma firma obteve-se uma média de 10,32 cm e desvio padrão 0,12 cm em uma amostra de 2000 pregos. (a) Determine o intervalo de comprimentos que, provavelmente, agrupará 91,08% dos parafusos; 31 (b) Determine o número de parafusos cujo comprimento esteja compreendido entre 10,08 cm e 10,56 cm. (c) Determine o número de parafusos cujo comprimento é maior que 10,62 cm. (d) Qual foi o tipo de score (z ou t) usado na resolução dos itens acima? Justifique. 2 - As alturas de 20 alunos de uma classe apresentam média 1,60 m e desvio padrão 0,02 m. (a) Determine o intervalo de alturas que, provavelmente, agrupa 90 % dos alunos? (b) Quantos alunos têm, provavelmente, altura superior a 1,64 m? (c) Qual foi o tipo de score (z ou t) usado na resolução dos itens acima? Justifique. 4.9 – INTERVALO DE CONFIANÇA PARA MÉDIAS DE UMA POPULAÇÃO Ao se calcular a média de uma amostra deve-se precisar o intervalo em que se deve encontrar a média da população. Para uma média e um desvio padrão s da amostra, pode-se demonstrar que a média da população tem um limite de confiança com percentual P é para uma população infinita ou amostragem com reposição de uma população finita, e para uma população finita. Para pequenas amostras (n < 30) deve-se substituir o coeficiente z pelo coeficiente “t” de Student. EXERCÍCIOS RESOLVIDOS (1) Das arruelas produzidas por uma máquina foi retirada uma amostra de 100 arruelas cujo diâmetro médio é 20,000 mm e desvio padrão 0,012 mm. Determine o intervalo de confiança de 90,50% para o diâmetro médio de todas as arruelas produzidas por esta máquina. Solução: para um intervalo de confiança igual a 90,50%, z = 1,67 (ver tabela). Como não se conhece o tamanho da população (total de peças fabricadas pela máquina) pode-se considerá-la infinita. Nota: o número de casas decimais do desvio deverá ser igual ao número de casas decimais da média. Assim, o intervalo de confiança da média de todas as arruelas produzidas pela máquina é (20,000 + 0,002) mm, ou seja, existe uma probabilidade de 90,50% de a média das arruelas estar entre 19,998 mm e 20,002 mm. (2) Das notas de 1200 alunos de uma escola foram separadas as notas de 200 alunos. A média e o desvio padrão das notas destes alunos foram, respectivamente, 6,50 e 0,30. Para um intervalo de confiança de 95%, qual deverá ser a média dos 1200 alunos. Solução: para o intervalo de confiança de 95%, o valor de z é 1,96. Usa-se o z, pois, a amostra é superior a 30. Como a população é finita, teremos N = 1200, n = 30, s = 0,30, = 6,50. 32 (3) Em um teste de QI, os scores de 10 alunos foram 90, 92, 92, 95, 98, 99, 100, 100, 100, 117. Calcule, para um limite de confiança de 95%, a média esperada para todos os alunos desta escola. Solução: como a amostra é inferior a 30, devemos utilizar o coeficiente "t" de Student, que para um intervalo de confiança de 95% vale 1,372. Calculando a média e o desvio padrão da amostra obtém-se: = 98,30 e s = 7,59. Não conhecendo o tamanho da população, a fórmula a ser usada é: Portando, para um intervalo de confiança de 95%, a média dos QIs dos alunos desta escola está entre 95,01 e 101,59. EXERCÍCIOS 1 – Em uma plantação de milhos foram retiradas 500 espigas das quais verificou-se que o peso tinha média 256 g com desvio padrão 14 g. Determine o intervalo de confiança de 90,50% para o peso médio de todas as espigas da plantação. 2 – Dos 5000 livros de uma biblioteca foi retirada uma amostra de 300 livros. O número de páginas dos livros da amostra apresentava uma média de 200 páginas com desvio padrão 10 páginas. Faça uma previsão para a média dos 5000 livros em um intervalo de confiança de 87,88%. 3 – É comum usar um prato como tara em restaurantes self-service de modo que ao pesar a quantidade de alimento usada pelo cliente seja registrado na balança somente o peso do alimento. Ao determinar a média e o desvio padrão do peso de 16 pratos verificou-se que estes valiam 420 g e 20 g, respectivamente. A partir destes valores, calcule, para um intervalo de confiança de 90%, a média dos pratos usados pelo restaurante. 4 – Com relação ao exercício anterior, se a tara usada foi de 430 g, qual é a probabilidade do prato que você usar ser mais pesado que a tara? 33 CAPÍTULO 5 – ESTATÍSTICA II 5.1 – DISTRIBUIÇÃO DE FREQÜÊNCIA Os parâmetros estatísticos como média, variância, desvio padrão, etc, ficam mais fáceis de serem obtidos se as medidas da amostra forem agrupadas. Duas são as formas de agruparem os dados: (a) para variáveis discretas em que o número de elementos distintos é pequeno, e, (b) para variáveis contínuas, ou quando o número de elementos é muito grande. No primeiro caso, as medidas de mesmo valor são agrupadas em classes distintas. Ao número de vezes que cada elemento se repete chamamos de freqüência da classe, que se indica pela letra f. Para a tabela, 21 15 11 10 14 18 15 20 20 18 18 15 28 19 13 14 13 13 11 12 19 16 10 18 16 11 21 Temos 12 classes que são: 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 cujas freqüências são respectivamente: 3, 2, 1, 3, 2, 3, 2, 0, 5, 2, 2, 2. Pode-se então, construir a tabela de classes: Classe 10 11 12 13 14 15 16 17 18 19 20 21 Freqüência 3 2 1 3 2 3 2 0 5 2 2 2 No segundo caso, as classes são formadas por intervalos. São elementos de uma distribuição de freqüência com dados agrupados em intervalos: (1) Xmax – o maior valor exibido na tabela; (2) Xmin –menor valor exibido na tabela (3) AA – amplitude da amostra, calculada por AD = Xmax – Xmin. (4) k – nº de classes A escolha do número de classes depende da análise que se pretende fazer da amostra. Portanto, não há uma regra definida obrigatória para esta escolha. Entretanto, alguns analistas utilizam regras para determinar o número de classes. Entre estes processos destacam-se: (a) fórmula de Sturges: k = 1 + 3,3.log n onde n é o tamanho da amostra. 34 (b) fórmula da raiz quadrada: k = maior número inteiro, menor ou igual à n, onde n é o tamanho da amostra. (5) Li – limite inferior da classe. Deve-se, de preferência, escolher para o limite inferior da primeira classe um valor igual à menor medida tabelada. (6) Ls – limite superior da classe. O limite superior, com exceção do pertencente à ultima classe, coincide com o limite inferior da classe seguinte. (7) AI – amplitude do intervalo de classe, definido por AI = Ls – Li. (8) Lmin – limite inferior do primeiro intervalo de classe (9) Lmax – limite superior do último intervalo de classe (10) AD – amplitude da distribuição, definida por AD = Lmax – Lmin. Deve-se observar que a amplitude da distribuição deverá ser sempre maior que a amplitude da amostra. Isto é AD > AA. (11) IC - Intervalo de classe, indicado por Li |------ Ls. A forma indicada é usada para representar um intervalo fechado à esquerda e aberto à direita. Isto significa que as medidas de valores iguais ou maiores que Li e inferiores a Ls pertencem ao intervalo enquanto que valores iguais a Ls pertencem ao intervalo seguinte. (12) PM – ponto médio da classe, calculado por PM = (Ls +Li)/2. Nos cálculos dos parâmetros estatísticos o ponto médio da classe substitui todos os valores contidos na classe. Um cuidado especial deve ser tomado ao estabelecer a divisão em classes de modo que nenhuma das classes tenha freqüência igual a zero. EXEMPLO: A tabela abaixo se refere ao levantamento feito pelo gerente de uma papelaria sobre os preços de artigos mais vendidos com os objetivos de prever o aumento do estoque e investir em propaganda tendo em vista os interesses dos clientes. 0,98 1,15 2,12 0,60 3,23 1,24 5,15 0,95 4,56 0,60 2,12 5,54 0,87 1,12 4,24 2,99 1,35 1,98 3,12 4,12 3,99 0,99 0,50 1,24 2,39 1,99 2,99 1,29 1,39 2,12 2,12 2,24 1,19 3,15 1,70 1,28 1,35 3,24 3,32 4,14 2,19 2,00 1,99 1.90 2,99 4,56 1,89 2,12 0,50 2,99 3,45 4,56 3.45 3,15 1,99 2,89 0,97 0,90 1,22 2,99 3,12 4,15 2,12 1,99 1,56 2,15 5,15 1,09 5,00 2,24 4,56 0,95 3,42 0,90 2,02 3,45 2,67 1,09 1,25 1,99 Dividir convenientemente a tabela em intervalos de classe. Solução: Para facilidade de contagem é aconselhável ordenar os valores da amostra. 0,50 0,98 1,25 1,98 2,12 2,89 3,24 3,23 0,50 0,99 1,28 1,99 2,12 2,99 3,32 4,24 0,60 1,09 1,29 1,99 2,12 2,99 3,42 4,56 0,60 1,09 1,35 1,99 2,12 2,99 3,45 4,56 0,87 1,12 1,35 1,99 2,15 2,99 3,45 4,56 0,90 1,15 1,39 1,99 2,19 2,99 3,45 4,56 0,90 1,19 1,56 2,00 2,24 3,12 3,99 5,00 0,95 1,22 1,70 2,02 2,24 3,12 4,12 5,15 0,95 1,24 1,89 2,12 2,39 3,15 4,14 5,15 0,97 1,24 1,90 2,12 2,67 3,15 4,15 5,54 ATENÇÃO: os valores podem ser ordenados usando o EXCEL ou o STARCALC. Para ordenas os valores, digite-os em uma mesma coluna. A seguir selecione a coluna. Clique no botão “DADOS”. A seguir clique na opção “CLASSIFICAR” (EXCEL) ou “ORDEM” (STARCALC). Clique no botão OK. (1) Escolhendo o número de classes: 35 Conforme foi dito, a escolha depende dos objetivos da análise estatística a ser feita. Como os objetivos não estão definidos, será usado o processos de Sturges: Tamanho da amostra n = 80, k = 1 + 3,3.log 80 = 7,28. Como o número de intervalos deve ser inteiro, k = 8. (2) Calculando a amplitude de cada classe: Amplitude da amostra: Xmax = 65,70, Xmin = 0,50 AA = 5,54 – 0,50 = 5,04 Amplitude de classe: AC = AA/k = 5,04/8 = 0,63. (3) Criando as classes: 1ª classe: Li = 0,50; Ls = 0,50 + 0,63 = 1,13. O limite inferior de classe é igual ao limite inferior da classe anterior somado à amplitude da classe. Da mesma forma, o limite superior de cada classe é igual ao limite superior da classe anterior somado à amplitude de classe. Além disso, o limite inferior de uma classe é igual ao limite superior da classe imediatamente anterior. Obtém-se assim, a distribuição: Lim. inf Lim. sup 0,50 |-----------1,13 1,13 |-----------1,76 1,76 |-----------2,39 2,39 |-----------3,02 3,02 |-----------3,65 3,65 |-----------4,28 4,28 |-----------4,91 4,91 |-----------5,54 Como o limite superior da última classe coincide com o maior valor da tabela, deve-se usar uma amplitude de classe ligeiramente superior ao valor calculado. Assim, substituindo a amplitude 0,63 por 0,64, cria-se a nova tabela: Lim. Inf. Lim. Sup. 0,50 |---------1,14 1,14 |---------1,78 1,78 |---------2,42 2,42 |---------3,06 3,06 |---------3,70 3,70 |---------4,34 4,34 |---------4,98 4,98 |---------5,62 Estando a divisão das classes pronta, é hora de completar a distribuição com as freqüências, lembrando que valores iguais a limites inferiores pertencem à classe correspondente. Assim, completando a distribuição: Lim. Sup Lim. Sup. Freqüência 0,50 |-----1,14 15 1,14 |-----1,78 13 1,78 |-----2,42 21 2,42 |-----3,06 7 3,06 |-----3,70 10 3,70 |-----4,34 6 4,34 |-----4,98 4 4,98 |-----5,62 4 TOTAL 80 5.2 – PARÂMETROS ESTATÍSTICOS PARA DADOS AGRUPADOS 36 Sejam x1, x2, x3,..., xn os valores que representam as classes de uma distribuição de dados e f1, f2, f3, ..., fn as respectivas freqüências. Quando as classes são representadas por intervalos, x 1, x2, x3,..., xn são os pontos médios das classes. Definem-se: (1) MÉDIA DA AMOSTRA n X= x1f1 + x2f2 + .... + xnfn f1 + f2 + …. + fn xi.fi fi = i=0 (2) MODA Medida que apresenta a maior freqüência. No caso de classes representadas por intervalos, a moda é o ponto médio da classe com maior freqüência. (3) MEDIANA A mediana é a medida do elemento (ou os dois elementos) que se encontra no meio da listagem das medidas, após ordená-las. Para o caso de uma quantidade ímpar, a mediana é o valor da medida de ordem (n + 1)/2 e para uma quantidade par de medidas, a mediana é o valor da média das medidas de ordem n/2 e (n/2) + 1. Para distribuição em classes definidas por intervalos, a mediana é indicada pelo ponto médio da classe. Um procedimento que facilita a localização da mediana consiste em acrescentar na tabela uma coluna contendo a freqüência acumulada, que consiste na soma das freqüências da classe somada às freqüências das classes anteriores. No EXCEL e no STARCAL, a freqüência acumulada pode ser obtida a partir do processo: - digita-se a coluna das freqüências. Suponhamos que a freqüência da primeira classe esteja na célula C3. - na célula D3, digita-se =C3 - na célula D4, digita-se =D3 + C4 - seleciona-se a célula D4 clicando sobre ela. - posicionando o mouse sobre o quadrinho no canto inferior direito da célula selecionada e mantendo o botão esquerdo do mouse pressionado, arrasta-o até a célula da coluna D à frente da célula contendo a última freqüência. (4) VARIÂNCIA n (x1 – X)2.f1 + (x2 – X)2.f2 + … + (xn – X)2.fn v= (xi – X)2.fi n-1 = n-1 i=0 (5) DESVIO PADRÃO s= v O cálculo para a média, a variância e o desvio padrão estão editadas em aplicativos. EXERCÍCIOS 01 – As notas obtidas em Matemática pelos alunos da 3ª série do ensino médio de certa escola foram tabuladas agrupadas em intervalos conforme indicado na tabela: Notas Nº alunos 0a 2 2a4 4a6 6a8 8 a 10 5 10 18 25 10 37 (a) Qual é a amplitude da tabela? (b) Qual é a amplitude de cada classe? (c) Calcule o ponto médio de cada classe? (d) Calcule a média, a mediana, a moda e o desvio padrão desta distribuição? (e) Usando a média com apenas uma casa decimal, e supondo que alunos cujas notas sejam igual ou superior à média mais 1,3 - ( + 1,3) - ficam dispensados da prova final, quantos alunos estarão dispensados desta prova? (f) Se os alunos que têm notas 1,7 abaixo da média ( – 1,7) estão reprovados sem direito à prova final, quantos alunos já estariam reprovados? 02 – Supondo que os alunos cujas notas estão tabeladas no exercício anterior representem uma amostra de uma população de 200 alunos, calcule, para um limite de confiança de 95%, a média esperada para todos os alunos desta escola. 03 – As idades de um grupo de pessoas selecionadas em certa pesquisa estão distribuídos na tabela: 21 15 11 10 14 18 15 20 20 18 18 35 22 19 27 14 13 13 11 12 19 16 10 18 24 11 21 10 26 22 28 27 11 23 18 12 (a) escolha um número de classes para analisar os dados? (b) Calcule a amplitude de cada classe. (c) Faça a tabulação dos dados distribuindo-os pelas classes. (d) Calcule a média, a mediana, a moda e o desvio padrão. (e) Quantos elementos pertencem ao intervalo + s? (f) calcule, para um limite de confiança de 90%, a média das idades da população. (g) calcule a moda e a mediana da distribuição 04 – Para cada uma das tabelas Calcule: (a) a média amostral das notas e o salário médio amostral; (b) o desvio médio das notas e o desvio médio dos salários (c) a média das notas da população e a média dos salários da população, para um intervalo de confiança de 97,5%. (d) a moda e a mediana da distribuição. 05 – A tabela mostra o número de alunos matriculados no período de 1993 a 2003 em universidades públicas e privadas. Fonte UFJF. Ano Total Pública Privada 1993 3,7 6,6 2,4 1994 3,9 7,3 2,4 1995 4,3 7,9 2,9 1996 4 7,5 2,6 1997 3,9 7,4 2,6 1998 3,6 7,5 2,2 1999 3,5 8 2,2 38 Considerando a coluna referente à universidade pública, divida a amostra em quatro intervalos. (a) Qual é a amplitude da amostra? (b) Qual é a amplitude de cada intervalo? (b) Qual é a média, a moda, a mediana, a variância e o desvio padrão da amostra? 06 – A tabela mostra a avaliação feita pelo MEC em 30 universidades brasileiras. Fonte UFJF Class Instituição Status Índice Nº Cursos Class Instituição Status Índice Nº Cursos 1 UFMG Fed 92,3 24 16 UNESP Est 80,4 16 2 UFU Fed 92,2 12 17 UFES Fed 80 24 3 UFRS Fed 92 32 17 UFBA Fed 80 26 4 UFRJ Fed 90,8 16 19 U. Caxias do Sul Priv 79,5 22 5 UNB Fed 90,8 49 20 Univ. Mackenzie Priv 78,8 31 6 UFJF Fed 90 21 21 UFGO Est 78,8 17 7 UFSM Fed 87,7 24 22 U. Centro-Oeste Est 78,2 14 8 UFV Fed 85,7 22 23 UNIMONTES Est 78,2 29 9 UERJ Est 84,8 22 24 U. Ponta Grossa Est 78,1 20 10 UNIOESTE Est 84,5 16 25 UFSC Fed 77,5 26 11 Univ. R. Grande Fed 83,5 32 26 UNICAMP Est 76,3 24 12 UFPR Fed 83,1 26 27 U. Est da Bahia Est 75,5 24 13 Univ. Maringá Est 82,7 40 28 UFPE Fed 75 23 14 PUC - RJ Priv 82,5 53 29 C. Newton Paiva Priv 73,3 25 15 UFCE Fed 81,7 25 30 PUC - RS Priv 73,1 26 Utilize a divisão em classes de intervalos, para determinar: (a) A média e o desvio padrão do índice e do nº de cursos. (b) Qual é o percentual das universidades que apresentam no intervalo + 1,5s? (c) Compare com o resultado que seria obtido se fossem usados o coeficiente “z” e o coeficiente “t” de Student. (d) Supondo que a distribuição dos índices e do número de cursos seja uma distribuição normal, qual seria, num intervalo de confiança de 95%, a média dos índices de todas as universidades e a média do número de cursos de todas as universidades? (e) Qual é a mediana da distribuição? Repita os itens (a) e (b) para a coluna referente à universidade privada. 07 – A tabela mostra a variação do dólar no período de 01/10/2004 a 17/12/2004. tabela em reais. 2,85 2,83 2,85 2,86 2,83 2,76 2,74 2,77 2,85 2,83 2,85 2,86 2,82 2,76 2,73 2,77 2,85 2,84 2,85 2,86 2,82 2,76 2,71 2,79 2,83 2,86 2,85 2,83 2,80 2,77 2,72 2,79 2,82 2,86 2,88 2,82 2,80 2,74 2,71 2,79 2,84 2,86 2,87 2,82 2,80 2,75 2,71 2,77 2,85 2,86 2,86 2,82 2,80 2,75 2,71 2,76 2,82 2,85 2,86 2,82 2,78 2,73 2,72 2,75 2,82 2,87 2,86 2,82 2,77 2,73 2,73 2,73 2,82 2,88 2,86 2,83 2,76 2,73 2,77 2,72 39 Valores da Sugestão: Selecione cada uma das colunas (individualmente), copie e cole-as numa mesma coluna no EXCEL ou no STARCALC para facilitar a ordenação. Calcule: (a) o valor médio do dólar no período. (b) o desvio padrão (c) o número de dias em que o dólar foi cotado entre 2,75 e 2,81. 08 – A tabela mostra os valores do índice econômico TBF. (Taxa básica financeira) DIA JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ 1 1,21 1,05 1,31 1,13 1,18 1,22 1,25 1,26 1,10 1,17 1,19 1,43 2 1,19 1,10 1,33 1,08 1,23 1,21 1,19 1,32 1,21 1,17 1,20 1,37 3 1,20 1,08 1,33 1,02 1,30 1,21 1,19 1,31 1,15 1,17 1,27 1,27 4 1,26 1,11 1,27 1,08 1,31 1,13 1,24 1,29 1,08 1,22 1,30 1,29 5 1,33 1,11 1,21 1,13 1,29 1,07 1,30 1,26 1,14 1,23 1,20 1,36 6 1,34 1,11 1,21 1,14 1,25 1,13 1,31 1,20 1,19 1,20 1,15 1,44 7 1,33 1,04 1,27 1,13 1,16 1,19 1,30 1,20 1,20 1,15 1,21 1,45 8 1,28 1,04 1,32 1,14 1,16 1,21 1,24 1,20 1,26 1,11 1,28 1,43 9 1,21 1,11 1,29 1,09 1,23 1,20 1,14 1,26 1,25 1,10 1,28 1,36 10 1,20 1,11 1,29 1,09 1,30 1,17 1,16 1,25 1,19 1,16 1,30 1,32 11 1,26 1,11 1,20 1,14 1,24 1,13 1,22 1,26 1,15 1,20 1,28 1,33 12 1,31 1,11 1,16 1,21 1,35 1,11 1,30 1,20 1,21 1,22 1,24 1,39 13 1,32 1,11 1,16 1,20 1,19 0,17 1,31 1,15 1,23 1,30 1,17 1,46 14 1,32 1,05 1,22 1,20 1,13 1,27 1,32 1,15 1,18 1,24 1,23 1,42 15 1,25 1,05 1,29 1,19 1,13 1,26 1,26 1,20 1,23 1,20 1,30 16 1,19 1,11 1,26 1,11 1,19 1,26 1,13 1,26 1,21 1,13 1,35 17 1,20 1,11 1,29 1,07 1,25 1,24 1,16 1,26 1,18 1,19 1,37 18 1,25 1,11 1,21 1,12 1,24 1,20 1,22 1,28 1,12 1,24 1,35 19 1,32 1,09 1,15 1,19 1,25 1,14 1,31 1,20 1,18 1,22 20 1,28 1,10 1,15 1,17 1,19 1,20 1,30 1,14 1,24 1,25 21 1,31 1,01 1,21 1,18 1,13 1,25 1,32 1,14 1,19 1,21 22 1,27 1,01 1,21 1,25 1,13 1,25 1,23 1,20 1,22 1,13 23 1,23 1,06 1,18 1,19 1,19 1,24 1,20 1,26 1,20 1,13 24 1,17 1,12 1,22 1,13 1,26 1,26 1,19 1,26 1,17 1,19 25 1,17 1,14 1,16 1,19 1,26 1,18 1,25 1,26 1,10 1,26 26 1,22 1,21 1,06 1,24 1,25 1,14 1,31 1,21 1,16 1,27 27 1,23 1,22 1,07 1,25 1,22 1,20 1,32 1,13 1,21 1,25 28 1,21 1,15 1,13 1,25 1,15 1,26 1,31 1,14 1,21 1,21 1,24 29 1,18 1,15 1,21 1,25 1,14 1,25 1,23 1,20 1,23 1,16 1,30 30 1,11 1,20 1,21 1,17 1,20 1,26 1,21 1,27 1,25 1,14 1,37 31 1,05 1,25 1,19 1,12 1,25 1,25 1,20 1,27 1,17 1,20 1,37 Conforme sugestão do item anterior, ordene os dados no EXCEL ou no STARCAL. Calcule, usando os processos de medidas discretas e o processo da divisão em intervalos: (a) o valor médio diário do índice TBF (b) a variância e o desvio padrão. (c) o percentual em que os índices estiveram entre + 1,2s. (d) consulte a tabela dos coeficientes “z” e “t” e confira percentual com o obtido no item (c). 09 - Em um mês, uma loja de assistência técnica em computares recebeu os seguintes serviços: Tipo do serviço Limpeza de vírus Troca de HD Troca de placa mãe Preço p/ serviço (R$) 30,00 45,00 60,00 40 Quantidade 1000 450 600 Up grade Instalação de programas 50,00 25,00 350 250 Qual o preço médio cobrado por serviço? 10 - Encontrar a freqüência correspondente à terceira classe da distribuição a seguir, sabendo-se que a média é igual a 11,50. Xi fi 5 4 8 5 13 ... 18 3 25 1 11 - Obter a moda e a variância para a distribuição amostral: Classes fi 0 l---25 20 25 l---50 140 50 l---75 180 75 l---100 40 100 l---125 10 12 - O tempo de acesso na internet das 50 primeiras conecções de um dia num determinado provedor: Xi 1 2 3 fi 6 11 6 Calcular a variância populacional e o desvio padrão. 4 7 5 9 6 11 13 - Calcule a média e a variância amostral: Fac = freqüência acumulada Xi Fac 30000 10 30002 30004 22 36 41 30006 46 30008 50 30010 52 CAPÍTULO 06 – CONSTRUINDO GRÁFICOS 6.1 – INTRODUÇÃO A distribuição em tabelas dos levantamentos dos dados estatísticos dá uma idéia geral de como cada grupo de medidas influenciam nas medidas de dispersão. Entretanto, para uma melhor visualização, as informações podem ser apresentadas em forma de gráficos. Gráficos de dados estatísticos estão presentes em jornais, revistas, manuais escolares, apresentações públicas pois eles apresentam a grande vantagem de transmitir informações que em tabelas não seriam percebidas. Diversas são as formas de se construir um gráfico. A forma do gráfico depende principalmente das informações que se quer transmitir. Neste capítulo daremos destaque às formas mais comuns que são: tabulação, gráficos em barras horizontal e vertical, histograma, linhas, setores, pizza, pirâmide etária e pictograma. Também serão fornecidas, neste capítulo, informações sobre construção de gráficos no EXCEL e no STARCALC. 6.2 – TABULAÇÃO A tabulação é a forma mais simples de construção de gráfico. O processo consiste em registrar, por meio de traços, a contagem das medidas de mesmo valor ou que pertencem ao uma mesma classe. Tomemos, por exemplo, a tabela: 3.37 3.34 3.38 3.32 3.33 3.28 3.34 3.31 3.33 3.34 3.29 3.36 3.30 3.31 3.33 3.34 3.34 3.36 3.39 3.34 3.35 3.36 3.30 3.32 3.33 3.35 3.35 3.34 3.32 3.38 3.32 3.37 3.34 3.38 3.36 3.37 3.36 3.31 3.33 3.30 3.35 3.33 3.38 3.37 3.44 3.32 3.36 3.32 3.29 3.35 3.38 3.39 3.34 3.32 3.30 3.39 3.36 3.40 3.32 3.33 3.29 3.41 3.27 3.36 3.41 3.37 3.36 3.37 3.33 3.36 3.31 3.33 3.35 3.34 3.35 3.34 3.31 3.36 3.37 3.35 Ordenando e contando as medidas que pertencem a mesma classe temos: xi Tabulação 3.27 3.28 3.29 3.30 3.31 3.32 3.33 3.34 3.35 3.36 3.37 3.38 3.39 3.40 3.41 3.42 3.43 | || || |||| ||||| | ||||| ||| ||||| ||||| ||| ||||| ||||| |||| ||||| ||||| || ||||| ||||| ||||| |||| ||||| |||| |||||42 ||| | 3.40 3.35 3.37 3.35 3.32 3.36 3.38 3.35 3.31 3.34 3.35 3.36 3.39 3.31 3.31 3.30 3.35 3.33 3.35 3.31 A tabulação, representada pelos traços verticais, dá uma visão gráfica da concentração das medidas. A partir da distribuição, verifica-se que a moda é Mo = 3,36 (medida que aparece uma maior número de vezes). Como a amostra tem dimensão 100 (100 medidas) a mediana é a média das medidas de número 50 e 51. Contando os 50 primeiros traços verifica-se que a medida correspondente às posições 50 e 51 é 3.36. Assim, a mediana vale Me = (3.36 + 3.36)/2 = 3.36. 6.3 - GRÁFICO EM COLUNAS SIMPLES Os gráficos de colunas e barras são uma das formas mais populares de representar informação, em parte pela facilidade quer de execução, quer de leitura. São usados para apresentar um conjunto de dados e também para comparar vários conjuntos de dados. Devem ser utilizados para representar variáveis discretas ou qualitativas, em termos absolutos ou relativos, ou para comparar categorias de variáveis quantitativas. Podem, igualmente, representar a evolução de uma variável ao longo do tempo. Notas 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Totais Obtém-se os gráficos: Não formatado Turma A 3 5 6 9 4 2 2 31 Formatado Quando for usado o Excel, a largura da coluna pode ser modificada clicando com o botão direito do mouse sobre uma das colunas e a seguir clicando na opção "Formatar seqüência de dados". Na janela "Formatar seqüência de seleção, clique na aba "Opões". No campo "Espaçamento" substitua o número exibido por um menor. Se nesse campo for digitado o valor "0" (zero) as colunas serão exibidas agrupadas. No Starcalc, não é possível formatar a largura da coluna. Neste, pode-se usar a ferramenta de desenho retângulo. Com ela constroem-se os retângulo (fora da área do gráfico) e a seguir arrastaos para a área do gráfico, ajustando a altura e a largura da coluna construída. 6.4 – GRÁFICO EM COLUNAS AGRUPADAS Usado quando se deseja comparar duas ou mais distribuições de freqüências referentes a uma mesma medida. 43 Tomando por exemplo a tabela referente às notas de um grupo de alunos de duas classes de uma escola: Notas Turma A Turma B 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Totais 3 5 6 9 4 2 2 31 2 6 7 10 5 3 1 34 Usando o Excel temos os gráficos Antes da formatação Após a formatação 6.5 – GRÁFICO EM BARRAS HORIZONTAIS O gráfico em barra deve substituir o gráfico em colunas quando o número de colunas for grande fazendo com que os rótulos das colunas se sobrepõem, tornando-os confusos. Para a mesma tabela anterior são obtidos os gráficos: Antes da formatação após a formatação 6.6 – HISTOGRAMA O histograma é usado para mostrar a distribuição de valores de uma variável contínua através de um gráfico de barras unidas. Contudo, se uma variável discreta apresentar muitos 44 valores distintos, também pode ser usado o histograma. Normalmente, os histogramas são representados por barras com larguras iguais em que a altura (ou o comprimento) varia em função da freqüência relativa ou absoluta. Usando a tabela do item 6.3, teremos os gráficos Sem formatação Formatado Para que a primeira classe seja deslocada para a direita, complete a tabela com classes anteriores à primeira. Deixe os espaços acrescentados para as classes em branco ou preencha com valores inferiores à primeira classe. Nos espaços acrescentados para as freqüências, preencha com 0 (zero). O histograma no EXCEL, é construído a partir de um gráfico em coluna. Quando o gráfico for exibido, clique com o botão direito do mouse sobre uma das colunas. Ao abrir uma janela de opções clique em “Formatar sequência de dados”. Será então aberta a janela “Formatar sequência de dados”. Clique então na aba “Opções”. No campo “Espaçamento” substitua o número exibido por 0 (zero). Clique no botão OK. Quando se trabalha com classes definidas por intervalos, pode-se marcar no eixo horizontal os intervalos ou os pontos médios das classes. 6.7 – GRÁFICO EM LINHA O gráfico de linhas é indicado para mostrar tendências ou relações entre duas variáveis contínuas. Para um número grande de classes pode-se também usar o gráfico em linhas. Para a tabela já usada, obtém-se: Notas da turma A Comparando as turmas A e B 45 O gráfico em linha é construído unindo os pontos médios as classes, como pode ser visto na figura abaixo. 6.8 – OGIVA O gráfico denominado ogiva é um gráfico em linha usado para registrar a freqüência acumulada. O processo de construção é o mesmo usado para o gráfico em linhas. Este gráfico é útil para verificar quandos elementos da amostra estão abaixo de uma determinada medida. Considerando a tabela das notas dos alunos da turma A, à qual se acrescenta a freqüência acumulada tem-se: Notas Turma A Freq. Acum. 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Totais 3 5 6 9 4 2 2 31 3 8 14 23 27 29 31 O gráfico correspondente é Do gráfico pode-se obter informações como, (1) o número de alunos com nota igual ou inferior a 7 é igual a 27. (2) o número de alunos com notas entre 5 e 8, incluindo estes valores é 29 – 8 = 21 (note que foi subtraida a freqüência total até a nota 4 pois a nota 5 é incluida na seleção. 46 6.9 – PIRÂMIDE ETÁRIA A pirâmide etária é também um histograma e é muito utilizada em análises demográficas por permitir visualizar numa única imagem a distribuição da população por idades e simultaneamente compará-la entre os dois sexos. A sua representação é feita em dois eixos horizontais (um para os efectivos masculinos e outro para os femininos) podendo esta ser em valores absolutos ou relativos. A tabela abaixo, mostra a distribuição da população brasileira, por sexo, no ano 2000. POPULAÇÃO RESIDENTE TOTAL, POR SEXO E GRUPOS DE IDADE - 2000 Faixa etária TOTAL total homens mulheres 169 799 170 83 576 015 86 223 155 0 a 4 anos 16 375 728 8 326 926 8 048 802 5 a 9 anos 16 542 327 8 402 353 8 139 974 10 a 14 anos 17 348 067 8 777 639 8 570 428 15 a 19 anos 17 939 815 9 019 130 8 920 685 20 a 24 anos 16 141 515 8 048 218 8 093 297 25 a 29 anos 13 849 665 6 814 328 7 035 337 30 a 34 anos 13 028 944 6 363 983 6 664 961 35 a 39 anos 12 261 529 5 955 875 6 305 654 40 a 44 anos 10 546 694 5 116 439 5 430 255 45 a 49 anos 8 721 541 4 216 418 4 505 123 50 a 54 anos 7 062 601 3 415 678 3 646 923 55 a 59 anos 5 444 715 2 585 244 2 859 471 60 a 64 anos 4 600 929 2 153 209 2 447 720 65 a 69 anos 3 581 106 1 639 325 1 941 781 70 a 74 anos 2 742 302 1 229 329 1 512 973 75 a 79 anos 1 779 587 780 571 999 016 80 anos e mais 1 832 105 731 350 1 100 755 FONTE - IBGE, Diretoria de Pesquisas, Departamento de População e Indicadores Sociais. Censo Demográfico 2000. A partir da tabela, temos o gráfico no formato “pirâmide etária”. FONTE: IBGE, Diretoria de Pesquisas, Departamento de População e Indicadores Sociais. Contagem de População de 1996. 47 A pirâmide etária pode também ser apresentada na forma 6.10 - GRÁFICOS CIRCULARES O gráfico circular tornou-se muito comum em publicações direcionadas para um público mais amplo, apesar de ser constetado pela falta de capacidade de transmitir informações bem como a dificuldade em se comparar, visualmente, as dimensões dos ângulos, dificuldade esta não encontrada quando se comparam os comprimentos das barras ou colunas. Os gráficos circulares exibem as partes do todo como fatias de um bolo (gráfico em setor), queijo ou pizza (gráfico em pizza). Nestes gráficos cada ângulo é proporcional à freqüência da classe. Seu uso é desaconselhável quando o número de intervalos é superior a 5 ou quando a distribuição apresenta freqüências próximas para alguns intervalos. Também é comum apresentar gráficos circulares para uma visão tridimensional, o que leva a tranformar o círculo em elipse. Isto faz distorcer as medidas das fatias levando a impressões falsas sobre a distribuição das freqüência. Outro fato na apresentação de gráficos circulares consiste em destacar fatias. Este fato leva também a falsas conclusões sobre o tamanho das fatias. Veja algumas formas de gráficos circulares: (1) Bidimensional - em setores (2) Tridimensional – Pizza (3) Fatias separadas 48 6.11 – PICTOGRAMAS Os pictogramas são gráficos comuns, mas com características decorativas. A sua utilização é indicada numa apresentação superficial em que o contato com a imagem é breve, nomeadamente, em jornais ou revistas de âmbito alargado ou quando o público-alvo tem um nível educacional médio ou baixo. Nos pictogramas as colunas são substituidas por imagens relativas . O exemplo abaixo mostra um gráfico no formato pictograma 6.12 – CONSTRUINDO GRÁFICOS NO EXCEL Abaixo está descrito um conjunto de passos para se construir um gráfico no EXCEL. 1 - Digite os dados em colunas vizinhas. 2 - Selecione a coluna das freqüência (2ª coluna) 3 - Clique no botão (Assistente de gráfico) que se encontra na barra de ferramentas padrão. Se o botão não constar da barra de ferramentas, clique no menu INSERIR e a seguir na opção GRÁFICO. 4 - Ao abrir a janela Assistente de gráfico, etapa 1 de 4, selecione o "Tipo de Gráfico" desejado e, a seguir, no "Subtipo de gráfico". 5 - Clique no botão Avançar. Na janela "Assistente de gráfico", etapa 2 de 4, clique na aba "Sequência". No campo "Rótulos do eixo das categorias (X)" clique na seta vermelha (canto esquerdo). Isto irá transformar a janela em uma barra horizontal. Selecione a coluna de valores (1ª coluna) e a seguir clique na seta vermelha da barra horizontal para retornar à janela. 6 - Clique no botão Avançar para exibir a etapa 3 do Assistente de gráfico. Dê um título para o gráfico e identifique os eixos digitando os nomes nos campos respectivos. Nesta etapa você pode formatar os eixos, as linhas de grade, a legenda, fazer exibir ou não os valores tabelados. 49 7 - Clique em AVANÇAR para exibir a etapa 4. Marque a opção "Como nova planilha" para exibir o gráfico em outra folha, ou "Como objeto em" para exibir o gráfico na planilha onde está a tabela. 8 - Finalize clicando no botão CONCLUIR. A partir destes passos o gráfico será exibido na mesma planilha onde foi criada a tabela. Após a construção pode-se modificar vários de seus elementos, o que também pode ser feito nos passos para a construção do gráfico. 1 - Área de plotagem - clicando sobre a mesma com o botão direito do mouse será aberta uma janela de opções. Clicando sobre a opção "Formatar área de plotagem" pode-se modificar as bordas e a cor do fundo. 2 - Eixos - clicando, com o botão direito do mouse, sobre os valores exibidos será exibida a opção "Formatar eixo". Clicando sobre esta opção, será aberta uma nova janela onde pode-se modificar o tipo de linhas, a fonte, a escala, o tipo de número e o alinhamento. 3 - Linhas de grade - usando o procedimento anterior podem ser modificadas as linhas de grade (paralelas aos eixos) ou retirá-las. 4 - Sequência - clicando com o batão direito será aberta um quadro com as opções: "Formatar legenda" e "Limpar". Na primeira opção podem ser modificadas a cor da área, a fonte e a posição. Esta última pode ser substituída arrastando a caixa com a legenda. Caso não queira exibir a legenda, clique em "Limpar". 5 - Transformando colunas separadas em colunas agrupadas. Clique sobre uma das colunas como o botão direito do mouse. A seguir clique em formatar "Sequência de dados". Na janela "Sequência de dados" clique na aba "OPÇÕES". No campo "ESPAÇAMENTO" substitua o valor indicado (defaut = 150) por 0. Clique no botão OK. 6.13 - CONSTRUINDO GRÁFICO NO STARCALC 1 - Digite os dados em colunas vizinhas. 2 - Selecione as duas colunas 3 - No menu Inserir, clique na opção "Gráfico". Será aberta a janela "Auto formato (1-4)". No campo Selecção marque a opção "Primeira coluna como legenda". Clique no botão "Continuar". 4 - Na janela "Auto formato (2-4), selecione o tipo de gráfico e marque a opção "Colunas". Clique no botão "Seguinte". 5 - Na janela "Auto formato (3-4), selecione uma das variantes do gráfico. Se desejar exibir linhas de grades (paralelas aos eixos), no campo Linhas de grelha marque uma ou as duas opções. Caso não deseje exibí-las, desmarque as opções "Eixo X" e "Eixo Y". Marque a opção Colunas se não estiver marcada. Clique em no botão "Seguinte". 6 - Na janela "AutoFormato Gráfico (4-4), (a) campo Título do gráfico marque a opção se desejar exibir o título e substitua o texto "Título principal" por outro desejado. Para não exibir título desmarque a opção "Título do gráfico". (b) campo Inserir legenda - marque Sim ou Não de acordo com sua escolha. (c) campo Título do eixo, marque a opção referente a cada eixo e digite o(s) título(s) para o(s) mesmo(s). (d) campo Série de dados em - se a opção Colunas não estiver marcada, marque-a. Clique no botão "Criar". Para formatar o gráfico é necessário selecioná-lo. Ao ser exibido o mesmo já estará selecionado. Caso contrário, clique sobre o mesmo. Clicando sobre a área do gráfico com o botão direito do mouse será exibida uma lista de opções. Clique então sobre a opção "Editar". Novamente, com o botão direito clique sobre a área do gráfico. Clique sobre a opção desejada para formatar os elementos desejados. Para apagar a legenda, basta clicar sobre a mesma e a seguir pressionar a tecla "Delete". No STARCALC não há como modificar a largura das colunas para transformar gráficos em colunas separadas em gráficos em colunas agrupadas (histograma). Entretanto, pode-se construir o gráfico em colunas separadas e, usando as ferramentas de desenho construir colunas agrupadas. 50 EXERCÍCIOS 1 – Para as tabelas da série de exercícios 1 a 13, apresentados após o item 5.2, escolha uma das formas de gráfico tabulação, colunas simples, colunas agrupadas, barras horizontais, histograma, linha, ogiva, setores, pizza, pizza fatiada e construa-o. Quando possível, utilize mais de um tipo de gráfico e escolha o que melhor atende à transmissão de informações. 2 – Construa a pirâmide etária para a distribuição: menos que 5 anos = 20000, entre 5 e 10 anos = 35000, entre 10 e 15 anos = 50000, entre 15 e 20 anos = 30000. CAPÍTULO 7 TESTES DE HIPÓTESES 7.1 – INTRODUÇÃO Existem vários tipos de testes para verificar o comportamento de uma distribuição de freqüência obtida a partir de uma coleta de dados e a freqüência esperada que pode ser calculada. Entre eles destacam-se: o teste de Bowman-Shelton, o teste de Kolmogorov-Smirnov e o teste do qui quadrado proposto por Karl Pearson. Neste capítulo serão descritos os testes qui-quadrado e Fisher por serem os métodos mais utilizados para: - verificar se a freqüência observada de um determinado acontecimente em uma amostra apresenta desvio significativo em relação às freqüência esperadas; - comparar distribuições de diferentes amostras relativas a uma mesma medida; - comparar proporções. De uma maneira geral, pode-se dizer que dois grupos se comportam de forma semelhante se as diferenças entre as freqüências observadas e as esperadas em cada categoria forem muito pequenas, próximas a zero. Consideram-se significativos ou aceitáveis os níveis iguais ou inferiores a 0,05 ou 5%. 7.2 – QUI-QUADRADO Sejam f1, f2, f3, ..., fn as freqüências em uma dada amostra e e1, e2, e3, ..., en as freqüências esperadas para a mesma amostra. Define-se a estatística qui-quadrado, indicada como 2, pela expressão 2 = (f1 – e1)2 e1 (f2 – e2)2 + e2 n (f3 – e3)2 (fn – en)2 + ... + + e3 en ou (fi – ei)2 2 = i=0 ei Se os dados estão distribuídos em tabelas 2 X 2 e qualquer uma das freqüências esperadas for menor que 10, deve-se usar a correção de Yates, sendo então o qui-quadrado calculado por n = 2 i=0 (|fi – ei| - 0,5)2 ei Quando se conhece a lei de distribuição da probabilidade do evento, o valor esperado é calculado a partir dessa lei. Por exemplo: para uma moeda a probabilidade de obter o evento “cara” em um lançamento é 50% (= ½). Assim, em 100 lançamentos é de se esperar uma freqüência igual a (1/2)*100 = 50. Quando não se conhece a lei de distribuição das probabilidades, geralmente são usadas várias amostras. Neste caso, a freqüência esperada para cada evento de cada amosta é calculada por 51 (soma das amostra*soma das freqüências das amostras para aquele evento) dividido pela soma das freqüências dos eventos. Ou seja fia fie x fta Onde fia = soma das freqüências das amostras; fie = soma das freqüências do evento e fta = soma das freqüências totais das amostras O cálculo do qui-quadrado da distribuição será obtido a partir da soma dos valores (fo – fe)2/fe ou pelo processo de correção de Yates. EXEMPLO 1 - Suponha que em 100 lançamentos de uma moeda os resultados foram: Evento Cara Coroa Total Freqüência Observada 45 55 100 Como a probabilidade de obter cara (ou coroa) é ½, em 100 lançamentos deveríamos ter (1/2).100 = 50 caras e (1/2).100 = 50 coroas. Completando a tabela com as freqüências esperadas resultaria: Evento Cara Coroa Total Freqüência Freqüência observada esperada 45 50 55 50 100 100 O valor do qui-quadrado para a tabela é: = 2 (45 –50)2 + (55 – 50)2 50 = 1 50 EXEMPLO 2 – A tabela mostra a distribuição de fumantes por dois grupos selecionados na praça central de uma cidade em horários diferentes Fumantes Sim Não Totais Calculando as freqüências esperadas: Fumantes Tarde Sim (obs) 40 (esperada) 130.240/500 = 62,4 Não (obs) 200 (esperada) 370.240/500= 177,6 Totais 240 Tarde 40 200 240 Noite 90 170 270 Noite 90 130.260/500 = 67,6 170 370*260/500 = 192,4 260 Totais 130 370 500 Totais 130 370 500 Calculando o qui-quadrado: 2 = (40 – 62,4)2/62,4 + (200 – 177,6)2/177,6 + (90 – 67,6)2/67,6 + (170 – 192,4)2/192,4 = 20,90 52 7.3 – O TESTE DO QUI-QUADRADO Com base nas amostras, podem ser tomadas decisões sobre a população, decisões como se uma moeda é viciada ou não, se um determinado processo educacional é melhor que outro, se o uso de drogas em uma universidade é característica do curso, etc. Estas decisões são denominadas decisões estatísticas. Na tomada das decisões é importante formular hipóteses ou suposições sobre a população. Em alguns casos a hipotese formulada consiste em rejeitar ou anular a hipótese como no caso de se desejar decidir se uma moeda é viciada ou não. Em outros a hipótese formulada consiste em verificar se há ou não diferença entre dois processos ou resultados de amostras diferentes para uma mesma população. Temos, inicialmente que se 2 = 0, as freqüências observadas são iguais às freqüências esperadas enquanto que se 2 > 0 elas são discordantes. O teste consiste então, verificar se o quiquadrado obtido é limitado a um nível de significância, geralmente de 0,05 (5%) ou de 0,01 (1%), em que a hipótese deve ser rejeitada. Isto é, se for escolhido o nível de significância 0,05 significa que existe uma probabilidade de 5% de rejeitarmos a hipótese ou 95% da hipótese. Na prática, o teste consiste em comparar o valor do 2 calculado com o valor do 2 crítico para o nível de significância desejado, que é obtido em tabela, levando em conta o grau de liberdade que é calculado por: (1) – para uma amostra: nº de linhas – 1. O número de linhas é igual ao número de eventos. (2) – para várias amostras: (nº de linhas – 1).(número de colunas – 1). Observação: ao contar o número de colunas deve-se computar a coluna das somas das freqüências das amostras. O teste do qui-quadrado pode ser aplicado nas condições: Comparação entre duas ou mais amostras Dados nominais fornecidos em freqüências Amostragem aleatória As freqüências esperadas não devem ser muito pequenas. Em uma tabela 2 x 2 nenhuma freqüência esperada deve ser menor que 5. Em tabelas maiores do que 2 x 2 recomenda-se que cada uma das freqüências esperada não apresente valor inferior a 5. 5 - Sempre que em uma tabela 2 x 2, qualquer das freqüências esperadas for menor que 10, devese usar a fórmula de correção de Yates. 6 – O teste deve ser evitado quando a soma das freqüências esperadas (que é igual à soma das freqüências observadas) for inferior a 30. Caso seja menor e ocorra em uma tabela 2 x 2, deve-se usar o Teste Exato de Fisher. 1 2 3 4 - EXEMPLO 1 – Considere a tabela relativa ao lançamento de uma moeda dada no item 7.2. Testar a hipótese de que a moeda é honesta ao nível de significância (a) 0,01, (b) 0,005. 1º passo: determinar o grau de liberdade. Como a tabela contém apenas uma amostra, sendo o número de eventos igual a 2 (cara, coroa) o grau de liberdade é GL = 2 – 1. 2º passo: consultar a tabela para o GL e nível de significância crítico 2 c. Para GL = 1 e nível de significância 0,01 – temos 2 1;0,01 = 6,635 e Para GL = 1 e nível de significância 0,005, 2 1,0,005 = 7,879. 3º passo: calcular o 2 da tabela. O valor do 2 calculado para a referida tabela (ver item 7.2) foi 2 = 1. 4º passo: comparar o 2 encontrado com o 2 crítico (da tabela). (a) Como 2 < 6,635 existe 0,01 ou 1% de probabilidade da moeda ser desonesta ou 99% de probabilidade da moeda ser honesta. (b) Da mesma, 2 < 6,635 existe a probabilidade de 0,5% da moeda ser desonesta ou 99,5% da moeda ser honesta. EXEMPLO 2 – Verificar se as duas amostras da tabela relativa a fumantes e não fumantes exibida no item 7.2 diferem ou não significativamente ao nível de significância (a) 0,01 e (b) 0,005. 1º passo: determinar o grau de liberdade. 53 No caso são duas amostras, tendo a tabela três colunas onde a terceira é a soma. O número de eventos (linhas) é igual a dois (fumantes, não fumantes). Assim, o grau de liberdade é GL = (3 – 1).(2 – 1) = 2.1 = 2. 2º passo: consultando a tabela: GL = 2, 2 2;0,01 = 6,635 e GL = 2, 2 2;0,005 = 7,879. 3º passo: calcular o 2 da tabela. O valor encontrado foi de 20,90 4º passo: comparando o 2 com o 2 crítico (da tabela). Como 2 encontrado é maior que os valores críticos de 2 crítico, as duas amostras diferem significativamente aos níveis 0,01 (1%) e 0,005 (5%). EXEMPLO 3 – A tabela mostra a distribuição de filhos de duas famílias: Masc Femin totais Fam A 7 13 20 Fam B 11 9 20 totais 18 22 40 Verificar se as duas amostras da tabela diferem ou não significativamente ao nível de significância (a) 0,01 e (b) 0,005. Solução: GL = (3 – 1).(2 –1) = 2. 2 2;0,01 = 6,635 e 2 2;0,005 = 7,879. Calculando as freqüências esperadas: indicação célula (a, b) – linha a, coluna b Célula (1,1) = 18*20/40 = 9; célula (2,1) = 22.20/40 = 11; célula (1,2) = 18.20/40 = 9; célula (2, 2) = 22.20/40 = 11. Como se tem uma tabela 2 x 2 e nas freqüências esperadas aparecem valores menores que 10 – células (1, 1) e (1,2) devemos usar a correção de Yates. 2 = (|7 – 9| - 0,5)2/9 + (|13 – 11| - 0,5)2/11 + (|11 – 9| - 0,5)2/9 + (|9 – 11| - 0,5)2/11 = 0,9090. Como 2 = 0,9090 < 2 2;0,01 = 6,635 e 2 = 0,9090 < 2 2;0,005 = 7,879, as duas amostras não apresentam uma diferença significativa aos níveis 0,01 e 0,005. Se não fosse usada a correção de Yates, teríamos 2 = 1,6162 que leva à mesma conclusão. Assim, nesta situação, não há necessidade de utilizar a correção. EXEMPLO 4 – Para a tabela abaixo deve-se usar o teste exato de Fisher pois a soma das freqüências é menor que 30. Masc Femin totais Fam A 6 8 14 Fam B 7 6 13 totais 13 14 27 7.4 – TESTE DE FISHER O teste de Fisher é usado para amostras pequenas e produz menos erro em relação ao teste do qui-quadrado. O teste de Fisher permite calcular a probabilidade de associação das características que estão em análise, ou seja, de elas serem independentes. Assim, o teste de Fisher é utilizado nas seguintes situações: (a) n < 20 (b) n > 20 e < 40 e a menor freqüência esperada for menor que 5. O teste de Fisher calcula a probabilidade de que a tabela usada tenha sido obtida por acaso e, portanto, sem mudar os totais das colunas e linhas, o teste de Fisher contrai todas as tabelas possíveis. 54 1º caso: n < 20 e um dos eventos de é nulo. Seja a tabela: eventos X Y Totais 1 9 (A) 7 (B) 16 (C) 2 0 (D) 3 (E) 3 (F) totais 9 (G) 10 (H) 19 (N) Identifiquemos as células por letras para facilitar a referência. Ver a indicação na tabela. A probabilidade de dependência das duas amostras é definida por: P = (C!.F!.G!.H!) / (N!.A!.B!.!D!) Notas: (1) C! é a indicação de fatorial de C. (2) 0! = 1. Temos então, para a tabela: P = (16!.3!.9!.10!)/(19!.9!.7!.0!.3!) = 0,1238 = 12,38 %. Isto significa que a probabilidade das amostras apresentarem uma diferença significativa é de 12,38% e a probabilidade das amostras não apresentarem diferença significativa é de 100% 12,38% = 87,62 %. 2º caso – n < 20 e não existe evento nulo. Neste caso, calcula-se a probabilidade p1 conforme definido anteriorme. A seguir reconstroi a tabela subtraindo 1 unidade da menor freqüência de cada amostra e acrescenta-se 1 unidade à maior freqüência. Calcula-se, usando a mesma fórmula, a probabilidade p2. Continua o processo até que uma das freqüências das amostra se anule. A probabilidade das amostras apresentarem diferença significativa é dada pela soma das probabilidades calculadas. Vejamos um exemplo: eventos 1 2 totais X 2 8 10 Y 5 3 8 Totais 7 11 18 Calculando p1: p1 = 10!.8!.7!.11!/18!.2!.5!.8!.3! = 0,0792 Reduzindo 1 unidade das menores freqüências de cada eventos e aumentando 1 unidade à maior freqüência de cada evento eventos X Y Totais 1 1 6 7 2 9 2 11 totais 10 8 18 Calculando p2: p2 = 10!.8!.7!.11!/18!.1!.6!.9!.2! = 0,0088 Como nenhuma das freqüências dos eventos foi anulada, repete-se o processo. eventos 1 2 totais X 0 10 10 Y 7 1 8 Totais 7 11 18 Calculando p3: p3 = 10!.8!.7!.11!/18!.0!.7!.10!.1! = 0,0003. A probabilidade de as amostras apresentarem uma diferença significativa é: P = 0,0792 + 0,0088 + 0,0003 = 0,0883 = 8,83%. 55 Assim, as tabela são discrepante ao nível de confiança de 8,83% ou não apresentam diferença significativa ao nível de 100% - 8,83 = 91,17%. 3º caso: 20 < n < 40 e a menor freqüência esperada é menor que 5. eventos X Y 1 12 (A) 18 (B) 2 4 (C) 2 (D) totais 16 20 Totais 30 6 36 Calculando as freqüências esperadas: célula (A) fA = 30*16/36 = 13,3; célula (C) fC = 6*16/36 = 2,7; célula (B) = 30.20/36 = 16,7; célula (D) = 6*20/36 = 3,3. Como a menor freqüência (célula C = 2,7) de uma das células da distribuição dos eventos é menor que 5, a aplicação do teste exato de Fisher é conveniente. Aplicando o mesmo procedimento usado no 2º encontramos: P1 = 0,1775; P2 = 0,1901 e P3 = 0,1905. A probabilidade de as amostras serem discrepantes é 0,1775 + 0,1901 + 0,1905 = 0,5581 (=55,81%). Portanto, a hipótese de as amostras apresentarem alguma relação deve ser descartada pois a probabilidade de não haver relação é de 55,81% ou a de existir uma relação é 44,19%. 7.5 - TABELA DE NÍVEIS DE SIGNIFICÂNCIA – QUI-QUADRADO Significativos Não significativos GL 1 0,995 0,99 0,975 0,95 0,9 0,75 0,5 0,25 0,1 0,05 0,025 0,01 0,005 0,001 0 0 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 10,827 2 0,01 0,02 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,21 10,597 13,815 3 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 16,266 4 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,86 18,466 5 0,412 0,554 0,831 1,145 1,61 2,675 4,351 6,626 9,236 11,07 12,832 15,086 16,75 20,515 6 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 22,457 7 0,989 1,239 1,69 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,321 8 1,344 1,647 2,18 2,733 3,49 5,071 7,344 10,219 13,362 15,507 17,535 20,09 21,955 26,124 9 1,735 2,088 2,7 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 27,877 10 2,156 2,558 3,247 3,94 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29,588 11 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,92 24,725 26,757 31,264 12 3,074 3,571 4,404 5,226 6,304 8,438 11,34 14,845 18,549 21,026 23,337 26,217 28,3 32,909 13 3,565 4,107 5,009 5,892 7,041 9,299 12,34 15,984 19,812 22,362 24,736 27,688 29,819 34,527 14 4,075 4,66 5,629 6,571 7,79 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,124 15 4,601 5,229 6,262 7,261 8,547 11,037 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37,698 16 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32 34,267 39,252 17 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,791 18 6,265 7,015 8,231 9,39 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 42,312 19 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,819 20 7,434 8,26 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,41 34,17 37,566 39,997 45,314 21 8,034 8,897 10,283 11,591 24,935 29,615 32,671 35,479 38,932 41,401 46,796 22 8,643 9,542 10,982 12,338 14,041 17,24 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48,268 23 9,26 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728 24 9,886 10,856 12,401 13,848 15,659 19,037 23,337 28,241 33,196 36,415 39,364 42,98 45,558 51,179 25 10,52 11,524 13,12 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52,619 26 11,16 12,198 13,844 15,379 17,292 20,843 25,336 30,435 35,563 38,885 41,923 45,642 48,29 54,051 27 11,808 12,878 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,195 46,963 49,645 55,475 28 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,62 37,916 41,337 44,461 48,278 50,994 56,892 29 13,121 14,256 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,335 58,301 30 13,787 14,953 16,791 18,493 20,599 24,478 29,336 34,8 40,256 43,773 46,979 50,892 53,672 59,702 33,66 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,403 50 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,42 76,154 79,49 86,66 13,24 16,344 20,337 40 20,707 22,164 24,433 26,509 29,051 56 60 35,534 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,952 99,608 70 43,275 45,442 48,758 51,739 55,329 61,698 69,334 77,577 85,527 90,531 95,023 100,425 104,215 112,317 80 51,172 53,54 57,153 60,391 64,278 71,145 79,334 88,13 96,578 101,879 106,629 112,329 116,321 124,839 90 59,196 61,754 65,647 69,126 73,291 80,625 89,334 98,65 107,565 113,145 118,136 124,116 128,299 137,208 100 67,328 70,065 74,222 77,929 82,358 90,133 99,334 109,141 118,498 124,342 129,561 135,807 140,17 149,449 EXERCÍCIOS 1 - Um pesquisador deseja verificar se há associação entre três cursos de uma universidade e dependência de drogas. Entrevistou 120 alunos, sendo 25 da Medicina, 35 de Farmácia e 60 de Biologia, perguntando sobre o uso de drogas, admitindo somente duas respostas: sim ou não. Após o processamento dos dados ficou com a seguinte tabela de distribuição de freqüências: Medicina Farmácia Biologia Total Usa droga 10 20 30 60 Não usa droga 15 15 30 60 Total 25 35 60 120 Usando o teste do qui-quadrado verificar se há associação entre o curso e o número de usurário de drogas aos níveis (a) 0,01 (b) 0,005. 2 - Exemplo: um pesquisador quer saber se a proporção de crianças acometidas por uma determinada doença é a mesma entre dois grupos de estudo (A e B). Estudou uma amostra com 28 casos, obtendo a seguinte distribuição de freqüências: GRUPO A GRUPO B SADIOS 6 7 ACOMETIDOS 6 9 Total 12 16 Testar a hipótese de que a proporção de crianças acometidas entre os dois grupos é igual, ao nível 0,05. 3 - Com o objetivo de investigar a associação entre história de bronquite na infância e presença de tosse diurna ou noturna em idades mais velhas, foram estudados 1.319 adolescentes com 14 anos. Destes, 273 apresentaram história de bronquite até os 5 anos de idade sendo que 26 apresentaram tosse diurna ou noturna aos 14 anos. Número de adolescentes segundo história de bronquite aos 5 anos e tosse diurna ou noturna aos 14 anos de idade. Local X, ano Y. TOSSE SIM NÃO TOTAL SIM 26 247 273 BRONQUITE NÃO 44 1002 1046 TOTAL 70 1249 1319 Holland, WW et al.. Long-term consequences of respiratory disease in infancy. Journal of Epidemiology and Community Health 1978; 32: 256-9. Verificar se há ou não uma associação entre bronquite e a tosse noturna ao nível 5% a partir das duas amostras. 4 - Sugere-se que comer algo muito quente e logo após ingerir algo frio (ou vice versa) expõe 57 os dentes a choque térmico. Um efeito do choque térmico em material vítreo é a indução a pequenas fissuras que podem acelerar rachaduras mecânicas. Em um experimento, 50 dentes extraídos, não obturados, foram expostos a choques térmicos. Outros 50 dentes foram submetidos a água fria mas não a água quente, evitando choque térmico. Observou-se que dos 50 dentes que foram expostos a choque, 21 quebraram. Entre os 50 dentes que não foram expostos a choque térmico, 11 quebraram. Estes resultados indicam associação entre choque térmico e resistência mecânica do dente, ao nível 1% e ao nível 5%? 5 - Investigue a existência de associação entre níveis de β-caroteno (mg/L) e hábito de fumar, em puérperas. (Lembre-se que a hipótese de associação é válida para níveis iguais ou inferior a 5%) β-caroteno (mg/L) Baixo (0 – 0,213) Normal (0,214 – 1,00) Total Fumante 56 22 78 Não fumante 84 68 152 Total 140 90 230 6 - Investigue a existência de associação entre níveis de β-caroteno (mg/L) e hábito de fumar, em puérperas. β-caroteno (mg/L) Baixo (0 – 0,213) Normal (0,214 – 1,00) Total Fumante 5 4 9 Não fumante 6 0 6 Total 11 4 15 7 - Investigue a existência de associação entre níveis de β-caroteno (mg/L) e hábito de fumar, em puérperas. β-caroteno (mg/L) Baixo (0 – 0,213) Normal (0,214 – 1,00) Total Fumante 5 4 9 Não fumante 6 2 8 Total 11 6 17 8 – Tome uma moeda e lance-a (I) 20 vezes, (II) 60 vezes. Para cada uma dos casos (a) Construa a tabela dos eventos cara e coroa. (b) Decida se a moeda é ou não honesta ao nível de 5% e ao nível de 1%. 9 – Escolhendo 30 alunos de sua sala divida-os em dois grupos, um com 20 alunos e outro com 10 alunos. Peça para cada um dos alunos para escrever em uma folha de papel um número variando de 1 a 5. (a) Construa a tabela de eventos. (b) Decida, ao nível de 5%, se há ou não uma associação entre os dois grupos. 10 – Aplique um teste de QI (quociente de inteligência) em três turmas de um mesmo curso. Decida se há alguma associação ou não entre o período e o grau de QI. 11 - Aplique um teste de QI (quociente de inteligência) em três turmas (mesmo período) de cursos diferentes. Decida se há alguma associação ou não entre o curso e o grau de QI. 12 – Pesquise se há ou não uma associação entre o curso escolhido e a renda familiar. Construa para isso um formulário e faça a pesquisa em todos os cursos (Campus Magnus). 13 – Pesquise se há ou não associação entre a escolha do curso e o gosto pela Matemática. Crédito: Alguns exercícios foram copiados com algumas modificações do site da UFMT/Instituto de Saúde Coletiva/USP/Faculdade de Saúde Pública – Programa PQI/CAPES. 58 CAPÍTULO 8 REGRESSÃO E CORRELAÇÃO 8.1 – INTRODUÇÃO Após uma coleta de dados referentes a duas ou mais variáveis para uma mesma amostra é comum tentar estabelecer uma relação matemática entre estas variáveis. A primeira providência para se determinar a relação é construir um gráfico em um sistema de coordenadas retangulares obtendo então o que normalmente é chamado de diagrama de dispersão. Pelo diagrama, muitas vezes, é possível visualizar a curva que se aproxima dos pontos da distribuição. Esta curva é denominada curva aproximadora. Tomando por exemplo as distribuições: (1) (2) 59 (3) (4) Podese notar que: em (1) não há previsão da curva aproximada; em (2) a curva aproximada é uma parábola (y = ax2 + bx + c); em (3) a curva aproximadora é uma reta ( y = ax + b) e em (4) a curva aproximadora é uma hipérbole (y = a/x + b). O processo de ajustamento de uma distribuição de variáveis a uma curva é denominada regressão. A relação matemática entre as variáveis pode ser obtida em função de x ou em função de y. A equação de y em função de x, y = f(x) é denominada equação de regressão de y sobre x e a equação de x em função de y, x = f(y) é denominada equação de regressão de x sobre y. É aconselhável obter as duas equações e verificar qual delas é a de melhor ajuste. As duas formas também são interessantes quando se deseja interpolar, isto é, dado um valor (fora da tabela) de x calcular o valor de y a ele associado ou quando dado um valor de y (fora da tabela) determinar um valor de x associado a ele. Tendo em vista os objetivos deste curso analisaremos apenas as regressão linear usando o método dos mínimos quadrados. Para um estudo mais amplo, veja o conteúdo de Cálculo Numérico contido no site http://www.cesariof.xpg.com.br . 8.2 – COEFICIENTE DE CORRELAÇÃO ENTRE DUAS VARIÁVEIS A avaliação quantitativa do ajuste das variáveis a equação de uma curva é denominada O coeficiente de correlação. Este coeficiente indica o grau em que as duas variáveis se ajustam segundo uma equação matemática. Definição: Sejam x e y duas variáveis pesquisadas e y = f(x) a equação ajustada ao conjunto de valores obtidos para x e y. Define-se o coeficiente de correlação R entre as duas variáveis por R= 60 (yesp – y.)2 (y – y.)2 Onde: (yesp – y.) – denomina-se variação explicada; (y – y.) – denomina-se variação total; yesp são os valores de y calculados a partir da relação matemática determinada para as duas variáveis, e y é a média dos valores tabelados para y. A expressão acima, pode também ser escrita na forma R2 = variação explicada variação total Os valores de R pertencem sempre ao intervalo [-1, 1]. Se R = 1 ou R = -1 as variáveis apresentam uma correlação perfeita. À medida que R se aproxima de 0 por valores menores ou maiores que zero, as variáveis não apresentam correlação. Entretanto, é bom não confundir correlação com dependência. Duas grandezas podem ter um ótimo grau de correlação (próximo de –1 ou de + 1) e não apresentar nenhuma dependência. Neste caso, a equação de regressão não tem nenhuma validade. Tomando por exemplo as variáveis X = eleitores que escolheram um candidato A e Y = eleitores fumantes selecionados em uma mesma amostra. A tabela amostral pode apresentar um alto grau de correlação, mas, provavelmente, as duas variáveis não apresentam nenhuma relação de dependência. 8.3 – COEFICIENTE DE CORRELAÇÃO LINEAR A definição do coeficiente de correlação apresentada no item anterior pode ser usada para qualquer curva de regressão. Entretanto, no seu uso, é necessário determinar a equação dessa curva antes de calcular o coeficiente. No caso específico de uma regressão linear, outras fórmulas podem ser usadas. Entre elas destacamos a fórmula de Pearson, que é dada por R= n.(xy) –(x).(y) [n. x2 – (x)2].[ny2 – (y)2] Onde n é o número de pares de observações. Os limites de r são –1 e +1, ou seja –1 r 1, isto é r pertence ao intervalo [-1, +1]. Se: r = +1, a correlação linear entre X e Y é perfeita positiva r = -1, a correlação linear entre X e Y é perfeita negativa. r = 0, não existe correlação linear entre X e Y. Geralmente se estabelece uma classificação para a intensidade da correlação linear, ou seja, qual é a qualidade do ajuste dos dados à reta de regressão. A classificação é assim constituída: 0 < | r | < 0,3, correlação muito fraca, provavelmente a relação matemática se afasta dos dados . 0,3 < | r | < 0,6 correlação relativamente fraca. 0,6 < | r | < 1 dados fortemente correlacionado. 61 A tabela a seguir mostra os dados coletados para as variáveis x e y bem como os elementos necessários para o cálculo do coeficiente de correlação linear. O valor do coeficiente de correlação linear é r = 0,999452. Como r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente correlacionada. Ou seja, a reta de regressão linear, terá declividade positiva e apresentará um bom ajuste ao conjunto de pontos da tabela. O coeficiente de correlação pode ser calculado facilmente no EXCEL e no STARCALC. Para o EXCEL, após digitar a tabela, clique em uma célula fora da área da tabela. Nesta célula digite =PEARSON( . A seguir posicione o mouse sobre o primeiro valor de x e, mantendo o botão do mouse pressionado, arraste o ponteiro até o último valor de x. Na célula deverá ser exibido =PEARSON(C1:C5 onde C1 é a célula contendo o primeiro valor de x e C5 a célula contendo o último valor de x. Observe que C1 e C5 deve variar de acordo com a localização dos valores de x. Digite à frente da fórmula o sinal de ponto e vírgula (;). Selecione os valores de y conforme feito para selecionar os valores de x. Complete a fórmula com o sinal que fecha parenteses. A célula deverá então exibir: =PEARSON(C1:C5;D1:D5) dependendo das células usadas na tabela. Pressione o botão ENTER. Na célula será exibido então o valor do coeficiente de correlação. O processo usado no STARCALC é semelhante. Substitua apenas o comando PEARSON pelo comando CORREL. 8.4 – REGRESSÃO LINEAR O processo de regressão linear consiste em determinar a equação da reta que melhor se ajusta ao conjunto de pontos de uma distribuição. No processo de regressão linear é aconselhável expressar (1) y em função de x obtendo uma equação do tipo y = ax + b. Neste caso, x é a variável independente e y é a variável dependente, isto é, y é estimado em função de x. A equação obtida é denominada equação de regressão de y sobre x. Usa-se essa equação quando se deseja obter valores de y que correspondem a valores de x não constantes da tabela (interpolação – valores no intervalo da tabela e extrapolação – valores fora do intervalo da tabela). (2) x em função de y obtendo uma equação do tipo x = cy + d. Para esta equação, y é a variável independente e x a variável dependente. Deve ser usada quando se quer determinar valores de x, quando são dados valores de y que não constam da tabela. A equação obtida é denominada equação de regressão de x sobre y. Pode-se demonstrar que a reta, y = ax + b, que melhor se ajusta a uma distribuição de valores x e y é tal que: a= n(xy) – (x)(y) n.x2 – (x)2 e 62 b= (y)(x2) – (x)(xy) n.x2 – (x)2 Para obter a equação de x em função de y, x = cy + d as expressão são semelhantes. Basta fazer trocar x por y e y por x nas expressões anteriores. EXEMPLO: Determinar a equação da reta que melhor se ajusta aos pontos da tabela: Completando a tabela com os valores necessários para os cálulos de a e de b, temos: Calculando a e b, sendo n = 8 = números de pares: a = (8*244,193 – 27,30*62,68)/(8*108,31 – 27,302) = 2 b = (62,68*108,31 – 27,30*244,193)/(8*108,31 – 27,302) = 1,01. Assim, a reta de regressão de y sobre x é y = 2x + 1,01. EXERCÍCIOS: 1 – A tabela mostra os notas de 10 alunos nas disciplinas Matemática e Física. (a) determine o coeficiente de correlação linear entre as notas de Matemática e Física e decida se há ou não uma correlação significativa entre elas. (b) estabela a equação de regressão de linear da disciplina Física sobre a disciplina Matemática. (c) estabela a equação de regressão de linear da disciplina Matemática sobre a disciplina Física. (d) Construa os gráficos (em linha), referentes às duas equações. Matemática (X) 5,0 8,0 7,0 10,0 6,0 7,0 9,0 3,0 8,0 2,0 Física (Y) 6,0 9,0 8,0 10,0 5,0 7,0 8,0 4,0 6,0 2,0 2 – A tabela mostra a resistência de ruptura (tensão) para colunas de mesma altura e áreas transversais diferentes. Área (cm2) 15 20 25 30 35 40 45 50 55 60 Resistência (Kg) 640 720 800 880 960 1040 63 1120 1200 1280 1360 (a) verificar se a correlação linear entre os valores tabelados é significativa. (b) estabela a equação de regressão de linear da resitência sobre a área. (c) estabela a equação de regressão de linear da área sobre a resistência. (d) Construa os gráficos (em linha), referentes às duas equações. 3 – Selecione 50 pessoas de diversas idades e aplique um teste de QI a estas pessoas. Verifique se correlação linear entre o grau de QI e a idade. Se o módulo do coeficiente de correlação estiver compreendido entre os valores 0,6 e 1, determine a equação de regressão linear que melhor se ajusta ao conjunto de valores. EXERCÍCIOS COMPLEMENTARES 1) (Werkema): Uma indústria fabricante de eletrodomésticos da chamada “linha branca” , tem como objetivo resolver o problema apresentado pelo elevado índice de refugo da gaveta de legumes de um modelo de refrigerador produzido pela empresa. A observação do problema indicou que a maior parte das gavetas refugadas era considerada defeituosa por apresentarem corte fora de esquadro. Os técnicos da empresa suspeitaram que a ocorrência do corte de gavetas fora de esquadro pudesse estar relacionada à variação de tensão na rede elétrica, que poderia prejudicar o desempenho do equipamento de corte. Para a verificação da validade desta hipótese, foram coletados dados sobre a tensão na rede elétrica (x) e a variação no corte (y), os quais estão apresentados na tabela abaixo. Nº OBS Tensão (Volts) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 222,7 217,7 219,4 220,9 214,4 216,5 213,0 221,7 224,7 215,5 220,0 218,6 223,5 217,0 221,5 218,4 213,6 Variação no Corte (mm) 15,7 17,0 16,3 16,1 18,6 17,8 19,5 16,0 15,3 18,3 16,3 16,7 15,7 17,4 16,1 16,8 19,3 Nº OBS Tensão (Volts) 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 221,2 219,9 222,2 213,9 216,0 218,1 222,0 224,1 214,9 214,2 223,3 216,7 215,3 223,8 220,6 215,8 217,3 219,2 64 Variação no Corte (mm) 16,2 16,2 15,9 19,1 18,0 17,0 16,0 15,4 18,6 18,7 15,6 17,6 18,5 15,5 16,1 18,2 17,3 16,5 Verifique a existÊncia de correlação e identifique se possível através da regressão linear uma equação de forma que a tensão na rede elétrica explique a variação no corte. 2) Uma indústria produz grandes quantidades de alumina (Al2O3 de elevado teor de pureza) para a fabricação de alumínio metálico. A matéria prima para a fabricação da alumina é a bauxita, um mineral com cerca de 55% de óxido de alumínio (Al 2O3). No processo de produção da alumina, o teor da Na2O (óxido de sódio) incluído no produto é um fator importante do ponto de vista da qualidade da alumina fabricada. O Na 2O é uma impureza, e portanto é desejável que o seu teor na alumina seja o mais baixo possível. Com o objetivo de minimizar o teor da Na2O incluído no produto durante a etapa de precipitação, um dos estágios do processo de produção da alumina, a indústria iniciou trabalhos para melhoria. Os técnicos da empresa sabiam que a razão Al 2O3 / NaOH era um dos fatores responsáveis pelas variações no teor de Na2O da alumina. Nesta razão, o símbolo Al 2O3 está representando a massa de óxido de alumínio proveniente da bauxita que entra no processo de produção, e o símbolo NaOH se refere à massa de hidróxido de sódio, um dos reagentes do processo, que é empregada na fabricação de alumina. Durante a etapa de observação do problema, para se conhecer melhor a relação entre estas duas variáveis (variável resposta: Na2O e variável preditora: Al2O3 / NaOH), os técnicos da indústria coletaram os dados apresentados na tabela abaixo. A partir destes dados, avaliar a relação linear entre essas duas variáveis. Tabela: Teor de Na2O incluído na Alumina em Função da Razão Al 2O3 / NaOH Índice Razão Al2O3 / NaOH 1 0,645 Teor Na2O Índice Razão (%) Al2O3 / NaOH 0,46 14 0,635 Teor Na2O (%) 2 0,643 0,46 15 0,64 0,41 3 0,648 0,45 16 0,646 0,43 4 0,639 0,44 17 0,636 0,41 5 0,641 0,45 18 0,639 0,4 6 0,648 0,47 19 0,634 0,39 7 0,635 0,42 20 0,636 0,38 8 0,646 0,47 21 0,643 0,4 9 0,646 0,45 22 0,647 0,43 10 0,643 0,44 23 0,637 0,42 11 0,641 0,4 24 0,631 0,37 12 0,643 0,42 25 0,633 0,41 13 0,637 0,42 0,42 3) Uma empresa localizada na cidade de São Paulo, produtora de pneumáticos, possui uma rede distribuidora por todo o interior do Estado. Realizou um estudo para determinar qual a função que ligava o preço do produto e a distância do mercado consumidor da cidade de São Paulo. Os dados são os seguintes: Preço Distânci a (Km) 36 50 48 50 70 42 58 91 69 240 150 350 100 175 485 335 (a) Calcule o coeficiente de correlação; (b) Estimar a reta de regressão; (c) Calcule um intervalo de confiança para o preço quando a distância é 250Km. (d) A empresa tem uma filial no Rio de Janeiro e o preço de venda do pneumático lá produzido, na cidade B, é de R$160,00. Sabendo-se que a distância entre São Paulo e a cidade B é de 250 km, pergunta-se qual produto deve ser vendido: o produzido no Rio de Janeiro ou o fabricado em São Paulo. 65 4) Suponhamos que uma cadeia de supermercados tenha financiado um estudo dos gastos com mercadoria para famílias de 4 pessoas. A investigação se limitou a famílias com renda líquida entre $8.000 e $20.000. Obteve-se a seguinte equação: Y = -200 + 0,10X onde: Y = despesa anual estimada com mercadorias X = renda líquida anual Suponha que a equação proporcione um ajustamento razoavelmente bom . a) estime a despesa de uma família de quatro com renda de $15.000. Resp.: 1.300,00 b) um dos vice-presidente da firma ficou intrigado com o fato de a equação aparentemente sugerir que uma família com $2.000 de renda não gaste nada em mercadorias. Qual a explicação? 5) Os dados a seguir dão um custo líquido por real de prêmio (Y) e o tempo de apólice em meses (X). X 8 57 14 66 Y 1,26 0,61 1,11 0,67 X 29 45 70 55 Y 1,15 0,88 0,58 0,70 X 24 39 40 47 Y 1,14 0,99 0,74 0,81 (a) Analise a correlação entre as variáveis; (b) Analise a correlação pelo método visual; (c) Estimar e plotar a reta de regressão; (d) Estime o custo líquido por real de prêmio para um tempo de 50 anos. 6) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A: X Y 11 13 14 14 19 18 19 15 22 22 18 17 30 24 31 22 34 24 37 25 (a) Verifique pelo diagrama, se existe correlação retilínea. (b) Em caso afirmativo, calcule o coeficiente de correlação. (c) Escreva, em poucas linhas, as conclusões a que chegou sobre a relação entre essas variáveis. 7) A tabela abaixo apresenta a produção de uma indústria: ANOS 1980 1981 1982 1983 1984 QT(ton) 34 36 36 38 41 ANOS 1985 1986 1987 1988 - QT(ton) 41 42 43 44 - Calcule: a) O coeficiente de correlação; b) A reta ajustada; 8) A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura: Temperatura (°C) Comprimento (mm) 10 1003 15 1005 20 1010 25 1011 30 1014 Determine: (a) O coeficiente de correlação; (b) A reta ajustada a essa correlação; (c) O valor estimado do comprimento da barra para a temperatura de 18°C; (d) O valor estimado do comprimento da barra para a temperatura de 35°C. 9) A tabela abaixo apresenta os pesos respectivos, X e Y, de uma amostra de 12 pais e de seus filhos mais velhos. (a) construir um diagrama de dispersão; (b) Determinar e traçar a equação da reta de X para Y; 66 (c) Determinar e traçar a equação da reta de Y para X; Peso X dos pais (Kg) 65 63 67 64 68 62 70 66 68 67 69 71 Peso Y dos filhos (kg) 68 66 68 65 69 66 68 65 71 67 68 70 Crédito: ASPER – Associação Paraibana de Ensino Superior - Professora: Cristiana Vidal Accioly ANEXO I TESTE DE QI (I) (1) Este teste pode ser aplicado em computador (Site – http://www.cesariof.xpg.com.br). Neste caso, as pontuações serão obtidas automaticamente. (2) Para aplicação em formulário de papel, imprima o teste mas não imprima a classificação e a distribuição de pontos de modo a não alertar o examinando. 1. Que objeto não pertence a este grupo? ( ) Satélite ( ) Sol ( ) Planeta ( ) Cometa ( ) Asteróide 2. Um frasco contém um casal de melgas. As melgas reproduzem-se e o seu número dobra todos os dias. Em 50 dias o frasco está cheio, em que dia o frasco esteve meio cheio? ( ) 25 ( ) 24 ( ) 26 ( ) 49 3. Que palavra é o oposto de ACORDADO? ( ) Sonhando ( ) Descansado ( ) Adormecido ( ) Relaxado ( ) Cansado 4. Se alguns Amerdis são Mailotes e alguns Mailotes são Perdalocos, então, algum Amerdis são definitivamente Perdalocos. ESTA ORAÇÃO É LOGICAMENTE: ( ) Verdadeira ( ) Falsa ( ) Nem uma coisa nem outra 5. Usando três cores diferentes é possível colorir os lados de um cubo de forma que dois lados da mesma côr nunca se toquem? ( ) Verdadeiro ( ) Falso 6. Se reorganizar as letras "TBREUEI", obterá o nome de um: ( ) Oceano ( ) País ( ) Estado ( ) Cidade ( ) Animal 7. João é mais alto que o Pedro, e o Bernardo é menor que o João. Qual das declarações seguintes será a mais precisa? ( ) o Bernardo é mais alto que o Pedro. ( ) o Bernardo é mais baixo que o Pedro. ( ) o Bernardo é tão alto quanto o Pedro. ( ) é impossível saber se o Bernardo ou o Pedro é mais alto. 8. Madalena tinha vários biscoitos. Depois de comer um, deu metade do que restou para a irmã. Depois de comer outro biscoito, deu a metade do que restou ao irmão. Agora só lhe restam cinco biscoitos. Com quantos biscoitos começou ela? 67 ( ) 11 ( ) 22 ( ) 23 ( ) 45 ( ) 46 9. Num concurso de saltos, Octávio foi, simultaneamente, o 13º melhor e 13º pior. Quantas pessoas estavam em competição? ( ) 13 ( ) 25 ( ) 26 ( ) 27 ( ) 28 10. Que objeto não pertence a este grupo? ( ) Castelo ( ) Espada ( ) Fortaleza ( ) Capacete ( ) Proteção 11. Se algumas vacas tiverem chifres. E todos os porcos comerem animais com chifres. Quais das seguintes afirmações podem ser verdade: ( ) Todas as vacas seriam comidas por porcos. ( ) Todos os porcos seriam comidos por vacas. ( ) Algumas vacas seriam comidas por porcos. ( ) Nenhuma das anteriores. 12. Se o Catarino, ao ver-se ao espelho, tocar a sua orelha esquerda, a imagem do Catarino toca também na orelha certa. ( ) Verdadeiro ( ) Falso 13. Bernardino é mais alto que Joaquim. Renato é mais baixo que o Bernardino. Então, Joaquim é o mais alto dos três. ( ) Verdadeiro ( ) Falso 14. Se todos os machos são verdes, e todas as fêmeas forem vermelhas... ( ) Todos os meninos são rosas ( ) Todas as meninas são laranja ( ) Todos os meninos são verdes ( ) Todas as meninas são verdes 15. Um avião com 100 pessoas a bordo caiu junto à fronteira de Espanha. A cabine da primeira classe caiu na Espanha e a cabine principal caiu no lado português. Que país têm a obrigação de enterrar os 18 sobreviventes portugueses que viajavam na primeira classe? ( ) Portugal ( ) Espanha ( ) Nenhum ( ) O país onde está registrado o avião 16. Se dois mecanógrafos podem digitar duas páginas em dois minutos, quantos mecanógrafos serão necessários para digitar 18 páginas em seis minutos? ( ) 3 ( ) 4 ( ) 6 ( ) 12 ( ) 36 17. Pêra está para maçã como batata está para: ( ) Banana ( ) Rabanete ( ) Morango ( ) Pêssego ( ) Alface 18. Os cães verdes são animais verdadeiros. Todos os animais verdadeiros precisam de comida. Significando: ( ) O meu cão é verde porque precisa de comida. ( ) Cães todos verdes precisam de comida. ( ) Certos cães verdes não precisam de comida. ( ) Alguns cães verdes não são animais verdadeiros. de 155 a 161 - Gênio de 135 a 154 - Muitíssimo inteligente de 110 a 135 - Muito inteligente 71 a 109 - Média menos de 70 - Abaixo da média. 68 Pontos atribuídos aos itens: 1 – 5; 2 – 12; 3 – 7; 4 – 9; 5 – 12; 6 – 6; 7 – 9; 8 – 8; 9 – 8; 10 – 7; 11 – 11; 12 – 10; 13 – 10; 14 – 14; 15 – 5; 16 – 13; 17 – 4; 18 – 11. 69