ESTATÍSTICA MATERIAL DE APOIO SOBRAL–CE 2 EMENTA: CONCEITOS BÁSICOS DE INFERÊNCIA E ANÁLISE ESTATÍSTICA E DE MÉTODOS INDISPENSÁVEIS INTERPRETAÇÃO DE PARA DADOS LEVANTAMENTO, ESTATÍSTICOS DE LEITURA E PESQUISA; APRESENTAÇÃO TABULAR E GRÁFICA DOS DADOS; MEDIDAS DE POSIÇÕES E DISPERSÃO; PROBABILIDADE EM ESPAÇOS AMOSTRAIS DISCRETOS; PROBABILIDADE INDEPENDENTES; VARIÁVEIS CONDICIONAL ALEATÓRIAS; E EVENTOS DISTRIBUIÇÃO PROBABILIDADE; BINOMINAL; NORMAL E T DE STUDENT; DE 3 SUMÁRIO 1 CONCEITOS BÁSICOS ........................................................................................... 04 2 POPULAÇÃO E AMOSTRA ................................................................................... 06 3 APRESENTAÇÃO TABULAR ................................................................................ 09 4 GRÁFICOS ESTATÍSTICOS ................................................................................... 14 5 DISTRIBUIÇÃO DE FREQÜÊNCIA....................................................................... 16 6 MEDIDAS DE POSIÇÃO ......................................................................................... 27 7 MEDIDAS DE DISPERSÃO .................................................................................... 31 8 PROBABILIDADE EM ESPAÇOS AMOSTRAIS DISCRETOS ........................... 35 9 PROBABILIDADE CONDICIONAL E EVENTOS INDEPENDENTES .............. 37 10 VARIÁVEIS ALEATÓRIAS .................................................................................... 40 11 DISTRIBUIÇÃO DE PROBABILIDADE ................................................................ 42 12 EXERCÍCIOS ............................................................................................................ 58 13 REFERÊNCIAS BIBLIOGRÁFICAS ...................................................................... 68 4 1 CONCEITOS BÁSICOS Método estatístico: método que admite todas as causas presentes variando-as, dada a impossibilidade de manter as causas constantes, registrando estas variações e procurando determinar que influências cabem a cada uma delas. Estatística: a estatística é a parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões. 1.1 Planejamento A primeira etapa consiste em planejar o modo como serão realizadas as fazes seguintes, determinando o objetivo da pesquisa e os métodos que serão utilizados. Nesta etapa são definidos os objetivos, as características da amostra, o método de aquisição e de processamento de dados. 1.1 Coleta de dados Coleta indireta A coleta direta de dados é quando os dados são obtidos pelo próprio pesquisador através de levantamento de registros (nascimentos, óbitos, notas fiscal, impostos, etc.) ou coletados diretamente através de inquéritos, questionários, etc. A coleta direta pode ser classificada quanto ao fator tempo como: _ Contínua: quando feita de forma continuada, como registro de nascimentos e óbitos, frequência de alunos às aulas, etc. _ Periódica: quanto feita em intervalos constantes de tempo, como censos (10 em 10 anos), avaliações mensais dos alunos, etc. _ Ocasional: quanto feitas em determinada situação para atender a um objetivo, como pesquisa de mortalidade de um rebanho, pesquisa de um produto no mercado, etc. 5 Coleta indireta A coleta indireta é inferida de elementos conhecidos, através de uma coleta direta, ou do conhecimento de fenômenos relacionados ao fenômeno estudado. Por exemplo, pesquisa sobre mortalidade infantil que é feita sobre a coleta direta de dados de nascimentos e óbitos. 1.2 Crítica dos dados Os dados obtidos devem ser criticados à procura de falhas sistemáticas no planejamento, aquisição e armazenamento dos dados. 1.3 Apuração dos dados É a etapa de soma e processamento dos dados obtidos mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica. 1.4 Exposição ou apresentação dos dados Os dados sempre devem ser apresentados de forma adequada, seja através de tabelas ou gráficos, seguindo os critérios determinados no planejamento e utilizados no processamento dos dados. A exposição dos dados tem o objetivo de facilitar a análise daquilo que é objeto do estudo estatístico. 1.5 Análise A última etapa do processo estatístico consiste em tirar conclusões sobre os dados levantados e processados, inferindo conclusões sobre o todo (população) a partir de dados coletados de uma parte representativa da população (amostra) 6 2 POPULAÇÃO E AMOSTRA 2.1 Variáveis Variável é o conjunto de resultados possíveis de um fenômeno. As variáveis que podem ser: _ qualitativa: quando seus valores são expressos por atributos, de forma não numérica. Por exemplo sexo (M ou F), cor da pele (branca, preta, amarela, ...), etc. _ quantitativa: quando seus valores são expressos por números. Por exemplo, idade, salário, volume, etc. As variáveis quantitativas ainda são classificadas como: – discreta: quando os seus valores podem ser enumerados. Ex. de contagem: do número de pessoas numa sala (1, 2, 3, : : :) – contínua: quando os seus valores podem ser qualquer um num intervalo. Ex. de medições: volume de uma caixa d’agua (1 m3, 1,1 m3, 1,01 m3, : : :) 2.2 População e amostra População e amostra referem-se ao conjunto de entes cujas propriedades desejamos averiguar. População estatística ou universo estatístico é o conjunto de entes portadores de pelo menos uma característica em comum. Por exemplo, os estudantes constituem uma população com uma característica em comum: são os que estudam. Muitas vezes, por motivos práticos ou econômicos, limitam-se os estudos estatísticos somente a uma parte da população, a amostra. A amostra é um subconjunto finito de uma população. Como toda análise estatística será inferida a partir das características obtidas da amostra, é importante que a amostra seja representativa da população, isto é, que as suas características de uma parte (amostra) sejam em geral as mesmas que do todo (população). 7 2.3 Amostragem Amostragem é a técnica especial de escolher amostras que garanta o acaso na escolha. Assim cada elemento da população tem a mesma chance de ser escolhido, o que garante à amostra um caráter de representatividade da população. 2.2.1 Amostragem casual ou aleatória simples Este tipo de amostragem é baseado no sorteio da amostra. Numera-se a população de 1 a n e depois, utilizando um dispositivo aleatório qualquer, escolhem-se k números desta sequência, que corresponderão aos elementos da amostra. EXEMPLO: pesquisa da estatura de uma escola com 90 alunos (população: 90 alunos) usando uma amostra de 10% da população: 1. Numeram-se os alunos de 1 a 90; 2. Sorteiam-se 9 números (10% de 90) usando algum mecanismo aleatório ou através de uma Tabela de Números Aleatórios (veja o Apêndice D). Por exemplo, escolhendo-se a 5a linha da tabela do Apêndice D, tem-se: 14 35 30 19 66 27 77 45 38 3. Os alunos numerados de acordo com a lista acima são escolhidos e tomados os valores das suas estaturas, obtendo assim uma amostra da população dos 90 alunos. 2.2.2 Amostragem proporcional estratificada Quando a população se divide em sub-populações – estratos – é necessário utilizar um amostragem proporcional estratificada, que considera os estratos (subgrupos) e obtém a amostragem proporcional a estes. EXEMPLO: Suponha que no exemplo anterior, dos noventa alunos, 54 sejam meninos e 36 sejam meninas. Neste caso precisamos obter a amostra estratificada. Serão dois estratos (sexo masculino e sexo feminino) e queremos uma amostra de 10% da população. Assim, 8 1. Definimos a amostra em estratos: 2. Numeram-se os alunos de 1 a 90 sendo que 1 a 54 correspondem a meninos e de 55 a 90, a meninas. Tomando a 2a coluna, de cima para baixo, tem-se: 56 05 46 74 90 17 75 63 31. 3. Neste caso serão obtidas as características dos seguintes alunos: 56 05 46 74 90 – meninos 17 75 63 31 – meninas. 2.2.3 Amostragem sistemática Quando os elementos da população já estão ordenados, não é necessário construir um sistema de referência ou de amostragem. Neste caso a amostragem é sistemática. EXEMPLO: Suponha uma rua que tenha 500 prédios e desejamos obter uma amostra de 40 prédios (8%). Como os prédios já estão ordenados na rua, podemos usar o seguinte procedimento: 1. Como 500/40 = 12,5, então temos de selecionar um prédio para a amostra a cada 12. 2. Sorteamos um número entre 1 e 12 inclusive, digamos que seja 5. 9 3. Vamos amostrando os prédios iniciando pelo 5° e pulando de 12 em 12. Assim, iniciamos pelo prédio 5, depois usamos o prédio 12+5, depois 12+12+5, e assim por diante. 4. No final teremos amostrado os 40 prédios. 3 APRESENTAÇÃO TABULAR 3.1 Tabelas A tabela é um quadro que resume um conjunto de observações. Compõe-se de: _ corpo: linhas e colunas que contém os valores das variáveis em estudo. _ cabeçalho: parte superior que especifica o conteúdo das colunas. _ coluna indicadora: coluna que indica o conteúdo das linhas. _ casa ou célula: espaço destinado a uma só informação. _ título: conjunto de informações sobre a tabela (O quê? Quando? Onde?) localizada no topo da tabela. EXEMPLO: 10 Normas para células _ usar um traço horizontal (—) quando o valor é nulo quanto à natureza das coisas ou resultado do inquérito. _ três pontos (: : :) quando não temos dados. _ um ponto de interrogação (?) quando temos dúvida quanto à exatidão do valor. _ zero (0; 0,0; 0,00) quando o valor é muito pequeno para ser expresso pela grandeza utilizada. 3.2 Séries históricas, cronológicas, temporais ou marchas Descrevem os valores da variável, em determinado local, discriminados segundo intervalos de tempo variáveis. EXEMPLO: 3.3 Séries conjugadas – tabela de dupla entrada Constituem-se da conjugação de uma ou mais séries. EXEMPLO: Podemos ter a conjugação de uma série geográfica com uma série histórica. 11 3.4 Distribuição de frequência São dados agrupados de acordo com intervalos de valores das variáveis. EXEMPLO: 3.5 Dados absolutos e dados relativos Dados absolutos são aqueles resultantes da coleta direta da fonte, sem outra manipulação senão contagem ou medida. Os dados relativos são resultados de especificações por quociente (razões) para facilitar a compreensão entre as quantidades. 12 3.5.1 Porcentagem Os dados relativos são especificados como uma razão relativa ao total, que equivale a uma centena (100) ou uma unidade (1). EXEMPLO: Total do rebanho: 1456 (100%) Bovinos: 860/1456 = 0,59 (59%) Ovinos: 354/1456 = 0,243 (24%) Caprinos: 30/1456 = 0,02 (2%) Suínos: 212/1456 = 0,1456 (15%) RELATIVO A 100: RELATIVO A 1: 13 3.5.2 Índices Os índices são razões entre duas grandezas tais que uma não inclui a outra. EXEMPLO: 3.5.3 Coeficientes Os coeficientes são razões entre o número de ocorrências e o número total (ocorrências e não ocorrências). EXEMPLO: 14 3.5.4 Taxas As taxas são os coeficientes multiplicados por uma potência de 10 (10, 100, 1000, ...) para tornar o resultado mais legível. EXEMPLO: Taxa de mortalidade = coeficiente de mortalidade x 1000 4 GRÁFICOS ESTATÍSTICOS O gráfico estatístico é uma forma de apresentação dos dados estatísticos cujo objetivo é o de produzir uma impressão mais rápida e viva do fenômeno em estudo. A seguir são apresentados vários tipos de gráficos baseados na mesma série estatística apresentada na tabela abaixo. 4.1 Gráficos em linha ou curva Este tipo de gráfico usa uma linha poligonal para representar a série estatística. Para ficar mais claro pode ser hachurado (preenchido). 15 4.2 Gráficos em colunas ou em barras Este tipo de gráfico usa colunas para representar a série estatística. Podem ser verticais ou horizontais e conter barras múltiplas. 4.3 Gráfico em setores É o tipo de gráfico construído com base num círculo. É útil para representar frações em relação ao total. 16 5 DISTRIBUIÇÃO DE FREQUÊNCIA 5.1 Tabela Primitiva e Rol A tabela em que os elementos não foram organizados numericamente chama-se tabela primitiva. Por exemplo, considere o levantamento de dados da estatura de 40 alunos da escola A (variável x), cujos resultados, em centímetros, mostrados na tabela a seguir, estão colocados na sequência como foram obtidos. O primeiro passo para a organização dos dados é ordená-los de forma crescente ou decrescente. A tabela assim organizada recebe o nome de rol. 17 A simples organização dos dados em um rol de ordem crescente já permite determinar diretamente o menor valor (x = 150 cm), o maior valor (x = 173 cm), o valor que mais ocorre (x = 160 cm), e a amplitude da variação (a distância entre o maior e o menor, ∆x = 173-150 = 23 cm). 5.2 Distribuição de Frequência Uma maneira mais concisa de mostrar os dados do rol é apresentar cada um seguido pelo número de vezes que ocorre, ao invés de repetí-los. O número de ocorrências de um determinado valor recebe o nome de frequência. Por exemplo, a estatura de 155 cm ocorre 4 vezes que se escreve f(155) = 4; a estatura de 150 ocorre 1 vez ou f(150) = 1. A tabela que contém todos os valores com a sua frequência recebe o nome de distribuição de frequência. Veja abaixo uma distribuição de frequência construída a partir do rol anterior (separada em 3 partes): 18 Ainda assim, o processo exige muito espaço em especial quando o número de valores da variável (n) aumenta. O mais razoável nestes casos, em especial quando a variável é contínua, é agrupar os valores por intervalos. Deste modo, ao invés de listar cada um dos valores que ocorrem, listam-se os intervalos de valores e a frequência correspondente, isto é, ao invés de colocar 1 aluno com 150 cm, 1 aluno com 151 cm, etc., coloca-se 4 alunos entre 150 e 154 cm. Este intervalo é escrito como 150 a 154 que corresponde a 150 ≤ x < 154 (a variável pode estar desde 150 inclusive até 154 exclusive), portanto valores 150, 150.1, 151, 152, 153, 153.5, 153.99 estariam neste intervalo, mas 154 não. Definindo o rol de acordo com intervalos, tem-se a seguinte tabela: Procedendo desta forma perde-se a informação detalhada das estaturas, mas se ganha em simplicidade, pois a análise dos dados fica simplificada. Examinando a tabela acima, podemos facilmente verificar que a maioria dos alunos tem estaturas entre 154 e 166 cm e que uma minoria é menor que 154 cm ou maior que 170. Esta análise não é imediata da tabela em que todos os valores são listados. Por outro lado, se desejarmos saber quantos alunos tem 150 cm de altura, esta informação não estará disponível pois somamos os alunos de 150, 151, 152 e 153 cm numa única classe da distribuição de frequência. 19 Frequentemente procedemos desta forma numa análise estatística, pois o objetivo da estatística é justamente fazer o apanhado geral das características de um conjunto de dados, desinteressando-se por casos particulares. 5.3 Elementos de uma Distribuição de Frequência 5.3.1 Classe As classes são intervalos de variação de uma variável. As classes são representadas simbolicamente por i, sendo i = 1; 2; : : : ; k, onde k é o número total de classes. O número total de valores é simbolizado por n. Assim, no exemplo, o intervalo 154 a 158 define a segunda classe (i = 2), o intervalo 166 a 170 define a quinta classe (i = 5) e assim por diante. Como a distribuição tem seis classes, logo k = 6. A variável x assume 40 valores, logo n = 40. 5.3.2 Limites de Classe Os limites de classe são os extremos de cada classe. Para uma determinada classe i, o limite inferior é simbolizado por li e o limite superior por Li. O limite inferior da segunda classe é escrito como l2 = 154, enquanto o limite superior da segunda classe é escrito como L2 = 158. De acordo com o IBGE1 as classes devem ser escritas como desta quantidade até menor que aquela, usando para isso o símbolo a . Assim, li a Li significa inclusão de li e exclusão de Li. O indivíduo com estatura 158 cm estaria na terceira classe (i = 3) e não na segunda. 5.3.3 Intervalo de Classe A amplitude de um intervalo de classe ou simplesmente intervalo de classe é o tamanho do intervalo que define a classe. O intervalo da classe i é simbolizado por hi e é obtido pela diferença entre os seus limites: 20 No exemplo que usamos, o tamanho do intervalo da segunda classe (h2) vale Todos as outras classes do exemplo também tem intervalo de 4 cm, pois este é o intervalo entre cada um dos limites inferiores e os limites superiores correspondentes. 5.3.4 Amplitude Total da Distribuição A amplitude total da distribuição (AT) é o intervalo total compreendido por todas as classes da distribuição, isto é, desde o limite inferior da primeira classe (l1) até o limite superior da última classe (Lk). Matematicamente, escrevemos isso como Ainda no nosso exemplo, temos seis classes (k = 6). O limite superior da última classe (i = 6) vale L6 = 174, enquanto o limite inferior da primeira classe (i = 1) vale l1 = 150. Portanto, Numa distribuição em que as classes que possuem o mesmo intervalo, a amplitude total pode ser escrita como o intervalo de classe multiplicado pelo número de Classes 5.3.5 Amplitude Amostral A amplitude amostral (AA) é o intervalo entre o maior valor (máx(x)) e o menor valor (mín(x)) dos dados da amostra: 21 No exemplo a maior estatura é 173 e a menor 150, logo AA = 173 - 150 = 23 cm. 5.3.6 Ponto Médio de uma Classe O ponto médio de uma classe é o ponto que divide a classe ao meio. O ponto médio da classe i é simbolizado por xi e calculado efetuando-se a média entre os limites da classe: No nosso exemplo, o ponto médio da segunda classe é O ponto médio de uma classe é o valor representativo da classe. 5.3.7 Frequência Simples ou Absoluta A frequência simples ou frequência absoluta ou simplesmente frequência de uma classe ou de um valor individual é o número de vezes que o valor ocorre numa amostra. A frequência da classe i é representada por fi. Assim, no exemplo temos A soma de todas as frequências é representada pelo símbolo de somatório , significa a soma dos fi sendo que i vai desde 1 até k. Pode-se entender que a soma de todas as frequências é igual ao número total de valores na amostra: 22 Quando não há dúvidas, podemos escrever simplesmente: No nosso exemplo, escrever é como escrever , ou seja: Neste ponto podemos reescrever a distribuição de frequência com a seguinte representação técnica da tabela: 5.4 Determinação do Número de Classes e Intervalos de Classe Quando dispomos de uma tabela primitiva ou de um rol, precisamos estabelecer a quantidade e o intervalo das classes que vamos criar, de outro modo a distribuição de frequência pode não ser útil para a nossa análise. 23 Uma das maneiras de determinar o número de classes é usando a Regra de Sturges que determina k em função de n: onde k é o número de classes e n o número de dados. Da mesma forma podemos usar outra regra que associa k e n de outra forma: No nosso exemplo, usando a Regra de Sturges , utilizamos 6 classes. Com a outra regra, temos temos portanto , cujo resultado para o número de classes é o mesmo. Sabendo o número de classes (k) que vamos usar, podemos determinar o intervalo de classes através da amplitude total da distribuição (AT). Nas equações acima foi usado o símbolo de aproximadamente (≈) ao invés de igualdade (=) porque estas fórmulas representam valores típicos a serem usados, mas que podem ser alterados ligeiramente de acordo com o objetivo da distribuição ou para evitar classes com frequências nulas enquanto outras têm valores muito altos. Com relação ao intervalo de classe, lembre-se que a amplitude total (AT) deve ser ligeiramente maior que a amplitude amostral (AA) para que a distribuição tenha intervalos para incluir todos os valores da amostra. 24 5.5 Tipos de Frequências 5.5.1 Frequências Simples ou Absoluta Frequências simples ou absoluta (fi) são os valores que diretamente representam o número de dados de cada classe. A soma de todas as ocorrências em cada classe é igual ao número total de dados: 5.5.2 Frequências Relativas Frequências relativas (fri) são as razões entre as frequências simples (fi) e a frequência total (n): A frequência relativa de uma classe mostra a parcela que aquela classe representa da amostra. Assim, a frequência relativa da terceira classe do nosso exemplo é: então a terceira classe corresponde a uma fração de 0.275 do total ou 27.5 %. 5.5.3 Frequência Acumulada Frequência acumulada (Fi) é a soma das frequências simples de todas as classes com intervalos inferiores a uma determinada classe: 25 Assim, ainda no exemplo dos alunos, a frequência acumulada correspondente à terceira classe é que significa que existem 24 alunos com estatura inferior a 162 cm (limite superior da terceira classe). 5.5.4 Frequência Acumulada Relativa Frequência acumulada relativa (Fri) é a frequência acumulada da classe dividida pela frequência total da distribuição: Logo, para a terceira classe, temos: que significa que a fração de 0.6 alunos (ou 60%) tem estaturas inferiores à 162 cm (limite superior da terceira classe). A tabela completa do nosso exemplo fica assim: 26 Examinando a tabela, vemos, por exemplo, que a terceira classe corresponde a maior fração de alunos (fr3 = 0,275), isto é, a maioria dos alunos tem estatura entre 158 cm (inclusive) e 162 cm (exclusive). Também é possível ver que 80% dos alunos têm estatura inferior a 166 cm, pois a frequência acumulada até a quarta classe (L4 = 166) é 0.800 que corresponde a 80%. 5.6 Representações Gráficas de uma Distribuição 5.6.1 Histograma O histograma é formado por um conjunto de retângulos justapostos cujas bases se localizam sobre o eixo horizontal, de tal modo que os seus pontos médios coincidam com os pontos médios dos intervalos de classe e seus limites coincidam com os limites da classe. Um histograma para a frequência simples é mostrado abaixo: 27 6 MEDIDAS DE POSIÇÃO 6.1 Média Aritmética A média aritmética, simbolizada por x , é o quociente entre a soma dos valores de uma variável pelo número de valores Média simples – dados não agrupados: Média ponderada – dados agrupados: 28 Desvio da média – a diferença entre o valore e a média: 6.1.1 Propriedades Desvios A soma dos desvios é nula: Constante aditiva Somando uma constante C a todos os valores de uma variável, a média do conjunto fica aumentada desta constante2: Constante multiplicativa Multiplicando uma constante C a todos os valores de uma variável, a média do conjunto fica multiplicada desta constante3: 29 30 6.2 Moda A moda (Mo) é o valor que ocorre com mais frequência na distribuição. Quando os dados estão agrupados em classes, a moda corresponde a frequência simples mais alta e o valor da moda é tomado como o ponto médio do intervalo da classe. Se os limites inferior e superior da classe mais frequente são , a moda . será 6.3 Mediana A mediana ou valor mediano (Md) é o valor que divide a série ordenada em dois conjuntos com o mesmo número de valores. Se a série tem um número ímpar de valores, a mediana é o valor que está no meio (ponto mediano) da série. Se a série tem um número par de valores, então utiliza-se como mediana o valor médio entre os dois valores que estão no meio da série. 31 6.4 Posição relativa da média, mediana e moda No caso de uma distribuição simétrica (caso (a) na figura abaixo), as média, a mediana e a moda tem o mesmo valor. Entretanto, se a distribuição apresenta alguma tendência para valores positivos ou negativos, as medidas de posição poderão diferir. No caso de uma distribuição assimétrica positiva (caso b abaixo) tem-se que . No caso de uma distribuição assimétrica negativa, tem-se que . 7 MEDIDAS DE DISPERSÃO 7.1 Variância e desvio padrão Para determinar a dispersão de uma série de medidas poder-se-ia usar a soma de todos os desvios dos valores com relação a média dividido pelo número de valores, assim obtendo uma média dos desvios. Entretanto, como esta soma é nula , usa-se a soma dos desvios ao quadrado, pois elevando-se ao quadrado, perde-se a informação do sinal. Deste modo, define-se a variância como Além disso, como a variância é uma medida que envolve o quadrado das quantidades, é comum usar a raiz quadrada da variância, chamado de desvio padrão: 32 que em algumas situações evita arredondamentos usados nas outras equações produzindo resultados mais precisos. EXEMPLO: 33 7.2 Interpretação do desvio padrão O desvio padrão indica a dispersão dos dados dentro da amostra, isto é, o quanto os dados em geral diferem da média. Quanto menor o desvio padrão, mais parecidos são os valores da série estatística. Nos exemplos acima, nota-se que tanto a série xi quanto yi têm o mesmo número de dados e ambas tem a mesma média, entretanto o desvio padrão de xi é bem maior que de yi, que indica que os dados em xi estão mais afastados da média que em yi. De fato, se examinamos as séries, vemos que em xi há valores que estão até 3 unidades afastadas da média (7 e 13), enquanto na série yi o maior afastamento é de 1 unidade (9 e 11). Numa distribuição normal e simétrica, o desvio padrão é calculado dá uma ideia de onde estão localizados os valores da amostra, em torno da média, da seguinte maneira: 34 7.3 Coeficiente de variação Para comparar a variação do desvio padrão com a média, usa-se a razão entre o desvio padrão e a média, chamado de coeficiente de variação, que muitas vezes é multiplicado por 100 para dar o resultado em porcentagem: 35 8 PROBABILIDADE EM ESPAÇOS AMOSTRAIS DISCRETOS Definição 1.1: Associado a cada experimento, E, pode-se associar um espaço amostral, Ω, o conjunto de todos os resultados possíveis. Que dependendo da natureza do experimento poderá não ser único. 36 Às vezes o espaço amostral de um experimento não é tão fácil de ser definido. Por exemplo, no experimento 7, quais os resultados possíveis deste experimento? Números reais entre 0 e ?. Supondo que não exista uma altura máxima, talvez seja razoável fazer Ω = (0;∞). Mas é evidente que esse conjunto contém resultados impossíveis, tais como um milhão ou um bilhão de metros. Outros candidatos para Ω seriam, por exemplo, os intervalos limitados (0; 3) e [1/10; 3]. Os dois intervalos contêm, aparentemente, todos os resultados possíveis do experimento. Esta propriedade 37 já é suficiente para nossos propósitos, e podemos escolher qualquer desses intervalos (incluindo (0;∞)) para o espaço amostral. O importante, então, é que Ω contenha todo resultado possível. A importância do espaço de resultados provém, sobretudo, de ser o meio empregue para a definição de eventos. Há, em regra, muito mais interesse nos acontecimentos e nas famílias de acontecimentos de que nos elementos do espaço amostral. Definição 1.2: Qualquer subconjunto do espaço amostral - será chamado evento e será denotado por: A, B, C, . . . . Se A e B são incompatíveis a interseção não é possível. Contorna-se essa dificuldade introduzindo a noção de acontecimento impossível como resultado da interseção de dois acontecimentos incompatíveis; a noção vem em correspondência com a de conjunto vazio na álgebra de conjuntos e por isso se representa pelo mesmo símbolo, Ø. Assim, A e B, são incompatíveis se e só se, A∩B = Ø. O acontecimento, Ω, costuma designar-se por acontecimento certo. 9 PROBABILIDADE CONDICIONAL E EVENTOS INDEPENDENTES Há casos em que se deseja saber a probabilidade de um evento A, desde que ocorra um outro evento B. É a conhecida probabilidade condicional, isto é, probabilidade de A dada a ocorrência de B, que é simbolizada por: P(A | B) #1.1# Desde que B deve necessariamente ocorrer, o conjunto B pode ser considerado um espaço amostral restrito para este caso. E o evento a considerar não é todo o conjunto A, mas apenas os elementos de A que também estão em B, isto é, A Interseção B. Então a probabilidade é calculada por: #2.1# 38 Se numerador e denominador são divididos pelo número de elementos no espaço amostral S, a probabilidade condicional fica definida em função de outras probabilidades: #A.1# Exemplo 01: seja S = {1, 2, 3, 4, 5, 6} o espaço amostral do lançamento de um dado ideal. Consideram-se os eventos: • resultado 3, 4 ou 6: A = {3, 4, 6}. Portanto, P(A) = 3/6 = 1/2 • resultado par: B = {2, 4, 6}. Portanto, P(B) = 3/6 = 1/2 A interseção é: A Interseção B = {4, 6}. Portanto, P(A Interseção B) = 2/6 = 1/3 E a probabilidade de resultado 3, 4 ou 6 dado que é par é calculada por: P(A | B) = (1/3) / (1/2) = 2/3 Voltando à igualdade #A.1#, pode-se concluir que, se o evento A não depende do evento B, a probabilidade de A condicionada à ocorrência de B deve ser igual à probabilidade de A, ou seja, #B.0# Reagrupando essa igualdade, obtém-se a definição: Se A e B são eventos independentes, P(A Interseção B) = P(A) P(B)#B.1# 39 No exemplo 01 anterior, P(A Interseção B) = 1/3 ≠ P(A) P(B) = 1/4. Portanto, os eventos não são independentes. Exemplo 02: duas moedas ideais são jogadas. Verificar se os eventos cara na primeira e cara na segunda são independentes. Supondo c cara e r coroa, o espaço amostral é S = {cc, cr, rc, rr} Se A é o evento cara na primeira, A = {cc, cr} e P(A) = 1/2 Se B é o evento cara na segunda, B = {cc, rc} e P(B) = 1/2 A interseção de ambos é A Interseção B = {cc} e a probabilidade é P(A Interseção B) = 1/4 Então, P(A Interseção B) = 1/4 = P(A) P(B) Portanto, os eventos A e B são independentes (isso pode ser deduzido fisicamente porque o resultado de uma moeda não interfere no resultado da outra). Exemplo 03: em um baralho comum de 52 cartas, verificar se os eventos retirar um ás e retirar uma carta de ouro são independentes. O espaço amostral S é formado pelas 52 cartas, cada uma com probabilidade 1/52. Considerando A = retirar um ás, P(A) = 4/52 = 1/13 Considerando B = retirar uma carta de ouro, P(B) = 13/52 = 1/4 A interseção é retirar um ás de ouro e, portanto, P(A Interseção B) = 1/52 40 Calculando o produto, P(A) P(B) = (1/13) (1/4) = 1/52 = P(A Interseção B). Portanto, os eventos são independentes. 10 VARIÁVEIS ALEATÓRIAS Em muitos experimentos é muito mais fácil trabalhar com uma variável resumo do que com a estrutura de probabilidade original. Por exemplo, numa pesquisa de opinião, decidimos perguntar a 50 pessoas se elas concordam ou discordam com um determinado assunto. Quando a pessoa concorda registramos o valor 1 quando discorda 0, o espaço amostral desse experimento contém 250 = 1125899906842624 elementos são todos os resultados possíveis que podem ocorrer quando 50 pessoas são consultadas. Seria interessante reduzir esse espaço para um de tamanho razoável. De que forma? Contando nessas 250 sequências de tamanho 50 cada número de pessoas que concordam. Dessa forma o espaço seria reduzido à X = {0; 1; 2; : : : ; 50} o qual possui 50 elementos que é muito mais fácil de trabalhar. Quando definimos uma quantidade X, estamos definindo uma aplicação (uma função) do espaço amostral original em um novo espaço amostral, usualmente um subconjunto dos números reais. Definição 3.1. Uma variável aleatória é uma função do espaço amostral Ω nos números reais. Exemplo 3.1. Em muitos experimentos variáveis aleatórias são implicitamente utilizadas. Quando definimos uma variável aleatória, estamos definindo um novo espaço amostral (o campo de variável aleatória). Precisamos, agora, verificar que a função de probabilidade definida em nosso espaço original - pode ser usada no novo espaço amostral. 41 Suponha que o espaço amostral com a função de probabilidade P e definida a variável aleatória X a qual assume valores {x1; x2; : : : ; xm}. Podemos definir a função de probabilidade PX (que na realidade é a probabilidade P induzida em X) da seguinte maneira. Observamos que X = xi se e somente se o resultado do experimento aleatório é um wj tal que X(wj) = xi. Assim, 42 11 DISTRIBUIÇÃO DE PROBABILIDADE DISTRIBUIÇÃO BINOMIAL Para que uma situação possa se enquadrar em uma distribuição binomial, deve atender às seguintes condições: Se uma situação atende a todas as condições acima, então a variável aleatória X = número de sucessos obtidos nas n tentativas terá uma distribuição binomial, com n tentativas e p (probabilidade de sucesso). Simbolicamente, temos: X ~ B(n,p) com a interpretação dada a seguir: 43 Para exemplificar a utilização da distribuição binomial, você deve considerar que pessoas entram em uma loja no período próximo ao Dia das Mães. Sabe-se que a probabilidade de uma pessoa do sexo masculino comprar um presente é de 1/3. Se entrarem quatro pessoas do sexo masculino nesta loja, qual a probabilidade de que duas venham a comprar presentes? Se as quatro pessoas entram na loja e duas delas compram, podemos colocar as possibilidades da seguinte forma (C ⇒ compra e não- C ⇒ não compra). O espaço amostral associado ao experimento é: Logo, calculando as probabilidades usando as regras do “e” (multiplicação, pois são independentes) e do “ou” (soma), a probabilidade de dois clientes do sexo masculino comprarem presentes é: 44 Agora, você deve calcular utilizando a função de probabilidade apresentada anteriormente e verificar que o resultado será o mesmo. Os valores da média e da variância da distribuição binomial são: Média = np Variância = npq Um outro exemplo de utilização da distribuição binomial é o seguinte. Em um determinado processo de fabricação, 10% das peças seguinte. Em um determinado processo de fabricação, 10% das peças produzidas são consideradas defeituosas. As peças são acondicionadas em caixas com cinco unidades cada uma. Considere que cada peça tem a mesma probabilidade de ser defeituosa (como se houvesse repetição no experimento de retirar uma peça). 45 DISTRIBUIÇÃO NORMAL É a mais importante entre as distribuições de probabilidade, porque muitas variáveis aleatórias de interesse prático são normais ou podem ser transformadas para normais de maneira relativamente simples. A distribuição normal, por definir uma função, pode ser traçada através de uma equação relacionando os valores dos eixos x e y. Essa equação que mostramos abaixo é complexa e não usaremos na análise das propriedades, acreditando, assim, que a própria curva pode estar definindo a distribuição, sendo possível dispensar desta maneira a interpretação da fórmula. No entanto, para os mais interessados, aí está: 1 f(x)= σ 2π e 1 x − x − 2 σ 2 onde: 46 1 = constante; σ 2π x = uma variável aleatória que assume todo e qualquer valor real; ex = número neperiano = 2,71828...; µ = média da distribuição normal; s = desvio padrão da distribuição normal. A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da µ , que recebe o nome de curva normal ou curva de Gauss. f(x) −3σ −2σ −1σ µ 1σ 2σ 3σ x Para uma perfeita compreensão da distribuição normal, observe a curva acima e procure visualizar as seguintes propriedades: a. na distribuição normal o cruzamento do eixo de simetria com o eixo x coincide com a média (µ) da distribuição de valores, quando eles forem em número suficiente para garantir a fidelidade à distribuição; b. como conseqüência da primeira propriedade, podemos esperar que, numa distribuição normal, não apenas a média coincida com o eixo de simetria, mas também a moda e a mediana do conjunto de valores; c. a área total sob a curva normal f(x) é considerada igual a l ( 100% ); d. como a curva é simétrica em torno da média ( µ ), a probabilidade de ocorrer valor maior que a média é igual a probabilidade de ocorrer valor menor que a média, isto é, ambas as probabilidades são iguais a 0,5. Escrevemos: P ( x > µ ) = P ( x < µ ) = 0,5 µ 47 Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a probabilidade dessa variável assumir um valor em um determinado intervalo. Vejamos como proceder, por meio de um exemplo concreto: Exemplo: Seja x uma variável que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos supor que essa variável tenha distribuição normal com média µ = 2 cm e desvio padrão s = 0,04 cm . Pode haver interesse em conhecer a probabilidade de um parafuso ter diâmetro com valor entre 2 e 2,05 cm. É fácil notar que essa probabilidade, indicada por: P ( 2 < x < 2,05 ) corresponde à área hachurada na figura abaixo: 2 2,05 O cálculo direto dessa probabilidade exige um conhecimento de Matemática mais avançado do que aquele que dispomos no curso de 2o grau . Entretanto, podemos contornar facilmente esse problema. Basta aceitar, sem demonstração, que, se x é uma variável aleatória com distribuição normal de média µ e desvio padrão s então a variável: Z = x−µ σ tem distribuição normal reduzida, isto é, tem distribuição normal de µ = 0 e desvio padrão s = 1. As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo necessidade de serem calculadas. Voltamos, então ao nosso problema: Queremos calcular P (2 < x < 2,05). Para obter essa probabilidade, precisamos em 1o lugar, calcular o valor de Z que corresponde a x = 2,05 (x = 2 ⇒ Z = 0 pois µ = 2 ). Z = x−µ σ 2,05 − 2 0,05 = Z = 0,04 0,04 48 Z = 1,25 donde: P ( 2 < x < 2,05 ) = P ( 0 < z < 1,25 ) Procuramos, agora na tabela A da página 100, o valor de Z = 1,25. Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondente encontramos o valor 0,3944, o que nos P( 0 < z < 1,25 ) = 0,3944 permite escrever: Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média µ = 2 e o valor de x = 2,05 é 0,3944 ( 39,44 % ) Escrevemos então: P( 2 < x < 2,05) = P( 0 < z < 1,25 ) = 0,3944 ou 39,44 % Interpretação do desvio padrão na distribuição normal O desvio padrão é a medida de dispersão mais utilizada em caso de distribuições simétricas como por exemplo, a distribuição normal. Qualquer distribuição normal é especificada por sua média e seu desvio padrão; há uma distribuição normal distinta para cada combinação de média e desvio padrão. A área sob a curva entre a média e um ponto arbitrário é função do número de desvios padrões entre a média e aquele ponto. −3σ −2σ −1σ µ 68.26% 1σ 2σ 3σ 95.46% 99.74% Para qualquer curva normal a área correspondente entre os pontos: µ-s µ - 2s µ - 3s µ - 4s e e e e µ+s µ + 2s µ + 3s µ + 4s é é é é 68,26% 95,46% 99,74% 99,994% 49 A representação gráfica de uma distribuição normal (curva normal) e a interpretação do desvio padrão nela nos permite estabelecer considerações que nos auxiliarão no controle do processo. A partir das condições em que se realiza um experimento ou um teste estatístico, podemos esperar um resultado ou outro. Se estivermos preparando um teste de controle de qualidade na produção de um componente eletrônico à base de um único material e fabricado com máquinas de alta precisão, podemos esperar que algo como 99,74% ( µ ± 3s ) deles saiam em perfeitas condições e 0,26 % não seja aprovado no controle. Em outros casos, como na fabricação de um tipo de biscoito com cobertura e recheio, por exemplo, a existência de diversos ingredientes, desde a farinha até o chocolate da cobertura, causará maior variação no produto final, de modo que, se estivermos controlando o peso, dificilmente conseguiremos mais de 95,46% ( µ ± 2s ) dos pacotes com peso dentro do limite estipulado por lei, que é de 1% acima ou abaixo do valor marcado na embalagem. As situações que acabamos de mencionar mostram que o estatístico deve ter sensibilidade de prever os percentuais de erros possíveis no teste ou na estimativa que ele estiver preparando, tentando, é claro, diminuí-los e, assim, aumentar a certeza, das previsões. Suponhamos uma indústria metalúrgica que produz rolamento com diâmetro médio de 1,0 polegada. Podemos fixar como limite 95,46% da produção caia dentro do intervalo de 0,9 a 1,1 polegadas. Isto significa que, se este critério for obedecido, teremos certeza de que, em 95,46 % dos casos, qualquer amostra recolhida terá o diâmetro nessa faixa. Entretanto, para que isto aconteça, é importante saber que o índice de 95,46% no intervalo ou 47,73 % da média para cima ou para baixo corresponde, pela leitura da tabela A da página 100, a 2s, o que nos conduz ao seguinte valor para o desvio padrão: 2s = 0,1 s = 0,05 Este valor de desvio deve, então ser considerado como o máximo valor para que as condições fixadas sejam obedecidas. Isto é, se um teste na produção apontar um valor de desvio padrão s igual ou menor do que esse, teremos 95,46% ou mais de certeza de que um rolamento qualquer que saia da fábrica tenha como diâmetro um 50 valor entre 0,9 e 1,1 polegadas. Estes percentuais fixados a priori para controle de uma determinada variável são chamados níveis de confiança, e o intervalo [0,9 ; 1,1] denomina-se intervalo de confiança. Os níveis de confiança variam, conforme dissemos, de acordo com o experimento que estiver sendo realizado, mas vale dizer, entretanto, que os mais comuns são 95,46 % e 99,74% correspondendo respectivamente, a Z = 2 e Z = 3 A curva normal é muito utilizada em cálculos de probabilidades e para facilitar estes cálculos é importante considerarmos: µ 1. como a variável x (normal) tem a média µ e o desvio padrão s, podemos descrevê-la como a variável Z. Zi = µ − X i σ Zs = X s − µ σ onde: Xi é a variável aleatória X ou limite inferior ( Li ) à média; Xs é a variável aleatória X ou limite superior ( Ls ) à média; Zi é a variável z anterior à média; Zs é a variável z posterior à media. 2. a variável Z é descrita como a distância entre os limites Xi (Li) e Xs (Ls)) e a média µ em unidades de desvio padrão s, ou seja, mede quantos desvios padrões cabem entre os limites especificados e a média. Exemplo: A média dos diâmetros externos de uma amostra de 200 arruelas produzidas por determinado equipamento foi de 0,502 cm, com um desvio padrão de 0,005cm. Sua utilização se torna possível desde que o diâmetro externo não seja menor que 0,496 cm, nem maior que 0,508 cm. Se isso não se verificar, as arruelas serão consideradas defeituosas. Admitindo que os diâmetros se distribuem normalmente, determine: 51 a) a percentagem de arruelas defeituosas produzidas pelo equipamento; b) os limites de especificação ( LIE e LSE ) e a percentagem de arruelas defeituosas produzidas pelo equipamento para um cliente que considera arruela perfeita aquela de um processo de fabricação com intervalo de confiança de 3s ( 99,74 % ); c) os limites de especificação ( LIE e LSE ) e a percentagem de arruelas defeituosas produzidas pelo equipamento para um cliente que considera arruela perfeita aquela de um processo de fabricação com intervalo de 97% de confiança. DADOS: µ = 0,502 s = 0,005 LIE = Xi = 0,496 ( limite inferior especificado ) LSE = Xs = 0,508 ( limite superior especificado ) a) Zi = µ − x i = µ − L IE σ Zs = x s − µ = L S E − µ σ σ Zi = 0 ,5 0 2 − 0 , 4 9 6 = 0 , 0 0 6 0 ,0 0 5 Assim, Zs = 0 ,5 0 8 − 0 ,5 0 2 = 0 , 0 0 6 0 ,0 0 5 Zi = 1,2 ⇒ 0,3849 (tabela A pág. 100) σ 0 ,0 0 5 0 ,0 0 5 Zs = 1,2 ⇒ 0,3849 (tabela A pág. 100) P ( 0,496 > X > 0,508 ) = 1 - [ P (0,496 ≤ X ≤ 0,508)] = 1 - [ 0,3849 + 0,3849] = 1 - 0,7698 = 0,2302 ( 23,02 %) 52 b) 3s ⇒ µ ± 3s então: LSE = µ + 3s LIE = µ - 3s LSE = 0,502 + 3.(0,005) LIE = 0,502 - 3.(0,005) LSE = 0,502 + 0,015 LIE = 0,502 - 0,015 LSE = 0,517 LIE = 0,487 DISTRIBUIÇÃO T DE STUDENT A rigor, a utilização da distribuição z para a determinação de um intervalo de confiança para a média amostral, só seria possível se o desvio padrão populacional fosse conhecido. Entretanto, isso não ocorre na maioria dos estudos, onde se obtém o desvio padrão a partir da amostra estudada. Uma outra situação que ocorre com freqüência, é o estudo de amostras pequenas (n ≤ 30). Existe uma distribuição muito parecida com a distribuição normal, que é a distribuição t de student. Tal distribuição de probabilidades tem uma curva muito parecida com a da normal padronizada (ver figura abaixo). Figura mostrando a distribuição norma padronizada (linha cheia) e a distribuição t (tracejado). A utilização da distribuição t pressupõe normalidade dos dados da amostra. Na prática, para amostras pequenas (n ≤ 30), a população da qual a variável foi submetida 53 à amostragem deve ter distribuição normal para se utilizar a estatística t. Já para amostras grandes, isto não é necessário (lembrar do teorema do limite central). Assim como para a distribuição normal, existe uma tabela padronizada para a distribuição t, sendo que a utilização se difere da tabela z nos seguintes aspectos (ver tabela t): 1. O valor de z na tabela independe do valor de n (elementos da amostra), enquanto o valor de t depende do número de graus de liberdade (gl), que vale n-1. 2. Enquanto, para a tabela z, encontra-se a probabilidade de um valor entre 0 e z, para a tabela t, existem probabilidades pré-estabelecidas, e são as probabilidades dos valores acima ou abaixo de t (ver figura abaixo). Portanto é preciso cuidado nos julgamentos, lembrando que: probabilidade de “sucesso” = 1 – probabilidade de “fracasso”. Olhando para a tabela verificamos que existem os valores de t para as probabilidades 0,10; 0,05; 0,025; 0,01; e 0,005; considerando uma cauda, ou seja, probabilidade de um valor maior ou de um valor menor que t. Portanto, se queremos intervalos de confiança para a média amostral, devemos calcular: 1 - o valor do intervalo de confiança desejado, multiplicar este valor por 2 e buscar o valor de t na tabela correspondente à área nas duas caudas (ver tabela). A fórmula que define o intervalo de confiança para a média é: 54 Observe que o desvio padrão populacional foi substituído pelo amostral e a estatística z pela t. 55 56 57 D Tabela de Números Aleatórios Tabela construída de modo que 10 algarismos (0 a 9) são distribuídos ao acaso nas linhas e colunas. Gerada pelo seguinte programa Perl (a cada invocação do programa, a sequência de números será diferente): 58 12 EXERCÍCIOS 12.1 Noções básicas 1. Os prontuários dos pacientes de um hospital estão organizados em um arquivo, por ordem alfabética. Qual é a maneira mais rápida de amostrar 1/3 do total de prontuários? 2. Um pesquisador tem dez gaiolas quem contêm, cada uma, seis ratos. Como o pesquisador pode selecionar dez ratos para uma amostra? 12.2 Apresentação de dados em tabelas 1. De acordo com o IBGE (1998), a distribuição dos homicídios ocorridos no brasil em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras causas. Apresente essa distribuição em uma tabela. 2. Construa uma tabela de distribuição de freqüência para apresentar os dados da tabela 2.10. Tabela 2.10 Pressão arterial, em mm Hg, de cães adultos anestesiados e após laparotomia. 130,0 105,0 120,0 111,5 99,0 116,0 82,5 107,5 125,0 100,0 107,5 120,0 143,0 115,0 135,0 130,0 135,0 127,5 90,5 104,5 136,5 100,0 145,0 125,0 104,5 101,5 102,5 101,5 134,5 158,5 110,0 102,5 90,5 107,5 124,0 121,5 135,0 102,0 119,5 115,5 125,5 117,5 107,5 140,0 121,5 107,5 113,0 93,0 103,5 59 12.3 Apresentação de dados em gráficos 1. Faça um gráfico de barras e um gráfico de setores para apresentar os dados da tabela 3.3. Tabela 3.3 Suicidadas segundo sexo. Brasil, 1986 Sexo Frequência Percentual Masculino 3.562 74, 93 Feminino 1.192 25,07 2. Faça um histograma e um polígono de freqüências para apresentar dados da tabela 3.4. Tabela 3.4 Cães adultos anestesiados segundo a pressão arterial em mm Hg Classe Ponto médio Frequência 80 - 90 85 1 90 - 100 95 4 100 - 110 105 16 110 - 120 115 8 120 – 130 125 9 130 – 140 135 7 140 – 150 145 3 150 - 160 155 1 12.4 medidas de tendência central para amostra 1. Com base na tabela 4.5, calcule o peso médio dos ratos em cada idade. 60 Tabela 4.5 Peso, em g, de ratos machos da raça Wistar segundo a idade, em dias Número do Idade rato 30 34 38 42 46 1 76,2 95,5 99,2 122,7 134,6 2 81,5 90,0 101,2 125,9 136,2 3 50,0 60,0 62,3 72,2 85,3 4 47,5 50,0 57,5 82,3 84,0 5 63,5 79,2 82,1 94,7 110,0 6 65,1 75,7 79,3 88,5 98,7 7 63,2 74,8 79,0 88,1 100,0 8 64,5 74,1 92,6 96,0 98,3 2. Determine a mediana dos dados apresentados na tabela 4.7. Tabela 4.7 Percentual de água em cérebro de cobaias machos com 90 dias de idade 80,06 68,86 68,97 79,90 79,85 79,91 79,87 79,55 79,86 79,25 12.5 Medidas de dispersão para uma amostra 1. Calcule a variância e o desvio padrão dos dados apresentados na tabela 4.5, em cada idade. Comente o resultado. 61 Tabela 4.5 Peso, em g, de ratos machos da raça Wistar segundo a idade, em dias Número do Idade rato 30 34 38 42 46 1 76,2 95,5 99,2 122,7 134,6 2 81,5 90,0 101,2 125,9 136,2 3 50,0 60,0 62,3 72,2 85,3 4 47,5 50,0 57,5 82,3 84,0 5 63,5 79,2 82,1 94,7 110,0 6 65,1 75,7 79,3 88,5 98,7 7 63,2 74,8 79,0 88,1 100,0 8 64,5 74,1 92,6 96,0 98,3 2. Calcule a media, o desvio padrão e o coeficiente de variação dos dados apresentados na tabela 5.7. Comente os resultados. Tabela 5.7 Peso, em Kg, e comprimento, cm, de dez cães Peso Comprimento 23,0 104 22,7 107 21,2 103 21,5 105 17,0 100 28,4 104 19,0 108 14,5 91 19,0 102 19,5 99 62 12.6 Noções sobre correlação 1. Calcule o coeficiente de correlação para os dados apresentados na tabela 6.2. 2. Os diagramas de dispersão apresentados nas figuras 6.5 e 6.6 mostram a relação entre o consumo per capita de gordura animal e de gordura vegetal, em gramas/dia, e a taxa de mortalidade por câncer de mama, em 39 países. Parece existir forte relação entre o consumo de gordura vegetal e o câncer de mama. Isso significa que a gordura vegetal causa câncer de mama. 63 12.7 noções sobre regressão 1. Peralta et al. (1976) separam 100 ratos de 40 dias de idade em dois grupos de 50: um grupo (controle) recebeu água a vontade, enquanto o outro grupo (tratado) foi privado de água. Depois, em intervalos de 24 horas, sacrificaram 05 ratos de cada 64 grupo. Os encéfalos desses ratos foram removidos e pesados. Como no inicio do experimento todos os ratos tinha 40 dias, os primeiros ratos sacrificados tinham 41 dias no dia do sacrifício, os dez seguintes tinham 42 dias, e assim por diante, até os dez últimos, que tinham 50. As medias dos pesos dos cinco encéfalos, segundo a idade no dia do sacrifício estão apresentados na tabela 7.8. Mostre esses dados em gráficos de linhas. 2. Com os dados apresentados na tabela 7.9, faça um diagrama de dispersão. Verifique que os dados não estão em torno de uma linha reta. Depois, faça uma transformação variável definindo 1/x como variável explanatória. Faça um diagrama de dispersão. Verifique que as variáveis 1/x e y estão praticamente sobre uma reta. Então, ajuste uma regressão linear simples de y contra 1/x. 65 12.8 Distribuição binominal 1. A probabilidade de um menino ser daltônico é 8%. Qual é a probabilidade de serem daltônicos todos os quatros meninos que se apresentaram, em determinado dia, para um exame oftalmológico. 2. Apresente, em tabela e em gráfico, a distribuição do número de meninos que podem ocorrer em uma família com seis crianças. 12.9 Distribuição normal 1. Em mulheres, a quantidade a quantidade de hemoglobina por 100ml de sangue é uma variável aleatória com distribuição normal de média µ = 16g e desvio padrão σ = 1g. Calcule a probabilidade de uma mulher apresentar de 16 a 18g de hemoglobina por 100 mL de sangue. 2. No problema anterior qual é a probabilidade de uma mulher apresentar mais de 18g de hemoglobina por 100ml de sangue? 66 12.10 Teste t 1. Os valores apresentados na tabela 12.4 permitem testar a hipótese de que recémnascidos de ambos os sexos têm, em media, a mesma estatura. Teste essa hipótese, ao nível de significado de 5%. 2. 2. Com base nos dados apresentados na tabela 12.5 teste, ao nível de significado de 5%, a hipótese de que o calibre da veia esplênica é, em media, o mesmo, antes e após a oclusão da veia porta. 12.11 Análise de variância 1. Com base nos dados apresentados na tabela 13.9, verifique se existe diferença estatística entre os grupos. Note que são três grupos em comparação. No grupo operado foi feita a redução das glândulas salivares maiores, e no grupo pseudo-operado foram executados todos os tempos cirúrgicos, mas nenhuma glândula foi removida. 67 2. Faça a analise de variância e aplique o teste de tukey aos dados apresentados na tabela 13.12. Tabela 13.12 Amostras A B C 24 9 20 19 16 25 26 14 18 25 9 19 22 12 18 26 23 27 68 13 REFERÊNCIAS BIBLIOGRÁFICAS BUSSAB, W. O.; MORETTIN, P. Estatística Básica. São Paulo: Atual, 2002. COSTA NETO, P. L. de O. Estatística. São Paulo: Edgard Blücher, 2002. DOWNING, Douglas. Estatística aplicada. 2. ed. São Paulo: Saraiva, 2006. FERRARI, Fabrício. Estatística Básica. Baseado em Estatística Fácil de Antônio Arnot Crespo, Editora Saraiva, 1999. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatística. Rio de Janeiro: LTC, 1982. OLIVEIRA, Carlos Gomes de. Apostila de Introdução à Bioestatística aplicada à Educação Física. UFRJ. VIEIRA, Sonia. Introdução a bioestatística. 3. ed. Revisada e ampliada. Rio de Janeiro: Campus, 1980.