UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO INSTITUTO DE CIÊNCIAS EXATAS Departamento de Matemática Área de Estatística IC 280 – ESTATÍSTICA BÁSICA IC 281 – INTRODUÇÃO À BIOESTATÍSTICA Marcelo Jangarelli Prof. Adjunto – DEMAT/ICE/UFRRJ Seropédica – Rio de Janeiro Março – 2012 UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO INSTITUTO DE CIÊNCIAS EXATAS Departamento de Matemática Área de Estatística IC 280 – ESTATÍSTICA BÁSICA IC 281 – INTRODUÇÃO À BIOESTATÍSTICA Esta apostila constitui o material básico das disciplinas IC 280 – Estatística Básica e IC 281 – Introdução à Bioestatística. Em todas as aulas serão feitas complementações suplementares com o objetivo de atualizar, acrescentar novas informações relevantes ainda não implementadas e facilitar o entendimento do material apresentado. Marcelo Jangarelli Prof. Adjunto – DEMAT/ICE/UFRRJ Seropédica – Rio de Janeiro Março – 2012 Sumário I Somatório 01 II Análise Exploratória de Dados 04 III Probabilidade 27 IV Variáveis Aleatórias 35 V Distribuições de Variáveis Aleatórias 40 VI Inferência Estatística 44 VII Listas de Exercícios 48 VIII Gabarito 65 IX Referência Bibliográfica Adicional 72 X Tabela da Distribuição Normal 73 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO I SOMATÓRIO 1 – INTRODUÇÃO A notação de somatório é de grande importância para a estatística, pois a operação de adição é fundamental nesta ciência. Utiliza-se Σ (sigma), letra grega maiúscula, para facilitar a representação de somas com grande número de parcelas/termos. As principais representações são: n x i 1 → Soma simples → x1 + x2 + x3 + ... + xn i n x i 1 2 i → Soma de quadrados → x12 x 22 ... x n2 2 n xi → Quadrado da soma → (x1 + x2 + ... + xn)2 i 1 n x y → Soma de produto → x1y1 + x2y2 + ... + xnyn i 1 i i n n i 1 i 1 xi yi → Produto das somas → (x1 + x2 + ... + xn) (y1 + y2 + ... + yn) n A expressão x i 1 i é lida da seguinte maneira: Somatório ou soma de x índice i com i variando de 1 até n. A finalidade do índice i é indicar a ordem de cada parcela/termo da soma. O número inferior indica a ordem da primeira parcela e o superior da última parcela. São também chamados de limite inferior e limite superior, respectivamente. Quando não se deseja somar todos os valores que se dispõe na notação do somatório podem-se utilizar restrições indicando/limitando os termos/parcelas a serem somados. n Ex.: x i 1 i 2; 5 i x1 x3 x 4 x6 x7 ... x n 1 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ O número de parcelas/termos (NP) da soma é dado por : NP = (Ls – Li) + 1 , em que: Ls = limite superior; Li = limite inferior. Se o somatório estiver sujeito a R restrições, o NP será dado por: NP = (Ls – Li) + 1 – R , em que: R = número de restrições. 2 – PROPRIEDADES As propriedades facilitam o desenvolvimento das expressões algébricas com a notação do somatório. P1 → Somatório de uma constante (k) é igual ao produto do número de termos/parcelas pela constante; P2 → O somatório do produto de uma constante (k) multiplicada por uma variável é igual ao produto da constante pelo somatório da variável; P3 → O somatório de uma soma ou subtração de variáveis é igual à soma ou subtração dos somatórios destas variáveis. EXERCÍCIOS PROPOSTOS 1 – Considere as variáveis X e Y. Elas representam as notas de duas disciplinas para um grupo de seis alunos. X = {90 ; 95 ; 97 ; 98 ; 100 ; 60} Y = {60 ; 70 ; 80 ; 60 ; 90 ; 75} 2 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Calcule: 6 a) X i 1 i 6 b) X i 1 2 i 6 c) X i i 1 2 6 d) X Y i i i 1 6 6 e) X i . Yi i 1 i 1 4 f) 3X i 1 i 2 – Obter o número de termos/parcelas para os seguintes somatórios: 8 a) X i 3 i 15 b) Y k 1 k 9 ;11 k 3 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO II ANÁLISE EXPLORATÓRIA DE DADOS 1 – INTRODUÇÃO A estatística é uma ciência de obtenção de informações a partir de dados numéricos. Ela é entendida como a matemática aplicada a dados observados, fornecendo métodos para geração, coleta, organização, descrição, análise e interpretação dos dados. O estudo estatístico tem se revelado essencial no mundo moderno. Ao verificar os diferentes meios de comunicação (internet, rádio, televisão, jornais e revistas) evidencia-se a relevância da estatística para a sociedade. A estatística faz parte do cotidiano de cada cidadão. Ela se mostra imprescindível para a tomada de decisões, para a resolução de problemas e, principalmente, para a pesquisa científica. Seu objetivo é proporcionar conhecimentos a partir de dados. Na estatística os dados não são apenas números, mas sim números com um contexto, tornando-os informativos. É fundamental conhecer a origem dos dados, contextualizando-os com as questões a serem solucionadas. Devido à automatização na resolução de cálculos, bem como na construção de gráficos e tabelas, o mais relevante que podemos obter de um estudo estatístico é a compreensão de ideias e a interpretação dos resultados. Vejamos algumas situações onde a estatística se torna foco central: Na pesquisa eleitoral, quando os percentuais de intenção de votos de cada candidato são divulgados; Na pesquisa médica, quando se anuncia os benefícios de um novo medicamento; Na pesquisa de opinião sobre um novo produto lançado no mercado; Na divulgação de vítimas (mortos, feridos e desabrigados) por sinistros naturais; Na avaliação do desempenho de dado setor econômico (ex. agronegócio); Em discussões polêmicas (ex. a questão de produtos/alimentos transgênicos). 2 – DEFINIÇÕES 2.1 Variável: é uma característica qualquer do objeto em estudo. Pode ser classificada como: Variável Qualitativa: É uma variável que assume como possíveis valores, atributos ou qualidades do objeto em estudo. Ela pode ser dividida em: i) Variável Qualitativa 4 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Nominal, se não existir nenhuma ordem em suas realizações e; ii) Variável Qualitativa Ordinal, se existir uma ordem em suas possíveis realizações. Variável Quantitativa: É uma variável que assume como possíveis valores, números, resultantes de uma contagem ou mensuração. Ela também pode ser dividida em: i) Variável Quantitativa Discreta, no caso em que os possíveis valores/números formam um conjunto finito ou infinito enumerável e; ii) Variável Quantitativa Contínua, para o caso em que os possíveis valores/números formam um intervalo ou união de intervalos de números reais. 2.2 População: é um conjunto de indivíduos (ou objetos) tendo pelo menos uma variável em comum. 2.3 Amostra: é qualquer subconjunto da população. 3 – CONCEITOS Dados Brutos: São os dados coletados que não foram numericamente ordenados, ou seja, são aqueles que não se encontram preparados para análise; Ex: 20 – 27 – 16 – 23 – 15 – 17 – 25 – 21 – 20 – 13 Rol: é a série estatística quando dispõe os valores dos dados brutos em ordem crescente ou decrescente; Ex: 13 – 15 – 16 – 17 – 20 – 20 – 21 – 23 – 25 – 27 Amplitude Total (AT): é a diferença entre o maior e o menor valor da série estatística em rol; Ex: AT = 27 – 13 = 14 Frequência Absoluta (fi): é o número de vezes que determinado valor Xi é observado; Ex: f15 = 1 ; f20 = 2 Intervalo de Classe: é cada um dos intervalos disjuntos em que se subdivide o conjunto total de valores observados da variável em estudo. Os intervalos de classe podem ser apresentados pelos seguintes símbolos: a├─┤b → ambos elementos (a e b) pertencem ao intervalo; a├── b → apenas o elemento “a” pertence ao intervalo, já o elemento “b” não pertence; a ──┤b → apenas o elemento “b” pertence ao intervalo, já o elemento “a” não pertence; a ─── b → ambos elementos (a e b) não pertencem ao intervalo; Limite de Classes: são os extremos de cada intervalo de classe; 5 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Li → limite inferior → Li = a Ls → limite superior → Ls = b Amplitude de Classe (h): é a diferença entre o limite superior e o limite inferior da classe correspondente i; hi = Ls – Li Ponto Médio (PM): é a média aritmética entre o Ls e o Li da classe correspondente, isto é: PM = Ls Li 2 hi 2 ou PM = Li + Frequência Acumulada (fai): é a soma da frequência absoluta (fi) da presente classe com as frequências absolutas das classes anteriores; Frequência Relativa Simples (fri): é o quociente da frequência absoluta (fi) da presente classe pelo número total de observações (n), isto é: fri = fi n Frequência Relativa Acumulada (frai): é o quociente da frequência acumulada (fai) da presente classe pelo número total de observações (n), isto é: frai = fai n Distribuição de Frequência: é o arranjo dos valores numéricos (quantitativos) observados em uma tabela com suas respectivas frequências. Se o conjunto de valores de uma variável for muito grande devem-se agrupar os dados em Intervalos de Classes com o objetivo de diminuir o tamanho da tabela e facilitar a visualização da variação do fenômeno em estudo. Não há uma regra geral para determinar o número de classes (k) de uma distribuição. É importante que a distribuição tenha um número adequado de classes, pois um número muito reduzido ou muito extenso pode prejudicar a interpretação do fenômeno em estudo. Há diversos métodos para determinar o número de classes, entre eles citam-se: Se o número de observações for maior que 25 (n > 25), o número de classes (k) é determinado por k = n , caso contrário k = 5; Regra de Sturges, no qual o número de classes é obtido por: k = 1 + 3,22 log n Determinado o número de classes (k), o segundo passo na construção de uma Tabela de Distribuição de Frequência é determinar a amplitude da classe (h), que se aproxima do quociente da amplitude total e o número de classes, ou seja: hi = 6 AT k IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ OBS: Na medida do possível recomenda-se que todas as classes apresentem a mesma amplitude. 4 – APRESENTAÇÃO DOS DADOS A apresentação dos dados para proporcionar uma melhor visualização do fenômeno em estudo pode se dar por meio de Tabelas e Gráficos. 4.1 Tabelas A organização dos dados por meio de tabelas talvez seja a forma mais simples de se resumir um conjunto de observações. Todas as variáveis em estudo podem ser resumidas por meio de uma tabela. 4.1.1 Elementos da Tabela Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Os elementos fundamentais de uma tabela são: título; cabeçalho, coluna indicadora e corpo. O título aponta o fenômeno, época e local de ocorrência. O cabeçalho explica o conteúdo das colunas. A coluna indicadora detalha as linhas. O corpo mostra os dados. De modo complementar tem-se: fonte (citação da origem dos dados), notas (esclarecimento de conteúdo e/ou metodologia utilizada) e chamadas (esclarecimento de pontos específicos da tabela). Tabela XX – Título respondendo as perguntas: o quê, onde e quando? Cabeçalho Conteúdo da Linha Célula Coluna Coluna Indicadora Fonte: Origem dos dados. Nota: Informação esclarecedora. Ressalta-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem no texto, como é o caso de trabalhos científicos. As bordas superior e inferior devem ser fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou 7 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ não as colunas no corpo da Tabela serem separadas por traços verticais. É conveniente também que o número de casas decimais seja padronizado. 4.2 Gráficos Além das tabelas, outra forma de apresentar os dados é por meio da utilização de gráficos. A representação gráfica da distribuição de uma variável tem a vantagem de informar sobre sua variabilidade de maneira rápida e concisa. 4.2.1 Gráficos de Variáveis Qualitativas Diversos são os tipos de gráficos que podem ser utilizados para representar as variáveis qualitativas. Limitamos a apresentar dois tipos: Gráficos em Barras e Gráficos de Setores (“pizza”). 4.2.1.1 Gráfico em Barras É um dos gráficos mais utilizados para representar variáveis qualitativas. Ele pode ser assim caracterizado: O gráfico tem apenas uma escala, a que representa a frequência ou a percentagem em cada nível da variável; A largura da barra utilizada não tem nenhum significado especial além da estética; Para facilitar a compreensão e análise, é preferível que as barras sejam apresentadas segundo uma ordem sistemática. O critério mais utilizado é ordená-las por sua magnitude; As barras devem ser colocadas preferencialmente no sentido horizontal, pois assim o nome dos níveis (atributos) da variável pode ser melhor visualizado. 4.2.1.2 Gráfico de Setores Também representa um gráfico bastante utilizado para representar variáveis qualitativas. Neste gráfico, um círculo representa 100% das observações e cada nível da variável é representado por um setor de área proporcional à frequência observada. Algumas observações podem ser mencionadas a respeito da construção deste gráfico: 8 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Não é um gráfico recomendado para representar subdivisões dos níveis da variável; Não é recomendado quando o número de níveis da variável é muito grande. 4.2.2 Gráficos de Variáveis Quantitativas 4.2.2.1 Gráfico de Colunas No gráfico em colunas os níveis das variáveis são representados por barras verticais. 4.2.2.2 Histograma É uma representação gráfica por meio de retângulos justapostos, com base sobre o eixo das abscissas. Em geral é utilizado para representar distribuições de variáveis quantitativas contínuas, quando os dados estão agrupados em intervalo de classe (IC). A base do retângulo é o comprimento/amplitude do IC; A altura do retângulo pode ser representada pela frequência, proporção ou percentagem da classe correspondente; A área total do histograma representa 100% das observações. Logo, a área total de um histograma de frequência é igual a n; a de um histograma de proporção é igual a 1; e a de um histograma de percentagem é igual a 100%. 4.2.2.3 Polígono de Frequência (Simples) O polígono de frequência é construído de forma semelhante a do histograma. Representa uma linha poligonal que une os pontos resultantes da ligação dos pontos médios dos IC localizados no eixo das abscissas e das frequências dos IC no eixo das ordenadas. Para fechar o polígono, unem-se os extremos da figura com o eixo das abscissas, nos quais estariam os pontos médios das classes anterior e posterior, imediatamente antes da primeira classe e após a última classe, respectivamente. 9 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 4.2.2.4 Polígono de Frequência Acumulada ou Ogiva É o gráfico representativo de uma distribuição acumulada de frequência e consta de uma linha poligonal ascendente. No eixo horizontal (abscissas) inserem-se os limites superiores de cada IC e no eixo vertical (ordenadas) as frequências acumuladas. 4.3 Ramo-e-Folhas A forma da distribuição da variável em estudo é uma característica importante em um conjunto de dados. Um procedimento alternativo para resumir um conjunto de valores, tendo como objetivo a obtenção da forma de sua distribuição, é o Ramo-e-Folhas. Uma vantagem deste diagrama sobre o histograma é que não perdemos (ou perdemos pouca) informação sobre os dados em si. Não existe uma regra fixa para construir o Ramo-e-Folhas, mas a ideia básica é dividir cada observação em duas partes: a primeira (o Ramo) é colocada à esquerda de uma linha vertical; a segunda (a Folha) é colocada à direita. Um ramo com muitas folhas significa maior incidência daquele ramo. Uma maneira alternativa quando se dispõe de ramos excessivamente grandes (com grande número de folhas) é duplicá-lo, sinalizando com um asterisco (*). 5 – MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL O resumo dos dados provenientes da observação de uma variável quantitativa por meio de gráficos e tabelas de frequências fornece informações sobre o comportamento (distribuição) desta variável. As medidas de posição ou medidas de tendência central são empregadas para resumir todo o conjunto de dados por meio de um ou alguns valores que possam ser representativos para todos os dados. Quando utilizamos um único valor obtemos uma redução drástica do conjunto de dados. 5.1 Média Aritmética ^ É a mais simples representação de um conjunto de dados. Representada por X , m ou ^ , a média aritmética é definida como a soma de todas as observações dividida pelo número total de observações, ou seja: 10 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ n X X 2 ... X n X= 1 n X i 1 i n Se os valores de X1, X2, ..., Xn ocorrem com respectivas frequências (pesos) fi (pi), tem-se a Média Aritmética Ponderada, calculada pela fórmula: n f X f 2 X 2 ... f n X n Xp= 1 1 f1 f 2 ... f n f X i 1 n i f i 1 i i 5.1.1 Média Aritmética para dados agrupados em Intervalo de Classe O cálculo da média aritmética é feito utilizando a fórmula: n fX X = i 1 n i f i 1 i , i em que: Xi ponto médio da i’ésima classe; fi frequência absoluta da i’ésima classe. 5.1.2 Propriedades da Média Aritmética As propriedades a seguir são válidas para a média aritmética simples e ponderada. A soma algébrica dos desvios de um conjunto de números em relação à média n aritmética é zero. Logo, (X i 1 i X ) 0; Somando ou subtraindo uma constante (k) a cada um dos valores de um conjunto de dados (X1, X2, ..., Xn) a média aritmética ficará somada ou subtraída por esta constante; Multiplicando ou dividindo cada um dos valores de um conjunto de dados (X1, X2, ..., Xn) por uma constante (k) a média aritmética ficará multiplicada ou dividida por esta constante; Se todo o conjunto de dados apresenta valores iguais a um determinado número/constante (k, k, ..., k) então a média aritmética é igual a este número/constante (k). 11 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 5.2 Moda A moda (Mo) de um conjunto de dados/observações é o valor/atributo que ocorre com maior frequência. É uma medida que pode ser calculada para quaisquer tipos de dados: quantitativos e qualitativos. De acordo com o comportamento da série estatística de dados podemos ter: Série Amodal; Série Unimodal; Série Bimodal; ...; Série Multimodal. EX1: 1, 2, 3, 4, 5. O conjunto não tem moda (Amodal); EX2: 1, 2, 2, 2, 3, 4. Mo = 2 (Unimodal); EX3: 1, 1, 2, 3, 4, 4, 5, 5. Mo = 1, 4 e 5 (Trimodal ou Multimodal). 5.2.1 Moda para dados agrupados em Intervalo de Classe Para os valores de uma variável agrupados em intervalo de classe, dispostos em uma tabela de Distribuição de Frequência, a moda é determinada identificando a classe que apresenta a maior frequência absoluta (fi), chamada de classe modal e, posteriormente, aplicando a fórmula: Mo = Li 1 .h , 1 2 em que: Li = limite inferior da classe modal; ∆1 = diferença entre a frequência absoluta da classe modal e da classe anterior a classe modal; ∆2 = diferença entre a frequência absoluta da classe modal e da classe posterior a classe modal; h = amplitude da classe modal. 5.3 Mediana A mediana (Md) é definida como sendo à medida que ocupa a posição central de uma série de observações, estando elas ordenadas segundo suas grandezas (ordem crescente ou decrescente). A mediana é o valor abaixo ou acima do qual se tem a metade dos dados/observações, isto é, 50% da distribuição dos dados estão abaixo e 50% estão acima do valor da mediana. 12 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Para determinar a posição do elemento mediano em um conjunto de dados (n) em rol e, posteriormente, verifica-se qual é o valor da mediana, se faz necessário considerar dois casos: Caso em que o número de dados (n) é ímpar: PMd = X n 1 2 Caso em que o número de dados (n) é par: X n X n2 2 PMd = 2 2 5.3.1 Mediana para dados agrupados em Intervalo de Classe Para os valores de uma variável agrupados em intervalo de classe, dispostos em uma tabela de Distribuição de Frequência, a mediana é determinada identificando a classe que apresenta o elemento mediano (P), ou seja, a classe que apresenta o valor resultante da divisão do número de observações/dados (n) por dois (P = n/2), chamada de classe mediana. Posteriormente utiliza-se a fórmula: Md = Li P f aai .h , fi em que: P = posição do elemento mediano = n/2; Li = limite inferior da classe mediana; faai = frequência acumulada da classe anterior a classe mediana; fi = frequência absoluta da classe mediana; h = amplitude da classe mediana. 5.4 Outras Medidas de Posição – Quantis Algumas vezes estamos interessados não apenas em dividir o conjunto de dados em duas partes iguais, mas sim em quatro, dez ou 100 partes iguais. Essas medidas são chamadas de Quartis, Decis e Percentis, respectivamente, dividindo a distribuição de dados em grupos de mesmo tamanho. A determinação dessas medidas é semelhante ao da mediana, com a diferença na determinação do valor do Quantil (P). 13 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 5.4.1 Quartil Os quartis dividem o conjunto de dados em quatro partes do mesmo tamanho. O primeiro quartil (Q1) deixa um quarto das observações abaixo e três quartos acima dele. O segundo quartil (Q2 = Md) deixa metade dos valores abaixo e metade dos valores acima dele. Já o terceiro quartil (Q3) deixa três quartos dos valores abaixo e um quarto acima dele. Determinação da posição do Quartil i (Qi), ou seja, do PQi: PQi = i.n 4 Posteriormente identifica-se a classe que apresenta o valor PQi e aplica-se a fórmula: Qi = Li PQi f aai fi .h , em que: PQi = posição do elemento do Quartil i [PQi = (i.n)/4]; Li = limite inferior da classe do Quartil i; faai = frequência acumulada da classe anterior a classe do Quartil i; fi = frequência absoluta da classe do Quartil i; h = amplitude da classe do Quartil i. 5.4.2 Decil Os decis dividem o conjunto de dados em dez partes do mesmo tamanho. Determinação da posição do Decil i (Di), ou seja, do PDi: PDi = i.n 10 Posteriormente identifica-se a classe que apresenta o valor PDi e aplica-se a fórmula: Di = Li PDi f aai .h , fi em que: PDi = posição do elemento do Decil i [PDi = (i.n)/10]; Li = limite inferior da classe do Decil i; faai = frequência acumulada da classe anterior a classe do Decil i; fi = frequência absoluta da classe do Decil i; 14 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ h = amplitude da classe do Decil i. 5.4.3 Percentil Os percentis dividem o conjunto de dados em cem (100) partes do mesmo tamanho. O percentil de ordem “i” (Pi) de um conjunto de valores dispostos em ordem crescente é um determinado valor tal que pelo menos “i%” das observações são menores ou iguais a ele e, consequentemente, pelo menos “(100 – i)%” são maiores ou iguais a ele. O percentil i = 50 (P50) é igual à mediana (Md), Q2 e D5. Determinação da posição do Percentil i (Pi), ou seja, do PPi: PPi = i.n 100 Posteriormente identifica-se a classe que apresenta o valor PPi e aplica-se a fórmula: Pi = Li PPi f aai .h , fi em que: PPi = posição do elemento do Percentil i [PPi = (i.n)/100]; Li = limite inferior da classe do Percentil i; faai = frequência acumulada da classe anterior a classe do Percentil i; fi = frequência absoluta da classe do Percentil i; h = amplitude da classe do Percentil i. 6 – MEDIDAS DE DISPERSÃO OU VARIABILIDADE O resumo de um conjunto de dados por meio de uma única medida representativa de tendência central (posição) esconde informações sobre a variabilidade deste conjunto. Desta forma, a análise completa dos dados requer não somente sua apresentação por meio de gráficos, tabelas e medidas de posição. Caracterizar um conjunto de valores apenas por medidas de posição é inadequado e perigoso, pois os dados diferem entre si em maior ou menor grau. Dois conjuntos com medidas de posição semelhantes, por ex. a média, podem ficar sujeitos a erros em suas considerações, aferindo sobre sua homogeneidade inadequadamente. As observações podem estar mais ou menos centradas em torno da média. Neste contexto, as medidas de dispersão ou variabilidade apresentam um aspecto importante na análise exploratória de dados. 15 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 6.1 Variância A variância mede a dispersão dos valores em torno da média, sendo denotada por Var, ^ s2 ou 2 . Ela é dada pela soma dos quadrados dos desvios em relação à média aritmética dividido por (n – 1) graus de liberdade (g.l.). n X i n n i 1 2 2 (Xi X ) Xi SQD i 1 n Var = s2 = i 1 n 1 n 1 n 1 2 Se os valores X1, X2, ..., Xn estiverem associados as frequências f1, f2, ..., fn, a variância é denotada por: n i 1 n fi X i f i X i2 i 1 n fi 2 i 1 s2 = n f i 1 i 1 6.1.1 Variância para dados agrupados em Intervalo de Classe Utiliza-se a mesma fórmula da variância acima mencionada, quando os valores estão associados à frequências: n i 1 s2 = n fi X i f i X i2 i 1 n fi i 1 n f i 1 em que: fi = frequência absoluta da i’ésima classe; Xi = ponto médio da i’ésima classe. 16 i 1 2 , IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 6.2 Desvio Padrão ^ O desvio padrão é denotado por DP, s ou . Ele é definido como a raiz quadrada positiva da variância. É outra medida que fornece uma ideia a respeito da dispersão dos valores em torno da média. Um desvio padrão grande significa que as observações se dispersam muito em torno da média, ao passo que quando pequeno as observações se concentram próximas à média, indicando pequena variabilidade entre as observações. Ele é de grande utilidade na estatística inferencial, pois é uma medida de variabilidade absoluta e sempre na mesma unidade das observações (dados) originais. DP = s = Var s 2 6.3 Intervalo Interquartílico O intervalo interquartílico (ou intervalo interquartil) é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), isto é: IQ = Q3 – Q1 6.4 Coeficiente de Variação Comparar a variabilidade de duas séries estatísticas distintas, quando as médias ou suas unidades de escala são diversas, torna-se impossível pela simples verificação do desvio padrão. É necessário mencionar uma dispersão relativa, isto é, uma medida de variabilidade relativa, tomando o desvio padrão em percentagens dos valores médios. O coeficiente de variação é definido por: CV(%) = DP . 100 X A grande vantagem desta medida (C.V.) é que ela é adimensional, ou seja, independe das unidades de escala, permitindo a comparação de diferentes conjuntos de dados. Quanto maior o C.V. mais heterogênea é a amostra. Ao passo que quando um C.V. de pequena magnitude indica homogeneidade na amostra. 17 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 6.5 Erro Padrão da Média A média aritmética ( X ) é uma estimativa e por isso não é exata. A determinação do erro no cálculo da média é feita por meio do desvio padrão, pois a variação da estimativa da média com relação ao valor real está na dependência da variabilidade dos dados. O erro padrão da média é definido como o quociente entre o desvio padrão e a raiz quadrada positiva do número de observações (n). SX DP n Note que o erro padrão da média [ S X ] é inversamente proporcional à raiz de n, ou seja, quanto maior o tamanho da amostra utilizada para estimar a média menor será o erro padrão da média. 7 – MEDIDAS DE ASSIMETRIA E CURTOSE 7.1 Medida de Assimetria A medida de Assimetria ou Simetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de frequências e/ou histograma, busca-se identificar a forma da distribuição dos dados, que pode ou não ser confirmada pelo Coeficiente de Assimetria de Pearson (As). As X Mo s De acordo com o Coeficiente de Assimetria de Pearson (As), a distribuição pode ser classificada como: Simétrica → As = 0; Assimétrica Negativa → As < 0; Assimétrica Positiva → As > 0. 18 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 7.2 Medida de Curtose A medida de Curtose (K) mede o grau de achatamento da distribuição. É definido como: K Q3 Q1 2P90 P10 A Curtose ou Achatamento é mais uma medida com a finalidade de complementar a caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em uma distribuição de frequências. Uma distribuição pode ser classificada com relação a sua medida de curtose como: Leptocúrtica → quando a distribuição apresenta uma curva de frequência bastante fechada, com os dados fortemente concentrados em torno de seu centro (K < 0,263); Mesocúrtica → quando os dados estão razoavelmente concentrados em torno de seu centro (K = 0,263); Platicúrtica → quando a distribuição apresenta uma curva de frequência mais aberta, com os dados fracamente concentrados em torno de seu centro (K > 0,263). 8 – BOX PLOT (Desenho Esquemático) O Box Plot é outra forma alternativa para representar um conjunto de dados. Este desenho esquemático fornece informações sobre a assimetria (ou simetria), achatamento, dispersão e posição dos dados, além de informar sobre dados discrepantes, isto é, dados com valor muito diferente do restante do conjunto. É extremamente útil quando se deseja comparar várias distribuições. Ele é construído a partir do esquema de cinco números, sendo eles: Os quartis Q1, Q2 e Q3; E os extremos M (valor máximo) e m (valor mínimo). Na construção do Box Plot deve-se calcular também as seguintes quantidades: Limite Inferior → Li = Q1 – 3 IQ 2 Limite Superior → Ls = Q3 + 3 IQ 2 19 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Os valores compreendidos entre estes dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior serão chamadas pontos exteriores ou discrepantes, sendo representadas por asteriscos (*). 8.1 Construção do Box Plot Em um eixo vertical representam-se os valores da variável em questão. Do lado do eixo construímos uma caixa da seguinte maneira: 1. A base da caixa fica na altura do primeiro quartil (Q1) e o seu topo fica na altura do terceiro quartil (Q3); 2. Em seguida marcamos no interior da caixa uma linha na altura da mediana ou do segundo quartil (Q2); 3. Do alto da caixa segue uma linha até o limite superior e de sua base segue uma linha até o limite inferior; 4. Os pontos exteriores ou discrepantes são marcados individualmente por asteriscos. 9 – ANÁLISE BIDIMENSIONAL Até agora vimos como organizar e resumir informações pertinentes a uma única variável (ou a um único conjunto de dados). Entretanto, frequentemente há interesse em analisar o comportamento conjunto de duas ou mais variáveis. Suponha que o interesse seja em analisar o comportamento conjunto de duas variáveis. A distribuição conjunta de duas variáveis pode ser representada por meio de uma Tabela de Frequência de dupla entrada (ou Tabela de Contingência). Como exemplo, considere o comportamento conjunto de duas variáveis: “Sexo” (X) e “Nível de atividade física” (Y), cuja distribuição conjunta está representada na tabela abaixo. Tabela XX – Distribuição conjunta das variáveis sexo e nível de atividade física. Nível de Atividade Física Feminino 20 Sexo Masculino Total IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Ativo Médio Sedentário Total 0 5 12 17 4 6 18 28 4 11 30 45 A linha dos totais fornece a distribuição total da variável X e a coluna dos totais fornece a distribuição total da variável Y. As distribuições assim obtidas (Distribuições dos Totais das Variáveis X e Y) são chamadas de Distribuições Marginais das Variáveis X e Y. Pode-se também construir tabelas de frequências relativas. Em uma distribuição conjunta é possível expressar a proporção de cada casela (célula) de três maneiras diferentes: i) em relação ao total geral; ii) em relação ao total de cada linha; e iii) em relação ao total de cada coluna. A maneira mais conveniente a ser utilizada depende do objetivo da pesquisa. Para exemplificar foi construído, utilizando os dados da tabela acima, a distribuição conjunta dos percentagens em relação ao total geral das variáveis X e Y. Nível de Atividade Física Ativo Médio Sedentário Total Sexo Feminino Masculino 0% 8,9% 11,1% 13,3% 26,7% 40,0% 37,8% 62,2% Total 8,9% 24,4% 66,7% 100,0% O principal objetivo da distribuição conjunta é descrever o grau de associação entre as variáveis, de modo que possamos predizer o resultado de uma variável quando a outra não é conhecida. 9.1 Coeficiente de Contingência O Coeficiente de Contingência é uma medida que quantifica a associação entre duas variáveis, podendo ser utilizado tanto para variáveis qualitativas quanto para variáveis quantitativas agrupadas em intervalos de classe. Inicialmente, obtêm-se as diferenças entre os valores observados (oij) na pesquisa e os valores esperados (eij). Essas diferenças são chamadas de desvios [d = (oij - eij)]. A soma de todos os desvios relativos é denominada 2 (Qui-quadrado) sendo definida pela expressão: 21 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ oij eij 2 j e ij 2 i De acordo com Pearson, o Coeficiente de Contingência (C) proposto é definido: C 2 2 n , em que n é o número total de observações. Os coeficientes de associação entre variáveis frequentemente variam entre 0 e 1, ou entre –1 e +1, sendo que a proximidade de zero indica falta de associação entre as variáveis. Contudo, o Coeficiente de Contingência (C) acima descrito não varia entre 0 e 1. O seu valor máximo fica na dependência do número de níveis das variáveis. Uma alternativa, então, é considerar como medida de associação o seguinte coeficiente, denominado Coeficiente de Contingência Corrigido (C*), dado por: C* C t 1 , t em que t é o número mínimo entre o número de colunas e o número de linhas da tabela de contingência, ou seja, é o mínimo entre os níveis das variáveis envolvidas na pesquisa. OBS: Uma maneira fácil de obter o valor esperado em cada casela da tabela de contingência é: eij Total da linha i xTotal da coluna j Total geral 9.2 Coeficiente de Correlação ^ O Coeficiente de Correlação (r ou ) mede o grau de associação entre duas variáveis quantitativas (não agrupadas em intervalos de classe) X e Y. Um procedimento bastante útil para verificar a existência de associação entre as variáveis é o Gráfico de Dispersão, por meio da representação dos pares de valores (Xi e Yi) em um sistema cartesiano. Considere duas amostras relativas às variáveis X e Y, dadas a seguir: 22 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Xi X1 X2 X3 .......... Xn Yi Y1 Y2 Y3 .......... Yn O Coeficiente de Correlação entre duas variáveis X e Y é definido por: n n Cov( X , Y ) ^ rxy = = … Var ( X ).Var (Y ) X Y SPXY Cov(X,Y) = n 1 i 1 i i n X Y i 1 i i 1 i n n 1 O Coeficiente de Correlação assume sempre um valor entre –1 e +1. Valores positivos correspondem a uma associação direta, já os valores negativos correspondem a uma associação inversa. Quando o Coeficiente de Correlação for igual a +1 ou –1, diz que existe uma associação (relação) perfeita entre as variáveis X e Y. Ao passo que quando ele se iguala ou se aproxima de zero (0) é um indicativo de que não exista associação entre as variáveis. EXERCÍCIOS PROPOSTOS 1 – Considere o conjunto de dados obtido ao medir a altura de 100 indivíduos (dados em cm). 151 162 166 168 169 171 173 176 178 182 153 162 166 168 169 171 174 176 179 182 154 162 167 168 169 171 174 176 180 183 155 163 167 168 169 171 174 177 180 184 156 163 167 168 169 172 174 177 181 185 158 164 167 168 170 172 175 177 181 186 159 165 167 168 170 172 175 177 181 187 160 165 167 169 170 172 175 177 181 188 161 166 168 169 170 173 175 177 182 190 161 166 168 169 170 173 175 177 182 190 Pede-se: a) Obter a Distribuição de Frequência em Intervalo de Classe; b) Construir os gráficos: b.1) Histograma; b.2) Polígono de Frequência; b.3) Polígono de Frequência Acumulada (Ogiva). 2 – Os dados abaixo se referem ao ganho de peso (kg) de animais que foram alimentados com determinada ração. Construir um Ramo-e-Folhas para o conjunto de dados. 26 30 65 43 27 28 30 33 23 60 34 26 32 34 31 28 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 27 31 66 44 28 29 41 34 61 25 17 43 35 32 19 3 – Registraram-se as vendas semanais de determinada loja durante o mês de fevereiro/2011, com os seguintes resultados, em milhões de reais: 11,3 ; 12,4 ; 15,8 ; 9,6 Qual a venda média semanal para o mês de fevereiro/2011? 4 – Um estudante obteve as seguintes notas parciais nas provas de Estatística: Prova 1ª 2ª 3ª 4ª Peso 1 1 2 4 Nota 5,0 7,0 5,0 7,0 Considerando que as provas apresentam pesos distintos, qual a média final do estudante na disciplina? 5 – São fornecidos três conjuntos de dados (amostras). Obter em cada qual a Moda (Mo) e a Mediana (Md). a) 11,3 ; 12,4 ; 15,8 ; 9,6 ; 10,4 ; 8,3 ; 7,8 ; 9,5 b) 11,3 ; 12,4 ; 9,6 ; 8,3 ; 7,8 ; 8,3 c) 11,2 ; 11,2 ; 15,8 ; 10,7 ; 9,6 ; 7,8 ; 9,6 6 – Considere o conjunto de dados: {9 ; 3 ; 8 ; 8 ; 9 ; 8 ; 9 ; 1}. Calcular: a) Variância; b) Desvio Padrão; c) Erro Padrão da Média; d) Coeficiente de Variação. 7 – A tabela abaixo apresenta a Distribuição de Frequência das notas (0 a 100) de um exame final feito por estudantes matriculados na disciplina de Estatística. 24 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Classes 5├── 15 15├── 25 25├── 35 35├── 45 45├── 55 55├── 65 65├── 75 75├── 85 85├── 95 fi 5 8 6 4 10 12 15 10 10 Calcular: a) Média; b) Moda; c) Mediana; d) Q1 ; D9 ; P10 ; e) Variância; f) Desvio Padrão; g) Coeficiente de Variação; h) Erro Padrão da Média; i) Valor (nota) acima do qual se encontra 60% dos dados; j) Qual a percentagem de alunos que obtiveram nota superior a 50? k) Assimetria; l) Curtose. 8 – São fornecidas algumas estatísticas referentes às produções (ton/ha) de duas variedades de cana-de-açúcar. Variedade 1 → Q1 = 47,00 ; Md = 53,00 ; Q3 = 55,00 Variedade 2 → Q1 = 68,00 ; Md = 70,00 ; Q3 = 76,00 Pede-se: a) Box Plot das variedades 1 e 2; b) Comentários/Comparações das variedades de cana-de-açúcar com relação à dispersão e simetria de suas produções. 9 – Em um experimento para testar a resistência de Eucalyptus à ferrugem causada por Puccinia psidii, determinado número de plantas de três espécies diferentes de Eucalyptus foram infectadas artificialmente. Após certo tempo, contou-se o número de plantas doentes. 25 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Os resultados estão na tabela abaixo. Obter os Coeficientes de Contingência (C) e de Contingência Corrigido (C*). Infecção Doentes Sadias Total E. citrioda 6 104 110 E. urophylla 10 90 100 E. cloeziana 80 30 110 Total 96 224 320 10 – Sete clones de cacaueiros foram avaliados para Número Total de Frutos Colhidos (NTFC) e Número Total de Frutos Sadios (NTFS). Calcule o Coeficiente de Correlação (r) entre as variáveis NTFC e NTFS. Clones NTFC (X) NTFS (Y) CAB443 92,00 66,40 CAB444 75,40 44,80 CAB447 60,40 41,40 CAB450 100,60 82,40 CONTEÚDO III PROBABILIDADE 26 CAB452 46,20 33,40 CAB453 97,60 77,60 CAB454 42,00 29,40 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 1 – INTRODUÇÃO E PROPRIEDADES A teoria da probabilidade representa um instrumento para a construção e análise de modelos matemáticos relacionados a fenômenos aleatórios. Ao estudarmos um fenômeno aleatório estamos diante de um experimento cujo resultado não pode ser determinado, mas sim ter o seu comportamento probabilístico. Modelo Determinístico → É o modelo em que a partir das condições sobre as quais um experimento é executado pode-se determinar o seu resultado. Ex.: s = -1,6 t2 + v0t Modelo Não-Determinístico ou Probabilístico → É o modelo em que às condições de execução de um experimento não permitem determinar o seu resultado, mas sim apenas um comportamento probabilístico do resultado a ser observado. Ex.: Previsão do tempo Experimentos Probabilísticos ou Aleatórios → São experimentos que repetidos diversas vezes, sob condições idênticas, podem fornecer resultados distintos entre as repetições, ou seja, os resultados podem não ser os mesmos. Ex1: Lançar um dado e verificar sua face superior Ex2: Lançar uma moeda e verificar sua face superior Espaço Amostral → Representa o conjunto de todos os possíveis resultados de um experimento aleatório. Em geral, é representado pela simbologia “S”. S1: {1;2;3;4;5;6} S2: {Ca ; Co} Evento → É um subconjunto qualquer do espaço amostral, ou mesmo um conjunto particular de resultados do “S” (subconjunto do S). Será útil considerarmos o “S” e o conjunto vazio (Ø) como eventos. O primeiro é considerado evento certo → P(S) = 1. O segundo evento impossível → P(Ø) = 0. Ex1.: Evento A = Ocorrer face ímpar no lançamento de um dado → A = {1;3;5} Ex2.: Evento B = Ocorrer face par no lançamento de um dado → B = {2;4;6} 27 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Ex3.: Evento C = Ocorrer face superior a dois (2) no lançamento de um dado → C = {3;4;5;6} Eventos Mutuamente Exclusivos (Disjuntos) → Diz-se que dois eventos são mutuamente exclusivos se, e somente se, a ocorrência de um evento impedir a ocorrência do outro. Na teoria dos conjuntos eles não possuem nenhum ponto em comum. Ex.: Eventos A e B Eventos Não-Mutuamente Exclusivos ou Eventos Quaisquer → Dois eventos são designados como eventos quaisquer quando eles podem ocorrer simultaneamente (possuem pontos em comum). Ex.: Eventos A e C ou Eventos B e C A U B → É a união de dois eventos, representando a ocorrência de pelo menos um dos eventos “A” ou “B”. A ∩ B → É a interseção de dois eventos, representando a ocorrência simultânea dos eventos “A” e “B”. Eventos Complementares → Dois ou mais eventos são complementares quando sua união resulta no “S”. Ex.: Eventos A e B, ou seja, o evento B é definido como sendo o AC Frequência Relativa → Seja “E” um experimento e “A” e “B” eventos associados a este experimento. Se após “n” realizações/repetições do experimento forem observados nA e nB resultados favoráveis aos eventos A e B, respectivamente, então suas frequências relativas são: fA = nA/n e fB = nB/n. Propriedades da Frequência Relativa: 0 ≤ fA ≤ 1 fA = 1 ↔ nA = n fA = 0 ↔ nA = 0 Se A ∩ B = Ø, então fAUB = fA + fB 28 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ O Princípio da Regularidade Estatística afirma que se um experimento for realizado sob as mesmas condições um grande número de vezes, determinada frequência relativa tende a se estabilizar e se aproximar do seu valor de probabilidade. Neste caso, definimos uma função P : S → [0 ; 1], que chamaremos de Probabilidade, se forem satisfeitas as seguintes condições: 0 ≤ P(A) ≤ 1, para qualquer evento “A” do “S” P(S) = 1 Se A ∩ B = Ø, então P(A U B) = P(A) + P(B) OBS1: Esta terceira condição pode ser generalizada para o caso de um número finito de eventos mutuamente exclusivos → P(A1 U A2 U ... U An) = P(A1) + P(A2) + ... + P(An); OBS2: P(S) = P(A) + P(AC) = 1; OBS3: Se os elementos do “S” são equiprováveis, isto é, apresentam a mesma chance de ocorrer, definiremos a probabilidade de um evento A como sendo: P(A) = nº elementos A nº elementos S 1.1 Teoremas de Probabilidade Teorema 1 → Seja Ø o evento vazio, então: P(Ø) = 0 Teorema 2 → AC denomina-se o complemento do evento “A”, então: P(AC) = 1 – P(A) Teorema 3 → Sejam “A” e “B” dois eventos quaisquer associados a um mesmo experimento aleatório, então: P(A U B) = P(A) + P(B) – P(A ∩ B) Teorema 4 → Sejam “A”, “B” e “C” três eventos quaisquer associados a um mesmo experimento aleatório, então: P(A U B U C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C) 29 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 2 – PROBABILIDADE CONDICIONAL Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório. A probabilidade do evento “A” ocorrer uma vez que o evento “B” tenha ocorrido, ou seja, a probabilidade condicional de “A” dado que “B” ocorreu, é definida por: P(A/B) = P( A B) , para P(B) > 0 P( B) (Lê-se: probabilidade condicional de “A” dado que “B” ocorreu) OBS: Quando P(B) = 0 tem-se que P(A/B) = 0. 2.1 Teorema do Produto das Probabilidades Vimos que a probabilidade condicional do evento “A” na hipótese de que o evento “B” tenha ocorrido é dada por: P(A/B) = P( A B) P( B) Multiplicando ambos os lados da igualdade obtêm: P(A ∩ B) = P(A/B) x P(B) Este resultado é designado pelo nome “Teoria do Produto das Probabilidades”. É de grande utilidade, pois permite o cálculo da probabilidade de interseção a partir da probabilidade condicional. 3 – INDEPENDÊNCIA PROBABILÍSTICA Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório. Dizemos que “A” e “B” são dois eventos independentes se for válida a igualdade: 30 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ P(A ∩ B) = P(A) x P(B) Se “A” e “B” são independentes, temos então que P(A/B) = P(A), pois: P(A/B) = P( A B) P( A) xP( B) = = P(A) P( B) P( B) Suponha três eventos quaisquer “A”, “B” e “C”. Eles serão independentes se for válida as seguintes condições: i) P(A ∩ B) = P(A) x P(B) P(A ∩ C) = P(A) x P(C) P(B ∩ C) = P(B) x P(C) ii) P(A ∩ B ∩ C) = P(A) x P(B) x P(C) Se os eventos “A”, “B” e “C” satisfazerem as condições i e ii eles são referidos como mutuamente independentes. 4 – TEOREMA DE BAYES Com base na definição de probabilidade condicional pode-se estabelecer um resultado útil, conhecido como Teorema de Bayes. Sejam “A” e “B” dois eventos quaisquer, associados a um experimento aleatório, com P(A) > 0 e P(B) > 0. P(B/A) = P(Bj/A) = P( A / B j ) xP( B j ) n P( A / B ) xP( B ) i 1 i = P( A / B) xP( B) P( A) P( A / B j ) xP( B j ) P( A / B1 ) xP( B1 ) P( A / B2 ) xP( B2 ) ... P( A / Bn ) xP( Bn ) i 31 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ O Teorema de Bayes relaciona a probabilidade de um evento principal com probabilidades condicionais, em que B1, B2, ..., Bn são eventos mutuamente exclusivos e exaustivos. Simbolicamente P(Bi ∩ Bj) = Ø para i ≠ j e P(B1 U B2 U ... U Bn) = P(S) = 1. EXERCÍCIOS PROPOSTOS 1 – De acordo com o experimento defina o espaço amostral (S): a) Lançamento de uma moeda duas vezes; b) Jogar um dado e observar sua face superior; c) Uma fábrica produz determinado artigo. Da linha de produção são retirados três artigos, cada qual classificado como Bom (B) ou Defeituoso (D). 2 – Determinar os eventos de acordo com os experimentos do exercício anterior: a) Evento A → Ocorrência de uma cara; b) Evento B → Ocorrência de face menor que seis; c) Evento C → Obtenção de dois artigos defeituosos. 3 – Um lote é formado por dez artigos bons, quatro com defeitos menores e dois com defeitos graves. Um artigo é escolhido ao acaso. Calcule a probabilidade de que: a) Ele não tenha defeitos; b) Ele não tenha defeitos graves; c) Ele seja perfeito ou tenha defeitos graves. 4 – Considere um experimento aleatório e os eventos A e B associados a ele. Sabendo-se que P(A) = ½; P(B) = 1/3 e P(A ∩ B) = ¼. Calcule: a) P(AC); b) P(BC); c) P (A U B). 5 – Sejam A, B e C três eventos de um mesmo espaço amostral. Sabe-se que P(A) = P(B) = 1/3; P(C) = ¼; P(A ∩ B) = 1/8; P(A ∩ C) = P(B ∩ C) = 1/9 e P(A ∩ B ∩ C) = 1/20. Calcular as seguintes probabilidades: 32 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ a) De um evento “X”, consistindo na realização de pelo menos um dos eventos A, B ou C; (Considere que sejam três eventos quaisquer) b) De um evento “Y”, consistindo na realização de pelo menos um dos eventos A, B ou C. (Considere que sejam três eventos mutuamente exclusivos) c) Os eventos A, B e C são mutuamente independentes? 6 – O quadro abaixo representa a divisão dos alunos matriculados em determinado Instituto de Matemática. Pede-se: Curso Matemática Pura (MP) Matemática Aplicada (MA) Estatística (E) Computação (C) Total Sexo Masculino Feminino 70 40 15 15 10 20 20 10 115 85 Total 110 30 30 30 200 a) A probabilidade de o aluno estar matriculado em Matemática Pura (MP); b) A probabilidade de o aluno ser do sexo feminino; c) Dado que o aluno escolhido ao acaso esteja matriculado no curso de Estatística (E), qual a probabilidade de ser do sexo feminino; d) Sabendo que uma aluna foi escolhida, qual a probabilidade dela estar matriculada no curso de Estatística (E). 7 – Em determinada universidade 25% dos estudantes foram reprovados em Matemática (M), 15% em Estatística (E) e 10% em Matemática e Estatística. Um estudante é selecionado aleatoriamente: a) Se ele foi reprovado em Estatística, qual é a probabilidade de ter sido reprovado em matemática; b) Se ele foi reprovado em Matemática, qual é a probabilidade de ter sido reprovado em Estatística; c) Qual é a probabilidade de ter sido reprovado em Matemática ou Estatística. 8 – Uma indústria farmacêutica produz medicamentos em três laboratórios: I, II e III. O laboratório I produz 40% dos medicamentos, enquanto que os laboratórios II e III produzem 30% cada. A probabilidade de que um medicamento produzido por estes laboratórios 33 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ apresente adulteração com relação a sua composição química é de 0,01; 0,04 e 0,03 para os laboratórios I, II e III, respectivamente. a) Sabendo que o medicamento escolhido é adulterado, determinar a probabilidade de ele ter sido produzido pelo laboratório I; b) Sabendo que o medicamento escolhido é adulterado, determinar a probabilidade de ele não ter sido produzido pelo laboratório I. CONTEÚDO IV VARIÁVEIS ALEATÓRIAS 34 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 1 – INTRODUÇÃO Variável Aleatória (v.a.) é toda e qualquer variável associada a uma probabilidade, isto é, os seus valores estão relacionados a um experimento aleatório. Exemplo: Ao jogar uma moeda duas vezes, o espaço amostral associado a este experimento aleatório será: S = { Ca Ca ; Ca Co ; Co Ca ; Co Co}. Considere que “X” represente o número de caras na face superior do lançamento da moeda. Temos então uma função definida no espaço amostral: Ponto Amostral Ca Ca Ca Co Co Ca Co Co X 2 1 1 0 Uma função definida em um espaço amostral é denominada variável aleatória, sendo designada, em geral, por uma letra maiúscula (X, Y, Z, ...). Uma variável aleatória pode ser classificada como Variável Aleatória Discreta (v.a.d.) ou Variável Aleatória Contínua (v.a.c.). 2 – VARIÁVEL ALEATÓRIA DISCRETA Considere X uma Variável Aleatória. Se o conjunto de valores de X for finito ou infinito enumerável, então X será uma Variável Aleatória Discreta (v.a.d.), sendo obtida mediante a alguma forma de contagem. Exemplos: Número de acidentes ocorridos em uma semana; Número de peças defeituosas produzidas por uma máquina; Número de filhos do sexo masculino de um casal. 2.1 Função de Probabilidade 35 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ A Função de Probabilidade de uma Variável Aleatória Discreta X é uma função que define a probabilidade de ocorrência de cada resultado xi desta variável, isto é, se X assume os valores {x1 ; x2 ; ... ; xn}, então: P(X = xi) = P(xi) = pi , em que a cada valor xi associa-se a sua probabilidade de ocorrência. A Função de Probabilidade satisfaz as seguintes condições: P(xi) ≥ 0, para todo xi n P( x ) 1 i 1 i A coleção dos pares [xi ; P(xi)], com i = 1, 2, ..., n, denominaremos de Distribuição de Probabilidade da Variável Aleatória Discreta X, podendo ser representada por meio de tabelas e/ou gráficos. Exemplo: Considere o experimento aleatório mencionado anteriormente (lançamento de uma moeda duas vezes), em que “X” represente o número de caras na face superior do lançamento da moeda. A Distribuição de Probabilidade da Variável Aleatória Discreta X será: Xi P(Xi) 0 1/4 1 1/2 2 1/4 1,0 2.2 – Medidas de Posição 2.2.1 Esperança Matemática ou Valor Esperado A Esperança Matemática ou Valor Esperado quantifica a média de uma Variável Aleatória Discreta (v.a.d.). Seja X uma v.a.d. com a seguinte Distribuição de Probabilidade: Xi P(Xi) X1 P(X1) X2 P(X2) ... ... Define-se Esperança Matemática de X por: 36 Xn P(Xn) 1,0 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ n E(X) = X1.P(X1) + X2.P(X2) + ... + XnP(Xn) = X .P( X i 1 i i ) Propriedades da Esperança Matemática: A Esperança Matemática de uma constante é a própria constante → E(K) = K; A Esperança Matemática do produto de uma constante por uma variável é igual ao produto da constante pela Esperança Matemática da variável → E(KX) = K.E(X); Se X e Y são duas variáveis aleatórias independentes → E(XY) = E(X).E(Y); Esperança Matemática da soma ou da subtração de duas variáveis quaisquer é igual à soma ou subtração das Esperanças Matemáticas das duas variáveis aleatórias → E(X Y) = E(X) E(Y); A Esperança Matemática da soma ou subtração de uma variável aleatória com uma constante é igual à soma ou subtração da Esperança Matemática da variável com a constante → E(X K) = E(X) K. 2.2.2 – Mediana A Mediana é o valor de Xi que divide a Distribuição de Probabilidade em duas partes equiprováveis. P(X ≤ Md) = P(X > Md) = ½ 2.2.3 – Moda A Moda de uma Variável Aleatória Discreta X é o valor de Xi que apresenta maior probabilidade em sua Distribuição de Probabilidade. 2.3 – Medidas de Dispersão 37 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 2.3.1 – Variância A Variância é uma medida que quantifica a dispersão dos valores em torno da média. A Variância de uma Variável Aleatória Discreta X é definida por: V(X) = E[ X E ( X )] 2 E ( X 2 ) [ E ( X )] 2 em que: n E(X2) = X i 1 2 i .P( X i ) Propriedades da Variância: A variância de uma constante é igual à zero → V(K) = 0; Somando ou subtraindo uma constante a uma variável aleatória sua variância não se altera → V(X ± K) = V(X); Multiplicando uma variável aleatória por uma constante sua variância fica multiplicada pelo quadrado da constante → V(K.X) = K2.V(X); A variância da soma ou subtração de duas Variáveis Aleatórias Independentes (X e Y) é igual à soma de suas variâncias → V(X ± Y) = V(X) + V(Y). 2.3.2 – Desvio Padrão O Desvio Padrão de uma Variável Aleatória Discreta X é a raiz quadrada positiva da variância da v.a.d. X. DPX V (X ) 3 – VARIÁVEL ALEATÓRIA CONTÍNUA Seja X uma Variável Aleatória (v.a.). Se X puder assumir todo e qualquer valor em algum intervalo a ≤ X ≤ b, em que a e b podem ser - e + , então X é uma Variável Aleatória Contínua (v.a.c.). A v.a.c. está associada a um espaço amostral infinito e não enumerável. EXERCÍCIOS PROPOSTOS 38 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 1 – Uma urna contém quatro bolas azuis e seis bolas brancas. Duas bolas são retiradas sucessivamente. Determinar a Distribuição de Probabilidade do número de bolas brancas retiradas, em cada caso: a) Com reposição; b) Sem reposição. 2 – Seja X uma Variável Aleatória Discreta (v.a.d.) com a seguinte Distribuição de Probabilidade: Xi P(Xi) –2 1/4 –1 1/8 2 1/2 Pede-se: a) E(X); b) Md(X); c) Mo(X); d) V(X); e) DP(X); f) E(Y) e V(Y), dado que Y = 2X + 5. CONTEÚDO V 39 4 1/8 Total 1,0 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ DISTRIBUIÇÕES DE VARIÁVEIS ALEATÓRIAS 1 – DISTRIBUIÇÃO BINOMIAL (Variável Aleatória Discreta) Um Experimento de Bernoulli é um experimento que admite apenas dois tipos de resultados, denominados sucesso e fracasso. A probabilidade de ocorrência de sucesso é igual ao parâmetro p. Exemplos de Experimentos de Bernoulli: Lançar uma moeda e observar a face superior. Os possíveis resultados são cara (sucesso) e coroa (fracasso) OU cara (fracasso) e coroa (sucesso); Lançar um dado e observar se ocorre à face número 5 (face 5: sucesso) ou a ocorrência de outra face (faces 1; 2; 3; 4 ou 6: fracasso). Seja X o número de sucessos em n repetições independentes e idênticas de um Experimento de Bernoulli caracterizado com o parâmetro p. Então X terá Distribuição Binomial, caracterizada pelos parâmetros n e p. Notação da Distribuição Binomial: X ~ B (n ; p) → X segue Distribuição Binomial com n repetições e p probabilidade de sucesso. A esperança matemática e a variância de uma variável aleatória X que segue Distribuição Binomial são definidas por: E(X) = n.p V(X) = n.p.q, em que q = 1 – p (q = fracasso) Exemplos de experimentos que seguem Distribuição Binomial: n lançamentos de uma moeda, em que X = número de caras; n lançamentos de um dado, em que X = número de vezes que ocorre a face 5; OBS: Observar que a v.a.d. X que segue Distribuição Binomial pode assumir os valores: {0 ; 1 ; 2 ; 3 ; ... ; n} 40 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ A Função de Probabilidade de uma v.a.d. X que segue Distribuição Binomial é definida por: P(X = x) = C nx . p x .q n x n! . p x .q n x , x!(n x)! em que: n>0 ; 0<p<1 ; p+q=1 2 – DISTRIBUIÇÃO NORMAL (Variável Aleatória Contínua) Diz-se que uma Variável Aleatória Contínua X segue Distribuição Normal, com parâmetros μ e σ2, se o gráfico de sua Função Densidade de Probabilidade for uma Curva Normal, ou seja, apresentar Distribuição Simétrica. Mais especificamente, quando sua Função Densidade de Probabilidade for definida pela equação: f ( x) 1 2 2 .e 1 x . 2 2 , -∞ < x < ∞ , em que: e = 2,71828… ; π = 3,14159… Os parâmetros que caracterizam a Distribuição Normal são a média e a variância da Variável Aleatória Contínua X, denotados por μ e σ2, respectivamente. Notação da Distribuição Normal: X ~ N (μ ; σ2) → X segue Distribuição Normal com média μ e variância σ2. 2.1 – Características da Distribuição Normal A curva normal é simétrica em torno de sua média μ; A área total abaixo da curva vale 1 (um). Devido a sua simetria, 50% da área ficam à esquerda da média μ e 50% ficam à direita da média μ; A média, a mediana e a moda são iguais (Distribuição Simétrica); 41 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ A Distribuição Normal fica completamente caracterizada identificando os parâmetros μ e σ2 (μ pode assumir qualquer valor real e σ2 é sempre positiva); Qualquer combinação linear de uma v.a.c. que segue Distribuição Normal também resultará em uma v.a.c. com Distribuição Normal. Mais especificamente, se X ~ N (μ ; σ2) e Y = aX + b, sendo a e b constantes quaisquer, então Y ~ N (aμ + b ; a2σ2). 2.2 – Distribuição Normal Padrão ou Normal Reduzida Diz-se que uma v.a.c. X segue Distribuição Normal Padrão ou Normal Reduzida se X ~ N (0 ; 1), isto é, se X apresentar uma Distribuição Normal com média 0 e variância 1. A Função Densidade de Probabilidade da Distribuição Normal Padrão é definida por: f ( x) 1 2 .e x2 2 , -∞ < x < ∞ A Distribuição Normal Padrão está tabelada, o que facilita seus cálculos. Para determinar a área abaixo da Curva da Normal Padrão, entre dois pontos quaisquer, não há necessidade de calcular a integral de sua Função Densidade de Probabilidade. Para obter as áreas de interesse sob a Curva da Normal Padrão utiliza-se a Variável Normal Padronizada (Z): Z X , em que: Z = Valor da Variável Normal Padronizada, obtido em tabela específica; X = Valor assumido pela v.a.c. X; = Média da v.a.c. X; = Desvio Padrão da v.a.c. X. Como os valores da Variável Normal Padronizada (Z) estão tabelados, para determinar a área abaixo da curva entre dois pontos quaisquer basta consultar a Tabela da Distribuição Normal. A média e a variância da Variável Normal Padronizada (Z) são 0 e 1, respectivamente. Ou seja, E(Z) = 0 e V(Z) = 1. Notação da Variável Normal Padronizada (Z): 42 Z N (μ ; σ2) → Z N (0 ; 1). IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ EXERCÍCIOS PROPOSTOS 1 – Um produtor de sementes afirma que 80% das sementes produzidas por determinado genótipo germinam. Você planta cinco destas sementes, compradas deste produtor. Qual a probabilidade de: a) Exatamente duas sementes germinarem; b) Exatamente duas sementes não germinarem; c) Pelo menos duas sementes germinarem; d) Suponha que 100 pessoas estejam em situação análoga a sua, isto é, cada uma plantou cinco destas sementes. Para quantas pessoas espera-se que exatamente duas sementes germinem? 2 – Entre 2.000 famílias com quatro crianças cada, quantas famílias são esperadas que apresentem: a) Pelo menos um menino; b) Exatamente uma menina. 3 – Calcular: a) P(Z ≤ 1,82); b) P(Z ≤ - 2,03); c) P(- 2,55 ≤ Z ≤ 1,20); d) P(Z ≥ 1,93). 4 – Seja X uma v.a.c. normalmente distribuída com média 850 e desvio padrão 48. Determinar: a) P(X < 790); b) P(X > 940); c) P(760 < X < 920). 5 – Considere que X e Y sejam duas v.a. com Distribuição Normal e Independentes. Determinar para a variável W a probabilidade de ser superior a 25, ou seja, P(W > 25). Dados: E(X) = 5 ; V(X) = 2 ; E(Y) = 3 ; V(Y) = 1 ; W = 3X + Y + 2 43 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO VI INFERÊNCIA ESTATÍSTICA 1 – INTRODUÇÃO Ao retirar uma amostra aleatória de uma população e calcularmos a partir desta amostra qualquer quantidade (medidas descritivas numéricas), encontramos a estatística, ou seja, chamaremos os valores calculados em função dos elementos da amostra de estatísticas. As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com uma média, uma variância, etc. A distribuição de probabilidade de uma estatística é denominada de Distribuição Amostral. A inferência estatística tem por objetivo fazer generalização sobre uma população com base em dados de uma amostra. As populações são caracterizadas por medidas descritivas numéricas, chamadas de parâmetros. Muitas pesquisas estatísticas tem por objetivo fazer inferência a respeito de um ou mais parâmetros da população. Essa inferência pode ser por meio de um único valor numérico (estimação por ponto), por uma amplitude de valores numéricos (estimação por intervalo) ou pelo simples “sim” ou “não” (teste de hipótese). Como exemplo, considere uma nova marca de inseticida lançada no mercado. A pesquisa estatística pode ter diversos interesses: i) saber qual dose de inseticida mata 90% dos insetos (estimação por ponto); ii) desejar um intervalo com coeficiente 1 – α de confiança para que se tenha a mortalidade de 90% dos insetos (estimação por intervalo); iii) ou ainda o interesse poderia focar se o inseticida novo é preferível aos já existentes no mercado (teste de hipóteses). A estimação por ponto utiliza a informação da amostra para chegar a um único valor numérico ou ponto, que estima o parâmetro de interesse (parâmetro populacional). Ex: Média, Variância, Coeficiente de Variação, etc. A estimação por intervalo utiliza a informação da amostra para chegar a dois números, entre os quais se espera encontrar o parâmetro de interesse. Caso este intervalo esteja associado a uma probabilidade “1 – α”, tem-se um intervalo de confiança com coeficiente de confiabilidade de “1 – α”. 44 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 2 – CONCEITOS População: é o conjunto de todos os elementos sobre os quais desejamos desenvolver determinado estudo; Amostra: é uma parte dos elementos da população, ou seja, qualquer subconjunto da população; Parâmetro: é uma medida utilizada para descrever uma característica da população; Estatística: é uma característica da amostra, ou seja, uma estatística T é uma função de X1, X2, X3, ..., Xn → T = f (X1, X2, X3, ..., Xn); Estimador: é qualquer estatística T = f (X1, X2, X3, ..., Xn) utilizada para estimar uma quantia desconhecida. Em geral, ele é representado por uma determinada fórmula; Estimativa: é o valor numérico assumido pelo estimador quando os valores observados (X1, X2, X3, ..., Xn) são considerados. 3 – DISTRIBUIÇÃO AMOSTRAL DA MÉDIA A distribuição amostral de uma determinada estatística é a distribuição de todos os possíveis valores que ela pode assumir, calculados a partir de todas as possíveis amostras de mesmo tamanho. Para determinado tamanho “n” da amostra, tomada de uma população com média “μ”, o valor da média amostral ( X ) varia de uma amostra para outra. A distribuição amostral da média é descrita para determinar o Valor Esperado [E( X )] e o Desvio Padrão [σ( X )] da distribuição das médias. Uma vez que o Desvio Padrão indica a acurácia da média da amostra como um estimador por ponto, σ( X ) é usualmente chamado de Erro Padrão da Média. Em geral, o Valor Esperado e o Erro Padrão da Média são definidos como: E( X ) = μ σ( X ) = 45 n IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 4 – INTERVALO DE CONFIANÇA (IC) A estimação por ponto é bastante útil, porém nenhuma acurácia ou precisão pode ser associada a esta estimação. Assim, ao invés de inferirmos sobre um único valor referente ao parâmetro populacional, podemos inferir se o verdadeiro parâmetro está contido em determinado intervalo compreendido entre dois valores, que representam os extremos do intervalo (LSuperior e LInferior). O objetivo da estimação por intervalo é gerar intervalos pequenos que incluam o verdadeiro parâmetro populacional com alta probabilidade. Os extremos do intervalo podem variar aleatoriamente de uma amostra para outra, pois estão em função das médias amostrais (estimativas). O comprimento do intervalo pode ser obtido pela diferença entre os limites superior e inferior (LSup. – LInf.). 4.1 IC para a Média (μ) de uma População Normal com σ2 conhecida X Z P X Z =1–α n n 2 2 IC (μ) 1 – α: X ± Z 2 n O comprimento do IC além de ser obtido pela diferença entre os limites superior e inferior, também pode ser obtido pela expressão: Comprimento do IC = 2. Z 2 n Caso seja mantido os valores de n, σ e α o seu comprimento será fixo/constante. Já a estimativa da média ( X ) continua sendo uma variável aleatória, que determina os extremos do intervalo de acordo com a amostra considerada. A interpretação do IC pode ser assim mencionada: Tem-se 1 – α (%) de confiança de que o parâmetro populacional (μ) esteja compreendido no intervalo obtido. Ou mesmo, se construirmos n intervalos do mesmo tipo (tamanho e confiança), espera-se que em 1 – α (%) deles contenha o verdadeiro parâmetro (μ). 46 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ EXERCÍCIOS PROPOSTOS 1 – Suponha que a média de uma população seja μ = 50,00 e o desvio padrão σ = 12,00. a) Determinar a Distribuição Amostral da Média das amostras de tamanho n = 36 em termos de Valor Esperado e Erro Padrão da Média; b) Determinar o tamanho da amostra para se obter um Erro Padrão da Média igual a 3,00. 2 – Uma Variável Aleatória X tem Distribuição Normal, com média 100 e desvio padrão 10. a) Se X é a média de uma amostra de 16 elementos retirados dessa população, calcule P (90 < X < 110); b) Que tamanho deveria ter a amostra para que P (90 < X < 110) = 95%? 3 – Seja X a duração da vida de uma peça de equipamento, tal que σ = 5 horas. Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de X = 500 horas. a) Obter um intervalo de 95% de confiança para a média μ; b) Qual o tamanho da amostra para que o intervalo 500 ± 1,63 tenha 95% de confiança? 47 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO VII LISTAS DE EXERCÍCIOS CONTEÚDO I – Somatório 1 – Considere os seguintes valores: X1 = 2 X2 = 4 X3 = 6 X4 = 8 X5 = 10 X6 = 12 X7 = 14 X8 = 16 Y1 = 1 Y2 = 3 Y3 = 5 Y4 = 7 Y5 = 9 Y6 = 11 Y7 = 13 Y8 = 15 Calcule os somatórios: Xi Yi 2 i 3 6 a) b) X i Yi 3 i 1 4 8 c) X i 1 i 2 ; 4 ; 6 ;8 6 d) (Y i2 i 3 i 2) 2 2 – Calcule os valores de X1 e X3. 6 Dados: X i 1 i 42 6 X i 1 2 i 364 6 X i 1 i 1; 3 i 34 i 1 i 1; 3 3 – Sabendo-se que: X1 = 3 X2 = 4 X3 = 8 X4 = 7 X5 = 6 Y1 = 3 Y2 = 8 Y3 = 2 Y4 = 5 Y5 = 6 Calcule: 5 a) X i 1 i2 i 48 6 X 2 i 324 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 5 b) 4X i 1 i 5 c) (X i 3 6) i 4 d) (2 X i 2 3) i 5 e) X Y i i i 1 5 f) (X i 1 Yi ) i 4 – Dados: i 1 2 3 4 5 6 fi 3 5 9 10 2 1 Calcule os seguintes somatórios: 6 a) X i 1 i 6 b) f i 1 i f X 6 c) 2 i i i 1 6 f X d) i i 1 i 6 f i 1 i f X 6 i 1 e) i 2 i 6 fi X i i 1 6 f i 1 6 f i 1 2 i i 1 49 Xi 10 11 15 19 21 26 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 5 – Calcule o valor de X nos seguintes casos: a) b) 3 4 n 1 n2 3 5 n 1 n2 (nX 1) n (nX n) 5 50 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO II – Análise Exploratória de Dados 1 – Considere os dados: {12; 17; 17; 17; 10; 10; 9; 9; 9; 12; 12; 6; 6; 6; 17; 17; 12; 12; 9; 9; 9; 12; 12; 12; 12}. Suponha que sejam valores assumidos por uma variável aleatória discreta X. Pede-se: a) Tabela de Distribuição de Frequência; b) Média, Mediana e Moda; c) Erro padrão da média e Coeficiente de variação (C.V.%); d) Considere que os dados foram obtidos incorretamente. As medidas apresentam erros de modo que todos os valores da série tenham que ser multiplicados por um fator de correção igual a 1,1. Corrigindo o suposto erro, qual seria o novo valor da média, do erro padrão da média e do coeficiente de variação? e) Coeficiente de Assimetria. 2 – Para cada série de dados abaixo, determine: Tabela de Distribuição de Frequência; Média; Moda; Mediana; Variância; Desvio Padrão; Erro Padrão da Média e Coeficiente de Variação. a) {1; 3; 3; 4; 5; 6; 6}; b) {9; 8; 1; 3; 8; 3; 4; 6}; c) {88; 82; 91; 93; 86; 84}. 3 – Uma prova consta de três questões com peso (Pi) igual a 1, 2 e 3, para as notas (Xi) da 1ª, 2ª e 3ª questão, respectivamente (i = 1, 2, 3). Considere o valor máximo de cada questão igual a dez (10) e que um aluno obteve nota oito (8) na prova. Qual nota ele conseguiu na 1ª questão, sabendo que na 2ª questão obteve nota seis (6) e na 3ª nota nove (9)? 4 – Em um grupo de 600 hóspedes de determinado hotel, tem-se os seguintes valores com relação ao tempo de permanência no hotel: Média = 9 dias; 1º Quartil = 5 dias; 3º Quartil = 15 dias; Coeficiente de variação = 20%. Pede-se: a) Quantos hóspedes permaneceram mais de 15 dias; b) Quantos hóspedes permaneceram entre 5 e 15 dias; 51 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ c) O desvio padrão para o tempo de permanência; d) Supondo que o grupo de 600 hóspedes permaneça mais dois dias, calcule a nova média, o desvio padrão e o coeficiente de variação. 5 – Um caminhão cujo peso vazio é de 3.200 kg será carregado com 470 caixas de 11 kg cada, 360 caixas de 9 kg cada, 500 caixas de 4 kg cada e 750 caixas de 6 kg cada. O motorista do caminhão pesa 75 kg e a lona de cobertura da carga pesa 48 kg. a) Sabendo-se que este caminhão tem que passar por uma balança que só permite a passagem de veículos com peso máximo de 16 toneladas, pergunta-se: Ele passará pela balança? b) Qual o peso médio das caixas carregadas no caminhão? 6 – A tabela abaixo apresenta os resultados, em pontos, da prova final da Disciplina de Estatística de 80 estudantes. 20 28 35 40 50 55 57 67 28 34 40 49 55 57 65 88 20 30 35 40 50 55 58 68 25 33 39 47 54 57 65 88 21 30 35 40 50 55 58 72 25 33 39 45 53 57 65 85 21 30 37 42 51 55 60 73 23 32 38 45 52 57 63 80 23 30 38 43 52 55 60 74 23 30 38 44 52 56 62 75 Obter a Distribuição de Frequência em Intervalo de Classe e determinar: (Dados: k = 9; h = 8 e Limite Inferior = 20. Adotar intervalo fechado à esquerda). a) Os pontos médios; b) As frequências absoluta e acumulada; c) As frequências relativas simples e acumulada; d) Construir: Histograma, Polígono de Frequência Simples e Polígono de Frequência Acumulada; e) Média, Mediana e Moda; f) Qual a percentagem de alunos que obtiveram mais de 50 pontos; g) Qual a percentagem de alunos que obtiveram menos de 40 pontos; h) 3º Quartil; 6º Decil e 40º Percentil; i) Variância, Desvio Padrão e Coeficiente de Variação. 52 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 7 – Os desvios tomados em relação à média aritmética de um conjunto de dados são: {-7; -5; -1; 0; 0; 1; 4; 4; 4}. Sabendo-se que X = 45, determine: a) O conjunto de dados; b) Moda; c) Mediana; d) Variância; e) Desvio Padrão; f) Coeficiente de Variação. 8 – A série de dados abaixo se refere às medidas tomadas de uma amostra de cães. 1 2 3 4 5 6 7 8 9 10 Cão 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5 Peso (kg) Comprimento (cm) 104 105 103 105 100 104 100 91 102 99 Pedem-se, para cada característica avaliada (peso e comprimento), as estatísticas: a) Média; b) Mediana; c) Moda; d) Variância; e) Desvio Padrão; f) Erro Padrão da Média; g) Coeficiente de Variação; h) Qual das duas características é mais homogênea? i) Coeficiente de Correlação entre as duas características. 9 – Complete a tabela abaixo. Utilize intervalo fechado à esquerda. Classes PM 10 20 fi 5 8 10 fai fri 0,0625 19 0,075 33 0,15 15 60 10 80 0,125 53 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ Pede-se: a) Média, Mediana e Moda; b) Variância, Desvio Padrão e Coeficiente de Variação; c) 1º Quartil, 2º Decil e 30º Percentil; d) Valor acima do qual se encontram 60% dos dados; e) Curtose. 10 – Duas turmas A e B com nA = 50 e nB = 80, apresentam Médias X A = 65 e X B = 70 e Variâncias s A2 225 e s B2 235 . Qual é a turma mais homogênea? 11 – Um pesquisador dispõem das seguintes informações a respeito de uma amostra: Média = 50,34 Soma do quadrado dos valores = 150.000 Número de elementos da amostra = 54 Calcular as medidas de dispersão possíveis a partir das informações fornecidas. 12 – Cem (100) animais foram divididos em dois grupos: 1º grupo com 56 animais; 2º grupo com 44 animais. No primeiro grupo, que foi vacinado contra determinada doença, 47 animais não adoeceram. No segundo grupo, que não foi vacinado, 28 animais não adoeceram. a) Construir a Tabela de Contingência; b) Calcular o Coeficiente de Contingência e o Coeficiente de Contingência Corrigido. 54 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO III – Probabilidade 1 – Defina e dê exemplo: a) Espaço Amostral; b) Evento; c) Evento Mutuamente Exclusivo; d) Evento Não Mutuamente Exclusivo; e) Evento Independente; f) Evento Dependente. 2 – Considerando o espaço amostral de um experimento constituído do lançamento de dois dados perfeitamente simétricos, pede-se: a) Qual a probabilidade de que o primeiro dado mostre a face 5 e o segundo a face 3? b) Qual a probabilidade de que os dois dados mostrem um número par? c) Qual a probabilidade de que o primeiro dado mostre um número menor em sua face em comparação ao segundo dado? 3 – Uma moeda perfeita é lançada três vezes e observa-se o número de caras. Qual é a probabilidade de ocorrer: a) Pelo menos uma cara? b) Só cara ou só coroa? c) Exatamente uma cara? 4 – Em um processo produtivo, 10% dos itens fabricados apresentam defeito. Qual a probabilidade na escolha aleatória de dois itens: a) De os dois serem defeituosos? b) De os dois não serem defeituosos? c) De pelo menos um ser defeituoso? 5 – Em determinada universidade, dos 300 estudantes matriculados no curso de Ciências Biológicas, 100 cursam Química, 80 Estatística e 30 ambas as disciplinas. Ao escolher aleatoriamente um estudante de Ciências Biológicas, qual a probabilidade de ele cursar: a) Química? b) Estatística? 55 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ c) Estatística e Química? d) Nenhuma das duas disciplinas? e) Estatística ou Química? 6 – Sejam A, B e C três eventos de um mesmo espaço amostral S. Sabendo-se que: P(A) = P(B) = 1/3; P(C) = 1/4; P(A∩B) = 1/8; P(A∩C) = P(B∩C) = 1/9 e P(A∩B∩C) = 1/20. Calcular as probabilidades: a) De ocorrer pelo menos um dos eventos A, B ou C; b) De que não se realize nenhum dos eventos A, B ou C; 7 – Jogam-se dois dados. Se as duas faces mostram números diferentes, qual a probabilidade de que uma das faces seja o 4? 8 – Quatro equipes A, B, C e D participam de um torneio que premiará uma única equipe campeã. Quanto às probabilidades de cada equipe vencer o torneio, as equipes C e D são equiprováveis, a equipe A é duas vezes mais provável de vencer em relação a equipe B, sendo esta (equipe B) duas vezes mais provável de vencer em relação as equipes C e D. Pede-se: Qual a probabilidade de que as equipes C ou D sejam campeãs? 9 – Se P(A) = 1/2 e P(B) = 1/4. Calcular: P(AC), P(BC) e P(AUB), se: a) A e B são eventos mutuamente exclusivos; b) A e B são eventos quaisquer e independentes. 10 – Uma urna contém cinco bolas pretas, três vermelhas e duas brancas. Foram extraídas três bolas com reposição. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha? 11 – Uma caixa A contém oito peças, das quais três são defeituosas. Uma outra caixa B contém cinco peças, das quais duas são defeituosas. Uma peça é retirada aleatoriamente de cada caixa. a) Qual a probabilidade “p” de ambas as peças não serem defeituosas? b) Qual a probabilidade “p” de que uma peça seja defeituosa e a outra não? 56 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 12 – Uma urna contém 12 bolas: cinco brancas, quatro vermelhas e três pretas. Outra urna contém 18 bolas: cinco brancas, seis vermelhas e sete pretas. Uma bola é retirada de cada urna. Qual a probabilidade de que as duas bolas sejam da mesma cor? 13 – João é um rapaz ganancioso, trabalhador e objetivo. Ele estabeleceu por meta em cinco anos ter o patrimônio de R$700.000,00. Deste modo, João decidiu trabalhar no exterior com as seguintes probabilidades de destino: EUA 25%, Japão 60% e Austrália 15%. Caso ele optasse pelos EUA, a probabilidade de alcançar a meta seria de 50%, para o Japão 80% e para a Austrália 35%. Pois bem, decorridos cinco anos, João está de volta ao Brasil tendo cumprido sua meta. Quais são as probabilidades de ter cumprido a meta tendo o João trabalhado: a) Nos EUA; b) No Japão; c) Na Austrália. 14 – Em uma turma de Estatística 20%, 50% e 30% do total de alunos matriculados são dos cursos de Ciências Biológicas (A), Educação Física (B) e Medicina Veterinária (C), respectivamente. Destes, 20%, 5% e 2% são alunos repetentes, respectivamente. Um aluno é escolhido ao acaso e este é repetente. a) Qual a probabilidade de ele cursar Ciências Biológicas? b) Qual a probabilidade de ele cursar Medicina Veterinária? 57 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO IV – Variáveis Aleatórias 1 – Quatro carneiros e três ovelhas são colocados em um cercado. Se dois animais são retirados aleatoriamente deste cercado, sem reposição, sendo X o número de ovelhas, encontrar: a) A Distribuição de Probabilidade de X; b) E(X); c) Desvio Padrão de X; X d) V 5 . 3 2 – Seja X uma v.a.d. com a seguinte Distribuição de Probabilidade: Xi P(Xi) -2 1/4 -1 1/4 1 1/4 2 1/4 Pede-se: a) E(X); b) V(X); c) σ(X); d) Md(X). Justifique; e) Mo(X). Justifique. 3 – Suponha que X e Y (Variáveis Aleatórias Discretas) tenham as seguintes Distribuições de Probabilidade: Xi P(Xi) 1 0,30 2 0,2 4 Yj P(Yj) 2 0,6 3 5 0,30 Pede-se: 1 a) E X ; 3 b) V(5X – 3Y). Considerar X e Y Variáveis Aleatórias Independentes. 58 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 4 – Sabendo-se que X e Y são variáveis aleatórias independentes, sendo E(X) = 5; V(X) = 2; E(Y) = 8 e V(Y) = 3, calcule: a) E(X – Y + 3); b) E[(X – Y)2]; 1 c) V X Y ; 3 d) V(3Y + 2). 5 – Sabendo-se que Y = 3X – 5 e que E(X) = 2 e V(X) = 1, encontrar: a) E(Y); b) V(Y); c) E(X + 3Y); d) E(X2 + Y2); e) V(3X + 2Y). 59 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO V – Distribuições de Variáveis Aleatórias 1 – Determinar a probabilidade de que, em cinco lançamentos de um dado, apareça a face 3: a) Duas vezes; b) No máximo uma vez; c) Ao menos duas vezes. 2 – Considere a amostragem de 3 peças que saem de uma linha de produção. Sabe-se que desta linha de produção 20% das peças são defeituosas. Calcular as probabilidades: a) De duas peças serem defeituosas; b) De duas peças não serem defeituosas; c) Quantas peças defeituosas esperam-se amostrar, considerando 500 peças? 3 – Sabe-se que 24% dos indivíduos que recebem determinado medicamento sofrem certos efeitos colaterais. Se este medicamento for ministrado a quatro pacientes, qual a probabilidade de: a) Nenhum sofrer efeitos colaterais; b) Pelo menos um sofrer efeitos colaterais; c) Três não sofrerem efeitos colaterais. 4 – Em uma prova com 10 questões de múltipla escolha, cada uma com 5 alternativas e somente uma correta, pede-se: a) Quantas questões acerta, em média, um aluno que marca todas as questões inteiramente ao acaso? b) Qual a probabilidade do aluno acertar 5 questões? 5 – Se X ~ B (16 ; 0,75), determinar: a) A média de X; b) A variância de X. 6 – Dada uma distribuição normal com μ = 100 e σ = 10. Qual a probabilidade de que: a) X > 75? b) 75 < X < 85? c) X > 112? 60 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ d) X < 80 ou X > 110? e) X < 80 e X > 110? f) X < 90 e X > 80? g) Considere que 80% dos dados estejam entre dois valores X1 e X2 (simetricamente distribuídos em torno da média). Encontrar os dois valores; h) Considere que 70% dos dados estejam abaixo de determinado valor X. Encontrar o valor de X. 7 – As notas de uma prova são normalmente distribuídas com média 73 e variância 225. Os 15% melhores alunos recebem o conceito A e os 11,9% piores alunos recebem o conceito R (Reprovado). Pede-se: a) Nota mínima para receber o conceito A? b) Nota mínima para ser aprovado? c) P(X ≥ 55,3). 8 – A obtenção dos pesos X, de um grande número de espigas de milho, mostrou que essa variável é normalmente distribuída com média μ = 120g e desvio padrão σ = 10g. Em um programa de melhoramento genético da cultura do milho, entre outras características, uma linhagem deve satisfazer à condição 112 < X < 140. Em um programa envolvendo 450 linhagens, qual deve ser o número provável de linhagens que atende a essa condição (112 < X < 140)? 9 – Sabe-se que o peso médio, em arrobas, de abate de bovinos é normalmente distribuído com média 18 e variância 2,25. Um lote de 5.000 cabeças, com essa característica, foi destinado ao frigorífico que abate só a partir de um peso mínimo W. Sabendo-se que foram abatidas 4.200 cabeças, pede-se: a) Qual o valor de W? b) O número esperado de bovinos com peso entre 17 e 19 arrobas? 10 – Em determinada região, a altura das pessoas apresenta distribuição normal com desvio padrão de 8 cm e tal que 20% da população é constituída de pessoas com menos de 168 cm de altura. Calcule a proporção de pessoas com altura: a) Superior a 190 cm; b) Entre 170 e 185 cm. 61 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 11 – Em indivíduos sadios, o consumo renal de oxigênio tem distribuição normal com média 12 cm3/min e desvio padrão 1,5 cm3/min. Determinar: a) A proporção de indivíduos sadios com consumo inferior a 10 cm3/min; b) A proporção de indivíduos sadios com consumo superior a 8 cm3/min; c) A proporção de indivíduos sadios com consumo entre 9,4 e 13,2 cm3/min; d) O valor do consumo renal que é superado por 98,5% dos indivíduos sadios. 62 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO VI – Inferência Estatística 1 – O peso dos ovos de determinada linhagem de ave de postura tem distribuição normal, com média de 65 gramas e desvio padrão de 5 gramas. Considere uma amostra aleatória de uma dúzia (caixa) desses ovos. Qual a probabilidade de que o peso dessa caixa esteja compreendido entre o intervalo de 750 e 825 gramas? 2 – Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto padrão de peso conhecido igual a 10 gramas. As leituras da balança tem distribuição normal. Sabe-se que o desvio padrão das leituras é 0,0002 gramas. Pesa-se o objeto cinco vezes e o resultado médio é 10,0023 gramas. a) Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do objeto; b) Quantas pesagens ou medidas devem entrar no cálculo da média a fim de que se obtenha uma margem de erro de 0,0001 com 95% de confiança? 3 – Uma agência de propaganda, que atende a uma das principais estações de rádio, gostaria de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo radio. A partir de estudos anteriores, o desvio padrão é calculado em 45 minutos. a) Qual o tamanho da amostra necessário se a agência quiser ter 90% de confiança de estar correta em um intervalo de ± 5 minutos? b) Se for desejado um nível de 99% de confiança, qual o novo tamanho da amostra necessário? (considerar a mesma margem de erro da alínea anterior: ± 5 minutos) c) Faça inferências a respeito dos tamanhos das amostras encontrados nas alíneas anteriores (a e b), explicando o motivo de ter encontrado dimensões distintas. 4 – Estudos anteriores levam a supor que crianças de dois meses alimentadas exclusivamente com leite do tipo A sofrem um aumento de peso que segue distribuição normal, com média desconhecida, porém de variância 9.000 gramas2. Escolhe-se ao acaso 20 crianças de dois meses, alimentando-as exclusivamente com leite do tipo A. Nesta amostra o aumento de peso médio foi de 475 gramas. Obtenha um intervalo de 99% de confiança para o aumento médio do peso das crianças nas condições apresentadas. 63 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 5 – O consumo mensal de calorias (kcal/g) de determinada espécie de esquilo segue distribuição normal com desvio padrão 0,16. Recolheu-se uma amostra aleatória de dimensão 18 cuja média amostral do consumo de calorias foi de 0,41. a) Obtenha um intervalo de confiança a 95% para o consumo médio de calorias; b) Qual deve ser a dimensão da amostra para que um intervalo de confiança a 95% para o consumo médio de calorias tenha amplitude 0,2? 6 – Qual deve ser a dimensão da amostra a recolher de uma população normal de valor médio μ e desvio padrão 10, de modo que o intervalo de confiança para μ a 99% tenha amplitude de uma unidade (1)? 64 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO VIII GABARITO CONTEÚDO I – Somatório 1 – a) – 14 b) 33,33 c) 3.968 d) 445 2–2e6 3 – a) 24 b) 112 c) 39 d) 29 e) 128 f) 52 4 – a) 102 b) 30 c) 8.098 d) 15,93 e) 16,62 5 – a) 1 b) 7/3 CONTEÚDO II – Análise Exploratória de Dados 1 – b) X = 11,4 Md = 12 Mo = 12 65 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ c) s( X ) = 0,6904 d) X = 12,54 CV = 30,285% s( X ) = 0,7594 CV = 30,285% e) – 0,1738 2– a) b) c) Mo 3e6 3e8 Amodal X 4,0 5,25 87,333 Md 4,0 5,0 87,0 s2 3,333 8,5 17,466 3–9 4 – a) 150 b) 300 c) 1,8 d) 11 1,8 16,36% 5 – a) Não b) 7,17 kg 6 – e) X = 48,20 Md = 48,44 Mo = 55,809 f) 47,82% ≈ 48% dos alunos com mais de 50 pontos g) 36,248% dos alunos com menos de 40 pontos h) Q3 = 58,73 D6 = 53,684 P40 = 42,00 i) s2 = 272,128 s = 16,496 CV = 34,23% 7 – a) {38;40;44;45;45;46;49;49;49} b) Mo = 49 c) Md = 45 d) s2 = 15,5 e) s = 3,937 f) CV = 8,748% 66 s 1,825 2,915 4,179 s( X ) 0,689 1,030 1,706 CV 45,62% 55,52% 4,78% IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 8– a) X Md b) Mo c) s2 d) s e) f) s( X ) CV g) h) Comprimento i) rxy = 0,7710 9 – a) X = 56,5 b) s2 = 592,65 c) Q1 = 37,5 Peso (X) 20,58 kg 20,35 kg 19,00 kg 14,2973 kg2 3,7812 kg 1,1957 kg 18,37% Md = 60,833 Mo = 68,75 s = 24,34 CV = 43,07% D2 = 30,0 P30 = 46,0 s = 18,9 CV = 37,54% Comprimento (Y) 101,3 cm 102,5 cm 100; 104 e 105 cm 17,7889 cm2 4,2177 cm 1,3338 cm 4,16% d) 54 e) K = 0,275 10 – Turma B 11 – s2 = 357,37 12 – b) C = 0,226; C* = 0,32 CONTEÚDO III – Probabilidade 2 – a) 1/36 b)1/4 c) 5/12 3 – a) 7/8 b)1/4 c) 3/8 4 – a) 0,01 b) 0,81 67 s( X ) = 2,62 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ c) 0,19 5 – a) 1/3 b) 4/15 c) 1/10 d)1/2 e)1/2 6 – a) 223/360 b) 137/360 7 – 1/3 8–¼ 9 – a) 1/2 3/4 3/4 b) 1/2 3/4 5/8 10 – 9/40 11 – a) 3/8 b) 19/40 12 – 35/108 13 – a) ≈ 0,19 b) ≈ 0,73 c) ≈ 0,08 14 – a) ≈ 0,563 b) ≈ 0,0845 68 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO IV – Variáveis Aleatórias 1 – b) 6/7 c) 0,6389 d) 0,0454 2 – a) 0 b) 2,5 c) 1,581 d) – 1 e 1 e) Amodal 3 – a) - 1 b) 72,25 4 – a) 0 b) 14 c) 7/3 d) 27 5 – a) 1 b) 9 c) 5 d) 15 e) 81 CONTEÚDO V – Distribuições de Variáveis Aleatórias 1 – a) 625/3888 b) 3125/3888 c) 763/3888 69 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 2 – a) 0,096 b) 0,384 c) 100 3 – a) 0,3336 b) 0,6664 c) 0,4213 4 – a) 2 b) 0,0264 5 – a) 12 b) 3 6 – a) 0,9938 b) 0,0606 c) 0,1151 d) 0,1815 e) 0 f) 0,1359 g) 87,2 e 112,8 h) 105,2 7 – a) 88,6 b) 55,3 c) 0,8810 8 – 345 9 – a) 16,52 b) 2.486 10 – a) 0,0281 b) 0,6239 70 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ 11 – a) 0,0918 b) 0,9962 c) 0,7463 d) 8,745 CONTEÚDO VI – Inferência Estatística 1 – 0,9535 2 – a) 10,0021247 10,0024753 b) n = 15,37 ≈ 16 3 – a) n = 220,52 ≈ 221 b) n = 539,17 ≈ 540 4 – 420,27 529,73 5 – a) 0,3361 0,4839 b) n = 9,83 ≈ 10 6 – n = 2.662,56 ≈ 2.663 71 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO IX REFERÊNCIA BIBLIOGRÁFICA ADICIONAL BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 5 ed. São Paulo: Saraiva, 2002. CALLEGARI-JAQUES, S. M. Bioestatística: Princípios e Aplicações. Porto Alegre: Artmed Editora, 2003. FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 3 ed. São Paulo: Atlas, 1982. PERES, A. A. Q.; CUNHA, M. T. C. Estatística Básica. Apostila para disciplina IC 280: Editora UFRRJ, 2001. SPIEGEL, M. R. Estatística. 3 ed. São Paulo: Makron, 1993. TRIOLA, M. F. Introdução à Estatística. 7 ed. Rio de Janeiro: LTV, 1999. VIEIRA, S. Introdução à Bioestatística. 4 ed. rev. Rio de Janeiro: Elsevier, 2008. 72 IC280 – Estatística Básica e IC281 – Introdução à Bioestatística Professor Marcelo Jangarelli – DEMAT – ICE - UFRRJ CONTEÚDO X TABELA DA DISTRIBUIÇÃO NORMAL 73