Profa. Regina Maria Sigolo Bernardinelli Estatística Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing REGINA MARIA SIGOLO BERNARDINELLI ESTATÍSTICA Ensino a Distância — E a D Revisão 09/2008 LISTA DE FIGURAS Figura 1. Classificação de uma Variável 9 Gráfico 1. Setores 16 Gráfico 2. Colunas 16 Gráfico 3. Histograma 17 Gráfico 4. Polígono de Freqüências 18 Gráfico 5. Curva Normal 41 Gráfico 6. Probabilidade 42 Gráfico 7. Normal Padrão ou Normal Reduzida 42 Figura 2. Intervalo de Confiança – Média Populacional 49 Gráfico 8. Correlação Linear Positiva 55 Gráfico 9. Correlação Linear Negativa 55 Gráfico 10. Correlação Nula 56 LISTA DE TABELAS Tabela 1. Informações de Questionário Estudantil – Dados Brutos 10 Tabela 2. Variável Sexo 11 Tabela 3. Variável Toler 12 Tabela 4. Variável Idade 12 Tabela 5. Variável Peso 13 Tabela 6. Variável TV 14 Tabela 7. 1ª Lista de Exercícios – Exercício 3 19 Tabela 8. 1ª Lista de Exercícios – Exercício 5 20 Tabela 9. 1ª Lista de Exercícios – Exercício 7 21 Tabela 10. 1ª Lista de Exercícios – Exercício 8 21 Tabela 11. 1ª Lista de Exercícios – Exercício 9 22 Tabela 12. Exemplo 1 – Variável Idade 26 Tabela 13. Exemplo 2 – Variável Peso 27 Tabela 14. Exemplo 1 – Variável Idade 32 Tabela 15. Exemplo 2 – Variável Peso 33 Tabela 16. 2ª Lista de Exercícios – Exercício 4 34 Tabela 17. 2ª Lista de Exercícios – Exercício 7 35 Tabela 18. Exemplo 1 – Correlação Linear 56 Tabela 19. Exemplo 1 – Correlação Linear 57 Tabela 20. Exemplo 2 – Correlação Linear 58 Tabela 21. Exemplo 2 – Correlação Linear 59 Tabela 22. 3ª Lista de Exercícios – Exercício 11 62 Tabela 23. Normal Padrão 63 1 SUMÁRIO APRESENTAÇÃO 1 1. INTRODUÇÃO 2 2. NOÇÕES BÁSICAS 3 2.1. Arredondamento de Dados 3 2.2. População e Amostra 4 2.2.1. População 4 2.2.2. Amostra 4 2.2.3. A Escolha da Amostra 4 3. ORGANIZAÇÃO DE DADOS 7 3.1. Tipos de Variáveis 8 3.1.1. Variáveis Qualitativas 8 3.1.1.1. Variável Qualitativa Nominal 8 3.1.1.2. Variável Qualitativa Ordinal 8 3.1.2. Variáveis Quantitativas 8 3.1.2.1. Variáveis Quantitativas Discretas 9 3.1.2.2. Variáveis Quantitativas Contínuas 9 3.2. Distribuição de Freqüências 11 3.2.1. Exemplos 11 3.2.1.1. Tabela de Freqüência para a Variável Sexo 11 3.2.1.2. Tabela de Freqüência para a Variável Toler 12 3.2.1.3. Tabela de Freqüência para a Variável Idade 12 3.2.1.4. Tabela de Freqüência para a Variável Peso 13 3.2.1.5. Tabela de Freqüência para a Variável TV 14 4. GRÁFICOS ESTATÍSTICOS 15 4.1. Gráfico de Setores ou Disco ou Pizza ou Diagrama Circular 15 4.2. Gráfico de Colunas ou Barras 16 4.3. Histograma 17 4.4. Polígono de Freqüências 17 4.5. 1ª Lista de Exercícios 18 5. MEDIDAS 23 5.1. Medidas de Posição 23 5.1.1. Medidas de Posição para um Conjunto de Dados 23 5.1.1.1. Média Aritmética ou simplesmente Média ( x ) 23 5.1.1.2. Mediana (md) 24 5.1.1.3. Moda (mo) 25 5.2. Medidas de Dispersão 28 5.2.1. Medidas de Dispersão para um Conjunto de Dados 28 5.2.1.1. Amplitude Total (R) 29 5.2.1.2. Variância ( σ 2 (população ) ou S 2 (amostra) ) 29 5.2.1.3. Desvio Padrão ( σ (população ) ou S (amostra) ) 30 5.2.1.4. Coeficiente de Variação ( CV ) 31 5.3. 2ª Lista de Exercícios 33 6. PROBABILIDADES 37 6.1. Definições 37 6.1.1. Fenômeno Determinístico 37 6.1.2. Fenômeno Aleatório ou Probabilístico 37 6.1.3. Espaço Amostral (S) 38 6.1.4. Evento (E) 38 6.1.5. Probabilidade 38 6.2. Propriedades 39 6.3. Outras Definições 39 6.3.1. Variável Aleatória Discreta 39 6.3.2. Função Discreta de Probabilidade 39 6.3.3. Variável Aleatória Contínua 40 6.3.4. Função Contínua de Probabilidade 40 7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 41 7.1. Modelo Normal ou Distribuição Normal 41 7.1.1. Gráfico 41 8. ESTIMAÇÃO 45 8.1. Estimação por Intervalo 45 8.1.1. Intervalo de Confiança para a Média Populacional (variância 46 conhecida) 8.1.2. Intervalo de Confiança para a Proporção 50 8.1.3. Intervalo de Confiança para a Média Populacional (variância 51 desconhecida) 9. CORRELAÇÃO 54 9.1. Correlação Linear Simples 54 9.1.1. Coeficiente de Correlação de Pearson 54 9.1.2. Correlação Linear Positiva 55 9.1.3. Correlação Linear Negativa 55 9.1.4. Correlação Nula 56 9.2. 3ª Lista de Exercícios 60 9.3. Respostas – Listas de Exercícios 64 9.3.1. 1ª Lista de Exercícios 64 9.3.2. 2ª Lista de Exercícios 65 9.3.3. 3ª Lista de Exercícios 66 REFERÊNCIAS 67 74 1 APRESENTAÇÃO Esta apostila reúne os principais tópicos de Estatística, de forma condensada e objetiva, com a finalidade de orientar o aluno do CURSO SEMIPRESENCIAL no desenvolvimento do conteúdo dessa disciplina. Em sua elaboração não tive a pretensão de demonstrar as diversas fórmulas matemáticas nela existentes, mas sim, de mostrar suas aplicações nos diversos assuntos abordados. É, portanto, um guia indispensável para acompanhar as aulas BREEZE. A disciplina ESTATÍSTICA tem, por objetivo, fornecer ao aluno subsídios que o auxiliem nas demais disciplinas do CURSO SEMIPRESENCIAL, bem como desenvolverlhe a capacidade de utilizar os diversos métodos estatísticos e raciocínio necessário para interpretação e análise de pesquisas na área a que se destina. Profª. Regina Maria Sigolo Bernardinelli 2 1. INTRODUÇÃO A palavra “estatística”, de origem latina, significou por muito tempo “ciência dos negócios do Estado”. Os que governavam, sentindo necessidade de informações, organizavam departamentos que tinham a responsabilidade de fazer essas investigações. As sociedades modernas acumulam grande quantidade de dados numéricos relativos a eventos sociais, econômicos, científicos, esportivos etc. Desse modo notamos que o uso da pesquisa é bastante comum nas várias atividades humanas. Exemplos: 1º) O índice de analfabetismo no Brasil. 2º) A mortalidade infantil no Nordeste brasileiro. 3º) A porcentagem de crianças vacinadas na última campanha de vacinação. 4º) A pesquisa realizada pelas indústrias, entre os consumidores, para o lançamento de um novo produto. 5º) As pesquisas eleitorais, fornecendo elementos para que os candidatos direcionem suas campanhas. 6º) As pesquisas utilizadas pelas emissoras de TV, mostrando a preferência dos espectadores, para organizar sua programação. A realização de uma pesquisa envolve muitas etapas como: a escolha da amostra, a coleta e a organização dos dados, o resumo e a apresentação desses dados, e também a interpretação dos resultados para a obtenção de conclusões e tomada de decisões razoáveis. Todas essas etapas são trabalhadas com métodos científicos pela Estatística. O tratamento estatístico de um conjunto de dados pode envolver dois processos distintos, isto é, a descrição dos dados e o estabelecimento de conclusões sobre a população a partir dos dados obtidos por amostragem. Para tanto, temos: Estatística Descritiva: utiliza métodos numéricos e gráficos para mostrar os padrões de comportamento dos dados, para resumir a informação contida nesses dados e para apresentar a informação de forma conveniente. Inferência Estatística: utiliza dados de amostras para obter estimativas sobre a população. 3 2. NOÇÕES BÁSICAS 2.1. ARREDONDAMENTO DE DADOS De acordo com a Fundação IBGE (Instituto Brasileiro de Geografia e Estatística), o arredondamento é feito da seguinte forma: a) Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3, ou 4, fica inalterado o último algarismo a permanecer. Exemplo: aproximação de uma casa decimal: 53,24 passa a 53,2. b) Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade o algarismo a permanecer. Exemplos: aproximação de uma casa decimal: 42,87 passa a 42,9 25,08 passa a 25,1 53,99 passa a 54,0 c) Quando o primeiro algarismo a ser abandonado é 5, há duas soluções: • Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao algarismo a permanecer. Exemplos: aproximação de uma casa decimal: 2,352 passa a 2,4 25,6501 passa a 25,7 76,25002 passa a 76,3 • Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado só será aumentado de uma unidade se for ímpar. Exemplos: aproximação de uma casa decimal: 24,75 passa a 24,8 24,65 passa a 24,6 24,75000 passa a 24,8 24,6500 passa a 24,6 4 2.2. POPULAÇÃO E AMOSTRA 2.2.1. População: é o conjunto de todos os elementos envolvidos no fenômeno a ser estudado. 2.2.2. Amostra: é o conjunto de elementos retirados da população para a realização do estudo. É, portanto, um subconjunto da população. Exemplos: 1º) Queremos obter informações sobre a audiência de certo programa de TV, na Grande São Paulo. População: é o conjunto de todos os domicílios da Grande São Paulo que possuem TV. Amostra: é o conjunto dos domicílios que serão visitados. 2º) Estudar a procedência dos candidatos a uma certa universidade. População: conjunto de todos os candidatos à referida universidade. Amostra: conjunto dos candidatos que serão entrevistados. 3º) Queremos fazer um estudo sobre a idade dos alunos do curso de Publicidade e Propaganda de uma determinada universidade. População: todos os alunos do curso de Publicidade e Propaganda. Amostra: uma classe do primeiro ano do curso de Publicidade e Propaganda. Quando são obtidos dados de toda uma população, dizemos que foi feito um recenseamento, e a este conjunto de dados damos o nome de censo. Quando os dados são obtidos de parte da população, foi feita uma amostragem. 2.2.3. A Escolha da Amostra Os métodos de escolha da amostra devem garantir a representatividade do grupo. É necessário escolher, no mínimo, 10% do número total dos elementos da população e garantir por meio de um critério de seleção, que nenhum elemento tenha maior chance de ser escolhido do que outro. Desse modo, podemos recorrer a diferentes formas de amostragem: amostragem aleatória simples, amostragem sistemática e amostragem estratificada proporcional. Vejamos o procedimento através de dois exemplos. 5 Exemplo 1: Suponhamos uma pesquisa sobre o nível de escolaridade de um grupo de oitocenta pessoas. Vamos escolher uma amostra com no mínimo oitenta pessoas (10% de 800), selecionadas através de: a) Amostragem Aleatória Simples: em primeiro lugar, elaboramos uma lista com os oitocentos nomes dos elementos da população numerados de 1 a 800, para serem submetidos a um sorteio. Bolas ou cartões, também numerados de 1 a 800, são colocados em uma urna e bem misturados. Em cada etapa do sorteio, todo número ainda não escolhido tem a mesma probabilidade de ser sorteado. Esse processo não é muito prático para grandes populações, quando podemos então trabalhar com uma numeração de 0 a 9, sorteando os números por meio de blocos de três algarismos e tomando o cuidado de repor na urna todo algarismo dela retirado. Como temos dez algarismos, cada um deles tem 1 de probabilidade de aparecer 10 em determinada posição. Sempre que um bloco de algarismos indicar um elemento já selecionado, ou um elemento que não exista na população, será descartado. Suponhamos que os seguintes algarismos foram obtidos no sorteio: 2 4 3 5 6 4 7 2 0 0 3 5 8 1 1 0 0 5 1 9 8 6 4 3 5 2 4 7 8 9 7 7 6 5 4 2 2 3 0 1 2 1 1 6 7 8 9 1 0 3 4 5 6 7 2 2 8 8 1 9 0 0 6 0 7 2 1 0 5 6 4 3 Agrupando-os em blocos de três, teremos os números: 243 564 720 035 811 005 198 643 524 789 776 121 167 891 034 567 228 819 006 072 105 643. 542 230 Observem que devemos descartar 811, 891 e 819, porque não pertencem à população, e 643 porque já foi selecionado. Continuamos o sorteio, até completarmos os 80 elementos da amostra. b) Amostragem Sistemática: sorteamos um número de 1 a 10, ao acaso. Supondo que tenha sido obtido o número 6, ele será o primeiro elemento da amostra e os demais serão determinados em intervalos de dez unidades. Nossa amostra, então, será: 6 16 26 36 46 56 66 76 86 96 106 ... 796 Este tipo de amostragem é simples de ser realizado e, aconselhável no caso de amostras muito grandes. 6 Exemplo 2: Na escola Sapequinha, quer fazer-se um estudo sobre o peso dos alunos de 7 anos de idade. Existem 120 crianças na faixa de 7 anos de idade distribuídas em cinco classes, do seguinte modo: a primeira série A tem 20 alunos com 7 anos, a primeira B tem 15, a C tem 35, a D, 30 e a E tem 20. Vamos escolher uma amostra com no mínimo 12 crianças (10% de 120), selecionadas através de: c) Amostragem Estratificada Proporcional: sorteamos os nomes das crianças em quantidades proporcionais ao número de crianças com 7 anos de cada classe, que constituem os estratos da amostra. Vamos agora determinar a porcentagem de crianças com 7 anos, em cada classe, em relação à população (120 crianças). A: 120 → 100%⎫ 20 ⋅ 100 ⇒ a = 16,7% ⎬ ⇒ 120 ⋅ a = 20 ⋅ 100 ⇒ a = 20 → a 120 ⎭ B: 120 → 100%⎫ 15 ⋅ 100 ⇒ b = 12,5% ⎬ ⇒ 120 ⋅ b = 15 ⋅ 100 ⇒ b = 15 → b 120 ⎭ De modo análogo, determinamos as porcentagens para as classes C, D e E, obtendo: C: c = 29,2% D: d = 25% E: e = 16,7% Para calcularmos quantas crianças de cada classe serão sorteadas, para uma amostra de 12 crianças, fazemos: A: 16,7% de 12 = 16,7 ⋅ 12 = 0,167 ⋅ 12 = 2,004 = 2 100 B: 12,5% de 12 = 0,125 . 12 = 1,5 = 2 C: 29,2% de 12 = 0,292 . 12 = 3,504 =3 (neste caso, arredondamos para 3, ao invés de 4, porque o total de crianças da amostra é 12). D: 25% de 12 = 0,25 . 12 = 3 E: 16,7% de 12 = 0,167 . 12 = 2,004 = 2 Deste modo, obtivemos a quantidade de elementos de cada estrato e o total da amostra. 7 3. ORGANIZAÇÃO DE DADOS Dado um conjunto de dados, vamos estudar como devemos “tratar” os valores, numéricos ou não, a fim de extrair informações a respeito de uma ou mais características de interesse. Suponhamos, por exemplo, que um questionário foi aplicado a alunos do 1º ano de uma escola fornecendo as seguintes informações: Id: identificação do aluno Turma: A ou B Sexo: feminino (F) ou masculino (M) Idade: em anos Alt: altura em metros Peso: em quilogramas Filhos: nº de filhos na família Fuma: hábito de fumar: sim (S) ou não (N) Toler: tolerância ao cigarro: (I) indiferente; (P) incomoda pouco; (M) incomoda muito Exerc.: horas de atividade física, por semana Cine: nº. de vezes que vai ao cinema por semana Op Cine: opinião a respeito das salas de cinema na cidade: (B) regular a boa; (M) muito boa TV: horas gastas assistindo TV, por semana Op TV: opinião a respeito da qualidade da programação na TV: (R) ruim; (M) média; (B) boa; (N) não sabe. O conjunto de informações, após a tabulação do questionário ou pesquisa de campo, é denominado de tabela de dados brutos e contém os dados da maneira que foram coletados inicialmente. (Tabela 1) Cada uma das características perguntadas aos alunos, tais como o peso, a idade, a altura, etc. é denominada de variável e, como podemos observar, tem naturezas diferentes quanto aos possíveis valores que podem assumir. 3.1. TIPOS DE VARIÁVEIS Existem dois tipos de variáveis: quantitativas (variáveis numéricas) e qualitativas (variáveis não numéricas). 8 3.1.1. Variáveis Qualitativas Seus valores representam uma qualidade (ou atributo) do indivíduo pesquisado. Exemplos: sexo, turma, estado civil, grau de instrução, hábito de fumar etc. Dentre as variáveis qualitativas, ainda existem dois tipos: 3.1.1.1. Variável Qualitativa Nominal Não existe ordenação em seus possíveis resultados. Exemplos: sexo, turma, hábito de fumar. 3.1.1.2. Variável Qualitativa Ordinal Existe uma certa ordem em seus possíveis resultados. Exemplos: tamanho (P, M, G); classe social (baixa, média, alta); grau de instrução (1º grau, 2º grau, grau superior); estado civil. 3.1.2. Variáveis Quantitativas Seus valores são numéricos resultantes de uma contagem ou mensuração. Exemplos: número de filhos, salário, peso, altura etc.. Dentre as variáveis quantitativas ainda existem dois tipos: 9 3.1.2.1. Variáveis Quantitativas Discretas Seus possíveis valores formam um conjunto finito ou enumerável de números que resultam freqüentemente de uma contagem. Exemplos: número de filhos, idade (em anos), cine (número de vezes que vai ao cinema por semana). 3.1.2.2. Variáveis Quantitativas Contínuas Seus possíveis valores formam um intervalo de números reais que resultam normalmente de uma mensuração. Exemplos: peso, altura, salário. ESQUEMA Variável Qualitativa Nominal Ordinal Quantitativa Discreta Figura 1.: Classificação de uma Variável Contínua 10 INFORMAÇÕES DE QUESTIONÁRIO ESTUDANTIL Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Turma A A A A A A A A A A A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B B B B B B B B B Sexo F F M M F M F F F F F F F M F F F M F F F F F F F F F F F F F M F F M F M M F M F F M F F F F F M M Idade 17 18 18 25 19 19 20 18 18 17 18 18 21 19 18 19 17 18 20 18 21 18 18 20 20 19 23 18 18 25 18 17 17 17 18 18 17 21 18 18 17 23 24 18 18 19 19 18 17 18 Alt 1,60 1,69 1,85 1,85 1,58 1,76 1,60 1,64 1,62 1,64 1,72 1,66 1,70 1,78 1,65 1,63 1,82 1,80 1,60 1,68 1,70 1,65 1,57 1,55 1,69 1,54 1,62 1,62 1,57 1,65 1,61 1,71 1,65 1,67 1,73 1,60 1,70 1,85 1,70 1,73 1,70 1,45 1,76 1,68 1,55 1,70 1,55 1,60 1,80 1,83 Peso 60,5 55,0 72,8 80,9 55,0 60,0 58,0 47,0 57,8 58,0 70,0 54,0 58,0 68,5 63,5 47,4 66,0 85,2 54,5 52,5 60,0 58,5 49,2 48,0 51,6 57,0 63,0 52,0 49,0 59,0 52,0 73,0 56,0 58,0 87,0 47,0 95,0 84,0 60,0 73,0 55,0 44,0 75,0 55,0 49,0 50,0 54,5 50,0 71,0 86,0 Filho 2 1 2 2 1 3 1 1 3 2 1 3 2 1 1 3 1 2 1 3 2 1 1 1 2 2 2 1 2 4 1 1 3 1 1 1 1 1 1 1 1 2 2 1 1 7 2 1 1 1 Fuma Não Não Não Não Não Não Não Sim Não Não Sim Não Não Sim Não Não Não Não Não Não Não Não Sim Sim Não Não Não Não Não Não Não Não Não Não Não Não Não Sim Não Não Não Não Não Não Não Não Não Não Não Não Toler P M P P M M P I M M I M M I I P P P P M P M I I P I M P P M P P M M M P P I P M I M I P M M M P P P Exerc 0 0 5 5 2 2 3 2 3 2 10 0 6 5 4 0 3 3 3 7 8 0 5 0 8 6 8 1 3 1 2 1 2 4 7 5 10 6 5 4 5 2 7 5 0 0 4 2 7 7 Cine 1 1 2 2 2 1 1 2 3 2 2 2 1 1 1 1 1 4 2 2 2 3 4 1 5 2 2 1 1 2 2 1 1 2 1 1 2 4 2 1 4 2 0 1 1 1 3 1 0 0 OpCine B B M B B B B M M M B B M M B B B B B B B B B M M B M M B M M B B B B M M B B B B B M B M B B B M M Tabela 1: Informações de questionário estudantil – dados brutos TV 16 7 15 20 5 2 7 10 12 10 8 0 30 2 10 18 10 10 5 14 5 5 10 28 4 5 5 10 12 2 6 20 14 10 25 14 12 10 12 2 10 25 14 8 10 8 3 5 14 20 OpTV R R R R R R R R R R N R R N R R N R R M R R R R N R R R R R N R R R B R N R R R B R N R R R R R R B 11 3.2. DISTRIBUIÇÃO DE FREQÜÊNCIAS A partir da tabela de dados brutos (Tabela 1), vamos construir uma nova tabela com as informações resumidas, para cada variável, denominada tabela de freqüência, que conterá os valores da variável e suas respectivas contagens, as quais são denominadas freqüências absolutas ou simplesmente, freqüências. No caso de variáveis qualitativas ou quantitativas discretas, a tabela de freqüência consiste em listar os valores possíveis da variável, numéricos ou não e fazer a contagem na tabela de dados brutos do número de suas ocorrências. Notação: n i → freqüência do valor i n → freqüência total = ∑ n i Para efeito de comparação com outros grupos ou conjuntos de dados, é conveniente n trabalharmos com a freqüência relativa, definida por fi = i . n 3.2.1. Exemplos: 3.2.1.1. Tabela de Freqüência para a Variável Sexo (extraída da Tabela 1): Sexo ni n fi = i n fi ⋅ 100 (%) F 37 0,74 74 M 13 0,26 26 1,00 100 Total n=50 Sexo: variável qualitativa nominal. Tabela 2: Variável Sexo Note que, para variáveis cujos valores possuem ordenação natural (qualitativas ordinais e quantitativas em geral), incluímos na tabela de freqüência uma coluna contendo as freqüências acumuladas (fac) (quando o número de valores i for maior do que 2). A freqüência acumulada até um certo valor é obtida pela soma das freqüências de todos os valores da variável, menores ou iguais ao valor considerado. 12 3.2.1.2. Tabela de Freqüência para a Variável Toler (extraída da Tabela 1): fi ⋅ 100 (%) fac (%) Toler ni fac n fi = i n I 10 10 0,20 20 20 P 21 31 0,42 42 62 M 19 50 0,38 38 100 1,00 100 Total n = 50 Toler: variável qualitativa ordinal. Tabela 3: Variável Toler 3.2.1.3. Tabela de Freqüência para a Variável Idade (extraída da Tabela 1): Idade fac ni n fi = i n fi ⋅ 100 (%) fac (%) variável quantitativa discreta. 17 9 9 0,18 18 18 18 22 31 0,44 44 62 19 7 38 0,14 14 76 20 4 42 0,08 8 84 21 3 45 0,06 6 90 22 0 45 0,00 0 90 23 2 47 0,04 4 94 24 1 48 0,02 2 96 25 2 50 0,04 4 100 1,00 100 Total n = 50 Idade: Observe através da fac que 90% dos alunos têm idades até 21 anos. Tabela 4: Variável Idade A variável Peso, classificada como quantitativa contínua, apresenta valores que podem ser qualquer número real num certo intervalo. 13 Pela Tabela 1, verificamos que os valores variam entre 44,0 kg e 95,0 kg e como existe um grande número de valores diferentes, vamos construir faixas ou classes de valores e contar o número de ocorrências em cada faixa. Não existe uma regra formal para determinar o número de faixas ou classes a serem utilizadas. Entretanto, deve-se observar que com um pequeno número de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. No geral, é conveniente trabalharmos com 5 a 8 faixas de mesma amplitude, devendo ressaltar que faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela. Para a variável Peso, usaremos faixas de amplitude 10 e iniciaremos com 40,0 kg. 3.2.1.4. Tabela de Freqüência para a Variável Peso (extraída da Tabela 1): Peso ni fac n fi = i n fi ⋅ 100 (%) 40,0 ├─ 50,0 8 8 0,16 16 16 45,0 50,0 ├─ 60,0 22 30 0,44 44 60 55,0 60,0 ├─ 70,0 8 38 0,16 16 76 65,0 70,0 ├─ 80,0 6 44 0,12 12 88 75,0 80,0 ├─ 90,0 5 49 0,10 10 98 85,0 90,0 ├─ 100,0 1 50 0,02 2 100 95,0 Total n = 50 1,00 100 fac (%) Ponto Médio Tabela 5: Variável Peso Peso: variável quantitativa contínua. Observe pela fac que 76% dos alunos pesam menos que 70,0 kg e 100 – 88 = 12% têm peso maior ou igual a 80,0 kg. Na Tabela 5 temos 6 faixas ou classes ou intervalos. Consideremos, por exemplo, a 1ª classe ou intervalo: 40,0 ├─ 50,0, onde temos: Limite inferior (li): 40,0 Ponto Médio (PM) = li + ls 2 ( 40 + 50 90 = = 45 ) 2 2 14 Limite superior (ls): 50,0 Amplitude ou tamanho do intervalo (h): h = ls – li; (h = 50,0 – 40,0 = 10,0) O símbolo ├─ : indica que o intervalo é fechado à esquerda e aberto à direita (40,0 faz parte dessa classe, mas 50,0 não; 50,0 está na 2ª classe). Na Tabela 1, a variável TV (quantitativa discreta) tem valores inteiros entre 0 e 30 e uma tabela representando tais valores e respectivas freqüências seria muito extensa e pouco prática. Por esse motivo, trataremos essa variável como quantitativa contínua, criando, por exemplo, faixas de amplitude 6 para representar seus valores. 3.2.1.5. Tabela de Freqüência para a Variável TV (extraída da Tabela1): TV ni fac n fi = i n fi ⋅ 100 (%) fac (%) TV: variável quantitativa discreta que foi “tratada” como 0 ├─ 6 14 14 0,28 28 28 6 ├─ 12 17 31 0,34 34 62 12 ├─ 18 11 42 0,22 22 84 18 ├─ 24 4 46 0,08 8 92 24 ├─┤30 4 50 0,08 8 100 Total n = 50 1,00 100 contínua. Observe que na última classe, o intervalo é fechado à esquerda e à direita, incluindo Tabela 6: Variável TV Portanto, o valor 30, e não tendo assim, que abrir mais uma classe por causa de um único valor. Outra sugestão seria usar uma amplitude maior nessa última classe, por exemplo, 24 ├─ 36 que inclui o valor 30. 15 4. GRÁFICOS ESTATÍSTICOS A organização dos dados em tabelas de freqüência proporciona um meio eficaz de estudo do comportamento de características de interesse. Muitas vezes, a informação contida nas tabelas pode ser mais facilmente visualizada através de gráficos. Vamos definir quatro tipos básicos de gráficos: setores ou pizza, colunas ou barras, histograma e polígono de freqüências. 4.1. GRÁFICO DE SETORES OU DISCO OU PIZZA OU DIAGRAMA CIRCULAR Adapta-se muito bem às variáveis qualitativas, mas também pode ser usado para as variáveis quantitativas discretas. Fazendo uso do computador para o traçado do gráfico, basta conhecer as porcentagens de cada valor da variável. Se ao contrário, formos traçar o gráfico com o auxílio de compasso e transferidor, precisamos determinar a medida em graus, de cada setor correspondente aos valores da variável, lembrando que o disco todo mede 360°. Exemplo: Gráfico de Setores para a Variável Toler (Tabela 3) I: 20% P:42% 100% → 360°⎫ ⎬ ⇒ 100 ⋅ x = 20 ⋅ 360 20% → x ⎭ x= 20 ⋅ 360 ⇒ x = 72° 100 Procedemos de maneira análoga para os valores de P e M. M: 38% 16 Gráfico de Setores: Variável Toler I 20% M 38% P 42% Gráfico 1: Setores 4.2. GRÁFICO DE COLUNAS OU BARRAS Adapta-se melhor às variáveis discretas ou qualitativas ordinais. Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as freqüências ou porcentagens no eixo das ordenadas. Exemplo: Gráfico de Colunas para a Variável Idade (Tabela 4) Gráfico de Colunas: Variável Idade 30 ni 20 22 10 0 9 7 4 3 Idade Gráfico 2: Colunas 0 2 1 2 17 4.3. HISTOGRAMA É utilizado para variáveis quantitativas contínuas. Consiste em retângulos contíguos ou adjacentes onde a base, colocada no eixo das abscissas, corresponde aos intervalos das classes e a altura, colocada no eixo das ordenadas é dada pela freqüência absoluta ou relativa das classes. Observação: a área de um histograma é proporcional à soma das freqüências absolutas. No caso de trabalharmos com as freqüências relativas, a área será igual à constante de proporcionalidade. Exemplo: Histograma para a Variável Peso (Tabela 5) Histograma: Variável Peso 25 22 20 ni 15 10 8 8 6 5 5 0 1 40,0 50,0 60,0 70,0 80,0 90,0 100,0 Peso Gráfico 3: Histograma 4.4. POLÍGONO DE FREQÜÊNCIAS É também utilizado para variáveis quantitativas contínuas. Para construir o polígono de freqüências, admitem-se como representantes de cada classe os pontos médios de cada intervalo que as definem. Após obter os pontos (ponto médio, freqüência correspondente) em relação a cada intervalo, estes são ligados entre si por meio de 18 segmentos de retas, sendo que o primeiro e o último deles são ligados ao eixo das abscissas, na metade de classes hipotéticas, imediatamente anterior à primeira e posterior à última. Exemplo: Polígono de Freqüências para a Variável Peso (Tabela 5) Polígono de Freqüências: Variável Peso (55,0; 22) 25 ni 20 15 (75,0; 6) 10 5 (45,0; 8) (85,0; 5) (95,0; 1) (65,0; 8) 0 40,0 50,0 50,0 60,0 60,0 70,0 70,0 80,0 80,0 90,0 90,0 100,0 Pe so Gráfico 4: Polígono de Freqüências 4.5. 1ª Lista de Exercícios 1) Arredonde cada um dos numerais abaixo, conforme a precisão pedida: a) para o décimo mais próximo: 23,40 234,7832 45,09 48,85002 78,85 12,35 120,4500 129,98 199,97 46,727 28,255 299,951 253,65 123,842 37,485 26,6 128,5 68,2 67,5 49,98 39,49 59 446,4 b) para o centésimo mais próximo: c) para a unidade mais próxima: d) para a dezena mais próxima: 42,3 19 265,31 265,0 265 295 302,7 2995,000 2) Na Escola São Leopoldo, para estudar a preferência em relação a refrigerantes, sortearamse 150 estudantes, entre os 1000 matriculados. Responda: a) Qual é a população envolvida na pesquisa? b) Que tipo de amostragem foi utilizado e qual é a amostra considerada? 3) A população envolvida em uma pesquisa sobre a incidência de cárie dentária em escolares da cidade de Morro Grande é apresentada na Tabela 7: Escola População A 500 B 250 C 440 D 360 Total 1550 Tabela 7 Baseando-se nesses dados, estratifique uma amostra com 200 elementos. 4) Em uma cidade com 30.000 habitantes deseja-se fazer uma pesquisa sobre a preferência por tipo de lazer entre pessoas de 20 anos de idade, levando em conta o sexo a que pertencem. a) Qual a população envolvida na pesquisa? b) Supondo que na cidade haja 5.500 mulheres e 6.000 homens com 20 anos, determine uma amostra com 1.200 pessoas. 5) Em uma fábrica foram testadas 400 lâmpadas; a duração delas aparece na distribuição por freqüência da Tabela 8: 20 Duração Número de (em horas) lâmpadas 300 ├─ 400 14 400 ├─ 500 46 500 ├─ 600 58 600 ├─ 700 76 700 ├─ 800 68 800 ├─ 900 62 900 ├─ 1000 48 1000 ├─ 1100 22 1100 ├─ 1200 6 Total 400 Tabela 8 a) Complete a tabela dada com as demais colunas que você conhece. b) Qual a amplitude de cada classe? c) Qual o limite inferior da 3ª classe? d) Qual o limite superior da 8ª classe? e) Qual o ponto médio da 5ª classe? f) Qual a freqüência relativa da 6ª classe? g) Qual a porcentagem de lâmpadas com durabilidade máxima de 500 horas? h) Qual a porcentagem de lâmpadas com durabilidade de 900 horas ou mais? 6) Com relação às variáveis: Turma, Alt, Filhos, Fuma, Exerc, Cine, Op Cine, Op TV, da (Tabela 1) a) Classifique essas variáveis. b) Faça a distribuição de freqüência para cada uma delas. c) A variável Exerc, poderia ser tratada de forma diferente com relação à sua classificação? Justifique sua resposta e em caso afirmativo, construa a nova distribuição de freqüência. 21 d) Construa os gráficos que melhor se adaptam a cada uma das variáveis acima. 7) Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de meses previstos de fisioterapia, se haverá (S) ou não (N) seqüelas após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na Tabela 9: Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5 Seqüelas S S N N N S S N N S S N S N N Cirurgia A M A M M B A M B M B B M M A Tabela 9 a) Classifique cada uma das variáveis. b) Para cada variável, construa a tabela de freqüência e faça uma representação gráfica. c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de barras para a variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse grupo? 8) Os dados da Tabela 10 referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria. 10,1 7,3 8,5 5,0 4,2 3,1 2,2 9,0 9,4 6,1 3,3 10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1 Tabela 10 a) Construa uma tabela de freqüência, agrupando os dados em intervalos de amplitude 2 a partir de 1. b) Construa o histograma. 9) Um grupo de estudantes do ensino médio foi submetido a um teste de matemática resultando em: 22 Nota Freqüência 0 ├─ 2 14 2 ├─ 4 28 4 ├─ 6 27 6 ├─ 8 11 8 ├─ 10 4 Tabela 11 a) Construa o histograma. b) Se a nota mínima para aprovação é 5, qual será a porcentagem de aprovação? 23 5. MEDIDAS Nosso interesse é caracterizar o conjunto de dados através de medidas que resumam a informação, por exemplo, representando a tendência central dos dados ou a maneira pela qual estes dados estão dispersos. 5.1. MEDIDAS DE POSIÇÃO Se estivermos numa parada de ônibus e nos pedirem alguma informação sobre a demora em passar um determinado ônibus, ninguém imagina que poderíamos dar como resposta uma tabela de freqüências que coletamos no último mês. Quem perguntou deseja uma resposta breve e rápida que sintetize a informação que dispomos e não uma completa descrição dos dados. É para isto que servem as medidas de posição. As medidas de posição ou medidas de tendência central para um conjunto de dados qualquer (população ou amostra) são: a média, a mediana e a moda. 5.1.1. Medidas de Posição para um Conjunto de Dados Seja uma variável X com observações representadas por x1 , x 2 , x 3 , K , x n . 5.1.1.1. Média Aritmética ou simplesmente Média ( x ) É a soma dos valores da variável dividida pelo número total de observações. n x= x1 + x 2 + L + x n = n ∑ xi i =1 n (dados não agrupados); x= ∑ ( n i⋅ x i ) n Exemplo: Calcular a média aritmética dos valores: 9, 12, 8, 6, 14, 11, 5 (dados agrupados) 24 x= 9 + 12 + 8 + 6 + 14 + 11 + 5 65 = = 9,29 7 7 Para calcularmos a média quando os dados estão agrupados em classes, representamos todos os valores de cada classe pelo ponto médio da classe. 5.1.1.2. Mediana (md) É o valor da variável que ocupa a posição central dos dados ordenados. Temos duas considerações a fazer: a) O número de observações (n) é ímpar: a mediana será o valor da variável que ocupa a posição de ordem n +1 . 2 Exemplo: Calcular a mediana dos valores: 9, 12, 8, 6, 14, 11, 5. Em primeiro lugar, vamos organizar os dados em ordem crescente: 5, 6, 8, 9, 11, 12, 14 n = 7 (ímpar) ∴ n +1 8 = = 4 ∴ a mediana é o 4º elemento da seqüência ⇒ md = 9 2 2 b) O número de observações (n) é par: não existe portanto um valor que ocupe o centro; convencionou-se que a mediana será a média aritmética dos valores que ocupam as posições de ordem n 2 e n +1. 2 Exemplo: Calcular a mediana dos valores já ordenados: 6, 8, 9, 11, 12, 14 n = 6 (par) ∴ n =3 e 2 n + 1 = 4 ∴ a mediana será dada pela média aritmética entre o 2 3º e 4º elementos da seqüência ⇒ md = 9 + 11 20 = = 10 2 2 Para calcularmos a mediana quando os dados estão agrupados em classes, não levamos em consideração se n é par ou ímpar e procedemos do seguinte modo: 25 1º) Calcula-se n . 2 2º) Pela freqüência acumulada, identifica-se a classe que contém a mediana. n − fac ) ⋅ h 2 3º) Aplica-se a fórmula: md = limd + , onde: ni md ( li md = limite inferior da classe md n = nº total de elementos da amostra fac = freqüência acumulada da classe anterior à classe md ni md = freqüência da classe md h = amplitude da classe md 5.1.1.3. Moda (mo) É o valor da variável mais freqüente da distribuição. Exemplo: Calcular a moda para o seguinte conjunto de dados: 65, 87, 49, 58, 65, 65, 67, 83, 87, 79, 87. mo = 65 (aparece 3 vezes) e mo = 87 (aparece 3 vezes). Temos duas modas, portanto a distribuição é bimodal. Quando a distribuição não apresentar moda, será chamada de amodal; se tiver uma só moda, recebe o nome de unimodal, e se apresentar várias modas será multimodal. Para calcularmos a moda quando os dados estão agrupados em classes, usaremos o seguinte processo: 1º) Identifica-se a classe modal (a que possuir maior freqüência). 2º) Aplica-se a fórmula: mo = li mo + Δ1 ⋅ h , onde: Δ1 + Δ 2 li mo = limite inferior da classe modal Δ1 = diferença entre a freqüência da classe modal e a imediatamente anterior Δ 2 = diferença entre a freqüência da classe modal e a imediatamente posterior 26 Exemplos 1) Calcule média, mediana e moda para a variável Idade. (Tabela 12) (Ver Tabela 4): ∑ (n i⋅x i ) = 945 = 18,9 (média) Idade ( x i ) ni fac ni ⋅ xi 17 9 9 153 18 22 31 396 19 7 38 133 20 4 42 80 21 3 45 63 22 0 45 0 31, e portanto o 25º elemento é igual 23 2 47 46 ao 26º elemento e ambos correspondem 24 1 48 24 ao valor da variável igual a 18 25 2 50 50 ∴ md = Total n = 50 x= 50 n = 50 é par, portanto, a mediana será a média aritmética dos dois valores centrais fac ∑ (n i ⋅ x i ) = 945 n n = 25 e 2 observamos n + 1 = 26 . Pela 2 que o valor da freqüência acumulada até 18 é igual a 18 + 18 = 18 (mediana) 2 Tabela 12 Para o cálculo de mo, olhamos a maior freqüência (22) que corresponde à idade de 18anos. ∴ mo = 18 (moda) 2) Calcule média, mediana e moda para a variável Peso. (Tabela 13) (Ver Tabela 5) 27 fac Ponto Médio ( x i ) ni ⋅ xi Peso ni 40,0 ├─ 50,0 8 8 45,0 360,0 50,0 ├─ 60,0 22 30 55,0 1210,0 60,0 ├─ 70,0 8 38 65,0 520,0 70,0 ├─ 80,0 6 44 75,0 450,0 80,0 ├─ 90,0 5 49 85,0 425,0 90,0 ├─ 100,0 1 50 95,0 95,0 Total n = 50 ∑ (n i ⋅ x i ) = 3060,0 Tabela 13 x= ∑ ( n i ⋅ x i ) = 3060,0 = 61,2 (média) n 50 n 50 = = 25 . Pela fac (30), a 2ª classe contém a mediana, isto é, o intervalo 50,0 ├─ 60,0. 2 2 n 50 ( − 8 ) ⋅ 10 − fac ) ⋅ h (25 − 8 ) ⋅ 10 md = li md + 2 = 50,0 + 2 = 50,0 + = ni md 22 22 ( 50,0 + 170 = 57,73 (mediana) 22 n i = 22 ⇒ classe mod al : 2 ª mo = li mo + Δ1 ⋅h Δ1 + Δ 2 mo = 50,0 + 22 − 8 14 ⋅ 10 = 50,0 + ⋅ 10 = 50,0 + 5 = 55,0 (moda) (22 − 8) + (22 − 8) 2.14 Observação As medidas de posição podem ser utilizadas em conjunto para auxiliar a análise dos dados, mas existem situações em que uma pode ser mais conveniente do que a outra. Por exemplo, 28 quando existe um ou mais valores muito discrepantes, a média é muito influenciada por este valor e se torna inadequada para representar o conjunto de dados, sendo melhor trabalhar com a mediana. Por outro lado, para conjuntos de dados muito numerosos, a ordenação é custosa e a mediana se torna difícil de calcular. 5.2. MEDIDAS DE DISPERSÃO Um bairro nobre da capital paulista inclui uma das maiores favelas de São Paulo. O que podemos dizer da renda média do bairro? Certamente, os altos rendimentos de alguns residentes serão suficientes para fazer a média atingir um patamar comparável às melhores economias do mundo, porém a discrepância entre os diversos valores deve ser muito grande. O que podemos estar esquecendo é a variabilidade dos valores da variável e isto não é captado pela média e sim pelas medidas de dispersão. As medidas de dispersão ou de variabilidade servem para quantificar a variabilidade dos valores da variável, isto é, a dispersão dos dados, ou a forma como os valores de cada conjunto se espalham ao redor das medidas de tendência central. 5.2.1. Medidas de Dispersão para um Conjunto de Dados Sejam x1 , x 2 , x 3 , K , x n os valores assumidos por uma variável X. Consideremos, por exemplo, as séries: A: 10, 10, 11, 12, 12, 13, 14, 14, 14, 15 com x = 12,5 e md = 12,5 B: 7, 7, 8, 9, 12, 13, 13, 16, 17, 23 com x = 12,5 e md = 12,5 Observamos que essas séries não são homogêneas apesar de ambas terem o mesmo valor para a média e mediana. É preciso, pois, calcular as constantes de dispersão que medem os afastamentos dos valores dessas séries em torno do valor central. Dentre as medidas de dispersão ou de variabilidade mais usadas, temos: amplitude total, variância, desvio padrão e coeficiente de variação. 29 5.2.1.1. Amplitude Total (R) É a diferença entre o maior e o menor valor de um conjunto de dados. R = x máx. − x mín. Exemplos: Para a série A: R = 15 – 10 = 5 Para a série B: R = 23 – 7 = 16 A utilização da amplitude total como medida de dispersão é muito limitada, pois só leva em consideração dois valores de todo o conjunto de dados. 5.2.1.2. Variância ( σ 2 (população) ou S 2 (amostra) ) Para medir a dispersão dos valores de uma variável em torno da média, é interessante estudar o comportamento dos desvios de cada valor em relação à média, isto é, d i = x i − x . Na determinação de cada desvio d i , estaremos medindo a dispersão entre cada x i e a média x . Porém se somarmos todos os desvios, teremos n n i =1 i =1 ∑ di = ∑ ( x i − x ) = 0 . Para contornar o problema, resolveu-se considerar o quadrado de cada desvio ( x i − x ) 2 . Assim, defini-se: Variância: é a média aritmética dos quadrados dos desvios. N σ2= ∑ ( xi − μ ) 2 i =1 N N = ∑ di2 i =1 N N N σ2= ∑ ( xi − μ ) 2 ⋅ ni i =1 N (dados não agrupados) = ∑ di2 ⋅ n i i =1 N Para uma população, onde μ é a média da população e N é o tamanho da população (dados agrupados) n S2= ∑ ( xi − x ) 2 i =1 n (dados não agrupados) Para uma amostra, onde x é a média da amostra e n é o tamanho da amostra 30 n S2= ∑ ( xi − x ) 2 ⋅ ni i =1 n (dados agrupados) A seguir estão outras fórmulas que podem ser usadas para facilitar o cálculo da variância populacional e amostral. n 1 N 2 2 2 1 σ = ∑ x i − μ (dados não agrupados) S = ∑ x i2 − ( x ) 2 (dados não agrupados) N i =1 n i =1 2 σ2= 1 N 1 n ( n i ⋅ x i2 ) − μ 2 (dados agrupados) S 2 = ∑ ( n i ⋅ x i2 ) − ( x ) 2 (dados agrupados) ∑ n i =1 N i =1 Exemplos: Para a série A: S 2 = 1 n 2 1 x i − ( x ) 2 = ⋅ 1591 − 156,25 = 159,1 − 156,25 = 2,85 ∑ n i =1 10 Para a série B: S 2 = 1 n 2 1 x i − ( x ) 2 = ⋅1799 − 156,25 = 179,9 − 156,25 = 23,65 ∑ n i =1 10 5.2.1.3. Desvio Padrão ( σ (população ) ou S (amostra) ) O desvio padrão é a raiz quadrada da variância. É assim definido para que a unidade original da variável, se houver, seja mantida, pois, pela fórmula do cálculo da variância, a unidade é elevada ao quadrado. σ= σ 2 (desvio padrão populacional) S= S 2 (desvio padrão amostral) Exemplos: Para a série A: S = 2,85 = 1,69 Para a série B: S = 23,65 = 4,86 31 Observação: o desvio padrão define em torno da média populacional ou amostral um intervalo [μ – σ, μ + σ ] ou [ x − S , x + S ] de amplitude 2σ ou 2S, respectivamente, chamado zona de normalidade. 5.2.1.4. Coeficiente de Variação ( CV ) O coeficiente de variação é uma medida relativa da dispersão que serve para comparar o grau de concentração em torno da média de conjuntos de dados distintos. CV = σ ⋅100% (para população) μ CV = S ⋅100% (para amostra) x Exemplos: Para a série A: CV = 1,69 ⋅100% = 13,52 % 12,5 Para a série B: CV = 4,86 ⋅100% = 38,88 % 12,5 Vemos, portanto, que há maior variação na série B do que na A, pois o CV na série B é bem maior que na série A. Exemplos 1) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável Idade. (Tabela14) (Ver Tabela 12): 32 Idade ( x i ) ni fac ni ⋅ xi n i ⋅ x i2 17 9 9 153 2601 18 22 31 396 7128 19 7 38 133 2527 20 4 42 80 1600 21 3 45 63 1323 22 0 45 0 0 23 2 47 46 1058 24 1 48 24 576 25 2 50 50 1250 Total n = 50 ∑ (n i ⋅ x i ) = 945 ∑ ( n i ⋅ x i2 ) = 18063 Tabela 14 R = 25 – 17 = 8 (amplitude total) S 2= 1 n ∑ ( n i ⋅ x i2 ) − ( x )2 n i =1 S 2= 1 ⋅18063 − (18,9 ) 2 = 361,26 − 357,21 = 4,05 (variância) 50 Já foi calculado em 5.1.1. (Exemplo1): x = 18,9 S= S 2 = 4,05 = 2,01 (desvio padrão) CV = S 2,01 ⋅100% = ⋅100% = 10,63% (coeficiente de variação) 18,9 x 2) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável Peso. (Tabela 15) (Ver Tabela 13): 33 Peso ni fac Ponto Médio ni ⋅ xi n i ⋅ x i2 ( xi ) 40,0 ├─ 50,0 8 8 45,0 360,0 16200,0 50,0 ├─ 60,0 22 30 55,0 1210,0 66550,0 60,0 ├─ 70,0 8 38 65,0 520,0 33800,0 70,0 ├─ 80,0 6 44 75,0 450,0 33750,0 80,0 ├─ 90,0 5 49 85,0 425,0 36125,0 90,0 ├─ 100,0 1 50 95,0 95,0 9025,0 Total n = 50 ∑ (n i ⋅ x i ) = 3060,0 ∑ ( n i ⋅ x i2 ) = 195450,0 Tabela 15 R = 95,0 – 44,0 = 51,0 kg (amplitude total - Tabela 1) S 2= 1 n ( n i ⋅ x i2 ) − ( x ) 2 ∑ n i =1 S 2= 1 ⋅195450,0 − ( 61,2 ) 2 = 3909,0 − 3745,44 = 163,56kg 2 (variância) 50 Já foi calculado em 5.1.1. (Exemplo2): x = 61,2kg S= S 2 = 163,56 = 12,79kg (desvio padrão) CV = 12,79 S ⋅100% = ⋅100% = 20,90% (coeficiente de variação) 61,2 x 5.3. 2ª LISTA DE EXERCÍCIOS 1) Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2. Organize os dados numa tabela de freqüência e determine todas as medidas de posição e de dispersão. 34 2) Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado no fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os seguintes: 1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5 e 2,2. a) Utilizando os dados brutos, determine as medidas de posição e de dispersão desse conjunto. b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5. c) Calcule, a partir da tabela de freqüência e com o ponto médio como representante de cada faixa, as medidas de posição e de dispersão. Comente as diferenças encontradas com o item (a). d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o de (a) ou o de (c) ?Justifique. 3) A pulsação de 10 estudantes no início de uma prova de estatística foram as seguintes (em batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Calcule as medidas de posição e de dispersão desse conjunto de dados. 4) Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e modelo tiveram o seu consumo observado durante 1000 quilômetros. A informação obtida é apresentada na Tabela 16 em km/litro. Faixas Freqüência 7 ├─ 8 27 8 ├─ 9 29 9 ├─ 10 46 10 ├─ 11 43 11 ├─ 12 55 Tabela 16 35 Determine as medidas de posição e de dispersão do consumo. 5) Se a média das alturas de um grupo de pessoas é 175 cm e o desvio padrão é 20 cm, uma pessoa com estatura de 150 cm está dentro da normalidade? Por quê? 6) Numa escola, duas turmas conseguiram os seguintes resultados: Turma A: x = 45 , S = 10 Turma B: x = 45 , S = 3,5 Responda: a) Qual a turma mais homogênea? Por quê? b) Um aluno com média 40 é considerado normal na turma A? E na turma B? Por quê? 7) Na aplicação de um teste de motricidade, conseguiram-se os resultados da Tabela 17. Pontos ni 5├─ 10 2 10├─ 15 4 15├─ 20 10 20├─ 25 15 25├─ 30 9 30├─ 35 5 Tabela 17 Responda: a) Qual é a média aritmética? b) Qual é o desvio padrão? c) Qual a zona considerada de normalidade? d) Uma criança que obteve 28 pontos é considerada com motricidade normal? Por quê? 8) Na pesagem de 20 crianças de quinta série, obtiveram-se os seguintes resultados, em kg: 38 40 45 42 45 40 43 38 36 45 45 40 41 41 38 46 32 48 46 42 43 44 50 38 40 Nesse grupo de crianças, um menino com 35 kg seria considerado com peso normal? Por quê? 37 6. PROBABILIDADES Neste capítulo não existe a pretensão de um estudo completo sobre a teoria das probabilidades, mas sim do conhecimento de alguns conceitos que serão aplicados posteriormente. 6.1. DEFINIÇÕES 6.1.1. Fenômeno Determinístico É aquele em que repetindo um experimento, nas mesmas condições, o resultado esperado é sempre o mesmo. Exemplo: se um corpo percorre uma distância de 120 km, com velocidade média de 60 km/h, podemos determinar, pelas leis da Física, que ele gastará 2 horas para percorrer o referido espaço, e isto sempre ocorrerá, desde que sejam mantidas as mesmas condições. 6.1.2. Fenômeno Aleatório ou Probabilístico É aquele cujo resultado não pode ser previsto com certeza, ainda que mantidas as mesmas condições de realização. Exemplo: no lançamento de um dado, não podemos dizer, com certeza, qual será o resultado. Só podemos saber que é provável que ocorra o resultado 1, ou 2, ou 3, ou 4, ou 5, ou 6. A maioria dos fenômenos tratada pela Estatística é de natureza aleatória ou probabilística. Na própria escolha da amostra, temos um fenômeno probabilístico. Veremos que modelos podem ser estabelecidos para quantificar as incertezas das diversas ocorrências. 38 6.1.3. Espaço Amostral (S) É o conjunto de todos os resultados possíveis de um certo fenômeno aleatório. 6.1.4. Evento (E) É um subconjunto do espaço amostral. Exemplo: lançamos uma moeda duas vezes. Se C indica cara e R, coroa, temos: S = {(C, C); (C, R); (R, C); (R, R)} (Espaço Amostral) Seja o evento “obtenção de faces iguais”. Temos: E = {(C, C); (R, R)} (Evento) Seja o evento “obtenção de cara no 1º lançamento”. Temos: E = {(C, C); (C, R)} (Evento) Exemplo: um experimento consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar. Um espaço amostral conveniente é: S = {t: t ≥ 0}, isto é, o conjunto de todos os números reais não negativos. Seja o evento “o tempo de vida da lâmpada é inferior a 20 horas”. Temos: E = {t: 0 ≤ t < 20}. Este é um exemplo de espaço amostral contínuo, enquanto os outros anteriores são discretos. 6.1.5. Probabilidade É a relação entre o número de possíveis resultados de E e todos os possíveis resultados do experimento. Indicamos: P(E) P(E) = n º de resultados que produzem E n º de resultados possíveis na exp eriência No caso dos dois eventos acima, P(E) = 2 1 = . 4 2 39 6.2. PROPRIEDADES Sendo o modelo probabilístico um modelo teórico para as freqüências relativas, podemos verificar algumas das propriedades a seguir: • Como toda freqüência relativa é um número entre 0 e 1, temos que: 0 ≤ P(E) ≤ 1, para qualquer evento E. • Considerando o espaço todo S e o conjunto vazio como eventos, temos: P(S) = 1 (evento certo) e P(Ø) = 0 (evento impossível) 6.3. OUTRAS DEFINIÇÕES 6.3.1. Variável Aleatória Discreta Uma quantidade X, associada a cada possível resultado do espaço amostral S, é denominada de variável aleatória discreta, se assume valores num conjunto enumerável de pontos do conjunto real, com certa probabilidade de ocorrência. 6.3.2. Função Discreta de Probabilidade A função que atribui a cada valor x1 , x 2 , x 3 , K, x n da variável aleatória X sua probabilidade de ocorrência p1 , p 2 , p3 , K, p n , respectivamente, é denominada de função discreta de probabilidade ou, simplesmente, função de probabilidade. Notação: p ( x i ) = P ( X = x i ) = pi , i = 1, 2, 3, K ou ainda X x1 x2 x3 K pi p1 p2 p3 K Uma função de probabilidade satisfaz: 0 ≤ pi ≤ 1 e ∑ pi = 1 . 40 6.3.3. Variável Aleatória Contínua Uma quantidade X, associada a cada possível resultado do espaço amostral S, é denominada de variável aleatória contínua, se assume valores num intervalo do conjunto dos números reais, com certa probabilidade de ocorrência. Exemplos: renda, salário, tempo de uso de um equipamento, área atingida por certa praga agrícola. 6.3.4. Função Contínua de Probabilidade Função contínua de probabilidade ou função densidade de probabilidade para uma variável aleatória contínua X é toda função f (X) que satisfaz a duas condições: a) f (X) ≥ 0, para todo X ∈ ( −∞, + ∞ ) ; b) a área definida por f (X) é igual a 1. 41 7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS Dentre os principais modelos teóricos para variáveis aleatórias contínuas (definição 6.3.3), estudaremos o modelo normal, pois, vários fenômenos tais como estatura, QI, orientação política, desgaste dos pisos, etc., aproximam-se, na prática, muito bem desse modelo. 7.1. Modelo Normal ou Distribuição Normal Dizemos que uma variável aleatória contínua X tem distribuição normal com μ e σ2, parâmetros respectivamente a média e a variância da distribuição, − ∞ < μ < +∞ e 0 < σ 2< +∞ , se a sua função densidade de probabilidade (definição 6.3.4) é dada por: f ( X) = 1 σ 2π 2 2 ⋅ e− ( X −μ) / 2 ⋅ σ , para −∞ < X < +∞ . Notação: X ~ N( μ , σ 2 ) , significa: X tem distribuição normal com parâmetros μ e σ 2 . 7.1.1. Gráfico f(X) 0 μ-σ μ μ+σ Gráfico 5: Curva Normal Observando-se o gráfico, temos: X 42 a) f ( X ) é simétrica em relação a μ, isto é, f (μ + X ) = f (μ – X ), para todo X, −∞ < X < +∞ . b) f ( X ) → 0 quando X → ±∞ . c) o valor máximo de f ( X ) se dá para X = μ, isto é, a curva normal é unimodal e média ( μ ), mediana ( Md ) e moda ( Mo ) coincidem. d) E ( X ) = μ ( valor esperado ou média) e) Var ( X ) = σ 2 ( variância) f(X) Como calcular P ( a ≤ X ≤ b)? 0 μ a b X Gráfico 6: Probabilidade As probabilidades para o modelo normal são calculadas com o auxílio de tabelas, e, para evitarmos a multiplicação desnecessária de tabelas para cada par de valores ( μ , σ 2 ) ,utiliza-se uma transformação que conduz sempre ao cálculo de probabilidades com uma variável de parâmetros ( 0 , 1 ), isto é, μ = 0 (média) e σ 2 = 1 (variância). Desse modo, se X ~ N( μ , σ 2 ) , definimos uma nova variável Z = X−μ , para qual σ demonstra-se que μ ( Z ) = 0 e σ 2 ( Z ) = 1. Logo Z ~ N( μ , σ 2 ) e é denominada de Normal Padrão ou Normal Reduzida. f(Z) -1 0 1 Gráfico 7: Normal Padrão ou Normal Reduzida Agora, para calcularmos P ( a ≤ X ≤ b), fazemos a seguinte transformação: Z 43 P ( a ≤ X ≤ b) = P ( a −μ b−μ ≤Z≤ ) , onde X ~ N( μ , σ 2 ) . σ σ Portanto, quaisquer que sejam os valores de μ e σ, utilizamos a Normal Padrão para obter probabilidades com a distribuição normal. Os valores P ( 0 ≤ Z ≤ z ), z ≥ 0 são tabelados. Pela simetria da curva normal, podemos calcular valores de probabilidades em outros intervalos e também temos que a probabilidade de estar à direita (ou à esquerda) de zero é 0,5. Como a probabilidade é sempre um nº compreendido entre 0 e 1, a tabela contém apenas a parte decimal. Exemplo 1) As alturas de 10.000 alunos têm distribuição aproximadamente normal, com média 170 cm e desvio padrão 5 cm. Qual a probabilidade de termos: a) Alunos com alturas entre 165 cm e 170 cm. b) Entre 165 cm e 180 cm. c) Entre 168 cm e 185 cm. d) Menores que 160 cm. e) Maiores que 180 cm. f) Qual o número esperado de alunos com altura superior a 165 cm? Resolução Variável X: altura, com X ~N ( 170, 25 ); μ = 170 cm e σ 2 = 25. P ( a ≤ X ≤ b) = P ( a −μ b−μ ≤Z≤ ) σ σ a) P ( 165 < X < 170 ) = P ( 165 − 170 170 − 170 <Z< ) = P ( -1< Z < 0 ) (na tabela não 5 5 existem valores negativos; pela simetria da curva normal, a área representada por P ( -1 < Z < 0 ) é igual à área representada por P ( 0 < Z < 1 ) = 0,3413 (Tabela da Normal Reduzida) ∴ P ( 165 < X < 170 ) = 34,13%. 44 b) P ( 165 < X < 180 ) = P ( 165 − 170 180 − 170 <Z< ) = P ( -1 < Z < 2 ) = 5 5 = P ( -1 < Z < 0 ) + P (0 < Z < 2 ) = P (0 < Z < 1 ) + P ( 0 < Z < 2 ) (Tabela da Normal Reduzida) = 0,3413 + 0,4772 = 0,8185 ∴ P ( 165 < X < 180 ) = 81,85%. c) P ( 168 < X < 185 ) = P ( 168 − 170 185 − 170 <Z< ) = P ( - 0,4 < Z < 3 ) = 5 5 = P (- 0,4 < Z < 0 ) + P ( 0 < Z < 3 ) = P ( 0 < Z < 0,4 ) + P ( 0 < Z < 3 ) (Tabela da Normal Reduzida) = 0,1554 + 0,4987 = 0,6541 ∴ P ( 168 < X < 185 ) = 65,41% 160 − 170 ) = P ( Z < - 2 ) = P ( Z > 2 ) (pela simetria da Normal) 5 d) P ( X < 160 ) = P ( Z < P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 = 0,0228 ∴ P ( X < 160 ) =2,28% e) P ( X > 180 ) = P ( Z > 180 − 170 ) = P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 = 5 0,0228 ∴ P ( X > 180 ) = 2,28% f) P ( X > 165 ) = P ( Z > 165 − 170 ) = P ( Z > - 1 ) = P ( Z < 1 ) (pela simetria da Normal) 5 P ( Z < 1 ) = 0,5 + P ( 0 < Z < 1 ) = 0,5 + 0,3413 = 0,8413 ∴ P ( X > 165 ) = 84,13%. Como são 10.000 alunos, teremos: 10.000 . 0,8413 = 8.413 alunos é o número esperado de alunos com altura superior a 165 cm. 45 8. ESTIMAÇÃO A estimação faz parte da Inferência Estatística que tem por objetivo fazer generalizações sobre uma população com base em dados de uma amostra. Existem dois tipos de estimação: por ponto e por intervalo. Na estimação por ponto é proposto um único valor para substituir o parâmetro (dado da população). Assim, o estimador por ponto da média aritmética populacional μ é a média aritmética amostral x ; o estimador por ponto da variância populacional σ 2 é a variância amostral S2 . 8.1. ESTIMAÇÃO POR INTERVALO A estimação por ponto não permite julgar qual a possível magnitude do erro que estamos cometendo ao substituir o parâmetro por um único valor. Daí surge a idéia de construir intervalos de confiança, que são baseados na distribuição amostral do estimador pontual, incorporando à estimativa pontual do parâmetro informações a respeito de sua variabilidade. Um intervalo de confiança é determinado por dois valores que são os seus limites, chamados “limites de confiança”, que com certa probabilidade incluam o verdadeiro valor do parâmetro da população. Logo, a estimação por intervalo consiste na fixação de dois valores tais que γ seja a probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do parâmetro. γ é chamado de coeficiente de confiança ou nível de confiabilidade. 1 – γ é o nível de significância ou nível de incerteza ou ainda grau de desconfiança. Portanto, a partir de informação de amostra, devemos calcular os limites de um intervalo, que em γ % dos casos inclua o valor do parâmetro a estimar e em (1 – γ)% dos casos não inclua o valor do parâmetro. 46 8.1.1. Intervalo de Confiança (IC) para a Média Populacional (variância conhecida) Consideremos, inicialmente, o intervalo de confiança para a média μ (desconhecida) de uma certa população Normal, com variância conhecida σ 2 . Supondo uma amostra X de σ2 ) , onde X é a média tamanho n, com valores X1 , X 2 , K, X n , temos que X ~ N ( μ , n amostral. Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com coeficiente de confiança γ, como: ⎡ ⎤ IC (μ , γ ) = ⎢X − z γ . σ X ; X + z γ . σ X ⎥ = X − z γ . σ X ≤ μ ≤ X + z γ . σX , onde: ⎢⎣ ⎥⎦ 2 2 2 2 X é a média amostral. z γ é obtido da tabela da Normal Padrão, localizando o valor de 2 γ no corpo da tabela e 2 obtendo o valor z γ nas margens correspondentes. 2 σ é o desvio padrão da média amostral. n σX = Os “limites de confiança” citados anteriormente são os números obtidos por X − z γ . σX e X + z γ . σX . 2 2 A expressão IC (μ , γ ) envolve a quantidade X que é uma variável aleatória, e sendo assim, o intervalo obtido também é aleatório, com probabilidade γ de conter o verdadeiro valor da média populacional μ. Assim, uma interpretação conveniente para o intervalo de confiança é: se obtivermos várias amostras de mesmo tamanho, e, para cada uma delas calcularmos os correspondentes intervalos de confiança com coeficiente de confiança γ, esperamos que a proporção de intervalos que contenham o valor de μ seja igual a γ. 47 Exemplo Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo Normal com média μ desconhecida e variância igual a 0,01 m 2 . Uma amostra de dez animais foi sorteada e forneceu média 1,69 m. Desejamos uma estimativa para o parâmetro desconhecido μ, com coeficiente de confiança de 95%. Identificando os dados do problema, temos: σ 2 = 0,01; n = 10; X = 1,69; γ = 95%; X ~ N (μ , σ2 ) n γ 95 ⇒ γ = 0,95 ∴ = 0,475 ( localizamos este valor no corpo da tabela da 100 2 Normal Padrão e encontramos o valor de z γ = 1,96 ). γ = 95% ⇒ γ = 2 σX = 0,1 σ = n 10 IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] 2 IC (μ , 95% ) = [1,69 − 1,96 ⋅ 2 0,1 0,1 ; 1,69 + 1,96 ⋅ ] 10 10 IC (μ , 95% ) = [ 1,63 ; 1,75 ] Concluindo, podemos dizer que em 100 intervalos construídos, 95 contêm a verdadeira média e, de modo geral, admitimos que o intervalo calculado é um dos que contém a verdadeira média μ. Por essa razão, além de informar o intervalo obtido, devemos também fornecer o índice de confiança utilizado. Observações: • A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior e inferior, isto é, X + z γ . σ X − (X − z γ . σ X ) = 2 z γ . σ X 2 • 2 2 A semi-amplitude, ou seja, z γ . σ X nos fornece o erro envolvido na estimação. 2 48 • Se a população for finita e de tamanho N conhecido, e se a amostra de tamanho n dela retirada for sem reposição, então: σ X = σ . n N−n N −1 Exemplo De uma população de 1.000 elementos com distribuição aproximadamente normal com σ 2 = 400 , tira-se uma amostra de 25 elementos, obtendo-se X = 150 . Fazer um IC para μ, ao nível de 5%. Identificando os dados do problema, temos: N = 1000; σ 2 = 400 ; n = 25; X = 150 ; 1 – γ = 5%. X ~ N (μ, σ 2X ) , com σ X = 1 – γ = 5% ⇒ 1 − γ = σ . n N−n N −1 5 γ = 0,05 ⇒ γ = 1 − 0,05 = 0,95 ∴ = 0,475 (localizamos este valor 100 2 no corpo da tabela da Normal Padrão e encontramos o valor de z γ = 1,96) 2 σX = σ . n 975 N − n 20 1000 − 25 = . = 4. = 3,95 N −1 5 1000 − 1 999 IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] 2 2 IC (μ , 95%) = [150 – 1,96 . 3,95 ; 150 + 1,96 . 3,95] IC (μ , 95%) = [142,26 ; 157,74] 49 Esquema para melhor compreensão População X amostra ( μ , σ2 ) n x1 ± 1,96 amostra σ n n x 2 ± 1,96 σ n amostra M n x k ± 1,96 μ − 1,96 σ n μ μ + 1,96 x1 σ n σ n x2 xk Figura 2: Intervalo de Confiança – Média Populacional 50 8.1.2. Intervalo de Confiança para a Proporção Quando o tamanho da amostra ( n ) for grande, temos: p̂ ~ N (p, pq ) , onde p̂ é a n proporção amostral e q = 1 – p. Consideramos uma amostra grande quando n > 30. Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para p, com coeficiente de confiança γ, como: IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ] = p̂ − z γ . σ p̂ ≤ p ≤ p̂ + z γ . σ p̂ , onde: 2 2 2 2 p̂ é a proporção amostral. z γ é obtido da tabela da Normal Padrão, localizando o valor de 2 γ no corpo da tabela e 2 obtendo o valor z γ nas margens correspondentes. 2 σ p̂ = p̂ . q̂ é o desvio padrão da proporção amostral, com q̂ = 1 − p̂ . n Exemplo Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo de confiança para p, com coeficiente de confiança γ = 90%. Identificando os dados do problema, temos: p̂ = 80 = 0,2 ⇒ q̂ = 1 − p̂ = 1 − 0,2 = 0,8 ; 400 n = 400; γ = 90% pˆ ~ N ( p , pq ) n 90 γ ⇒ γ = 0,90 ∴ = 0,45 ( localizamos este valor no corpo da tabela da 100 2 Normal Padrão e encontramos o valor de z γ = 1,64). γ = 90% ⇒ γ = 2 σ pˆ = pˆ . qˆ = n 0,2 . 0,8 = 400 0,16 0,4 = = 0,02 400 20 51 IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ] 2 2 IC (p , 90%) = [0,2 – 1,64 . 0,02 ; 0,2 + 1,64 . 0,02] IC (p , 90%) = [ 0,167 ; 0,233 ] Observação: • Para a Proporção, o erro envolvido na estimação é dado por: z γ . σ p̂ 2 8.1.3. Intervalo de Confiança (IC) para a Média Populacional (variância desconhecida) Para estimarmos a média de uma população normal com variância desconhecida, quando o tamanho (n) da amostra for grande, n > 30, substituímos σ 2 pela variância amostral S2 e usamos a distribuição normal. Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com coeficiente de confiança γ, como: IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] , onde: 2 2 X é a média amostral. z γ é obtido da tabela da Normal Padrão, localizando o valor de 2 obtendo o valor z γ nas margens correspondentes. 2 σX = S é o desvio padrão da média amostral, com n n S = S2 e S2 = 1 n 2 {∑ xi − n − 1 i =1 ( ∑ x i )2 i =1 n } ou S2 = 2 1 n 2 {∑ xi − n X } n − 1 i =1 γ no corpo da tabela e 2 52 Exemplos 1) De uma população normal com parâmetros desconhecidos, tiramos uma amostra de tamanho 100, obtendo-se X = 112 e S = 11. Fazer um IC para μ ao nível de 10%. Identificando os dados do problema, temos: n = 100; X = 112 ; S = 11; 1 – γ = 10% = 0,10 1 – γ = 0,10 ⇒ γ = 0,90 ⇒ γ = 0,45 (localizamos este valor no corpo da tabela da Normal 2 Padrão e encontramos o valor de z γ = 1,64 ) 2 S 11 11 = = = 1,1 n 100 10 σX = IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] 2 2 IC (μ , 90%) = [112 – 1,64 . 1,1 ; 112 + 1,64 . 1,1] IC (μ , 90%) = [110,20 ; 113,80] 2) A altura dos homens de uma cidade apresenta distribuição normal. Para estimar a altura média dessa população, levantou-se uma amostra de 150 indivíduos obtendo-se 150 150 i =1 i =1 2 2 ∑ x i = 25800 cm e ∑ x i = 4440075 cm . Ao nível de 2%, determinar um IC para a altura média dos homens da cidade. Vamos inicialmente determinar a média e a variância amostrais. Temos: n = 150 n X= ∑ xi i =1 n 150 = ∑ xi i =1 150 = 25800 = 172 cm 150 n 1 { ∑ x i2 − S = n − 1 i =1 2 n ( ∑ x i )2 i =1 n 150 ( ∑ x i )2 1 1 (25800) 2 2 i =1 }= { ∑ xi − }= {4440075 − } = 16,61 150 − 1 i −1 150 14 9 150 ∴ S = S2 = 16,61 = 4,08 cm 150 53 1 – γ = 2% = 0,02 ⇒ γ = 0,98 ⇒ γ = 0,49 (localizamos este valor no corpo da tabela da 2 Normal Padrão e encontramos o valor de z γ = 2,32 ) 2 σX = S 4,08 = = 0,33 n 150 IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] 2 2 IC (μ , 98%) = [172 – 2,32 . 0,33 ; 172 + 2,32 . 0,33] IC (μ , 98%) = [171,23 cm ; 172,77 cm] = [1,71 m ; 1,73 m] Logo, podemos afirmar com uma certeza de 98% que, apesar dos parâmetros populacionais serem desconhecidos, a altura média dos homens dessa cidade está compreendida entre 1,71m e 1,73 m. 54 9. CORRELAÇÃO É o estudo da existência e do grau de relação entre variáveis, tendo por objetivo medir e avaliar o grau de relação existente entre duas variáveis aleatórias. Por exemplo, o peso pode estar relacionado com a idade das pessoas; o consumo das famílias pode estar relacionado com sua renda; as vendas de uma empresa e os gastos promocionais podem relacionar-se; bem como a demanda de um determinado produto e seu preço. 9.1. CORRELAÇÃO LINEAR SIMPLES Procura medir a relação entre as variáveis X e Y através da disposição dos pontos (X, Y) em torno de uma reta. 9.1.1. Coeficiente de Correlação de Pearson É o instrumento de medida da correlação linear. rXY = ( X) ( Y) ∑ XY − ∑ n ∑ 2 2 ⎡ ( ( X) ⎤ ⎡ Y) ⎤ ∑ ∑ 2 2 ⎢∑ X − ⎥ ⎢∑ Y − ⎥ n ⎥⎢ n ⎥ ⎢ ⎣ − 1 ≤ rXY ≤ 1 . ⎦⎣ ⎦ , onde n = número de observações e 55 9.1.2. Correlação Linear Positiva A correlação será positiva quando valores crescentes de X estiverem associados a valores crescentes de Y, ou valores decrescentes de X estiverem associados a valores decrescentes de Y. Y 0 X Gráfico 8: Correlação Linear Positiva ( 0 < rXY < 1 ) Quando todos os pontos pertencerem à reta, a correlação é chamada correlação linear perfeita positiva e rXY = 1 . 9.1.3. Correlação Linear Negativa A correlação será negativa quando valores crescentes de X estiverem associados a valores decrescentes de Y, ou valores decrescentes de X estiverem associados a valores crescentes de Y. Y 0 X Gráfico 9: Correlação Linear Negativa ( − 1 < rXY < 0 ) 56 Quando todos os pontos pertencerem à reta, a correlação é chamada correlação linear perfeita negativa e rXY = −1 . 9.1.4. Correlação Nula A correlação será nula quando não houver relação entre as variáveis X e Y, ou seja, quando as variações de X e Y ocorrerem independentemente não existe correlação entre elas. Y 0 X Gráfico 10: Correlação Nula ( rXY = 0 ) A correlação será tanto mais forte quanto mais próximo estiver o resultado de + 1 ou de – 1 e será tanto mais fraca quanto mais próximo o resultado estiver de zero. Exemplos 1) Calcular o coeficiente de correlação linear entre as variáveis X e Y, usando os dados da Tabela 18. Observação: para maior facilidade, construiremos uma tabela, onde a partir dos valores de X e Y, determinaremos todas as somas necessárias (Tabela 19) Y 10 8 6 10 12 X 2 4 6 8 Tabela 18 10 57 rXY = ( X) ( Y) ∑ XY − ∑ n ∑ 2 2 ⎡ ( ( X) ⎤ ⎡ Y) ⎤ ∑ ∑ 2 2 ⎢∑ X − ⎥ ⎢∑ Y − ⎥ n ⎥⎢ n ⎥ ⎢ ⎣ rXY = ⎦⎣ 30 ⋅ 46 288 − 5 = 2 ⎡ 30 ⎤ ⎡ 462 ⎤ ⎢220 − ⎥ ⎢444 − ⎥ 5 ⎦⎣ 5 ⎦ ⎣ Y X X2 Y2 XY 10 2 4 100 20 8 4 16 64 32 6 6 36 36 36 10 8 64 100 80 ⎦ 12 = 0,42 40 ⋅ 20,8 12 10 100 144 120 Total 46 30 220 444 288 Tabela 19 A correlação linear entre as variáveis X e Y é positiva , porém baixa. 2) A Tabela 20 mostra os resultados de uma pesquisa com 10 famílias de uma determinada região. 58 Famílias Renda Poupança Número de Filhos Média de Anos de Estudo da Família A 1000,00 4000,00 8 3 B 1500,00 7000,00 6 4 C 1200,00 5000,00 5 5 D 7000,00 20000,00 1 12 E 8000,00 20000,00 2 16 F 10000,00 30000,00 2 18 G 2000,00 8000,00 3 8 H 3000,00 8000,00 2 8 I 1000,00 3000,00 6 4 J 6000,00 15000,00 1 8 Tabela 20 Calcular o coeficiente de correlação linear entre Poupança e Número de Filhos das dez famílias. rXY = ( X) ( Y) ∑ XY − ∑ n ∑ 2 2 ⎡ ( ( X) ⎤ ⎡ Y) ⎤ ∑ ∑ 2 2 ⎢∑ X − ⎥ ⎢∑ Y − ⎥ n ⎥⎢ n ⎥ ⎢ ⎣ ⎦⎣ ⎦ 59 Poupança (X) Número de X2 Y2 XY Filhos (Y) 4000,00 8 16000000,00 64 32000,00 7000,00 6 49000000,00 36 42000,00 5000,00 5 25000000,00 25 25000,00 20000,00 1 400000000,00 1 20000,00 20000,00 2 400000000,00 4 40000,00 30000,00 2 900000000,00 4 60000,00 8000,00 3 64000000,00 9 24000,00 8000,00 2 64000000,00 4 16000,00 3000,00 6 9000000,00 36 18000,00 15000,00 1 225000000,00 1 15000,00 ∑ X = 120000,0 ∑ Y = 36 ∑ X2 = 2152000000, ∑ Y 2 = 184 0 00 Tabela 21 rXY = ( X) ( Y) ∑ XY − ∑ n ∑ 2 2 ⎡ ( ( X) ⎤ ⎡ Y) ⎤ ∑ ∑ 2 2 ⎢∑ X − ⎥ ⎢∑ Y − ⎥ n ⎥⎢ n ⎥ ⎢ ⎣ ⎦⎣ ⎦ ∑ XY = 292000, 00 60 rXY = 120000 ⋅ 36 10 = 14400000000 ⎤ ⎡ 1296 ⎤ ⎡ ⎢2152000000 − ⎥ ⋅ ⎢184 − 10 ⎥ 10 ⎣ ⎦ ⎣ ⎦ 292000 − − 140000 = −0,71 712000000 ⋅ 54,4 A correlação linear entre as variáveis X e Y é forte e negativa, isto é, famílias com poupança alta têm menor número de filhos. 9.2. 3ª LISTA DE EXERCÍCIOS 1) Seja X ~ N (4 , 1). Determine: a) P (X ≤ 4) b) P (4 < X < 5) c) P (2 ≤ X < 5) d) P (5 ≤ X ≤ 7) e) P (X ≤ 1) f) P (0 ≤ X ≤ 2) 2) Para X ~ N (90 , 100), obtenha: a) P (X ≤ 115) b) P (X ≥ 80) c) P (X ≤ 75) d) P (-10 ≤ X – 90 ≤ 10) e) O valor de a tal que P (90 – a ≤ X ≤ 90 + a) = γ, γ = 0,95 3) Para X ~ N (-5 , 10), calcule: a) P (-5 < X ≤ -2) b) P (X + 5 < -2) + P (X + 5 > 2) 61 4) Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo uma distribuição Normal de média 130 kg e desvio padrão 20 kg. Para efeito de determinar o tratamento mais adequado, os 25% pacientes de menor peso são classificados de “magros”, enquanto os 25% de maior peso de “obesos”. Determine os valores que delimitam cada uma dessas classificações. 5) Por analogia a produtos similares, o tempo de reação de um novo medicamento pode ser considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos (a média é desconhecida). Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de confiança para o tempo médio de reação. Use γ = 96%. 6) Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem a marca X de detergente. Construir um intervalo de confiança para p = proporção das donas-de-casa que preferem X com coeficiente de confiança γ = 90%. 7) Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Construa um intervalo de confiança para a média populacional μ com coeficiente de confiança γ = 95%. 8) Deseja-se fazer uma pesquisa para saber a aceitação de um novo produto no mercado. Qual é o número de pessoas que deve ser entrevistado com 7% de erro e 95% de segurança? 9) Deseja-se fazer uma pesquisa junto a uma empresa para saber o interesse dos funcionários em realizar cursos no exterior. Existem 3 mil funcionários, sendo 1,8 mil com mais de dez anos de empresa e 1,2 mil com menos. Qual deve ser o tamanho da amostra probabilística estratificada sabendo-se que em cursos semelhantes 5% dos funcionários acima de dez anos e 10% dos com menos de dez anos de empresa participaram. Considerar 2% de erro e 95,5% de segurança. 10) Com relação à Tabela 20, calcule: a) O coeficiente de correlação linear entre Renda Familiar e Poupança. b) O coeficiente de correlação linear entre Renda Familiar e Número de Filhos. 62 c) O coeficiente de correlação linear entre Média dos Anos de Estudo e Número de Filhos. d) O coeficiente de correlação linear entre Renda Familiar e Média dos Anos de Estudo. 11) A Tabela 22 mostra o volume de vendas (em 1000 unidades) e os gastos promocionais (em 100000 reais). Calcular a correlação entre as duas variáveis. Vendas Promoção 80 90 95 95 100 110 115 110 120 130 2 4 5 6 8 8 10 10 12 15 Tabela 22 12) Querendo se estimar a média de uma população X com distribuição normal, levantou-se uma amostra de 100 observações obtendo-se X = 30 e S = 4. Ao nível de 90%, determinar o limite de confiança para a verdadeira média da população. 13) Um pesquisador deseja estabelecer o peso médio dos jovens entre 14 e 20 anos. Apesar de desconhecer a média e o desvio padrão populacional, sabe por literatura da área que a distribuição dos pesos é aproximadamente normal. Retira-se uma amostra casual simples de 60 jovens obtendo peso médio de 67 kg e desvio padrão de 9 kg. a) Ao nível de 5% de significância, estabelecer um IC para o peso médio populacional. b) Qual o tamanho da amostra que o pesquisador deveria tomar para ter uma probabilidade de 95% de certeza de cometer um erro de 1,5 kg? 63 Tabela 23: Normal Padrão 64 9.3. RESPOSTAS – LISTAS DE EXERCÍCIOS 9.3.1. 1ª Lista de Exercícios 1) a) 23,4; 48,9; 120,4; 234,8; 78,8; 130,0; 45,1; 12,4; 200,0 b) 46,73; 253,65; 28,26; 123,84; 299,95; 37,48 c) 27; 68; 128; 50; 68; 39 d) 40; 270; 300; 60; 260; 300; 450; 260; 3000 2) a) População: 1000 alunos matriculados; b) Amostragem aleatória simples; Amostra: 150 alunos sorteados. 3) A: 64; B: 32; C: 58; D: 46; 4) a) População: pessoas de 20 anos; b) F: 574; M: 626 5) a) PM: 350; 450; 550; 650; 750; 850; 950; 1050; 1150 fac: 14; 60; 118; 194; 262; 324; 372; 394; 400 f i : 0,04; 0,11; 0,14; 0,19; 0,17; 0,16; 0,12; 0,05; 0,02 f i . 100%: 4; 11; 14; 19; 17; 16; 12; 5; 2 b) 100horas; c) li = 500; d) ls = 1100; e) PM = 750; f) f i = 0,16; g) 15%; h) 19% 6) a) Qualitativa Nominal; Quantitativa contínua; Quantitativa Discreta; Qualitativa Nominal; Quantitativa Discreta; Quantitativa Discreta; Qualitativa Ordinal; Qualitativa Ordinal; c) Sim, como quantitativa contínua, pois existe um número grande de valores diferentes. Sugestão: iniciar em 0 com amplitude de classe igual a 2. 65 d) Setores; Histograma e Polígono de Freqüência; Colunas; Setores; Colunas ou Histograma e Polígono de Freqüências; Colunas; Setores ou Colunas; Setores ou Colunas. 7) a) Fisioterapia: quantitativa discreta Seqüelas: qualitativa nominal Cirurgia: qualitativa ordinal b) Fisioterapia: gráfico de colunas Seqüelas: gráfico de setores Cirurgia: gráfico de colunas c) Gráfico de colunas O número de meses de Fisioterapia diminuiu para os pacientes sem seqüelas. 9) b) 34% 9.3.2. 2ª Lista de Exercícios 1) Média: 1,56; Mediana: 2; Moda: 1 e 2. 2) a) Média: 1,88; Mediana:1,8; Moda: 1,5 c) Média: 1,93; Mediana: 1,8; Moda: 1,6 e 1,8; As diferenças não foram grandes. A solução (a) é mais exata. d) O de (c), pois sem o computador é praticamente impossível organizar 500 dados brutos. 3) Média: 86,20 bat / min; Variância: 16,36 ( bat / min)2 ; Desvio Padrão: 4,04 bat / min. 4) Média: 9,85; Variância: 1,88; Desvio Padrão: 1,37. 5) Não, porque a zona de normalidade está entre 155 cm e 195 cm. 66 6) a) B, pois o desvio padrão é menor b) É considerada normal em A, pois a zona de normalidade está entre 35 e 55. Em B, não, pois a zona de normalidade está entre 41,5 e 48,5 7) a) Média: 21,9; b) Desvio Padrão:6,34; c) Zona de normalidade: 15,56 a 28,24; d) Sim, pois 28 está dentro da zona de normalidade. 8) Não, pois está fora da zona de normalidade. 9.3.3. 3ª Lista de Exercícios 1) a) 0,5000; b) 0,3413; c) 0,8185; d) 0,1574; e) 0,0013; f) 0,0228 2) a) 0,9938; b) 0,8413; c) 0,0668; d) 0,6826; e) 19,6 3) a) 0,3289; b) 0,5286 4) Magros: 116,6 kg; Obesos: 143,4 kg 5) Média: 4,745; [ 3,828; 5,662 ] 6) [ 0,677; 0,732 ] 7) IC (μ , 95%) = [ 30,26 ; 32,74 ] 8) 196 9) 377; 515 10) a) 0,9835; b) -0,7586; c) -0,736; d) 0,947 11) 0,9817 12) IC (μ, 90%) = [29,34; 30,66] 13) a) IC (μ, 95%) = [64,723; 69,278]; b) n = 139 67 REFERÊNCIAS BUSSAB, W. O. & MORETTIN, P. A., Estatística Básica 4 ed. – São Paulo: Atual, 1987. NAZARETH, H. R. S, Curso Básico de Estatística 4 ed. – São Paulo: Ática, 1991. TOLEDO, G. L. & OVALLE, I. I., Estatística Básica 2 ed. – São Paulo: Atlas, 1985. MAGALHÃES, M. N. & LIMA, A. C. P., Noções de Probabilidade e Estatística 6 ed. – São Paulo: Edusp, 2004. CARVALHO, L. R., Apostila de Bioestatística – Botucatu – S P: UNESP, 2000. MORETTIN, L. G., Estatística Básica – Vol. 2 – Inferência – São Paulo: Pearson Makron Books, 2000.