Capítulo 5 Apresentação Estatística - Gráficos e Tabelas. 5.1 - OBJETIVO DO CAPÍTULO Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E isso ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos. Veremos nesse capítulo os gráficos estatísticos mais comuns e utilizados para representar uma amostra de dados coletados de uma determinada população. Através de uma apresentação gráfica adequada vemos com maior facilidade as características da população em estudo. Desta maneira apresentaremos os gráficos de barra/coluna, setores/pizza, histograma, linhas, barras múltiplas, barras empilhadas e polígono de freqüência. 5.2 - APRESENTAÇÃO GRÁFICA DOS DADOS. Além de utilizar tabelas para resumir um conjunto de dados, os gráficos fornecem um impacto visual alternativo. Ao construir qualquer tipo de gráfico, é importante garantir que (assim como as tabelas) o gráfico receba um título adequado, cada um dos eixos sendo rotulado e uma escala sensata utilizada. Isso para que um gráfico faça sentido e seja facilmente compreensível, se nenhum dado acompanhá-lo. Neste capítulo, serão consideradas as formas mais comuns de representação gráfica utilizadas. Isso será feito, inicialmente, considerando-se um único conjunto de dados e fazendo-se a correspondência do gráfico mais apropriado aos tipos de dados (isto é, nominais, ordinais, discretos, contínuos). 5.3 – GRÁFICO DE BARRAS / COLUNAS Este tipo de gráfico mais normalmente utilizado. Cada categoria é representada por uma barra retangular distinta, sendo a freqüência indicada pelo comprimento/altura da barra. Esse gráfico pode ser utilizado para todos os tipos de dados, exceto dados contínuos e dados ordinais na forma de uma série temporal. 32 Alunos de uma Escola "X" 25 Frequência 20 15 10 5 0 Masculino Feminino Gênero 5.4 - GRÁFICO DE SETORES / “PIZZA” Aqui, todo conjunto de dados é representado por um círculo, e cada categoria é representada por uma parte desse círculo (isto é, um setor). A freqüência é representada pelo ângulo e 360° representa o total de dados. De maneira análoga a um gráfico de barra/coluna, o gráfico de setores pode ser utilizado para a maioria dos tipos de dados. Entretanto, como um gráfico de setores é utilizado para mostrar que proporção todo é tomada por uma categoria, ele somente será útil se o número de categorias for pequeno e cada uma for uma proporção significativa do total de dados. Também é possível enfatizar determinada categoria “cortando a fatia” do gráfico principal. Preferência por produto de limpeza 7% 13% 33% A B C 20% D E 27% Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 33 5.5 – HISTOGRAMA O histograma é utilizado para fornecer o equivalente ao gráfico de barras para dados contínuos que foram agrupados em uma tabela de distribuição de freqüência, isto é, ele fornece uma representação comparativa dos dados. Deve-se observar que existem muitas situações em que os histogramas são representados imprecisamente e que poucos pacotes de computador possuem a capacidade de representá-los com precisão. Tome muito cuidado ao falar de histogramas; geralmente, é um gráfico de barras que foi utilizado. Embora um histograma se pareça muito com um gráfico de barras, existem duas diferenças principais: 1 – O eixo na parte inferior (o eixo x) possui uma escala contínua, e os blocos são dispostos juntos. 2 - Mais importante, a área de cada bloco representa a freqüência. Se os intervalos de classe dos dados tiverem todos a mesma amplitude, isto não apresenta nenhum problema, e a altura de um bloco será igual à freqüência. Entretanto, quando as amplitudes de classe forem desiguais, constrói-se um histograma com a altura do bloco igual a uma medida conhecida como densidade de freqüência, onde: Densidade de freqüência = freqüência dividida pela amplitude da categoria. A construção de um histograma em ambas essas circunstâncias é ilustrada nos dois próximos exemplos. Exemplo 1: A Rowell Graphics é uma pequena que emprega 25 artistas gráficos permanentes. A empresa opera com horário de trabalho flexível. Sob esse sistema, cada mês um funcionário pode acumular até 10 horas de crédito ou quatro horas de débito para o próximo mês de trabalho. A tabela abaixo resume o número de horas acumuladas para o mês de janeiro deste ano. Horas de crédito dos funcionários da Rowell Garphics. Horas de crédito acumuladas -4 a menos de -2 -2 a menos de 0 0 a menos de 2 2 a menos de 4 4 a menos de 6 6 a menos de 8 8 a menos de 10 Total Fonte: Registros da empresa Número de funcionários 2 3 5 8 4 2 1 25 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 34 Nesse caso, todas as categorias cobrem a mesma faixa de tempo de duas horas. Portanto, ao construir o histograma, a freqüência (isto é, o número de funcionários) de cada grupo pode ser utilizada para representar a altura de um único bloco (lembrando que, como os dados são contínuos, os blocos são unidos no eixo x, que representa o tempo). O histograma resultante é exibido na figura abaixo. Exemplo 2: A Rowell Graphics também emprega em torno de 50 funcionários que trabalham em casa, durante períodos particularmente ativos. Esses artistas recebem por hora, e seu pagamento é feito retrospectivamente no final de cada mês. A tabela abaixo resume o número de horas apresentadas por esses funcionários no final de janeiro deste ano. Ilustre esses dados em um histograma. Como a amplitude das categorias é desigual, é necessário o cálculo da densidade da freqüência para representar a altura de cada bloco. Como esse cálculo é feito dividindo-se a freqüência pela amplitude das categorias, encontrar o valor da última categoria em aberto não é possível no momento. Horas reivindicadas pelos funcionários da Rowell Graphics que trabalham em casa Horas reivindicadas Menos de 30 De 30 a menos de 50 De 50 a menos de 75 De 75 a menos de 100 De 100 a menos de 125 De 125 a menos de 150 150 ou mais Total Número de funcionários 3 5 8 10 15 7 2 50 Fonte: Registros da empresa É bem comum que os dados sejam representados dessa maneira, e não existem regras fixas sobre a maneira pela qual se trata esse assunto. Neste texto, Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 35 recomenda-se que a amplitude de uma categoria aberta seja o dobro da categoria mais comum utilizada para resumir os dados. Portanto, nesse exemplo, a amplitude da última categoria será de 50, gerando um ponto final em 200 horas. Veja a nova tabela abaixo, com a densidade da freqüência. Encontro da densidade freqüência. Horas reivindicadas Número de funcionários Menos de 30 3 De 30 a menos de 50 5 De 50 a menos de 75 8 De 75 a menos de 100 10 De 100 a menos de 125 15 De 125 a menos de 150 7 De 150 a menos de 200 2 Fonte: Registros da empresa Amplitude da Classe 30 20 25 25 25 25 50 Densidade da freqüência 3/30=0,1 5/20=0,25 8/25=0,32 10/25=0,25 15/25=0,6 7/25=0,28 2/50=0,04 O histograma é, então, construído plotando-se as horas reivindicadas sobre os eixo x com os valores da densidade da freqüência sendo plotados no eixo y. Veja a figura abaixo. Fonte: Registro da empresa Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 36 EXERCÍCIO PROPOSTO 1) Ilustre os dados fornecidos na tabela abaixo em um histograma. Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis. Aluguel mensal ($) Freqüência(f) De 100 a menos de 110 1 De 110 a menos de 120 4 De 120 a menos de 130 7 De 130 a menos de 140 13 De 140 a menos de 150 7 De 150 a menos de 160 3 160 ou mais 1 Fonte: Questionário Aplicado aos alunos. 5.6 – GRÁFICO DE FREQÜÊNCIA ACUMULADA O gráfico de freqüência acumulada, ou ogiva, é outro gráfico utilizado em particular com dados contínuos. O gráfico fornece uma representação proporcional dos dados e seu principal uso é para encontrar mediana, cujo cálculo veremos nos capítulos posteriores. Para construir um gráfico de freqüência acumulada, geralmente é necessário mudar a maneira como os dados foram tabulados, para que se calculem as freqüências acumuladas (isto é, o número total de observações que são menores do que determinada observação). Esses valores da freqüência acumulada tornam-se pontos do eixo y. Gráfico de freqüência acumulada. Exemplo: Construa uma nova tabela com a freqüência acumulada para os dados dos aluguéis mensais mostrados na tabela abaixo. Aluguel mensal pago por alunos do curso de bacharelado em Ciências Contábeis. Aluguel mensal ($) Freqüência(f) De 100 a menos de 110 1 De 110 a menos de 120 4 De 120 a menos de 130 7 De 130 a menos de 140 13 De 140 a menos de 150 7 De 150 a menos de 160 3 160 ou mais 1 Fonte: Questionário Aplicado aos alunos. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 37 Duas novas colunas são adicionadas. Essas duas últimas colunas de dados são plotados nos eixos horizontal (x) e vertical (y) respectivamente, e então ligados com linhas retas ou curvas para produzir a ogiva. Isto é mostrado na figura abaixo. Aluguel mensal ($) Freqüência Aluguel mensal menor que 100 110 120 130 140 150 160 180* 1 4 7 13 7 3 1 De 100 a menos de 110 De 110 a menos de 120 De 120 a menos de 130 De 130 a menos de 140 De 140 a menos de 150 De 150 a menos de 160 160 ou mais Freqüência Acumulada 0 1 5 12 25 32 35 36 Fonte: Questionário aplicado aos alunos Frequência Acumulada Aluguel mensal pago por alunos 40 35 30 25 20 15 10 5 0 100 110 120 130 140 150 160 180 Aluguel 5.7 – GRÁFICO DE LINHAS Novamente, este é um gráfico que normalmente é utilizado para um propósito específico, isto é, apresentar dados de uma série temporal. Ele simplesmente consiste na variável do tempo plotada no eixo horizontal (x) e na segunda variável (seja ela vendas, lucros, custos de produção etc.) plotada no eixo (y). Cada ponto individual é representado por uma cruz ou um ponto, e cada um desses pontos é ligado ao seguinte por uma linha reta. Então, por exemplo, se o aluguel mensal médio pago pelos alunos tivesse sido coletado ao longo do período de 10 anos, então o gráfico de linhas seria a escolha de apresentação mais adequada. A figura abaixo mostra o gráfico de linhas que, apesar de uma tabela de dados não ter sido fornecida, as informações do gráfico são facilmente obtidas. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 38 Por exemplo, qual foi o aluguel mensal médio pago pelos alunos do bacharel em Ciências Contábeis em 1992? Aluguel mensal médio pago pelos alunos. 160 150 Aluguel 140 130 120 110 100 90 80 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Anos Para os gráficos de linhas, se dois ou mais conjuntos de dados estiverem sendo exibidos, então diferentes padrões, cores e indicadores de pontos podem ser utilizados para distingui-los e uma chave ou legenda de acompanhamento fornecida. Isso naturalmente nos leva a observar as alternativas que estão disponíveis para exibir mais de um conjunto de dados. Para dados nominais e discretos, existem duas alternativas que se baseiam no gráfico de barras/colunas, e, para dados contínuos, um gráfico conhecido como polígono de freqüência é utilizado. 5.8 – GRÁFICO DE BARRAS MÚLTIPLAS Um gráfico de barras múltiplas é utilizado quando é necessária uma comparação da distribuição de dois ou mais grupos de dados. Em muitas ocasiões, o número total de observações em cada um dos grupos será diferente, portanto, as freqüências não podem ser comparadas diretamente. Se isso for necessário, freqüências percentuais serão calculadas, e os valores resultantes serão plotados no gráfico. A figura abaixo é um gráfico de barras múltiplas que foi utilizado para mostrar os dados sobre as acomodações e gêneros dos alunos do curso de bacharelado em Ciências Contábeis. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 39 Tipo de acomodações dos alunos. Frequência percentual 35 30 25 20 15 10 5 0 Alojamento Estudantil Hospedaria Casa Própria/ dos Pais Apartamento / Casa alugada Outro Acomodação Homens Mulheres Neste caso os dois grupos comparados possuem tamanhos diferentes, isto é, 15 homens versus 21 mulheres, foram utilizados as freqüências percentuais. Os cálculos necessários para isso são exibidos na tabela abaixo. Acomodações dos alunos do curso de bacharelado em Ciências Contábeis. Acomodação Homens Freqüência % Mulheres Freqüência % Alojamento Estudantil 4 26,6 6 28,57 Hospedaria 3 20 5 23,80 Casa Própria/ dos Pais 3 20 2 9,52 Apartamento / Casa 4 26,6 7 33,33 alugada Outro 1 6,6 1 4,76 Total 100% 100% Fonte: Questionário aplicado aos alunos 5.9 – GRÁFICO DE BARRAS EMPILAHDAS De maneira similar aos gráficos de setores para um único conjunto de dados, um gráfico de barras empilhadas é utilizado para ilustrar uma representação proporcional dentro de um conjunto de dados. Os gráficos de barras empilhadas são mais eficazes quando existe um pequeno número de divisões (duas ou três) dentro de uma categoria. Nos casos em que a comparação dá-se entre um número de subdivisões, um simples gráfico de linhas ou um gráfico de barras múltiplas são mais adequados. Portanto para a tabulação cruzada dos dados de acomodações por gênero, ambas as formas de representação são igualmente válidas. Entretanto, o gráfico de barras empilhadas possui uma pequena vantagem de não exigir o cálculo das Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 40 freqüências percentuais. Um gráfico de barras empilhadas desses dados pode ser visto na figura abaixo. Acomodação dos alunos 12 Frequência 10 8 Feminino 6 Masculino 4 2 0 Alojamento estudantil Hospedaria Casa própria Apartamento / dos pais / casa alugada Outro 5.10 – POLÍGONO DE FREQUÊNCIA Como o histograma utiliza uma escala contínua ao longo do eixo x, não é possível traçar dois histogramas sobre o mesmo gráfico, porque eles ficariam sobrepostos um ao outro. Portanto, para comprar a distribuição de dois ou mais grupos de dados contínuos, um polígono de freqüência (similar a um gráfico de linhas) é utilizado. Com base nos dados dos alunos do bacharelado em Ciências Contábeis, um polígono de freqüência seria necessário para comparar a distribuição da idade dentro de cada gênero. Idade e gênero dos alunos do bacharelado em Ciências Contábeis. Idade Número de alunos Masculino Feminino De 18 a menos de 19 7 De 19 a menos de 20 2 De 20 a menos de 21 3 De 21 a menos de 22 1 22 ou mais 2 Total 15 Fonte: Questionário aplicado aos alunos. 9 5 4 2 1 21 Total 16 7 7 3 3 36 Os dois grupos de alunos são de tamanhos diferentes (Masculino: 15 e Feminino: 21), então, para se fazer uma comparação direta, e necessário primeiro calcular as freqüências percentuais, como é mostrado na tabela abaixo. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 41 Idade dos alunos do bacharelado em Ciências Contábeis, mostrando as freqüências percentuais. Idade Freqüência em % de homens Freqüência em % de mulheres De 18 a menos de 19 De 19 a menos de 20 De 20 a menos de 21 De 21 a menos de 22 22 ou mais 46,66 13,33 20 6,66 13,33 42,85 23,80 19,04 9,52 4,76 Essas freqüências percentuais são então plotadas contra os pontos médios das classes para produzir o diagrama do polígono de freqüência. Veja a figura abaixo. Frequência percentual Polígono de frequência, comparando idade e gênero. 50 45 40 35 30 25 20 15 10 5 0 De 18 a menos de 19 De 19 a menos de 20 De 20 a menos de 21 Homens De 21a menos de 22 22 ou mais Mulheres Fonte: Questionário aplicado aos alunos. Nesse capítulo, somente as maneira mais comuns pelas quais os dados podem ser apresentados foram cobertas. Basta dar uma olhada em um jornal, assistir a um noticiário na televisão ou olhar publicações científicas para ver a ampla variedade disponível. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 42 5.11 – PONTOS CHAVES A SEMREM LEMBRADOS Gráficos 1. Assim como as tabelas, certifique-se de que os gráficos possuam um título adequado e dê rótulos aos eixos. 2. Os gráficos devem ser compatíveis com seu tipo de dados: a) Gráfico de barra/coluna – adequado para todos, exceto dados contínuos ou de séries temporais. b) Gráfico de setores – como o anterior bom para enfatizar proporções. c) Histograma – para um único conjunto de dados contínuos. d) Ogiva – dados contínuos e) Gráfico de Linhas – dados de séries temporais. 3. Para categorias contínuas desiguais, utilize a densidade da freqüência ao construir um histograma. 5.12 - EXERCÍCIOS PROPOSTOS 1) A autoridade local encomendou um estudo para examinar as distâncias que os motoristas de carro viajam até o centro da cidade como parte de estudo de exeqüibilidade de um esquema proposto de estacionamento e trajetos. Um lote de 50 resultados (distâncias em milhares) é fornecido a seguir. 15 9 17 18 23 21 9 6 19 12 8 11 8 8 4 3 14 2 8 9 7 19 5 22 10 9 2 9 7 8 2 3 32 8 3 3 6 5 4 6 20 9 23 8 13 15 17 40 3 2 a) Construa a distribuição de freqüência com base nesses dados, utilizando oito intervalos de classes de mesma amplitude. 2) Os números a seguir são relativos à quantidade de visitantes em um museu local: Ano Visitantes (x 10.000) 1991 34,5 1992 33,6 1993 39,9 1994 40,7 1995 40,6 1996 46,5 a) Desenhe um gráfico apropriado para representar esses dados. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 1997 57,8 43 3) A tabela abaixo mostra os resultados de uma amostra aleatória de 100 declarações de despesas diárias feitas pelos executivos de uma empresa. Declarações de despesas feitas pelos executivos de uma empresa. Valor da declaração ($) Freqüência Abaixo de 15,00 12 De 15,00 a menos de 17,50 23 De 17,50 a menos de 20,00 26 De 20,00 a menos de 22,50 18 De 22,50 a menos de 25,00 13 De 25,00 a menos de 30,00 8 a) Desenhe um histograma para representar esses dados. b) Construa um diagrama de freqüência acumulada (ogiva) e utilize-o pra estimar a porcentagem de declarações acima de $21,00. 4) A tabela abaixo mostra a freqüência e porcentagem dos empregados da Empresa MB, segundo o número de filhos. Número de filhos Freqüência Porcentagem 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Com base nos dados acima, construa o gráfico mais indicado para essa representação. 5) Os dados abaixo refere-se a produção nacional de petróleo – Brasil de 1982 à 1986. Período 100 Barris/Dia 1982 268 1983 339 1984 474 1985 563 1986 593 Com base nos dados acima, construa o gráfico mais indicado para essa representação. 6) A revista EXAME/Set-2006 publicou alguns resultados em parceria com o Banco Mundial a respeito da qualidade de ensino no Brasil. Entre alguns estudos está o nível de escolaridade dos brasileiros. A tabela abaixo nos mostra os dados desta pesquisa. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 44 Nível de escolaridade Porcentagem Fundamental incompleto 27% Fundamental completo 16,4% Médio incompleto 8,7% Médio completo 29,5% Superior incompleto 3,8% Superior completo 14,7% Com base nos dados acima, construa o gráfico mais indicado para essa representação. 7) A bolsa na vida dos brasileiros. O bom momento da economia e os recordes da Bovespa fazem aumentar o número de investidores. Veja os dados abaixo extraídos da revista Exame do mês de Abril de 2007. Ano Pessoa física (em milhares) 2000 76,5 2001 75 2002 85 2003 85,5 2004 117 2005 155 2006 219,5 2007 245 Com base nos dados da tabela acima responda: a) Qual a representação gráfica mais indicada para representação dessa tabela. Justifique sua resposta e construa o gráfico. b) Qual foi o aumento percentual do número de investidores nos últimos sete anos? 8) Melhores empresas para os executivos trabalharem; esse é o resultado de uma pesquisa com base em 8287 respostas de supervisores, gerentes e diretores das 150 empresas classificadas pela VOCÊ-S/A – EXAME. Vejam abaixo as cinco empresas com maior número de funcionários, total de executivos e o índice de IFT (índice de felicidade no trabalho). EMPRESA Caixa Econômica Federal Bradesco ABN Amro Real Maganize Luiza Bunge Alimentos Total de Funcionários 68257 61348 28135 8165 5317 Total de Executivos 13933 17486 4083 904 826 IFT 67,02 73,00 77,81 79,89 64,62 Com base nos dados acima responda: a) Qual a representação gráfica mais indicada para cada uma das variáveis (Total de funcionário, total de executivos e IFT)? Justifique sua resposta. b) Construa o gráfico do problema acima. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves CAPÍTULO 6 Medidas de Posição 6.1 - OBJETIVO DO CAPÍTULO Este capítulo te como objetivo considerar várias medidas estatísticas que fornecem uma medida de tendência central de um conjunto de dados. Interpretar essas medidas e utilizá-las para localizar a maior concentração de valores de uma distribuição, isto é, se ela se localiza no início, no meio ou no final, ou ainda se há uma distribuição por igual. 6.2 INTRODUÇÃO As medidas de posição são aquelas que podem ser identificadas no eixo das abscissas. As medidas de tendência central visam fornecer ao pesquisador informações representativas do núcleo das observações de um fenômeno relativo a qualquer campo da atividade administrativa, econômica, contábil, social e psicológica. Também é importante saber como os dados se espalham ou quão variadas são as observações e as estatísticas utilizadas para fazer isso; geralmente são chamadas de medidas de dispersão, que veremos no capítulo posterior. Pesquisadores em muitos campos têm usado o termos “média” em questões tais como qual a renda média de universitários já graduados? Quantos fumam em média, o adolescente? Qual a nota média de uma universitária? Em média, quantos são os acidentes automobilísticos que resultam diretamente da ingestão de bebidas alcoólicas, ou drogas? Uma forma útil de descrever um grupo como um todo consiste em encontrar um único número que represente o que é “médio” naquele conjunto particular de dados. Em pesquisa tal valor é conhecido por media de tendência central, uma vez que ela geralmente se localiza em torno do meio ou centro de uma distribuição, onde a maior parte dos dados tende a se concentrar-se. A idéia que o leigo faz do termo “média” é quase sempre vaga e mesmo confusa. A concepção do pesquisador é muito mais precisa do que a do público em geral; ela expressa numericamente como uma das várias espécies de “medidas médias” ou de tendência central que, para um mesmo conjunto de dados, pode assumir diferentes valores. Somente as três medidas de tendência central mais conhecida são aqui discutidas: a média aritmética, a mediana e a moda, 6.3 - MEDIDAS SIMPLES DE TENDÊNCIA CENTRAL Média Aritmética: A média aritmética é o ponto de equilíbrio de um conjunto numérico. Ela é o ponto de sustentação de um conjunto, sendo definida, como o valor de melhor representatividade de um conjunto. Mediana: A mediana é uma medida de tendência central que determina um valor que divide um conjunto numérico, e duas partes iguais. Praticamente, é a 46 posição abaixo ou acima da qual se situam 50% dos casos. Dividindo-se um conjunto em duas partes iguais, aquela parte central é denominada mediana. Moda: A moda é uma medida de tendência central definida como o valor de maior freqüência. A moda é aquele valor que mais se repete dentre os diversos valores de um conjunto. A moda é o valor preponderante, o valor dominante de um conjunto. Pode-se haver um rol que não possua moda como também pode haver um que possua mais de uma moda, mas toda a filosofia dos estatísticos está em conjuntos uni modais. 6.3.1 MÉDIA ARITMÉTICA SIMPLES A média aritmética simples de número não tabulados é definida como o quociente entre a soma destes números e a sua quantidade. A média aritmética é representada por X , que lê-se “x barra”. Sejam os valores x1,x2,...,xn então se defini a média aritmética deste conjunto como a razão existente entre a soma destes valores e a sua quantidade, desta maneira temos: X = x1 + x 2 + ... + x n = n ∑x i n Onde xi representa cada um dos valores do conjunto e n a quantidade de números. Observe que a média aritmética de um conjunto, multiplicada pelo tamanho da amostra, é igual à soma dos valores deste conjunto e n representa o tamanho da amostra. Exemplo 1: A variável aleatória X assume os seguintes valores 5, 7, 8, 10 e 15e a variável aleatória Y assume os valores 4, 7, 11, 15, 20, e 21. Determine a média aritmética de cada uma dessas variáveis. 6.3.2 - MEDIANA SIMPLES A mediana Md é uma medida de tendência central cuja definição é um valor que se localiza na posição central tal que 50% dos valores são menores que a mediana, e os demais 50% são maiores. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 47 Depois de ordenar os n valores da variável de forma crescente, a Md é determinada de acordo com o tipo de n: • Se n for um número ímpar, a Md será o valor da variável situado na (n + 1) posição . 2 • Se n for um número par, a Md será igual ao resultado da divisão por ⎛n⎞ ⎛n⎞ dois da soma dos valores das posições ⎜ ⎟ e ⎜ ⎟ + 1 . Nesse caso, a ⎝2⎠ ⎝2⎠ mediana poderá não ser um valor da variável. Exemplo 2: Determine a mediana da variável aleatória que assume os seguintes valores 2, 5, 10, 9, 6, 8 e 4. Exemplo 3: Determine a mediana da variável aleatória que assume os seguintes valores 1, 3, 5, 6, 7 e 8. 6.3.3 MODA SIMPLES No caso de dados isolados ou simples, a moda (Mo)é aquele valor de maior freqüência, valor preponderante, valor dominante, dentre os diversos valores de um conjunto. Exemplo 4: Determine a moda do conjunto de dados de valores: 2, 2, 5, 6, 7, 9, 9, 9, 10, 10, 11, 12 e 18. Exemplo 5: Determine a moda do conjunto de dados de valores: 2, 2, 2, 5, 6, 7, 9, 9, 9, 10, 10, 11, 12 e 18. 6.4 - MEDIDAS PONDERADAS DE TENDÊNCIA CENTRAL 6.4.1 - Média Aritmética Ponderada Se os valores x1,x2,...xn ocorrem com freqüências f1,f2,...fn vezes, respectivamente, a média aritmética ponderada deste conjunto é dada por: X = f1 x1 + f 2 x 2 + " + f n x n = f1 + f 2 + " + f n ∑fx i n Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves i 48 Exemplo 6: Os valores 5, 8, 6 e 2 ocorrem com freqüências 3, 2,4 e 1, respectivamente. Calcule a média aritmética destes valores. Exemplo 7: Você foi encarregado de comprar vários lotes para construir a sede de sua empresa. Você conseguiu comprar 8 lotes à $70.000,00 cada, depois 15 à $90.000,00 cada e por fim 7 lotes à $100.000,00 cada. Qual é o preço médio de um lote? Exemplo 8: A tabela abaixo define a distribuição das vendas das diversas filiais da Empresa Batuilk, Fevereiro de 2004, Minas Gerais, em milhões de reais. Calcule o faturamento médio da empresa. Vendas por filiais Empresa Batuilk FEV/2004 – BH – Em milhões de reais. Vendas fi xi 6 I─ 14 3 10 14 I─ 23 7 19 23 I─ 32 9 28 32 I─ 41 5 37 41 I─ 50 4 46 Total 28 6.4.2 – Mediana nas Distribuições de Freqüências Se o número total de freqüências for n, a mediana será um número tal que 50% dos valores de n, caiam abaixo dele e 50% acima dele. A mediana vai dividir o nosso conjunto de observações em duas partes iguais. Para determinar a classe que contém a mediana, basta verificar qual é a primeira classe cuja freqüência acumulada crescente contém 50% dos casos, isto é, 50% de n, e através da fórmula: Md = l ir + 50%n − Faca .h fi Onde: lir = limite inferior real f i = freqüência de classe n = tamanho da amostra Faca = Freqüência acumulada anterior à classe que contém a mediana h = Intervalo de classe Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 49 Exemplo 9: No primeiro trimestre de 2004, a empresa Mares do Sul realizou 80 importações, cujos valores estão registrados na tabela a seguir, expressos em milhões de dólares. IMPORTAÇÕES REALIZADAS – EMPRESA MARES DO SUL 1° TRIMESTRE DE 2004 - PARANÁ - MILHOES DE DÓLARES. Importações 150 I─ 170 170 I─ 190 190 I─ 210 210 I─ 230 230 I─ 250 250 I─ 270 270 I─ 290 Total fi 8 12 20 16 12 8 4 80 fac 8 20 40 56 68 76 80 Determine a importação mediana, isto é, qual é o valor onde abaixo dele ou acima dele encontraremos 50% das importações. 6.4.3 – Moda nas Distribuições de Freqüências Em uma distribuição de freqüências, a moda se encontra na classe de maior freqüência simples ou relativa. Neste caso, a moda é calculada pela fórmula de Czuber ou de King. Pela fórmula de Czuber, a moda é definida por: Mo = l ir + Δ1 .h Δ1 + Δ 2 Onde: lir = limite inferior real da classe modal Δ 1 = Diferença entre a freqüência modal e a freqüência da classe imediatamente anterior à classe modal: Δ1 = f m − f a Δ 2 = Diferença entre a freqüência modal e a freqüência da classe imediatamente posterior à classe modal: Δ1 = f m − f p h = Intervalo de classe modal Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 50 Exemplo 10: Determinar o valor modal das exportações realizadas pela Empresa Mares do Sul, no primeiro trimestre de 2004, conforme a tabela acima dada. 6.5 - ANÁLISE DAS MEDIDAS DE TENDÊNCIA CENTRAL. Embora a média, mediana e moda sejam medidas importantes de tendência central por serem fácies de serem obtidas e úteis para obter informações sobre uma amostra, elas devem ser utilizadas de acordo com a análise desejadas. Analisaremos primeiro, as principais vantagens e desvantagens dessas medidas. MODA Vantagens Desvantagens Fácil de calcular Pode ser afastada do centro dos dados. Não é afetada pelos dados extremos da Difícil de incluir em funções matemáticas amostra Pode ser aplicada em qualquer escala: Não utiliza todos os dados da amostra. nominal, ordinal, intervalar e proporcional. A mostra pode ter mais de uma moda Algumas amostras podem não ter moda. MEDIANA Vantagens Fácil de calcular. Desvantagens Difícil de incluir em funções matemáticas. Não é afetada pelos dados extremos da Não utiliza todos os dados da amostra. amostra. É um valor único. Pode ser aplicada nas escalas: ordinal, intervalar e proporcional. MÉDIA Vantagens Fácil de compreender e aplicar. Utiliza todos os dados da amostra. Desvantagens É afetada pelos dados extremos da amostra. É necessário conhecer todos os dados da amostra. É um valor único. Fácil de incluir em funções matemáticas. Pode ser aplicada nas escalas: Intervalar e proporcional. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 51 6.6 - EXERCÍCIOS POSPOSTOS 1) Encontre a nota média dos alunos mostrados na tabela abaixo Notas Nº. de alunos 3,0 2 4,0 3 5,0 10 6,0 15 7,0 10 8,0 6 9,0 4 10 3 2) Encontre a moda das notas dos alunos mostrados na tabela abaixo Notas Nº. de alunos 3,0 2 4,0 3 5,0 10 6,0 15 7,0 10 8,0 6 9,0 4 10 3 3) Calcule a média, moda e mediana da distribuição abaixo: Classes ( i ) 41 45 45 49 49 53 53 57 57 61 Freqüências ( fi ) 7 3 4 1 5 Σ = 20 xi Fi fi xi Σ= 4) Dada a distribuição abaixo, calcule a média, a moda e a mediana. . i Estaturas (cm) fi xi Fi fi xi 1 2 3 4 5 6 150 154 158 162 166 170 154 158 162 166 170 174 5) Dada a distribuição abaixo: . i Estaturas (cm) 1 150 154 2 154 158 3 158 162 4 162 166 5 166 170 6 170 174 4 9 11 8 5 3 Σ = 40 fi 6 8 10 15 12 8 Σ = 60 Σ= xi Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves Fi fi xi Σ= 52 Calcule: a) a média; b) a moda; c) a mediana; 6) A média aritmética de um grupo de 120 pessoas é de 40 anos. Se a média aritmética das idades das mulheres é de 35 anos e dos homens é de 50 anos, qual o número em porcentagem de pessoas do sexo feminino? 7) Ao escrever as notas de 10 alunos, o professor omitiu uma nota, achando uma média igual a 6,8. As notas foram: 4,0; 4,5; 5,0; 6,0; 6,0; 7,0; 7,5; 8,0; 8,5. Calcule a nota omitida. 8) No mês de Janeiro, a Empresa Atlântico Norte realizou quinze exportações, cujos valores foram de 12, 14, 16, 16, 18, 18, 20, 20, 20, 20, 20, 22, 24, 25 milhões de dólares. As experiências mostram que os meses de janeiro, fevereiro e março envolvem 20%, 30% e 50% das exportações do trimestre. Por outro lado, os 1°, 2°, 3° e 4° trimestre participam com 15%, 20%, 25% e 40% das exportações do ano. a) Calcule a exportação média, mediana e modal desta Empresa, em Janeiro. b) Calcule as perspectivas de exportação para os meses de fevereiro e março. c) Calcule as tendências das exportações para os 1°, 2°, 3° e 4° trimestres. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves CAPÍTULO 7 Medidas de Dispersão ou de Variabilidade 7.1 - OBJETIVO DO CAPÍTULO Este capítulo te como objetivo considerar várias medidas estatísticas que fornecem uma medida de dispersão de um conjunto de dados. Interpretar essas medidas e saber como esses dados se espalham ou o quão são variadas as observações e as estatísticas utilizadas para fazer isso; geralmente são chamadas de medidas de dispersão ou de variabilidade. 7.2 – INTRODUÇÃO Quase nunca uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados. Tomemos como exemplo a caso da média aritmética, que é uma medida de locação, ou seja, de tendência central, largamente empregada, e consideremos os dois conjuntos de observações dados por: A = {25,28,31,34,37} e B = {17,23,30,39,46} Qual a média aritmética dos dois conjuntos? Observação: O conjunto B apresenta maior dispersão de dados que o conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão ou variabilidade, em relação ao valor central. 7.3 – VARIÂNCIA - DESVIO PADRÃO A variância e o desvio-padrão são medidas de dispersão mais normalmente aplicadas e relacionam-se uma com a outra, já que a variância é o desvio padrão ao quadrado. A variância considera a posição de cada observação em relação ao valor médio do conjunto de dados, e define-se como a média do quadrado do desvio em relação à média. Como com a média, para certos cálculos, saber se os dados são provenientes de uma população ou de uma amostra é vital. 54 Agora, dois símbolos separados serão utilizados: σ 2 (variância) e σ • (desvio-padrão) indicam que os dados são provenientes de uma população; • s 2 (variância) e s (desvio-padrão) indicam que os dados provêm de uma amostra. σ é a letra grega sigma. 7.3.1 - Fórmulas para o cálculo da variância e desvio padrão. σ 2 ∑ (x − μ ) = 2 n Onde μ é a média da população e n é o tamanho da população. Podemos reescrever essa fórmula de outra maneira, para simplificar o cálculo. Vejamos: σ 2 ∑x = 2 n ⎡∑ x⎤ −⎢ ⎥ ⎣⎢ n ⎥⎦ 2 Se os dados estiverem agrupados em uma tabela de distribuição de freqüência, a fórmula será levemente corrigida para se tornar: σ2 ∑ fx = n 2 ⎡ ∑ fx ⎤ −⎢ ⎥ ⎣⎢ n ⎦⎥ 2 Podemos facilmente calcular o desvio padrão para uma população da seguinte forma: σ = σ2 Os dados que se originam de uma amostra (por razões práticas) geralmente são utilizadas para fornecer uma estimativa do que acontece com a população inteira. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 55 Ao calcular a variância de dados que se originam de uma amostra, a fórmula da variância da população é utilizada e um ajuste é feito ao valor resultante para encontrar a variância da amostra. Veja como pode ser feito esse ajuste: ⎛ n ⎞ 2 s2 = ⎜ ⎟.σ ⎝ n −1⎠ 7.4 – SIGNIFICADO DO DESVIO PADRÃO O desvio padrão depende da soma dos quadrados dos desvios dos dados da variável com relação a sua média. Portanto, quanto menor for o desvio padrão, mais valores da variável se aproximarão da média. Analisando a expressão do desvio padrão, podemos chegar a conclusões importantes: • Qualquer dado da amostra ou variável com desvio menor dói que o desvio padrão da variável estará mais próximo da média do que qualquer outro valor com desvio maior; • Quanto mais dados se afastarem da média, maior serão os desvios e, consequentemente, maior será o desvio padrão da variável; • Duas variáveis com média iguais e desvios padrão diferentes têm distribuições de freqüência com formas diferentes. A distribuição da variável com maior desvio padrão será mais aberta do que a da variável com menor desvio padrão. Exemplo1: Dado o seguinte conjunto de tempos de reação (em segundos) de seis indivíduos a um estímulo. {4,2,3,3,6,3} Calcule a média, a variância e o desvio padrão dessa amostra. Exemplo 2: Consideremos a seguinte distribuição de idades de 200 homens em determinada situação. Calcule a média, a variância e o desvio padrão dessa amostra. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 56 Distribuição de freqüência das idades de 200 homens Classes (anos) xi ni xi2 xi ni xi2 ni 14,5 6 19,5 19,5 6 24,5 24,5 6 29,5 29,5 6 34,5 34,5 6 39,5 Total 17 22 27 32 37 18 74 62 26 20 200 289 484 729 1024 1369 306 1628 1674 832 740 5180 5202 35816 45198 26624 27380 140220 No contexto de um único conjunto de dados, o desvio padrão pode ser interpretado intuitivamente como uma unidade natural de dispersão de dados. Essa interpretação é utilizada na construção de “escores padronizados”, de larga utilização em medidas educacionais. Em uma escala de 0 a 10, a nota 6 em uma prova que a nota máxima foi 6 é muito mais que a mesma nota 6 em uma prova em que a nota máxima foi 9. Um forma de captar essa diferença é considerar a nota do aluno como a sua posição relativa no grupo, e é medida por: Zi = xi − x s Onde Z, é chamado de “escore padronizado”. Observação: 1. Comparando a nota do aluno com a média do grupo, estamos considerando o afastamento da nota em relação à média. 2. Ao dividirmos aquela diferença pelo desvio padrão, estamos tomando o desvio como a unidade padrão de medida. Daí o surgimento do nome desvio padrão. Exemplo 3: Em uma turma de nove alunos, as notas em matemática e história foram as seguintes: N° do aluno Matemática História 1 6 7 2 4 8 3 5 9 4 7 10 5 8 6 6 3 7 7 5 8 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 8 5 9 9 7 5 57 O aluno de número 6 saiu-se relativamente melhor em história ou matemática? ⎧ x = 5,56 ⎧ x = 7,67 Matemática⎨ História ⎨ ⎩ s = 1,59 ⎩ s = 1,58 O aluno de número 6 teve nota inferior à média em ambas as disciplinas. Matemática: Z = 3 − 5,56 = −1,61 1,59 História: Z = 7 − 7,67 = −0,42 1,58 O aluno de número 6 saiu-se melhor em História, pois seu “escore padronizado” foi de − 0,42 que é maior que − 1,61 . Observação: Um escore Z i negativo indica que a observação x i está à esquerda da média, enquanto um escore positivo indica que a observação está à direita da média. Pergunta-se: O aluno de número 7 saiu-se relativamente melhor em história ou matemática? 7.5 – OUTLIERS Nos trabalhos de coleta de dados, podem ocorrer observações que fogem das dimensões esperadas – os outliers. Para detectá-los, pode-se calcular o escore padronizado (Z i ) e considerar outliers as observações cujos escores, em valor absoluto (em módulo), sejam maiores do que 3. Exemplo 4: Os dados de uma pesquisa revelaram média igual a 0,243 e desvio padrão de 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável. Solução: x = 0,243 e s = 0,052 Logo temos: 0,380 − 0243 = 2,63 0,052 0,455 − 0243 = 4,08 Para x = 0,455 um escore padronizado de Z = 0,052 Desta maneira podemos ver que o dado 0,380 pode ser considerado normal, por outro lado, 0,455 pode ser considerado um outliers, portanto descartável. Para x = 0,380 um escore padronizado de Z = Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 58 7.6 – COEFICIENTE DE VARIAÇÃO DE PEARSON Muitas vezes é conveniente exprimir a variabilidade em termos relativos (porcentagem). Então, toma-se uma medida relativa de variabilidade, comparando o desvio padrão com a média. Essa medida recebe o nome de coeficiente de variação, e é denotada por: cv = s x Exemplo 4: Testes de resistência à tração, aplicados os dois tipos de aços deram os seguintes resultados: Tipo 1: x = 27,45kg / mm 2 s = 2,0 Kg / mm 2 s = 17,25Kg / mm 2 Tipo 2: x = 147 Kg / mm 2 Coeficiente de variação é dado por: cv1 = 2 = 0,0729 = 7,29% 27,45 cv 2 = 17,25 = 0,1173 = 11,73% 147 Conclui-se que, embora menos resistente, o Tipo 1 se apresenta relativamente mais estável que o Tipo 2. 7.7 – ASSIMETRIA E CURTOSE A média e o desvio padrão definem muito bem uma distribuição. A assimetria e a curtose acrescentam informações a esta descrição. 7.7.1 – ASSIMETRIA Uma distribuição é simétrica quando o eixo que passa pela média divide em duas partes simetricamente iguais; caso contrário, fala-se assimetria. Podem apresentar três casos, conforme se observa na figura abaixo. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 59 Para o calculo do coeficiente de assimetria existem diversos procedimentos. Utilizaremos a seguinte fórmula para o cálculo do coeficiente de assimetria: ⎛ xi − x ⎞ n ⎜ ⎟ As = ∑ (n − 1)(n − 2) ⎜⎝ s ⎟⎠ 3 O processo mecânico para o cálculo deste coeficiente é muito trabalhoso, no entanto pode ser feito por pacotes estatísticos ou com o auxílio do Excel. O que interessa mais aqui é conhecer a interpretação deste coeficiente: • • • As > 0 Assimetria positiva. Significa valores concentrados à esquerda da média. Como é mostrado na curva A da figura acima. As = 0 Simetria perfeita. Os valores estão distribuídos de forma normal em torno da média. Como é mostrado na curva B da figura acima. As < 0 Assimetria negativa. Significa valores concentrados à direita da média. Como é mostrado na curva C da figura acima. 7.7.2 – CURTOSE A curtose é o grau de achatamento da parte central de uma distribuição. Também como na assimetria podem ocorrer três casos, como mostra a figura abaixo. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 60 O cálculo deste coeficiente é dado da seguinte maneira: 2 ⎛ xi − x ⎞ 3(n − 1) n(n + 1) ⎜ ⎟ C= − (n − 1)(n − 2)(n − 3) ∑ ⎝⎜ s ⎟⎠ (n − 2)(n − 3) 4 O processo mecânico para o cálculo deste coeficiente também é muito trabalhoso, no entanto pode ser feito por pacotes estatísticos ou com o auxílio do Excel. O que interessa mais aqui é conhecer a interpretação deste coeficiente: • • • C > 0 Curtose positiva. Significa que a curva A é mais “afunilada” que a normal padrão. Como mostra a figura acima. C = 0 Curtose perfeita. Significa que temos a curva normal padrão (mais detalhes sobre esta curva serão vistos em capítulos posteriores). A curva normal padrão é mostrada na curva B da figura acima. C < 0 Curtose negativa. Significa que a curva C é mais “achatada” do que a curva normal padrão. Como mostra a figura acima. 7.8 - EXERCÍCIOS DE PROPOSTOS 1. Calcule a média, a moda, a mediana, variância e desvio padrão da distribuição de freqüência a seguir, que representa o número de erros cometidos por dia pelo sistema de computador de um departamento contábil, registrados por um período de 100 dias. Erros Dias 0 15 1 18 2 19 3 19 4 10 5 8 6 7 7 2 8 1 9 1 2. O fabricante de solventes químicos JFS registra dados de todos os funcionários relacionados ao número de anos em que eles estão na empresa. Isso se encontra na tabela a seguir. Anos de serviço 065 5 6 15 15 6 25 25 6 35 35 6 50 Número de funcionários 105 231 173 85 31 Determine a média e o desvio padrão do número de anos de serviço na empresa. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 61 3. Foi feito um estudo em um shopping center de BH no qual se perguntou a 81 pessoas quanto elas gastavam em artigos de luxo por semana. O resultado é apresentado na tabela a seguir. Calcule a média e o desvio padrão dos gastos. Valor (R$) 0 6 15 15 6 25 25 6 40 40 6 60 60 6 80 Número de participantes 10 20 25 15 11 4. Em cinco testes, um estudante obteve média de 63,2 com desvio padrão 3,1. Outro estudante teve média de 78,5 com desvio padrão de 5,5. Qual dos dois é mais consistente? 5. Dois grupos de pessoas acusavam os seguintes dados: Grupo A B Peso Médio (kg) 66,5 72,9 Desvio Padrão (kg) 6,38 7,75 Se nesses dois grupos há pessoas que pesam, respectivamente, 81,2 Kg e 88 Kg ; qual delas revela maior excesso relativo de peso? 6. Por engano, um professor omitiu uma nota no conjunto de notas de 10 alunos. Se as nove notas restantes são 48, 71, 79, 95, 45, 57, 75, 83, 97 e a média das 10 notas é 72, calcule: a) o valor da nota omitida; b) o desvio padrão do conjunto de notas dos 10 alunos. 7. Dada a tabela abaixo: Estaturas (cm) 150 6 154 154 6 158 158 6 162 162 6 166 166 6 170 170 6 174 Total Calcule: a) Desvio padrão xi xi2 ni xi ni xi2 ni 4 9 11 8 5 3 b) Coeficiente de variação. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves Capítulo 8 Amostragem 8.1- OBJETIVO DO CAPÍTULO O objetivo desse capítulo é de apresentar ferramentas que possibilitam o cálculo do tamanho da amostra de populações finitas e infinitas. 8.2 – INTRODUÇÃO Geralmente as pesquisas são realizadas por meio de estudos que compõem uma mostra extraída da população que se pretende analisar. O conceito de população é bem intuitivo, sabemos de capítulos anteriores que se trata de um conjunto de indivíduos ou objetos que apresentam em comum determinadas características definidas para o estudo. Amostra é um subconjunto da população. Tais conceitos foram vistos em capítulos anteriores. Na realização de qualquer estudo, quase nunca é possível examinar todos os elementos da população de interesse. Por exemplo, para responder à pergunta “Qual a idade média da frota de ônibus de Belo Horizonte?”, por várias razões inclusive as de custo operacional nunca poderíamos obter a idade de todos os ônibus. É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população seríamos mais precisos. Os erros em processos de coletas de coleta e manuseio de um grande número de dados geram imprecisões não-mensuráveis no resultado final do trabalho. Em se tratando de amostra, a preocupação central é de que ela seja representativa. Existem alguns procedimentos, descritos sucintamente nas próximas seções, que garantem, quando usados apropriadamente, essa propriedade. Ao descrevê-los estaremos sempre tratando de escolher uma amostra de tamanho n em uma população de tamanho N . 8.3 – POPULAÇÃO-ALVO A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. A especificação da população-alvo pode parecer trivial, mas na verdade e que, em todos os levantamentos, aparecem casos dúbios em que exigem atenção especial. No caso da pergunta da introdução, provavelmente não estamos interessados em todos os ônibus, mas apenas naqueles das linhas regulares de transporte de passageiros. Isso exclui, por exemplo, os ônibus escolares. Uma causa freqüente de levantamentos ruins é a falta de clareza na definição da população-alvo. 8.4 – CARACTERÍSTICAS DE INTERESSE Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui, o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, 63 portanto, fixa-nos apenas em perguntas que contribuam para a quantificação da característica populacional de real interesse para o estudo. 8.5 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA UMA POPULAÇÃO INFINTA Procedimento: 1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar mais importante para o estudo. Se possível escolha mais do que uma variável. Calcule o tamanho para cada variável, escolhendo o maior n . 2º) Se a variável escolhida for intervalar 1 e a população considerada infinita você poderá determinar o tamanho da amostra pela fórmula: ⎛ Z .σ ⎞ n=⎜ ⎟ ⎝ d ⎠ Onde: Z =abscissa da distribuição normal padrão, fixado um nível de (1 − α ) % confiança. Se o nível for de 95,5%, Z = 2 . Se o nível for de 95%, Z = 1,96 . Se o nível for de 99%, Z = 2,57 . Para outros valores, consultar a tabela de distribuição normal. σ = Desvio padrão da população, expresso na unidade variável. Você poderá avaliálo de, pelo menos, uma das três maneiras: • Especificações técnicas • Resgatar o valor de estudos semelhantes • Fazer conjecturas com base em amostras piloto 2 d = Erro amostral expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador admite suportar entre μ e x , isto é: μ − x ≤ d , onde μ é a verdadeira média populacional e x será a média a ser calculada com base na amostra. n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 1: Suponha que a variável escolhida em um estudo seja o peso de certa peça e que a população seja infinita. Pelas especificações do produto, o desvio padrão é de 10 kg. Logo admitindo um nível de confiança de 95,5% e um erro amostral de 1,5kg, temos: 1 Trata-se de uma escala verdadeiramente quantitativa com possibilidades de aplicação a todas as estatísticas paramétricas comuns. São exemplos de variáveis como nível intervalar: peso, altura, volume, etc. Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 64 σ = 10Kg d = 1,5 Kg (1 − α ) % = 95,5% ou seja; Z = 2 2 ⎛ 2.10 ⎞ n=⎜ ⎟ = 177, 77 ≅ 178 peças ⎝ 1,5 ⎠ Com uma amostra aleatória simples de 178 peças, tem-se um erro máximo de 1,5Kg para o peso médio, com nível de confiança de 95,5%. 8.6 – TAMANHO DA AMOSTRA PARA ESTIMAR A MÉDIA DE UMA POPULAÇÃO FINITA Procedimento: 1º) Analise o questionário, ou roteiro da entrevista, e escolha a variável intervalar mais importante para o estudo. Se possível escolha mais do que uma variável. Calcule o tamanho para cada variável, escolhendo o maior n . 2º) Se a variável escolhida for intervalar e a população considerada finita você poderá determinar o tamanho da amostra pela fórmula: Z 2 .σ 2 .N n= 2 d ( N − 1) + Z 2σ 2 Onde: Z = Abscissa da normal padrão σ = Desvio padrão da população N = Tamanho da população d = Erro amostral n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 2: Suponha os mesmos dados do exemplo anterior e uma população finita de 600 peças. σ = 10Kg d = 1,5 Kg (1 − α )% = 95,5% ou seja, Z = 2 N = 600 Logo, temos: n= 22.102.600 = 137,10 ≅ 138 1,52 (600 − 1) + 22.102 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 65 Com uma amostra aleatória simples de 138 peças, tem-se um erro máximo de 1,5Kg para o peso médio, com nível de confiança de 95,5% considerando uma população de 600 peças. . 8.7 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA POPULAÇÃO INFINITA Se a variável escolhida for nominal ou ordinal e a população considerada infinita, você poderá determinar o tamanho da amostra pela fórmula: Z 2 .l p.q n= d2 Onde: Z = Abscissa da normal padrão lp = Estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por exemplo, se a variável escolhida for porte da empresa, p poderá ser a estimativa da verdadeira proporção de grandes empresas do setor que está sendo estudado. Será expresso em decimais. Assim, se lp = 30% , teremos: lp = 0,30 . Caso não haja estimativas prévias para lp , admita lp = 50% , obtendo assim o maior tamanho de amostra possível considerando constantes os valores de d e Z . q = 1 − lp ; d = Erro amostral expresso em decimais. O erro amostral nesse caso será a máxima diferença que o investigador admite suportar entre p e lp , isto é: p − lp ≤ d em que p é a verdadeira proporção e lp será a proporção (freqüência relativa) do evento a ser estudado com base na amostra. n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 3: Suponha que a variável escolhida em um estudo seja a proporção de eleitores favoráveis ao candidato X e que o investigador tenha elementos para suspeitar que essa porcentagem seja de 30%. Admita a população infinita, um nível de confiança de 99% e um erro amostral de 2% (ou seja: que a diferença entre a verdadeira proporção de eleitores do candidato X e a estimativa a ser calculada na amostra seja no máximo de 2%). Assim, temos: (1 − α )% = 99% Z = 2,57 lp = 30% = 0,30 q = 1 − 30 = 0, 70 d = 2% = 0, 02 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 66 (2,57) 2 .(0,30).(0, 70) = 3.467,57 ≅ 3.468 (0, 02)2 Ou seja, consultando, aleatoriamente, 3.468 eleitores, poderemos inferir sobre a verdadeira proporção de eleitores do candidato X, com erro máximo de 2%. n= 8.8 – TAMANHO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO (p) DE UMA POPULAÇÃO FINITA. Se a variável escolhida for nominal ou ordinal e a população finita, temos: n= Z 2 .l p.q .N d 2 ( N − 1) + Z 2 .l p.q Onde: N = Tamanho da amostra Z = Abscissa da normal padrão lp = Estimativa da proporção q = 1 − lp ; d = Erro amostral n = Tamanho da amostra aleatória simples a ser selecionada da população. Exemplo 3: Suponha os mesmos dados do exemplo anterior e que a população de eleitores seja finita de 20.000 eleitores. Logo: n= (2,57) 2 .(0,30).(0, 70).(20.000) = 2.955,33 ≅ 2.956 (0, 02) 2 .(20.000 − 1) + (2,57) 2 (0,30).(0, 70) Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 67 TABELA - Distribuição Normal Padrão Z~N(0,1) P(0 ≤ Z ≤ zc) zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,0000 0,0398 0,0793 0,1179 0,1554 0,0040 0,0438 0,0832 0,1217 0,1591 0,0080 0,0478 0,0871 0,1255 0,1628 0,0120 0,0517 0,0910 0,1293 0,1664 0,0160 0,0557 0,0948 0,1331 0,1700 0,0199 0,0596 0,0987 0,1368 0,1736 0,0239 0,0636 0,1026 0,1406 0,1772 0,0279 0,0675 0,1064 0,1443 0,1808 0,0319 0,0714 0,1103 0,1480 0,1844 0,0359 0,0753 0,1141 0,1517 0,1879 0,5 0,6 0,7 0,8 0,9 0,1915 0,2257 0,2580 0,2881 0,3159 0,1950 0,2291 0,2611 0,2910 0,3186 0,1985 0,2324 0,2642 0,2939 0,3212 0,2019 0,2357 0,2673 0,2967 0,3238 0,2054 0,2389 0,2704 0,2995 0,3264 0,2088 0,2422 0,2734 0,3023 0,3289 0,2123 0,2454 0,2764 0,3051 0,3315 0,2157 0,2486 0,2794 0,3078 0,3340 0,2190 0,2517 0,2823 0,3106 0,3365 0,2224 0,2549 0,2852 0,3133 0,3389 1,0 1,1 1,2 1,3 1,4 0,3413 0,3643 0,3849 0,4032 0,4192 0,3438 0,3665 0,3869 0,4049 0,4207 0,3461 0,3686 0,3888 0,4066 0,4222 0,3485 0,3708 0,3907 0,4082 0,4236 0,3508 0,3729 0,3925 0,4099 0,4251 0,3531 0,3749 0,3944 0,4115 0,4265 0,3554 0,3770 0,3962 0,4131 0,4279 0,3577 0,3790 0,3980 0,4147 0,4292 0,3599 0,3810 0,3997 0,4162 0,4306 0,3621 0,3830 0,4015 0,4177 0,4319 1,5 1,6 1,7 1,8 1,9 0,4332 0,4452 0,4554 0,4641 0,4713 0,4345 0,4463 0,4564 0,4649 0,4719 0,4357 0,4474 0,4573 0,4656 0,4726 0,4370 0,4484 0,4582 0,4664 0,4732 0,4382 0,4495 0,4591 0,4671 0,4738 0,4394 *0,4505 0,4599 0,4678 0,4744 0,4406 0,4515 0,4608 0,4686 0,4750 0,4418 0,4525 0,4616 0,4693 0,4756 0,4429 0,4535 0,4625 0,4699 0,4761 0,4441 0,4545 0,4633 0,4706 0,4767 2,0 2,1 2,2 2,3 2,4 0,4772 0,4821 0,4861 0,4893 0,4918 0,4778 0,4826 0,4864 0,4896 0,4920 0,4783 0,4830 0,4868 0,4898 0,4922 0,4788 0,4834 0,4871 0,4901 0,4925 0,4793 0,4838 0,4875 0,4904 0,4927 0,4798 0,4842 0,4878 0,4906 0,4929 0,4803 0,4846 0,4881 0,4909 0,4931 0,4808 0,4850 0,4884 0,4911 0,4932 0,4812 0,4854 0,4887 0,4913 0,4934 0,4817 0,4857 0,4890 0,4916 0,4936 2,5 2,6 2,7 2,8 2,9 0,4938 0,4953 0,4965 0,4974 0,4981 0,4940 0,4955 0,4966 0,4975 0,4982 0,4941 0,4956 0,4967 0,4976 0,4982 0,4943 0,4957 0,4968 0,4977 0,4983 0,4945 0,4959 0,4969 0,4977 0,4984 0,4946 0,4960 0,4970 0,4978 0,4984 0,4948 0,4961 0,4971 0,4979 0,4985 0,4949 0,4962 0,4972 0,4979 0,4985 *0,4951 0,4963 0,4973 0,4980 0,4986 0,4952 0,4964 0,4974 0,4981 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,10 ou + 0,4999 NOTA: Para valores de Z acima de 3,09, use 0,4999 como área. * Use esses valores comuns resultantes de interpolação: Escore z Área 1,645 0,4500 2,575 0,4950 Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves 68 EXERCÍCIOS PROPOSTOS 1) Dada a população (rendas em R$1.000,00) 29 8 30 31 13 10 32 5 34 26 6 15 4 20 19 21 17 12 22 25 34 24 16 12 30 18 15 32 30 22 12 22 21 18 17 7 13 21 48 30 15 35 14 12 25 16 8 10 19 33 31 31 21 25 29 14 12 30 12 14 34 25 16 26 25 11 23 30 8 17 20 26 18 13 28 22 25 10 7 13 8 20 20 10 32 21 13 14 15 10 30 10 12 5 15 36 21 17 20 9 a) calcule o tamanho da amostra para estimar a média, sendo d = R$2.000, 00 , σ = R$7.000, 00 e (1 − α )% = 95,5% ; b) retire uma mostra aleatória simples; considerando o tamanho amostral obtido em (a); c) agrupe os elementos da amostra em classes; d) calcule a média; e) calcule o desvio padrão amostral; f) calcule a media da população e verifique se μ − x ≤ d 2) Calcule o tamanho da amostra de colegas desta faculdade, para estimar a proporção dos usuários de óculos. Admita três alternativas para o erro amostral e nível de confiança 95,5%. 3) Sendo lp = q = 0,50 , população infinita, d = 0, 05 e (1 − α )% = 95,5% , determine o tamanho amostral. 4) Sendo lp = q = 0,50 , população de 200.000, d = 0, 05 e Z = , determine o tamanho amostral. Compare com o resultado do exercício anterior. 5) Qual o tamanho da mostra que o Departamento de Trânsito de uma grande cidade deve tomar para estimar a porcentagem de semáforos defeituosos, se o objetivo é ter 95,5% de confiança em não errar em mais de 3%? 6) Estudos anteriores mostram que o desvio padrão da altura dos homens que cursam essa faculdade é de 10 cm. Querendo estimar a altura média de todos os homens desta faculdade, com tolerância de 3 cm e probabilidade de 0,9555,quantas observações deverão ser utilizadas? Estatística - Teoria e Aplicações. Prof. Anderson Dias Gonçalves