Aula 1 Introdução A Estatística consiste de um conjunto de técnicas utilizadas em diversas situações com o propósito de simplificar e facilitar a interpretação de um determinado fenômeno que está sendo estudado. O método estatístico surge com a necessidade da ciência em satisfazer uma série de indagações que não era possível com o método experimental. Neste contexto, este método atua como uma ferramenta importante nos trabalhos de pesquisa das mais diversas áreas do conhecimento como: Engenharia, Ciências Sociais, Educação, Medicina entre outras. A expansão da aplicação das técnicas estatísticas foi possível graças ao grande avanço da Ciência na área de Informática a partir do Século XX que possibilitou a criação de softwares que facilitaram a execução de cálculos e forneceram visualizações gráficas a respeito do fenômeno estudado. O impacto da evolução tecnológica faz-se, sobretudo, sentir na rapidez com que se analisa uma base de dados de grande dimensão e relativa complexidade. Em um período anterior ao desenvolvimento de softwares estatísticos, muitas técnicas, sobretudo as multivariadas, eram evitadas devido a complexidade de seus cálculos e na demora na obtenção dos resultados. O desenvolvimento da Estatística se deu principalmente a partir do Século XV juntamente com outras áreas científicas. Levantamento de dados estatísticos para censos populacionais e avaliações de produções agrícolas já eram utilizados na Europa no Século XI, no entanto, passou a ter um papel importante com o desenvolvimento da teoria da probabilidade, pois interagiu de forma intensa com diversos ramos da ciência (GADELHA, 2004). Contribuições importantes foram dadas à Estatística por pesquisadores de Ciências Sociais. No Século XVII, John Grunt e Willian Petty utilizaram a Estatística para analisar os índices de natalidade e mortalidade em Londres. Mais tarde, em 1693, Edmond Halley construiu a primeira tabela de sobrevivência elaborada com registros vitais da cidade alemã de Breslaw (atual Wroclaw, Polônia) referente ao período de 1687 a 1691 (MEMORIA, 2004). Christian Huygen, mais conhecido por suas importantes contribuições à astronomia, à ótica e à teoria ondulatória da luz publicou a primeira obra sobre teoria da probabilidade. Ele foi o primeiro a utilizar o termo esperança matemática e com dados estatísticos levantados por John Grunt, em 1662, construiu uma curva de mortalidade e definiu a noção de vida média e probabilidade de sobrevida (GADELHA, 2004). Matemáticos como Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665) deram valiosas contribuições na aplicação sistemática de análise matemática e estabelecimento de regras gerais para a solução de jogos de azar que deu origem a teoria da probabilidade. Nicolo Fontana Tartáglia (1499-1557), Girolano Cardano (1501-1576) e Galileu Galilei (1564-1642) também deram contribuições importantes desenvolvendo princípios estatísticos de probabilidade. Cardano definiu probabilidade de um evento como sendo a razão entre o número de resultados favoráveis e o número de resultados possíveis. Galileu fez um estudo completo sobre resultados possíveis em jogos de dados e Tartáglia realizou estudos de calculo de probabilidade e combinatoriais. Jacob Bernoulli (1654-1705) provou a lei dos grandes números, o que marcou o início de uma nova era na teoria da probabilidade. Essa lei foi o primeiro teorema limite de probabilidade, fundamental para a moderna teoria de amostragem. DeMoivre (1667-1754), matemático francês, propõe técnicas para reduzir problemas de probabilidade a equações diferenciais e usar funções geratrizes para resolver estes problemas. Estas equações foram, mais tarde aperfeiçoadas por Laplace (1749-1827) que obteve para as seqüências de Bernoulli o Teorema Central do Limite. Em 1733, DeMoivre publicou um trabalho no qual introduz pela primeira vez a distribuição normal que usou como aproximação para a distribuição binomial. Daniel Bernoulli (1700-1782), outro membro de uma família de grandes matemáticos, foi o primeiro a propor o uso de estimativas de máxima verossimilhança e aplicar o cálculo diferencial ao invés de combinatoriais na solução de problemas de probabilidade. Computou também a primeira tabela da distribuição normal em 1738 (cinco anos após DeMoivre tê-la descoberta). O matemático e físico suíço Leonard Euler (1707–1783) também deu contribuições importantes na aplicação de probabilidade na análise de loterias, demografia e seguros. Uma contribuição significativa à combinatória foi feita pelo filósofo e matemático alemão Gottfried W. Leibniz (1646-1716) (o primeiro a criar, em 1684, o cálculo diferencial e integral). Os estudos de Leibniz contribuíram para o desenvolvimento de linguagens modernas de lógica de computação e teoria da probabilidade (STINGLER, 2002). O naturalista francês George-Louis Leclerc, o conde de Buffon, (1707–1788), abriu caminho para o desenvolvimento da paleontologia e investigou a origem dos planetas como produto de colisões para o qual fez estudos de probabilidades. Thomas Bayes (1702–1761), teólogo e matemático inglês, contribuiu muito para a Estatística. LaPlace (1749-1827) deduziu a fórmula hoje conhecida como regra de Bayes, nome dado mais tarde por Poincaré (MEMORIA, 2004). No Século XIX o alemão Carl Friedrich Gauss (1777–1855), um dos maiores gênios da matemática, estabeleceu a relação da distribuição de erros de medidas com a curva normal e desenvolveu o método dos mínimos quadrados. Entretanto, o matemático francês André Marie Legendre (1752–1833), já havia proposto a aplicação desse método ao combinar observações astronômicas e geodésicas baseado em critério intuitivo (STINGLER, 2002). Siméon-Denis Poisson (1781–1840), outro grande personagem no desenvolvimento da estatística propôs a aplicação da teoria da probabilidade em correções de decisões judiciais para o qual deduziu a distribuição que hoje leva seu nome. A distribuição de Poisson é utilizada na análise de vários problemas relativos a ocorrências de eventos aleatórios no tempo e no espaço (estudo de filas, radioatividade entre outros) (GADELHA, 2004). Outras contribuições dadas à Estatística pelas ciências sociais e biológicas foram feitas através de Adolphe Jacques Quetelet (1796–1874) e Sir Francis Galton (1822–1911) respectivamente. As maiores contribuições de Quetelet na análise estatística de dados sociais foram o conceito de homem médio e o ajustamento da distribuição normal conjugados com a interpretação de regularidade estatística. Quetelet usou a curva normal no ajuste de medidas de peso estatura e perímetro torácico em recrutas franceses. Coletou também dados sobre criminalidade e delinqüência agrupando-os de acordo com o sexo, idade, escolaridade e o tipo de delito, introduzindo a idéia de predisposição ao crime. As contribuições mais notáveis de Galton foram a enunciação do conceito de regressão e correlação (MEMORIA, 2004). Karl Pearson (1857–1936) focou seus estudos em problemas de Biologia e teoria evolucionista. Em 1883 inventou o nome desvio padrão para representar a média quadrática dos afastamentos a partir da média de uma distribuição de freqüências. Seus trabalhos deram contribuições importantes à teoria da regressão, coeficiente de correlação e o teste de significância estatística chamado de Qui-quadrado. Entre 1906 e 1914, Pearson fundou e desenvolveu um centro de pós-graduação em Estatística como extensão da disciplina de Matemática Aplicada. Pearson é conhecido por seus importantes trabalhos em diferentes campos do conhecimento humano como Antropologia, Biometria, Genética, Métodos Científicos e outros. Inicialmente, ganhou fama devido aos seus estudos sobre o comportamento assimétrico das distribuições de freqüências, seus estudos levaram ao desenvolvimento da regressão e correlação múltiplas. (STINGLER, 2002) Willian Sealey Gosset (1876-1937), conhecido pelo pseudônimo de Student, estudou Matemática e Química e deu contribuições importantes a Estatística com seus trabalhos sobre pequenas amostras. Estes trabalhos foram continuados por Sir Ronald Aylmer Fisher (1890-1962). O interesse de Fisher pela Estatística decorreu do interesse pela Genética e pelo estudo da teoria da evolução de Darwin. Fisher correspondeu-se com Gosset para conhecer mais a respeito de sua equação sobre o desvio padrão, chegando a conclusões importantes sobre a diferença entre as médias amostrais e populacionais. Formulou a teoria dos graus de liberdade e provou ser verdadeira a formulação matemática de Gosset sobre o assunto. Fisher desenvolveu a teoria do teste de hipótese chamada de análise de variância. Em 1922 e 1925 publicou dois importantes estudos a respeito de estimações (Inferência Estatística) a partir de pequenas amostras. Rao relatou que Fisher foi também o arquiteto da análise multidimensional servindo como base para diversos trabalhos. (STINGLER, 2002) A teoria clássica dos testes de hipóteses foi fruto da colaboração de dois eminentes estatísticos, Jerzy Neyman (1894–1981) e Egon Sharpe Pearson, filho de Karl Pearson. Neyman é considerado um dos grandes fundadores da Estatística moderna teorizando sobre probabilidades, teste de hipóteses, intervalo de confiança, teste de qui-quadrado e outras áreas da Estatística. As idéias de Neyman e E. Pearson foram disputadas por matemáticos da época, incluindo Fisher (MEMÓRIA, 2004). É oportuno registrar que nessa época ainda não havia sido axiomatizado o cálculo de probabilidades que só se deu em 1933 com a obra do matemático russo Andrei Nikolaevich Kolmogorov (1903-1987). Kolmogorov foi um dos mais importantes matemáticos do Século XX com trabalhos em várias áreas da Matemática. Em 1929, publicou o trabalho Teoria Geral de Medidas e Teoria de Probabilidades, neste foi apresentada pela primeira vez uma descrição da construção axiomática de probabilidade baseada na teoria de medidas que havia sido criada em torno de 1901 por Henry Lebesgue (1875-1941) e Émile Borel (1871-1956). Em 1933, desenvolveu em seu trabalho a teoria de probabilidade de forma bastante rigorosa a partir de fundamentos da axiomatização. Obteve-se então, a base para o desenvolvimento da teoria dos processos estocásticos e definição rigorosa de esperança condicional (STINGLER, 2002). Pode-se observar, a partir do relato histórico acima, que durante o desenvolvimento da Ciência, sobretudo a partir do Século XV, floresceram numerosas pesquisas estatísticas cobrindo domínios tão diversos como ciências sociais, biológicas e outros. Progressivamente, a finalidade “social e política” da Estatística se desdobrou em uma finalidade científica. A década de 70 foi marcada pelo agravamento dos problemas ambientais, e, conseqüentemente, pela maior conscientização desses problemas em todo o mundo. Pesquisadores de diversas áreas do conhecimento voltaram sua atenção para o estudo do meio ambiente relatando problemas de contaminação do ar, nas bacias hidrográficas e na litosfera. O uso de técnicas estatísticas tornou-se importante no conhecimento dos fenômenos que permeiam a contaminação do meio ambiente e suas conseqüências sociais, auxiliando na obtenção de respostas e tomada de decisões (YABE et al., 1998). O uso de técnicas estatísticas multivariadas, no início do Século XX, eram bastante restritas devido a complexidade dos cálculos. Graças ao desenvolvimento da informática, sobretudo a partir da II Guerra Mundial tornou-se possível a análise de qualquer tipo de dados, sejam eles, ambientais, econômicos, sociais, comportamentais e outros. A evolução tecnológica facilitou a execução de cálculos, oferecendo rapidez e confiança nos resultados. As limitações metodológicas deixaram de ser uma preocupação, existindo uma bibliografia extensa e variada sobre métodos de análises estatísticas (REIS, 2001). Estatística aplicada à engenharia A Estatística aplicada à engenharia é um ramo da estatística que estuda as suas aplicações à engenharia, onde o maior uso seja talvez no controle de processos de produtos e serviços. Mas também é usada, por exemplo, no planejamento de novas estratégias de produção, vendas, etc. Existe uma preocupação da Estatística aplicada à Engenharia que se localiza no Controle de Processos e Manufatura, analisando distribuições e lotes para padrões de qualidade nos produtos. Por exemplo, para a Engenharia de Alimentos, há certa estatística na Análise Sensorial, para observar a aceitação de um produto manufaturado em relação ao público. A estatistica é aplicada na produção para acompanhar a estabilidade dos processos, esta estabilidade é analisada por cartas de acompanhamento conhecida como cartas de controle estatistico de processo. Também se utiliza a estatistica para analisar ensaios tanto destrutivos como não destrutivos, verificando a porcentagem de peças não conforme ou probabilidade de vida de equipamentos ou peças. Utiliza-se estatistica em calibração de equipamentos de medição e na analise dos mesmos também na verificação da condição de uso dos mesios de medição, esta analise esta definida no M.S.A. da norma QS9000. Fases do Trabalho Estatístico O trabalho estatístico é um método científico, que consiste das cinco etapas básicas seguintes: 1- Coleta com crítica dos dados 2- Tratamento dos dados (Tabulação) 3- Apresentação dos dados 4- Análise e conclusão dos resultados Vamos tratar cada uma dessas etapas: Coleta com crítica dos dados Após definirmos cuidadosamente o problema que se quer pesquisar, damos início á coleta dos dados numéricos necessários à sua descrição. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimentos, casamentos e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários. A coleta direta de dados pode ser classificada relativamente ao fator tempo em: a) Contínua – quando feita continuamente, tal como a de nascimentos e óbitos e a de freqüência dos alunos às aulas. b) Periódica – quando feita em intervalos constantes de tempo, como os censos e as avaliações mensais dos alunos. c) Ocasional – Quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias que assolam ou dizimam rebanhos inteiros. A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; è interna quando visa observar os elementos originais dos dados da coleta. Tratamento dos dados Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação Pode ser manual ou eletrônica. Apresentação dos dados Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada – tabelas e gráficos – tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico. Análise dos resultados Após a apresentação dos dados devemos calcular as medidas típicas convenientes para fazermos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, e tirarmos desses resultados conclusões e previsões. Conclusão É de responsabilidade de um especialista no assunto que está sendo pesquisado, que não é necessariamente um estatístico, relatar as conclusões de maneira que sejam facilmente entendidas por quem as for usar na tomada de decisões. População: é o conjunto de dados que possui as características de interesse. A população pode ser todos os funcionários de uma empresa, todos os colaboradores de uma obra ou todas as peças produzidas por uma máquina. Amostra: é qualquer subconjunto da população. Muitas vezes não podemos acessar toda a população e precisamos de um conjunto de valores representativos para inferir sobre ela. Não podemos, por exemplo, testar todas as lâmpadas produzidas por uma empresa, coletamos amostras e inferimos sobre a qualidade de toda a população de lâmpadas. TABELAS Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E isto ela consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que irão nos fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindonos determinações administrativas e pedagógicas mais coerentes e científicas. Então podemos dizer que as tabelas são quadros que resumem um conjunto de observações. Uma tabela deve apresentar a seguinte estrutura: Cabeçalho o O que? (referente ao fato) o Quando? (corresponde à época) o Onde? (relativo ao lugar) Corpo o Colunas, sub-colunas dentro dos quais serão registrados os dados números e informações. Rodapé o Utilizado para informações pertinentes a tabela ou gráfico, bem como para o registro e identificação da fonte de dados. VARIÁVEIS É, convencionalmente, o conjunto de resultados possíveis de um fenômeno. Podem ser contínuas ou discretas. Contínua quando se refere a variáveis que são medidas como temperatura, peso, comprimento, podendo assumir qualquer valor; e Discretas quando se tratam de dados registrados, como exemplo, número de acidentes automobilísticos, número de insetos que morrem por inseticidas, número de filhos de uma família, resultado de lançamento de dados, etc. Estatística descritiva: é em geral um conjunto de técnicas utilizadas em uma etapa inicial da análise dos dados. O objetivo é tirar conclusões de modo informal e direito. Estas técnicas permitem descrever e resumir os dados. Interferência estatística: refere-se a um conjunto de técnicas que permitem inferir sobre um grande conjunto de dados. Utilizamos a interferência quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física. Diante da população de interesse, uma ou mais amostras são coletada e os dados são analisados descritivamente. Se o objetivo for estender o resultado para toda a população devemos utilizar técnicas de inferência adequadas. 2. Organização dos dados Considere um conjunto de dados, onde devemos extrair informações a respeito de uma ou mais características. Basicamente, definimos as variáveis de interesse e obtemos os dados brutos. O próximo passo é resumir os dados em tabelas de freqüências e gráficos e descrever sobre o comportamento desses dados. Com o objetivo de investigar a ocorrência de acidentes de trabalho em um canteiro de obras um pesquisador selecionou aleatoriamente 20 trabalhadores envolvidos em acidentes para um estudo. As variáveis selecionadas para estudo são: Idade (I): (em anos) Escolaridade (Ec): Fundamental (F), Médio (M), Superior (S) Sexo: M (masculino), F (feminino) Estado civil: Solteiro (S), Casado(C), Divorciado (D). Renda: (em salários mínimos) T. Trabalho: (em anos) H. Trabalho até a ocorrência do acidente: (em horas inteiras) A tabela de dados brutos (Tabela 1), mostra revela algumas informações a respeito da amostra selecionada Tabela 1: Dados Brutos Idade Escolaridade Sexo E.Civil Renda T.Trabalho H.Trabalho 25 19 20 23 30 22 42 20 19 26 32 23 18 19 20 21 26 22 20 19 M F F F S M M F F F M F F F M F S M F F F M M M F M M F F M M F M M M M F M F M S S C S S S C S S S C C S S S S C S S S 3,5 1,5 1,5 2,0 5,0 1,8 1,8 1,5 1,8 1,6 2,0 1,4 1,5 1,5 3,0 1,4 5,2 4,5 2,0 2,4 3 1 1 2 5 3 1 2 1 3 2 1 1 2 4 3 1 4 2 3 8 5 10 9 4 6 9 10 8 7 7 9 10 10 6 2 10 9 3 6 Note que torna-se difícil uma análise da tabela de dados brutos e para facilitar o estudo resumimos as informações em tabelas de freqüências. Cada uma das características apontadas é chamada de variável. O conjunto de informações obtidas após a tabulação dos dados é denominado tabela de dados brutos. Note que as variáveis podem assumir valores numéricos ou não. Podemos então classificar essas variáveis em: Nominal - ex.: sexo (masculino ou feminino Qualitativas (valores não numéricos) (não tem uma ordem natural) Ordinal - ex: escolaridade (fundamental, médio, superior) (ordem natural) Discreta: ex.: horas de trabalho Quantitativas (valores numéricos) (valores inteiros) Contínua: ex.: renda (assumem valores em intervalos reais) Gráficos Estatísticos: São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas. Os mais utilizados são: I – Gráficos em barras horizontais II – Gráficos em barras verticais (Colunas) III – Gráficos em barras compostas IV – Gráficos em colunas superpostas. V – Gráficos em linhas ou lineares VI – Gráficos em setores (Pizza) Acompanhe os exemplos abaixo: I – Em barras horizontais II – Em barras verticais (colunas) III – Em barras compostas IV – Em colunas superpostas V – Em linhas ou lineares VI – Em setores (pizza) VII - Gráfico especial: O pictograma São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do publico leigo, pois sua fora é atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Vamos discorrer um pouco mais sobre três tipos de gráficos mais utilizados: barras, setores e histograma. O gráfico de barras utiliza o plano cartesiano com valores da variável nos eixos das abscissas e as freqüências ou porcentagens no eixo das ordenadas. Este tipo de gráfico se adapta melhor às variáveis discretas ou qualitativas ordinais. Na figura 1 temos o gráfico de barras para a variável escolaridade. Escolaridade 14 12 10 8 ni 6 4 2 0 F M S Grau de Escolaridade Figura 1 – Gráfico de barras para variável escolaridade O gráfico de setores, também chamado de pizza, se adapta bem às variáveis qualitativas nominais. As dimensões das fatias podem ser calculadas multiplicando-se a freqüência relativa (fi) por 360 (uma volta inteira da circunferência). A figura 2 mostra a representação gráfica da variável sexo em estudo. F 35% 126 º Sexo M F Total 0 M 65% 2340 º ni 13 7 N = 20 fi 0,65 0,35 1 Graus 234o 126o 360o Tamanho do setor Figura 2 – Gráfico de setores para variável sexo. O histograma consiste em retângulos contíguos com base na faixa de valores. Ele é normalmente utilizado em variáveis quantitativas contínuas. A altura de cada retângulo é denominada densidade de freqüência ou simplesmente densidade. A densidade é determinada pelo quociente da freqüência relativa de classe fr pela amplitude da classe. O histograma da variável renda é apresentado na figura 3. Renda 0,8 0,6 55% 0,4 20% 0,2 10% 0 1,0 2,0 3,0 4,0 10% 5% 5,0 6,0 Figura 3 – Gráfico histograma da variável renda O uso da densidade na construção do histograma evita distorções nos casos em que as amplitudes das classes são desiguais. AMOSTRAGEM Como sabemos, a Estatística indutiva tem por objetivo tirar conclusões sobre as populações, com base em resultados verificados em amostras retiradas dessa população. Mas, para as inferências serem corretas, é necessário garantir que a amostra seja representativa da população, isto é, a amostra deve possuir as mesmas características básicas da população, no que diz respeito ao fenômeno que desejamos pesquisar. É preciso, pois, que a amostra ou as amostras que vão ser usadas sejam obtidas por processos adequados. Isso pode ser feito de três formas: 1. Amostragem casual ou aleatória Este tipo de amostragem é equivalente a um sorteio lotérico. Na prática, a amostragem casual pode ser realizada numerando-se a população de 1 a n, sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, K números dessa seqüência , os quais corresponderá aos elementos pertencentes a amostra. Exemplo: Obtenha uma amostra representativa para a pesquisa da estatura de 90 alunos de uma escola. Passos: 1o – Numeramos os alunos de 01 a 90 2o – Escrevemos os números, 01 a 90, em pedaços iguais de um mesmo papel, colocando-os dentro de uma caixa. Agitamos sempre a caixa para misturar bem os pedaços de papel e retiramos, um a um, nove números que formarão a amostra. Nesse caso, 10% da população. Exemplos: Sorteio lotérico, bingo, etc. 2. Amostragem proporcional estratificada Muitas vezes a população divide-se em sub-populações, estratos. Como, provavelmente, a variável em estudo apresente, estrato em estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que o sorteio dos elementos da amostra leve em consideração tais estratos. È exatamente isso que fazemos quando empregamos a amostragem proporcional estratificada, que além de considerar a existência dos estratos, obtém os elementos da amostra proporcional ao número de elementos dos mesmos. Exemplo: Supondo, no exemplo anterior, que, dos 90 alunos, 54 são meninos e 36 são meninas, obtenha a amostra proporcional estratificada. São, portanto, dois estratos diferentes, (sexo masculino e feminino) e queremos uma amostra de 10% da população. Logo temos: Sexo População 10% amostras M 54 5,4 5 F 36 3,6 4 Totais 90 9,0 9 3. Amostragem sistemática Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referencia. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, as linhas de produção, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. A esse tipo de amostragem denominamos sistemática. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso estaríamos fixando o tamanho da amostra em 10% da população. Elementos de uma distribuição em intervalos de freqüência I. Classe Classe ou classes de uma freqüência, são intervalos de variação da variável observada. II. Limite de uma classe São os extremos de uma classe. III. Amplitude de um intervalo de classe É a medida do intervalo que define a classe. De quanto em quanto os valores estão agrupados. IV. Amplitude total da distribuição È a diferença entre o limite superior da última classe e o limite inferior da primeira classe. V. Amplitude amostral È a diferença entre o valor máximo e o mínimo da amostra. Lembre-se que a amostra são os dados que realmente existem não os valores dos intervalos montados. VI. Ponto médio de uma classe (xi) È a média da classe. È o ponto exatamente no meio da classe. È indicado por xi. Exercícios 1. A tabela abaixo apresenta as vendas diárias de passagens para fora do Brasil durante um mês, por certa agência: 14 12 21 13 24 13 12 24 13 14 11 12 12 14 10 23 15 11 15 19 16 17 14 14 a. Faça uma distribuição de freqüência com amplitude igual a três e limite inferior da primeira classe 10, mostrando o ponto médio de cada classe. b. Qual a amplitude total da distribuição? c. Qual a amplitude amostral? Quantidade de Classes de uma tabela: Como calcular? O número de classes é representado por K. É importante que a distribuição tenha um número adequado de classes. Para determinar o número de classes há diversos métodos. Um é utilizando a regra de Sturges onde estabelece que: K = 1+3,23.log n, onde n é igual a somatória de Fi. Uma vez utilizando essa fórmula, devemos sempre arredondar o resultado. Vamos calcular para um total de 50 pesquisados. Temos então que n = 50, então K = 1+3,23.log 50, temos então: K = 1+ 3,23. 1,602 K = 1 + 5,17 K = 6,17 K = 6 ou 7 (arredondando conforme a conveniência. Acostuma-se arredondar para o inteiro mais próximo, nesse caso, para 6) Outro método mais simples é fazer K = k n , ou seja, k = 6,32. Amplitude do intervalo de uma classe (h): Como calcular? Uma vez calculado a quantidade de classes, devemos determinar a amplitude do intervalo de cada classe através da seguinte expressão: h= Amplitude _ Amostral número _ de _ classes Mais sobre freqüências: Observe a tabela abaixo observando o teor de cada coluna: i 1 2 3 4 5 6 Estaturas (cm) 150 154 154 158 158 162 162 166 166 170 170 174 Total 40 i as classes fi 4 9 11 8 5 3 xi 152 156 160 164 168 172 fi a freqüência absoluta observada xi o ponto médio Fac a freqüência acumulada Fri a freqüência relativa observada Frac a freqüência relativa acumulada Fac 4 13 24 32 37 40 100,0 Fri 10,0 22,5 27,5 20,0 12,5 7,5 Frac 10,0 32,5 60,0 80,0 92,5 100,0