ESCOLA SUPERIOR DE TECNOLOGIA DA UNIVERSIDADE DO ALGARVE Área Departamental de Engenharia Alimentar Apontamentos de Estatística Texto de apoio para a disciplina de Métodos Estatísticos do Curso de Engenharia Alimentar. Eduardo Esteves Área Departamental de Engenharia Alimentar Escola Superior de Tecnologia Versão 2.7 E. Esteves, Faro, Fevereiro de 2007 Métodos Estatísticos – Engenharia Alimentar 2 ÍNDICE PREFÁCIO .......................................................................................................... 4 1. INTRODUÇÃO ............................................................................................... 4 2. CONCEITOS BÁSICOS ................................................................................ 4 3. POPULAÇÃO.................................................................................................. 5 4. AMOSTRA ...................................................................................................... 7 Distribuição de frequências .................................................................................................... 8 Cálculo do número de classes............................................................................................. 8 Cálculo dos limites implícitos ............................................................................................ 9 Frequência absoluta, relativa e relativa acumulada .......................................................... 10 Representação gráfica de distribuições de frequências ........................................................ 10 Medidas de tendência central e de dispersão........................................................................ 12 Medidas de tendência central ........................................................................................... 12 Medidas de dispersão ....................................................................................................... 16 5. CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADES........... 19 Provas aleatórias, Acontecimentos possíveis, Espaço amostral e Evento............................ 20 Conceito de Probabilidade.................................................................................................... 21 Definição clássica de probabilidade ................................................................................. 21 Definição de probabilidade como frequência relativa...................................................... 22 Definição de probabilidade relacionada com a Teoria dos conjuntos .............................. 22 Postulados das probabilidades .............................................................................................. 22 Teoremas das probabilidades ............................................................................................... 23 Teorema da adição............................................................................................................ 23 Teorema da multiplicação ................................................................................................ 24 Teorema da complementaridade....................................................................................... 24 6. DISTRIBUIÇÃO DE PROBABILIDADES ............................................... 24 Variável aleatória.............................................................................................................. 24 Distribuições de probabilidades de variáveis discretas ........................................................ 26 Propriedades da função densidade.................................................................................... 26 Propriedades da função distribuição................................................................................. 27 Caraterísticas da distribuição de probabilidades .............................................................. 27 Distribuição Binomial .......................................................................................................... 28 Distribuição de Poisson ........................................................................................................ 31 Distribuições de probabilidades de variáveis contínuas ....................................................... 32 Distribuição normal .............................................................................................................. 36 Distribuição normal reduzida ............................................................................................... 38 Distribuição t de Student ...................................................................................................... 39 7. INFERÊNCIA ESTATÍSTICA ................................................................... 41 Amostragem aleatória........................................................................................................... 41 Populações finitas ............................................................................................................. 41 Populações infinitas.......................................................................................................... 42 Distribuição da média na amostragem ................................................................................. 42 Teoria sobre a distribuição de probabilidades da média na amostragem ............................. 43 Teorema do limite central................................................................................................. 44 Estimação da média da população........................................................................................ 44 Estimação pontual ............................................................................................................ 44 Estimação por intervalos de confiança ............................................................................. 45 Teste (ou Prova) de hipóteses............................................................................................... 47 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 3 Definição de conclusões alternativas................................................................................ 47 Definição de regras de decisão sobre que hipótese deve ser aceite.................................. 47 Erros de inferência................................................................................................................ 48 Erros de tipo I e de tipo II................................................................................................. 48 Testes de hipóteses bilaterais para a média .......................................................................... 50 Casos em que a variância da população σ2 é conhecida................................................... 50 Casos em que a variância da população σ2 não é conhecida............................................ 50 Testes de hipóteses unilaterais para a média ........................................................................ 51 Testes de hipóteses através de “estatísticas de teste” ........................................................... 53 8. REGRESSÃO LINEAR SIMPLES............................................................. 54 Relação entre variáveis......................................................................................................... 54 Relação funcional entre duas variáveis ................................................................................ 54 Relação estatística entre duas variáveis................................................................................ 55 Modelos de regressão simples .............................................................................................. 56 Método dos mínimos quadrados........................................................................................... 56 “Recta dos mínimos quadrados”........................................................................................... 58 Transformação das variáveis na regressão ........................................................................... 61 Coeficiente de correlação linear ........................................................................................... 61 Covariação ........................................................................................................................ 62 Covariância....................................................................................................................... 63 Interpretação da covariância............................................................................................. 63 Coeficiente de correlação linear ....................................................................................... 63 Interpretação do coeficiente de correlação ....................................................................... 64 Coeficiente de correlação linear amostral r...................................................................... 64 Prova de hipóteses sobre o coeficiente de correlação linear populacional ρ{X,Y} .......... 65 Coeficiente de determinação ................................................................................................ 66 9. BIBLIOGRAFIA........................................................................................... 68 EXERCÍCIOS.................................................................................................... 70 I – Amostra ........................................................................................................................... 70 II – Probabilidades (variáveis discretas)............................................................................... 73 III – Probabilidades (distribuições teóricas de variáveis discretas)...................................... 74 IV – Probabilidades (variáveis contínuas)............................................................................ 76 V – Amostragem aleatória, Estimação de parâmetros e Testes de hipóteses ....................... 77 VI – Regressão linear simples e correlação.......................................................................... 80 VII – Soluções dos exercícios .............................................................................................. 83 TABELAS .......................................................................................................... 88 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 4 PREFÁCIO Neste texto que, em boa parte, deriva dos textos de apoio e apontamentos preparados pela Professora Lilia Brinca ao longo de anos de docência, vamos abordar alguns dos tópicos introdutórios mais relevantes em Estatística. Assim, com o objectivo de conhecer a população em estudo (Secção 3), falaremos, primeiro, acerca de amostras e da sua representação sumária e dos parâmetros que mais se utilizam para as descrever (Secção 4). Providenciaremos alguns conceitos básicos de probabilidades (Secção 5), assim como conhecimentos de algumas distribuições de probabilidades teóricas importantes (secção 6) que permitem obter criteriosamente as amostras (amostragem aleatória, Secção 7) e testar e eventualmente validar, hipóteses acerca dos resultados obtidos (inferência estatística, Secção 7). No final do texto, serão abordados conceitos e técnicas relacionadas com a regressão linear simples e correlação (Secção 8), uma vez que permitem estudar relações estatísticas entre (duas) variáveis. Ao longo do texto incluem-se exemplos dos assuntos em estudo (identificados por um traço vertical junto à margem esquerda do texto) para auxiliar a compreensão das matérias. Complementarmente, providenciam-se exercícios, e respectivas soluções. 1. INTRODUÇÃO A palavra “Estatística” deriva do latim “Estate”, ou Estado, e foi usada pela primeira vez em meados do século XVIII por um professor alemão, Gottfried Achenwall. A sua utilização estava inicialmente relacionada com a otenção de “informação vital”, como por exemplo dados demográficos, “vitais” para a governação, para o recrutamento militar ou para a cobrança de impostos. Muitas vezes é usada como sinónimo de “dados”: ouvimos falar em número de candidatos ao ensino superior, percentagem do PIB aplicado na Educação, etc. No entanto, a ESTATÍSTICA é mais do que isso. Refere-se à análise e interpretação de dados com vista à avaliação objectiva da validade das conclusões que se obtiveram. Por MÉTODOS ESTATÍSTICOS entendem-se os métodos científicos para colher, organizar, resumir, apresentar e analisar dados de modo a obter conclusões válidas. O OBJECTIVO GERAL desta disciplina é providenciar, aos alunos do curso de engenharia alimentar, conhecimentos básicos de estatística, teóricos e práticos, que lhes permitam analisar estatisticamente problemas relacionados com o desempenho da actividade. 2. CONCEITOS BÁSICOS Antes de mais, devem apresentar-se alguns conceitos importantes e que serão necessários ao longo deste texto. O primeiro dos conceitos de que falaremos é o de população. Simplisticamente, o que se pretende com a análise estatística é elaborar conclusões sobre um grupo de medições ou observações da variável em estudo. Ora, o conjunto de medições ou observações realizadas sobre diferentes elementos de conjuntos bem definidos e rigorosamente condicionados designa-se por POPULAÇÃO. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 5 Por exemplo, se quisermos estudar a altura dos alunos da Escola Superior de Tecnologia (EST): todos os alunos da EST constituem a população em estudo. Se pretendermos estudar determinada característica de uma conserva de sardinha da marca XYZ: então a população que estamos a estudar é constituida por todas as latas de conserva de sardinha produzidas por essa marca. Se estivermos a estudar uma população relativamente pequena, digamos as mulheres que já atravessaram o Canal da Mancha a nado ou o número de homens que pisou a Lua, poderemos examinar toda a população porque é praticável em tempo útil obter a informação que pretenderíamos daquelas mulheres ou desses homens. Assim, quando podemos examinar toda a população (neste caso, as ditas senhoras ou os senhores) estamos a realizar um CENSO. Todavia, em casos particulares, efectua-se o censo de populações maiores do que aquelas. Regularmente, de 10 em 10 anos, realiza-se o censo da população portuguesa com o objectivo de obter a tal “informação vital” para a governação designadamente o número de habitantes, as idades, as profissões, se possuem electricidade, água e telefone, etc. No entanto, se estamos a estudar uma população maior, digamos as sardinhas da costa portuguesa ou a qualidade das sardinhas enlatadas por determinado fabricante, não será possível pesar, medir ou analisar bioquimicamente todos os peixes ou todas as latas. Então, poderemos examinar uma parte dessa população, ou seja, obter uma AMOSTRA. O número de elementos/observações, isto é, o tamanho da mostra designa-se n. Este será o modo mais viável de estudar, do ponto estatístico (e não só!), muitos problemas práticos. Podem obter-se amostras de uma população de acordo com vários critérios. Contudo, para se elaborarem conclusões válidas, a maíoria dos métodos estatísticos assumem que as amostras foram obtidas de modo aleatório, ou seja, cada elemento da população tem probabilidade igual de ser (es)colhido. Por outro lado, a escolha de determinado elemento não influencia a escolha de outro(s). Obtêm-se, assim, AMOSTRAS ALEATÓRIAS. O conjunto dessa(s) amostra(s) possíveis de obter de determinada população com base em determinado critério é designado por AMOSTRAGEM. Muitas vezes, no entanto, também se utiliza o termo amostragem para designar o processo de obtenção das amostras. Falaremos neste curso de AMOSTRAGEM ALEATÓRIA SIMPLES como um exemplo dos vários critérios de selecção de amostras. Depois da colheita de informação, da organização e resumo desses dados de forma a apresentá-los correctamente, é geralmente intenção generalizar os resultados para toda a população. A capacidade de elaborar conclusões para toda a população a partir de características de amostras corresponde à INFERÊNCIA ESTATÍSTICA (Fig. 1). 3. POPULAÇÃO O objectivo final dos métodos estatísticos é concluir, com validade, sobre determinado(s) aspecto(s) da população, isto é, caracterizar todos os elementos do universo em estudo em termos desse(s) aspecto(s). Já vimos que, o conjunto de medições ou observações realizadas sobre diferentes elementos de conjuntos bem definidos e rigorosamente condicionados se denomina população. A dimensão da população designa-se por N. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 6 Existem vários “tipos” de populações e podem classificar-se as populações de acordo com vários critérios. Por vezes, as populações em estudo não existem na realidade, fisicamente. Se, por exemplo, estivermos a estudar, em laboratório, o efeito de determinado complemento alimentar sobre a taxa de crescimento de 40 cobaias; a população de que estamos a falar não são as cobaias mas as taxas de crescimento (de todas as cobaias que, eventualmente, poderiam receber esse complemento alimentar em condições similares). Neste caso, alguns autores referem-se a populações “imaginárias”, “hipotéticas” ou “potenciais”. População Inferência Selecção Amostragem Amostra #1, Amostra #2, Amostra #3, …, Amostra #k Fig. 1 – Esquema da relação entre os vários conceitos básicos em estatística. No entanto, existem classificações mais consensuais e mais vulgarizadas de “tipos” de populações. Assim, podemos falar em POPULAÇÕES FINITAS e INFINITAS. As primeiras são constituidas por um número finito de elementos. Neste caso, quando se obtém uma amostra, a FRACÇÃO DE AMOSTRAGEM f é definida por: f = n N em que n é o número de elementos da amostra ou tamanho da amostra e N o número total de elementos da população. Pelo contrário, as segundas são constituidas por um número infinito de elementos. Assim sendo, a fracção de amostragem é praticamente igual a zero, uma vez que N tende para ∞. As populações podem ser definidas por determinados PARÂMETROS que resumem certas características (que veremos a seguir). A esses parâmetros da população são usualmente atribuidas letras gregas (µ, σ, etc.) ou letras maiúsculas (N, X, etc.), para os distinguir dos parâmetros correspondentes nas amostras (designados por letras minúsculas: n, x , s, etc). Contudo, são raras as possibilidades de os calcular directamente, em virtude da dimensão das populações, pelo que na maíoria das vezes temos de recorrer às características das amostras (que alguns autores designam por ESTATÍSTICAS) para estudar estatisticamente essas populações. Na próxima secção, dedicada aos modos apresentação de amostras, serão incluídas referências aos parâmetros da população sempre que necessário. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 7 4. AMOSTRA Na maioria dos casos, em virtude da dimensão da população em estudo, é necessário recorrer a sub-conjuntos, a amostras, para estudar uma (ou várias) característica(s) particular(es) de uma população. Uma AMOSTRA é composta por um número determinado de observações individuais, geralmente referidas por xi em que i=1, 2, …, n. Estas observações individuais podem ser QUALITATIVAS, como por exemplo a cor, o sexo ou o comportamento, etc, ou QUANTITATIVAS como por exemplo o peso, a densidade, a taxa de crescimento, etc. O número de elementos que compoêm uma amostra designa-se por TAMANHO DA AMOSTRA e representa-se por n. De modo similar, o número total de elementos que constituem a população (ou o Universo, segundo alguns autores) é representado por N. Como já vimos, o conjunto das amostras obtidas de determinada população é designado por amostragem. Os elementos da amostra medem ou descrevem determinada característica da população (por exemplo, o peso, o sexo ou o comportamento). Essa característica, que é descrita ou medida pelas observações individuais designa-se por VARIÁVEL (mais adiante elaboraremos sobre outras definições de variável). Ou seja, se pretendemos estudar o peso dos alunos desta disciplina no presente ano lectivo (que seria a variável em estudo), poderíamos obter uma amostra de 20 alunos (tamanho da amostra seria, então, n=20) e pesar cada aluno. Obteríamos uma “lista” de n=20 observações individuais, geralmente referidas por xi, no exemplo o peso de cada aluno (x1=68 kg, x2=53 kg, …, x20=76 kg). Como para as populações, e aliás como acontece em muitos casos, existem vários “tipos” de variáveis organizados segundo diferentes critérios. Por vezes, a variável em estudo descreve determinada qualidade ou atributo em vez de medir certa quantidade: a cor, por exemplo. Alguns autores referem-se a ATRIBUTOS para designar este “tipo” de variáveis. Contudo, podemos, para facilitar a análise e a representação, substituir esses atributos por números, isto é em vez de olhos azuis atribuir o valor 1, ou em vez de olhos castanhos considerar o valor 2, etc. Em muitos casos, no entanto, as variáveis são mensuráveis, isto é, podem medir-se ou quantificar-se de alguma forma e, portanto, podem representar-se numericamente. Nestes casos, podemos considerar dois “tipos”: VARIÁVEIS DISCRETAS (e.g. contagens); e VARIÁVEIS CONTÍNUAS (e.g. medições). Nas primeiras, as observações individuais só podem assumir determinados valores. Por exemplo, o número de folhas no ramo de uma árvore só pode assumir determinados valores. No segundo caso, a variável pode assumir um qualquer valor entre quaisquer limites observados, ou seja, é possível existir um valor entre quaisquer outros dois valores observados. Por exemplo, o número de folhas numa árvore só pode assumir determinados valores. É possível contar 37 folhas, mas é impossível enumerar 37,48 folhas ou 36,125 folhas nesse ramo de àrvore – variável discreta. Se medirmos a altura dos alunos desta turma é possível obter resultados de 154 cm, ou mesmo 167,3 cm, ou até de 183,92 cm (depende do equipamento usado para medir). Podemos sempre obter, © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 8 pelo menos teoricamente, valores de altura dos alunos entre os valores 154 cm e 155 cm, ou 167,0 cm e 167,1 cm, ou 172,03 cm e 172,04 cm, ou 181,007 cm e 181,008 cm, etc. DISTRIBUIÇÃO DE FREQUÊNCIAS Independentemente de estarmos a lidar com populações ou com amostras, desde que os dados sejam numerosos, torna-se incómodo apresentá-los todos de cada vez que isso seja necessário. À apresentação total das observações individuais (ou dos “dados”), dispostos por ordem crescente ou decrescente de grandeza, alguns autores (mais antigos) designam por lista ou rol. Os dados podem, no entanto, ser tratados de forma a simplificar a sua apresentação e “manuseamento”. Um processo consiste no seu AGRUPAMENTO, isto é na apresentação em conjunto de todos aqueles cuja grandeza é igual. Um dos modos de apresentar os dados é através de TABELAS DE FREQUÊNCIAS (Tab. 1). Uma tabela de frequências inclui, geralmente, a seguinte informação: as classes consideradas (coluna da esquerda na Tab. 1); e as frequências propriamente ditas (nas colunas mais à direita). Opcionalmente apresentam-se os pontos médios das classes pj. Vamos abordar a seguir como obter e dispôr essa informação. Tab. 1 – Exemplo de uma Tabela de frequências (simplificada) para uma variável que pode assumir quaisquer valores entre 0 e 10. Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. Classes 3,5 – 4,9 4,9 – 6,3 6,3 – 7,7 7,7 – 9,1 9,1 – 10,5 Ponto-médio (pj) 4,2 5,6 7,0 8,4 9,8 Frequência absoluta (F) 1 4 4 2 1 Frequência relativa (f) 0,0833 0,3333 0,3333 0,1667 0,0833 Cálculo do número de classes Na maioria dos casos, é necessário definir arbitrariamente o número de CLASSES, ou categorias que integram observações individuais da mesma ordem de grandeza, com que vamos elaborar a tabela de frequências. Quando estamos a trabalhar com variáveis contínuas, um modo de resolver esta questão é recorrer à seguinte equação (fórmula de Sturges) para calcular o número de classes NC ou k: NC = k = (log2 n) + 1, em que log2 é o logaritmo de base 2 e n é o tamanho da amostra. O resultado é arredondado para o número inteiro mais próximo. Se utilizarmos como exemplo os resultados que deram origem à Tab. 1, © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 9 teríamos que: Para n = 12, k = log2 12 + 1 = 4 + 1 = 5 neste caso, 23 = 8 ou 24 = 16, e decidiu-se trabalhar com maior número de classes. Pode-se obter o número de classes k através de outra equação, talvez mais simples: k= log n +1 log 2 neste caso, utilizam-se logarítmos de base 10. Se n ≥ 25 é possível determinar k considerando que k = n . Nos casos das variáveis qualitativas (atributos) ou das variáveis discretas, o procedimento de elaboração de tabelas de frequências é ligeiramente diferente. Quando temos atibutos, podemos simplesmente definir como categorias ou classes, os diferentes atributos. Contabilizando o nº de observações/resultados por atributo preenche-se a tabela de frequências. Por outro lado, quando a variável é discreta, o processo de elaboração de tabelas de frequências é diferente e “um pouco subjectivo”. A definição das classes depende tanto dos valores obtidos como do que se pretende ilustrar ou representar na tabela de frequências. Exemplo 1: Uma empresa fabrica sete produtos congelados distintos (A a G, para simplificar) e os resultados das vendas por produto no último trimestre constam do relatório da auditoria trimestral. Neste caso (variável qualitativa – produto), cada produto consitui uma “classe” diferente e o nº de embalagens de cada produto vendidas no último trimestre corresponde à frequência absoluta nessa “classe”. Exemplo 2: Consideremos que uma variável discreta pode assumir quaisquer valores inteiros entre 0 e 20 (por exemplo, as classificações finais na disciplina de Métodos Estatísticos), e que os dados brutos obtidos são: 7, 9, 7, 10, 8, 6, 7, 6, 8, 12, 5, 10, 10, 9, 9, 8, 8, 9, 9, 11, 11 (resultados de 21 alunos num dado ano lectivo). Neste caso, o valor máximo = 12 e o valor mínimo = 5. No entanto, podemos definir vários agrupamentos diferentes consoante os objectivos: 5 classes (0 a 5; 6 a 9; 10 a 13; 14 a 17; e 18 a 20) que correspondem a “Medíocre”, “Insuficiente”, “Razoável”, “Bom” e “Muito Bom”; 4 classes (5-6, 7-8, 9-10 e 11-12); 2 classes apenas (5-9 e 10-14); ou 20 classes (1, 2, 3, …, 19, 20). Cálculo dos limites implícitos Se estivermos a estudar características mensuráveis, isto é, no caso de variáveis contínuas, após a definição do número de classes a considerar no agrupamento dos dados (k), será necessário determinar que valores incluirá cada classe, ou seja entre que limites de classe serão contabilizadas as observações individuais. Um modo de determinar esses limites é recorrer aos próprios dados, daí a designação de LIMITES IMPLÍCITOS, e utilizar os valores mínimo e máximo das observações individuais. Dividindo-se a amplitude dos limites © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 10 implícitos pelo número de classes (k) calculado anteriormente obtêm-se as classes para elaboração da tabela de frequências (observe-se o exemplo seguinte). Consideremos que uma variável pode assumir quaisquer valores entre 0 e 10. Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. Se o valor máximo = 10, então limite (superior) implícito da última classe = 10,5. Se o valor mínimo = 4, então limite (inferior) implícito da primeira classe = 3,5. A amplitude (total) destes limites = 10,5 – 3,5 = 7. Uma vez que o número de classes proposto é 5, então a amplitude de cada classe será igual a 7/5 = 1,4. Ficam assim definidas as 5 classes: de 3,5 a 4,9; de 4,9 a 6,3; de 6,3 a 7,7; de 7,7 a 9,1; e de 9,1 a 10,5. Se os valores, mínimo e máximo, das observações originais fossem, por exemplo, 4,5 e 10,5, então os limites implícitos da primeira e da última classe seriam 4,45 e 10,55 respectivamente. Frequência absoluta, relativa e relativa acumulada Depois de estabelecidas classes, é necessário contabilizar os casos que estão incluidos em cada classe e desse modo obter a FREQUÊNCIA ABSOLUTA (Fj). Podemos acrescentar (e em muitos casos melhorar) a informação contida numa tabela de frequências. O cálculo da FREQUÊNCIA RELATIVA (fj), de acordo com a seguinte equação: fj = Fj n em que Fj é a frequência absoluta na classe j (j=1,2, …,k) e n é número total de observações individuais (tamanho da amostra). As frequências relativas permitem comparar duas distribuições com n diferente, ou seja, a partir de um segundo conjunto de dados (com n igual, inferior ou superior) poderíamos preparar uma tabela de frequências relativas e desse modo comparar grosso modo (a “forma”, a distribuição dos resultados) com a que acabámos de elaborar. Mas, e se quiséssemos saber quantas observações individuais com valores entre 4,9 e 9,1 ocorreram na amostra do exemplo anterior? Ou quantas observações são maiores ou iguais a 7,7? Neste caso, podemos recorrer às FREQUÊNCIAS RELATIVAS ACUMULADAS (facum) que se pode obter da soma da frequência relativa de determinada classe com a(s) frequência(s) relativa(s) das classe anteriores. Complementarmente, as frequências relativas acumuladas também são úteis para o cálculo de medidas de localização e dispersão da amostra (das quais falaremos mais adiante). Com esta informação podemos completar a tabela de frequências apresentada no início desta secção (Tab. 2). REPRESENTAÇÃO GRÁFICA DE DISTRIBUIÇÕES DE FREQUÊNCIAS A partir de uma tabela de frequências, que apesar de muito informativa pode ser “maçadora”, é possível elaborar representações gráficas, HISTOGRAMAS (Fig. 2 e Fig. 3, para variáveis © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 11 contínuas e discretas, respectivamente) e POLÍGONOS DE FREQUÊNCIA (Fig. 4), mais apelativas e que permitem analisar visualmente os dados com maior facilidade. Tab. 2 – Tabela de frequências para uma variável que pode assumir quaisquer valores entre 0 e 10. Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. Legenda: F – frequência absoluta; FA – Frequência absoluta acumulada; f – frequência relativa; fA – frequência relativa acumulada. Classes 3,5 – 4,9 4,9 – 6,3 6,3 – 7,7 7,7 – 9,1 9,1 – 10,5 pj 4,2 5,6 7,0 8,4 9,8 F 1 4 4 2 1 12 FA 1 5 9 11 12 f 0,0833 0,3333 0,3333 0,1667 0,0833 1 fA 0,0833 0,4166 0,7499 0,9166 1 Frequência absoluta (F) 5 4 3 2 1 0 4,2 5,6 7 8,4 9,8 Ponto médio de classe Fig. 2 – Histograma (“gráfico de barras”) de variável contínua (da Tab. 2). Frequência relativa (f) 0,4 0,3 0,2 0,1 0 0a4 5a9 10 a 13 14 a 17 18 a 20 Classes Fig. 3 – Histograma de frequências de variável discreta (cf. Exemplo na página 9). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 12 Frequência relativa 0,4 0,3 0,2 0,1 0,0 4,2 5,6 7 8,4 9,8 Ponto médio de classe Fig. 4 – Polígono de frequências (“gráfico de pontos e linhas”) de variável contínua (da Tab. 2). MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO Para além das tabelas de frequências e das suas representações gráficas (histogramas e polígonos de frequência), podemos descrever “resumidamente” a amostra (ou a população) de outra forma. Recorrendo a alguns parâmetros ou medidas de referência comum, é possível caracterizar uma amostra (ou a população) em termos de localização (ou tendência central) e de dispersão. As medidas devem: ser objectivas; conter todas as observações; ser precisas quanto à sua interpretação; ser fáceis de calcular; e variar pouco relativamente às variações amostrais. Por exemplo, quando medimos determinada característica (ou variável) da amostra, geralmente parece ocorrer uma preponderância de valores “médios” ou “centrais” relativamente à amplitude observada. Assim, uma indicação da “média” da amostra (ou da população) seria expressiva e útil para a sua descrição. Existem vários PARÂMETROS ou MEDIDAS DE TENDÊNCIA CENTRAL, possíveis de obter empriricamente a partir da amostra ou da população, sendo que as mais comuns são a média, a mediana e a moda. Também é importante quantificar a variabilidade, a variação, dos valores observados em torno dessa medida de tendência central. Esta informação, resumida em PARÂMETROS ou MEDIDAS DE DISPERSÃO, pode ser quantificada de diversos modos, como por exemplo através da amplitude, do intervalo inter-quartil, da variância, do desvio-padrão ou do coeficiente de variação. As medidas que a seguir se apresentam, aplicam-se tanto a amostras como a populações. No entanto, a notação utilizada é relativamente diferente. Por exemplo, para a média e a variância populacionais usam-se as letras gregas minúsculas µ e σ2, respectivamente. No caso de médias e variâncias amostrais utilizam-se x e s2 respectivamente. Outras diferenças pontuais serão assinaladas no texto. Medidas de tendência central Como se disse atrás, geralmente os valores, as medições ou as observações individuais de © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 13 determinada variável numa amostra (ou população), encontram-se preponderantemente “perto” do centro da amplitude de valores. Existem várias medidas ou parâmetros de tendência central para quantificar esse valor “central”, nomeadamente a MÉDIA, a MEDIANA e a MODA. A MÉDIA ARITMÉTICA é a medida de tendência central mais usada e que, em geral, se designa simplesmente por média (os autores anglófonos utilizam indiscriminadamente mean e average). Se considerarmos cada medida ou observação individual da variável X numa amostra de tamanho n, xi em que i=1,2,...n, a média aritmética calcula-se através de: n ∑ xi x= i =1 n sendo que Σ (lê-se “sigma”) indica o somatório dos elementos xi. Quando se pretende calcular a média a partir de dados agrupados, em tabelas de frequências com k classes, a média obtémse com: k ∑F x= j =1 j ⋅ pj n em que Fj é a frequência absoluta e pj o ponto-médio da classe j. No caso de populações, a média aritmética µ (lê-se “miú”) pode calcular-se de modo similar por: N µ= ∑x i i =1 N Os dados brutos obtidos são: 7, 6, 5, 7, 8, 9, 6, 7, 4, 6, 7, 10. A média (aritmética) calculada a partir daqueles dados é igual a: x = xi n = 82 12 = 6,83 . Se (∑ ) recorrermos à tabela de frequências entretanto elaborada a partir daqueles dados (Tab. 2) a média será: x = F j ⋅ p j n = 81,2 7 = 6,77 . (∑ ) Se representarmos os dados, as observações individuais, por um histograma, a média corresponde (visualmente) ao centro de gravidade do histograma (imaginando que as barras têm peso proporcional ao tamanho), no local com barra(s) maiores (valores mais vezes observados) seria “mais pesado” (cf. Fig. 2). Existem outras médias de uso menos frequente, designadamente a média geométrica, a média harmónica e a raíz quadrada média. A MÉDIA GEOMÉTRICA G de um conjunto de n observações xi (x1, x2, …, xn), é a raíz de ordem n dos produtos daquelas observações, ou seja: G = n x1 ⋅ x 2 ⋅ ... ⋅ x n = n n ∏x n i =1 em que Π (lê-se “pi”) designa o produto dos elementos. No caso das observações estarem organizadas numa tabela de frequências poderemos calcular G através de: © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 14 G = n p1F1 ⋅ p 2F2 ⋅...⋅ p kFk = n k ∏pj Fj j =1 em que n = ΣFj, Fj é a frequência absoluta e pj é o ponto-médio na classe j. Na prática, G é calculada recorrendo aos logaritmos das observações através de: 1 1 log G = ∑ (log xi ) ou log G = ∑ ( Fi ⋅log p j ) , respectivamente. n n A MÉDIA HARMÓNICA H de um conjunto de n observações individuais é recíproca da média aritmética dos recíprocos das observações, ou seja: 1 n H= n = n 1 1 1 ∑ ∑ n i xi i xi No caso dos dados agrupados, calcula-se H através de: n H= k F j ∑ p j =1 j A relação entre as médias aritmética, geométrica e harmónica é tal que: H ≤ G ≤ x para um conjunto de n observações xi em que i=1,2,...n. A RAÍZ QUADRÁTICA MÉDIA ou média quadrática de um conjunto de observações, R, é frequentemente utilizada em física e é definida por: n R= ∑x i =1 2 i n A MEDIANA é uma medida menos usada apesar de, em alguns casos, ser mais apropriada do que a média. Tipicamente, a mediana é definida como o valor, ou a observação, ou a medição, ou o caso, intermédio numa amostra arranjada por ordem de grandeza. Dito de outro modo, a mediana de um conjunto de números, ordenados por ordem de grandeza, é o valor para o qual metade dos elementos do conjunto são menores do que esse valor e outra metade são maiores do que esse valor. Podemos expressar este conceito da seguinte forma: num conjunto de valores ordenados por ordem crescente (ou decrescente, é irrelevante!), xi′ em que i=1, 2, …, n, a mediana M (muitos autores utilizam a notação ~ x ) corresponde a x(′n +1) / 2 se n é impar ~ x ≡ 1 2 ( x n′ / 2 + x1′+ n / 2 ) se n é par em que x’(n+1)/2 é a observação individual de ordem (n+1)/2. Quando n é par, então ~ x é dado pela média aritmética dos valores de ordem (n/2) e (1+n/2). No caso de dados agrupados em tabelas de frequências a mediana é dada por: n −∑F M =~ x = L+2 ⋅a Fmediana em que L é o límite inferior da classe que contém a mediana, n é o tamanho da amostra, ΣF é o somatório das frequências das classes anteriores à classe que contém a mediana, Fmediana é a © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 15 frequência da classe que contém a mediana e a é a amplitude dos intervalos de classe (ver exemplo seguinte). Para saber qual a classe que contém a mediana (essencial para “resolver” a equação anterior) deve “cruzar-se” a informação dada por x(′n +1) / 2 (independentemente da tamanho da amostra) com as frequências acumuladas FA. Exemplo 1: Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 5, 6, 8, 8, 8, 10, 10 (n = 9). A mediana M é igual a 8, porque x’(9+1)/2 = x5 = 8. Exemplo 2: Se os dados brutos ordenados por ordem crescente forem: 4, 5, 6, 6, 6, 7, 7, 7, 7, 8, 9, 10 (n = 12). M = valor intermédio entre x’6 e x’7 que se calcula simplesmente como a média aritmética entre os valores correspondentes a x’6 e x’7, isto é, M = ~ x = (7+7)/2 = 7. No caso dos mesmos dados, entretanto agrupados como na Tab. 2, o tamanho da amostra é 12, então (n+1)/2 = 6,5, ou seja a mediana estará entre os valores de ordem 6 e 7; que está incluido na terceira classe (6,3-7,7) se observarmos a coluna de frequências acumuladas. Assim, obtém-se que M= ~ x =6,7 um valor diferente de ~ x = 7 obtido directamente dos dados brutos e ligeiramente inferior à média aritmética ( x =6,77). Na sequência do conceito de mediana, podemos ainda definir outras medidas de localização, de utilização menos comum. Um conjunto de dados organizados por ordem de grandeza, permite calcular, para além da mediana (o valor central que divide o conjunto em duas partes iguais), outros valores que dividem o conjunto em quatro, dez ou cem partes iguais, respectivamente quartis, decis ou percentis (genericamente designados por QUANTIS). Num gráfico de frequências relativas acumuladas, os quartis, decis e percentis são as abcissas cujas ordenadas correspondem à ordem z (em que z é o quantil pretendido). Podemos particularizar para os quatro casos de quartis (vulgarmente designados por Q) e considerando as amostras ordenadas: 1) Quando n=4p (isto é, quando o tamanho da amostra é múltiplo “exacto” de quatro), o primeiro quartil é dado por Q1=1/2(xp+xp+1), o segundo quartil é Q2=M=1/2(x2p+x2p+1), e o terceiro quartil é Q3=1/2(x3p+x3p+1); 2) Sempre que n=4p+1, então Q1=1/4(xp)+3/4(xp+1), Q2=M=x2p+1, e Q3=3/4(x3p+1)+1/4(x3p+2); 3) Quando n=4p+2, logo Q1=xp+1, Q2=M=1/2(x2p+1+x2p+2), e Q3=x3p+1; e 4) No caso de n=4p+3, os cálculos necessários serão Q1=3/4(xp+1)+1/4(xp+2), Q2=M=x2p+2, e Q3=1/4(x3p+2)+3/4(x3p+3) (cf. exemplo seguinte). Os dados brutos obtidos, ordenados por ordem crescente são: 4, 4, 4, 5, 5, 6, 6, 8, 8, 8, 8, 10, 10, 11, 11, 12, 15 (n = 17). Neste caso n=4x4+1 portanto estamos perante o caso 2) ou seja: o primeiro quartil será Q1=1/4(x4)+3/4(x4+1)= 1/4(5)+3/4(5)=5, o segundo quartil (ou mediana) será Q2=M=x2x4+1=8 e o terceiro quartil é Q3=3/4(x3x4+1)+1/4(x3x4+2)=3/4(10)+1/4(11)=7,5+2,75=9,75 Na prática, obtêm-se os quantis a partir dos polígonos de frequência relativas acumuladas (ou utilizando uma aplicação informática adequada, e.g. Microsoft® Excel ou OpenOffice Calc). Após localizar no eixo das ordenadas (yy) a ordem do quantil pretendido, pode-se procurar a correspondência horizontal no polígono de frequências e, depois, desenhar uma linha vertical até ao eixo das abcissas (xx). O ponto em que esta perpendicular intersecta o eixo dos xx indica o resultado – o quantil pretendido. Procedendo de modo inverso, pode obter-se a ordem do quantil correspondente a determinado valor observado (xi). Assim, se o quantil de ordem © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 16 66% de uma amostra é 27,1 cm, por exemplo, isso significa que 66% das observações, ou medições, são iguais ou inferiores a 27,1 cm. Uma terceira medida de tendência central é a MODA. A palavra moda é vulgarmente usada noutro contexto embora o seu significado estatístico não seja muito diferente daquele. A moda (ou normal segundo autores mais antigos), m, designa o valor (ou valores) que mais vezes ocorre(m) num conjunto de valores xi em que i=1,2,...n. Acontece que, por vezes, não é possível calcular m, pois em algumas séries de valores não existe nenhum repetido. Pelo contrário, noutros casos é possível que a série possua mais do que uma moda. No caso dos dados se encontrarem agrupados, não é possível identificar directamente a moda, mas simplesmente saber qual é a CLASSE MODAL, isto é, a classe que contém a moda. Os seguintes dados brutos não têm moda: 3, 5, 8, 10, 12, 15, 16. Se, no entanto, observarmos os seguintes casos, é possível determinar a moda: 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 (conjunto unimodal). Neste caso, m=9. Noutro caso aínda, é possível observar duas modas: 2, 3, 4, 4, 4, 4, 5, 5, 7, 7, 7, 7, 9, 11 (conjunto polimodal). Neste caso, m1=4 e m2=7. Medidas de dispersão É fácil constatar que as diferentes medidas de tendência central proporcionam estimativas (ligeiramente) distintas da “localização” do centro da distribuição de determinada variável numa amostra (ou população). Por outro lado, podemos verificar que a média, a mediana e a moda podem ser iguais em duas amostras que afinal podem ser substancialmente diferentes entre si. Na Fig. 5, a distribuição a é diferente da distribuição b porque os valores em b têm uma variabilidade maior do que os valores da distribuição a. Sendo assim, é necessário encontrar uma quantidade, um parâmetro análogo aos que encontrámos para a tendência central, que resuma esta variabilidade da distribuição. Existem várias medidas de dispersão para descrever numericamente essa variabilidade, nomeadamente a AMPLITUDE, o INTERVALO INTER-QUARTIL, a VARIÂNCIA, o DESVIO-PADRÃO e o COEFICIENTE DE VARIAÇÃO. A AMPLITUDE A (ou h) é a diferença entre o maior e o menor valor observados numa série de dados: A = xmax − xmin Na Fig. 5 é possível observar que as amplitudes de a e b são A (a) = 1,5-(-1,5) = 3 e A(b) = 4(-4) = 8, respectivamente. A amplitude é fácil de obter e é expressa na mesma unidade da variável que estamos a estudar. O INTERVALO INTER-QUARTIL, IQ, obtém-se da diferença entre o 3º e 1º quartis, IQ = Q3 − Q1 No entanto, são medidas “relativamente rudes” da dispersão dos dados, pois apenas consideram o valor máximo e o valor mínimo (A) ou o 1º e 3º quartis (IQ). Outra medida de dispersão, bastante mais comum em estatística e frequentemente utilizada em análise estatística, é a VARIÂNCIA s2 da amostra (ou a variância da população σ2 – em que σ lê-se “sigma”). Será necessário, entretanto, introduzir alguns conceitos que facilitam a compreensão do seu significado, nomeadamente os conceitos de desvio, de soma dos quadrados e de mínimos quadrados. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 17 Poderíamos usar a informação contida na medida de tendência central (e.g. a média) e calcular a soma das diferenças entre cada valor individual xi e essa medida, d i = xi − x (Fig. 6), para eventualmente avaliar a dispersão dos dados, isto é, calcular a soma dos desvios D: quantidade seguinte: n n i =1 i =1 D = ∑ d i =∑ ( xi − x ) f(x) a b -5 -4 -3 -2 -1 0 1 2 3 4 5 X Fig. 5 – Representação esquemática da amplitude de duas distribuições a e b, simétricas e com igual “valor central” (neste caso, zero). No primeiro caso (distribuição a), a amplitude = 3 (i.e. de –1,5 a +1,5), enquanto no caso da distribuição b, a amplitude = 8 (de –4 a +4). 15 10 5 D 0 -5 -10 -15 -20 -25 Elem ento i da am ostra Fig. 6 – Representação esquemática dos desvios (D) de cada elemento i da amostra relativamente à média, numa amostra de n=12 observações com média é igual a 26. Infelizmente verifica-se que D = 0, pois teoricamente existem tantos valores menores do que média assim como ocorrem valores maiores do que a média. Um modo de ultrapassar esta “dificuldade” é elevar ao quadrado os desvios di e desse modo obter a soma dos quadrados © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 18 dos desvios ou soma dos quadrados, SQ: n SQ = ∑ ( xi − x ) 2 i =1 Recorrendo ao conceito dos mínimos quadrados, demonstra-se que a SQ relativamente à média é menor do que a SQ em relação a qualquer outra medida de localização. Podemos refinar aínda mais esta quantidade e “ponderar” SQ pelo tamanho da amostra n (ou dimensão da população N), e obter a média dos quadrados dos desvios dos valores individuais relativamente à média. Sendo assim, a variância da amostra s2 é a média dos quadrados dos desvio dos valores individuais observados relativamente à média. Uma importante vantagem desta medida de dispersão é considerar todos os valores observados (e incluídos) na amostra, aliás como acontece com a média. A VARIÂNCIA DA AMOSTRA s2 expressa-se matematicamente por: n s2 = ∑ ( xi − x ) 2 i =1 n −1 em que i=1, 2, …, n. O denominador n – 1, quantidade designada por graus de liberdade ou g.l. e que pretende considerar o facto de se ter usado um parâmetro da amostra (a média amostral x ), permite obter uma estimativa não-enviesada (do inglês “unbiased”) da variância da amostra. No caso de se pretender calcular a variância da população σ2, então utiliza-se N como denominador N em vez de n – 1, ou seja, σ 2 = ∑ ( xi − µ ) 2 / N i =1 Se tivermos um conjunto grande de valores, isto é, se o tamanho da amostra for grande (n>30), então é possível calcular a variância recorrendo à seguinte expressão simplificada: 2 n x ∑ i n 2 i =1 x − ∑ i n s 2 = i =1 n −1 Pode-se, aínda, calcular a variância numa amostra em que a informação está agrupada em tabelas de frequências com k classes de acordo com: k k n∑ F j ⋅ p j − (∑ F j ⋅ p j ) 2 s2 = 2 j =1 j =1 n(n − 1) em que j=1, 2, …, k e desde que n≥30. Segundo alguns autores, o desvio-padrão é a medida de dispersão mais importante em estatística paramétrica pois permite expressar a variabilidade das observações nas unidades da variável em estudo, ao contrário da variância. O DESVIOPADRÃO da amostra, s, é a raíz-quadrada positiva da variância, ou seja: s = s2 Por analogia com os parâmetros anteriores, o desvio-padrão populacional designa-se σ e obtém-se através de σ = σ 2 . Esta medida de dispersão é expressa nas unidades dos valores observados, e antes da definição actual (de 1893) que se deve a Karl Pearson [1857-1936], designava-se por erro-médio. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 19 Uma queijaria regional produz queijos típicos de pequena dimensão. Obteve-se uma amostra da produção diária com as seguintes observações individuais (em g): 302, 374, 364, 318, 294, 343, 385, 348, 279, 365, 378, 357, 317, 304. O peso médio dos queijos na amostra é de 337,7 g e a variância é dada por: (302 − 377,7) 2 + (374 − 377,7) 2 + ... + (304 + 377,7) 2 = 1208,07 g2. 13 Este valor é igual ao obtido recorrendo à equação simplificada. Tente confirmar esta afirmação? O peso médio da amostra é de 337,7 g e a variância é 1208,07 g2! Será melhor apresentar os resultados como x = 337,7 g e s = 34,76 g!! s2 = As medidas de dispersão de que falámos até agora são por vezes classificadas como medidas de dispersão absolutas pois referem-se à variabilidade numa amostra em termos concretos. Contudo, a comparação entre amostras com valores (e médias) substancialmente diferentes ou com unidades de medida diferentes, “dificulta” a sua utilização. As medidas de dispersão relativa, que resultam em números abstractos, relacionam numa mesma amostra uma medida de dispersão com uma medida de tendência central. A mais comum destas medidas é o COEFICIENTE DE VARIAÇÃO c.v. que é o quociente, em percentagem, entre o desvio-padrão e a média de uma amostra, isto é: s c.v. = ⋅100% x Para resumir ou descrever a informação duma amostra (ou população) deve-se apresentar uma medida de localização e uma medida de dispersão, a média e o desvio-padrão por exemplo. Até aqui, têm-se abordado tópicos geralmente classificados como pertencentes ao âmbito da ESTATÍSTICA DESCRITIVA, de definição óbvia: amostra, tabelas de frequências e respectivas representações gráficas (histogramas e polígonos de frequências), e medidas de tendência central e de dispersão. [Resolver Exercícios – Capítulo I] 5. CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADES A selecção criteriosa de amostras representativas duma população ou a inferência estatística a partir dessas amostras baseiam-se em conceitos relacionados com probabilidades. Noções correntes de “possibilidade”, “previsibilidade” ou “certeza” que vulgarmente não apresentam dificuldade de compreensão ou de interpretação, são formalizadas e estudados pela TEORIA DAS PROBABILIDADES. Este ramo da matemática desenvolveu-se sobretudo nos sécs. XVII e XVIII, fruto do empenho dos franceses Blaise Pascal [1623-1662], Pierre de Fermat [16011665], Abraham de Moivre [1667-1754] e Pierre Laplace [1749-1827] e do suíço Jakob Bernoulli [1654-1705], com o intuito de “predizer” os resultados de jogos de azar, populares entre a nobreza francesa daquele tempo. Mais recentemente, na transição entre os séculos XIX e XX, o russo Andrei Nikolaevich Kolmogorov [1903-1987], entre outros, contribuiu muito para este ramo da matemática. Ainda hoje se utilizam exemplos de jogos (dados e cartas) por causa das primeiras investigações e aplicações. A ideia-base da Estatística é de que as observações individuais são naturalmente variáveis aleatórias, isto é, os seus valores oscilam devido aos efeitos do Acaso. Quando assim não se verifica, podemos pensar ou considerar que outras causas não-aleatórias estão a actuar (tratamentos, factores, etc.). Antes de prosseguir para a análise e inferência estatística, é importante sistematizar alguns dos conceitos mais simples relacionados com a Teoria das probabilidades. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 20 PROVAS ALEATÓRIAS, ACONTECIMENTOS POSSÍVEIS, ESPAÇO AMOSTRAL E EVENTO Uma PROVA ALEATÓRIA é uma actividade ACONTECIMENTOS POSSÍVEIS. Antes de realizar a a que correspondem dois ou mais prova aleatória é incerto o seu resultado, isto é, qual dos acontecimentos possíveis irá ocorrer. Exemplo 1. Quando se lança um dado, diz-se que se realiza uma prova aleatória. Nesta prova existem seis acontecimentos possíveis: “sair” a face com 1, ou 2, ou 3, ou 4, ou 5 ou 6 pontos. Exemplo 2. Quando um técnico de controlo da qualidade selecciona uma lata de sardinha (com o objectivo de verificar se a lata é defeituosa), diz-se que está a realizar uma prova aleatória, em que existem dois acontecimentos possíveis: a lata tem defeito, ou não. Exemplo 3. Lançamento simultâneo de dois dados. Nesta prova aleatória existem 36 acontecimentos possíveis. Designa-se por ESPAÇO AMOSTRAL, referido por S, o conjunto de todos os acontecimentos possíveis de uma prova aleatória. Exemplo 1. Lançamento de um dado, S = {1, 2, 3, 4, 5, 6} ou genericamente S = {a1, a2, a3, a4, a5, a6}. Exemplo 2. Selecção de uma lata de sardinha, S = {defeituosa, não-defeituosa} ou em termos genéricos S = {b1, b2}. Exemplo 3. Lançamento simultâneo de dois dados S = {11, 12, …, 21, 22, …, 66} ou S={c1,c2,...,c36} (Tab. 3). Nota: ai e bi e ci designam os acontecimentos possíveis. Tab. 3 – Acontecimentos possíveis no lançamento simultâneo de dois dados honestos de seis faces. Dados 1 2 3 4 5 6 1 11 12 13 14 15 16 2 21 22 23 24 25 26 3 31 32 33 34 35 36 4 41 42 43 44 45 46 5 51 52 53 54 55 56 6 61 62 63 64 65 66 Frequentemente, interessam sub-conjuntos do espaço amostral. Cada sub-conjunto de acontecimentos possíveis de um espaço amostral é desginado por EVENTO e usualmente representado por uma letra maiúscula (A, B, C, etc.) diferente de S. No lançamento único de um dado (ver exemplos anteriores), considere-se o domínio do evento “números pares” A={2, 4, 6}. Usualmente, designa-se A como evento favorável. Pelo contrário, os restantes resultados possíveis, complementares de A, referem-se por ~A (alguns autores utilizam a notação Ac) e designam-se por evento complementar. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 21 Se recorremos ao exemplo que deu origem à Tab. 3, o evento B = “soma das pintas igual a sete” é o sub-conjunto de S constituido pelos acontecimentos favoráveis indicados a sombreado na Tab. 4. Tab. 4 – Informação da tabela anterior. Os acontecimentos do evento favorável “soma das pintas = 7” estão assinalados. Dados 1 2 3 4 5 6 1 11 12 13 14 15 16 2 21 22 23 24 25 26 3 31 32 33 34 35 36 4 41 42 43 44 45 46 5 51 52 53 54 55 56 6 61 62 63 64 65 66 CONCEITO DE PROBABILIDADE Definição clássica de probabilidade A Teoria das probabilidades pretende formular modelos de fenómenos (naturais) em que se supôe intervir o Acaso, isto é, a partir do passado não se pode prever deterministicamente o futuro mas podem encontrar-se taxas de realização constantes de certos fenómenos. A PROBABILIDADE de ocorrer um evento A, designada por P{A}, ou por Prob{A} ou P(A), é definida classicamente como a proporção entre o número a de provas aleatórias em que determinado evento pode ocorrer e o número total de provas aleatórias, isto é, a + b, em que b é o número de provas aleatórias em que o evento não pode ocorrer, desde que todos os acontecimentos sejam igualmente possíveis ou equiprováveis: a P ( A) = a+b Expressa de outro modo, a probabilidade é: n P ( A) = A N em que n é o número de acontecimentos favoráveis que podem ocorrer e N o número de todos os acontecimentos possíveis. Esta definição de probabilidade (estabelecida por Pierre Laplace em 1812) e ambas as expressões salientam o seu carácter a priori. Todavia, nem sempre os acontecimentos são igualmente prováveis (nem o espaço amostral é finito), pelo que a sua aplicação não é geral. Qual a probabilidade de ocorrer um número impar num único lançamento de um dado não viciado? O número de acontecimentos possíveis é 6, enquanto o número de acontecimentos favoráveis é 3 (isto é, faces 1, 3 e 5). Assim, P(A) = 3/6 = 1/2. Se o dado estivesse viciado em favor do 6, por exemplo, já se não poderia aplicar a “definição clássica” de probabilidade. Porquê? © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 22 Definição de probabilidade como frequência relativa Pode-se abordar esta questão de outro modo. Relembrem-se as tabelas de frequências e de modo similar poderemos definir a frequência relativa de um evento como a proporção do número total de acontecimentos possíveis que esse evento representa. Ou seja, por definição a PROBABILIDADE é o limite da frequência relativa de determinado evento, quando o número de observações, isto é, o número de provas aleatórias cresce infinitamente: n( A) P( A) = lim n→∞ n em que n(A) é o número de provas aleatórias em que o evento A ocorre e n o número total de provas aleatórias. Esta é uma definição a posteriori de probabilidade. Genericamente, podemos descrever esta definição, recorrendo aos conceitos de frequência relativa f e de frequência absoluta F de que se falou anteriormente: F( A) f ( A) = n Por exemplo, em mil lances de uma moeda, obtêm-se 529 “caras”. A frequência relativa deste evento é f = 529/1000 = 0,529. Façam-se outros mil lances da moeda e obtêm-se 493 “caras”. A frequência relativa do acontecimento “caras” será: f = (529 + 493)/2000 = 0,511. Ou seja, quanto maior o número de lances, mais próximo se estará da probabilidade de ocorrer “caras” num único lançamento de uma moeda. Nota: Actualmente, considera-se esta probabilidade como sendo 0,5 (com um único algarismo significativo). A interpretação das probabilidades como frequência-limite, corresponde ao Teorema de Bernoulli que, em resumo, diz o seguinte: num fenómeno aleatório não se pode prever o resultado da próxima prova aleatória, mas pode prever-se globalmente a frequência da sua observação numa longa série de provas. De facto, a frequência (de um evento) deve entender-se como uma medição física de uma grandeza teórica, a PROBABILIDADE associada a esse evento. Definição de probabilidade relacionada com a Teoria dos conjuntos Modernamente, i.e. desde a axiomatização em 1933 por Andrei N. Kolmogorov, prefere-se fundamentar os teoremas das probabilidades na Teoria dos conjuntos, pois recorre a menos e mais simples axiomas. Aliás, os conceitos básicos iniciais que se introduziram anteriormente derivam dessa abordagem ao problema (Fig. 7). Neste texto, serão utilizadas as várias definições de probabilidades consoante o contexto do problema e a informação disponível. POSTULADOS DAS PROBABILIDADES Os conceitos anteriores e a Teoria das probabilidades baseiam-se em POSTULADOS1, ou axiomas, que se exigem pragmáticos e consistentes (ou coerentes e compatíveis) dos quais três são: 1 Entede-se por postulado, ou axioma, qualquer proposição aceite sem demonstração (Eric Weisstein. “Axiom” Mathworld – A Wolfram Web Resource. http://mathworld.wolfram.com, consultado em 10/03/2005). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 23 1. Para qualquer acontecimento ai, de um espaço amostral S, a probabilidade de ocorrer esse resultado favorável varia entre zero e um, inclusivamente: 0 ≤ P(ai) ≤ 1 2. Para qualquer evento A do espaço amostral S, a probabilidade desse evento é o somatório das probabilidades dos acontecimentos ai favoráveis incluidos no evento A: n P ( A) = ∑ P (a i ) i =1 3. A probabilidade do espaço amostral S é igual a um e a probabilidade de acontecimentos impossíveis (isto é, daqueles que ocorrem fora de S, e que se incluem no conjunto Φ, em que Φ lê-se “Fi”) é zero: P(S) = 1 e P(Φ) = 0 Acontecimento possível Evento A a1 a2 a6 a7 a8 a3 ... a4 a5 an Espaço amostral S Fig. 7 – Representação esquemática dum espaço amostral S associado a uma prova aleatória. Dos vários acontecimentos possíveis ai, apenas alguns pertencem ao evento A. TEOREMAS DAS PROBABILIDADES A utilização prática dos conceitos (axiomas) expostos anteriormente, permitiu o desenvolvimento de conclusões fundamentais ou TEOREMAS2, auxiliares preciosos em estudos de probabilidades, designadamente: Teorema da adição Para dois eventos (ou acontecimentos) MUTUAMENTE EXCLUSIVOS A e B de um espaço amostral S, a probabilidade de ocorrer UM OU O OUTRO evento é igual à soma das respectivas probabilidades individuais, ou seja: P ( A ∪ B ) = P ( A) + P ( B ) em que ∪ se lê “ou”. Podemos extender este teorema a mais do que dois eventos mutuamente exclusivos. Entende-se que eventos mutuamente exclusivos são aqueles que não ocorrem simultaneamente: se ocorre A, não ocorre B. Dito de outro modo, a intersecção dos conjuntos (eventos) A e B no espaço amostral S é um conjunto nulo (Fig. 8, painel da esquerda). 2 Teoremas são proposições (ou afirmações) que se podem provar como verdadeiras, usando operações e argumentos matemáticos, numa deterinada estrutura lógica (ou sistema axiomático) (idem, ibidem). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 24 Teorema da multiplicação Para dois eventos INDEPENDENTES C e OCORREREM SIMULTANEAMENTE é igual D de um espaço amostral S, a probabilidade de ao produto das probabilidades, isto é: P (C ∩ D) = P (C ) ⋅ P ( D ) em que ∩ se lê “e”. Por eventos independentes, entende-se que um dos eventos não determina ou influencia o resultado do(s) outro(s) (Fig. 8, painel central). Fig. 8 – Diagramas de Venn, representando eventos mutuamente exclusivos (A e B), eventos independentes (C e D) e complementares (E e ~E) nos respectivos espaços amostrais S. Área sombreada refere-se às probabilidades que se pretendem determinar de acordo com os Teoremas de probabilidade. Teorema da complementaridade Para qualquer evento E de um espaço amostral S, a probabilidade de não ocorrer E, designado por P(~E) ou P(Ec), é igual a: P (~ E ) = 1 − P ( E ) sendo que P(~E), representa o evento complementar de E (Fig. 8, painel da direita). No único lançamento de um dado não-viciado, a probabilidade de “sair” qualquer uma das faces, aontecimento possível ai é P(ai) = 1/6, então: P(evento “saírem faces com nº par de pontos”) = 1/6 + 1/6 + 1/6 = 1/2 P(S) = 1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1 P(evento “sair uma face com sete pontos”) = 0 [Resolver Exercícios – Capítulo II] 6. DISTRIBUIÇÃO DE PROBABILIDADES VARIÁVEL ALEATÓRIA Até agora, têm-se considerado genericamente espaços de acontecimentos. Porém, certas experiências (ou provas) aleatórias podem dar origem a resultados numéricos (por exemplo, número de reprovações na disciplina por ano lectivo, duração do efeito de um calmante, volume duma embalagem, etc.). Noutros casos, substituem-se os resultados não-quantitativos por números para simplificar ou facilitar a análise desse resultado. Recorde-se o que se falou, nas secções anteriores, acerca de variáveis (contínuas e discretas) e de amostragem aleatória, © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 25 como método necessário para a análise estatísticamente válida dos assuntos. Assim sendo, é importante definir o que é uma variável aleatória e as suas principais características (ou propriedades), ou seja: X é uma VARIÁVEL ALEATÓRIA quando o seu valor (numérico) é determinado pelo acontecimento possível de uma prova aleatória. A definição que se encontra nos manuais de estatística é, mais ou menos, a seguinte: Sejam ε (lê-se “épsilon”) uma prova aleatória (ou experiência) e S um espaço amostral associado a essa prova aleatória. Uma função X que associe a cada acontecimento possível (elemento) ai desse espaço amostral um número real X(ai), ou mais simplesmente xi, é denominada VARIÁVEL ALEATÓRIA. A terminologia usada é um tanto infeliz mas é universalmente aceite. Torna-se claro que X é uma função, contudo denominamo-la variável (aleatória)! É evidente que nem todas as funções imaginárias se podem considerar variáveis aleatórias. Um requisito importante é que as probabilidades dos acontecimentos e respectivos resultados (da função variável) sejam bem definidos e consistentes com os axiomas básicos (ver tópico anterior). Na maior parte das utilizações não se indica a natureza funcional da variável aleatória X (neste texto, usaremos v.a. para referir uma variável aleatória). Geralmente, interessam mais os valores possíveis da v.a. X do que “a sua origem” (Fig. 9). x1 x2 x3 x4 x5 Função variável aleatória, v.a. Evento A a1 a2 a6 a7 a8 a3 ... a4 a5 an Espaço amostral S Fig. 9 – Representação esquemática do conceito de função variável aleatória, v.a. (linhas contínuas no topo da figura). S – espaço amostral duma prova aleatória, A – evento, ai – acontecimento possível, e xi – resultado possível. Exemplo 1: Quando se lançam simultaneamente dois dados, existem 36 acontecimentos possíveis diferentes (ver Tab. 3). Se interessar “a soma dos pontos” podem obter-se 36 resultados xi (variável aleatória X – “soma dos pontos”). Se, por outro lado, se pretender estudar o produto dos pontos, então para os mesmos acontecimentos possíveis obtêm-se outros resultados yi (agora da v.a. Y – “produto dos pontos”). Exemplo 2: Se se pretender estudar determinado sector de actividade, por exemplo a indústria conserveira, o espaço amostral é composto por todas as empresas do sector S={todas as empresas conserveiras}. Para cada empresa (acontecimento possível) é possível estudar diferentes aspectos (qualidades ou características), por exemplo o nº de empregados (v.a. W), o volume de negócios (v.a. V), etc. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 26 As probabilidades dos resultados possíveis duma v.a. X, xi, também se podem estudar. Para esse fim podem utilizar-se as distribuições (ou leis) de probabilidades. DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS DISCRETAS No caso das VARIÁVEIS DISCRETAS, a variável aleatória X pode tomar valores xi com i=1, 2,..., n. À função que estabelece uma correspondência entre o resultado da variável aleatória X(ai), ou xi, e a respectiva probabilidade denomina-se FUNÇÃO DENSIDADE DE PROBABILIDADE, e representa-se por P(X=xi) ou p(xi). Consideremos uma variável X que pode assumir os valores 0, 1 ou 2 (equiprováveis). Considere-se, aínda, o espaço amostral S = {0,0,0,0,0,0,0,0,1,1,1,2}. A função densidade da probabilidade P(X=xi) faz corresponder a cada valor de xi (resultado do acontecimento possível) uma probabilidade P(xi), neste caso P(X=0)=8/12=0,667; P(X=1)=3/12=0,250 e P(X=2)=1/12=0,083. A função densidade de probabilidade (de variáveis discretas) é semelhante às frequências relativas. Poderemos representar graficamente esta função através dum histograma de frequências relativas (Fig. 10a). Contudo, poderemos estudar outras questões relativas aos mesmos resultados, para além de saber qual é a probabilidade P(X=xi) para determinado xi. A probabilidade da variável aleatória X tomar um valor inferior ou igual a xi é uma nova função, que se representa por P(X≤xi) e se designa por FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADE. Na prática, esta função é similar às frequências relativas acumuladas. Consideremos uma v.a. X que pode assumir os valores 0, 1 ou 2 (igualmente prováveis). Considere-se, aínda, o espaço amostral S = {0,0,0,0,0,0,0,0,1,1,1,2}. A função distribuição da probabilidade P(X≤xi) faz corresponder a cada valor de xi (resultado possível) o somatório das probabilidades para os casos em que X≤xi, ou seja, P(X≤0)=8/12=0.667; P(X≤1)=11/12=0.917 e P(X≤2)=12/12=1.000. Como anteriormente, podemos representar graficamente esta função, agora por um polígono (de frequências), por exemplo (Fig. 10b). Propriedades da função densidade a) Para cada resultado de um acontecimento possível xi, com i=1, 2, ..., n, a sua probabilidade pode variar entre zero e um: 0 ≤ P(X=xi) ≤ 1, i=1, 2, ..., n b) O somatório de todas as probabilidades correspondentes a cada resultado dum acontecimento é igual a um: n ∑ P( X = x ) = 1 i =1 i © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 27 Propriedades da função distribuição a) P(X≤xi) é sempre um valor entre zero e um: 0 ≤ P(X≤xi) ≤ 1, i=1, 2,..., n b) A função distribuição (das probabilidades) nunca decresce à medida que xi aumenta – função monótona crescente. 1 0,7 0,6 0,8 P(X<xi) P(X=xi) 0,5 0,4 0,3 0,6 0,4 0,2 0,2 0,1 0 0 0 1 2 0 0,5 1 X 1,5 2 X (a) (b) Fig. 10 – (a) Função densidade de probabilidade P(X=xi) e (b) função distribuição de probabilidade P(X≤xi) duma v.a. discreta. Caraterísticas da distribuição de probabilidades É possível definir nas distribuições de probabilidade de determinada variável aleatória (v.a.), alguns “pontos” ou características com interesse estatístico e que são similares a conceitos de estatística descritiva que se abordaram anteriormente para amostras (medidas de localização e de dispersão), nomeadamente o valor médio, a variância e o desvio-padrão duma distribuição de probabilidades. O VALOR MÉDIO da distribuição de probabilidades é também designado por VALOR ESPERADO ou ESPERANÇA MATEMÁTICA, e representado por E{X}. No caso de uma v.a. discreta X, tal que os resultados dos acontecimentos possíveis xi em que i=1, 2,.., n, o valor médio será: n E{ X } = ∑ [ xi ⋅ P ( X = xi )] i =1 O valor médio obtém-se a partir da importância relativa do resultado de cada acontecimento possível. Enquanto a média é empírica, ou experimental, por se obter dos valores observados, o valor médio é uma noção teórica visto ser calculado a partir da distribuição de probabilidades dos valores observáveis (e não dos valores observados!!). Pode interpretar-se como o valor teórico (em geral desconhecido) de que as médias são medições bastante próximas, se o número de observações (ou provas aleatórias) é bastante grande. O exemplo seguinte mostra que o valor médio não é necessariamente um valor assumido pela v.a. Após o lançamento dum dado não-viciado, a variável aleatória X – número de pontos na face visível, pode tomar os valores xi=1, 2,..., 6. As © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 28 respectivas probabilidades são P(X=1) = P(X=2) = ... = P(X=6) = 1/6. Então, teremos que o valor médio será: E{X} = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3,5 Nota: curiosamente, podemos verificar agora que a designação valor esperado não faz muito sentido uma vez que 3,5 não pode realmente ocorrer neste exemplo! Talvez seja mais adequado utilizar a designação valor médio! Se se imaginar a situação de continuados lançamentos sucessivos dum dado, em cada lançamento o resultado pode ser 1, 2, etc. A média do conjunto dos resultados possíveis após muitas p.a. será o valor médio. A variabilidade (ou a forma) da distribuição de probabilidades de uma variável discreta X pode ser quantificada (ou descrita) pela VARIÂNCIA, V{X}, que é dada para os resultados dos acontecimentos possíveis xi por: n V { X } = ∑ [( xi − E{ X }) 2 ⋅ P ( X = xi )] i =1 A raíz quadrada positiva da variância V {X } é designada por DESVIO-PADRÃO da distribuição de probabilidades. Após o lançamento dum dado não-viciado, a variável aleatória X – número de pintas na face visível, pode tomar os valores 1, 2,..., 6. Portanto, E{X} = 3,5 como se viu anteriormente. A variância é V{X} = (1-3,5)2(1/6) + (2-3,5)2(1/6) + (3-3,5)2(1/6) + (4-3,5)2(1/6) + (5-3,5)2(1/6) + (6-3,5)2(1/6) = 2,92. Então {V } = 2,92 = 1,71 é o desvio-padrão. Existem casos de distribuições (teóricas) de probabilidades de variáveis discretas que merecem atenção especial e estudo particular, nomeadamente as distribuições binomiais e de Poisson. [Resolver Exercícios – Capítulo II] DISTRIBUIÇÃO BINOMIAL Considere-se uma prova (experiência) aleatória que tem apenas dois acontecimentos possíveis: um que se designa por “sucesso” (a1) e o seu complementar designado por “insucesso” (a0). Em cada p.a. a probabilidade de ocorrer a1 é p e q=(1–p) é a probabilidadade do “insucesso”, ambas constantes – prova aleatória de Bernoulli. A distribuição binomial é o modelo probabilístico adequado para os casos em que se consideram repetidas provas aleatórias independentes como a descrita. Nestes casos, o conjunto de resultados nas sucessivas provas constitui uma variável aleatória discreta que segue a distribuição binomial. De facto, as probabilidades de observar a v.a. X igual a 0, 1, 2,..., n são dados por (1-p)n, n(p)(1-p)n-1, n!/2!(n-2)!(p2)(1-p)n-2, ... pn, em que p é a probabilidade de realização do acontecimento em cada prova. Aquelas quantidades correspondem ao desenvolvimento do binómio [(1-p)+p]n=1, daí a designação distribuição binomial. Na DISTRIBUIÇÃO BINOMIAL, devida a Jakob Bernoulli [1654-1705], numa sequência de n provas aleatórias, com reposição, a FUNÇÃO DENSIDADE DE PROBABILIDADE da v.a. discreta X – número de “sucessos” – que pode tomar os valores xi = 0, 1, 2,..., n é dada por: © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 29 P ( X = xi ) = Cxn ⋅ p x ⋅ (1 − p ) n − x em que p é a probabilidade de ocorrer o resultado favorável (ou sucesso) em cada prova e se mantém constante de experiência para experiência, n é o número máximo de tentativas (ou provas aleatórias) independentes e C xn é dado pela expressão de cálculo combinatório: n n! C xn = = x x!(n − x)! i.e. em n p.a. independentes existem C xn maneiras diferentes de se obterem x “sucessos”. Também se pode “ler” C xn como o nº de combinações de ordem x de um conjunto de cardinal igual a n (com x≤n). A função densidade de probabilidades da distribuição binomial depende dos parâmetros p e n, e é usada quando cada prova aleatória tem apenas dois acontecimentos possíveis e de natureza qualitativa: a1 – sucesso ou 1; e a0 – insucesso ou 0. Uma v.a. X que segue esta distribuição representa-se por X ∩ Binomial(n, p) ou X ~ Binomial(n, p). Em 3 lançamentos de um dado não-viciado (n = 3 provas aleatórias repetidas), a variável aleatória X = número faces com um ponto, pode tomar os valores xi = 1, 2 ou 3 (Fig. 11). Mas, para cada resultado xi existem vários casos (acontecimentos) possíveis! De facto, temos de considerar a ordem de saída das faces com um ponto. Vamos abordar a questão considerando que o resultado “saída da face com 1 ponto” consitui um sucesso e que todos os outros resultados possíveis constituem um insucesso. Adicionalmente, vamos quantificar os sucessos com 1 e os insucessos com 0. Assim, para cada valor de xi (0, 1, 2 ou 3 faces com um ponto) o número total de casos possíveis será 1, 3, 3 e 1, respectivamente (Fig. 11 e Tab. 5). Em cada uma das provas aleatórias sucessivas do exemplo anterior, a probabilidade de sair uma face com um ponto (um “sucesso”) é igual a P(X=xi)=1/6, sendo que a Prob{“outras faces”}=1-1/6=5/6 (T. complementaridade). Então a probabilidade de se realizar o acontecimento “101”, por exemplo, é p(q)p=1/6(5/6)1/6=5/216 (T. multiplicação). Contudo, nem todas situações permitem esquematizar e contabilizar todos os casos possíveis! Podemos utilizar técnicas matemáticas para calcular aquelas quantidades – combinações. Ou seja, para um dado valor X o número de combinações possíveis em n provas aleatórias sucessivas é dado por C xn . Assim, podemos calcular P(X=xi) para cada um dos resultados possíveis através da função densidade de probabilidades binomial (cf. Tab. 5). Fig. 11 – Representação esquemática dos possíveis resultados favoráveis (“face com uma pinta”) no lançamento simultâneo de três dados não-viciados. No entanto, nos casos em que xi=1 e xi=2 não estão representados todas as situações possíveis, pois não? © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 30 A FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADES P(X≤xi) duma v.a. com distribuição binomial obtém-se somando as probabilidades de cada um dos resultados de X ≤ xi. Existem tabelas com as probabilidades para determinados valores de n e x que facilitam a resolução de problemas envolvendo esta distribuição teórica. Tab. 5 – Casos possíveis no exemplo anterior (cf. Fig. 11). Probabilidades calculadas por aproximação e recorrendo à função densidade de probabilidades da distribuição binomial P(X=xi). xi 0 1 2 3 Casos (acontecimentos) possíveis 000 100 010 001 110 101 011 111 Por aproximação 1(5/6)(5/6)(5/6) 3(1/6)(5/6)(5/6) 3(1/6)(1/6)(5/6) 1(1/6)(1/6)(1/6) P(X=xi) 0,5787 0,3472 0,0694 0,0046 Na distribuição binomial, também podemos calcular o valor médio e a variância da distribuição de probabilidades para descrever teoricamente a sua “localização” e “forma”. O VALOR MÉDIO da distribuição binomial é dado por: E{ X } = n ⋅ p em que p é a probabilidade de ocorrer o resultado favorável (“sucesso”) em cada prova aleatória e n é o número provas aleatórias (independentes) realizadas (ou a realizar). È possível provar a validade desta formulação recorrendo ao exemplo anterior. Considere-se que o valor médio da distribuição de probabilidades duma v.a. [xi ⋅ P( X = xi )], logo para o caso descrito discreta é dado por E{ X } = ∑ no exemplo anterior, E{X}=0(0,5787)+1(0,0694)+2(0,0694)+3(0,0046)=0,5, o mesmo que E{X}=np=3(1/6)=0,5. A VARIÂNCIA da distribuição binomial pode calcular-se através de: V { X } = n ⋅ p ⋅ (1 − p ) Como se provou para E{X}, também é possível provar a aplicação desta formulação para calcular a variância da distribuição binomial. Tente demonstrar esta afirmação! A distribuição binomial é desviada para a esquerda quando p<0,5, é simétrica quando p=0,5 e é desviada para a direita quando p>0,5 (Fig. 12). p=0,25 p=0,5 p=0,75 0,4 0,35 P(X=xi) 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 xi © Eduardo Esteves, 2007 Fig. 12 – Modificação da forma da função de densidade de probabilidades da distribuição binomial com a alteração de p.Variável aleatória X com resultados possíveis xi=1,2, …, 6. Métodos Estatísticos – Engenharia Alimentar 31 DISTRIBUIÇÃO DE POISSON A distribuição de Poisson (devida a Simon Poisson [1781-1840]) pode entender-se como um caso particular da distribuição binomial e aplica-se nas situações em que a probabilidade p de ocorrer determinado evento é muito pequena ou quando n é bastante grande (em estatística n>30 é considerado como “grande”!)3 ou seja, quando estamos a estudar acontecimentos “raros”. A designação “distribuição dos acontecimentos raros”, utilizada por alguns autores, advém das primeiras aplicações, do príncipio do séc. XX e devidas a von Bortkiewicz. Aquele matemático utilizou a distribuição de Poisson para descrever o número anual de mortos por coice de cavalo nos regimentos Prussianos de cavalaria. A FUNÇÃO DENSIDADE DE PROBABILIDADE da distribuição de Poisson é dada por: P ( X = xi ) = λx i xi ! ⋅ e −λ em que λ = n ⋅ p (λ lê-se “lambda”), λ > 0 e xi=0, 1, ..., n (Fig. 13). Alguns autores referemse a λ como valor médio da v.a. X, que é representada por X ∩ Poisson(λ). Como no caso da distribuição binomial, a função distribuição de probabilidades (PX≤xi) obtém-se por adição das probabilidades dos resultados de X ≤ xi. O VALOR MÉDIO e a VARIÂNCIA da distribuição de Poisson têm valor igual, ou seja, E{ X } = λ = n ⋅ p = V { X } Note-se que o valor médio e a variância são iguais. Esta é uma propriedade muito interessante da distribuição de Poisson, se se atender às condições iniciais, n→∞ e p→0. Para um dado valore de λ, é possível consultar tabelas de probabilidades para a função densidade de probabilidades da distribuição de Poisson (tabelas com x linhas e λ colunas) e obter a probabilidade pretendida. 0,25 0,7 0,6 0,2 P(Y=yi) P(X=xi) 0,5 0,15 0,1 0,4 0,3 0,2 0,05 0,1 0 0 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 X 5 6 7 8 9 Y (a) (b) Fig. 13 – Funções densidade de probabilidade de v.a. X e Y com distribuição de Poisson com (a) λ=3 (ver exemplo anterior) ou (b) λ=0,5, em que xi=0, 1, 2, …, 9 e yi=0, 1, 2, …, 9. 3 Alguns autores referem n>20 e np<7, ou então n>50 e np<5, como condições adequadas para a utilização da distribuição de Poisson. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 32 O exemplo seguinte facilita a compreensão e sugere a utilidade desta distribuição teórica. Uma fábrica de conservas produz, continua e cadenciadamente, cerca de 2330 latas de sardinha em molho de tomate por periodo de 8 horas de laboração e em média cerca de 7 latas são defeituosas. Qual a probabilidade de encontrarmos 3 latas defeituosas num lote de n=1000 latas adquiridas àquela fábrica? Pode-se obter p = 7/2330 = 0,003 e λ = n p = 1000(0,003) = 3. Portanto a probabilidade de três latas defeituosas num lote de 1000 latas λ x − λ 33 −3 é P ( X = 3) = ⋅ e = ⋅ e = 0.2240 x! 3! Para calcular a probabilidade de ocorrerem até duas latas defeituosas nesse lote de 1000 latas, determina-se P(X≤2) = P(X=0) + P(X=1) + P(X=2). [Resolver Exercícios – Capítulo III] DISTRIBUIÇÕES DE PROBABILIDADES DE VARIÁVEIS CONTÍNUAS Em muitos problemas, torna-se necessário ou matematicamente mais simples considerar um espaço amostral para uma variável aleatória X, no qual todos os números reais possíveis (num intervalo especificado ou conjunto de intervalos) possam ser considerados como resultados possíveis. Daí ser necessário utilizar variáveis aleatórias contínuas. Em contraste com as v.a. discretas, diz-se que uma v.a. X é contínua quando: (i) o seu valor numérico xi é determinado pelo resultado de uma prova aleatória; e (ii) xi ∈ (conjunto dos números reais), ou seja, xi pode tomar qualquer um dos infinitos (ou não-enumeráveis) valores num certo intervalo em . Exemplo 1. O consumo anual de energia eléctrica para fins industriais, numa determinada região (em 109 kW), v.a. W, é uma v.a. contínua. Exemplo 2. O tempo de prateleira (em dias) de determinado produto alimentar, v.a. T, também é uma v.a. contínua. No caso das v.a. contínuas, a densidade de probabilidades está continuamente dispersa pelo espaço amostral S ao invés de se concentrar num conjunto discreto de resultados como acontece com as v.a. discretas (Fig. 14). Enquanto no caso de v.a. discretas a probabilidade do espaço amostral é “dividida” pelos resultados possíveis, nas v.a. contínuas aquela probabilidade “está amassada” e distribuida pelos (não-enumeráveis) resultados possíveis xi. Por esse motivo, a probabilidade da v.a. contínua X tomar um valor particular xi é nula. Contudo, um determinado acontecimento possível (ou resultado) xi é quase-impossível mas não é impossível pois em cada realização da prova aleatória (ou experiência) obtém-se sempre um resultado e, por conseguinte, é possível obter xi. Por outras palavras, dizer que “a probabilidade pontual é sempre nula” quer somente traduzir que é nula a probabilidade de “acertar” exactamente no resultado xi. Logo, no caso das v.a. contínuas, as probabilidades estudam-se para intervalos de valores de X e não para valores “exactos” de X. Se se dividir a probabilidade de X tomar um valor do intervalo [x; x+∆x] pela amplitude desse intervalo ∆x, obtém-se de forma aproximada a densidade de probabilidade da v.a. X tomar um valor qualquer do intervalo [x;x+∆x], ou seja, © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar f ( x) ≈ 33 ∆P ( x < X < x + ∆x) . ∆x P(X=xi) v.a. discreta X f(x) v.a. contínua X Fig. 14 – Ilustração da “relação” entre distribuições de probabilidades de v.a. discretas e contínuas (e.g. função densidade de probabilidades f(x)). Rigorosamente, para um intervalo infinitesimal dx de valores de X, a f.d.p. é dada por: © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 34 ∆P ( x < X < x + ∆x) dP ( x < X < x + ∆x) = ∆x → 0 ∆x dx ou seja, a FUNÇÃO DENSIDADE DE PROBABILIDADE de uma v.a. contínua, designada por f(x) em vez de P(X=xi), é genericamente uma função matemática para a qual a àrea limitada pela curva y=f(x), pelo eixo das abcissas e pelas rectas Y=x e Y=x+∆x é igual à probabilidade da v.a. contínua X assumir um valor do intervalo infinitesimal [x, x+∆x] (Fig. 15a). Podemos re-escrever a equação anterior na forma de: dP ( x < X < x + ∆x) = f ( x)dx f ( x) = lim A probabilidade pretendida (graficamente corresponde à área mencionada acima e representada na Fig. 15) pode ser obtida por integração de f(x)4: P( x < X < x + ∆x) = ∫ x + ∆x x f ( x)dx Um modo de calcular a probabilidade de X tomar um valor do intervalo [x, x+∆x] é resolver o integral por primitivação, isto é: P( x < X < x + ∆x) = ∫ x + ∆x x f ( x)dx = F ( x + ∆x) − F ( x) em que F(x+∆x) e F(x) constituem as soluções da primitiva de f(x) para os limites do intervalo considerado. Introduz-se, assim, a FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADES, que se designa F(x) em vez de P(X≤xi), e que corresponde à probabilidade da v.a. contínua X tomar um valor igual ou inferior a xi e, portanto, corresponde à área sob a curva y=f(x) à esquerda de xi (Fig. 15b). Genericamente, F ( x) = P( X ≤ xi ) = ∫ x −∞ f (u )du (note-se que o limite superior de integração é x, pelo que há que considerar uma variável de integração distinta de x, no caso a variável u). Enquanto no caso discreto, a função distribuição de probabilidades era obtida somando P(X=xi), em domínios contínuos aquela função é calculada por integração da função densidade de probabilidades (Fig. 15). A f.d.p. duma v.a. contínua T, que representa o tempo de funcionamento sem avarias (expresso em dias) dum determinado equipamento, é dada por Se t < 0 0 f (t ) -0,5t 0,5e Se t ≥ 0 Qual é a probabilidade desse equipamento funcionar sem avarias por um periodo de 1 a 3 dias? 3 3 [ P(1 < X < 3) = ∫ f (t )dt = ∫ 0,5e −0,5t dt = − e −0,5t 1 1 ] 3 1 = e −0,5 − e −1,5 = 0,3834 A função distribuição pode ser obtida directamente por integração de f(x), ou seja: 4 O integral ∫ é um objecto matemático que se pode interpretar como uma área, ou uma generalização de uma área. Juntamente com as derivadas são os objectos fundamentais do Cálculo. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 35 0 F (t ) t -0,5t −0, 5t ∫0 0,5e du = 0,5e [ ] t 0 Se t < 0 = 1− e − 0 , 5t Se t ≥ 0 Neste contexto, é possível relacionar as funções densidade e distribuição de probabilidades de v.a. contínuas, dF ( x) = f ( x) , ou então, F ′( x) = f ( x) dx em que F’(x) é a derivada de F(x). Desta relação resultam algumas conclusões importantes: 1) f(x) ≥ 0 (equação não-negativa) e 0 ≤ F(x) ≤ 1 (função monótona crescente e contínua) 2) ∫ 3) ∫ +∞ −∞ f ( x)dx = 1 (a área ou probabilidade total é igual a 1) x + ∆x x f ( x)dx = F ( x + ∆x) − F ( x) = P( x < X < x + ∆x) 4) P(X=x) = P(X=x+∆x) = 0 (a) f(x) Probabilidade = Área x x+dx X F(x+dx) (b) Probabilidade F(x) F(x) x x+dx X Fig. 15 – Representação gráfica (a) duma função densidade de probabilidades f(x). A área assinalada sob curva y = 12x(1 – x)2, acima dos eixo das abcissas e entre as semi-rectas verticais Y=x e Y=x+dx corresponde à probabilidade da v.a. contínua X assumir um valor do intervalo e (b) da respectiva função distribuição de probabilidades F(x)=6x2 –8x3 +3x4. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 36 Como no caso das variáveis aleatórias discretas, é possível caracterizar resumidamente a distribuição de probabilidades recorrendo aos conceitos de valor médio e variância das probabilidades. Assim, para uma v.a. contínua X o VALOR MÉDIO é dado por +∞ E{ X } = ∫ x ⋅ f ( x)dx −∞ e a VARIÂNCIA por +∞ V { X } = ∫ ( x − E{ X }) 2 ⋅ f ( x)dx −∞ Do ponto de vista formal, a passagem do caso discreto para o caso contínuo (ou vice-versa) faz-se por “dualidade”, substituindo-se os somatórios ∑ por integrais ∫ e as probabilidades P(x) por densidades f(x). Atente-se que no caso contínuo P(X=xi)=0 para todo o real xi e, portanto, o que se calcula recorrendo a f(x) é a área correspondente ao intervalo [x, x+∆x] – a “probabilidade média” – nessa porção do continuum. É importante, como se fez no caso das probabilidades de v.a. discretas, estudar algumas distribuições de probabilidades teóricas de utilização muito generalizada. DISTRIBUIÇÃO NORMAL Entre as distribuições teóricas de probabilidades de variáveis aleatórias contínuas destaca-se a distribuição normal, ou curva normal, ou curva de Gauss (em homenagem a Carl Friedrich Gauss [1777-1855] que foi pioneiro na sua utilização, apesar da distribuição se dever a Abraham de Moivre [1667-1754] que a desenvolveu em 1733 como aproximação à binomial). Curiosamente, verifica-se que em muitas situações amostrais, a distribuição das variáveis aleatórias contínuas parece “concentrar-se” perto da média e “dispersar-se, diminuindo”, em direcção aos extremos, de acordo com esta distribuição teórica. Por outro lado, a distribuição normal é de manipulação matemática fácil, o que tem contribuido para o número apreciável de testes estatísticos dela derivados. A Fig. 16 ilustra uma curva normal (função densidade de probabilidades) em forma de sino. Contudo, nem todas as curvas em forma de sino são curvas normais, mas a curva normal – FUNÇÃO DENSIDADE DE PROBABILIDADES DA DISTRIBUIÇÃO NORMAL – é definida pela seguinte expressão: f ( x) = 1 σ 2π e [ − ( x − µ ) 2σ ]2 com os parâmetros µ e σ e em que -∞<x<+∞, -∞<µ<+∞, σ>0, π = 3,141659... e e a função exponencial. Para indicar que a v.a. contínua X tem distribuição normal usa-se X ∩ N (µ,σ). Dado que a função densidade de probabilidades f(x) da distribuição normal tem dois parâmetros, média µ e desvio-padrão σ, cada par de valores de µ e σ origina uma curva com “forma diferente”. Contudo, f(x) da distribuição normal é sempre simétrica, em forma de sino, centrada em µ (que determina a posição da distribuição no eixo das abcissas que corresponde ao “universo” de valores de X), e dispersa relativamente a µ de acordo com o desvio-padrão σ (Fig. 17). No caso da distribuição normal, também se pode resumir a informação acerca das probabilidades recorrendo a “medidas de localização e dispersão”, já referidas anteriormente – VALOR MÉDIO E{X} e VARIÂNCIA V{X} da distribuição de probabilidades: +∞ E{ X } = ∫ x ⋅ f ( x)dx = µ −∞ © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 37 +∞ V { X } = ∫ ( x − E{ X }) 2 ⋅ f ( x)dx = σ 2 −∞ f(x) σ µ X Fig. 16 – Representação esquemática da função densidade de probabilidade da distribuição normal f(x), com parâmetros µ e σ, de uma varíavel aleatória contínua. A “curva” está centrada em µ e a sua forma (está relacionada com) depende de σ. µ=12, σ=3 (a) µ=15, σ=3 f(x) (b) µ=15, σ=6 (c) 0 10 20 30 40 50 X Fig. 17 – Comparação entre a forma de três curvas normais (funções densidade de probabilidades) com diferentes parâmetros µ e σ. As “curvas” (a) e (b) com média µ diferente mas com desvio-padrão σ igual. Pelo contrário, as “curvas (b) e (c) possuem igual média µ mas diferente desvio-padrão σ. Existem algumas características com importância nas funções densidade e distribuição de probabilidades de variáveis normais, designadamente aqueles representados na Fig. 18 (página seguinte). A média µ corresponde à mediana (quantil de 50%). Verifica-se, aínda, que os intervalos µ+σ, µ+2σ e µ+3σ incluem, respectivamente, 68.27%, 95,45% e 99,73% das possíveis observações da variável contínua normal. Por outras palavras, a probabilidade da v.a. contínua X tomar um valor desses intervalos é 0,6827, 0,9545 e 0,9973 respectivamente. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 38 Fig. 18 – Alguns pontos importantes das funções densidade e distribuição de probabilidades da distribuição normal (adaptada de Sokal & Rohlf). DISTRIBUIÇÃO NORMAL REDUZIDA O cálculo da área sob a curva normal para determinado intervalo da variável aleatória contínua, que se efectua por integração da função densidade para os valores de µ e de σ pretendidos, seria um trabalho um “pouco fastidioso” e, infelizmente, não é possível tabelar todas as combinações possíveis de µ e σ. Como resolver este “problema”? Um modo de padronizar os resultados é recorrer à transformação da variável aleatória X numa nova variável Z com média igual a 0 e desvio-padrão igual a 1, ou seja, Z ∩ N (0,1). Deste modo, se define a DISTRIBUIÇÃO NORMAL REDUZIDA Z transformando a v.a. X ∩ N (µ,σ), da seguinte forma: X −µ Z= σ Esta transformação permite “reduzir” (ou sintetizar ou padronizar) qualquer distribuição normal desde que se conheçam µ e σ daquelas distribuições (Fig. 19). A tabulação da distribuição de probabilidades de Z, comum em qualquer manual de estatística, permite obter com facilidade P(X≤xi) para qualquer v.a. X ∩ N (µ,σ). Basta calcular zi e, posteriormente, consultar a tabela de Z (que geralmente apresenta a função distribuição de probabilidades ou “probabilidades acumuladas”) para o valor obtido (ver Tabela A). Por outro lado, a maíoria das “calculadoras científicas” e do software (folhas de cálculo) permite obter com facilidade a probabilidade de Z ≤ zi. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 39 f(x) µ=20, σ=3 X 0 4 8 12 16 -2 20 0 24 28 32 36 +2 40 Z Fig. 19 – Ilustração da relação entre a distribuição dos resultados possíveis xi da v.a. contínua X e os valores de Z correspondentes. Tente determinar os valores xi correspondentes a zi= –2 e +2. A variação diária da temperatura de determinada câmara de refrigeração pode ser razoavelmente aproximada por uma distribuição normal com média de 0,2% e desvio-padrão de 1,6%. a) Qual a probabilidade da variação da temperatura ultrapassar 1%? b) E qual a probabilidade dessa variação se situar entre 1% e 1,4%? a) P ( X > 1%) = P ( Z > 0,5) = 1 − P ( Z < 0,5) = 1 − (0,5 + 0,1915) = 0,3085 porque, de acordo com a transformação de X em Z, obtém-se que X − µ 1% − 0,2% zi = = = 0,5 e da Tabela A pode-se obter P(Z<zi). σ 1,6% b) P (1% < X < 1,4%) = P (0,5 < Z < 0,75) = P ( Z < 0,75) − P ( Z < 0,5) = 0,2734 − 0,1915 = 0,0819 X − µ 1% − 0,2% X − µ 1% − 1,4% uma vez que z i = = = 0,5 e z i = = = 0,75 . σ σ 1,6% 1,6% Novamente, as respectivas probabilidades podem obter-se da Tabela A. Observe-se com maior atenção a equação associada a esta transformação. Se re-arranjarmos os termos daquela expressão, teremos que: Z ⋅σ + µ = X ou seja, uma “equação da recta” do tipo bx + a = y. É possível demonstrar matematicamente que qualquer função linear de uma variável aleatória com distribuição normal é, também, uma v.a. com distribuição normal, isto é Z ∩ N (0,1). DISTRIBUIÇÃO T DE STUDENT Até agora, consideraram-se como conhecidos os parâmetros da distribuição normal µ e σ, claramente relacionados com a população, ou universo estatístico. Na realidade, raramente se conhece µ ou σ (ou ambos), ou, então, não é possível recolher tantos dados que permitam assumir que as “estatísticas” da amostra (média x e desvio-padrão s) sejam estimadores © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 40 correctos dos parâmetros da população, pois geralmente o tamanho da amostra é muito reduzido comparativamente à dimensão da população em estudo. Amostras de tamanho n<30 podem considerar-se como “pequenas amostras”. A divulgação da DISTRIBUIÇÃO t DE STUDENT, pelo inglês William Gosset [1876-1937] em 1908 (que utilizou o pseudónimo Student para publicar os seus trabalhos), como alternativa a Z, constituiu um dos maiores avanços nas metodologias estatísticas. Aquele autor, propôs a transformação da v.a. contínua X na variável t da seguinte forma: X −x t= s em que s é o desvio-padrão da amostra e se calcula pela expressão s = ∑ (x − x) i 2 (n − 1) . A distribuição de t depende dum único parâmetro, o número de GRAUS DE LIBERDADE ν (lê-se “niú”), com ν = n – 1. Como se prova para Z, também a variável aleatória t se distribui “normalmente”, ou seja t ∩ N (ν). A cada valor de ν, corresponde uma curva diferente dentro da família das distribuições t de Student (Fig. 20). O procedimento para se obter t e consultar a respectiva tabela de probabilidades é idêntico ao descrito para Z, considerando-se, neste caso, ν = n – 1 graus de liberdade da amostra (ver Tabela B). f(x) g.l.=80 g.l.=4 t Fig. 20 – Representação de duas distribuições t de Student para diferentes graus de liberdade (g.l.). Exemplo 1. A v.a. V segue distribuição de t com 7 g.l. a) Determine o valor v0, tal que P(V>v0)=1%; b) Qual a P(–0,711<V<2,998)? a) v0=2,998 (obtém-se directamente da tabela para p = 0,99); b) Uma vez que P(V<2,998)=0,99 e P(V<-0,711)=P(V>0,711)=0,25, então a probabilidade pretendida é P=0,99 – 0,25=0,74. Exemplo 2. O tempo (em minutos) que um grupo de operários leva a executar determinada tarefa, v.a. X, tem distribuição normal. Numa semana de trabalho seleccionada aleatoriamente, realizaram-se 12 medições daquela variável e o tempo médio foi de 107 min com um desvio-padrão de 23 min. Qual é o tempo que levam a executar a dita tarefa 90% dos operários? © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 41 Uma vez que P(t<t0)=90% logo da tabela vem que t0=1,363. Como t = ( X − x ) s ⇔ 1,363 = ( xi − 107) 23 ⇔ xi = 138,4 min . [Resolver Exercícios – Capítulo IV] 7. INFERÊNCIA ESTATÍSTICA Um dos objectivos principais da análise estatística é derivar (ou inferir) conclusões válidas acerca de uma população através do exame de amostra(s) dessa população. A inferência estatística pretende responder a dois tipos de questões: 1) Qual é o valor de um certo parâmetro da população? (ESTIMAÇÃO DE PARÂMETROS, ver a seguir) 2) Pode considerar-se que um dado parâmetro da população tem determinado valor? (PROVA, OU TESTE, DE HIPÓTESES, ver mais adiante). Exemplos de 1) Qual é a altura média dos alunos da EST? Qual é o peso líquido de iogurte nas embalagens produzidas em determinada fábrica? Exemplos de 2) Será que a média das alturas dos alunos da EST é 183 cm? Será que as embalagens de iogurte têm um peso líquido de 125 mL? AMOSTRAGEM ALEATÓRIA Recorde-se a representação esquemática das componentes da análise estatística da Fig. 1. Até este capítulo, abordaram-se os conceitos básicos, alguns fundamentos da Teoria das probabilidades e algumas distribuições de probabilidades teóricas. Neste capítulo serão consideradas questões relacionadas com a selecção de amostras e com o estudo da média da amostra, geralmente a estatística de maior interesse para a maíoria dos estudos, como base para a inferência estatística. A Amostragem é, por si só, um vasto campo de investigação em estatística e continua a ser, ainda nos dias de hoje, um assunto muito importante e polémico, sobre o qual se produzem muitos “ensaios”. Por isso, e porque não é propósito deste curso estudar apenas esse assunto, serão abordados os conceitos e procedimentos mais simples. Outros aspectos, mais complexos e que derivam dos que aqui se apresentam, podem ser necessários para um estudo particular e encontram-se explicados noutros manuais. Define-se AMOSTRAGEM como o conjunto de todas as amostras, de um certo tamanho n, possíveis de seleccionar com um determinado critério de uma população. Também se utiliza o termo amostragem como sinónimo do critério com que as amostras são seleccionadas ou, ainda, para indicar o procedimento prático de recolha dos dados. O seu significado fica, assim, dependente do contexto em que é utilizado. O tipo de amostragem mais simples é a AMOSTRAGEM ALEATÓRIA SIMPLES (a.a.s.) que dá igual probabilidade de ser seleccionado a qualquer um dos resultados (ou das amostras) possíveis. Poderemos amostrar aleatoriamente, isto é “ao acaso”, populações finitas ou infinitas (cujo significado é óbvio!). Populações finitas Quando se pretendem estudar populações finitas, a amostragem aleatória simples pode ser © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 42 feita: a) COM REPOSIÇÃO – se cada elemento da população pode ser escolhido mais de uma vez, isto é, após recolher informação (medir ou categorizar a variável em estudo) numa amostra, o elemento é devolvido à população. Na amostragem a.s. com reposição, cada elemento de uma população com N elementos tem sempre uma probabilidade p = 1/N de ser seleccionado. Note-se que, a amostragem com reposição duma população finita pode considerar-se teoricamente como infinita. b) SEM REPOSIÇÃO – se cada elemento da população não pode ser escolhido mais de uma vez. Nestes casos, o procedimento de amostragem é o seguinte: seleccionar o primeiro elemento da amostra dando a cada elemento da população igual probabilidade de ser escolhido, ou seja, p = 1/N; seleccionar o segundo elemento da amostra, considerando que os N – 1 elementos restantes possuem igual probabilidade de serem escolhidos, ou seja, a p = 1/(N – 1); repetir o processo até os N elementos da população serem seleccionados. Em qualquer dos casos, a selecção dos elementos da amostra pode ser auxiliada pela utilização de uma tabela de números aleatórios (Tabela C, em anexo). Para cada posição na tabela, os dígitos 0, 1,..., 9 têm igual probabilidade de ocorrerem e as várias posições na tabela são independentes. Populações infinitas Nestas populações, não é possível estabelecer um mecanismo semelhante ao descrito anteriormente para populações finitas. Assim, terá de se pressupôr (ou verificar) que os n resultados possíveis x1, x2,..., xn gerados por um processo (ou prova aleatória, ou experiência), constituem uma amostra aleatória quando: 1) Os valores pertencem à mesma distribuição de probabilidades; e 2) Os valores são estatisticamente independentes. Numa determinada linha de produção, a funcionar “continuamente”, cada elemento seleccionado tem de ter a mesma probabilidade de ser defeituoso (1ª condição). O facto de um elemento seleccionado ser defeituoso não depende, nem implica, que os outros o sejam (2ª condição). DISTRIBUIÇÃO DA MÉDIA NA AMOSTRAGEM As questões relacionadas com a amostragem têm muita importância, pois garantem a validade das conclusões que se pretendem elaborar em estatística. Na maíoria das “situações reais” não é possível estudar toda a população estatística, pelo que é necessário seleccionar amostra(s) e analisar características dessas amostra(s) de modo a “dizer coisas” acerca da população. De entre as características da amostra(s), a média da amostra x é de utilização generalizada e constitui um dado importante na “prática estatística”. Assim, é possível e importante estudar a distribuição (de probabilidades) da média na amostragem. Observe-se com atenção a Fig. 21. A partir de uma população estatística com N=8042 elementos, seleccionaram-se aleatoriamente amostras de n=3, n=10 e n=100 elementos e para cada amostra calculou-se a média amostral x . Os polígonos de frequências absolutas dos resultados obtidos (a média x para cada amostra seleccionada) indicam que: © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 43 a) O valor médio da distribuição dos valores de x das amostras aleatórias é igual à média da população µ; b) O desvio-padrão da distribuição dos valores de x decresce com o aumento do tamanho amostra; c) A distribuição dos valores de x vai ficando cada vez mais simétrica à medida que o tamanho da amostra aumenta; este último resultado é conhecido como TEOREMA DO LIMITE CENTRAL (de que falaremos mais adiante). n=3 E{X}=30,3 σ{X}=17,80 N=8042 µ=30,3 F F σ=30,33 X X n=100 E{X}=30,3 σ{X}=3,05 F F n=10 E{X}=30,3 σ{X}=9,13 X X Fig. 21 – Distribuição na amostragem de x nas amostras possíveis de tamanho n=3, n=10 e n=100 que se podem obter duma população "original" com N=8042 elementos. TEORIA SOBRE A DISTRIBUIÇÃO DE PROBABILIDADES DA MÉDIA NA AMOSTRAGEM Se a selecção de uma amostra fôr aleatória, então a média x da amostra é resultado duma variável aleatória à qual está associada uma distribuição de probabilidades. Pode-se, portanto, recorrer ao valor médio e à variância para descrever resumidamente aquela distribuição de probabilidades. Assim, qualquer que seja o tamanho da amostra n, o valor médio da distribuição de probabilidades de x é dado por: E{ X } = µ e a variância é igual a: © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 44 V {X } = σ2 n O desvio-padrão das probabilidades de x , que se designa erro-padrão da média (usualmente o desvio-padrão dum estimador de um parâmetro, i.e. duma “estatística”, denomina-se erropadrão) é igual a: {X } = σ {X } = σ n Por maioria de razão, para um certo tamanho de amostra n, quanto maior é a variabilidade da população maior é a variabilidade da distribuição das médias na amostragem. Teorema do limite central Para a maioria das populações estatísticas, a distribuição de x na amostragem (isto é, o conjunto das médias das amostras seleccionadas aleatoriamente) é aproximadamente normal quando o tamanho da amostra n é suficientemente grande, ou seja, a distribuição de x na amostragem é assintoticamente normal. Quando a distribuição da variável aleatória X na população é normal, a distribuição de x na amostragem é sempre normal, qualquer que seja o tamanho da amostra n. ESTIMAÇÃO DA MÉDIA DA POPULAÇÃO Um problema importante da inferência estatística é a estimação de parâmetros, tais como a média ou variância populacionais, deduzidos da estatística amostral correspondente, isto é, da média e da variância amostrais. Vamos abordar aqui o caso da média: Qual é a altura média dos alunos da EST? Qual é o peso líquido de iogurte nas embalagens produzidas em determinada fábrica? Estimação pontual Quando uma característica da população é estimada por um simples valor, este é designado por ESTIMATIVA PONTUAL. Dito de outro modo: o ESTIMADOR é uma variável aleatória usada para estimar uma característica da população. O valor numérico do estimador designa-se por ESTIMATIVA. Por exemplo, dizer que a média de alturas dos alunos do curso de Engenharia Alimentar é 170 cm é recorrer a um estimador (a média) e avançar com uma estimativa pontual (da média; no caso, 170 cm, que se obteve duma amostra aleatória “representativa”). A média da amostra x é um estimador sem-vício (ou não-enviesado) da média da população µ, porque o valor médio da distribuição de probabilidades x é igual a µ: E{ X } = µ © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 45 Prova-se, aínda, que a variância da amostra s2 (calculada com denominador igual a n – 1) também é um estimador sem-vício da variância da população σ2 porque: E{s 2 } = σ 2 isto se a amostra fôr obtida de uma população infinita ou, então, de uma população finita mas com reposição. É usual designar os estimadores sem-vício por ESTATÍSTICAS. Estimação por intervalos de confiança Nos casos em que a distribuição de x na amostragem é normal, pode-se esperar que a média da população µ se encontre nos intervalos x + σ, x + 2σ e x + 3σ, aproximadamente em 68,27%, 95,45% e 99,73% das vezes, respectivamente (cf. Fig. 18). Por esse motivo, estes intervalos são denominados INTERVALOS DE CONFIANÇA de 68,27%, 95,45% e 99,73% (para avaliação) de µ. Os números extremos desses intervalos são denominados LIMITES DE CONFIANÇA. De modo semelhante, x + 1,96σ e x + 2,58σ são limites de confiança de 95% e 99% de µ. A percentagem de confiança c é frequentemente denominada NÍVEL DE CONFIANÇA e a probabilidade complementar α (α lê-se “alfa”) é designada por NÍVEL DE 5 SIGNIFICÂNCIA ou “risco” sendo que c=1–α. Os números 1,96 e 2,58 nos limites de confiança referidos acima são denominados COEFICIENTES DE CONFIANÇA ou VALORES CRÍTICOS. Quando a distribuição de x na amostragem é normal, é possível calcular a probabilidade da média populacional µ ocorrer entre dois valores da distribuição, recorrendo à transformação associada com a DISTRIBUIÇÃO NORMAL REDUZIDA , Z. Conhecendo-se a variabilidade populacional σ e aplicando a transformação Z à média na Amostragem, ou seja, X −µ Z= σ n teremos, então, que a probabilidade da média da população µ assumir valores entre –z e +z será genericamente: x −µ P{− z < < + z} = c σ n ou seja, o mesmo que P{x − z σ n <µ<x+z σ n }= c em que c indica o nível de confiança e c = 1 – α. Esta última expressão de probabilidade (ou afirmação probabilística) deve ser interpretada cuidadosamente! Não significa que a probabilidade do parâmetro µ estar incluido no intervalo especificado é c! A média populacional µ é um parâmetro (e não uma v.a.), e portanto, está ou não dentro daquele intervalo. A expressão deve ser interpretada do seguinte modo: c é a probabilidade do intervalo especificado conter µ. O intervalo [ x − z (σ n ); x + z (σ n ) ] é designado por INTERVALO DE CONFIANÇA de µ. O 5 É vulgar usar proporções em vez de percentagens nas indicações e cálculos. Logo 95% de confiança indica-se por c = 0,95 e um nível de significância de 5% designa-se α = 0,05. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 46 valor de Z é arbitrário, isto é, pode ser escolhido (da Tabela A, em anexo) de modo que a probabilidade (ou confiança) pretendida seja igual a 1–α. Assim, para cada um dos limites de confiança, Z ficará definido para 1 – α/2 (ou seja, metade de α em cada extremo da distribuição) (cf. Fig. 18 e Fig. 19). Duma forma geral, a probabilidade do intervalo de (1– α)100% de confiança de µ com nível de confiança de 1 – α, é dada por: P{x − z α 1− 2 σ n < µ < x + z α 1− 2 σ n } = 1−α Suponha-se que a v.a. X representa a duração de vida de cápsulas metálicas de garrafas de refrigerante. Admita-se que a duração de vida média das cápsulas é µ=5,0 anos, com desvio-padrão σ=0,40 anos. O intervalo de confiança de 95% de µ numa amostra 10 cápsulas será dado 0,40 0,40 por P{5,0 −1,96 < µ < 5,0 +1,96 } = 0,95 em que z[0.,975]=1,96 se 10 10 obtém da tabela de Z (Tabela A, anexa). Logo, o intervalo será [4,75 a; 5,25 a]. E se o desvio-padrão da população σ não é conhecido, como aliás acontece em muitos casos? Relembre-se que o valor médio de s2 é igual à variância populacional σ2, quando s é calculado com n – 1 graus de liberdade. Então pode-se utilizar s n como estimador sem-vício de σ n . Recorde-se, aínda, a utilidade da transformação de t para ν = n – 1 graus de liberdade, quando não se conhece o desvio-padrão σ, ou seja: x −µ t= s n Assim, a probabilidade de determinado intervalo de confiança da média da população µ é dada por: s s P{x − t α < µ < x + t α } = 1−α ν ,1− 2 n ν ,1− 2 n De modo similar a z, o valor de t é obtido da tabela apropriada para ν = n – 1 graus de liberdade e probabilidade igual a 1 – α/2 (ver Tabela B, anexa). São realizadas dez medições da resistência de determinada embalagem metálica para produtos alimentares (variável aleatória X com distribução normal). Suponha-se que x =10,48 psi e que s=1,36 psi. O intervalo de confiança da média µ com nível de significância de 90% é dado por 1,36 1,36 P{10,48 −1,83 < µ < 10,48 +1,83 } = 0,90 em que t(9;0,95)=1,83 se 10 10 obtém da Tabela de t (Tabela B, anexa). O intervalo de confiança será [9,693;11,267] psi. Os intervalos de confiança permitem fazer afirmações probabilísticas acerca de parâmetros da população com base em estatísticas amostrais. Com uma dada confiança, o intervalo de © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 47 confiança calculado deverá conter “o verdadeiro valor” do parâmetro populacional em questão (neste caso, a média µ). [Resolver Exercícios – Capítulo V] TESTE (OU PROVA) DE HIPÓTESES A inferência estatística também pretende responder a questões do tipo: Pode considerar-se que um dado parâmetro da população tem determinado valor? Será que a média das alturas dos alunos da EST é 183 cm? Será que, em média, as embalagens de iogurte da marca W têm um peso líquido de 125 mL? Como em qualquer procedimento científico, o método científico (simplificado) pressupõe a definição prévia de hipóteses, a sua “experimentação” (com base numa amostra) e a elaboração de conclusões. Em estatística o processo não é diferente. “Classicamente”, os testes de hipóteses podem ser resumidos em quatro fases: 1) Definição das hipóteses nula e alternativa; 2) Selecção e obtenção de informação, de estatísticas, a partir da(s) amostra(s) (nestes apontamentos, consideraremos unicamente a média da amostra, mas poderia analisar-se o desvio-padrão, etc.); 3) Determinação de valores-limite ou duma estatística de teste; e 4) Utilização das regras de decisão e elaboração de conclusões. Definição das hipóteses nula e alternativa O primeiro passo de um teste de hipóteses é definir duas HIPÓTESES (OU CONCLUSÕES) ALTERNATIVAS, mutuamente exclusivas, que se designam (geralmente) por H0 e H1. Ou seja, se a HIPÓTESE NULA H0 é verdadeira então a HIPÓTESE ALTERNATIVA H1 será falsa e viceversa (alguns autores utilizam a notação HA para se referirem à hipótese alternativa). No caso de hipóteses bilaterais, a hipótese H0 contém o “valor padrão” µ0 em relação ao qual se faz o teste (ver a seguir). A designação de hipótese nula está relacionada com o conceito de “não diferente de” um valor-padrão µ0. Por exemplo, H0 pode referir-se à média da população µ como igual (não diferente) de zero, isto é, H0: µ = 0 e logo H1: µ ≠ 0. Quanto às hipóteses unilaterais, é “prática comum” definir na hipótese alternativa H1 o resultado que se “deseja obter”. Por exemplo, para testar se, em média, a pressão em determinado equipamento é superior à especificada, as hipóteses nula e aternativa seriam H0: µ ≤ µ0 e H1: µ > µ0, respectivamente. Saliente-se que, classicamente, ambas as hipóteses são definidas a priori. Esta será “a regra” seguida nestes apontamentos. Definição de regras de decisão sobre que hipótese deve ser aceite Se, por exemplo, o teste é feito sobre a média da população µ, podem elaborar-se três tipos de hipóteses: H0: µ = µ0 e H1: µ ≠ µ0 – Hipóteses bilaterais H0: µ ≤ µ0 e H1: µ > µ0 H0: µ ≥ µ0 e H1: µ < µ0 } Hipóteses unilaterais © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 48 Depois de definidas as hipóteses nula e alternativa, é possível calcular o(s) limites(s) de confiança em torno de µ0. Esse(s) valor(es) limitam “áreas” ou “regiões”, que se designam “regiões de aceitação” e “de rejeição”, e permitem decidir qual das hipóteses concluir em face da estatística em estudo, neste caso a média da amostra x (Fig. 22, pág. seg.). Na prática, se x estiver entre o(s) limite(s) calculado(s) decide-se em favor da hipótese nula (ver adiante). Caso contrário, rejeita-se a hipótese nula. Alguns autores referem “região de não-rejeição” em vez de “região de aceitação”, pois em estatística “não existem certezas” e o resultado pode variar consoante o nível de confiança. Essa será também a terminologia utilizada neste texto. ERROS DE INFERÊNCIA É aconselhável “fazer aqui um parêntesis” no texto para se abordarem os “erros estatísticos”. Não se está isento de errar quando se infere estatisticamente, pois existe sempre risco de elaborar uma conclusão incorrecta quando recorremos a medida(s) da amostra para decidir estatisticamente em favor duma das hipóteses alternativas (relativas a um parâmetro da população). De facto, teremos de considerar que uma hipótese nula verdadeira será ocasionalmente rejeitada. Este tipo de erro será cometido com probabilidade (frequência) α, isto é, se H0 é na realidade uma afirmação verdadeira acerca da população estatística, no caso de α=0,05, concluir-se-á incorrectamente que é falsa em 5% das afirmações. Este erro é conhecido como erro do tipo I. Se, pelo contrário, H0 é, de facto, falsa, um teste de hipóteses não detectará este resultado algumas vezes e dele se derivará uma conclusão errada, nãorejeitando H0, o que se designa por erro de tipo II. A probabilidade de cometer este tipo de erro é β (lê-se “beta”). A Tab. 6 resume estes conceitos. Tab. 6 – Resumo dos erros tipo I e II possíveis de acontecer em inferência estatística. Alternativas verdadeiras Conclusões tiradas a partir da amostra (a) H0 H1 H0 Conclusão correcta Erro Tipo II Probabilidade β Erro Tipo I Probabilidade α (a) Com base nos resultados do teste de hipóteses. H1 Conclusão correcta Erros de tipo I e de tipo II Quando H0 é a alternativa verdadeira, inferimos incorrectamente se concluirmos H1 a partir da amostra. A probabilidade de cometer este erro de tipo I ou risco α designa-se por nível de significância (Tab. 6). Quando H1 é a alternativa verdadeira, inferimos incorrectamente se concluirmos H0 a partir da amostra. A probabilidade de cometer este erro de tipo II designa-se por risco β. Não é consensual a utilização da designação “risco” para se referirem as probabilidades α e β, mas em alguns ramos da estatística aplicada (à engenharia alimentar) é usado com frequência (Tab. 6). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 49 "Aceitação" Concluir H0 Rejeição Concluir H1 Rejeição Concluir H1 (a) L1 µ0 L2 X L2 X "Aceitação" Concluir H0 Rejeição Concluir H1 (b) L1 µ0 "Aceitação" Concluir H0 Rejeição Concluir H1 (c) L1 µ0 L2 X Fig. 22 – Representação esquemática do processo de decisão em três tipos de testes de hipóteses diferentes (ver texto para mais detalhes): (a) hipóteses bilaterais e (b) e (c) hipóteses unilaterais. Não podemos evitar completamente estes erros, mas podemos tentar minimizar a probabilidade de os cometer. Os erros de tipo I poderão ser reduzidos, directamente, se diminuirmos α (o nível de significância) e por conseguinte aumentando a confiança. No entanto, sabe-se que, para determinado tamanho de amostra n, o valor de α está inversamente relacionado com o valor de β, ou seja, à menor probabilidade de cometer erros de tipo I está associada a maior probabilidade de cometer erros de tipo II ( α ∝1 β ). O único modo de reduzir ambos os erros é aumentar o tamanho da amostra n a partir da qual se pretende inferir. Por outro lado, é possível medir o “poder estatístico” de um teste estatístico recorrendo à © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 50 quantidade 1 – β (consultem-se outros manuais para esclarecimentos adicionais sobre este tópico). TESTES DE HIPÓTESES BILATERAIS PARA A MÉDIA Com este “tipo” de hipóteses pretende-se responder a perguntas do género: “Será que o volume médio de sumo nas embalagens de determinada marca é igual a 20 cl, ou não?”. Observe-se a Fig. 22(a), onde se ilustra este tipo de testes de hipóteses. Só se aplicam se a variável se distribui normalmente na população. Caso contrário, os testes apenas se aplicam quando o tamanho da amostra é grande, por regra n>30 elementos. O procedimento que a seguir se apresenta utiliza conceitos relacionados com intervalos de confiança. Casos em que a variância da população σ2 é conhecida Com referência à distribuição de x na amostragem, e recorrendo à distribuição normal reduzida Z, teremos então as hipóteses nula (H0) e alternativa (H1): H0: µ = µ0 e H1: µ ≠ µ0 A partir da(s) amostra(s) calcular a média x e confrontar essa estimativa (amostral) com os limites de confiança apropriados, L1 e L2. Se L1 ≤ x ≤ L2 concluir em favor de H0; caso contrário, isto é, se x < L1 ou x > L2, concluir H1 (é prática corrente usar a expressão “rejeitar H0” neste caso). Os limites inferior e superior de confiança, respectivamente L1 e L2, podem obter-se através de L1 = µ 0 − z α σ 1− 2 n e L2 = µ 0 + z α σ 1− 2 n O valor de Z obtém-se da Tabela A (anexa) para uma probabilidade 1 – α/2 (daí a notação utilizada acima). Na Fig. 23 (pág.seg.), ilustra-se a regra de decisão num caso simples. Casos em que a variância da população σ2 não é conhecida Quando não se conhece a variância populacional, é necessário recorrer à distribuição t de Student, ou seja, utilizar a transformação t com ν = n – 1 graus de liberdade. Assim, no teste de hipóteses sobre a média da população µ, as hipóteses nula e alternativa mantêm-se: H0: µ = µ0 e H1: µ ≠ µ0 A regra de decisão será novamente concluir H0 se L1 ≤ x ≤ L2; caso contrário, se x < L1 ou x > L2, concluir H1 (isto é o mesmo que rejeitar H0). Contudo, neste caso os limites inferior e superior de confiança, L1 e L2, calculam-se da seguinte forma: s s L1 = µ 0 − t e L2 = µ 0 + t α α n −1,1− n n −1,1− n 2 2 O valor de t obtém-se da Tabela B (anexa) para n – 1 g.l. e uma probabilidade de 1 – α/2 (daí a notação usada nas equações anteriores). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar Rejeição Concluir H1 51 Rejeição Concluir H1 Não-rejeição Concluir H0 1−α=0,95 z1[0,025]= -1,96 L1=550-1,96σ /√n 0 µ0=550 z2[0,975]= +1,96 L2=550+1,96σ /√n Z X Fig. 23 – Ilustração da regra de decisão para H0: µ = 550 e H1: µ ≠ 550 (com α=0,05). Apresentam-se duas escalas para as abcissas: os valores-limite na distribuição de Z e os valores da variável “original” X correspondentes àqueles limites. Depois de um periodo determinado em que 12 ratos-cobaia foram sujeitos a uma dieta composta por certo complexo químico, será que a alteração de peso observada é significativa, com 95% de confiança? Sabe-se que após oito dias a diferença média de peso nos ratos-cobaia foi x = -0,65 g e que s2 = 1,5682 g2. As hipóteses alternativas serão: H0: µ = 0 e H1: µ ≠ 0 (considere-se que µ0=0 representa uma situação em que a diferença de peso foi nula i.e. a dieta não teve efeito sobre o peso dos ratos-cobaia). Neste caso, da Tabela B (anexa) obtém-se t[11;0 ,975 ] =2,201 para α=0,05. E os limites seriam, por conseguinte, L1=0-2,201(1,2523/3,4641)=-0,796 g e L2=0+2,201(1,2523/3,4641)=0,796 g. Assim, como L1 ≤ x ≤ L2 conclua-se H0, ou seja, com 95% de confiança a alteração de peso não foi significativamente diferente de zero. TESTES DE HIPÓTESES UNILATERAIS PARA A MÉDIA Em muitas circunstâncias, interessa saber se µ é significativamente maior (ou menor) do que µ0, e nestes casos utilizam-se testes de hipótese unilaterais. Na Fig. 23(b,c) ilustram-se os dois casos possíveis, respectivamente µ > µ0 e µ < µ0. A definição das hipóteses iniciais e alguns dos cálculos envolvidos são diferentes do caso dos testes de hipóteses bilaterais. Recorrendo a um exemplo relacionado com dietas, mas desta vez a questão é: Será que ocorreu redução significativa de peso em 12 voluntários para testar o efeito de um novo produto de naturopatia (com nível de confiança de 95%)? As hipóteses alternativas serão: H0: µ ≥ 0 e H1: µ < 0 (dado que µ0=0). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 52 Repare-se que, curiosamente, para se estudar a ocorrência de redução significativa de peso neste exemplo se definiram as hipóteses como H0: µ ≥ 0 e H1: µ < 0. A hipótese alternativa H1 contém o resultado que “se desejava obter” (pelo menos, do ponto de vista do fabricante do produto em questão!). Esta “estratégia” resulta na área de rejeição ficar visualmente à esquerda de µ0, o que facilita a compreensão do teste (na medida em que se lê da esquerda para a direita!!). De modo similar, se se pretendêsse estudar se o tempo de processamento de determinado produto agro-alimentar é maior do que o especificado no manual de qualidade da empresa (15 min) as hipóteses poderiam ser: H0: µ ≤ 15 min e H1: µ > 15 min. Os cálculos envolvidos são diferentes dos apresentados anteriormente em virtude das diferenças na definição das hipóteses iniciais. De facto, recorre-se apenas a um limite em vez de um intervalo e, portanto, consideram-se os valores (críticos) teóricos z[1-α] ou t[ν,1-α]. Assim, para os casos de hipóteses unilaterais as regras de decisão serão: i) Para as hipóteses nula e alternativa H0: µ ≥ µ0 e H1: µ < µ0; Concluir H0, se x ≥ L; Caso contrário (ou seja, se x < L), concluir H1. O limite (inferior) de confiança calcula-se da seguinte forma: L = µ 0 − z [1−α ] σ n quando se conhece a variância σ , ou então, através de 2 L = µ 0 − t[n−1,1−α ] s n ii) Para as hipóteses H0: µ ≤ µ0 e H1: µ > µ0; Se x ≤ L, concluir H0; caso contrário, i.e. se x > L, concluir H1. O limite (superior) de confiança, quando se conhece a variância σ2, calcula-se da seguinte forma: L = µ 0 + z [1−α ] σ n ou então recorrendoà distribuição t-Student e à variância amostral s2, através de: s L = µ 0 + t[n−1,1−α ] n Se a variância populacional σ2 fôr conhecida, é possível recorrer à distribuição normal reduzida Z. Nesse caso, os cálculos envolvem z[1-α] em vez de t[n-1,1-α] e σ em vez de s, mas as regras de decisão são, em tudo, semelhantes às mencionadas anteriormente. (continuação do exemplo anterior) Agora, sabe-se que a diferença média dos pesos ao fim de quinze dias de dieta foi x = -0,61 kg e que s2=0,4008 kg2. Da Tabela B (anexa) obtém-se, neste caso, que t = 1,796 para 11 g.l. e α=0,05, logo o limite (inferior) será: L = = 0 – 1,796 (0,6331/3,4641) = 0,3282. Assim, como x < L conclua-se H1, isto é, com 95% de confiança ocorreu redução significativa do peso médio. Note-se, mais uma vez, que no caso de testes de hipoteses unilaterais os valores de z (ou t) são obtidos para probabilidades de (1 – α) em vez de (1 – α/2), em virtude de interessar apenas um dos limites do intervalo de confiança. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 53 TESTES DE HIPÓTESES ATRAVÉS DE “ESTATÍSTICAS DE TESTE” Nos tópicos anteriores acerca de testes de hipóteses, apresentámos um modo de realizar aqueles testes acerca da média populacional que se baseia no conceito de intervalo de cconfiança. Se a estatística amostral, a média x , se encontrar dentro de determinados limites, não se rejeita a H0, isto é, pode-se afirmar com uma dada confiança que a média µ é igual ao valor µ0. No entanto, é possível abordar estas questões recorrendo a “estatísticas de teste” (o procedimento habitual em estatística aplicada!). Depois de establecer as hipóteses nula e alternativa, calculam-se “estatísticas de teste” (e.t.) a partir da(s) amostra(s). Estas são comparadas com valores teóricos (tabelados). Se o valor absoluto da e.t. for maior do que o valor teórico (ou crítico), conclui-se em favor de H1; caso contrário, conclui-se H0. Para testar hipóteses relativas à média µ, podem usar-se duas e.t. consoante se conhece, ou não, a variabilidade dos dados (a variância σ2). Aquelas e.t. derivam das transformações Z ou t, e usam as respectivas distribuições teóricas de probabilidades. Assim, se se conhecer σ2 pode utilizar-se a e.t. z0, ou seja: x − µ0 z0 = σ n A comparação de | z0 | com o valor crítico obtido da tabela apropriada (Tabela A anexa) para uma probabilidade (1 – α/2) [ou (1 – α) no caso de hipóteses unilaterais] permite concluir acerca das hipóteses iniciais. Se | z0 | > z tabelado, rejeita-se a H0, isto é, a média é diferente de (ou maior/menor do que) µ0. De modo semelhante, se utiliza a e.t. t0 nos casos em que não se conhece σ2 (e se usa, por isso, o desvio-padrão amostral s): x − µ0 t0 = s n Considerem-se os exemplos anteriores, agora tratados recorrendo a estatísticas de teste. Depois de um periodo determinado em que 12 ratos-cobaia foram sujeitos a uma dieta composta por certo complexo químico, será que a alteração de peso observada é significativa, com 95% de confiança? Sabe-se que x = – 0,65 g e que s2 = 1,5682 g2. As hipóteses alternativas serão: H0: µ = 0 e H1: µ ≠ 0 (considere-se que µ0=0). Calcula-se a estatística de teste t0 = -1,798. Da Tabela B (anexa) da distribuição de t obtém-se t[11;0 ,975 ] =2,201 para 11 g.l. e α=0,05. Como | t0 | < t não se rejeita a H0. A conclusão é idêntica à obtida anteriormente recorrendo à noção de intervalo de confiança. Recorrendo a um exemplo relacionado com dietas, mas desta vez a questão é: será que ocorreu redução significativa de peso em 12 voluntários para testar o efeito de um novo produto de naturopatia (com nível de confiança de 95%)? E agora, sabe-se que x = -0,61 kg e que s2=0,4008 kg2. As hipóteses alternativas (unilaterais) serão: H0: µ ≥ 0 e H1: µ < 0 (dado que µ0=0). A estatística de teste t0 = -3,338 e da Tabela B da distribuição de t © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 54 obtém-se que t [11,0.95] = 1,796 para α=0,05. Como | t0 | > t, rejeita-se a H0, isto é, a conclusão é igual àquela que se obteve usando limites. Este é o procedimento mais vulgar de realizar testes de hipóteses não só acerca da média como para outros parâmetros populacionais importantes. Nos manuais de estatística aplicada referem-se a estes testes de hipóteses com teste de z e teste de t para uma amostra (em inglês, “one-sample z-test” ou “one-sample t-test”). [Resolver Exercícios – Capítulo V] 8. REGRESSÃO LINEAR SIMPLES RELAÇÃO ENTRE VARIÁVEIS Até aqui têm-se tratado tópicos da estatística relacionados com uma única variável (estatística univariada ou univariável). No entanto, é possível e muitas vezes desejável, estudar a relação que existe entre duas ou mais variáveis. Considere-se o caso de se pretenderem estudar duas variáveis. Com muita frequência e em muitos casos práticos, verifica-se que existe uma relação entre duas variáveis. Frequentemente, é possível expressar essas relações sob a forma matemática, estabelecendo uma equação que “ligue” as variáveis. 1) Os perímetros das circunferências dependem dos seus raios, P=2πR; ou 2) O crescimento de microrganismos pode ser descrito pelo modelo (equação) exponencial: N=N0·ekt. RELAÇÃO FUNCIONAL ENTRE DUAS VARIÁVEIS A primeira das relações apresentadas no exemplo anterior corresponde a uma relação funcional entre duas variáveis que dependem uma da outra, isto é, a magnitude de uma das variáveis (designada por VARIÁVEL DEPENDENTE) assume-se que é determinada pela (ou é função da) outra variável (ou VARIÁVEL INDEPENDENTE). Dito de outro modo, uma RELAÇÃO FUNCIONAL entre duas variáveis X e Y é exacta; a cada valor de X corresponde um único valor de Y. Exemplo 1. O pagamento do aluguer de um motor eléctrico de elevada potência (Y em euros) está relacionado com o periodo de aluguer (X em horas) pela seguinte equação: Y=1500+2000·X. Tente interpretar o significado dos parâmetros desta equação no contexto em que é apresentada. Exemplo 2. A área de uma placa quadrada de madeira (Y em cm2) está relacionada com o comprimento de um dos seus lados (X em cm) pela relação funcional Y=X2. Nestes dois exemplos, as relações entre as duas variáveis são funcionais e todos os valores de Y estão sobre a linha recta (no primeiro exemplo) ou sobre a curva (no segundo exemplo) que descrevem aquelas relações (Fig. 24). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 55 25000 120 100 20000 80 Y Y 15000 10000 60 40 5000 20 0 0 0 2 4 6 8 10 0 2 4 X 6 8 10 X Fig. 24 – Relações funcionais entre duas variáveis X e Y (ver exemplos no texto). RELAÇÃO ESTATÍSTICA ENTRE DUAS VARIÁVEIS No entanto, em várias situações não se conhece a relação funcional entre duas variáveis X e Y, mas poderá existir uma RELAÇÃO ESTATÍSTICA entre aquelas variáveis, como por exemplo na descrição do crescimento de microrganismos através dum model exponencial. De facto, diz-se relação estatística porque será obtida a partir dos resultados, através de métodos estatísticos apropriados. A Fig. 25 é composta por dois DIAGRAMAS DE DISPERSÃO que mostram relações estatísticas lineares e não-lineares entre variáveis. 1050 12000 900 8000 x1000 UFC/ml Peso (kg) 10000 y = 1811,5 + 84,13x 6000 4000 750 600 y = 13,068e 0,2158x 450 300 150 2000 0 0 0 25 50 75 100 0 5 10 15 20 Horas Nº em balagens Fig. 25 – Diagramas de dispersão entre o peso e o número de embalagens (à esq.) e entre a densidade de bactérias e o tempo de incubação (à dir.). As linhas (e respectivas equações) correspondem às relações estatísticas (lineares, à esq., e não-lineares, à dir.) possíveis de estabelecer entre as variáveis. Da observação das relações estatísticas representadas na Fig. 25 é possível “resumir” as PRINCIPAIS CARACTERÍSTICAS das relações estatísticas, designadamente: 1 – Tendência da variável dependente Y variar sistematicamente com a variável independente X; essa tendência pode ser descrita por uma recta (relação estatística linear) ou por uma curva © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 56 (relação estatística não-linear) 2 – Dispersão das observações em torno de uma recta ou de uma curva, é explicada em “determinado grau” pela relação estatística. A explicação da dispersão é apenas parcial pois: a) podem existir outros factores envolvidos que afectam Y além da variável X; ou b) parte da variação observada pode ser explicada pela variabilidade inerente de Y. MODELOS DE REGRESSÃO SIMPLES As equações matemáticas ou “MODELOS MATEMÁTICOS” são utilizados para descrever a relação estatística entre variáveis. Nos casos em que uma relação estatística demonstra dependência entre variáveis, essa relação é designada por “REGRESSÃO”. O recurso ao termo regressão remonta às primeiras abordagens deste assunto. A análise de regressão foi publicada inicialmente por Adrien Legendre [1752-1883] em 1805 e por Johann Gauss [1777-1855] em 1809. Sir Francis Galton [1822-1922], no final do séc. XIX, descreveu matematicamente a tendência da variação das alturas de filhos relativamente às alturas dos seus pais, contribuindo dessa forma para o desenvolvimento da análise de regressão. “Mais recentemente”, a técnica foi aperfeiçoada por Karl Pearson [1857-1936]. A utilização da terminologia “REGRESSÃO SIMPLES” está relacionada com o facto de apenas se considerarem duas variáveis. Poderiam considerar-se mais variáveis independentes e, nesse caso, utilizaríamos a terminologia “regressão múltipla”. Este tópico é extremamente vasto, e de utilização muito generalizada pelo que se aconselha a leitura de manuais mais específicos aquando da sua utilização em situações “da vida real”. Contudo, nestes apontamentos tentaremos esclarecer os conceitos mais importantes. Os MODELOS DE REGRESSÃO incorporam as características das relações estatísticas baseandose nos seguintes PRESSUPOSTOS (Fig. 26, pág. seg.): 1 – A cada valor da variável independente X está associada uma distribuição de probabilidades de Y; 2 – As médias destas distribuições de probabilidades variam de uma forma sistemática com X (dependendo do modelo de regressão considerado, a variabilidade de Y estará relacionada com X de modo diferente). MÉTODO DOS MÍNIMOS QUADRADOS Para evitar critérios individuais e subjectivos na escolha do modelo de regressão que se ajusta ao conjunto dos dados (rectas, curvas, etc. cf. Fig. 25), é necessário definir a “melhor recta ou cruva de ajustamento”. Para definir, objectivamente, uma das várias relações possíveis entre duas variáveis X e Y, considere-se a Fig. 27 na qual os dados estão representados pelos n pontos de coordenadas (x1, y1), (x2, y2), ..., (xn, yn). Assim, para um dado valor de X, digamos por exemplo x1, haverá uma diferença entre y1 e o valor correspondente determinado (ou estimado ŷ1 ) pela equação da curva ajustada (representada pela linha C na Fig. 27). Essa diferença D1, designa-se por ERRO, DESVIO ou RESÍDUO e pode ser positivo, negativo ou nulo. Se a curva (ou recta, etc.) se distanciar de igual forma de todos os pontos (xi, yi) então: ∑ Di =∑ ( yi − yˆ i ) = 0 Logo, pode obter-se uma medida da “qualidade do ajustamento” de uma recta (ou curva) a um conjunto de dados pela quantidade seguinte: SQ = Di 2 = (Yi − Yˆ ) 2 ∑ ∑ © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 57 Quanto menor for SQ, então melhor será o ajustamento. O método dos mínimos quadrados pretende MINIMIZAR A QUANTIDADE SQ (alguns autores utilizam Q), que é a SOMA DOS QUADRADOS DOS ERROS. Sendo assim, de todas as rectas (ou curvas) que se ajustam a um conjunto de pontos, aquela que tem a propriedade de resultar no menor valor de SQ é denominada a melhor recta (ou curva) de ajustamento, é a “equação dos mínimos quadrados”. Fig. 26 – Ilustração (adaptada de Neter et al.) dos conceitos relacionados com a regressão (ver texto). Fig. 27 – Ilustração do conceito de desvio (método dos mínimos quadrados). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 58 “RECTA DOS MÍNIMOS QUADRADOS” A mais simples relação funcional entre duas variáveis é definida pela equação da recta Y = A+ B⋅ X em que A é intercepção ou ordenada na origem e B é o declive (Fig. 28). Nesta equação, A e B são parâmetros derivados da(s) amostra(s)6. Contudo, independentemente de se estar a estudar uma amostra ou uma população, será invulgar que todos os pares de resultados (xi, yi) se posicionem exactamente sobre a recta, pelo que será mais adequado escrever a equação na seguinte forma: Y = A+ B⋅ X +ε em que ε (lê-se “épsilon”) designa o erro, ou desvio, ou resíduo (ou seja, a diferença entre cada valor de yi e o valor estimado ŷi – cada diferença Di definida anteriormente). Variável dependente, Y 50 40 30 B 20 }e 2 10 A 0 0 2 4 6 8 10 Variável independente, X Fig. 28 – Ilustração dos parâmetros da equação da recta yˆ = 4,4 + 4,8 x . A ordenada na origem (A=4,4) corresponde ao valor estimado de Y quando X=0, enquanto que o declive (B=4,8) é a variação do Y por cada alteração unitária do X, isto é, se X aumentar de 4 para 5 então Y aumentará 4,8 unidades. A recta desenhada não coincide com os pontos. As diferenças (distâncias verticais) entre os valores observados (pontos) e estimados (linha) correspondem aos erros (destaca-se o erro relativo à segunda observação, e2). A RECTA DOS MÍNIMOS QUADRADOS que se ajusta ao conjunto de pontos (x1, y1), (x2, y2), ..., (xn, yn) em que n=1, 2, …, i tem equação: Yˆ = A + B ⋅ X em que Yˆ (lê-se “estimador de Y”) indica que a cada valor de X (um dado xi) corresponde um valor estimado (ou esperado) de Y na recta ajustada ( ŷi ). O método dos mínimos quadrados considera a distância vertical entre yi e ŷi e tenta mínimizar a soma dos quadrados desses desvios (ou erros): Os “verdadeiros” parâmetros podem indicar-se por α e β. Num contexto mais actual da estatística, as estimativas que se obtêm a partir da amostra, b0 e b1, designam-se por coeficientes de regressão e constituem as “melhores estimativas dos verdadeiros” parâmetros β0 e β1, respectivamente a ordenada na origem e o declive. 6 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 59 SQ = ∑ ( yi − yˆ i ) 2 Alguns autores acrescentam que SQ se refere à porção não-explicada da variação de Y. Simultaneamente, pretende-se calcular os parâmetros da equação da recta, os coeficientes A e B, uma vez que os parâmetros “reais” α e β exigiriam a análise de toda a população, isto é, de todos os pares (X,Y), o que na maíoria dos casos é impossível. Assim, podemos calcular o declive B, da equação da recta de regressão para uma amostra de pares de valores (xi,yi) da seguinte forma: ∑ xy = ∑ ( xi − x )( yi − y ) = n∑ xi ⋅ yi − (∑ xi )(∑ yi ) B= n ∑ xi 2 − ( ∑ xi ) 2 ∑ x2 ∑ ( xi − x ) 2 em que B é a melhor estimativa do DECLIVE DA RECTA ou COEFICIENTE DE REGRESSÃO, sendo que -∞ < B < +∞. A notação utilizada no termo intermédio, Σxy, indica o cálculo da soma dos produtos cruzados dos desvios da média. Sucintamente, pretende reflectir a distância em relação aos eixos dos pares de valores. Similarmente, a notação Σx2 refere-se à soma dos quadrados dos desvios de xi relativamente à media x . O termo final é designado por “fórmula de máquina” do declive. O declive pode entender-se como a variação de Y resultante dum incremento unitário de X. Se B > 0, então para aumentos de X, Y aumentará a quantidade B. Pelo contrário, se B < 0 então Y diminuirá com o incremento de X. Se B = 0, a recta será horizontal, ao nível de A, e pode “afirmar-se” que Y não varia relativamente a X. Demonstra-se matematicamente que o ponto ( X , Y ) , designado por centróide, faz sempre parte da recta ajustada através do método dos mínimos quadrados. Sendo assim, podemos substituir esse ponto na equação da recta e obter: Y = A+ B⋅ X ou, escrito de outra forma, A =Y − B⋅ X em que A é a melhor estimativa da INTERCEPÇÃO ou ORDENADA NA ORIGEM (ou seja, o valor de Y quando xi = 0). Outra formulação para o cálculo de A pode ser: A= (∑ xi )(∑ xi2 ) − (∑ xi )(∑ xi ⋅ yi ) n ∑ xi2 − (∑ xi ) 2 As equações apresentadas para calcular os parâmetros da recta dos mínimos quadrados derivam da resolução simultânea do SISTEMA DE EQUAÇÕES NORMAIS: ∑ yi = A ⋅ n + B ⋅ ∑ xi ∑ xi ⋅ yi = A ⋅ ∑ xi + B ⋅ ∑ xi2 Na Fig. 29 (painel superior esquerdo) representam-se um conjunto de n=4 pontos (xi, yi) num diagrama de dispersão. Os pares de dados são: (0,9;1,0), (3,4;2,1), (3,9;1,5) e (5,9;2,5). Podemos definir diferentes rectas e verificar como se ajustam aos dados. Para isso, calcule-se a SQ como medida “simples” do ajuste para: 1) Recta horizontal (y = 1,9): a soma dos quadrados dos desvios é dada por SQ=(1,0-1,9)2+(2,1-1,9)2+(1,5-1,9)2+(2,5-1,9)2 =1,37; 2) Recta oblíqua (y = 1,4 + 0,13 x): SQ=0,7+0,07+0,17+0,11=1,05; 3) Para determinar a recta dos mínimos quadrados, será necessário calcular previamente algumas quantidades: Σxi=14,1; Σyi=7,1; © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 60 x =3,53; y =1,78; Σ(xi·yi)=28,64 e, por fim, Σ(xi2)=62,39. Destas, obtém-se o declive: B =14,45/50,75=0,285 que define uma “família” de rectas possíveis. Sabe-se que a recta dos mínimos quadrados passa pelo ponto ( X , Y ) , pelo que se pode calcular a intercepção através da equação A=1,78–0,285(3,53)=0,77. A equação da recta dos mínimos quadrados é, então, Y=0,77+0,285X. Neste caso, a SQ=0,0007+0,1303+0,1455+0,0024=0,2789 (um valor bastante inferior aos obtidos anteriormente para as outras rectas propostas). 3 3 2 2 Y Y SQ=1,37 1 1 0 0 0 1 2 3 4 5 6 7 0 1 2 3 X 4 5 6 7 4 5 6 7 X 3 3 SQ=0,28 SQ=1,05 Y 2 Y 2 1 1 0 0 0 1 2 3 4 5 6 7 0 X 1 2 3 X Fig. 29 – Ilustração (adaptada de Neter et al.) das rectas que se podem ajustar a um conjunto de dados, incluindo a recta dos mínimos quadrados (com SQ=0,28). Indica-se a SQ para cada tentativa (cf. exemplo anterior). As linhas tracejadas destacam os erros. Os modelos de regressão linear simples necessitam que se verifiquem os seguintes PRESSUPOSTOS: 1) Para cada valor da variável independente X existem valores da variável dependente Y distribuidos normalmente (esta condição também pressupôe que para cada valor de X, ocorrem na população valores do erro, desvio ou resíduo ε distribuidos normalmente); 2) Assume-se que existe homogeneidade das variâncias nas distribuições de Y para cada valor de X; 3) A relação subjacente entre X e Y é linear ou, dito de outro modo, os vários valores de Y para cada X estão sobre uma linha recta; 4) Os valores de Y foram obtidos aleatoriamente da população e são independentes entre si; 5) As medições da variável independente X são obtidas sem erro (ou, pelo menos, com erro negligenciável). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 61 As pequenas violações destes pressupostos não afectam muito a validade dos resultados do método dos mínimos quadrados, pois tem sido demonstrada a “resistência” deste procedimento. Contudo, a observância destas condições contribui para a validade das conclusões que se obtiverem. Por outro lado, podemos resolver as violações de alguns dos pressupostos através da transformação dos dados (ver a seguir). [Resolver Exercícios – Capítulo VI] TRANSFORMAÇÃO DAS VARIÁVEIS NA REGRESSÃO É possível ultrapassar algumas dificuldades com o cumprimento dos pressupostos da regressão linear simples recorrendo à transformação das variáveis em estudo. Por exemplo, a transformação logarítmica pode ajudar a contornar problemas de não-homogeneidade das variâncias dos dados, isto é, de heteroscedasticidade de Y; tornando os dados mais homoscedásticos! Por outro lado, é possível estudar relações não-lineares entre variáveis utilizando técnicas de transformação de uma das variáveis ou de ambas (ver a seguir). Alguns autores advertem que, transformar os dados, originalmente conformes com os pressupostos, pode resultar em “novos” dados que não cumprem as condições e que, portanto, “impedem” a regressão linear simples com os dados transformados. Entre as várias transformações possíveis, log x , ln x, 1 x, x , x p , etc. , a TRANSFORMAÇÃO LOGARÍTMICA log x é das mais frequentemente utilizadas. Um teste prático para verificar se a transformação logarítmica é apropriada e beneficia a análise, é calcular a razão entre os valores máximo e mínimo duma dada variável. Se aquele quociente for superior a dez (ou seja, os valores observados variam mais do que uma ordem de grandeza), então é provável que a transformação dos dados seja benéfica para a posterior análise de regressão. 1) Se a relação estatística entre X e Y pode ser descrita matematicamente pela equação exponencial Yˆ = A ⋅ e B⋅ X , podemos utilizar os logarítmos naturais (logarítmos de base e, número neperiano) para transformar (“linearizar”) aquela equação da seguinte forma: ln Yˆ = ln( A ⋅ e B⋅ X ) ⇔ ln Yˆ = ln A + ln(e B⋅ X ) ⇔ ln Yˆ = ln A + B ⋅ X Obtém-se, assim, uma relação linear entre uma variável transformada ( ln Yˆ ) e outra “original” (X) (Fig. 30a, página seguinte). 2) Se a relação estatística entre X e Y pode ser descrita matematicamente pela equação potência, Yˆ = A ⋅ X B , poderemos transformar as variáveis recorrendo a logarítmos de base 10 da seguinte forma: log Yˆ = log( A ⋅ X B ) ⇔ log Yˆ = log A + log( X B ) ⇔ log Yˆ = log A + B ⋅ log X i.e. uma relação linear, agora entre ambas as variáveis transformadas ( log Yˆ e log X ) (Fig. 30b, página seguinte). COEFICIENTE DE CORRELAÇÃO LINEAR Até agora, discutiu-se a “forma” da relação estatística entre duas variáveis, isto é, pretendeuse conhecer como a variação de X se reflecte em Y. Para isso, tentou-se modelar a “relação de causa-efeito”, de forma a predizer o valor de Y a partir de X. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 62 (a) 8 Ln(x1000 UFC/mL) x1000 UFC/mL 1000 y = 13.068e0.216x 800 600 400 200 7 y = 0.216x + 2.570 6 5 4 3 2 1 0 0 0 5 10 15 0 20 5 10 Horas 15 20 Horas (b) 2.5 120 y = 1.463x + 1.547 y = 35.239x1.463 2.0 80 Log(Peso) Peso (kg) 100 60 40 1.5 1.0 0.5 20 0 0.0 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 0.0 Altura (m) 0.1 0.2 0.3 Log(Altura) Fig. 30 – Transformação de variáveis na análise de regressão. (a) Relação exponencial (com B>0) entre o tempo de incubação (horas) e nº de microrganismos (x1000 UFC/mL) “linearizada” através da transformação de Y em ln(Y); (b) Relação potência entre a altura (m) e peso (kg) de determinada amostra de alunos da EST “linearizada” pela transformação de X e Y em log(X) e log(Y). Contudo, a aplicação de qualquer “ferramenta preditiva” é sempre acompanhada pela compreensível preocupação de avaliar o respectivo “grau de precisão”. Na tentativa de quantificar o grau de associação, ou da “intensidade” da relação, entre duas variáveis verificase que os cálculos envolvidos são semelhantes aos explicitados para a regressão. De facto, essa é a razão pela confusão “matemática” entre os dois conceitos estatísticos, regressão e correlação. Simplisticamente, podemos dizer que com a regressão se pretende descrever a dependência da variável Y relativamente a X, de modo a predizer o valor de Y a partir de X. Com a correlação pretende-se avaliar o grau de interdependência, ou de covariação, entre as duas variáveis, não se sabendo, ou assumindo, qual a “variável-causa” ou a “variávelresposta/efeito” nem se descrevendo a relação. Covariação Define-se matematicamente a covariação para o par de valores xi e yi da seguinte forma: Covariação = ( xi − Ε{X })( y i − Ε{Y }) © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 63 O que se pretende quantificar é “o comportamento” ou a interdependência entre duas variáveis X e Y, isto é, se variam em conjunto (ou covariam). Este é o principal objectivo na análise de correlação e daí a importância do conceito de covariação. 1) Numa fábrica, a produção diária esperada dos produtos A e B é de 5 e 10 toneladas, respectivamente. Num determinado dia, foram produzidos 8 toneladas de ambos os produtos. A respectiva covariação foi nesse dia de: Covariação=(8–5)(8–10)=–6. Note-se que a covariação pode ser negativa, positiva ou nula. No caso, a covariação negativa indica que um dos produtos foi fabricado em maior quantidade que o esperado (o produto A neste caso) e outro em menor quantidade (o produto B). 2) Num determinado local, no dia 4 de Julho, esperava-se que a temperatura do ar atinjisse os 25 ºC e a humidade relativa fosse de 45%. A temperatura e humidade relativa registadas nesse dia foram, na realidade, 30 ºC e 70%, respectivamente. Agora, a covariação foi de: Covariação=(30–25)(70–45)=+125. Neste caso, a covariação positiva resulta de ambos os valores medidos excederem os valores esperados. Covariância De forma similar ao cálculo da variância, que recorre à soma dos quadrados dos desvios e ao tamanho da amostra (através dos graus de liberdade), é possível aperfeiçoar a medida de covariação. A COVARIÂNCIA é uma medida de associação entre duas variáveis aleatórias X e Y. O valor médio, ou esperança matemática, da distribuição de probabilidades da covariância de duas v.a. X e Y, isto é, a covariância média em provas aleatórias repetidas, designa-se por σ{X,Y} (nestes apontamentos seguiremos essa notação em vez de Cov{X,Y}), e depende da probabilidade com que xi e yi ocorrem simultaneamente. Pode obter-se a covariância para um conjunto de n pares de valores (X,Y), ou seja, n – 1 graus de liberdade, através de: σ {X ,Y } = ∑ xy = ∑ ( x n −1 i − x )( y i − y ) n −1 Interpretação da covariância A principal informação fornecida pela covariância acerca da associação entre X e Y está relacionada com o sinal de σ{X,Y}. Quando X varia inversamente com Y, σ{X,Y} é negativa. Quando X e Y variam “directamente”, σ{X,Y} é positiva. Quando X e Y são independentes, então σ{X,Y}=0. A magnitude de σ{X,Y} não providencia nenhuma informação sobre a associação entre as duas variáveis, uma vez que depende das unidades em que estão expressas as variáveis X e Y. Coeficiente de correlação linear Neste contexto, uma medida de associação entre duas variáveis deve ser independente da escala de medição original, de modo a ser possível comparar o grau de associação num determinado conjunto de pares de variáveis com a associação entre variáveis noutro conjunto. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 64 De facto, como a magnitude da covariância depende das unidades de X e Y não é possível fazer uma comparação directa entre vários pares de variáveis, ou seja, entre amostras. Um modo de contornar este problema, é tornar essa medida de associação independente das unidades, ou seja, dividir a covariância pelos desvios-padrão das variáveis X e Y, e deste modo padronizar os resultados. Assim, o COEFICIENTE DE CORRELAÇÃO LINEAR entre duas variáveis aleatórias X e Y designa-se por ρ{X,Y} (ρ lê-se “ró”) e expressa-se por: σ {X ,Y } ρ{ X , Y } = σ { X } ⋅ σ {Y } na prática, o quociente entre a covariância (no numerador) e o produto dos desvios-padrão das duas variáveis em estudo (no denominador). Interpretação do coeficiente de correlação Prova-se que ρ{X,Y} toma valores entre –1 (associação inversa “perfeita”) e +1 (associação directa “perfeita”), ou seja –1 ≤ ρ{X,Y} ≤ +1 O valor +1 é obtido quando existe uma relação funcional entre X e Y de tipo linear com declive B positivo, isto é, Y = A + B X. Para o valor –1 a relação será similar mas com B negativo. O resultado ρ{X,Y}=0 indica que não existe associação entre as variáveis X e Y, e diz-se que as duas variáveis aleatórias não estão correlacionados linearmente. Em resumo, quanto mais aproximado de ρ = 1 for o coeficiente de correlação linear, mais “forte” o grau de associação entre as duas variáveis aleatórias consideradas. Coeficiente de correlação linear amostral r Antes de mais, será apropriado desenvolver uma fundamentação que nos permita calcular o coeficiente de correlação r numa amostra. Assim, numa amostra constituida por n pares de valores (xi,yi) em que i=1, 2, …, n, pode calcular-se um estimador sem vício do COEFICIENTE DE CORRELAÇÃO r através de: r= ∑ (x ∑ (x i i − x )( y i − y ) − x) 2 ⋅ ∑(y i − y) 2 = n∑ xi ⋅ y i − (∑ xi )(∑ y i ) n∑ xi2 − (∑ xi ) 2 ⋅ n ∑ y i2 − (∑ y i ) 2 O desenvolvimento deste coeficiente deve-se a Karl Pearson (c. 1900), e alguns autores (particularmente os anglófonos) referem-se a esta quantidade como coeficiente de correlação do produto-momento. O termo final da equação apresentada é designado por “fórmula de máquina” e permite calcular o coeficiente de correlação a partir de quantidades entretanto calculadas para a obtenção da recta de regressão dos mínimos quadrados entre duas variáveis. Prova-se, aínda, que considerando os desvios-padrão amostrais das variáveis X e Y, sX e sY, podemos relacionar o coeficiente de correlação linear amostral r e a estimativa do declive da recta dos mínimos quadrados B através de: s r = B⋅ X sY © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 65 Prova de hipóteses sobre o coeficiente de correlação linear populacional ρ{X,Y} Não existem pressupostos para o cálculo do coeficiente de correlação, mas para a prova de hipóteses acerca do coeficiente de correlação linear populacional ρ{X,Y} é necessário cumprir algumas condições. Na regressão, assume-se que para cada valor de X os valores de Y correspondentes provêm de forma aleatória de uma população com distribuição normal. Em correlação, para além desse pressuposto, também se deve verificar que os valores de X são aleatoriamente obtidos de uma população com distribuição normal. Alguns autores referem que não se verificando estes pressupostos, mesmo aumentando o tamanho da amostra não é possível diminuir os efeitos adversos da “não-normalidade”. O coeficiente de correlação r da amostra é uma estimativa pontual do parâmetro da população ρ (ver secções “Estimação da média da população” e “Teste (ou Prova) de hipóteses”). O teste de hipótese mais comum acerca de ρ, é saber se o coeficiente de correlação da amostra r provém duma população com coeficiente de correlação ρ igual a zero7. Em termos mais simples, será que existe correlação linear entre as duas variáveis? Se existir correlação, então r será significativamente diferente de zero (que é o mesmo que concluir em favor de H1). As HIPÓTESES NULA E ALTERNATIVA são, neste caso particular: H0: ρ = 0 e H1: ρ ≠ 0. Ora, se a amostra “provém de uma população com distribuição normal”, isto é, tanto X como Y são variáveis aleatórias com distribuição normal então o ERRO-PADRÃO DO COEFICIENTE DE CORRELAÇÃO sr será igual a: 1− r2 sr = n−2 Recorde-se que o conceito de erro-padrão, ou de desvio-padrão de um parâmetro, foi introduzido quando se abordou a distribuição de x na amostragem (ver secção “Estimação da média da população”). Deve enfatizar-se que a expressão utilizada acima para calcular o erropadrão sr só se aplica quando pretendemos testar H0: ρ = 0 vs. H1: ρ ≠ 0. Os testes de hipóteses relativos ao coeficiente de correlação recorrem à transformação t de Student para n – 2 graus de liberdade seguinte: t [r ] = r s y . Assim, para testar as seguintes hipóteses: H0: ρ = 0 e H1: ρ ≠ 0 a regra de decisão será concluir H0 se L1 ≤ r ≤ L2; caso contrário, se r < L1 ou r > L2, rejeitar H0 (o mesmo que concluir H1). Para as hipóteses consideradas, os limites L1 e L2 obtêm-se através de: L1 = −t α n − 2,1− 2 1− r2 n−2 e L2 = +t α n − 2,1− 2 1− r2 . n−2 Um método simples de testar as hipóteses alternativas é comparar o valor de r obtido com o valor crítico na tabela de r (Tabela D, em anexo) para n – 2 graus de liberdade e um nível de significância α. Se | r | < r[n–2; α] concluir H0; caso contrário, rejeitar H0. Um outro procedimento para testar aquelas hipóteses, é calcular a estatística de teste t[r] e consultar a tabela t-Student (Tabela B anexa) para n – 2 g.l. Se | t[r] | > t [n −2;1−α 2 ] rejeitar H0, com (1 – α)100% de confiança. 7 Se ρ=0 então não existe correlação linear entre X e Y, aliás como se viu para a covariância. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 66 Para um r = 0,8652 baseado numa amostra de n = 12 pares de valores, testar as hipóteses H0: ρ = 0 e H1: ρ ≠ 0 com 95% de confiança. Uma vez que o valor crítico de t = 2,228, os limites L1 e L2 são –0,3533 e +0,3533, respectivamente. Como r>L2, rejeita-se H0, ou seja existe correlação linear entre as variáveis em causa (com 95% de confiança). Poderia consultar-se a tabela de r para n – 2 = 10 graus de liberdade. O valor crítico de r para um nível de significância de 5% é 0,576. Como o valor de r observado é superior ao valor crítico, rejeita-se H0. De outro modo, sabendo que o erro-padrão de r é dado por 1− 0,8652 2 r sr = = 0,1586 , então t [r ] = = 5,456 . 12 − 2 sr Consultando, neste caso, a tabela de t (Tabela B anexa) para α=0,05 e n–2 graus de liberdade, verificamos que o valor crítico de t = 2,228. Como o valor | tr |>tcrítico então rejeita-se a H0 com 95% de confiança. Confirmam-se, novamente, os resultados anteriores. COEFICIENTE DE DETERMINAÇÃO Podem estimar-se os parâmetros de uma recta que constitua o melhor modelo de relação estatística entre duas variáveis aleatórias. Pode-se, aínda, determinar o grau de associação das variáveis independentemente do modelo adoptado e testar se é significativamente diferente de zero. No entanto, não se abordou a “avaliação da significância” ou “utilidade” da equação da recta dos mínimos quadrados para descrever a relação estatística entre X e Y. Em virtude da complexidade dos conceitos e das técnicas envolvidas, relacionadas com a análise de variância (que não fazem parte do programa desta disciplina), este tópico será abordado, para já, apenas superficialmente. É possível interpretar os resultados do método dos mínimos quadrados de outro modo. A equação resultante permite “explicar parte da variabilidade de Y em termos de variação de X”. Analise-se, neste contexto, a Fig. 31. A variabilidade dos resultados observados pode ser decomposta em duas componentes. Uma parte está relacionada com os desvios dos valores observados, dos pontos (xi,yi), à recta estimada, ou sejam, as distâncias verticais Di = yi − yˆ i (por exemplo D7 na Fig. 31). A partir destes desvios obtém-se a soma dos quadrados dos erros (ou dos desvios) SQE. Esta porção da variabilidade “fica por explicar” depois de se ajustar o modelo de regressão. Outra parte da variabilidade pode ser medida pelas distâncias verticais d i = yˆ i − y (e.g. d7 na Fig. 31). Destas distâncias se obtém a soma dos quadrados da regressão SQR, que pretende quantificar a variabilidade “que é explicada” pela equação obtida8. Simplisticamente, podemos afirmar que a variação observada num determinado problema ou conjunto de dados9: Dados = Ajustamento + Resíduos É possível aproveitar aquela informação e determinar a proporção ou percentagem da variabilidade total de Y que é explicada pelo modelo de regressão. Esta quantidade designa-se por COEFICIENTE DE DETERMINAÇÃO r2. Este coeficiente pode ser entendido como um índice da “bondade” do ajuste do modelo que obtivemos por regressão, e calcula-se genericamente 8 Se as variáveis não estivessem relacionadas e Y não variasse em função de X, muito provavelmente o declive da recta de regressão seria (aproximadamente) igual a zero, ou seja, a recta seria horizontal (ao nível de y )! 9 Na “linguagem” da análise de regressão, a relação pode escrever-se: SQT = SQR + SQE, em que SQT se refere à variabilidade total observada num conjunto de dados. Esta relação designa-se “identidade da ANOVA”. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 67 através de: r2 = SQR SQT em que SQT = SQR + SQE (uma outra forma de escrever a relação Dados=Ajuste+Resíduos). 12000 y7 10000 (x7;y7) D7 { Peso (kg) 8000 } d7 y 6000 4000 2000 0 0 20 40 x 60 x7 80 100 Nº embalagens Fig. 31 – Diagrama de dispersão dos resultados relativos a duas v.a. X e Y. Ilustração dos conceitos envolvidos na obtenção de r2. O centróide está assinalado por um círculo. As linhas tracejadas mostram as coordenadas do centróide e do ponto de coordenadas (x7,y7). Destacam-se, ainda, as diferenças D7 e d7 relativas ao ponto (x7,y7). Para efeitos de cálculo, tem-se que: ( xy )2 ∑ 2 2 ∑x n x ⋅ y − x ⋅ y ( ) ∑ ∑ ∑ i i i i = r2 = 2 y n x 2 − ( x )2 ⋅ n y 2 − ( y )2 ∑ ∑ i ∑ i ∑ i ∑ i O coeficiente de determinação r2 é muito comum na literatura e é utilizado como medida da adequação (ou do ajuste) do modelo de regressão obtido. Pode entender-se como a proporção (ou percentagem) da variabilidade da v.a. Y que é explicada pela variável X de acordo com o modelo de regressão obtido (0 ≤ r2 ≤ 1). Curiosamente, o coeficiente de determinação pode ser obtido elevando r ao quadrado, daí a confusão em alguns textos sobre o seu significado. Na Fig. 32, apresentam-se diversos exemplos de rectas de regressão (método dos mínimos quadrados) e respectivos coeficientes de determinação. Os resultados da análise de regressão devem ser apresentados sobre a forma de equação, tamanho da amostra e coeficiente de determinação, por exemplo: Yˆ = 2,06 + 3,99·X (n = 25, r2 = 0,957). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 68 Deve, ainda, acrescentar-se a informação relativa à análise de variância da regressão (que testa a significância do modelo de regressão obtido) aos resultados indicados10. R2 = 1 Y Y R2 = 0 X X 2 Y Y R = 0.8508 R2 = 0.9176 X X Fig. 32 – Ilustração de várias rectas de regressão obtidas pelos métodos dos mínimos quadrados e respectivos coeficientes de determinação. Em jeito de conclusão, os conceitos e métodos apresentados para o estudo da relação estatística entre duas variáveis permitem responder as questões do tipo: que aspecto tem a relação estatística? (elaboração do diagrama de dispersão); qual o grau de associação entre as variáveis? (cálculo do coeficiente de correlação); qual o modelo que se ajusta melhor aos dados? (eventual transformação do dados para “linearizar” estatística, e posterior cálculo da recta dos mínimos quadrados); qual o “grau” de ajuste do modelo obtido aos dados? (cálculo do coeficiente de determinação). [Resolver Exercícios – Capítulo VI] 9. BIBLIOGRAFIA E MEDIAGRAFIA Escola Superior de Tecnologia do Instituto Politécnico de Setúbal – Matbib. Probabilidades e estatística. http://www.est.ips.pt/departamentos/sam/Matbib/ProbEsta.htm (consultado em 14/03/01) 10 A abordagem deste tópico, em particular, não faz parte do programa desta disciplna mas será tratado mais à frente no curso de Engenharia Alimentar (por exemplo, em Análise de Dados e Planeamento Experimental) e deve ser prática corrente em estudos que utilizem a análise de regressão. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 69 Grinsted, C.M. & J.L. Snell – Introduction to probability. University of Dartmouth. http://www.darmouth.edu/~chance/teaching_aids/books_articles/probability_book/pdf.h tml (consultado em 14/03/01) Neter J., Wasserman W. & G.A. Whitmore – Applied Statistics. 3rd Edition, Allyn and Bacon Inc., Boston, 997p. Reis E., Melo P., Andrade R. & T. Calapez – Estatística aplicada. Volumes I e II. Edições Sílabo, Lisboa, 266p. + 322p. Santos, F.B. – Cálculo de probabilidades. Plátano Editora, Lisboa, 319p. Siegrist, K. et al. – Virtual laboratories in probability and statistics. Department of Mathematical Sciences. University of Alabama in Huntsville. http://www.math.edu./stat (consultado em 14/03/01) Sokal, R.R. & F.J. Rohlf – Biometry. W.H. Freeman and Co., San Francisco, 776p. Spiegel, M.R. – Estatística. 2ª Edição, MacGraw-Hill, São Paulo, 454p. Tiago de Oliveira, J. – Probabilidades e estatística. Conceitos, métodos e aplicações. Volumes I e II. McGraw-Hill, Lisboa, 229p. + 295p. Zar, J. – Biostatistical analysis. 3rd Edition, Prentice Hall International Editions, USA, 662p. + App. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 70 EXERCÍCIOS I – AMOSTRA 1. Dê o domínio de cada uma das seguintes variáveis e diga se são variáveis discretas ou contínuas: a) Número G de litros de sumo de fruta num recipiente. b) Número B de caixas de laranjas num armazém. c) Soma S de pontos obtidos ao lançar um par de dados. d) Diâmetros D de 100 maçâs de calibre comercial "médio". e) Número T de toneladas de farinha de trigo produzidas numa moagem. f) Número C de decilitros de vinho em garrafas de vinho. 2. Na linha de enchimento de embalagens de manteiga de uma indústria de lacticínios, são retiradas periodicamente amostras para controlar o peso líquido do produto. Os pesos líquidos (em gramas) obtidos numa das amostras foram os seguintes: 256 215 276 256 260 270 280 246 234 273 214 272 293 258 229 284 218 Agrupe os dados em classes e calcule as frequências absolutas e absolutas acumuladas por classe (utilize a regra: nº classes = log2 n + 1 e os limites implícitos para cada classe). Represente graficamente as distribuições obtidas. 3. A percentagem de àgua em salsichas do tipo frankfurt é controlada, numa determinada fábrica, retirando periodicamente amostras de salsichas antes do enlatamento. Os resultados das análises químicas a 30 salsichas foram os seguintes: 62 70 62 64 62 71 71 68 66 62 67 72 71 61 64 72 68 72 62 68 62 62 63 66 64 71 62 64 62 61 Agrupe os dados em classes e calcule as frequências absolutas e relativas por classe (utilize a regra: nº classes = log2 n + 1 e os limites implícitos para cada classe). Represente graficamente as distribuições obtidas. 4. Ao controlar os pesos de embalagens de certo produto, obtiveram-se os seguintes valores (em kg): 16,1 15,9 15,8 16,3 16,2 16,0 16,1 16,0 16,0 16,1 16,0 15,9 16,1 16,0 16,0 15,9 Agrupe os dados em classes e calcule as frequências relativas e relativas acumuladas por classe (utilize a regra: nº classes = log2 n + 1 e os limites implícitos para cada classe). Represente graficamente as distribuições obtidas. 5. Cinco moedas foram lançadas 1000 vezes e, em cada lance, foi anotado o número de "caras". Os números de lances nos quais foram obtidas 0, 1, 2, 3, 4 e 5 "caras" estão indicados © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 71 na tabela seguinte: Número de "caras" Número de lances (frequência) 0 1 2 3 4 5 38 144 342 287 164 25 1000 Total a) Represente graficamente os dados incluidos na tabela. b) Represente numa tabela e graficamente a distribuição de frequências relativas acumuladas. 6. Foram seleccionados 18 provadores para avaliar sensorialmente o aroma de uma determinada marca de manteiga. Utilizou-se uma escala de 1 (aroma imperceptível) a 8 (aroma muito pronunciado). Represente graficamente a distribuição de frequências relativas das seguintes clasificações obtidas no teste: 7 6 7 3 6 6 7 7 6 7 7 4 5 8 6 4 6 6 7. Numa determinada fábrica, pretende-se conhecer a distribuição de frequências, por calibre comercial, de 1000 caixas de camarão refrigerado. Num estudo efectuado obtiveram-se os resultados incluidos na tabela seguinte (os calibres comerciais estão ordenados por ordem crescente de tamanho do camarão): Classificação comercial SS S Q K T TG Nº de caixas 10 70 60 200 640 20 a) Represente graficamente a distribuição de frequências absolutas acumuladas. b) Por leitura do gráfico, indique quantas caixas existem com camarão de tamanho inferior ou igual a S; inferior ou igual a T; e superior a K. 8. Uma amostra é constituída pelos seguintes valores: x1=3 x2=1 x3=2 x4=3 x5=4 x6=5 x7=5 x8=5 x9=9 a) Qual é o tamanho da amostra n? b) Calcule as seguintes medidas: média, mediana, moda, menor valor (mínimo), maior valor (máximo), amplitude total, variância, desvio-padrão e coeficiente de variação. 9. Duas amostras são constituidas pelos seguintes valores: Amostra #1: 0,9 1,2 1,2 1,3 1,3 1,4 1,4 1,4 1,6 Amostra #2: 1,1 1,1 1,2 1,3 1,3 1,3 1,4 1,4 1,5 Para cada amostra calcule a média (sem agrupar os dados) e a amplitude (como medida de dispersão das observações). Comente os resultados. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 72 10. Calcule a média, a mediana, o desvio-padrão e o coeficiente de variação para: a) a tabela obtida na questão 2; b) os resultados do problema 3; c) a tabela obtida na questão 4. 11. Utilizando os dados e os resultados do problema 3 calcule: a) A média, a variância e o desvio-padrão sem agrupar os dados. b) A média, a variância e o desvio-padrão com base nos dados agrupados. c) Compare e comente os resultados obtidos nas alíneas anteriores. d) Determine a mediana utilizando a equação proposta na aula e o polígono de frequências relativas acumuladas. Compare os resultados obtidos pelos dois métodos. 12. Uma amostra de comprimentos de peixe, medidos em cm, foi resumida na seguinte tabela: Classes de comprimento (cm) Nº de indivíduos 10,5 – 12,5 12,5 – 14,5 14,5 – 16,5 16,5 – 18,5 18,5 – 20,5 20,5 – 22,5 22,5 – 24,5 24,5 – 26,5 26,5 – 28,5 28,5 – 30,5 30,5 – 32,5 32,5 – 34,5 34,5 – 36,5 36,5 – 38,5 2 2 6 8 10 10 36 46 22 6 4 8 6 2 a) Qual é o intervalo das classes de comprimento? E o ponto médio de cada classe? b) Calcule a média, a mediana, a variância, o desvio-padrão e o coeficiente de variação da amostra. c) Desenhe o histograma da distribuição das frequências relativas e relativas acumuladas da amostra, em papel milimétrico. d) Desenhe o polígono de frequências relativas acumuladas da amostra em papel milimétrico. e) Ajuste "a olho" uma curva ao polígono de frequências desenhado. f) Com a curva traçada, determine o comprimento para o qual 25% dos elementos da amostra são inferiores (quantil de ordem 25% ou 1º quartil). g) Determine o quantil de ordem 50% (mediana) e compare com o resultado obtido em b). h) Marque os quantis de ordem 16% e 84%. Qual é o intervalo de comprimentos compreendido entre os quantis obtidos? i) Calcule as ordens de quantil correspondentes aos comprimentos x + s, x - s, x + 2s, x - 2s, x + 3s e x - 3s . © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 73 j) Calcule a percentagem de elementos da amostra cujos comprimentos estão compreendidos entre x + 2s e x - 2s. II – PROBABILIDADES (VARIÁVEIS DISCRETAS) 1. Uma urna de paredes não transparentes contém 6 bolas vermelhas, 4 bolas brancas e 5 bolas azuis, que não se distinguem pelo tacto. Se retirar uma bola da urna, determine a probabilidade de: a) ser vermelha; b) ser branca; c) ser azul; d) não ser vermelha; e) ser vermelha ou branca. 2. Determine a probabilidade de cada um dos seguintes eventos: a) surgir um número ímpar num único lance de um dado honesto; b) ocorrer, pelo menos, uma "cara" em dois lançamentos de uma moeda honesta; c) aparecer o total 7 num único lançamento de dois dados; d) surgir o total 2 ou 6 ou 10 num único lançamento de dois dados; e) aparecer o total 11 num único lançamento de dois dados, em que um deles está viciado em favor do “seis” [P(1)=P(2)=P(3)=P(4)=P(5)=0,16 e P(6)=0,20 em vez de P(i)=0,166(6)]. 3. No lançamento simultâneo de dois dados, considere o evento "soma dos pontos". a) Classifique a variável X ("soma dos pontos") e determine os resultados possíveis; b) Calcule a probabilidade da "soma dos pontos" ser igual a 2 ou 6 ou 10; c) E qual é a probabilidade da "soma dos pontos" ser diferente de 2 ou 6 ou 10? 4. Considere uma população em que a variável X tem a seguinte distribuição de probabilidades: 2 4 xi P(X=xi) 0,9 0,1 a) Calcule E{X} e V{X}. b) Indique todas as amostras possíveis, seleccionadas com reposição, de tamanho n=2. c) Calcule a média de cada amostra e a probabilidade de ocorrer cada um desses valores. 5. Considere uma população em que a variável Y tem a seguinte distribuição de probabilidades: 0 1 2 3 4 yi P(Y=yi) 0,15 0,25 0,30 0,20 0,10 a) Represente graficamente as funções densidade e distribuição de probabilidades. b) Calcule E{Y}, V{Y} e {X } . c) Indique todas as amostras possíveis, seleccionadas com reposição, de tamanho n=2. d) Calcule a média de cada amostra e a probabilidade de ocorrer cada um desses valores. 6. Considere uma urna com 6 bolas marcadas com os números 2, 6, 8, 10, 10 e 12. Se dessa urna retirar uma bola, observar e anotar o número marcado, repuser a bola na urna e retirar © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 74 novamente uma bola, os números anotados constituem uma amostra de tamanho n=2 da variável X. a) Construa o espaço amostral. b) Calcule a probabilidade do evento "média da amostra igual a 10". c) Calcule a probabilidade do evento "variância da amostra igual a 8". 7. Duas máquinas A e B funcionam de forma independente uma da outra. No quadro seguinte, indicam-se as probabilidades de se verificar o número referido de avarias para cada máquina, no decurso de um dia de trabalho. Nº de avarias A B 0 0,1 0,3 1 0,2 0,32 2 0,3 0,1 3 0,2 0,08 4 0,09 0,1 5 0,07 0,05 6 0,04 0,05 Calcule: a) a probabilidade do nº de avarias em A ser superior a dois; b) a probabilidade do nº total de avarias num dia de trabalho ser inferior a três; e c) o nº médio de avarias em cada uma das máquinas. III – PROBABILIDADES (DISTRIBUIÇÕES TEÓRICAS DE VARIÁVEIS DISCRETAS) 1. a) Qual é a probabilidade de obter exactamente 2 "caras" em 6 lances de uma moeda nãoviciada? b) Qual é a probabilidade de obter, pelo menos, 4 "caras" em 6 lances de uma moeda não-viciada? c) Em 100 lançamentos de uma moeda não-viciada, qual é o número esperado de "caras"? 2. Considerando que 20% dos pacotes de leite embalados por uma máquina são defeituosos, determine a probabilidade de, entre 4 pacotes, ocorrer: a) 1 defeituoso; b) 0 defeituosos; c) no máximo 2 pacotes defeituosos. 3. Se a probabilidade de ocorrer um pacote de leite defeituoso é apenas de 10%, determine E{X} e V{X} para uma amostra de 400 pacotes. 4. Supondo que a v.a. X tem distribuição binomial, com parâmetros n e p, e que E{X}=5 e V{X}=4, determine n e p. 5. De uma urna com 6 bolas verdes e 2 bolas brancas, fazem-se 4 extracções repondo, em cada extracção, a bola na urna. a) Determine E{X} de saída de bola verde. b) Determine a probabilidade do valor médio da distribuição de probabilidades. 6. Considere-se X uma variável aleatória de distribuição binomial e E{X}=4 e V{X}=8/3. Calcule n, p e q. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 75 7. Considere o lançamento de uma moeda não-viciada. Calcule a probabilidade de, em seis lançamentos: a) Sairem 0, 1, 2, 3, 4, 5 e 6 "coroas". b) Saírem, no máximo, 4 "coroas". c) Qual o número esperado de "coroas" nos 6 lançamentos? d) Represente a função densidade de probabilidade da variável em questão. 8. Uma empresa comercializa garrafas de vinho de 1 litro. Supôe-se, no entanto, que 40% dessas garrafas contém realmente uma menor quantidade de líquido do que o volume indicado no rótulo. Tendo adquirido 6 dessas garrafas, qual a probabilidade de: a) Duas delas conterem menos de um litro? b) No máximo 2 conterem menos de um litro? c) Pelo menos 2 conterem menos de um litro? d) Todas conterem menos de um litro? e) Todas conterem o volume indicado no rótulo? f) Represente a função densidade de probabilidade da variável em questão. 9. Determine a probabilidade de, ao lançar 30 vezes uma moeda, sairem 2 "caras". Determine o desvio-padrão da distribuição de probabilidades. 10. Uma máquina de colocar rótulos em garrafas de vinho não está correctamente calibrada e origina 3% de garrafas com rótulo mal colocado. Determine a probabilidade de, em 150 garrafas, 4 serem defeituosos. 11. Numa fábrica, 1% dos produtos elaborados são defeituosos. Se seleccionar aleatoriamente uma amostra de 10 elementos, calcule a probabilidade de: a) Não existir nenhum elemento defeituoso nessa amostra. b) Existir um elemento defeituoso na amostra. c) Existir, no máximo, um elemento defeituoso nessa amostra. 12. Numa linha de enchimento de frascos de compota, a falta de calibração da máquina origina diariamente 6% de frascos com menos produto do que o pretendido. Se fôr seleccionada aleatoriamente uma amostra de 15 frascos, determine a probabilidade de: a) Nenhum frasco ser defeituoso. b) No máximo, 3 frascos terem menos do que o pretendido. 13. Uma fábrica de embalagens, utilizadas para determinado produto alimentar, sabe que em cada 100 produz duas defeituosas. a) Qual é a probabilidade de um cliente ao comprar 100 embalagens receber todas sem defeito? b) Qual a probabilidade de receber, nessa mesma compra, pelo menos 3 embalagens defeituosas? © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 76 IV – PROBABILIDADES (VARIÁVEIS CONTÍNUAS) 1. Calcule, com a ajuda de tabelas, a probabilidade de Z ser: a) Menor do que +1; b) Menor do que 0; c) Menor do que +2; d) Menor do que +1,96; e) Menor do que +3. 2. Com a ajuda da tabela de Z, calcule: a) Prob{1 < Z < 2}; b) Prob{Z > +0,84}; c) Prob{Z < -0,84}. 3. Com a ajuda da tabela de Z, calcule: a) Prob {-1 < Z < +1}; b) Prob{-2 < Z < +2}; c) Prob{-1 < Z < +3}; d) Prob{-1,96 < Z < +1,96}. 4. Calcule o valor de zi tal que: a) Prob{Z < zi}=0,9918; b) Prob{-zi < Z < +zi}=0,95. 5. Considere a variável X com distribuição normal, de média µ=3 e variância σ2=4. Calcule, recorrendo à distribuição normal reduzida e com a ajuda da tabela de z, a Prob{X < 5}. 6. Considere que uma composição de diâmetros de ameixas segue uma distribuição normal de média µ=5 cm e variância σ2=5,25 cm2. Calcule: a) A probabilidade das ameixas terem diâmetros compreendidos entre 3,5 cm e 8 cm. b) A probabilidade das ameixas terem diâmetro maior do que 9,5 cm. c) A probabilidade das ameixas terem diâmetro menor do que 3,5 cm. d) O diâmetro abaixo do qual se encontram 95% das ameixas. e) O diâmetro acima do qual se situa metade da composição de tamanhos das ameixas. f) O diâmetro que corresponde ao quantil de ordem 28%. 7. Considere a v.a. X com distribuição normal de média µ=5 e variância σ2=9. Calcule A de modo que Prob{5-A < X < 5+A} seja igual a: a) 68%; b) 95%; c) 99%. 8. Calcule A de modo que: a) Prob{-A < t <+A}=95% com g.l.=5. b) Prob{t > A}=2,5% com g.l.=8. c) Prob{t < A}=95% com g.l.=60. 9. Com a ajuda da tabela de t, calcule: a) O valor de x tal que Prob{t < x}=0,95 com 40, 60, 120 e ∞ graus de liberdade. b) Compare os valores de x obtidos na alínea anterior com valor de x que se obtém a partir de Prob{Z < x}=0,95. 10. Considere a distribuição de t para 12 g.l. Determine o valor de ti para o qual Prob{t < ti} é igual a: a) 0,95; b) 0,90; c) 0,55. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 77 11. Determine os valores críticos de t para os quais a área da extermidade direita da distribuição de t é 0,05 quando: a) g.l.=16; b) g.l.=27; c) g.l.=120. 12. O gráfico da distribuição t, com 9 g.l., está representado na figura seguinte. Determine os valores de t1 para os quais: a) A área sombreada à direita = 0,05. b) A área sombreada total = 0,05. c) A área em branco = 0,99. d) A área sombreada à esquerda = 0,01. e) A área à esquerda de t1 = 0,90. 13. Para a distribuição normal reduzida, os valores de zi que satisfazem a afirmação probabilística Prob{-zi < Z < +zi}=0,95 são + 1,96. Para a distribuição t, quais são os valores correspondentes quando: a) g.l.=9; b) g.l.=20; c) g.l.=30; d) g.l.=60. 14. Admite-se que o tempo de espera num determinado consultório (v.a. X) se distribui normalmente. Num dia, seleccionado aleatoriamente, registaram-se os tempos de espera de onze utentes, calculando-se um tempo médio de x = 41 min e ∑ ( xi − x ) 2 = 1690 . a) No máximo, quanto tempo esperará 90% dos utentes daquele consultório? b) E qual é o tempo mínimo de espera para 95% dos utentes? V – AMOSTRAGEM ALEATÓRIA, ESTIMAÇÃO DE PARÂMETROS E TESTES DE HIPÓTESES 1. Considere a seguinte população estatística, constituida pelas alturas (em cm) de 39 alunos de Estatística do ano lectivo 1992/93 (ver quadro na página seguinte). a) Calcule para a população a média µ, a variância σ2 e o desvio-padrão σ. b) Seleccione 5 amostras com critério aleatório simples de tamanho n=12, com reposição. Calcule para cada amostra a média x e o desvio-padrão s (Utilize a tabela de números aleatórios; Tabela C anexa, para obter as amostras). c) Para cada amostra, determine uma estimativa pontual e uma estimativa por intervalo de confiança da média da população µ. Compare estas estimativas com o valor de µ calculado anteriormente. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar Nº de ordem 1 2 3 4 5 6 7 8 9 10 Altura (cm) 162 170 165 160 157 168 160 158 156 162 Nº de ordem 11 12 13 14 15 16 17 18 19 20 Altura (cm) 163 174 182 162 184 176 158 153 165 166 78 Nº de ordem 21 22 23 24 25 26 27 28 29 30 Altura (cm) 174 160 170 165 185 172 157 156 167 156 Nº de ordem 31 32 33 34 35 36 37 38 39 Altura (cm) 180 153 163 161 172 182 172 160 170 2. Pretende-se estimar, com uma confiança de 95%, a média µ de uma população cuja variância σ2=4. Seleccionou-se, aleatoriamente e com reposição, uma amostra de tamanho n=16. A média da amostra foi x =6,8. Apresente uma estimativa pontual de µ e uma estimação por intervalos de confiança. 3. Pretende-se estimar a média µ de uma população com uma confiança de 95%, utilizando como estimador a média de uma amostra seleccionada com critério aleatório simples, com reposição. Assim, recolheram-se 10 elementos com esse critério, obtendo-se os seguintes valores: 12, 15, 8, 10, 6, 8, 18, 7, 15 e 11. a) Calcule a média e a variância da amostra. b) Calcule um valor aproximado da variância das médias na Amostragem. c) Calcule um valor aproximado do erro-padrão das médias na Amostragem. d) Calcule o intervalo de confiança de 95% de µ. 4. Determine o tamanho da amostra n de modo a estimar a média de uma população µ, sabendo que a sua variância σ2=40 e que o intervalo de confiança de 95% tem amplitude h=4. 5. Considere uma população com distribuição normal e σ2=0,97, a partir da qual foi seleccionada, por amostragem aleatória simples com reposição, uma amostra de n=9 elementos. Os valores obtidos foram os seguintes: 10, 12, 14, 11, 15, 14, 10, 13 e 15. a) Apresente uma estimativa pontual da média da população. b) Apresente estimativas pontuais da variância e do erro-padrão das médias na Amostragem. c) Calcule o intervalo de 95% de confiança da média da população µ. d) Calcule a amplitude h do intervalo de confiança obtido na alínea anterior. e) Se se pretender estimar a média populacional com uma amplitude igual a metade da amplitude calculada na alínea anterior, mantendo o nível de confiança de 95%, qual o tamanho aproximado da amostra n que se deveria considerar? f) Com base nos resultados da alínea anterior, que conclusão poder retirar da relação existente entre a precisão do intervalo de confiança (amplitude h) e o tamanho da amostra, para o © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 79 mesmo nível de confiança? g) Repita os cálculos da alínea c) supondo que a variância da população não é conhecida. h) Comente os resultados obtidos nas alíneas c) e g), explicando também a diferença entre elas. 6. Sabe-se, por experiência, que numa moagem o número de sacos de farinha cheios por hora por uma máquina tem distribuição aproximadamente normal. Em nove dias escolhidos aleatoriamente foi realizado o controlo do número de sacos cheios durante uma hora, tendo-se obtido os seguintes resultados: 9 9 i =1 i =1 ∑ xi = 10206 e ∑ ( xi − x ) 2 = 25688 a) Construa um intervalo de confiança de 95% para o número médio de sacos cheios por hora na fábrica. b) Construa um intervalo de confiança de 95% para o mesmo parâmetro, considerando agora que σ=60. c) Comente os resultados obtidos, explicando também a diferença entre eles. 7. Certo equipamento de empacotamento automático encontra-se regulado para encher embalagens de 1 kg de determinado produto. O seu deficiente funcionamente origina prejuízo para a empresa: se a maíoria das embalagens tem peso inferior ao estabelecido, haverá reclamações por parte dos clientes e perda de prestígio; peso excessivo será, por outro lado, “anti-económico”. Aceita-se, da experiência passada, que o peso das embalagens se comporta de acordo com a distribuição normal de σ=12 g. Para verificar a afinação do equipamento, seleccionaram-se, em certo periodo, nove embalagens cujos pesos foram anotados (em gramas): 983, 976, 1004, 992, 997, 983, 1011, 1000 e 998. a) Construa intervalos de confiança para a média populacional com os seguintes níveis de confiança: 90%, 95% e 99%. Como varia a precisão dos intervalos (a sua amplitude h) com o grau de confiança escolhido? b) Suponha que, em vez da amostra de nove elementos, tinha sido obtida uma outra aomstra com 100 embalagens, que após os necessários cálculos, tinha fornecido um peso médio x =994 g. Construa um novo intervalo de confiança de 95%, com base nesta segunda amostra. Explique a diferença obtida com o aumento do tamanho da amostra. c) Qual deverá ser o tamanho da amostra n a recolher, de tal forma que a amplitude do intervalo de 95% confiança seja h=2? 8. O conteúdo (em litros) de garrafas de óleo alimentar segue distribuição normal. Admita-se que os respectivos parâmetros são µ=0,99 litro e σ=0,02 litro. Nestas condições, qual é a probabilidade de: a) O conteúdo médio numa amostra de 16 garrafas seleccionadas para inspecção ser superior a 1 litro? b) Numa amostra de 100 garrafas o conteúdo médio ser inferior a 9,85 dl? c) Tendo recolhido uma amostra de 100 garrafas e determinado um conteúdo médio inferior a 9,85 dl, que pensaria da hipótese avançada de início (isto é, µ=0,99 litro)? d) Encontre um intervalo de confiança tal que a probabilidade de x100 nele estar contida seja © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 80 de 0,95, isto é encontrar a e b tais que Prob{a < x100 < b}=0,95. 9. Supôe-se que a média de uma população é µ=50 cm. Seleccionou-se uma amostra de tamanho n=10 com um critério a.s. com reposição. Obtiveram-se os seguintes valores: x = 53 cm e s=3 cm. Para um nível de confiança de 99%, verifique se a suposição inicial feita sobre a média populacional é verdadeira. 10. Um engenheiro alimentar estudou um processo de reduzir a gordura de um tipo de queijo, de modo a poder ser consumido por determinado tipo de doentes. Para verificar se o queijo fabricado pelo novo processo contém, em média, menos de 10% de gordura, o engenheiro pretende realizar um teste de hipóteses com base na percentagem média de gordura obtida numa amostra seleccionada aleatoriamente. Assim, verificou-se que, numa amostra de 24 queijos, a percentagem média de gordura era de 9,7% e que o desvio-padrão era de 1,4%. a) O que pensar do processo de redução de gordura no queijo proposto pelo engenheiro (com confiança de 99%)? b) Dos dois erros de inferência prováveis de ocorrer neste teste de hipóteses, qual lhe parece ser "o mais perigoso"? 11. Uma fábrica de pasta tomate deve produzir este produto com um pH médio de 4,5. Sabese que o processo de produção tem σ=0,25. Para poder controlar o valor da média de pH seleccionou-se, com critério a.s., uma amostra de 10 embalagens, nas quais foi medido o pH. Obtiveram-se os seguintes resultados: 4,1 4,2 4,8 4,0 4,2 3,9 4,0 4,7 4,2 4,3 Com uma confiança de 95% pode-se concluir que a pasta de tomate está a ser produzida com a característica da qualidade indicada? 12. A dose diária recomendada (DDR) de cálcio para adultos da classe etária 25 – 50 anos é 800 mg. Duma população Algarvia, seleccionaram-se com critério a.s., treze indivíduos desse intervalo de idades, para os quais se determinou a quantidade daquele mineral que ingerem por dia. Os valores (em mg) para essa amostra da população foram: 987, 888, 741, 698, 654, 666, 678, 543, 567, 555, 639, 693 e 654. a) Será que as pessoas ingerem menor quantidade de cálcio do que a DDR? b) Noutra população, a quantidade média de cálcio ingerida (obtida a partir duma amostra a.s. de vinte adultos) foi de 876 mg (com s = 54 mg). Será que nesta população se ingere mais cálcio do que a dose diária recomendada? VI – REGRESSÃO LINEAR SIMPLES E CORRELAÇÃO 1. Considere o seguinte conjunto de 4 pontos [ou pares de dados (xi, yi)]: (9; 10), (34; 21), (39; 15) e (59; 25). a) Represente graficamente aquele conjunto de pontos em papel milimétrico. b) Que relação parece existir entre os pontos? c) Calcule a recta dos mínimos quadrados (que melhor se ajusta aos dados). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 81 2. Para elaborar uma recta de calibração que permita quantificar a quantidade de amónia em amostras de àgua obtiveram-se os seguintes pares de valores: Concentração (X em mM) ABS (Y x 10-3) 10 182 20 332 30 571 40 699 a) Construa o diagrama de dispersão e ajuste uma recta dos mínimos quadrados aos dados. b) Qual a ABS duma solução com 25 mM de amónia? c) Se, numa amostra, a ABS for de 432 (x10-3), qual a concentração de amónia em solução? d) Calcule o coeficiente de correlação linear entre as variáveis. e) Teste, com 95% de confiança, se existe correlação linear? f) Calcule o coeficiente de determinação e interprete o resultado. 3. Durante uma experiência preliminar de cultivo de uma espécie de camarão para eventual produção em larga escala, obtiveram-se as seguintes taxas de crescimento médio (em percentagem) para determinadas temperaturas da água dos tanques: Temperatura (X em ºC) Taxa de crescimento (Y em %) 15 8,9 18 9,5 21 13,1 24 14,2 a) Construa o diagrama de dispersão e ajuste uma recta dos mínimos quadrados aos dados. b) Qual a taxa de crescimento se a temperatura da água for de 2º C? c) Para se atingir uma taxa de crescimento de 10%, qual deverá ser a temperatura da água nos tanques? d) Calcule o coeficiente de correlação linear entre as variáveis. e) Teste, com 95% de confiança, se existe correlação linear? f) Calcule o coeficiente de determinação e interprete o resultado. 4. Numa escola, pretende-se verificar se existe alguma relação entre a altura (em cm) e o peso (em kg) dos estudantes. Com esse objectivo, foram seleccionados aleatoriamente 100 alunos, tendo-se obtido os seguintes pesos médios para diferentes valores de alturas: Altura Peso médio 155 70 150 63 180 72 135 60 156 66 168 70 178 74 160 65 132 62 145 67 139 65 152 68 a) Construa o diagrama de dispersão dos dados em papel milimétrico, considerando a altura como variável independente. Que tipo de relação parece existir entre as duas variáveis? b) Ajuste uma recta dos mínimos quadrados aos dados da tabela. c) Calcule o coeficiente de correlação linear r e verifique se é significativamente diferente de zero, para um nível de significância de 5%. Que conclusão pode retirar da relação entre a altura e o peso dos estudantes? d) Que percentagem da variabilidade de Y é explicada pelo modelo de regressão obtido? © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 82 5. O número médio de bactérias por unidade de volume existente numa cultura depois de x horas é apresentado na tabela seguinte: Nº horas (X) Nº Bactérias (Y x104) 0 32 1 35 2 65 3 80 4 120 5 195 6 275 a) Construa o diagrama de dispersão dos dados em papel milimétrico. Que tipo de relação parece existir entre as duas variáveis? b) Calcule o logarítmo neperiano dos valores do número médio de bactérias por unidade de volume. Construa novo diagrama de dispersão, agora com os valores de tempo (Nº horas) e o logarítmo neperiano do número de bactérias, isto é, “gráfico de X versus ln(Y)”. Que tipo de relação parece existir entre o tempo e ln(nº bactérias)? c) Ajuste uma recta dos mínimos quadrados aos dados obtidos na alínea anterior. d) Calcule o coeficiente de correlação linear r. Com uma confiança de 95% e de 99%, verifique se r é diferente de zero. Que conclusão pode retirar da relação entre o tempo e e número de bactérias? e) Calcule o coeficiente de determinação e interprete o resultado que obteve. f) Estime o número esperado de bactérias ao fim de 7 horas de incubação da cultura. 6. A tabela seguinte inclui os valores experimentais da pressão P (em lb/in2) e respectivo volume V (in3) de uma dada massa de gás. Volume Pressão 54,3 61,2 61,8 49,5 72,4 37,6 88,7 28,4 118,6 19,2 194,0 10,1 a) Construa o diagrama de dispersão a partir dos dados da tabela, considerando o volume como a variável independente. Que tipo de relação parece existir entre as duas variáveis? b) Logaritmize os valores obtidos para ambas as variáveis e represente os resultadostransformados num novo diagrama de dispersão. Que relação parece extir entre as variáveistransformadas? c) Ajuste uma recta dos mínimos quadrados aos resultados da alínea anterior e verifique se existe correlação linear entre log(Pressão) e log(Volume). d) Verifique que, entre P e V, existe uma relação da forma PVγ=C, em que γ e C são constantes. Determine os valores de γ e C. e) Calcule o coeficiente de determinação e interprete o resultado que obteve. f) Estime o valor da pressão para V=100 in3. © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 83 VII – SOLUÇÕES DOS EXERCÍCIOS I - Amostra. 1. a) G={qualquer valor desde zero até à capacidade máxima do recipiente}; var. contínua. b) B={0, 1, 2, ... até ao máximo de caixas armazenáveis}; var. discreta. c) S={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}; var. discreta. d) D ∈ [limíte inferior, limite superior]; var. contínua. e) T ∈ R+; var. contínua. f) C ={qualquer valor desde zero até à capacidade máxima da garrafa}; var. contínua. 2. Classes 213,5 – 229,5 229,5 – 245,5 245,5 – 261,5 261,5 – 277,5 277,5 – 293,5 5. Pi 221,5 237,5 253,5 269,5 285,5 F 4 1 5 4 3 Facum 4 5 10 14 17 Nº de "caras" 0 1 2 3 4 5 3. Classes 60,5 – 62,5 62,5 – 64,5 64,5 – 66,5 66,5 – 68,5 68,5 – 70,5 70,5 – 72,5 Pi 61,5 63,5 65,5 67,5 69,5 71,5 f 0,37 0,17 0,07 0,13 0,03 0,23 Facum 11 16 18 22 23 30 4. Classes 15,75 – 15,87 15,87 – 15,99 15,99 – 16,11 16,11 – 16,23 16,23 – 16,35 Pi 15,81 15,93 16,05 16,17 16,29 f 0,06 0,19 0,63 0,06 0,06 facum 0,06 0,25 0,88 0,94 1,00 6. Escala 1 2 3 4 5 6 7 8 © Eduardo Esteves, 2007 f 0,000 0,000 0,056 0,111 0,056 0,389 0,333 0,056 facum 0,038 0,182 0,524 0,811 0,975 1,000 Métodos Estatísticos – Engenharia Alimentar 7. a) Classes comerciais SS S Q K T TG 84 b) n(≤S)=80, n(≤T)=980, n(>K)=660. Facum 10 80 140 340 980 1000 8. a) n=9 b) x =4,11; M=4; moda= 5; mínimo=1; máximo=9; h=8; σ2=5,3611; σ=2,3154; c.v.=56,32% 9. Amostra #1: x =1,3 e h=0,7; 10. a) M=256,7 Amostra #2: x =1,3 e h=0.4. b) M=64,1 11. a) x =65,7; σ2=15,65; σ=3,96 c) M=16,00 b) x =65,5; σ2=16,55; σ=4,07 d) M=64,1 12. a) 2 cm; 11,5 cm; 13,5 cm; 15,5 cm...; 33,5 cm; 35,5 cm; 37,5 cm. b) x =24,86 cm; s2=24,638 cm2; s=4,964 cm; c.v.=19,97% f) 21,7 cm g) 23,9 cm h) [19,1 cm; 27,3 cm] i) x + s = 29,8 cm → 88%; x - s = 19,9 cm → 18%; x + 2s = 34,8 cm → 98%; x - 2s = 14,9 cm → 5%; x + 3s = 39,7 cm e x - 3s = 9,98 cm (estes últimos resultados encontram-se fora dos limites dos dados) j) 93% II – Probabilidades (variáveis discretas) 1. a) P{"vermelha"}=2/5 d) P{~"vermelha"}=3/5 b) P{"branca"}=4/15 e) P{"vermelha ou branca"}=2/3 2. a) P{“impar”}=1/2 b) P{“cara”}=3/4 e) P{“total=11”}=3/50=0,06 c) P{"azul"}=1/3 c) P{“total=7”}=1/6 d) P(total=2; 6 ou 10)=2/9 3. a) X – Variável discreta; xi = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 b) P{soma=2 ou 6 ou 10}=2/9 c) P{soma≠2 ou 6 ou 10}=3/4 4. a) E{X}=2,2; V{X}=0,36 b) S={(2,2), (2,4), (4,2), (4,4)} © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 85 c) P{ x =2}=0,81; P{ x =2}=0,18; P{ x =2}=0,01 5. b) E{X}=1,85; V{X}=1,428; √V{X}=1,195 6. b) P{ x =10}=1/6 c) P{σ2=8}=2/9 7. a) P{X<3}=0,286 b) E{XA}=2,35 e E{XB}=1,71 III – Probabilidades (distribuições teóricas de variáveis discretas) 1. a) P{X=2}=0,2344 b) P{X=4}=0,3438 c) E{X}=50 2. a) P{X=1}=0,4096 b) P{X=0}=0,4046 c) P{X≤2}=0,9728 3. E{X}=40; V{X}=36 4. n=25; p=1/5 5. a) E{X}=3 b) P{X=E{X}}=0,4219 6. n=12; p=1/3; q=2/3 7. a) P{X=0}=0,0156; P{X=1}=0,0938; P{X=2}=0,2344; P{X=3}=0,3125; P{X=4}=0,2344; P{X=5}=0,0938; P{X=6}=0,0156 c) E{X}=3 b) P{X≤4}=0,8907 8. a) P{X<1 l}=0,3110 d) P{X<1 l}=0,0041 b) P{X≤2 l}=0,5443 e) P{X=1 l}=0,0467 9. P{X=2}=0,0344 x 10-3; √V{X}=3,873 c) P{X≥2 l}=0,7667 10. P{X=4}=0,1897 11. a) P{X=0}=0,9048 b) P{X=1}=0,0905 12. a) P{X=0}=0,4066 b) P{X≤3}=0,9865 13. a) P{X=0}=0,1353 b) P{X≥3}=0,3233 c) P{X≤1}=0,9953 IV – Probabilidades (variáveis contínuas) 1. a) P{Z<+1}=0,8413 d) P{Z<+1,96}=0,9750 b) P{Z<0}=0,5000 e) P{Z<+3}=0,9987 c) P{Z<+2}=0,9772 2. a) P{1<Z<2}=0,1359 b) P{Z>+0,84}=0,2005 c) P{Z<-0,84}=0,2005 3. a) P{-1<Z<+1}=0,6824 b) P{-2<Z<+2}=0,9544 d) P{-1,96<Z<+1,96}=0,9500 © Eduardo Esteves, 2007 c) P{-1<Z<+3}=0,8400 Métodos Estatísticos – Engenharia Alimentar 4. a) zi=2,40 b) zi=1,96 86 5. P{X<5}=0,8413 6. a) P{3,5 cm<X<8,0 cm}=0,6471 b) P{X>9,5 cm}=0,0250 c) P{X<3,5 cm}=0,2578 d) X=8,78 cm e) X=5 cm 7. a) A=3 8. a) A=2,571 b) A=5,88 b) A=2,306 c) A=7,74 c) A= 1,671 9. a) x40=1,684; x60=1,671; x120=1,658; x∞=1,645 10. a) ti=1,782 f) X=3,67 cm b) ti=1,356 b) x=1,645 c) ti=0,128 11. a) t=1,746 b) t=1,703 c) t=1,658 12. a) t1=1,833 e) t1=1,383 b) t1=2,262 c) t1=3,250 d) t1=2,821 13. a) ti=2,262 b) ti=2,086 c) ti=2,042 d) ti=2,000 14. a) t=58,8 min b) t=17,4 min V – Amostragem aleatória, Estimação de parâmetros e Testes de hipótese 1. a) µ=166,05 cm; σ2=75,59 cm2; σ=8,69 cm 2. x =6,8; P{5,82<µ<7,78}=0,95 ou [5,82; 7,78] 3. a) x =11,00; s2=15,778 b) V{X}=1,5778 d) P{8,16<µ<13,83}=0,95 ou [8,16; 13,83] 4. n=39 5. a) x =12,67 b) V{X}=0,1078; √V{X}=0,3283 d) h=1,28 e) n=37 6. a) [1090,4; 1177,6] c) √V{X}=1,2651 c) [12,03; 13,31] g) [11,13; 14,21] b) [1094,8; 1173,2] 7.a) P{987,16<µ<1000,38}=90%; P{958,94<µ<1001,62}=95%; P{983,46<µ<1004,10}=99% b) P{991,65<µ<996,35}=95% c) n=554 8. a) P{ x >1 litro}=0,0228 b) P{ x <9,85 dL}=0,0062 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 87 c) P{0,9861 litro< x <0,9939 litro}=95% logo rejeita-se H0: µ=0,99 litro, i.e. com 95% de confiança pode-se dizer que a suposição inicial é falsa. d) [9,9861 litro; 0,9939 litro] 9. P{46,92 cm< x <53,08 cm}=99% logo não se rejeita a H0 porque L1 < x < L2 i.e. com uma confiança de 99% pode-se afirmar que a média da população é de 50 cm. 10. a) Como x > (L=9,29%) não se rejeita H0 com uma confiança de 99%, i.e. pode-se afirmar que o processo de redução da gordura “não surtiu efeito”; b) α porque se se rejeitar H0 então conclui-se que o teor em gordura <10% quando na realidade não é, o que representa maior perigo para os doentes. 11. P{4,35< x <4,65}=95% e, por isso, rejeita-se H0, ou seja, com 95% de confiança, a fábrica não está a produzir pasta de tomate com pHmédio=4,5. 12. a) Como x < (L=794,45 mg) rejeita-se a H0, i.e., com 95% de confiança as pessoas estão a consumir menos do que 800 mg de cálcio por dia; b) Uma vez que x > (L=820,88 mg) rejeitase a H0, ou seja, com 95% de confiança as pessoas estão a consumir mais do que 800 mg de cálcio por dia. VI – Regressão linear e Correlação 1. ŷ =7,71 + 0,29 x c) x̂ =24,2 mM b) ŷ =446·10-3 2. a) ŷ = -1,5 + 17,9 x d) r=0,9934 3. a) ŷ = -1,25 + 0,65 x e) Como r>(L2=0.349), rejeita-se H0. b) ŷ =0,05% e) Como r>(L2=0.841), rejeita-se H0. c) x̂ =17,3 ºC f) r2=0,987 d) r=0,961 2 f) r =0,924 4. b) ŷ =31,066 + 0,232 x c) r=0,863. P{-0,356<r<+0,356}=95%, portanto um nível de confiança de 95% rejeita-se H0: ρ=0, i.e. não existe correlação linear entre variáveis d) r2=0,745 5. c) ln y=3,339 + 0,375 x d) r=0,992. P{-0,100<r<+0,100}=0,95 e P{-0,157<r<+0,157}=0,99, logo rejeita-se a H0: ρ=0 para ambos os níveis de confiança, ou seja, não existe correlação linear entre variáveis e) r2=0,984 f) ŷ (x=7 h)=389,2 x 104 bactérias (usando forma linearizada da relação) 6. c) log P= 4,203 – 1,404 log V r=-0,999; P{-0,073<r<+0,073}=95% e P{-0,122<r<+0,122}=99%, logo rejeita-se H0, i.e. existe correlação linear entre as variáveis transformadas. d) γ=1,404; C=15971,807 e) r2=0,998 f) P̂ (V=100 in3)=24,83 lb/in2 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar TABELAS A. Tabela de probabilidades acumuladas da distribuição normal reduzida Z. B. Tabela de probabilidades acumuladas da distribuição t de Student. C. Tabela de números aleatórios. D. Tabela dos valores críticos do coeficiente de correlação r. © Eduardo Esteves, 2007 88 Métodos Estatísticos – Engenharia Alimentar 89 A. Tabela de probabilidades acumuladas da distribuição normal reduzida Z. [Os valores na tabela referem-se à probabilidade (àrea assinalada com p) de Z tomar valores entre 0 e zi pretendido. Nota: esta tabela apenas inclui valores para a porção positiva da distribuição, daí os valores que nela constam variarem entre 0,0000 e 0,5000]. 0,5 0,4 0,3 f 0,2 p 0,1 α Z 0 -4 -2 0 zi 2 4 Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4982 0,4987 0,4991 0,4994 0,4995 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,4992 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2517 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,4993 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,4999 0,5000 © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 90 B. Tabela de probabilidades acumuladas da distribuição t de Student. [A tabela apresenta os valores de t para determinadas combinações do nível de confiança c (1– α) e de graus de liberdade (ν = n – 1). A àrea p corresponde à probabilidade de t assumir valores menores do que ti]. 0,5 0,4 0,3 f 0,2 p α 0,1 0 -4 -2 0 t g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 120 ∞ ti t 2 4 p 0,55 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,75 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,682 0,681 0,680 0,679 0,679 0,679 0,678 0,678 0,678 0,678 0,677 0,677 0,677 0,677 0,677 0,675 0,9 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,301 1,299 1,297 1,296 1,295 1,294 1,293 1,292 1,292 1,291 1,291 1,290 1,289 1,282 0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,690 1,684 1,679 1,676 1,673 1,671 1,669 1,667 1,665 1,664 1,663 1,662 1,661 1,660 1,658 1,645 0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,030 2,021 2,014 2,009 2,004 2,000 1,997 1,994 1,992 1,990 1,988 1,987 1,985 1,984 1,980 1,960 © Eduardo Esteves, 2007 0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,438 2,423 2,412 2,403 2,396 2,390 2,385 2,381 2,377 2,374 2,371 2,368 2,366 2,364 2,358 2,327 0,995 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,724 2,704 2,690 2,678 2,668 2,660 2,654 2,648 2,643 2,639 2,635 2,632 2,629 2,626 2,617 2,576 0,9995 636,578 31,600 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,591 3,551 3,520 3,496 3,476 3,460 3,447 3,435 3,425 3,416 3,409 3,402 3,396 3,390 3,373 3,291 Métodos Estatísticos – Engenharia Alimentar 91 C. Tabela de números aleatórios*. [Os números desta tabela podem ser escolhidos de qualquer modo, desde que o procedimento seja sistemático e determinado a priori]. Coluna Linha 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 * 7 9 0 4 8 1 9 3 3 7 5 0 4 7 6 6 5 1 8 1 0 1 4 6 7 3 5 1 6 9 5 4 0 0 5 3 9 5 7 3 2 2 0 5 0 4 8 4 8 3 1-5 5 8 6 9 4 7 9 0 1 7 7 5 6 6 9 3 9 9 7 2 2 7 3 3 2 6 9 3 3 1 6 1 4 3 2 5 5 8 3 2 7 4 8 0 9 6 4 8 1 3 8 2 3 2 6 4 2 9 2 7 3 9 7 1 1 8 5 6 3 4 3 6 7 1 0 5 5 4 6 2 1 1 5 1 6 4 7 1 9 6 3 2 7 3 8 6 2 0 1 1 2 0 1 6 4 7 1 2 2 0 3 2 3 5 4 1 3 0 0 6 1 4 9 6 7 4 7 4 8 0 5 6 9 4 7 4 7 1 4 9 4 0 1 5 5 0 3 7 4 3 5 1 4 5 9 9 6 0 2 7 6 3 7 7 0 4 7 7 9 5 3 5 8 5 0 3 4 7 1 7 0 0 9 8 2 0 9 2 7 3 5 1 9 6 9 3 5 8 1 7 2 1 6 9 6 4 7 4 1 7 4 4 8 6 4 2 1 3 5 6 8 7 9 4 0 8 6 3 5 1 8 2 7 2 3 7 7 5 4 0 3 9 6 0 9 6 0 7 0 5 6-10 3 1 2 8 8 3 0 3 5 0 4 7 1 9 7 5 8 6 1 4 7 5 5 7 9 9 1 3 5 5 5 8 4 1 2 6 2 8 7 7 2 0 7 9 1 1 3 2 1 3 7 9 1 2 0 2 3 4 2 0 8 8 0 1 9 5 4 1 2 5 5 8 1 5 3 6 4 1 9 1 4 6 1 5 2 4 9 9 0 4 3 8 1 6 3 9 4 3 4 3 8 4 9 4 8 2 9 3 8 5 2 7 2 9 2 5 0 3 0 5 2 1 5 0 9 8 8 0 4 0 5 2 0 6 6 1 9 8 5 2 1 3 9 9 6 8 5 0 2 2 3 6 7 7 8 0 1 3 2 9 9 3 8 1 3 0 9 5 6 7 1 2 8 6 2 0 2 5 4 9 6 2 6 1 3 2 7 3 7 5 8 7 6 9 5 8 1 0 1 4 2 4 2 0 2 1 8 8 3 0 4 7 5 6 6 1 8 1 4 0 5 6 5 3 7 0 1 2 8 9 7 0 4 9 6 6 7 9 5 0 9 4 1 9 5 5 8 4 0 7 11-15 9 4 3 9 0 7 0 7 4 7 7 4 4 3 2 4 9 9 4 4 6 1 5 7 7 9 9 2 7 2 3 0 7 5 8 1 1 8 6 4 8 1 0 7 9 7 5 4 7 3 6 2 3 1 1 4 9 0 4 3 8 8 9 1 6 7 0 5 8 4 5 6 2 9 9 7 6 4 7 6 9 3 7 1 5 8 4 8 8 0 3 3 4 9 8 8 6 4 4 4 8 1 8 8 9 6 2 1 7 3 8 6 7 5 0 3 2 4 0 9 1 1 5 8 5 3 1 2 0 5 7 9 6 6 9 6 0 2 0 7 3 2 8 1 3 7 0 1 6 6 3 0 1 8 8 4 1 3 5 5 7 6 2 8 5 0 6 1 3 1 5 4 8 1 1 6 7 5 5 1 3 8 1 3 5 1 8 7 6 9 8 2 8 5 4 8 8 8 9 1 2 0 5 0 5 3 5 8 6 2 4 3 4 2 6 1 4 7 7 3 7 4 8 9 3 2 0 3 6 2 2 3 1 4 3 9 7 9 4 8 5 3 1 5 5 0 8 0 7 1 16-20 4 5 0 4 9 0 4 2 5 7 0 2 2 9 4 1 4 5 6 4 4 0 8 5 9 5 5 9 3 6 8 9 7 1 4 9 7 3 1 4 6 1 1 8 7 0 2 3 5 8 5 9 9 2 3 4 9 2 3 1 4 8 5 5 5 4 7 0 8 3 9 7 4 6 2 7 4 7 9 7 7 9 8 2 6 9 3 5 1 3 2 3 4 0 9 6 6 1 1 1 8 4 6 0 3 2 8 7 9 7 9 6 7 9 1 0 1 4 5 4 2 8 9 7 9 8 0 7 9 0 8 1 4 3 5 4 9 6 2 6 6 2 3 3 3 7 4 1 9 9 1 5 0 2 8 6 4 6 4 1 7 9 9 7 6 9 8 7 8 1 2 5 9 5 2 3 7 4 4 7 3 7 4 5 1 3 7 8 3 4 4 3 8 6 9 7 3 3 4 5 8 8 5 2 5 9 2 1 4 6 8 0 2 8 9 3 8 2 6 6 1 2 4 3 2 7 4 4 3 1 4 5 3 5 0 2 3 5 6 8 7 8 0 5 9 7 9 5 7 5 21-25 5 3 1 2 7 0 8 8 0 6 8 9 8 6 8 2 6 4 8 9 2 7 7 2 5 9 0 8 9 4 1 9 3 8 3 3 0 5 8 5 6 5 6 1 3 4 5 5 7 4 3 4 2 3 9 0 2 2 4 4 7 7 7 2 6 6 4 6 5 0 7 2 0 8 0 6 7 9 6 3 9 1 1 9 7 0 8 3 4 4 5 6 2 7 4 7 4 1 4 4 6 0 7 9 4 9 0 7 7 3 6 8 4 7 1 1 1 8 9 5 5 7 9 8 2 0 3 7 8 0 5 7 9 0 9 2 1 0 5 2 2 2 8 8 0 8 6 4 6 0 3 3 8 4 8 2 3 9 9 9 1 4 5 3 4 4 7 7 0 7 8 2 7 1 0 7 1 2 1 9 7 1 3 1 2 4 7 4 2 7 7 2 4 6 1 4 3 9 8 0 1 4 1 4 3 9 5 1 8 0 5 7 7 2 9 3 5 2 4 9 2 8 1 6 8 9 4 4 3 7 9 8 5 3 5 0 1 5 1 0 4 5 0 0 9 3 5 0 6 0 25-30 0 4 2 9 0 6 6 9 7 7 7 8 7 4 8 0 5 6 3 6 8 7 4 6 1 4 7 0 7 2 8 3 2 2 5 0 2 8 1 0 0 5 8 8 5 3 8 0 1 9 9 6 4 6 2 1 8 1 3 2 0 8 1 4 3 1 1 6 1 0 7 0 9 1 3 2 9 1 5 6 6 5 5 9 2 3 9 7 8 4 4 2 2 9 4 7 1 4 7 1 7 0 5 2 3 8 7 7 4 6 7 9 7 4 2 2 2 1 6 6 0 7 9 9 4 2 9 3 5 2 1 3 5 2 9 6 0 3 9 7 6 5 7 4 4 5 4 1 8 2 6 5 3 6 2 6 7 8 8 4 5 5 1 1 4 5 7 2 9 4 2 4 8 0 1 8 9 6 2 1 0 0 4 9 3 6 7 8 5 3 9 5 8 6 2 8 3 8 1 1 De facto estes números são pseudo-aleatórios em virtude do software usado para os gerar (Microsoft Excel). © Eduardo Esteves, 2007 Métodos Estatísticos – Engenharia Alimentar 92 D. Tabela dos valores críticos do coeficiente de correlação r. [Apresentam-se na tabela os valores críticos de r para determinadas combinações de graus de liberdade (ν = n – 2) e de nível de confiança (1 – α). Se r obtido em certa amostra de tamanho n for superior ao valor crítico apresentado para determinado nível de significância então rejeita-se a H0: ρ = 0, i.e. existe correlação linear entre variáveis]. α g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 90 100 150 0.1 0.9877 0.9000 0.8054 0.7293 0.6694 0.6215 0.5822 0.5494 0.5214 0.4973 0.4762 0.4575 0.4409 0.4259 0.4124 0.4000 0.3887 0.3783 0.3687 0.3598 0.3515 0.3438 0.3365 0.3297 0.3233 0.3172 0.3115 0.3061 0.3009 0.2960 0.2746 0.2573 0.2429 0.2306 0.2201 0.2108 0.2027 0.1954 0.1888 0.1829 0.1726 0.1638 0.1339 0.05 0.9969 0.9500 0.8783 0.8114 0.7545 0.7067 0.6664 0.6319 0.6021 0.5760 0.5529 0.5324 0.5140 0.4973 0.4821 0.4683 0.4555 0.4438 0.4329 0.4227 0.4132 0.4044 0.3961 0.3882 0.3809 0.3739 0.3673 0.3610 0.3550 0.3494 0.3246 0.3044 0.2876 0.2732 0.2609 0.2500 0.2404 0.2319 0.2242 0.2172 0.2050 0.1946 0.1593 0.01 0.9999 0.9900 0.9587 0.9172 0.8745 0.8343 0.7977 0.7646 0.7348 0.7079 0.6835 0.6614 0.6411 0.6226 0.6055 0.5897 0.5751 0.5614 0.5487 0.5368 0.5256 0.5151 0.5052 0.4958 0.4869 0.4785 0.4705 0.4629 0.4556 0.4487 0.4182 0.3932 0.3721 0.3542 0.3385 0.3248 0.3126 0.3017 0.2919 0.2830 0.2673 0.2540 0.2084 © Eduardo Esteves, 2007 0.001 1.0000 0.9990 0.9911 0.9741 0.9509 0.9249 0.8983 0.8721 0.8470 0.8233 0.8010 0.7800 0.7604 0.7419 0.7247 0.7084 0.6932 0.6788 0.6652 0.6524 0.6402 0.6287 0.6178 0.6074 0.5974 0.5880 0.5789 0.5703 0.5621 0.5541 0.5189 0.4896 0.4647 0.4432 0.4244 0.4079 0.3931 0.3798 0.3678 0.3568 0.3375 0.3211 0.2643