Estatística Descritiva Bioestatística Dep. Biologia Universidade dos Açores www.uac.pt 2002 © Luís Silva 1 Distribuições de frequência Distribuição de Frequências (Dados Nominais) Tabela. Frequências absolutas e relativas Fuma Sim Não Masculino Fa Fr 14 73,7% 5 26,3% 19 Feminino Fa Fr 19 65,5% 10 34,5% 29 Uma distribuição de frequências contabiliza o número de ocorrências para cada valor tomado pela variável (frequência absoluta). Quando em percentagem (frequências relativas), permite comparar amostras de diferentes dimensões. 2 Distribuições de frequência Gráfico de sectores (Dados Nominais) Gráfico de barras (Dados Nominais) Cor dos Cabelos Número de lagoas (%) 2% 7% preto castanho 91% louro 90 80 70 60 50 40 30 20 10 0 Peixes Rã Tritão Aves Vertebrados Os dados em escala nominal podem ser resumidos em tabelas de frequências relativas ou absolutas, ou ainda em gráficos de sectores ou de barras. As barras estão separadas, evidenciando a natureza qualitativa dos dados. 3 Distribuições de frequência Gráfico de Barras (Dados Nominais) 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% Alunas 0,0% Alunos Biologia Biol/ Geo 4 Nº de alunos Distribuições de frequência Gráfico de Barras (Dados Ordinais) 25 20 15 10 Os 5 dados em escala ordinal m tºgrd. grande algum nenhum pouco podem ser resumidos em tabelas 0 ou em gráficos de sectores ou de Interesse pelo Ambiente barras. Interesse pelo ambiente -Alunos Quando o número de valores nada que a variável pode assumir é pouco elevado, não é aconselhável a utilização de gráficos e sectores, 5% 0% algum 0% bastante 37% muito pois perdem legibilidade 58% 5 Distribuições de frequência Escala de Rácios: Dados Discretos (Plantas de Rumex sp. em pastagens, amostras de 1 metro quadrado) 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Número de plantas por amostra Os dados discretos na escala de rácios devem ser representados por gráficos de barras. As barras estão separadas, evidenciando a natureza discreta, descontínua dos dados. 6 Distribuições de frequência Dados Contínuos Os dados contínuos na escala de rácios devem ser representados em histogramas. Os dados são agrupados em classes com uma amplitude pré-definida. Nos histogramas as barras referentes às várias classes encontra-se justapostas, dando a ideia de continuidade. Exemplo: comprimentos de tritão de crista. De (=) 11,000 12,000 13,000 Até (<) Freq. Abs. Freq. Rel. 12,000 0 0,000 13,000 4 0,050 14,000 11 0,138 14,000 15,000 16,000 17,000 15,000 16,000 17,000 18,000 Total 43 14 8 0 80 0,538 0,175 0,100 0,000 1,000 Percentagem de fêmeas Distribuição de frequências para as fêmeas 60 50 40 30 20 10 0 11 12 13 14 15 16 17 18 Comprimento total (cm) 7 Distribuições de frequência Dados Contínuos 12 12 10 10 8 8 n.º alunas n.º alunos (Pesos de uma turma de alunos de Bioestatística) Histograma 6 4 6 4 2 2 0 0 45 55 65 75 85 Peso (Kg) 95 105 115 45 Alunos 55 65 75 85 95 105 115 Peso (Kg) A utilização de frequências absolutas pode dificultar a comparação dos gráficos, quando as amostras a comparar (neste caso alunos e alunas) não têm a mesma dimensão. Alunas 8 Distribuições de frequência Freq. relativa Dados Contínuos (Envergadura de uma turma de alunos de Bioestatística) Os dados contínuos também podem ser representados por Polígonos de Frequências. Os pontos médios das classes são unidos por segmentos de recta. Permitem uma representação simultânea de duas amostras, que não é tão legível no caso dos histogramas 60% 50% 40% 30% 20% 10% 0% 135 145 155 165 Alunos 0,0% Alunas 3,4% 175 185 0,0% 5,3% 5,3% 3,4% 20,7% 55,2% 13,8% 3,4% 42,1% 42,1% 195 205 215 0,0% 0,0% 5,3% 0,0% 0,0% 0,0% Envergadura (cm) 9 Frequências acumuladas Nº de alunos (%) As frequências acumuladas (absolutas ou relativas) são calculadas por adição sucessiva dos termos de uma distribuição de frequências. Indicam a frequência das observações com valores iguais ou inferiores a xi. Exemplo: percentagem de alunos com até 170 cm de estatura. 100 80 60 40 20 0 145 155 165 175 185 195 Estatura (cm) 10 Escala de intervalos Distribuições circulares. Estes dados sofrem um transformação em graus. Calculase o ângulo médio e a variância angular. Depois, transformam-se esses dados na unidade inicial. Por exemplo, transformam-se horas em graus (24h = 360º), realizam-se os cálculos e, no final, transforma-se o ângulo médio e o desvio padrão angular em horas. Apresentam-se em histogramas circulares. Hora de levantar Hora de deitar 1 23 24 2 3 22 4 21 5 25 20 6 15 5 19 7 18 8 17 9 16 10 15 14 12 13 11 11 Medidas de tendência central As medidas de tendência central ou de posição indicam o centro de gravidade da distribuição, a posição da distribuição ao longo do eixo, ou um ponto de acumulação de dados. 12 Medidas de tendência central Média Aritmética Média Aritmética Mais utilizada O caso de dados repetidos Fórmula para o parâmetro N S (xi) i=1 m = ————— N Fórmula para o estimador n S (xi) _ i=1 x = ————— n k S fa(xi) . xi i=1 m = ————— N No caso da média, a fórmula para o parâmetro (m) e para o _ estimador (x) é a mesma. k m = S fr(xi) . xi i=1 Onde k é o número de valores diferentes. 13 Medidas de tendência central Moda O valor mais frequente num conjunto de dados. Pode haver mais do que uma moda - distribuições multimodais. Definição mais geral: um ponto de relativa concentração de dados. Expressa menos informação do que a média. Aplica-se a todos os tipos de dados. 14 Medidas de tendência central Mediana O valor central de um conjunto ordenado de dados - existem 50% das observações abaixo e acima da mediana. Exemplo 123345556 M = x(n+1)/2 = x 5 = 4 Exemplo 1233344456 M = x(n+1)/2 = x 5,5 = (3+4)/2=3,5 Expressa menos informação do que a média. Não é tão afectada pelos valores extremos Pode-se usar para dados em escala ordinal ou em escala de rácios. 15 Medidas de tendência central Mediana Quando há dados com o mesmo valor, pode ser impossível aplicar esta definição de mediana. Exemplo 12333444566 M = x(n+1)/2 = x 6 = 4, mas acima do 4 há apenas três observações. Assim, uma definição mais geral é considerar a mediana como o ponto da distribuição, abaixo ou acima do qual se encontram, no máximo, 50% das observações. 16 Medidas de tendência central Outros quantis Quartis: divisão da distribuição em quatro partes. Q1= X (n+1)/4 Octis: divisão da distribuição em oito partes. Q1= X (n+1)/8 Percentis: divisão da distribuição em cem partes. LD50, LC50: dose ou concentração letal para 50% da amostra. GT 25, GT50, GT75: tempo de germinação para 25, 50 ou 75% da amostra de sementes. 17 Medidas de dispersão As medidas de dispersão fornecem informação acerca da variabilidade dos dados, indicando se existe uma concentração dos dados em volta da média ou se, pelo contrário, os dados se distribuem ao longo de uma curva relativamente ampla, com valores extremos bem distanciados da média. 18 Medidas de dispersão Amplitude = Máximo - Mínimo É uma medida algo grosseira que leva, em geral, a uma subestimação da amplitude na população. É utilizada em Taxonomia. Aplica-se aos dados nas escalas ordinal, por intervalos e de rácios. Surgiu a ideia de calcular a soma dos desvios das observações em relação à média Desvio Médio = N S |xi-m| i=1 = ————— N Pouco utilizado 19 Medidas de dispersão Surge a ideia de elevar os desvios ao quadrado: Variância População - parâmetro - s2 N S (xi - m )2 i=1 s2 = ————— N Amostra - estimador - s2 n _ S (xi - x )2 i=1 s2 = ————— n-1 20 Medidas de dispersão Fórmula para cálculo rápido: n [ S xi ]2 i=n S (xi 2) - ———— n ———————— n-1 Soma de quadrados (SS) n [ S xi ]2 i=n S(xi 2) - ———— n Graus de liberdade = n-1 Se há dados repetidos: n [ S fa(xi).xi ]2 i=n S fa(xi).xi 2 - ———— n ——————————— n-1 Na variância a fórmula para calcular o parâmetro (s2) é diferente da utilizada para o cálculo do estimador (s2). 21 Medidas de dispersão Desvio padrão s ou s Raiz quadrada positiva da variância. Tem a vantagem de se encontrar nas mesmas unidades da média, enquanto que a variância tem as unidades da média ao quadrado. Coeficiente de variação Medida de variabilidade ou dispersão relativa. _ CV = (s / x) . 100 Permite comparar espécies diferentes quanto à variabilidade. 22