Medidas de Localização - 2. Média DADOS SIMPLES A média amostral ou simplesmente média, que se representa por é uma medida de localização do centro da amostra, e obtém-se a partir da seguinte expressão: onde x1, x2, ..., xn representam os elementos da amostra e n a sua dimensão. DADOS AGRUPADOS TABELA Se as observações se encontram agrupadas, então um valor aproximado para a média é dado pela seguinte expressão: onde: k é o número de classes do agrupamento ni é a frequência absoluta da classe i yi é o ponto médio da classe i, o qual é considerado como elemento representativo da classe Particularidade A média goza de uma particularidade interessante e que consiste no seguinte: se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero. Medidas de Localização - 3. Moda Pág. 14 de 23 Para um conjunto de dados, define-se moda como sendo: o valor que surge com mais frequência se os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos. Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação). Medidas de Localização - 4. Mediana Pág. 14 de 23 A mediana, m, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo: Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: Se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é a semi-soma dos dois elementos médios. Se se representarem os elementos da amostra ordenada com a seguinte notação: X2:n , ... , Xn:n então uma expressão para o cálculo da mediana será: X1:n , Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados ! Média ou Mediana ? Consideremos o seguinte exemplo: um aluno do 10º ano obteve as seguintes notas: 10, 10, 10, 11, 11, 11, 11, 12 A média e a mediana da amostra anterior são respectivamente =10.75 e =11 Admitamos que uma das notas de 10 foi substituída por uma de 18. Neste caso a mediana continuaria a ser igual a 11, enquanto que a média subiria para 11.75 ! Média ou Mediana ? Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais. Como medida de localização, a mediana é mais resistente do que a média, pois não é tão sensível aos dados. 1- Quando a distribuição é simétrica, a média e a mediana coincidem. 2- A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflecte o valor de todas as observações. Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível, dependendo do contexto em que estão a ser utilizadas. Como já vimos a média, ao contrário da mediana, é uma medida muito pouco resistente, isto é, é muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana. Resumindo, como a média é influenciada quer por valores muito grandes, quer por valores muito pequenos, se a distribuição dos dados: 1. for aproximadamente simétrica, a média aproxima-se da mediana 2. for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana 3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana. Representando as ditribuições dos dados (esta observação é válida para as representações gráficas na forma de diagramas de barras ou de histograma) na forma de uma mancha, temos, de um modo geral: Medidas de Localização - 5. Quantis Pág. 22 de 23 Generalizando ainda a expressão para o cálculo da mediana, temos uma expressão análoga para o cálculo dos quantis: Qp = onde representamos por [a], o maior inteiro contido em a. Aos quantis de ordem 1/4 e 3/4 , damos respectivamente o nome de 1º quartil e 3º quartil Medidas de Dispersão - 2. Variância Pág. 4 de 16 Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um: Quais as razões que nos levam a considerar aquela definição para a variância ? A partir da definição de variância, pode-se deduzir sem dificuldade uma expressão mais simples, sob o ponto de vista computacional, para calcular ou a variância ou o desvio padrão e que é a seguinte: Medidas de Dispersão - 3. Desvio Padrão Pág. 6 de 16 Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão: O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados. se s = 0, então não existe variabilidade, isto é, os dados são todos iguais. Medidas de Dispersão - 4. Amplitude Pág. 14 de 16 Uma medida de dispersão que se utiliza por vezes, é a amplitude amostral r, definida como sendo a diferença entre a maior e a menor das observações: r = xn:n - x1:n onde representamos por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notação introduzida anteriormente, para a amostra ordenada. Exercícios: http://alea-estp.ine.pt/html/nocoes/html/cap7_2_1.html http://alea-estp.ine.pt/html/nocoes/html/cap7_3_2.html http://alea-estp.ine.pt/html/nocoes/html/cap7_3_3.html http://alea-estp.ine.pt/html/nocoes/html/cap7_3_4.html http://alea-estp.ine.pt/html/nocoes/html/cap7_3_5.html http://alea-estp.ine.pt/html/nocoes/html/cap7_4_1.html http://alea-estp.ine.pt/html/nocoes/html/cap7_4_2.html http://alea-estp.ine.pt/html/nocoes/html/cap7_6_1.html http://alea-estp.ine.pt/html/nocoes/html/cap7_6_2.html Tabelas de Frequências: x/y x1 x2 x3 fi a b c ∑fi=n=a+b+c fri fri 1= a/n fri 2= b/n fri 3= c/n Fi a a+b a+b+c Fi 3= n Fri fri 1 fri 1+ fri 2 fri 1+ fri 2+ fri 3 Fri 3= 1 ou 100% Com x/y intervalos devemos calcular a marca da classe que servirá de fi: [145, 150[ 145+150= 147,50 (Marca da classe) 2