Revisão de Estatística MÉDIA – É medida de tendência central mais comumente usada para descrever resumidamente uma distribuição de freqüência. MÉDIA ARIMÉTICA SIMPLES – São utilizados os valores do conjunto com pesos iguais. n X + X 2 + ... + X n X= 1 = n ∑X i i =1 n MÉDIA ARIMÉTICA PONDERADA - São utilizados os valores do conjunto com pesos diferentes. n p X + p 2 X 2 + ... + p n X n = Xp = 1 1 p1 + p 2 + ... + p n ∑p X i i i =1 n ∑p i i =1 ALGUMAS PROPRIEDADES DA MÉDIA ARITMÉTICA 1. A soma algébrica dos desvios de um conjunto de números em relação à média aritmética é zero. 2. A soma dos quadrados dos desvios tomados em relação à média aritmética é mínima. 3. Somando-se ou subtraindo-se um valor constante e arbitrário a cada um dos elementos de um conjunto de números, a média aritmética fica somada ou subtraída por essa mesma constante. 4. Multiplicando ou dividindo cada elemento de um conjunto de números por um valor constante e arbitrário, a média fica multiplicada ou dividida por essa constante. MÉDIA MÓVEL - A média móvel permite prever futuras tendências e serve para calcular o valor médio num determinado período. O cálculo da média móvel é similar a uma média clássica deslizante num determinado período. A média móvel usa dados de um número predeterminado de períodos, normalmente os mais recentes, para gerar sua previsão. A cada novo período de previsão, se substitui o dado mais antigo pelo mais recente. n X + X 2 + ... + X n = XM n = 1 n ∑X i =1 n i , onde n é o número de períodos para o cálculo da média móvel. MODA - É o valor mais freqüente se os dados são discretos. É o intervalo de classe com maior freqüência se os dados são contínuos. 1 MEDIANA – Ordenando-se os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: ⇒ Se o nº de elementos é ímpar, a mediana é o elemento médio. ⇒ Se o nº de elementos é par, a mediana é a semi-soma dos dois elementos médios. * Quando a distribuição é simétrica, a média e a mediana coincidem. * A média aritmética é preferível, pois pode ser calculada a partir de dados brutos sem qualquer ordenação ou agrupamento. * Mediana e moda são preferíveis quando ocorrem classes com valores indefinidos. * Mediana é preferível à média quando se está interessado em conhecer exatamente o ponto médio da distribuição. * Moda é a medida mais rápida. Medidas de Dispersão Um aspecto importante no estudo descritivo de um conjunto de dados é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão: a variância. VARIÂNCIA - Define-se a variância como sendo a medida que se obtém somando-se os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo-se pelo número de observações da amostra menos um. n ( X − X ) 2 + ( X 2 − X ) 2 + ... + ( X n − X ) 2 S2 = 1 = n −1 ∑ (X i − X )2 i =1 n −1 DESVIO-PADRÃO - Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, toma-SE a raiz quadrada da variância e obtemos o desviopadrão: S = S2 O desvio-padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio-padrão, que resultam imediatamente da definição, são: o desviopadrão será maior, quanta mais variabilidade houver entre os dados. Vale ainda ressaltar que são utilizadas as seguintes nomenclaturas para indicação destas indicações: Para a População: Média >> µ Variância >> σ2 Desvio-Padrão >> σ Para a Amostra: Média >> X Variância >> s2 Desvio-Padrão >> s 2 Regressão Linear Simples – Método dos Mínimos Quadrados A equação da reta de regressão é do tipo Y = a + bX + ε, onde: ⇒ Y é a variável dependente; ⇒ X é a variável independente; ⇒ a é o coeficiente linear, ou seja, é o ponto onde a reta de regressão intercepta a ordenada (o valor de Y quando X = 0) e; ⇒ b é o coeficiente angular (tg θ) Deseja-se ajustar a reta estimando-se os coeficientes a e b. O método dos mínimos quadrados considera os desvios (ε) de Y em relação ao seu valor esperado, ou seja: Y - a + bX = ε Elevando-se ao quadrado esses desvios e aplicando-se o somatório, tem-se o critério Q: n n Q = ∑ (Yi − a − bX i ) = ∑ ε 2 2 i =1 i =1 Estimativa de y a partir da reta de regressão Par ordenado (x, y) real Y θ Variável dependente a Desvio ou erro de y (ε) Valor de x utilizado para estimar y X Variável independente Cálculo dos coeficientes pelo método dos mínimos quadrados a= Y–bX e b= ΣXY - nXY ΣX 2 - nX 2 Exemplo Período 1 2 3 4 5 Y 264 116 165 101 209 X 2,5 1,3 1,4 1,0 2,0 3 Período 1 2 3 4 5 Total Média Y 264 116 165 101 209 855 171 X 2,5 1,3 1,4 1,0 2,0 8,2 1,64 b= XY 660,00 150,80 231,00 101,00 418,00 1560,80 X2 6,25 1,69 1,96 1,00 4,00 14,90 Y2 69.696 13.456 27.225 10.201 43.681 164.259 1560,80 − 5 × (1,64) × (171) = 109,23 14,90 − 5 × (1,64) 2 a = 171 − 109,23 × (1,64) = −8,37 Sendo assim, Y = −8,37 + 109,23 X Coeficiente de Correlação de Pearson Indica o grau em que uma equação linear descreve a relação entre duas variáveis. Varia entre -1 a 1, e assume valor negativo quando X e Y são inversamente proporcionais e, positivo quando diretamente proporcionais. Assume valor zero quando não há relação entre as duas variáveis. r= nΣXY - ΣX ΣY [nΣX2 - (ΣX)2] x [nΣY2 - (ΣY)2] Para o exemplo anterior r = 0,98. 4 Distribuições de Probabilidade Baseado em Bressan, Graça. Modelagem e Simulação de Modelos Computacionais, Escola Politécnica da Universidade de São Paulo – Laboratório de Arquitetura e Redes de Computação, Capturado em 22/12/2005. Disponível em http://www.larc.usp.br/conteudo/universo/pcs012/modsim03-distr.pdf Distribuições Contínuas Distribuição Uniforme Função Densidade Média: E(x) = (a + b) / 2 Variância: Var(x) = (b – a)2 / 12 Distribuição Exponencial Uso mais comum: intervalos de tempo de chegada de clientes a um sistema, cuja chegada ocorre com uma determinada taxa constante e intervalo de tempo até a falha de uma peça de um equipamento. Função Densidade Média: E(x) = β Variância: Var(x) = β2 Para teoria das filas: Observar que β representa o intervalo médio de chegada. Também poderia ser indicado, em lugar de β , o parâmetro λ = 1 / β que representa a freqüência de chegada. 5 Distribuição Normal Uso mais comum: erros de tipos diversos e valores que são a soma de grande número de outros valores. Função Densidade Média: E(x) = µ Variância: Var(x) = σ2 Distribuições Discretas Distribuição Poisson Função Densidade Média: E(x) = λ Variância: Var(x) = λ 6 Roteiro para a Determinação da Distribuição de Freqüência 1 – Coletar os dados. 2 – Calcular a amplitude do ROL: R = Maior Valor Observado – Menor Valor Observado 3 – Calcular a quantidade de classes (Regra de Sturges): K = 1 + 3,3 log N, sendo N a quantidade de observações da amostra. 4 – Calcular a amplitude do intervalo da classe: h = R / K 5 – Colocar nas duas primeiras colunas de uma tabela os limites inferior e superior de cada intervalo da classe. 6 – Colocar em uma terceira coluna o valor médio de cada classe. 7 – Determinar e colocar em uma quarta coluna a freqüência das classes (Fi). Fi é a quantidade de dados que estão contidos na classe. 8 – Calcular e colocar em uma quinta coluna a freqüência acumulada (Fa). Fa é a soma de todas as observações inferiores ao limite superior de um dado intervalo de classe. 9 – Calcular e colocar em uma sexta coluna a freqüência relativa simples observada (Frso). Frso é a relação entre freqüência da classe e a quantidade total de observações: Frso (%) = Fi / N. 10 - Calcular e colocar em uma sétima coluna a freqüência relativa acumulada observada (Frao). Frao é a relação entre a freqüência absoluta e a quantidade total de observações: Frao (%) = Fa / N. 7