Estatísticas descritivas: Como o próprio nome já diz, são cálculos, contas, que são realizadas de modo que possamos descrever nossas variáveis, nossos dados. Se solicitados a apresentar seus dados, demonstrá-los a um público, certamente não apresentarão todos os dados: “- Vejam aqui estão as 200 medidas de altura que realizei!!!”. Para isto servem as estatísticas descritivas, são medidas que descrevem as principais características de uma variável, que sumarizam o dado. Através delas podemos com poucos números (2 ou 3), dar uma noção de como são nossos dados, onde se concentram, como estão variando e podemos compará-los com outras séries de dados. Veremos também quais as estatísticas descritivas mais apropriadas para cada tipo de variável. Medidas de tendência central (ou de posição): São medidas que visam determinar o centro da massa dos dados, representam o valor em torno do qual os dados estão gravitando, o ponto central do conjunto de valores. Média: É a mais conhecida, utilizada e que melhor se aplica à definição de medida de tendência central. Definição:É a soma de todos os valores da var. dividida pelo número de valores. Temos 14 valores de Idade: 32 35 36 36 37 38 38 39 39 39 40 40 42 45, logo nossa média será a soma de todos 14 valores, divididos depois por 14. Símbolo de média Símbolo de somatório, irá somar todos os Xs, quando obtida de onde cada X é um valor. N = No. total de valores uma amostra µ = média quando (32 + 35 +...+ 42 +45)/14 obtida de toda a população Utilização da média conforme o tipo de variável: - Quantitativas contínuas: É onde é mais utilizada, média de peso, de altura, média da taxa de vitamina A no sangue. - Quantitativas discretas: Também pode ser utilizada, apesar de não existirem 2,3 filhos ou dores de cabeça por semana, a média é bastante utilizada e aceita neste caso, vide IBGE. Em todo caso convém refletir. - Qualitativas ordinais: Pode também ser utilizada aqui. Em escalas (ótimo = 5, bom = 4, regula r= 3, fraco = 2 e ruim = 1) ou em situações do tipo da var. escolaridade (Analf. = 1, 1o. Grau = 2, 2o. Grau = 3 ...), ou ainda escalas do tipo Likert (Não concordo veementemente = 1, Não Concordo = 2, Indiferente = 3, Concordo = 4 e Concordo totalmente = 5); Necessário bastante parcimônia, verificar se faz sentido. Contudo para a realização de testes estatísticos é bastante utilizada . - Qualitativas nominais: Não é utilizada, não faz sentido, qual a média da var. raça? Neste tipo de variável (e também nas ordinais) para descrevermos o dados utilizamos o percentual, a porcentagem (%). Exemplo: Variável região de origem: Possíveis respostas: Sul, Sudeste, Centrooeste, Norte e Nordeste. Verificamos o total de resposta, p. exp., 200 e dividimos o total de resposta de cada região pelo total: Sul = 48 respostas 48/200 = 24% das respostas; Norte = 10 10/200 =5% Mediana: É o valor que divide os dados ao meio, metade dos valores estão abaixo do valor da mediana e a outra metade está acima do valor da mediana. Para calculá-la é necessário primeiro ordenar os dados, depois ver se: 1- se o total de dados (n) for impar, some + 1 a este total e divida-o por 2. 22 22 25 26 26 27 28 28 29 29 29 30 30 35 36 Veja, temos 15 valores (impar) ordenados, somamos 1 e dividimos por 2: (15 + 1)/2 = 8 . Então a mediana será o valor que ocupar a 8a. Posição = 28. Repare há 7 valores abaixo de 28 e sete acima. 2- se o total de dados (n) for par, encontre o valor n/2 e o valor (n+2)/2 e a mediana será a média destes dois valores. 22 22 25 26 26 27 28 28 29 29 29 29 30 30 35 36 Temos 16 valores (par) ordenados, encontramos n/2 = 8 e (n+2)/2= 9 Então a mediana será a média entre o 8 e 9 valor. (28+29)/2 = 28.5 Utilização da mediana conforme o tipo de variável Nas vars. quantitativas pode-se usá-la tranquilamente, mas o mais comum é o uso da média. Já nas variáveis qualitativas ordinais seu uso equipara-se ao da média, e nas nominais não faz sentido. ** Situação na qual o uso da mediana é recomendado e não o da média: Quando temos valores aberrantes (outliers) na amostra, p. exp., var. Renda com estes valores: 200, 350, 400, 430, 450, 500, 4000. A renda média é de 900, mas este valor descreve bem nossos dados? A mediana é de 430, qual descreve melhor? A mediana é menos influenciada por valores extremos, é “robusta”. A mediana divide a amostra ao meio, em 50%. Valores que dividem a amostra em 4 partes iguais também são utilizadas, são os Quartis. O 1o. Quartil divide a amostra em 25% abaixo dele e 75% acima dele O 2o. Quartil nada mais é que a Mediana. O 3o. Quartil divide a amostra em 75% abaixo dele e 25% acima dele 1.2 , 1.3, 1.4, 1.7, 1.9, 2.1, 2.2, 2.5, 3.3, 3.8, 4.2, 4.2, 4.3, 4.3, 4.4 1 quartil 1.8 Mediana 2.5 3 quartil 4.2 São também utilizados percentis (dividir por 100) e os decis (por 10) Moda ou Norma: Dentro de um conjunto de valores a moda é o valor mais frequente, o valor que aparece mais vezes. 2, 3, 9, 10, 11, 12, 13 - Não há moda. 3, 4, 5, 6, 7, 8, 8, 9 - A moda é 8 - unimodal 3, 3, 4, 5, 6, 7, 9, 9, 10 - As modas são 3 e 9 - bimodal 3, 3, 4, 6, 7, 8, 9, 9, 10, 11, 12, 13, 13 - As modas são 3, 9 e 13- multimodal. Utilização da moda conforme o tipo de variável A moda pode ser utilizada nos dois tipos de variáveis quantitativas, mas é mais utilizada nas variáveis categóricas ordinais e nominais (quando categorizadas) onde representará a categoria mais frequente. Medidas de variabilidade (ou de dispersão): São medidas que visam determinar o quanto a massa dos dados esta variando em torno da média (centro), dão a noção de qual a abrangência dos valores da amostra (ou população). Indicam também o quanto os valores assemelham-se entre si. Alta variabilidade indica que os dados não são muito parecidos, próximos; já baixa variabilidade indica valores próximos, parecidos. Exemplo: Notas de duas classes: Classe A: 1, 3, 3, 5, 7, 7, 10 Classe B: 4, 4, 5, 5, 5, 6, 6 Esta 2 classes são equivalentes ?. Problema para a estatística. Variância: É a mais utilizada e conhecida medida de dispersão. Vejamos a sua fórmula: Portanto vemos que para calculá-la subtraímos cada valor (Xi) da média, elevamos esta diferença ao quadrado, somamos todas estas diferença e dividimos o pelo tamanho da amostra -1. Exemplo: Xi 1 2 3 4 5 Xi- Média (Xi- Média)2 A soma é = 10 1 - 3 = -2 4 10 dividido por 4 = 2.5 2 - 3 = -1 1 Portanto a variância destes 3-3=0 0 dados = 2.5 4 - 3 = -1 1 5 - 3 = -2 4 Porém a forma mais utilizada da variância é a sua raiz quadrada, conhecida por Desvio padrão = s . Desvio padrão = Raiz quadrada da variância, no exemplo a raiz quadrada de 2.5 é 1.58 = desvio padrão. Erro padrão = É o desvio padrão dividido pela raiz quadrada do tamanho da amostra. Amplitude = É a diferença entre o menor valor de uma amostra e o maior valor de uma amostra. Maior valor - Menor valor Amplitude inter-quartil = É a diferença entre o valor do 1o.quartil da amostra e o valor do 3o.quartil. Valor 1o. Q - Valor 3o. Q Ao iniciarmos o Minitab encontramos a seguinte tela: No topo da tela temos a barra de ferramentas, que sempre permanece aí e onde se encontram as principais funções. Temos então duas ‘janelas’; a 1a. (de cima) é onde aparecerão os resultados das análises, a 2a. é a planilha de dados, onde ao abrirmos um arquivo os dados aparecerão. Pode-se trabalhar com ambas abertas ou maximizar uma e ocultar a outra, clicando nos respectivos pontos de cada tela A seguir abriremos um arquivo chamado “estdes” . Clicamos em ‘File’ e vamos até ‘Open Worksheet’ para abrirmos um arquivo já existente. Surgirá o quadro abaixo onde digitaremos o nome do arquivo ‘estdes’ e clicamos em abrir. Surgirá então o banco de dados( a tela já está maximizada) estdes composto por 9 variáveis. Para obtermos nossas estatísticas descritivas vamos até o módulo ‘Stat’ e o acionamos. Na seção ‘Basic Statistics’ vamos para ‘Display Descritive Statistics’ e clicamos nela, quando aparecerá um novo quadro. Temos então uma lista das nossas variáveis. Para selecionarmos quais vars. desejamos obter as est. descritivas marcamos o nome da mesma com o mouse e clicamos em ‘Select e ela aparecerá em ‘Variables’. Repete-se o processo com todas as vars. que nos interessam. Após selecionarmos as vars. de interesse clicamos em OK A tela minimizada de resultados então aparecerá e lá temos todas as estatísticas descritivas de cada uma das vars. selecionadas Temos para cada var. o tamanho da amostra (N), a média (Mean), o erro padrão da média (SE Mean), o desvio padrão (StDev) o menor valor (Minimum), o 1o. Quartil (Q1), a mediana(Median), o 3o. Quartil (Q3) e o maior valor (Maximum) . Para a variável Sexo nos interessa a frequência e seu percentual. Para isto voltamos no módulo de “Stat”, vamos até a seção ‘Tables’ e daí acionamos ‘Tally Individual Variables’. No quadro novo selecionamos a variável de interesse como já feito anteriormente ativamos as células ‘Counts’ e ‘Percents que fornecerão o número de elementos de cada categoria da var. e seu percentual relativo. E damos OK Na tela de resultados temos a quantidade de cada categoria e o seu percentual. Para imprimir seus resultados vá em ‘File’ e depois em ‘Print Session Window’. Na tela da seção de estatísticas descritivas há um espaço escrito ‘By variable’. Se vc selecionar e inserir uma variável, o software irá calcular as estatísticas descritivas da variável quantitativa para cada categoria, nível, da variável inserida. Neste caso teremos as estatísticas de Idade para cada Sexo. DISTRIBUIÇÃO NORMAL Um pesquisador, há muitos e muitos anos atrás, pesou 40 pedras coletadas ao acaso em seu quintal e obteve os seguintes valores: Na sequência ele ordenou os dados da seguinte forma: 1. 1. 2. 2. 3. 3. 4. 4. 5. 44 569 0344 67899 00112334 56677899 022234 55 00 44 569 0344 67899 00112334 56677899 022234 55 00 2,67440 3,10762 3,76507 4,03743 3,62144 2,93377 1,65071 1,46075 2,03689 5,07087 2,43355 5,09515 2,30950 1,94147 4,20944 2,74200 3,26786 4,23001 2,97874 1,53232 1. 1. 2. 2. 3. 3. 4. 4. 5. 3,93548 3,30983 2,48178 4,52549 3,48335 3,16867 3,57961 4,28888 4,39241 4,45589 1,40666 3,70547 3,69522 2,80332 3,04045 3,92837 3,84063 3,32436 4,56957 3,04060 Sendo que o traço na figura indica o ponto onde está a média O pesquisador realizou levantamentos semelhantes com vários outros elementos da natureza e verificou que quase sempre obtinha curvas, figuras, DISTRIBUIÇÕES, semelhantes à anteriormente vista. O passo seguinte foi ajustar, estimar, um modelo matemático que representa-se a curva em forma de sino obtida. O nome deste pesquisador é CARL FRIEDRICH GAUSS, daí esta curva também ser conhecida como curva de Gauss ou Gaussiana. Onde µ = média e б = desvio padrão A distribuição Normal, a sua forma, é determinada totalmente pelos parâmetros µ e б. Observe que para diferentes médias e desvios padrões tenho diferentes curvas. Características da curva Normal 1- A área sob a curva é igual a 1 ou 100% 2 - A distribuição é simétrica em relação à média 3- Os valores da média, moda e mediana são equivalentes (teoria) 4- A área entre µ ± б equivale a 68,26% da área 5- A área entre µ ± 2б equivale a 95,44% da área 6- A área entre µ ± 3б equivale a 99,74% da área Como já foi dito, a dist. Normal é simétrica em relação à média, uma medida que verifica a assimetria de uma distribuição é SKEWNESS (coeficiente de assimetria), que na distribuição Normal deve ser igual a 0 Para um valor positivo do Skewness assimetria à direita da distribuição Para um valor negativo do Skewness assimetria à esquerda da distribuição Outra medida verificada em distribuições é a Kurtosis (curtose ou medida de achatamento). Nas dist. Normais deseja-se uma curtose próximo a 3. Leptocúrtica K>3 Platicúrtica K<3 Mesocúrtica K=3 A Distribuição Normal Padrão (ou Normal Reduzida) Uma distribuição Normal particularmente importante é a que possui média = 0 (µ = 0) e desvio padrão = 1 (б = 1). Esta distribuição N(0,1) é conhecida por “z” e é ‘tabelada’, isto é, suas probabilidades são conhecidas, já foram calculadas. Por exemplo, se desejo a probabilidade de um valor ocorrer entre 0 e 1 vou na tabela e procuro na margem esquerda a linha de z = 1 e a coluna = 0 e encontramos 0.3413. Portanto a probabilidade de ocorrência de um valor entre 0 e 1 é de 34.13% A grande utilidade da distribuição “z” é que qualquer distribuição Normal pode ser ‘transformada’ em uma “z” , através da seguinte transformação: z=x–m ds Onde: x = ponto que se deseja converter em z; m = média da normal original; ds = desvio padrão da normal original. Exemplo: Suponha que a média de um determinado teste seja 100 e o dp seja 5. Qual a probabilidade de uma pessoa se um valor entre 105 e 107 ? Aplicando a transformação: 105 – 100 = 1 e 107 – 100 = 1.4 5 5 Então temos que calcular a probabilidade entre 1 e 1.4 na tabela da Normal reduzida que é equivalente a calcular a probabilidade do ponto 1.4 (0.419) menos a probabilidade do ponto 1.0 (0.3413), que equivale a 0.0779. Portanto a prob. de se obter um valor entre 105 e 107 no teste é de 7.79 % Determinar se uma variável possui ou não distribuição Normal é muito importante, pois se a variável possui normalidade utilizaremos determinados testes estatísticos, se a mesma não possuir normalidade, outros teste serão utilizados. Observe que só faz sentido falar em distribuição Normal para as vars. numéricas. Não há sentido de falar distribuição Normal para variáveis categóricas nominais. Para as var. cat. ordinais, conceitualmente, teoricamente, também não faz sentido, mas na vida real testa-se a normalidade e caso aceita a mesma trabalha-se como se assim fosse.