INTRODUÇÃO À ESTATÍSTICA APLICADA Definição: Técnica de recolha, organização, sintetização e apresentação de dados numéricos (E. descritiva). Compreende, ainda, as técnicas por meio das quais são tomadas decisões sobre uma população, baseadas unicamente na observação de amostras , pelo uso de conceito de probabilidade (E. inferencial). Exemplos: 1. E. descritiva: estudo da idade da população dos alunos da ESTV. 2. E. inferencial: a partir da pesquisa amostral da população escolar, inferir a sua estrutura etária. 1 ESTATÍSTCA DESCRITIVA 1. Distribuição de Frequência - Definir um n.º de classes ímpar - Amplitude da classe = R / n.º de classes R – Amplitude (Range) R = Maior valor (H) – Menor valor (L) - Quadro de distribuição de frequência Numa coluna as classes e na outra o n.º de casos correspondentes. - Histograma Gráfico de barras com classes nas abcissas e n.º casos nas ordenadas. - Polígono de frequências Linha constituída por segmentos de recta que unem os pontos médios dos topos das barras. - Curva de frequência Suavização curvilínea do polígono de freq. - Distribuição de frequência acumulada Identifica o .º de casos (%) até cada classe. 2 ESTATÍSTCA DESCRITIVA Numa turma do 10º ano foram perguntou-se a cada aluno a sua idade. Os dados não classificados são: 14, 15, 16, 17, 18, 19, 14, 15, 16, 17, 14, 15, 16, 14, 15, 16, 15, 16, 15, 15 Os dados classificados e agrupados numa tabela de frequências Idade (em anos) 14 15 16 17 18 19 Total Frequência 4 7 5 2 1 1 20 3 ESTATÍSTCA DESCRITIVA Frequência absoluta ou efectiva (fi) de um valor da variável é o numero de vezes que esse valor foi observado Frequência relativa (fri) de um valor da variável é o quociente entre a frequência absoluta do valor da variável e o número total de observações Frequência (relativa ou absoluta) acumulada de um valor da variável é igual à soma das frequências anteriores com a frequência desse valor fi fri Fi – Freq. Absoluta acumulada Fri – Freq. relativa acumulada 14 4 0,20 4 0,20 15 7 0,35 11 0,55 16 5 0,25 16 0,80 17 2 0,10 18 0,90 18 1 0,05 19 0,95 19 1 0,05 20 1 Xi 4 ESTATÍSTCA DESCRITIVA 8 7 6 5 4 3 2 1 0 14 15 16 17 18 19 Gráfico de barras - frequências absolutas 25 20 15 10 5 14 15 16 17 18 19 0 Gráfico de barras - frequências absolutas acumuladas 5 ESTATÍSTCA DESCRITIVA Na mesma turma do 10º ano perguntou-se a cada aluno a sua altura em centímetros: 147, 167, 171, 172, 151, 154, 150, 155, 156, 160, 160, 164, 163, 159, 158, 162, 169, 170, 174 Para 20 observações vamos usar 6 classes. Consideram-se ainda as seguintes convenções: -O extremo esquerdo do intervalo (classe) será fechado e o extremo direito aberto; - aos extremos do intervalo chamam-se limites da classe; à diferença dos limites, amplitudes do intervalo da classe; à semi-soma dos limites chama-se ponto médio ou marca da classe fi fri Fi – Freq. Absoluta acumulada Fri – Freq. relativa acumulada [145 , 150[ 1 0,05 1 0,05 [150 , 155[ 3 0,15 4 0,20 [155 , 160[ 4 0,20 8 0,40 [160 , 165[ 5 0,25 13 0,60 [165 , 170[ 2 0,10 15 0,75 [170 , 175[ 5 0,25 20 1 Xi 6 ESTATÍSTCA DESCRITIVA Histograma das frequências absolutas 6 4 2 0 [145 , 150[ [160 , 165[ [150 , 155[ [165 , 170[ [155 , 160[ [170 , 175[ 7 2. Medidas de Posição* Valor calculado para um grupo de dados, usado para o descrever. -Média aritmética -Para dados não classificados - μ - M. A. da população μ=ΣX/N x - M. A. amostral x=Σx/n Para dados classificados n X = (f1x1+f2x2+…fnxn)/n = fiXi i 1 n n i 1 n fi Xi friXi n i 1 -Mediana Corresponde ao valor do item médio quando todos os valores foram organizados de forma crescente ou decrescente. Se n é ímpar Med = Xk com K = (n+1)/2 Se n é par Med = (Xk+ Xk+1 )/2 com K = n/2 -Moda Valor mais frequente. 8 *ou de tendência central ESTATÍSTCA DESCRITIVA 1. Calcule a média de idade da turma do 10º ano 2. Calcule a média das alturas da turma 3. Calcule a mediana das idades da turma 4. Calcule a moda das idades da turma 9 ANÁLISE As diferenças de valores assumido pela média aritmética, mediana e moda indicam-nos o tipo de curva de distribuição de frequência, sem a desenhar. Coeficiente de Pearson Dá-nos informação sobre a simetria da curva de distribuição de frequência (Medida de simetria). C. Pearson = 3 (μ – Med) / σ ou = 3 (x – Med) / s 10 3. Medidas de Variabilidade - Amplitude total R=H-L H – Maior valor da população (ou amostra) L – Menor valor da população (ou amostra) - Variância e desvio padrão σ^2 = (Σ(X- μ)^2) / N σ= (Σ(X- μ)^2) / N s^2 = (Σ(x - x)^2) / n s= (Σ(x - x)^2) / n σ^2 – Variância populacional s^2 – Variância amostral σ - Desvio padrão populacional s - Desvio padrão amostral 11 Uma variável aleatória utiliza-se para expressar os resultados de uma experiência aleatória. Em algumas situações, o conjunto de valores que uma variável toma confunde-se com o próprio conjunto de resultados, isto é, com o espaço amostral. Experiência aleatória: Medição da altura de uma pessoa escolhida ao acaso Espaço amostral: Conjunto de todas as alturas atribuíveis a uma pessoa Variável aleatória: Altura (que pode tomar qualquer um dos valores que constituem o espaço amostral 12 ESTATÍSTCA INFERENCIAL Uma variável quantitativa classifica-se como discreta ou contínua, conforme os elementos do contradomínio da aplicação que a define forem numeráveis ou não numeráveis. Exemplo: A variável resultado do lançamento de um dado é discreto (podendo tomar os valores 1,2,3,4,5 ou 6) A variável distância a percorrer diariamente por um vendedor será contínua, se se admitir que tal distância é medida com precisão absoluta. 13 DISTRIBUIÇÃO NORMAL DE PROBABILIDADE f(X) Maior precisão σ = 10 σ=5 μ X f(X) μ-3σ μ-2σ μ-1σ μ μ-1σ 68,27% μ-2σ μ-3 σ X 95,45% 99,73% 14 A distribuição normal é importante: - Grande número de fenómenos e processos segue esta distribuição; - Pode ser usada com aproximação a outras distribuições (binomial e de Poisson); - A distribuição estatística de amostras, tais como a média, seguem a D. normal. 15 Distribuição Normal Padronizada - Tem por finalidade potenciar o uso de tabelas; - Obtém-se pela introdução de Z = (X – μ) / σ f(Z) 0 Z 16 APROXIMAÇÃO PELA NORMAL À PROB. BINOMIAL Esta aproximação é possível sempre que o número de observações ou tentativas for relativamente elevado. n ≥ 30 e n p ≥ 5 μ=np σ = n p (1 – p) n – N.º de provas p – Probabilidade de sucesso 17 INTERVALOS DE CONFIANÇA 95% -1,96 0 -1,96 z Interpretação: Para um determinado nível de confiança (α) será calculado o intervalo que contém a verdadeira média da população (μ). [Iα]μ=X±Zσ/ n P. e., temos 95% de confiança que a verdadeira média da população está contida no intervalo. [ I 0,95 ] μ = X ± 1,96 σ / n A dimensão do intervalo depende do nível de confiança e do tamanho da amostra. 18