Métodos Estatísticos Mestrado em Gestão (MBA) Áurea Sousa /Deptº. Matemática U.A. Áurea Sousa /Deptº. Matemática U.A. Objectivos O que é a estatística? Como pode a estatística ajudar? Compreender o método de análise estatística; Reconhecer problemas que podem ser resolvidos com métodos estatísticos; Compreender as diferenças entre as duas principais utilizações da estatística: inferência e estatística descritiva; Reconhecer a metodologia de inferência e da estatística descritiva; Recolha de dados utilizando inquéritos; Análise de dados e investigação por inquérito. Áurea Sousa /Deptº. Matemática U.A. O que é a Estatística? estatística descritiva (univariada, multivariada) visualizar inferência compilar, resumir interpretar, compreender gerar conhecimento teste de hipóteses estimação melhores decisões Áurea Sousa /Deptº. Matemática U.A. Estatística Univariada Trabalha com uma única característica dos dados Áurea Sousa /Deptº. Matemática U.A. Estatística Multivariada Trabalha com duas ou mais características dos dados Áurea Sousa /Deptº. Matemática U.A. POPULAÇÃO (Censo) P R O B A B I L I D A D E Erro Inferência AMOSTRA (Amostragem) Áurea Sousa /Deptº. Matemática U.A. Estatística Descritiva Probabilidade Amostragem Estatística Inferencial Áurea Sousa /Deptº. Matemática U.A. ESTATÍSTICAS E PARÂMETROS Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: parâmetro medidas numéricas descritivas calculadas a partir de dados sobre toda a população; estatística medidas numéricas correspondentes às anteriores, mas calculadas sobre uma amostra 03-10-2008 amostragem (dedução) inferência (indução) Áurea Sousa /Deptº. Matemática U.A. 8 Principais Parâmetros µ 2 σ A MÉDIA A VARIÂNCIA σ O DESVIO PADRÃO π A PROPORÇÃO Áurea Sousa /Deptº. Matemática U.A. PRINCIPAIS ESTIMADORES 2 S X P A A MÉDIA S A VARIÂNCIA O DESVIO PADRÃO Áurea Sousa /Deptº. Matemática U.A. PROPORÇÃO Métodos Estatísticos Clássicos Estatística descritiva: resumir e representar dados quantitativos; uso intensivo de gráficos e tabelas; uso de estatísticas de tendência central, dispersão e de forma da distribuição. Estatística inferencial: permite extrapolar resultados da amostra para a população (fazer inferência); usa teste de hipóteses pré-formuladas; distinguem-se entre testes paramétricos e não paramétricos. Áurea Sousa /Deptº. Matemática U.A. População, Amostra e Amostragem População – Conjunto de indivíduos ou objectos que apresentam pelo menos uma característica em comum. Amostra – população. Subconjunto Amostragem – Processo de selecção de uma amostra que possibilita o estudo das características da população. Áurea Sousa /Deptº. Matemática U.A. finito da Cada elemento da população unidade estatística. Dimensão da amostra - é o número de elementos da amostra A amostra deve ser representativa, ou seja, as suas características devem aproximar-se tanto quanto possível das da população. Se a amostra não for bem escolhida, as conclusões podem ser erradas. Áurea Sousa /Deptº. Matemática U.A. é uma Recenseamento ou Censo – estudo estatístico em que se observa toda a população. Exemplos: recenseamento da população, censo para o serviço militar. Sondagem - estudo estatístico em que se estuda uma amostra da população Exemplos: preferência musical dos alunos duma Escola Secundária; índice de audiência de um programa da TV. Áurea Sousa /Deptº. Matemática U.A. Metodologia de Análise de Dados (exploratória): Definir objectivos do estudo Preparar e limpar os dados verificação, actualização conhecimento de domínio recolha de dados em institutos especializados análise de dados recolha por inquérito ou entrevistas bases de dados de grande dimensão Análise de dados Gerar conhecimento novo conhecimento gerado Áurea Sousa /Deptº. Matemática U.A. exemplo data mining Áurea Sousa /Deptº. Matemática U.A. Metodologia de Inferência (confirmatória): indução Definir objectivos do estudo Planear a experiência amostragem Recolha de dados Análise de dados Estabelecer inferências validação de hipóteses teoria dedução formulação de hipóteses recolha de dados em institutos especializados recolha por inquérito ou entrevistas desenho de planos experimentais análise de dados Inferência estatística conclusões gerais Em qualquer projecto de investigação é imprescindível Objectivos da Investigação Apresentação e Interpretação dos Resultados Metodologias de Investigação Recolha da Informação Análise das Informações Áurea Sousa /Deptº. Matemática U.A. V A Categóricas ou qualitativas NOMINAL ORDINAL R I Á V E I S Numéricas ou quantitativas DISCRETA CONTÍNUA Áurea Sousa /Deptº. Matemática U.A. Tipos de Amostragem Amostragem Probabilística Cada elemento da população tem uma probabilidade fixa de ser seleccionado para a amostra. Amostragem Não-Probabilística A selecção da amostra resulta do julgamento do investigador e não de procedimentos baseados na teoria das probabilidades. Os resultados podem conter enviezamento. Áurea Sousa /Deptº. Matemática U.A. Técnicas de amostragem Probabilísticas Não Probabilísticas Amostr. por conveniência Am. aleatória simples Amostr. por julgamento Amostr. por quotas Amostragem Estratificada Amostr. em bola de neve Amostr. por conglomerados Amostr. multi-etapas Áurea Sousa /Deptº. Matemática U.A. Outras técnicas Amostragem – técnicas probabilísticas Amostra Aleatória Simples Elementos da amostra escolhidos de forma aleatória. Igual probabilidade (diferente de zero) de cada elemento da população ser seleccionado por sorteio. População é numerada de 1 a n. Para realizar o sorteio é utilizada, por exemplo, uma tabela de números aleatórios. Amostragem Estratificada Aplicada a populações heterogéneas sendo necessário subdividir a população em estratos (subgrupos) homogéneos, como por exemplo, classe social, idade , sexo, habilitações literárias, raça, religião, preferência política, etc. Seleciona-se uma amostra aleatória simples de cada estrato. Áurea Sousa /Deptº. Matemática U.A. Amostragem – técnicas probabilísticas Amostragem aleatória Sistemática Elementos da amostra seleccionados aleatoriamente É estabelecido um intervalo de amplitude k entre esses elementos tal que: k = N/n (inverso da taxa de amostragem) onde N dimensão da população da amostra e n = dimensão Escolhe-se aleatoriamente um número entre 1 e k e iniciase a selecção. Ex: k = 100/10 k = 10 Começa-se, por exemplo, com a 5ª unidade da amostra Em seguida, passa-se para a 15ª e assim sucessivamente, até se obter a dimensão n da amostra. Áurea Sousa /Deptº. Matemática U.A. Amostragem – técnicas probabilísticas Amostragem por Conglomerados A população é dividida em sub-grupos É seleccionada uma amostra aleatória de subgrupos (clusters) Para cada cluster seleccionado, ou todos os seus elementos são incluidos na amostra ou é retirada uma amostra de forma probabilística. Áurea Sousa /Deptº. Matemática U.A. Um exemplo (probab. prop. à dimensão) Como escolher probabilisticamente uma amostra de 3 freguesias de um total de 10? Freguesia nº 1 2 3 4 5 6 7 8 9 10 População 100 000 50 000 20 000 150 000 75 000 5 000 30 000 25 000 35 000 10 000 Acumulada 100 000 150 000 170 000 320 000 395 000 400 000 430 000 455 000 490 000 500 000 Solução: Geram-se aleatoriamente 3 números entre 1 e 500 000. Ex: 75 235, 232 974, 429 232 ⇒ seleccionar as freguesias 1, 4 e 7 Áurea Sousa /Deptº. Matemática U.A. Amostragem – técnicas não probabilísticas Por Conveniência Selecção de acordo com a conveniência do investigador. Ex. pessoas que estão ao alcance do investigador e dispostas a responder a um questionário. Aspectos positivos – mais barata, mais simples Aspectos negativos – não-conclusiva, menos confiável Por Julgamento Selecção segundo investigador. critério de julgamento do Ex: Numa pesquisa sobre cosméticos, o investigador decide que irá entrevistar pessoas em um grande salão de cabeleireiros. Áurea Sousa /Deptº. Matemática U.A. Amostragem – técnicas não probabilísticas Por Quotas O investigador procura uma amostra que se identifique em alguns aspectos com a população (sexo, idade, etc..) A quantidade a ser entrevistada é aleatória. Ex: pesquisa de opinião sobre um jornal, em que cada investigador tenha de entrevistar uma quantidade de pessoas da classe A, da classe B, de faixas etárias variáveis de 30 a 45 anos e de ambos os sexos. Áurea Sousa /Deptº. Matemática U.A. Factores que Determinam a Dimensão da Amostra O número de grupos e sub-grupos dentro da amostra O valor da informação que é recolhida no estudo Precisão pretendida dos resultados Custo da amostra Variabilidade da população Áurea Sousa /Deptº. Matemática U.A. ESTATÍSTICA DESCRITIVA Áurea Sousa /Deptº. Matemática U.A. I Medidas de tendência central II Medidas de tendência não central III Medidas de dispersão IV Medidas de assimetria V Medidas de achatamento Áurea Sousa /Deptº. Matemática U.A. Medidas de tendência central I A Média B Mediana C Moda Áurea Sousa /Deptº. Matemática U.A. II Medidas de tendência não central A) Quartis B) Decis C) Percentis Áurea Sousa /Deptº. Matemática U.A. III Medidas de Dispersão A) Amplitude total (h) B) Desvio médio C) Variância (s2) D) Desvio padrão (s) E) Coeficiente de Variação F) Amplitude InterInter-quartis Áurea Sousa /Depatemática U.A. IV Medidas de Assimetria (skewness (skewness)) A) Primeiro coeficiente de assimetria de Pearson B) Segundo coeficiente de assimetria de Pearson Áurea Sousa /Deptº. Matemática U.A. AS = 0 distribuição é simétrica (a); AS > 0 distribuição é assimetria positiva (b); AS < 0 distribuição é assimetria negativa (c). Áurea Sousa /Deptº. Matemática U.A. V Medidas de Achatamento ou Curtose (kurtosis kurtosis)) Áurea Sousa /Deptº. Matemática U.A. Áurea Sousa /Deptº. Matemática U.A. Áurea Sousa /Deptº. Matemática U.A. Exemplo: Consideremos a amostra constituída pelo nº de irmãos dos 20 alunos de uma determinada turma: 1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2 Classe Freq. Abs. (Fi) Freq. Rel. (fi) tabela de frequências 0 4 0.20 1 8 0.40 2 4 0.20 3 3 0.15 4 1 0.05 Total 20 1.00 Áurea Sousa /Deptº. Matemática U.A. Exemplo: Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo - M ou F, e o estado civil - Solteiro, Casado, Viúvo ou Divorciado. tabela de frequências Classe Solteiro Casado Viúvo Divorciado Total Freq. Abs. (Fi) Freq. Rel. (fi) 78 0.52 50 0.33 5 0.03 17 0.12 150 1.00 Áurea Sousa /Deptº. Matemática U.A. Diagrama de Extremos e Quartis (“caixa de bigodes”) Áurea Sousa /Deptº. Matemática U.A. Áurea Sousa /Deptº. Matemática U.A. sem intervalos entre as barras Áurea Sousa /Deptº. Matemática U.A. Ogiva de Galton Áurea Sousa /Deptº. Matemática U.A. MÉDIA ARITMÉTICA A medida de tendência central mais utilizada; É influenciada por valores atípicos (outliers); uso da média aparada para evitar influência de valores extremos. desprezam-se de 1-5% dos valores extremos 0 1 2 3 4 5 6 7 8 9 10 Média = 5 0 1 2 3 4 5 6 7 8 9 10 12 14 Média = 6 valor extremo influencia muito a média 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. 44 MEDIANA Medida robusta de tendência central; É menos influenciada por valores atípicos; Pode ser calculada para variáveis não categóricas com ordem. 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Mediana = 5 Mediana = 5 A mediana é o número central de uma série de valores ordenados se o número de valores é ímpar coincide com o valor central; se o número de valores é par calcula-se a média entre os dois valores centrais. 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. 45 MODA Uma medida de tendência central; Valor que ocorre com mais frequência; Não é influenciada por valores atípicos Pode ser usada para variáveis quantitativas ou não quantitativas; Pode não existir uma moda; podem existir distribuições Podem existir várias modas; bimodais, trimodais, etc. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Moda = 9 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. 0 1 2 3 4 5 6 Sem Moda 46 AMPLITUDE Medida de dispersão; Diferença entre o maior e o menor; Ignora a distribuição dos restantes valores; Muito sensível à presença de valores atípicos. Amplitude = 12 - 7 = 5 7 03-10-2008 8 9 10 11 12 Amplitude = 12 - 7 = 5 7 8 Áurea Sousa /Deptº. Matemática U.A. 9 10 11 12 47 VARIÂNCIA E DESVIO PADRÃO A medida de dispersão mais usada Usa as variações em torno da média n variância amostral: ∑( X S2 = para grandes volumes de dados é indiferente i =1 n −1 ∑( X para uma população: σ = Desvio padrão (S ou σ) tem as mesmas unidades dos valores originais 03-10-2008 −X) N 2 i 2 Áurea Sousa /Deptº. Matemática U.A. i −µ) 2 i =1 N média (parâmetro) na população 48 EXEMPLOS DE DESVIOS PADRÃO Dados A 11 12 13 14 15 16 17 18 19 20 21 Média = 15,5 s = 3,338 Dados B 11 12 13 14 15 16 17 18 19 20 21 Média = 15,5 s = 0,926 Dados C 11 12 13 14 15 16 17 18 19 20 21 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. Média = 15,5 s = 4,57 49 FOLHA DE CÁLCULO DO MS. EXCEL barras de título, de menus e de ferramentas barra de edição letras referenciam as colunas referência ou nome da célula em edição célula C6 a ser editada botões de edição células com texto, números e formatações separadores identificativos das folhas (spreadsheets) agrupadas no livro (workbook) números referenciam as linhas botões para navegação entre as várias folhas 03-10-2008 acção actual: em edição Áurea Sousa /Deptº. Matemática U.A. esta área da barra de estado apresenta resultados de cálculos rápidos 50 OS PACOTES DE ANÁLISE ESTATÍSTICA aplicações com grande variedade de procedimentos estatísticos e capacidade para elaborar gráficos complexos; dados organizados em tabelas rígidas onde as colunas representam variáveis e as linhas observações ou casos; importantes linguagens de programação, possibilitando a automação de tarefas muito demoradas ou complexas; funcionamento distinto das folhas de cálculo, sendo as análises efectuadas segundo uma sequência de 4 passos. 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. SAS Statistics Stat graphics SPSS R, S-Plus 51 STATISTICAL PACKAGE FOR SOCIAL SCIENCES análise segundo uma sequência de 4 passos. inserir dados na folha de dados 1 escolher um procedimento 2 estatístico cada coluna representa uma variável nome das variáveis as linhas representam indivíduos ou observações afectar variáveis e escolher opções 3 obter 4 resultados 03-10-2008 Editor dos dados Áurea Sousa /Deptº. Matemática U.A. 52 CAIXAS DE DIÁLOGO DOS PROD. ESTAT. 03-10-2008 é apresentada uma lista das variáveis definidas na folha de dados;botão usado para transferir vars as variáveis são lista de variáveis variável colocadas nas caixas numérica correspondentes ao pretendido; botões para opções, gráficos, criação de variável de caracteres string código e ajuda; botões de opções é possível saber e formatações botões padrão informações sobre a variável seleccionada pelo menu emergente; é possível ler uma descrição dos controlos nas caixas de diálogo com o menu emergente. Áurea Sousa /Deptº. Matemática U.A. caixas onde se colocam vars 53 CAIXAS DIÁLOGO DOS GRÁFICOS INTERA. as variáveis são arrastadas da lista para as caixas respectivas; usam-se separadores para definir as propriedades dos gráficos; as variáveis são identificadas por um ícone que representa a separadores escala de medida; para definir formatações a lista de variáveis variável pode ser reordenada quantitativa calculada por diferentes atributos variável com o menu emergente. quantitativa botões para subtipo de gráfico (scale) variável qualitativa (categorical) 03-10-2008 Áurea Sousa /Deptº. Matemática U.A. 54