Estatística Aplicada II • • • • • Profa. Flávia Landim E-mail: [email protected] Aulas: quintas de 13h-18h20 Início: 22 de agosto de 2013 Avaliações: P1 10/10, P2 28/11. apresentação de trabalhos: 5 e 12/12 (grupos de 3 alunos que deverão ser definidos até o dia da P1). MAD342 – AULA #01 – 22/08/2013 Estatística Aplicada II • Ementa no SIGA: Conceito de regressão associado à correlação entre variáveis. Conceito de ajustamento. Métodos de ajustamento e aplicação à determinação das equações de regressão. Teoria elementar de probabilidades: princípios fundamentais. Distribuição binomial e distribuição normal: propriedades e aplicações à psicologia. Noções de inferência estatística: estimação de parâmetros. • Página com as informações da disciplina: www.im.ufrj.br/flavia/estat2_psicologia.html MAD342 – AULA #01 – 22/08/2013 Estatística Aplicada II • Referências (livro-texto ainda a definir) • Estatística Básica: a arte de trabalhar com dados. João Ismael, Sônia, Santiago e Gastão. Editora Campus. • Estatística sem Matemática para Psicologia. Dancey e Reidy. Artmed. MAD342 – AULA #01 – 22/08/2013 Estatística: o que é? • O primeiro uso da palavra ESTATÍSTICA parece datar do final do século XVI, referindo-se a uma “ciência civil, política, estatística e militar” em um trabalho do historiador Girolomo Ghilini. (Berquó, 1981) • As expressões “statistics”, “statist” e “statistical” são derivadas do latim status com duplo significado: estado político; e situação das coisas. MAD342 – AULA #01 – 22/08/2013 O Estado da Estatística Os primeiros usos da estatística envolviam compilação de dados e gráficos que descreviam vários aspectos de um estado ou país. Em 1662, John Gaunt publicou informação estatística acerca de nascimentos e mortes. O trabalho de Gaunt foi seguido por estudos sobre taxas de mortalidade e de doenças, tamanhos de populações, renda e taxas de desemprego. Os governos e as empresas se apoiam fortemente em dados estatísticos: taxas de desemprego, taxas de inflação, índices do consumidor, taxas de nascimento e morte são cuidadosamente compiladas de modo regular, e os dados resultantes são usados pelos gestores para tomar decisões que afetam futuras contratações, investimentos, níveis de produção e expansão para novos mercados.” Triola, 2005 – Uma Introdução à Estatística. MAD342 – AULA #01 – 22/08/2013 Breve História da Estatística • Nos séculos XVII e XVIII, a estatística voltou-se mais para cálculos de probabilidades. • No século XIX, Laplace e Gauss começaram a aplicar a distribuição normal na explicação de fenômenos reais. • Nesta época iniciou-se a aplicação da estatística na pesquisa em Ciências Sociais. • No século XX difundiram-se os métodos multivariados para analisar conjuntamente várias variáveis. MAD342 – AULA #01 – 22/08/2013 Estatística: o que é ? Para Sir Ronald A. Fisher (1890-1962): Estatística é o estudo das populações, das variações e dos métodos de redução de dados. MAD342 – AULA #01 – 22/08/2013 Estatística: o que é? • ``Eu gosto de pensar na Estatística como a ciência de aprendizagem a partir dos dados ... ´´ MAD342 – AULA #01 – 22/08/2013 Jon Kettenring Presidente da American Statistical Association, 1997 Estatística: o que é? Uma boa definição é: “Estatística é um conjunto de técnicas e métodos que nos auxiliam no processo de tomada de decisão na presença de incerteza.” MAD342 – AULA #01 – 22/08/2013 Estatística: o que é? Toda atividade humana é baseada em previsões e tomadas de decisão sob incerteza: - quando entramos para a universidade; - quando arrumamos um emprego; - quando um paciente é submetido a um tratamento; - quando investimos uma quantia no mercado de ações; etc. MAD342 – AULA #01 – 22/08/2013 Estatística: o que é? • Calyampudi R. Rao (1920- ), um estatístico importante, cujo trabalho teórico contribuiu para os fundamentos da Estatística Moderna apresentou a seguinte equação: Essa parte da equação representa um papel fundamental do estatístico conhecimento + incerto conhecimento da quantidade = de incerteza nele MAD342 – AULA #01 – 22/08/2013 conhecimento útil Alguns Exemplos de situações em que se usa Estatística • Mensuração das mudanças no meio-ambiente para avaliar os efeitos do aquecimento global. • Mensuração da poluição do ar para avaliar os efeitos na saúde da população. • Análise de experimentos sobre o uso de fertilizantes para maximizar a produção de um grão. • Mensuração da eficácia de diferentes medicamentos para encontrar o melhor, e identificar efeitos colaterais. • Cálculo de quão provável duas pessoas têm o mesmo perfil de DNA. • Estudo sobre hábitos migratórios de certo animal; • Estimação do tamanho populacional de certas espécies; • Comparação de hábitos comportamentais em diferentes grupos; MAD342 – AULA #01 – 22/08/2013 Conceitos Básicos • População: conjunto de elementos com pelo menos uma característica em comum. A população define o universo que vai ser estudado. • Amostra: é um subconjunto não-vazio da população. MAD342 – AULA #01 – 22/08/2013 Conceitos Básicos • Parâmetro – é uma característica numérica da população. • Estatística - é uma característica numérica da amostra. MAD342 – AULA #01 – 22/08/2013 Inferência Estatística • Em linhas gerais podemos dizer que a Inferência Estatística está voltada para fazer afirmações sobre toda a população, quando se conhece apenas uma amostra da população. • Desejamos fazer afirmações sobre parâmetros, usando estatísticas. • É claro que estaremos sujeitos a variações inerentes ao processo de amostragem e será muito importante saber quantificar a incerteza associada à inferência realizada. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Probabilidade • A ferramenta matemática usada para quantificar incertezas é a teoria das probabilidades. • Noções básicas de probabilidade serão objeto de estudo nesta disciplina. MAD342 – AULA #01 – 22/08/2013 Etapas na análise estatística de dados Amostragem–coleta de dados Estatística descritiva - Análise exploratória de dados – organização dos dados Cálculo de Probabilidades Inferência Estatística MAD342 – AULA #01 – 22/08/2013 Estatística Básica • Vamos tratar agora da etapa do processo de análise, chamada Análise Descritiva ou Análise Exploratória de Dados. • Os dados precisam ser organizados em tabelas, gráficos ou mapas, e também usando-se medidas úteis que descrevem de alguma forma o conjunto de dados. • Em geral, é a partir desta análise que será proposto um modelo que descreva pelo menos razoavelmente a geração dos dados em estudo. • Não serão tratados aqui os tópicos sobre coleta e organização dos dados. MAD342 – AULA #01 – 22/08/2013 Escalas de medição e tipos de variáveis • As escalas de medição são: nominal, ordinal, de contagem, intervalar e de razão. • As técnicas estatísticas diferenciam-se em relação ao tipo de variável. • As variáveis são classificadas em dois grandes grupos: categóricas ou qualitativas (escalas nominal e ordinal) e numéricas ou quantitativas (escalas de contagem, intervalar ou de razão). MAD342 – AULA #01 – 22/08/2013 Escalas intervalar e de razão • A escala intervalar aproxima-se da concepção comum de medida, já que possui uma unidade de medida constante. Entretanto, a origem desta escala é arbitrária. Os exemplos mais comuns de escala de intervalo são as escalas de temperatura Celsius e Fahrenheit. Cada uma delas atribui um zero arbitrário. • A escala de razão é a mais elaborada das escalas de medida, no sentido de permitir todas as operações aritméticas. Essa escala possui um ponto zero único, além de unidade de medida constante. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de comprimento, peso, etc. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Síntese numérica – medidas-resumo para variáveis quantitativas • As medidas a serem trabalhadas são de duas naturezas distintas, a saber, • 1) medidas de posição – média aritmética, mediana, moda, percentis (quartis, quintis), buscam caracterizar valores que sejam representativos na distribuição de frequência dos valores observados, e • 2) medidas de dispersão – amplitude amostral. distância interquartílica, desvio médio, variância, desvio-padrão, coeficiente de variação, buscam caracterizar a variação na distribuição dos valores. MAD342 – AULA #01 – 22/08/2013 Medidas de Posição • 1) Moda – realização mais frequente do conjunto de valores observados. Em alguns casos, pode haver mais de uma moda, ou seja, uma distribuição pode ser bimodal, trimodal, multimodal. É possível também que não exista moda, se todos os valores ocorrerem com a mesma frequência. MAD342 – AULA #01 – 22/08/2013 Medidas de Posição • 2) Mediana – é a realização que ocupa a posição central da série de observações, quando estão ordenadas em ordem crescente. • Nota: se o número de observações é ímpar indica-se como mediana o valor que ocupa a posição (n+1)/2. Caso contrário, o usual é indicar como mediana a semi soma dos valores que ocupam as duas posições centrais, a saber, n/2 e n/2+1. • A posição de uma observação para efeito de obter a mediana é considerada somente depois de colocar os dados em ordem crescente. MAD342 – AULA #01 – 22/08/2013 Medidas de Posição • 3) Média aritmética – soma das observações dividida pelo número de observações. • Formalizando, se x1, x2, ..., xn são n valores observados num conjunto de dados, a média aritmética é dada por x n 1 n xi i 1 x1 x2 ... xn n MAD342 – AULA #01 – 22/08/2013 Medidas de posição • 4) Percentis: são 99 medidas que dividem a distribuição de frequências em 100 partes de frequência 1% tal que o p-ésimo percentil, p=1,2,...,99, corresponde a um valor para o qual p% dos valores observados são menores ou iguais a ele. • Notação: (P1, P2, ..., P10, ..., P99) MAD342 – AULA #01 – 22/08/2013 Percentis Especiais • Quartis: são três medidas, Q1, Q2 e Q3, que dividem a distribuição em quatro partes de frequências iguais a 25%. • Q1 – primeiro quartil – 25% dos valores são menores ou iguais a Q1 • Q2– segundo quartil – 50% dos valores são menores ou iguais a Q2 (Observe que Q2 coincide com a mediana) • Q3 – terceiro quartil – 75% dos valores são menores ou iguais a Q3 MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Percentis especiais • Quintis – são quatro medidas que dividem a distribuição em 5 partes de frequências iguais a 20%. (P20,P40,P60,P80) • Decis – são 9 medidas que dividem a distribuição em 10 partes de frequências iguais a 10%.(P10,P20, ..., P90) MAD342 – AULA #01 – 22/08/2013 Medidas de dispersão • 1) Amplitude amostral – é a diferença entre o maior valor e menor valor observados. • 2) Distância interquartílica – é a diferença entre o terceiro e primeiro quartis. MAD342 – AULA #01 – 22/08/2013 Medidas de Dispersão • Sejam x1, x2, ..., xn os n valores observados num conjunto de dados, e a média. Define-se como desvios da média as x diferenças: xi x , i=1,2,...,n. Em qualquer conjunto de dados a soma dos desvios da média será sempre nula, pois os desvios positivos compensam-se com os desvios negativos. MAD342 – AULA #01 – 22/08/2013 Variância amostral • A variância amostral é uma média dos quadrados dos desvios da média definida por: 1 n s 2 x x n 1 2 i 1 i Podemos dizer que a variância caracteriza o “espalhamento” dos valores no conjunto de dados em torno da média. MAD342 – AULA #01 – 22/08/2013 Desvio-padrão amostral • O desvio-padrão amostral (s) é a raiz quadrada positiva da variância amostral. • O desvio-padrão tem a mesma unidade de medida das observações e poderá ser comparado à média, por exemplo. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Como comparar desvios padrão? • Como as escalas dos valores podem ser diferentes não há como dizer se um conjunto é mais disperso em relação a sua média apenas olhando o valor do seu desvio-padrão. • Um desvio padrão igual a 1 u pode ser grande ou pequeno dependendo da magnitude dos valores observados. • Se dois conjuntos têm desvios-padrões iguais, como classificar o mais disperso em relação à média? MAD342 – AULA #01 – 22/08/2013 Coeficiente de variação amostral • É a razão entre desvio-padrão e média. Em geral é apresentado em termos percentuais sendo multiplicado por 100. • É útil na avaliação da magnitude da variância do conjunto de dados. s CV 100 x MAD342 – AULA #01 – 22/08/2013 Tipos de gráficos • Setores, barras, linha, histograma, ramo-folhas, box plot (diagrama de caixa), etc. • Os gráficos de setores e barras são adequados para variáveis categóricas (qualitativas). • Nesses gráficos, a única escala a ser considerada é a escala de frequência dos diferentes tipos de resposta observados para a variável categórica. MAD342 – AULA #01 – 22/08/2013 Gráfico de setores Em geral, recomenda-se não usar este tipo de gráfico, quando o número de respostas diferentes é maior do que quatro ou mesmo quando as diferenças de frequências para as diferentes respostas são pequenas, pois é difícil detectar pequenas diferenças nos ângulos centrais correspondentes aos setores. MAD342 – AULA #01 – 22/08/2013 Gráfico de setores Observe que há apenas 4 respostas diferentes, mas não dá para perceber diferenças entre centro, norte e sul. MAD342 – AULA #01 – 22/08/2013 Gráfico de barras Agora é possível perceber as diferenças entre as frequências observadas. As frequências podem ser absolutas ou relativas. MAD342 – AULA #01 – 22/08/2013 Gráfico de barras As barras que representam as frequências de cada resposta podem ser dispostas de forma horizontal ou vertical. MAD342 – AULA #01 – 22/08/2013 Gráfico de linha • Adequado para representar observações feitas ao longo do tempo. • A série deve apresentar no mínimo 5 observações. MAD342 – AULA #01 – 22/08/2013 Exemplo: dados sobre meningite 0 20 40 60 Nº de casos no município do Rio 1976 1978 1980 1982 1984 1986 1988 MAD342 – AULA #01 – 22/08/2013 1990 1992 Histograma • É usado para representar a distribuição de frequências de uma variável quantitativa contínua cujos valores observados foram agrupados em intervalos de classe. • O gráfico é composto por retângulos adjacentes cuja área é igual a frequência da classe correspondente. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Ramo-e-folhas • É um gráfico alternativo ao histograma. • A vantagem do ramo-e-folhas em relação ao histograma é que não há perda de informação. • No histograma as observações individuais estão agrupadas em classes. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Medidas de posição: média e mediana A média é a soma dos valores observados sobre o número de observações (média aritmética). No histograma ela representa o ponto de equilíbrio (é o centro de massa). MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Média versus mediana MÉDIA MEDIANA é mais fácil de ser manipulada algebricamente; representa o centro de massa dos dados. É muito afetada por valores extremos. é mais difícil de ser manipulada algebricamente; é o valor que ocupa a posição central quando os dados estão ordenados; (divide o histograma correspondente em duas partes de áreas iguais). não é afetada por valores extremos. MAD342 – AULA #01 – 22/08/2013 Distribuições unimodais Em distribuições unimodais tem-se sempre a mediana entre a média e a moda: ou média<=mediana<=moda (assimetria negativa) ou moda<=mediana<=média (assimetria positiva) Em distribuições unimodais perfeitamente simétricas tem-se média=moda=mediana. MAD342 – AULA #01 – 22/08/2013 Assimetria positiva - distribuição unimodal média>mediana>moda A distribuição apresenta maior concentração nos menores valores. MAD342 – AULA #01 – 22/08/2013 Assimetria negativa - distribuição unimodal média<mediana<moda A distribuição apresenta maior concentração nos valores mais altos. MAD342 – AULA #01 – 22/08/2013 Distribuição unimodal simétrica média=mediana=moda MAD342 – AULA #01 – 22/08/2013 Medidas de assimetria e curtose Quando uma distribuição unimodal é simétrica tem-se Média = Mediana = Moda. Numa distribuição unimodal, se Média < Mediana < Moda dizemos que ela é assimétrica à esquerda ou negativamente assimétrica; se Média > Mediana > Moda, dizemos que ela é assimétrica à direita ou positivamente assimétrica. Coeficiente de assimetria de Pearson: As = 3 ( Média - Mediana ) / Desvio Padrão MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 MEDIDAS DE CURTOSE • • • • Grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade). Quando a distribuição apresenta uma curva de freqüência mais fechada que a normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica. Quando a distribuição apresenta uma curva de freqüência mais aberta que a normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica. A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica. MAD342 – AULA #01 – 22/08/2013 Coeficiente de curtose C1 = (Q3 - Q1) / 2(P90 - P10) Este coeficiente é conhecido como percentílico de curtose. Relativamente a curva normal, temos: C1 = 0,263 C1 < 0,263 C1 > 0,263 curva mesocúrtica curva leptocúrtica curva platicúrtica MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Exemplo: Distribuição Bimodal Você acha que a média é uma boa medida de posição nesse caso? E a mediana? Por que? MAD342 – AULA #01 – 22/08/2013 Box Plot (desenho esquemático) IQR=Q3-Q1 MAD342 – AULA #01 – 22/08/2013 Bioestat • O BioEstat é programa gratuito para estudantes de graduação e pós-graduação, pesquisadores e professores, com 210 aplicativos estatísticos de fácil uso pelos iniciantes, voltados sobretudo para as áreas das ciências biológicas e médicas. • Este programa contém o Manual (em formato de arquivo "pdf") que orienta o usuário com indicações simples e precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat. MAD342 – AULA #01 – 22/08/2013 Bioestat • A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e-mail para [email protected]. • http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/ • No que segue veremos alguns exemplos de uso do bioestat para calcular medidas-resumo e construir gráficos. MAD342 – AULA #01 – 22/08/2013 Exemplo 1 • Em um grupo de 80 alunos foi feita uma pesquisa sobre hábitos de leitura. Uma das questões referia-se que tipo de leitura eles mais gostavam: revistas, jornais, livros de ficção, livros não-ficção, outros. Após digitar as respostas verificou-se que 18 preferiam revistas, 25, jornais, 15 preferiam ficção, 13, não ficção e 9, outros. MAD342 – AULA #01 – 22/08/2013 Exemplo 1 18 25 15 13 9 No Bioestat entramos com esses números que são as frequências absolutas de preferências e depois solicitamos a janela de gráficos escolhendo a opção “setores”. Depois é só configurar uma legenda, título, etc. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Exemplo 2: • As idades dos 80 alunos também foram observadas e seus valores foram 18,18,18,18,18,18,18,18,18,18,19,19,19,19,19,19, 19,19,19,19,19,19,19,19,19,20,20,20,20,20,20,20, 20,20,20,20,20,20,20,20,20,20,20,20,20,21,21,21, 21,21,21,21,21,21,21,21,21,21,21,21,21,21,21,21, 21,21,21,21,22,22,22,22,22,23,25,25,26,26,27,35. MAD342 – AULA #01 – 22/08/2013 Atividades sugeridas • Resolva os exercícios da lista #01 usando o Bioestat. MAD342 – AULA #01 – 22/08/2013 MAD342 – AULA #01 – 22/08/2013 Bibliografia: • • • • Berquó, E. e outros (1981). Bioestatística. Bisquerra, Sarriera, Martínez (2004). Introdução à Estatística. Bussab e Morettin. (2002). Estatística Básica. Dancey e Reidy. (2012). Estatística sem Matemática para Psicologia. • Medronho, e outros. (2005). Epidemiologia. • Montgomery, D. e Runger, G. (2003). Estatística Aplicada e Probabilidade para Engenheiros. • Triola, M. (2005). Uma Introdução à Estatística. MAD342 – AULA #01 – 22/08/2013