Centro Universitário Estácio de Sá de Santa Catarina Instituto de Certificação de Estudos de Trânsito e Transportes Prof. Hubert Chamone Gesser, Dr. Graduação em Administração - ESAG/UDESC Doutorado e Mestrado em Engenharia de Produção - UFSC - SUMÁRIO - Conceitos Básicos em Estatística Medidas de Dispersão Conhecendo os Dados Amostragem Medidas de Tendência Central Tabelas e Gráficos Medidas de Ordenamento Correlação Conceitos Básicos em Estatística Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA ESTATÍSTICA Origem no latim status (estado) + isticum (contar) “Informações referentes ao estado” Coleta, Organização, Descrição, Análise e Interpretação de Dados ESTATÍSTICA ASSOCIAÇÃO ENTRE ESTATÍSTICA E ESTADO Recenseamentos Com o surgimento dos Estados, aparece a necessidade de se contar o povo (produção) e o exército (poder). Esforços dos governos para conhecer seus habitantes, sua condição socioeconômica, sua cultura, sua religião, etc. ESTATÍSTICA PANORAMA HISTÓRICO Desde a Antiguidade, vários povos já registravam o número de habitantes, de nascimentos e óbitos, que hoje chamamos de “estatísticas”. Na Idade Média, colhiam-se informações, geralmente com finalidades bélicas ou tributárias. 6 ESTATÍSTICA Fonte: http://www.educ.fc.ul.pt/icm/icm2003/icm24/introducao.htm 7 ESTATÍSTICA O Que é Estatística? Para Sir Ronald A. Fisher (1890-1962): Estatística é o estudo das populações, das variações e dos métodos de redução de dados. ESTATÍSTICA O Que é Estatística? “Eu gosto de pensar na Estatística como a ciência de aprendizagem a partir dos dados...” Jon Kettenring Presidente da American Statistical Association, 1997 ESTATÍSTICA O Que é Estatística (definição)? “Estatística é um conjunto de técnicas e métodos que nos auxiliam no processo de tomada de decisão na presença de incerteza.” ESTATÍSTICA LIVROS DE ESTATÍSTICA ESTATÍSTICA POR QUE A ESTATÍSTICA É IMPORTANTE? As diferenças são atribuídas a causas erradas; As coincidências ocorrem frequentemente; As pessoas têm dificuldades com probabilidades; Acrescentam polimento às publicações; Faz conhecer o “grau de confiança” das conclusões. ESTATÍSTICA As variabilidades mostram que existem diferenças 1o Mundo Alta Expectativa de Vida Boas Condições Sanitárias Hábitos de Consumo Assistência em Saúde 3o Mundo Doenças Infecciosas Alta Mortalidade Infantil Baixa Escolaridade Iniquidades em Saúde Indicadores Sociais Diferentes ESTATÍSTICA EXPECTATIVA DE VIDA – Diferenças entre os países ESTATÍSTICA RENDA PER CAPITA NO BRASIL (PNUD, 2000) ESTATÍSTICA RENDA PER CAPITA EM SANTA CATARINA (PNUD, 2000) ESTATÍSTICA ACESSO AO ENSINO SUPERIOR NO BRASIL (PNUD, 2000) ESTATÍSTICA ACESSO AO ENSINO SUPERIOR EM SANTA CATARINA (PNUD, 2000) ESTATÍSTICA GRÁFICO DE DISPERSÃO - RENDA x EDUCAÇÃO (PNUD, 2000) ESTATÍSTICA FONTES DEMOGRÁFICAS Bancos de Dados (OMS, OPAS, MS, IBGE, etc) Indicadores Sociais (IDH, GINI, QV) Pesquisas de Mercado (Hábitos de Consumo) Censos Demográficos Pesquisa Nacional por Amostra de Domicílios (PNAD) Programa das Nações Unidas para o Desenvolvimento (PNUD) ESTATÍSTICA POPULAÇÃO E AMOSTRA POPULAÇÃO: Conjunto de elementos que se deseja estudar AMOSTRA: Subconjunto da população Nem sempre o Censo é viável (questões econômicas) É mais barato coletar dados de amostras ESTATÍSTICA POPULAÇÃO: Também chamada de Universo AMOSTRA: Parte da população População Amostra ESTATÍSTICA POPULAÇÃO E AMOSTRA POPULAÇÃO (N): Todos os motoristas de Fpolis/SC Plano de Amostragem AMOSTRA (n): Parte dos motoristas de Fpolis/SC ESTATÍSTICA REQUISITOS DE UMA AMOSTRA 1) Ter um tamanho adequado (previamente calculado) Existem fórmulas para o cálculo do adequado tamanho da amostra 2) Constituintes selecionados ao acaso (sorteio) ESTATÍSTICA Áreas da Estatística Amostragem e Planejamento de Experimentos (coleta dos dados) Estatística Descritiva (organização, apresentação e sintetização dos dados) Estatística Inferencial (testes de hipóteses, estimativas, probabilidades) ESTATÍSTICA Amostragem e Planejamento de Experimentos (coleta dos dados) - É o processo de escolha da amostra - É o início de qualquer estudo estatístico - Consiste na escolha criteriosa dos elementos a serem submetidos ao estudo Exemplos: Pesquisa sobre tendência de votação Cuidado: Perfil da Amostra = Perfil da População ESTATÍSTICA Estatística Descritiva (organização, apresentação e sintetização dos dados) - É a parte mais conhecida - Diariamente veiculada na mídia (jornais, televisão, rádio) - Distribuições de frequência, médias, tabelas, gráficos Exemplos: Quantidade de acidentes de trânsito em uma cidade Índice de Mortalidade Infantil (por mil nascimentos) Média de acidentes em uma rodovia ESTATÍSTICA Os Gráficos são Estatísticas Descritivas ESTATÍSTICA ESTATÍSTICA ESTATÍSTICA Real x Utopia ESTATÍSTICA Acidentologia - Risco e Prevenção Visão Multidisciplinar ESTATÍSTICA Acidentes de Trânsito ESTATÍSTICA Impunidade…o que acontece com aqueles que matam no trânsito? Número de mortes no trânsito ultrapassa o de homicídios em SP Acidente com van e carreta mata 12 em MG Acidentes com vítimas tiveram redução de 33% em Curitiba Número de mortes aumenta 4% nas estradas federais nos feriados Manchetes de Jornais Paraguai ESTATÍSTICA Estatística Inferencial, Indutiva ou Analítica (testes de hipóteses, estimativas) - Auxilia o processo de tomada de decisões - Responde uma dúvida, compara grupos - Testam-se 2 hipóteses (hipótese nula e hipótese alternativa), sendo que uma delas será aceita mediante a aplicação de um teste estatístico baseado na teoria das probabilidades. Exemplo: O tabagismo está associado às doenças pulmonares? Hipóteses: Nula (não há associação), Alternativa (há associação) ESTATÍSTICA FASES DO MÉTODO ESTATÍSTICO COLETA DE DADOS CRÍTICA DOS DADOS APURAÇÃO DOS DADOS EXPOSIÇÃO OU APRESENTAÇÃO ANALISAR OS RESULTADOS E FAZER INFERÊNCIA 37 ESTATÍSTICA SOFTWARES ESTATÍSTICOS • SPSS • Epidata • Bioestat • Excel • STATA • SAS • Epi Info 38 Conhecendo os Dados Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA TIPOS DE DADOS Dados Nominais (Sexo, Raça, Cor dos Olhos) Dados Ordinais (Grau de Satisfação) Dados Numéricos Contínuos (Altura, Peso) Dados Numéricos Discretos (Número de Automóveis) “Estatísticas aplicadas em alguns tipos de dados não podem ser aplicadas em outros .” ESTATÍSTICA TIPOS DE DADOS Dados Intervalares (Temperatura oC) Quando se referem a valores obtidos mediante a aplicação de uma unidade de medida arbitrária, porém constante e onde o zero é relativo. Este tipo de dado tem restrições a cálculos. 30oC não é três vezes mais quente que 10oC Para cálculos se utiliza a escala Kelvin ESTATÍSTICA VARIÁVEL QUANTITATIVA OU QUALITATIVA? 42 ESTATÍSTICA VARIÁVEL QUANTITATIVA OU QUALITATIVA? Fonte: http://www.bocamaldita.com/1119733943/nova-charge-no-ar-contra-corrupcao/ 43 ESTATÍSTICA VARIÁVEL QUANTITATIVA OU QUALITATIVA? 44 ESTATÍSTICA ARREDONDAMENTO DE NÚMEROS 1ª Regra: Arredondar para o número mais próximo 2ª Regra: Arredondar para o par mais próximo 5,0 5,5 6,0 6,0 6,5 7,0 45 ESTATÍSTICA EXERCÍCIO No 1 Faça os seguintes arredondamentos: 38,648 para o centésimo mais próximo 38,65 54,76 para o décimo mais próximo 54,8 27,465 para o centésimo mais próximo 27,46 42,455 para o centésimo mais próximo 42,46 4,5 para o inteiro mais próximo 4 ESTATÍSTICA AGRUPAMENTO DE DADOS POR VALORES DISTINTOS 8 5 3 5 5 3 2 2 6 7 4 4 6 5 5 5 5 7 6 5 3 6 4 6 2 5 4 6 x 2 3 4 5 6 7 8 Total f (frequência) 3 3 4 9 6 2 1 28 ESTATÍSTICA AGRUPAMENTO DE DADOS POR CLASSES Classes f (frequência) Ponto Médio 39 50 4 44,5 50 61 72 83 61 72 83 94 5 5 6 5 55,5 66,5 77,5 88,5 ESTATÍSTICA POLÍGONO DE FREQUÊNCIA x 2 3 4 5 6 7 8 f 3 3 4 9 6 2 1 Total 28 f 10 8 6 4 2 2 3 4 5 6 7 8 x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Horizontal: Análise Vertical: Assimétrica Positiva Leptocúrtica (alta) Simétrica Mesocúrtica Assimétrica Negativa Platicúrtica (baixa) Análise Conjunta: Assimétrica Positiva Leptocúrtica Simétrica Mesocúrtica “Curva de Gauss” “Curva Normal” ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Horizontal: Assimétrica Positiva (cauda direita longa) f x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Horizontal: Simétrica f x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Horizontal: Assimétrica Negativa (cauda esquerda longa) f x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Vertical: Leptocúrtica (alta) f x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Vertical: Mesocúrtica f x ESTATÍSTICA CURVAS DE FREQUÊNCIA Análise Vertical: Platicúrtica (baixa) f x ESTATÍSTICA DESCRIÇÃO DE DADOS NOMINAIS E ORDINAIS Apresentam-se os valores absolutos e as porcentagens Podem ser usadas tabelas ou gráficos 20,4 40 35 30 25 45,9 20 15 10 5 0 1° Trim. 30,6 2° Trim. Gráfico de Barras Gráfico Circular ESTATÍSTICA DESCRIÇÃO DE DADOS NOMINAIS E ORDINAIS CUIDADO!!! 45,9 30,6 20,4 0 10 20 30 40 50 Gráfico de Barras Horizontal 45 40 35 30 25 20 15 10 5 0 1° Trim. 2° Trim. Gráfico de Linhas (não é usado, pois é restrito a dados numéricos contínuos) ESTATÍSTICA DESCRIÇÃO DOS DADOS CONTÍNUOS Trazem informações que expressam a tendência central e a dispersão dos dados. Tendência Central: Média ( x ), Mediana ( Md ), Moda ( Mo ) Medidas de Dispersão: Desvio Padrão, Variância, Amplitude, Coeficiente de Variação, Valor Máximo, Valor Mínimo ESTATÍSTICA EXERCÍCIO No 2 Em uma pesquisa sobre infrações de trânsito foram coletados as seguintes quantidades de multas/dia em uma determinada rodovia: 65 66 62 66 63 61 67 63 64 62 68 67 65 64 65 66 63 64 65 66 64 63 64 66 65 63 64 65 64 63 64 63 64 68 69 70 a) Qual foi o tamanho da amostra (n)? b) Qual é o maior e o menor volume de multas/dia? c) Faça o agrupamento de dados por valores distintos. d) Faça o agrupamento em 3 classes. Medidas de Tendência Central Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA MEDIDAS DE TENDÊNCIA CENTRAL Nos dão uma idéia de onde se localiza o centro, o ponto médio de um determinado conjunto de dados. Medidas: - Média, - Moda e - Mediana. ESTATÍSTICA Fonte: renovadoresudf.wordpress.com ESTATÍSTICA MÉDIA É um valor típico representativo de um conjunto de dados. Fisicamente representa o ponto de equilíbrio da distribuição. Modos de calcular 1) para dados simples x=Sx/n 2) para valores distintos x = S fx / n 3) para agrupamentos em classes x = S fx / n ESTATÍSTICA MÉDIA 1) Cálculo para dados simples x=Sx/n 16 18 23 21 17 16 19 20 S x = Soma dos valores n = tamanho da amostra x = (16+18+23+21+17+16+19+20) 8 x = 18,75 ESTATÍSTICA MÉDIA 2) Cálculo para valores distintos x 2 3 4 5 6 7 8 f fx 3 6 3 9 4 16 9 45 6 36 2 14 1 8 Total 28 134 x = S fx / n S fx = Soma dos produtos dos valores distintos com a frequência n = tamanho da amostra x = 134 28 x = 4,7857 ESTATÍSTICA MÉDIA 3) Cálculo para agrupamentos em classes Classes 39 50 61 72 83 Total 50 61 72 83 94 f x fx 4 5 5 6 5 44,5 55,5 66,5 77,5 88,5 178 277,5 332,5 465 442,5 25 - 1695,5 x = S fx / n S fx = Soma dos produtos dos valores distintos com a frequência n = tamanho da amostra x = 1695,5 25 x = 67,82 ESTATÍSTICA MEDIANA É o valor que ocupa a posição central de um conjunto de dados ordenados. Para um número par de termos a mediana é obtida através da média aritmética dos dois valores intermediários. Interpretação: 50% dos valores estão abaixo ou coincidem com a mediana e 50% estão acima ou coincidem com a mediana. ESTATÍSTICA DADOS BRUTOS E ROL Dados brutos são aqueles que ainda não foram numericamente ordenados. Rol é um arranjo de dados numéricos brutos em ordem crescente ou decrescente de grandeza Fonte: http://danigimenes.blogspot.com.br/2012/03/fila-anda.html 69 ESTATÍSTICA DISPOSIÇÃO EM ROL Fonte: http://guiacemtiradentes.blogspot.com.br/2013/03/moda-mediana-media-matematica.html 70 ESTATÍSTICA Roteiro para o Cálculo do Valor da Mediana: Fazer a disposição em rol Calcular a posição da mediana Encontrar o valor 71 ESTATÍSTICA MEDIANA 1) Cálculo da posição da mediana para dados simples 2 3 4 5 6 7 8 9 10 PMd =(n+1) / 2 PMd = (9+1) / 2 PMd = 5o Termo Mediana (Md) = 6 ESTATÍSTICA MEDIANA 2) Cálculo da posição da mediana para valores distintos x 2 3 4 5 6 7 8 f 3 3 4 9 6 2 1 Total 28 fa 3o 6o 10o 19o 25o 27o 28o - PMd =(n+1) / 2 PMd = (28+1) / 2 PMd = 14,5 x entre 14o e 15o Termo Mediana (Md) = 5 ESTATÍSTICA MEDIANA 3) Cálculo da PMd para agrupamentos em classes Classes 39 50 61 72 83 Total 50 61 72 83 94 f 4 5 5 6 5 25 x fa 44,5 4o 55,5 9o 66,5 14o 77,5 20o 88,5 25o - - PMd =(n+1) / 2 PMd = (25+1) / 2 PMd = 13o Termo Classe Mediana 61 72 Mediana (Md) = 66,5 (estimativa) ESTATÍSTICA MODA É o valor que ocorre com maior frequência em um conjunto de dados. Símbolo = Mo 1) Moda para dados simples Exemplos: 2, 3, 4, 5, 6, 7, 8 AMODAL 2, 3, 3, 4, 5, 6 ,7 MODA = 3 2, 3, 3, 4, 5, 5, 6 BIMODAL (Mo = 3 e Mo = 5) ESTATÍSTICA MODA 2) Moda para valores distintos x 2 3 4 5 6 7 8 f 3 3 4 9 6 2 1 Total 28 O valor 5 tem o maior número de ocorrências (9) Mo = 5 ESTATÍSTICA MODA 3) Moda para agrupamentos em classes Classes 39 50 61 72 83 Total 50 61 72 83 94 f 4 5 5 6 5 25 x fa 44,5 4o 55,5 9o 66,5 14o 77,5 20o 88,5 25o - - Moda Bruta Ponto médio da classe de maior frequência Mo = 77,5 É uma estimativa ESTATÍSTICA A Moda pode ser usada com dados nominais. Fonte: http://lelima.com/enter/?tag=desenho-de-moda ESTATÍSTICA USO DAS MEDIDAS DE TENDÊNCIA CENTRAL MÉDIA: Dados Numéricos e Intervalares É a medida mais utilizada. MODA: Dados Nominais MEDIANA: Dados Ordinais ESTATÍSTICA EXERCÍCIO No 1 Determine a média, a mediana e a moda para o seguinte conjunto de dados 6 5 8 4 7 6 9 7 3 ESTATÍSTICA EXERCÍCIO No 2 Determine o menor valor, o maior valor, a média, a mediana e a moda para o seguinte conjunto de dados 12 32 54 17 82 99 51 11 44 22 22 33 44 52 76 41 37 10 5 87 ESTATÍSTICA EXERCÍCIO No 3 Dado o seguinte agrupamento em classes determine: Classes 1,60 1,65 1,65 1,70 1,70 1,75 1,75 1,80 1,80 1,85 f 10 15 22 18 3 Total 68 a) os pontos médios de cada classe b) a classe modal c) a moda bruta d) a classe mediana e) a mediana por agrupamento de classes f) a média por agrupamento de classes Medidas de Ordenamento Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA MEDIDAS DE ORDENAMENTO São os valores que subdividem uma disposição em rol Medidas: QUARTIS, DECIS E PERCENTIS Os Quartis dividem a disposição em 4 partes iguais Q1, Q2, Q 3 Os Decis dividem a disposição em 10 partes iguais D1, D2, D3, D4, D5, D6, D7, D8, D9 Os Percentis dividem a disposição em 100 partes iguais P1, P2, P3, P4, P5, P6, ... , P99 ESTATÍSTICA MEDIDAS DE ORDENAMENTO Dr. William Mendenhall North Carolina State University Dr. Terry Sincich University of South Florida 85 ESTATÍSTICA Cálculo de posições pela definição de Mendenhall e Sincich q n 1 PosiçãoQuartilq 4 d n 1 PosiçãoDecild 10 c n 1 PosiçãoCentilc 100 86 ESTATÍSTICA Exemplificando... Como pode ser encontrada a posição do segundo quartil em uma amostra de 551 pessoas? 2 551 1 PosiçãoQuartil2 4 PosiçãoQuartil2 276o termo 87 ESTATÍSTICA QUARTIS Os Quartis dividem a disposição em 4 partes iguais Q1, Q2, Q 3 Entre cada quartil há 25% dos dados da disposição Posição do Primeiro Quartil (Q1) = (n + 1) / 4 Posição do Segundo Quartil (Q2) = 2.(n + 1) / 4 Posição do Terceiro Quartil (Q3) = 3.(n + 1) / 4 O segundo quartil coincide com a Mediana (Q2 = Md) ESTATÍSTICA QUARTIS Os Quartis dividem a disposição em 4 partes iguais Q1, Q2, Q 3 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9 n = 27 Q1 Q2 Q3 7o termo 14o termo 21o termo ESTATÍSTICA DECIS Os Decis dividem a disposição em 10 partes iguais D1, D2, D3, D4, D5, D6, D7, D8, D9 Entre cada decil há 10% dos dados da disposição Posição do Primeiro Decil (D1) = (n + 1) / 10 Posição do Segundo Decil (D2) = 2.(n + 1) / 10 Posição do Nono Decil (D9) = 9.(n + 1) / 10 O Quinto Decil coincide com a Mediana (D5 = Md) ESTATÍSTICA PERCENTIS Os percentis dividem a disposição em 100 partes iguais P1, P2, P3, P4, P5, P6, ... , P99 Entre cada percentil há 1% dos dados da disposição Posição do Primeiro Percentil (P1) = (n + 1) / 100 Posição do Segundo Percentil (P2) = 2.(n + 1) / 100 Posição do Nonagésimo Nono Percentil (P99) = 99.(n + 1) / 100 P50 = Md P25 = Q1 P75 = Q3 ESTATÍSTICA EXERCíCIOS 1) Dado o conjunto de dados: a) apresente a disposição em rol; b) o Percentil 50, c) o Primeiro Quartil, d) a Média, e) a Moda e f) a Mediana 10 13 24 45 66 77 11 14 26 33 65 21 57 ESTATÍSTICA 2) Em uma amostra com 2789 valores qual é a posição do oitavo decil, da mediana, do segundo decil, do terceiro quartil e do segundo quartil? Medidas de Dispersão Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA MEDIDAS DE DISPERSÃO? Tudo é incerto e derradeiro. Tudo é disperso, nada é inteiro. (Fernando Pessoa) 95 ESTATÍSTICA DISPERSÃO DOS DADOS É frequentemente chamada de variabilidade. Medidas mais comuns: Variância, Desvio Padrão, Amplitude e Coeficiente de Variação f Dispersão dos dados na amostra Dispersão dos dados na população x ESTATÍSTICA Dispersão na População É uma forma de se ver o quanto os dados se afastam da média. Exemplo: Vilarejo com apenas 11 pessoas 135cm 152cm 136cm 152cm 138cm 157cm 141cm 163cm 143cm 170cm 152cm Alturas de 11 pessoas Média = 149cm Mediana e Moda = 152cm Valor Máximo = 170cm Valor Mínimo = 135cm Amplitude = 35cm ESTATÍSTICA Dispersão na População Alturas x-x (N=11) 135cm 136cm 138cm 141cm 143cm 152cm 152cm 152cm 157cm 163cm 170cm Total 135-149 136-149 138-149 141-149 143-149 152-149 152-149 152-149 157-149 163-149 170-149 -14 -13 -11 -8 -6 3 3 3 8 14 21 (x - x)2 196 169 121 64 36 9 9 9 64 196 441 1314 2 Variância = 1314 / 11 = 119,454 cm2 Desvio Padrão = 119,454 = 10,92 cm Soma dos desvios quadráticos ESTATÍSTICA VARIÂNCIA E DESVIO PADRÃO NA POPULAÇÃO Variância da população 2 = S ( x - x )2 / N Desvio Padrão da população = Raiz quadrada da variância 2 Como a dispersão nas amostras é menor do que na população, se faz um ajuste matemático. ESTATÍSTICA VARIÂNCIA E DESVIO PADRÃO NA AMOSTRA Variância da Amostra ( s2 ou v ) s2 = S ( x - x )2 / ( n -1 ) Desvio Padrão da amostra ( s ou DP ) = Raiz quadrada da variância s s2 A dispersão nas amostras é menor do que na população, por isso é que se faz este ajuste matemático ESTATÍSTICA DESVIO PADRÃO SIGNIFICADO: É um modo de representar a dispersão dos dados ao redor da média. f Média x ESTATÍSTICA DESVIO PADRÃO A curva A mostra uma dispersão dos dados maior do que a curva B, logo o desvio padrão de A é maior do que o de B. f f Curva A Média Curva B x Média x ESTATÍSTICA COEFICIENTE DE VARIAÇÃO O desvio padrão depende da unidade de medida usada, assim um desvio medido em dias será maior do que um medido em meses. O coeficiente de variação expressa o desvio-padrão como porcentagem do valor da média. COEF. VARIAÇÃO = 100 . DESVIO PADRÃO MÉDIA Quanto menor for este coeficiente mais homogênea é a amostra. ESTATÍSTICA COEFICIENTE DE VARIAÇÃO Classificação da proporção que o desvio padrão apresenta sobre a média. GRAU DE HOMOGENEIDADE DOS DADOS até 10% ÓTIMO de 10% a 20% BOM de 20% a 30% REGULAR acima de 30% RUIM ESTATÍSTICA EXERCÍCIOS 1) Determine a média, a amplitude, a variância, o desvio padrão e o coeficiente de variação da seguinte amostra de dados: 4 5 5 6 6 7 7 8 Amostragem Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA AMOSTRAGEM AMOSTRA significa um subconjunto de elementos pertencentes a uma população. 10 7 ESTATÍSTICA AMOSTRAGEM Por que usar Amostras? - Economia (É mais barato levantar dados de uma parcela da população) - Tempo (É mais rápido) 10 8 ESTATÍSTICA Amostra ou Censo? AMOSTRA CENSO Orçamento PQ GDE Tempo PQ GDE GDE PQ PQ GDE Destrutiva Não-destrutiva Sim Não Tamanho da População Variância Natureza da Medição Atenção Individual 10 9 ESTATÍSTICA REQUISITOS DE UMA AMOSTRA REPRESENTATIVA - Aleatória (Sorteio) - Tamanho Calculado (Fórmulas Matemáticas) 11 0 ESTATÍSTICA PARÂMETROS x ESTATÍSTICAS 11 1 ESTATÍSTICA Resultados Confiáveis Uma pesquisa feita pela internet é confiável? 11 2 ESTATÍSTICA Resultados Confiáveis Somente com amostras representativas da população. 11 3 ESTATÍSTICA Importante Na Amostra Probabilística: “Todo elemento da população tem que ter a mesma chance de ser sorteado.” 11 4 ESTATÍSTICA Fonte: http://www.ladislauleal.com.br/2013/07/bomba-bombabomba.html 11 5 ESTATÍSTICA APLICAÇÕES DE AMOSTRAGEM Pesquisa Mercadológica (Índice de satisfação na população) Pesquisa Epidemiológica (Prevalência de uma doença na população) Pesquisa Eleitoral (Percentagem de votos para cada candidato) Perfil Socioeconômico da População (Grau de escolaridade, Renda) Na População Na Amostra População Parâmetros Estatísticas Amostra Inferência Estatística ESTATÍSTICA POR QUE USAR A AMOSTRAGEM? Economia (É mais barato levantar dados de uma parcela da população) Tempo (É mais rápido) QUANDO NÃO USAR A AMOSTRAGEM? Quando a população for pequena (n > 0,8.N) Quando a característica for de fácil mensuração (Sim ou Não) Quando houver a necessidade de alta precisão (Censo IBGE) ESTATÍSTICA TIPOS DE AMOSTRAGEM AMOSTRAGEM ALEATÓRIA SIMPLES (Tem que obedecer a propriedade de qualquer elemento da população ter a mesma chance de pertencer à amostra. Pode-se utilizar uma tabela de números aleatórios ou sorteios) AMOSTRAGEM ALEATÓRIA SISTEMÁTICA (Após obter-se a lista dos elementos da população, sorteia-se a entrada e segue-se a relação N/n.) AMOSTRAGEM ALEATÓRIA ESTRATIFICADA (Elabora-se a amostra através do perfil conhecido da população. Exemplo: Se na UFSC 70% são alunos e 30% Funcionários, a amostra é confeccionada obedecendo-se estes parâmetros.) ESTATÍSTICA OUTROS TIPOS DE AMOSTRAGEM AMOSTRAGEM NÃO ALEATÓRIA (De fácil obtenção.) AMOSTRAGEM PARA ESTUDOS COMPARATIVOS (Não visa a descrição de uma população, mas a comparação entre grupos diferentes. Exemplos: Comparar as taxas de tabagismo em indivíduos com câncer de pulmão e sadios.) Procure respeitar o Plano de Amostragem para que seja alcançada uma amostra representativa da população. ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Fórmula Genérica Sejam: n0 = Primeira aproximação para o tamanho da amostra e = Erro Amostral Tolerável (exemplo: 0,05) n = Tamanho da Amostra N = Tamanho da População n0 = 1 / e2 n = (N . n0) / (N + no) ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Fórmula para variável quantitativa, desvio conhecido e população infinita Sejam: n = Tamanho da Amostra z = Nível de confiança expresso em desvio padrão (95%) = 1,96 = Desvio padrão da população e = Erro do estudo expresso na mesma unidade do desvio padrão n = (z . /e)2 ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Fórmula para variável quantitativa, desvio desconhecido e população infinita Sejam: n = Tamanho da Amostra z = Nível de confiança expresso em desvio padrão (95%) = 1,96 s = Desvio padrão de uma amostra previamente selecionada e = Erro do estudo expresso na mesma unidade do desvio padrão n = (z . s/e)2 ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Fórmula para variável quantitativa, desvio conhecido e população finita Sejam: n = Tamanho da Amostra z = Nível de confiança expresso em desvio padrão (95%) = 1,96 = Desvio padrão população e = Erro do estudo expresso na mesma unidade do desvio padrão N = Tamanho da População n = z2 . 2 . N z2 . 2 + e2 . (N-1) ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Fórmula para variável quantitativa, desvio desconhecido e população finita Sejam: n = Tamanho da Amostra z = Nível de confiança expresso em desvio padrão (95%) = 1,96 s = Desvio padrão uma amostra previamente selecionada e = Erro do estudo expresso na mesma unidade do desvio padrão N = Tamanho da população n = z2 . s 2 . N z2 . s2 + e2 . (N-1) ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Populações infinitas com proporção conhecida n= z2 . p . (1-p)) e2 Onde: n= Tamanho da Amostra z = Nível de confiança expresso em desvio padrão (95%) = 1,96 e = Erro Amostral Tolerável expresso em proporção (exemplo: 0,05) p = Proporção do evento na População (prevalência de um evento) ESTATÍSTICA DETERMINAÇÃO DO TAMANHO DA AMOSTRA (n) Populações finitas com proporção conhecida n= (N . z2 . p . (1-p)) (e2 . (N-1) + z2 . p . (1-p)) Onde: n = Tamanho da amostra N = Tamanho da População z = Nível de confiança expresso em desvio padrão (95%) = 1,96 e = Erro Amostral Tolerável expresso em proporção (exemplo: 0,05) p = Proporção do evento na População (prevalência de um evento) ESTATÍSTICA RELAÇÃO ENTRE (n) E (N) Relação entre o tamanho da população e o tamanho da amostra n 600 500 400 300 200 100 0 0 500 1000 1500 2000 2500 3000 3500 N ESTATÍSTICA EXERCÍCIOS 1) Determine o tamanho da amostra para uma pesquisa eleitoral em uma cidade com 200.000 eleitores, adotando uma margem de erro de 4 pontos percentuais. Utilize a fórmula genérica. ESTATÍSTICA CALCULANDO ... n0 = 1 / (Eo)2 n0 = 1 / (0,04)2 n0 = 625 pessoas n = (N . n0) / (N + no) n = (200000 . 625) (200000 + 625) n = 623,05 pessoas Tabelas e Gráficos Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA TABELAS Tabela é a forma não discursiva de apresentar informações, das quais o dado numérico se destaca como informação central. Uma tabela estatística conterá necessariamente uma série ou uma distribuição de frequência. Vantagens: - Permitem a síntese dos resultados; - Auxiliam o pesquisador na análise dos dados e - Facilitam a compreensão das conclusões do autor. ESTATÍSTICA NORMAS PARA A CONFECÇÃO DE TABELAS São numeradas consecutivamente com algarismos arábicos; Os números são precedidos da palavra “Tabela”; No topo deve estar o título que indica a natureza e as abrangências geográficas e temporal dos dados numéricos; O centro da tabela é representado por uma série de colunas e subcolunas onde são alocados os dados; No rodapé deve-se colocar a fonte (o responsável pelos dados) e opcionalmente uma nota geral ou uma nota específica; A moldura deve conter no mínimo 3 traços horizontais; Não se deve fechar uma tabela com traços verticais em suas extremidades. ESTATÍSTICA CLASSIFICAÇÃO DAS TABELAS Séries Cronológicas (temporais ou históricas); Variável: Tempo Constantes: Lugar e Espécie Séries Geográficas (territoriais); Variável: Lugar Constantes: Tempo e Espécie Séries Especificativas; Variável: Espécie Constantes: Tempo e Lugar Séries Mistas; Quando há mais de uma variável. Distribuição de Frequência ESTATÍSTICA Séries Cronológicas (Temporais ou Históricas) Tabela 1: Prevalência da Doença X na Cidade Y Anos Percentual 1999 25,74 2000 26,85 2001 27,94 2002 32,45 Fonte: Hipotética ESTATÍSTICA Séries Geográficas (Territoriais) Tabela 2: Prevalência da Doença X no Ano de 2010 Cidades Percentual Itajaí 10,44 Lages 29,45 Florianópolis 8,66 Blumenau 9,82 Fonte: Hipotética ESTATÍSTICA Séries Especificativas Tabela 3: Prevalência da Doença X no Ano de 2010 em Florianópolis Segmento populacional Percentual Crianças 60,25 Jovens 20,72 Adulto 2,75 3a Idade 5,82 Fonte: Hipotética ESTATÍSTICA Séries Mistas (Ex: Especificativa-Cronológica-Geográfica) Tabela 4: Vendas de alguns produtos por ano e cidade (milhares) Produtos 2009 2010 Fpolis Lages 24,24 9,34 25,95 112,72 27,45 111,75 29,48 Audio 86,75 18,45 79,37 19,57 Video 1,95 0,85 2,01 0,84 Cosméticos Vestuário Fonte: Hipotética Fpolis Lages 9.98 ESTATÍSTICA Distribuições de Frequência Tabela 5: Distribuição de frequência dos pesos corporais de uma amostra (valores em quilogramas) Pesos Frequência Frequência Acumulada 64 51 51 65 100 151 66 22 173 67 14 187 Total 187 - Fonte: Hipotética ESTATÍSTICA GRÁFICOS Gráfico é a forma geométrica de apresentação dos dados e respectivos resultados de sua análise. A escolha do modelo ideal de representação gráfica depende das preferências e do senso estético do elaborador. Vantagens: - Permitem a síntese dos resultados; - Auxiliam o pesquisador na análise dos dados e - Facilitam a compreensão das conclusões do autor. ESTATÍSTICA NORMAS PARA A CONFECÇÃO DE GRÁFICOS Deve facilitar a interpretação dos dados para um leigo; Não há a necessidade de se colocar título se estiver na mesma página da tabela correspondente; Há a necessidade de se colocar o título se a tabela correspondente não estiver na mesma página. O senso estético individual determina o espaço do gráfico (L x A); As colunas, barras, linhas e áreas gráficas devem ser ordenadas de modo crescente ou decrescente, mas a ordem cronológica prevalece; ESTATÍSTICA ORIGEM DOS GRÁFICOS O diagrama cartesiano é a figura geométrica que deu origem à técnica de construção de gráficos estatísticos. Utiliza-se o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Ordenadas (eixo y) 1o Quadrante Abscissas (eixo x) Eixo y Eixo x Frequências Valores da Variável ESTATÍSTICA GRÁFICO EM COLUNAS OU DE BARRAS Tabela 1: Quantidade de exames realizados em um determinado laboratório em 2010. 25000 20000 Exames Quantidade Hematologia 9824 15000 Bioquímica 21534 10000 Imunologia 15432 5000 Parasitologia 4310 0 Hemat Bioq Imunol Parasit Fonte: Hipotética Figura 1: Gráfico em colunas do número de exames em um determinado laboratório em 2003. ESTATÍSTICA GRÁFICO DE BARRAS HORIZONTAL Tabela 2: Quantidade de exames realizados em um determinado laboratório em 2010. Parasit Exames Quantidade Hematologia 9824 Bioquímica 21534 Imunologia 15432 Parasitologia Imunol Bioq Hemat 4310 0 5000 10000 15000 20000 25000 Fonte: Hipotética Figura 2: Gráfico em barras horizontais do número de exames realizados em um determinado laboratório no ano de 2003. ESTATÍSTICA GRÁFICO DE SETORES OU CIRCULAR Tabela 3: Quantidade de exames realizados em um determinado laboratório em 2010. Exames Quantidade Hematologia 9824 Bioquímica 21534 Imunologia 15432 Parasitologia 4310 Parasit Hemat Imunol Bioq Fonte: Hipotética Figura 3: Gráfico circular do número de exames realizados em um determinado laboratório no ano de 2003. ESTATÍSTICA HISTOGRAMA DE FREQUÊNCIA Tabela 4: Notas dos alunos na disciplina de Estatística no curso de Administração (ano x) 12 10 8 Notas Frequência 6 0 2 2 2 4 7 2 4 6 11 0 4 0a2 6 8 10 8 10 5 Fonte: Dados Fictícios 2a4 4a6 6a8 8 a 10 Figura 4: Histograma das notas dos alunos ESTATÍSTICA HISTOGRAMA DE FREQUÊNCIA • A área do histograma é proporcional à soma das frequências; 35 31,4 28,6 30 25 20 • Para comparar duas distribuições, o ideal é utilizar números percentuais; 20 14,3 15 10 5,7 5 0 0a2 2a4 4a6 6a8 8 a 10 Figura 5: Histograma dos percentuais das notas dos alunos ESTATÍSTICA POLÍGONO DE FREQUÊNCIA • É um Gráfico em Linha de uma distribuição de frequência; 35 31,4 30 28,6 25 20 • Para se obter um polígono (linha fechada), deve-se completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e posterior à última, da distribuição. 20 15 14,3 10 5,7 5 0 0 0a2 2a4 4a6 6a8 8 a 10 11 Figura 6: Polígono de Frequência percentual de das notas dos alunos ESTATÍSTICA POLÍGONO DE FREQUÊNCIAS ACUMULADAS (Sinônimo: Ogiva) Tabela 5: Notas dos alunos na disciplina de estatística no ano x 120 100 100 85,7 80 Notas Frequência F. Acumulada % 57,1 60 0 2 2 5,7 40 2 4 7 25,7 20 4 6 11 57,1 0 6 8 10 85,7 8 10 5 100,0 Fonte: Dados Fictícios 25,7 5,7 0 0a2 2a4 4a6 6a8 8 a 10 Figura 7: Polígono de frequências acumuladas das notas dos alunos ESTATÍSTICA GRÁFICO STEM AND LEAF (TRONCO E FOLHAS) 13 22 33 45 53 62 71 14 23 35 47 57 63 72 15 15 28 29 36 37 39 39 58 58 59 65 Conjunto de Dados Tronco (Stem) 1 2 3 4 5 6 7 Folha (Leaf) 3455 2389 356799 57 37889 235 12 Figura 8: Gráfico Stem-Leaf onde o primeiro dígito é o tronco e o segundo é a folha ESTATÍSTICA GRÁFICO DE BARRAS COM DESVIO PADRÃO 1,95 1,9 1,85 1,8 1,75 1,7 1,65 1,6 1,55 Medicina Odontologia Farmacia Nutrição Figura 9: Gráfico de barras com os valores médios e o desvio padrão das alturas de estudantes da faculdade x (valores fictícios). ESTATÍSTICA GRÁFICO BOX AND WISKER (Caixa e Fio de Bigode) 1,95m 1,90m 1,85m 1,80m 1,75m 1,70m 1,65m 1,60m 1,55m Valor Máximo Percentil 75 Percentil 50 Percentil 25 Valor Mínimo Figura 10: Gráfico Box and Wisker das alturas dos estudantes de medicina (valores fictícios). ESTATÍSTICA EXERCÍCIOS 1) Construa uma série cronológica com os dados das vendas de um determinado produto de uma empresa fictícia. Correlação Disciplina de Estatística Prof. Hubert Chamone Gesser, Dr. Retornar ESTATÍSTICA DIAGRAMA DE DISPERSÃO Mostra o comportamento de duas variáveis quantitativas (com dados numéricos). a a b a b b ESTATÍSTICA CORRELAÇÃO LINEAR POSITIVA Quando valores pequenos da variável a tendem a estar relacionados com valores pequenos de b, enquanto que valores grandes de a tendem a estar relacionados com valores grandes de b. a Exemplos: Peso x Altura Nível socioeconômico x Volume de vendas Consumo de Álcool x Preval. Cirrose Hepática b ESTATÍSTICA CORRELAÇÃO LINEAR NEGATIVA Quando valores pequenos da variável a tendem a estar relacionados com valores grandes de b, enquanto que valores grandes de a tendem a estar relacionados com valores pequenos de b. a Exemplos: Renda Familiar x Número de Filhos Escolaridade x Absenteísmo Volume de vendas x Passivo circulante b ESTATÍSTICA CORRELAÇÃO NÃO LINEAR O diagrama de dispersão mostra um conjunto de pontos aproximando-se mais de uma parábola do que de uma reta. a Exemplos: Coef. de Letalidade (a) x Dose do Medicamento (b) Custo (a) x Lote Econômico de Compra (b) b ESTATÍSTICA COEFICIENTE DE CORRELAÇÃO DE PEARSON r = n . S (X.Y) - S X . S Y n . S X2 - (S X)2 . n . S Y2 - (S Y)2 S(X.Y) = Fazem-se os produtos X.Y p/ cada par e depois efetua-se a soma SX = Somatório dos valores da variável X SY = Somatório dos valores da variável Y SX2 = Elevam-se ao quadrado cada valor de X e depois efetua-se a soma SY2 = Elevam-se ao quadrado cada valor de Y e depois efetua-se a soma ESTATÍSTICA EXEMPLO Cálculo do coeficiente de correlação para os dados das variáveis X = população residente e Y = taxa de cresc. populacional, em 12 vilarejos. X Y 101 193 3,2 4,6 . . . 42 1452 . . . 2,8 39,3 X2 Y2 X.Y 10201 10,24 37249 21,16 . . . . . . 323,2 887,8 . . . 1764 7,84 117,6 251538 153,55 5706,2 ESTATÍSTICA r = n . S (X.Y) - S X . S Y n . S X2 - (S X)2 . n . S Y2 - (S Y)2 r = 12 . 5706,2 - 1452 . 39,3 12 . 251538 - (1452)2 . 12 . 153,55 - (39,3)2 r = 0,69 (Correlação Linear Positiva r > 0) ESTATÍSTICA INTERPRETAÇÃO • O Valor de r (Correlação Linear de Pearson) varia de -1 a +1. • O sinal indica o sentido (correlação positiva ou negativa). • O valor indica a força da correlação (Fraca, Moderada ou Forte) valor de r Forte -1 Moderada Fraca Ausência - 0,7 - 0,3 0 Fraca Moderada + 0,3 Forte + 0,7 +1 ESTATÍSTICA EXERCÍCIO 1) Coloque V (Verdadeiro ou F (Falso): ( ) Quando o valor de r for maior que 0,7 ou menor que -0,7 a correlação entre as duas variáveis em estudo é forte ( ) O sinal negativo de r indica que as variáveis em estudo são inversamente proporcionais ( ) Ao se encontrar um valor de r = 0,6 não se pode afirmar que as variáveis sejam diretamente proporcionais. ( ) O coeficiente de correlação de Pearson pode ser aplicado em dados nominais Fonte Bibliográfica BARBETA, P. A. Estatística Aplicada às Ciências Sociais. 5.ed. Florianópolis: UFSC, 2006. DAWSON, B.; TRAPP, R.G. Basic & Clinical Biostatistical. 3.ed. New York: Lange Medical Books/McGraw-Hill, 2006. LEVIN, J. Estatística Aplicada às Ciências Humanas. 7.ed. São Paulo: Harbra, 2007. SPIEGEL, M. R. Estatística. 8.ed. São Paulo: Makron Books, 2006. STEVENSON, W. J. Estatística Aplicada à Administração. São Paulo: Harbra, 2007. Mensagem Final O trânsito é um local de convivência e não de disputas.