PESQUISA E DADOS A todo instante do nosso dia-a-dia nos deparamos com dados. Por exemplo, para decidir pela compra de um eletrodom€stico, um aparelho eletr•nico ou at€ mesmo na compra de uma caixa de sab‚o em pƒ temos diferentes op„…es: ● marca: prƒs e contra de cada uma. ● pre„o: € compat‡vel com o que o produto oferece e com o nosso or„amento? ● melhor custo/benef‡cio. ● garantia, assistˆncia t€cnica, acabamento, etc... Na Pesquisa Científica, no entanto, os dados s‚o um fator preponderante para que possamos responder ‰s nossas indaga„…es. Portanto, a observa„‚o e anŠlise dos dados devem ser feitas de maneira criteriosa e objetiva para que os resultados sejam confiŠveis. (metodologia cient‡fica) PESQUISA QUANTITATIVA Tipo de pesquisa que segue critérios estatísticos r‡gidos, previamente estabelecidos (baseados em hipƒteses e variŠveis), que servem de par‹metros para a defini„‚o do universo da pesquisa. A) Definições: Problema, objetivo, população alvo B) Planejamento da pesquisa Variáveis, plano amostral ou experimental e técnica de análise C) Execução da pesquisa. Coleta de dados (observação, mensuração) D) Análise dos dados Segundo os objetivos traçados e técnicas apropriadas E) Resultados com relatório final F) Conclusões e previsões Atuação predominantemente da Área de Estudo Atuação predominantemente da Estatística Atuação de ambas as áreas 1. CONCEITOS BÁSICOS Estudo Observacional x Estudo Experimental: 1.1- No Estudo Observacional as observações, ou medidas, de interesse são coletadas sem nenhuma interferência nas respostas. exemplos: intenção de votos; no de peças defeituosas num lote produzido; tempo de atendimento de um caixa bancário; comportamento das baleias em relação às crias; etc... CENSO: é o tipo de pesquisa onde a informação é obtida a partir de todos os indivíduos da população, ou seja, da população completa. Censos são raros, pois são muito caros. (os censos não serão estudados nesta disciplina) PESQUISA AMOSTRAL: na pesquisa amostral, a informação é obtida a partir de uma parcela finita da população ou amostra, por meio de processos probabilísticos, ou não, que a representa adequadamente. A amostra deve ser representativa, para que se possa tirar conclusões que sejam válidas para a população toda. “Requer um Planejamento Amostral.” 1.1.1- População: conjunto de indivíduos, ou itens, com pelo menos uma característica em comum. Também será denotada por população objetivo, que é sobre a qual desejamos obter informações e/ou fazer inferências. Pode, ainda, ser chamada de Universo. Será denotada por: U u1 ,u 2 ,u3 , ,u N ui unidades elementares, i = 1, 2, . . . , N. N = no de elementos, ou tamanho, da população. exemplos: a) Residentes da cidade de São Carlos; b) Lote de peças produzido numa linha de produção de uma industria; c) Cidades das regiões de Ribeirão Preto; d) Baleias da região do Estreito de Bering, no Alasca etc, etc, etc ... 1.1.2- Amostra: é um subconjunto, necessariamente finito, de uma população. é selecionada de forma que todos os elementos da população tenham a mesma chance de serem escolhidos. A população pode ser infinita, mas a amostra é sempre finita. 1.1.3- Planejamentos Amostrais: são esquemas para coletas de amostras numa pesquisa amostral. Existem vários tipos de planejamentos dos quais iremos destacar três: i) Amostra Aleatória Simples (AAS): na AAS, uma amostra de n elementos é selecionada ao acaso de uma população de tamanho N. É mais precisa, porém é o mais cara. ii) Amostra Aleatória Estratificada (AAE): na AAE, a população original é dividida em estratos (ou subpopulações) sendo retirada uma amostra de ni elementos de cada um dos estratos, através de uma AAS, tal que: n = n1 + n2 + ... + nk, onde k é o número de estratos. A AAE é indicada quando a população é muito heterogênea, melhorando a precisão da AAS. iii) Amostra Aleatória por Conglomerados (AAC): na AAC, a população original é subdividida em porções (conglomerados) e uma amostra de k conglomerados é sorteada através de uma AAS, sendo que todos os elementos dentro do conglomerados são observados. Exemplos de conglomerados: quarteirões, ruas, vilas, ninhadas, lotes de produção, prateleiras, canteiros, etc... A AAC é o menos precisa, porém é a mais barata. 1.2- O Estudo Experimental, consiste na realização de um experimento, normalmente em laboratório, no qual um tratamento é aplicado deliberadamente aos indivíduos a fim de observar a sua resposta. “Requer um Planejamento Experimental.” exemplos: ensaios para se verificar a dureza de materiais; estudos caso-controle em epidemiologia; comparação de concentrações de um composto; pesos de cobaias submetidas à diferentes dietas; etc... No estudo experimental é muito importante saber determinar o número de elementos necessários, ou seja, o tamanho da amostra. É importante, também, planejar adequadamente a amostra de maneira a não interferir nos resultados. A seguir, apresentaremos alguns casos de planejamentos experimentais. 1.2.1- Uma Amostra: é o caso mais simples de, uma vez que dispomos de apenas uma amostra a ser colocada em teste. - Podemos sortear ao acaso n elementos de uma população para participar do experimento ou produzir uma amostra especificamente para o experimento. exemplos: sortear uma amostra dentro de um lote de peças e colocar em teste; escolher um grupo de animais para um experimento. Todos os elementos escolhidos devem ter as mesmas características. 1.2.2- Duas Amostras: quando dispomos de duas amostras, geralmente queremos realizar uma comparação entre as mesmas. 1º Caso: amostras independentes. Duas amostras tal que nenhum elemento da primeira interfere nos da segunda. i) dois tratamentos: tomar n elementos de uma única população e dividir, por sorteio, em dois grupos, de preferência de mesmo tamanho. 1 2 3 1 2 n1 n1 + n2 = n 1 2 n n2 ii) duas populações: sortear n1 elementos da primeira popula„‚o e n2 da segunda. 1 2 n1 n1 + n2 = n 1 2 n2 Os dois grupos serão, então, comparados: teste t-Student, teste de Wilcoxon ou Mann-Whitney. 2Œ Caso: amostras pareadas ou emparelhadas. Basicamente, temos uma amostra observada em dois instantes diferentes: (antes/depois), (tempo 1, tempo 2). 1 2 3 t 1 2 3 Fazer as diferen„as: di = yi2 – yi1 n n t1 t2 A anŠlise € feita atrav€s da diferen„a da variŠvel nos dois instantes de observa„‚o: teste t-Student, teste do sinal. 1.2.3- k amostras: quando temos três ou mais grupos para analisar. 1º Caso com k grupos independentes: Dividir, ao acaso, n elementos em k grupos tal que n = n1 + n2 + ... + nk. Análise de variância a um fator e comparações múltiplas 2º Caso Medidas Repetidas: o mesmo grupo é observado em k instantes diferentes. Análise de variância para medidas repetidas. 1.2.4- Análise de variância a dois fatores (two-way): análise para comparações de mais de dois grupos quando existem dois critérios (chamados fatores) para a divisão dos grupos. Considerando, pó rexemplo, um critério com três níveis (A1, A2, A3) e um segundo critério com dois níveis (B1, B2), teremos: B1 A1 B1 B2 A1 B2 B1 A2 B1 A1 A2 6 grupos B2 A2 B2 B1 A3 B1 B2 A3 B2 A3 1.3- Parâmetro Populacional: normalmente denotado por , é uma característica populacional de interesse, que pode ser expressa através de uma quantidade numérica. Normalmente é desconhecido e fixo. exemplos: no de desempregados; salário médio; opinião a respeito de uma dada atitude; casos de dengue; tempo gasto com filhotes; tamanho da população; tempo de vida; no de votos para um determinado candidato, produção agrícola, etc... 1.4- Estatística: € uma medida num€rica, S(X), que descreve uma caracter‡stica da amostra. Uma Estat‡stica € uma fun„‚o da amostra: S(X) = f(X1, X2, . . . , Xn) n n Xi exemplos: X s2 i 1 n X(1) = mínimo Nome M€dia Vari‹ncia Correla„‚o Propor„‚o X i X 2 i 1 n 1 X(n) = máximo PARÂMETROS E ESTATÍSTICAS ESTATÍSTICA (Amostra) PARÂMETRO (População) X s2 2 rX,Y X,Y p̂ p 1.5- Estimador: € uma quantidade, obtida a partir de uma amostra, que “estima” o verdadeiro valor de um par‹metro populacional. SerŠ denotado por T(X). Todo estimador € uma fun„‚o da amostra e, portanto, € uma estatística, por€m, nem toda estatística € um estimador { T(X) } { S(X) }. 1.6- As variáveis e a coleta de dados: uma variável é uma característica desconhecida, que pode variar de um indivíduo para outro da população e que, ao ser observada ou mensurada, deve gerar uma única resposta. Tipos de variáveis: a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou qualidades. São NÃO NUMÉRICAS. Podem ser classificadas em ORDINAIS, quando obedecem a uma ordem natural ou NOMINAIS, quando não obedecem nenhuma ordem. b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores NUMÉRICOS resultantes de uma mensuração ou contagem. Podem ser classificadas em DISCRETAS, quando assumem valores inteiros, ou CONTÍNUAS, quando assumem valores reais. ESQUEMATICAMENTE Representação gráfica para Variáveis Quantitativas: Gráfico de pontos no MINITAB Gráfico de pontos para horas de TV 10 0 20 30 horas Estatísticas descritivas no MINITAB Descriptive Statistics: horasTV Variable horasTV N 50 Mean 10.780 Median 10.000 TrMean 10.273 Variable horasTV Minimum 0.000 Maximum 30.000 Q1 5.000 Q3 14.000 StDev 6.891 SE Mean 0.974 Histograma para variáveis contínuas no MINITAB Histograma de horas de TV Freqüência 20 10 0 0 6 12 18 24 30 horas Outros limites Histograma de horas de TV Freqüência 15 10 5 0 0.0 5.5 11.0 16.5 22.0 27.5 33.0 horas Exemplo: Tabela de freqüências e histograma para variáveis contínuas, no Excel. Freqüência 1 6 13 15 7 4 2 2 Bloco 0 4.3 8.6 12.9 17.1 21.4 25.7 Mais Histograma 16 Freqüência 12 8 Freqüência 4 0 0 4.3 8.6 12.9 17.1 Bloco 21.4 25.7 Mais Dados discretos: Uma grande companhia está preocupada com o tempo que seus equipamentos ficam em manutenção na assistência técnica. Sendo assim, fez um levantamento do tempo de manutenção (dias) de 50 equipamentos para um estudo mais detalhado. X = dias em manutenção de equipamentos. 15 13 21 9 5 5 9 10 3 4 2 13 4 11 8 6 6 10 2 5 9 14 15 3 5 7 8 3 10 5 10 6 12 16 17 13 6 18 5 4 2 7 9 3 5 2 6 5 4 2 Dados Ordenados: 2 2 2 2 2 3 4 4 4 5 5 5 5 6 6 6 6 6 9 9 9 9 10 10 13 13 13 14 15 15 3 3 3 4 5 5 5 5 7 7 8 8 10 10 11 12 16 17 18 21 Tabela de frequ€ncias: k = [1 + 3,322*log1050] = [ 6,64 ] = 6 a 7 classes A = 21 – 2 = 19 h = 19/6 = 3,16 3,2 Com k = 7 classes: Xi (dias) 2 a 4 5 a 7 8 a 10 11 a 13 14 a 16 17 a 19 20 a 22 Total ni 13 15 10 5 4 2 1 50 fi 0,26 0,30 0,20 0,10 0,08 0,04 0,02 1,00 Fac 0,26 0,56 0,76 0,86 0,94 0,98 1,00 - Medidas Descritivas de Posição: 392 i) Média: xi = 392 x 7,84 dias 50 ii) Mediana: Md(x) = x( 25) x( 26) iii) Moda: Mo(x) = 5 dias 2 66 6 dias 2 aparece 8 vezes na amostra. Com k = 6 classes: Xi (dias) 0 a 3 4 a 7 8 a 11 12 a 15 16 a 19 20 a 23 Total ni 9 19 11 7 3 1 50 fi 0,18 0,38 0,22 0,14 0,06 0,02 1,00 Fac 0,18 0,56 0,78 0,92 0,98 1,00 - Comandos do R para o histograma: manuten <-c(15,13,21, 9, 5, 5,10, 6, 2, 2, 9,10, 3, 4, 2,13,12,16, 7, 6, 4,11, 8, 6, 6,10,17,13, 9, 5, 2, 5, 9,14,15, 3, 6,18, 3, 4, 5, 7, 8, 3, 10, 5, 5, 4, 5, 2) nclass.Sturges(manuten) hist(manuten, col="bisque") hist(manuten, breaks="Sturges", col="bisque") nclass.scott(manuten) hist(manuten, breaks="Scott", col="bisque") nclass.FD(manuten) hist(manuten, breaks="FD", col="bisque") hist(manuten, breaks=7, col="bisque") hist(manuten, breaks=8, col="bisque") # definindo os intervalos ######################### h1 <- c(0.5,4.5,8.5,12.5,16.5,20.5,24.5) hist(manuten, breaks=h1, col="bisque") h2 <- c(1.5,4.5,7.5,10.5,13.5,16.5,18.5,22.5) hist(manuten, breaks=h2, col="bisque") Dados Contínuos: X = notas de avalia•‚o de teste verbal aplicado em 87 alunos. 2,5 2,8 2,8 3,2 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,1 4,1 4,1 4,2 4,5 4,6 4,7 4,7 4,7 4,7 4,8 4,8 4,9 4,9 5,0 5,0 5,1 5,1 5,1 5,2 5,2 5,2 5,2 5,2 5,3 5,3 5,3 5,3 5,4 5,4 5,4 5,4 5,5 5,5 5,5 5,6 5,7 5,7 5,8 5,9 5,9 5,9 5,9 6,0 6,1 6,1 6,1 6,1 6,2 6,2 6,2 6,3 6,4 6,4 6,4 6,4 6,5 6,5 6,5 6,5 6,5 6,6 6,6 6,7 6,7 6,7 6,7 6,8 6,9 6,9 7,0 7,0 7,1 7,2 7,3 7,5 k = [1 + 3,322*log1087] = [ 7,44 ] = 7 a 8 classes A = 7,5 – 2,5 = 5 h = 5/7 = 0,714 0,72 Com k = 7 classes: Xi (nota) 2,50 |--- 3,22 3,22 |--- 3,94 3,94 |--- 4,66 4,66 |--- 5,38 5,38 |--- 6,10 6,10 |--- 6,82 6,82 |--- 7,54 Total ni 4 5 8 22 16 24 8 87 fi 0,046 0,057 0,092 0,253 0,184 0,276 0,092 1,000 Fac 0,046 0,103 0,195 0,448 0,632 0,908 1,000 - Medidas Descritivas de Posição: 475,8 i) Média: xi = 475,8 x 5,47 87 ii) Mediana: Md ( x) x( 44) 5,50 iii) Moda: Mo( x) 4,66 14 0,72 5,29 (14 2) Comandos do R para o histograma: verbal <- c(2.5,2.8,2.8,3.2,3.5,3.6,3.7,3.8,3.9, 4.0,4.1,4.1,4.1,4.1,4.2,4.5,4.6,4.7,4.7,4.7, 4.7,4.8,4.8,4.9,4.9,5.0,5.0,5.1,5.1,5.1,5.2, 5.2,5.2,5.2,5.2,5.3,5.3,5.3,5.3,5.4,5.4,5.4, 5.4,5.5,5.5,5.5,5.6,5.7,5.7,5.8,5.9,5.9,5.9, 5.9,6.0,6.1,6.1,6.1,6.1,6.2,6.2,6.2,6.3,6.4, 6.4,6.4,6.4,6.5,6.5,6.5,6.5,6.5,6.6,6.6,6.7, 6.7,6.7,6.7,6.8,6.9,6.9,7.0,7.0,7.1,7.2,7.3, 7.5) hist(verbal, col="bisque") nclass.Sturges(verval) hist(verbal, breaks="Sturges", col="bisque") nclass.scott(verbal) hist(verbal, breaks="Scott", col="bisque") nclass.FD(verbal) hist(verbal, breaks="FD", col="bisque") hist(verbal, breaks=7, col="bisque") hist(verbal, breaks=8, col="bisque") # definindo os intervalos ######################### h <- c(2.50,3.22,3.94,4.66,5.38,6.10,6.82,7.54) hist(verbal, breaks=h, col="bisque") boxplot(verbal, col="yellow2", horizontal=FALSE) boxplot(verbal, col="yellow2") boxplot(verbal, plot=F) Média, Moda e Mediana e a Simetria dos dados O gráfico de pontos é a primeira representação da amostra, fornecendo um aspecto visual da concentração e distribuição dos pontos na nossa escala de medidas. No exemplo abaixo, percebemos o conjunto de dados concentrado na primeira metade da escala, com uma grande concentração entre os valores 2,5 e 7,5, e uma dispersão mais acentuada no lado superior (direito) da distribuição, com valores chegando a 17,5. Esta dispersão indica uma forte assimetria na cauda superior da distribuição (assimetria à direita). Figura 1: Gráfico de pontos. Uma forma prática de representação gráfica para dados quantitativos (em especial dados contínuos) é dada pelo histograma, no qual, representamos as frequências de uma tabela por barras adjacentes para cada intervalo de classe. Histograma com k = 7 classes: Classe – (Xi) ni fi 0,0 |--- 2,5 34 0,136 2.5 |--- 5,0 74 0,296 5,0 |--- 7,5 86 0,344 7,5 |--- 10,0 30 0,120 10,0 |--- 12,5 16 0,064 12,5 |--- 15,0 5 0,020 15,0 |--- 17,5 5 0,020 Total 250 1,000 Figura 2: Histograma(sobre o gráfico de pontos). O Polígono de Frequências Marcando o ponto médio de cada retângulo do histograma na sua na parte superior e ligando esses pontos, teremos uma figura que chamaremos de Polígono de Frequências (Figura 3). Figura 3: Polígono de frequências. As linhas retas que compõem o polígono de frequências são uma aproximação rudimentar para uma curva que representa uma Distribuição de Frequências. Essa distribuição é descrita por uma função f(x), contínua e diferenciável, definida num intervalo dos reais, a qual será denotada por função distribuição de probabilidades ou fdp (Figura 4). Figura 4: Função de distribuição de probabilidades sobre o histograma. O que podemos dizer acerca desta distribuição de frequências em relação a sua simetria? Quando uma distribuição de frequências é simétrica, teremos que a Média, a Moda e a Mediana serão iguais, ou seja: x = Mo(x) = Md(x) E quanto ao exemplo acima, como podemos classificálo em função da sua falta de simetria? Quando a distribuição não é simétrica, podemos distinguir duas situações possíveis (Figura 5): a) Quando a cauda superior da distribuição for mais alongada, puxando a distribuição para a direita. Neste caso, a média é maior do que a moda e a assimetria é dita à direita ou positiva. b) Quando a cauda inferior da distribuição for mais alongada, puxando a distribuição para a esquerda. Neste caso, a média é menor do que a moda e a assimetria é dita à esquerda ou negativa. Figura 5: Assimetrias à direita e à esquerda, respectivamente. Relação entre média, moda e mediana i) A Média é sempre influenciada por valores extremos, sendo puxada na direção da cauda mais alongada (ver a seta na Figura 5); ii) A Moda é o elemento de maior frequência, sendo o ponto de máximo de f(x); iii) A Mediana está sempre no meio do conjunto, dividindo-o em duas partes iguais, ficando entre as duas medidas anteriores. Assim, para cada situação, teremos: a) Quando a simetria é perfeita as três medidas são iguais. b) Na situação em que ocorre a assimetria à direita, teremos a moda menor do que a mediana que é menor do que a média. c) E, para a assimetria à esquerda, devemos ter a média menor do que a mediana que é menor do que a moda. Sum€rio dos exemplos: I – Representação gráfica para Variáveis Quantitativas II – Histograma para variáveis contínuas no soft MINITAB III – Tabela de freqüências e histograma para v. contínuas, no Excel IV – Exemplo Estatísticas Descritivas de dados contínuos V – Estatísticas Descritivas no soft MINITAB VI – Estatísticas Descritivas no EXCEL VII – Exemplos de Dados Agrupados VIII – Representação gráfica para Variáveis Qualitativas IX – Histogramas pelo número de observações I - Representação gráfica para Variáveis Quantitativas: Gráfico de pontos no MINITAB Gráfico de pontos para horas de TV 10 0 20 30 horas Estatísticas descritivas no MINITAB Descriptive Statistics: horasTV Variable horasTV N 50 Mean 10.780 Median 10.000 TrMean 10.273 Variable horasTV Minimum 0.000 Maximum 30.000 Q1 5.000 Q3 14.000 StDev 6.891 SE Mean 0.974 II - Histograma para variáveis contínuas no MINITAB Histograma de horas de TV Freqüência 20 10 0 0 6 12 18 24 30 horas Outros limites Histograma de horas de TV Freqüência 15 10 5 0 0.0 5.5 11.0 16.5 22.0 27.5 33.0 horas III - Tabela de freqüências e histograma para v. contínuas, no Excel. Freqüência 1 6 13 15 7 4 2 2 Bloco 0 4.3 8.6 12.9 17.1 21.4 25.7 Mais Histograma 16 Freqüência 12 8 Freqüência 4 0 0 4.3 8.6 12.9 17.1 Bloco 21.4 25.7 Mais Dados do estudo sobre exposição à violência familiar de crianças em idade escolar (2 grupos Expostos à violência e Não Expostos) IV - Exemplo Estatísticas Descritivas de dados contínuos: Variável: Renda PC por grupo (Exposto e Não Exposto) Grupo EXP 68 96 100 100 112 112 117 120 120 135 150 160 160 200 260 - Mediana: Md ( x) x(8) 120 reais - 1o Quartil: Q1 = x(4) = 100 reais - 3o Quartil: Q3 = x(12) = 160 reais x 2010 - Média: x 134 reais n 15 - Variância: s 2 x 2 300942 x 2 nx 2 300942 15(134) 2 s2 (n 1) (15 1) 300942 269340 14 31602 2257.286 14 - desvio-padrão: s s 2 2257.286 47.51 reais Box-plot renda per capita 50 150 250 Grupo Exposto 8 Freqüência 7 6 5 4 3 2 1 0 35 85 135 185 Grupo Exposto 235 285 Grupo NEXP 36 50 70 84 108 109 120 120 150 150 180 220 250 260 300 - Mediana: Md ( x) x(8) 120 reais - 1o Quartil: Q1 = x(4) = 184 reais - 3o Quartil: Q3 = x(12) = 220 reais x 2207 - Média: x 147.13 reais n 15 - Variância: s 2 x 2 413997 x 2 nx 2 413997 15(147.13)2 413997 324723.27 s2 (n 1) (15 1) 14 89273.73 6376.695 14 - desvio-padrão: s s 2 6376.695 79.85 reais Box-plot renda per capita 0 100 200 300 Grupo Não Exposto 6 Freqüência 5 4 3 2 1 0 0 66 132 198 264 330 Grupo não Exposto ex <- c(68,96,100,100,112,112,117,120,120,135,150,160, 160,200,260) nex <- c(36,50,70,84,108,109,120,120,150,150,180,220, 250,260,300) renda <- c(ex,nex) gr <- c(rep("ex",length(ex)),rep("nex",length(nex))) boxplot(renda~gr, col=c("red3","green3")) V - Estatísticas Descritivas no soft MINITAB Variável: Renda PC por grupo (Exposto e Não Exposto) Descriptive Statistics: EXP; NEXP Variable EXP NEXP N 15 15 Mean Median TrMean StDev SE_Mean 134.0 120.0 129.4 47.5 12.3 147.1 120.0 143.9 79.9 20.6 Variable Minimum Maximum Q1 Q3 EXP 68.0 260.0 100.0 160.0 NEXP 36.0 300.0 84.0 220.0 VI - Estatísticas Descritivas no EXCEL Variável: Renda PC por grupo (Exposto e Não Exposto) Exp Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem 134 12.3 120 160 47.5 2257.286 2.62 1.44 192 68 260 2010 15 Nexp 147.13 20.6 120 150 79.9 6376.695 -0.67 0.54 264 36 300 2207 15 VII – Exemplos com Dados Agrupados Exemplo 1: dados coletados em entrevistas com 500 pessoas (a) – vari•vel n‚mero de divƒrcios por indiv„duo (b) – vari•vel tempo (em anos) at… o primeiro divƒrcio a) Variável discreta: tabela do n‚mero de divƒrcios por indiv„duo. Divórcios = xi 1 2 3 4 5 Total ni 240 125 81 48 6 500 fi 0,480 0,250 0,162 0,096 0,012 1,000 xi fi 0,480 0,500 0,486 0,384 0,060 1,910 Fac 0,480 0,730 0,892 0,988 1,000 - ni xi2 240 500 729 768 150 2387 M…dia amostral: x xi f i = 1.91 divƒrcios Vari†ncia amostral: s 2 xi2 nx 2 2387 500 (1.910)2 562.95 1.13 (n 1) (500 1) 499 s 1,06 divƒrcios Outra representa‡ˆo: Divórcios = xi ni 1 240 2 125 3 81 4 48 5 6 Total 500 fi 0,480 0,250 0,162 0,096 0,012 1,000 xi fi 0,480 0,500 0,486 0,384 0,060 1,910 Fac 0,480 0,730 0,892 0,988 1,000 – (xi – x ) ni (xi – x )2 -0,910 198,744 0,090 1,013 1,090 96,236 2,090 209,669 3,090 57,2886 – 562,950 M…dia amostral: x xi f i = 1.91 divƒrcios 2 Vari†ncia amostral: s 2 x x i (n 1) 562.95 1.13 499 b) Variável contínua: tabela do tempo at… o primeiro divƒrcio. Anos ponto médio Casados xi 0 |----- 6 3 6 |----- 12 9 12 |----- 18 15 18 |----- 24 21 24 |----- 30 27 Total ni fi xi fi Fac ni xi2 280 140 60 15 5 500 0,56 0,28 0,12 0,03 0,01 1,00 1,68 2,52 1,80 0,63 0,27 6,90 0,56 0,84 0,96 0,99 1,00 – 2520 11340 13500 6615 3645 37620 M…dia amostral: x xi f i = 6.90 anos Vari†ncia amostral: xi2 nx 2 37620 500 (6.90) 2 13815 2 s 27.685 (n 1) (500 1) 499 s 5.26 anos Anos = xi ptos. médios 3 9 15 21 27 Total ni fi xi f i Fac 280 140 60 15 5 500 0,56 0,28 0,12 0,03 0,01 1,00 1,68 2,52 1,80 0,63 0,27 6,90 0,56 0,84 0,96 0,99 1,00 - (xi – x) ni (xi – -3,9 2,1 8,1 14,1 20,1 - M…dia amostral: x xi f i = 6.90 anos 2 Vari†ncia amostral: s 2 x x i (n 1) 13815 27.685 499 x )2 4258,8 617,4 3936,6 2982,15 2020,05 13815 Exemplo 2: Escores GMAT (Graduate Management Apititude Test) aplicado num processo seletivo para a escolha de alunos num programa de graduação. Escores 300 |-- 350 350 |-- 400 400 |-- 450 450 |-- 500 500 |-- 550 550 |-- 600 600 |-- 650 650 |-- 700 Histograma: Pto. Médio xi 325 375 425 475 525 575 625 675 Totais ni fi x i fi ni xi2 3 7 18 24 15 10 4 4 85 0,035 0,082 0,212 0,282 0,176 0,118 0,047 0,047 1.000 11,5 30,9 90,0 134,1 92,6 67,6 29,4 31,8 488 316875 984375 3251250 5415000 4134375 3306250 1562500 1822500 20793125 Medidas de dispers‚o (variabilidade): i) Variância amostral: xi x 2 s i 1 n 1 2 n 1 n 2 2 s x n x n 1 i1 i 2 ii) Quartis (quantis 25% e 75%): medidas que dividem o conjunto de dados em quatro partes iguais de 25% cada 25% 25% 25% 25% ------------|------------|------------|-----------Q1 Q2 Q3 Md(x) Amplitude interquartil Denotada por AQ, determina o tamanho da região em torno da mediana que contém 50% das observações: AQ = Q3 – Q1 iii) O gráfico box-plot Representação gráfica da dispersão dos dados em torno da mediana Valores discrepantes Q1 – 1.5AQ Valores discrepantes Q1 Md(x) Q3 Q 3 + 1.5AQ Procedimento para a construção do box-plot i) Construir a “caixa” ou “box” com os valores dos quartis Q1 e Q3; ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em duas partes; iii) Calcular os limites inferior (LI) e superior (Ls): - LI = Q1 – 1.5AQ - LS = Q3 + 1.5AQ Obs: valores da amostra menores do que LI ou maiores do que LS são identificados como “valores discrepantes” e destacados no box-plot com pontos além desses limites. iv) Para os “bra‚os” do box-plot, traçar linhas a partir dos centros das laterais inferior e superior da caixa, obedecendo ao seguinte critério: - se min(x) < LI, traçar uma linha da lateral inferior da caixa até o limite LI e marcar os pontos discrepantes com símbolos (asteriscos) segundo a escala; - se min(x) LI, traçar uma linha da lateral inferior da caixa até o limite o valor min(x); - se max(x) > LS, traçar uma linha da lateral inferior da caixa até o limite LS e marcar os pontos discrepantes com símbolos (asteriscos) segundo a escala; - se max(x) LS, traçar uma linha da lateral inferior da caixa até o limite o valor max(x); VIII - Representa‚ƒo gr€fica para Vari€veis Qualitativas: Exemplo1: Pesquisa PNAD 2004 – Moradores por domic„lio Brasil. a) Tabela de uma entrada: número de domicílios por região Região SE NE SE CO NE domicílios 23157114 13090124 8198266 3745500 3561524 51752528 % 44,8 25,3 15,8 7,2 6,9 100,0 b) Tabela de dupla entrada: moradores/dom. por região (dados brutos) MOR. 1 2 3 4 5 6 7 8 OU + Total Brasil N NE 5 411 443 292 910 1 190 705 10 062 238 506 597 2 141 312 12 118 894 747 866 2 793 052 12 098 742 791 985 2 936 946 6 449 038 532 447 1 858 876 2 906 091 308 311 991 114 1 311 592 161 696 532 787 1 394 490 219 712 645 332 51 752 528 3 561 524 13 090 124 SE 2 612 431 4 816 793 5 630 782 5 532 907 2 682 387 1 094 518 410 151 377 145 23 157 114 S CO 890 834 424 563 1 857 904 739 632 2 103 424 843 770 1 888 026 948 878 917 583 457 745 322 794 189 354 131 936 75 022 85 765 66 536 8 198 266 3 745 500 b) Tabela de dupla entrada: moradores/dom. por região (porcentagens) MOR. 1 2 3 4 5 6 7 8 OU + Total Brasil 10,5 19,4 23,4 23,4 12,5 5,6 2,5 2,7 100,0 N 8,2 14,2 21,0 22,2 14,9 8,7 4,5 6,2 100,0 NE 9,1 16,4 21,3 22,4 14,2 7,6 4,1 4,9 100,0 SE 11,3 20,8 24,3 23,9 11,6 4,7 1,8 1,6 100,0 S 10,9 22,7 25,7 23,0 11,2 3,9 1,6 1,0 100,0 CO 11,3 19,7 22,5 25,3 12,2 5,1 2,0 1,8 100,0 Gr•fico de setores (pizza): n‚mero de domic„lios por regiˆo Região SE NE SE CO NE Domic. (freq) 23157114 13090124 8198266 3745500 3561524 51752528 proporção 0,447 0,253 0,158 0,072 0,069 1 ângulo 161 91 57 26 25 360 - Para achar o †ngulo, deve-se usar a rela‡ˆo: 100% = 360o. - Portanto, se uma categoria tem propor‡ˆo de 0,447, entˆo, basta multiplicar 0,447 por 360o para encontrar o †ngulo correspondente (regra de três). Logo: 0,447 • 360o = 161o 0,253 • 360o = 91o 0,158 • 360o = 57o 0,072 • 360o = 26o 0,069 • 360o = 25o Domicílios por região 7% 7% SE NE 16% 45% S CO N 25% Domicílios por região 45% SE 7% NE S CO 7% N 25% 16% Gráfico de colunas: Moradores por domicílio - regiões SE e N 25 20 15 N SE 10 5 0 1 2 3 4 5 6 7 8+ Exemplo2: Notas de Português por grupo de estudantes expostos à violência familiar (grupos Expostos e Não Expostos). Nota Port. I S PS Expostos % 33% 54% 13% ni 5 8 5 ni 3 6 6 ângulo 119o 194o 47 o Não Expostos % ângulo 20% 74o 40% 144o 40% 144o I = Insatisfatória, S = Satisfatória e PS = Plenamente Satisfatória a) Gráfico de colunas: Notas de Português 0.6 0.5 I S PS 0.3 0.2 0.0 Exposto Não Exposto Notas de Português 0.6 0.5 Exposto Não Exposto 0.3 0.2 0.0 I S PS b) Gráfico de setores (pizza): Notas de Português - Grupo Exposto I 33% S 54% PS 13% Notas de Português - Grupo Não Exposto PS 40% I 20% S 40% Exemplos A) Dados DISCRETOS n€o agrupados: X = vari€vel representando o n•mero de vezes que um sistema travou, por per‚odo de execuƒ„o, na sua carga m€xima de processamento. 4 4 1 6 3 2 3 3 4 3 4 2 4 5 2 5 1 2 5 4 6 3 1 2 3 Medidas de tend…ncia central mais comuns, no Excel: a) M†dia aritm†rica ..... =M‡DIA(A1:A25) b) Mediana .................. =MED(A1:A25) c) Moda....................... =MODO(A1:A25) d) M†dia geom†trica.... = M‡DIA.GEOM‡TRICA(A1:A25) e) M†dia harmˆnica..... = M‡DIA.HARM‰NICA(A1:A25) Para construir Tabelas de Frequ•ncias no Excel i) marcar os dados; ii) selecionar “> Inserir > Tabela Dinƒmica”; iii) arrastar X para a margem esquerda e centro da tabela; iv) clicar com o bot„o direito sobre a coluna “Total”, selecionar “> Resumir Dados por” e marcar a opƒ„o “Contagem”; v) inserir as colunas e concluir a tabela, atentando para que os c€lculos sejam feitos corretamente. Tabela de Frequ…ncias: X ni fi 3 0,12 1 5 0,20 2 3 6 0,24 6 0,24 4 3 0,12 5 2 0,08 6 Total 25 1,00 Fac 0,12 0,32 0,56 0,80 0,92 1,00 Para construir Gr…fico de Frequ•ncia (Histograma) no Excel i) marcar os dados; ii) selecionar “> Inserir > Gr…ficos > Colunas”; iii) acertar as configurações para melhor visualização do gráfico: - título (tipo de fonte e tamanho); - eixos (fontes e espaçamentos); - linhas de grade; - espaçamento (clicar numa das colunas do gráfico e selecionar “> Formatar > S†ria de Dados” e definir “Largura do Espa‡amento” no máximo “Intervalo Grande”. Para construir Gr…fico de Frequ•ncia Acumulada: - digitar a tabela de forma a construir um gráfico XY. B) Dados DISCRETOS agrupados: X = variável representando o número de dias em manutenção de equipamentos de uma empresa. 15 4 17 4 13 2 13 5 X 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 21 Total 21 13 9 7 9 12 5 8 ni 5 4 4 8 5 2 2 4 4 1 1 3 1 2 1 1 1 1 50 5 16 2 3 5 7 5 10 10 6 9 5 6 4 14 5 X (dias) 01 a 03 04 a 06 07 a 09 10 a 12 13 a 15 16 a 18 19 a 21 Total 2 11 15 4 ni 9 17 8 6 6 3 1 05 2 8 3 5 9 6 6 2 fi 0,18 0,34 0,16 0,12 0,12 0,06 0,02 1,00 10 6 18 Fac 0,18 0,52 0,68 0,80 0,92 0,98 1,00 3 10 3 Construindo a Tabela de Frequ•ncia e o Histograma no Excel i) “> Dados > An…lise de Dados > Histograma > OK”; ii) Marcar as opƒ‹es: - “Intervalo de entrada” => conjunto de dados para a tabela; - “Intervalo do bloco” => coluna com os limites das classes da tabela; - “Intervalo de saˆda” => local onde a tabela ser€ colocada; - marcar “Porcentagem cumulativa” para obter a freqŒ…ncia acumulada Fac; - marcar “Resultado do gr…fico” para obter o Histograma; (Ver resultado na planilha) ** Ver a sa‚da da opƒ„o “Estatˆstica Descritiva” e comparar com o “MINITAB”. C) Dados CONTÍNUOS: Exemplo: Em 1798 o cientista Henry Cavendish mediu a densidade do glogo terrestre em 29 ensaios. Os dados foram obtidos do Annals os Statistics, 1977. X = densidade do globo terrestre (g/cm3). 5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,65 5,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,39 5,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85 Dados ordenados 4,88 5,07 5,10 5,36 5,39 5,42 5,58 5,61 5,62 x 157,99 x 2 862,09 5,26 5,44 5,63 5,27 5,46 5,65 5,29 5,47 5,68 5,29 5,50 5,75 5,30 5,53 5,79 5,34 5,55 5,85 5,34 5,57