i Sumário 1 Estatística Descritiva 1 1.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Definições importantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Tabelas Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Série Cronológica ou Temporal . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.2 Série Geográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.3 Série Específica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3.1 Construção de uma distribuição de frequência . . . . . . . . . . . . . . . . . 4 Gráficos Estatísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.2 Polígono de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.3 Gráfico de Linhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4.4 Gráfico de Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.5 Gráfico em Barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.6 Gráfico de Setores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5.1 Média Aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5.2 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.2 Desvio Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.6.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.4 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2 1.3 1.4 1.5 1.6 2 Índice Remissivo 19 ii Capítulo 1 Estatística Descritiva O BJETIVOS DO CAPÍTULO Ao final deste capítulo você deverá ser capaz de: • Conhecer os conceitos básicos da estatística e, principalmente, a diferença entre população e amostra • Construir uma tabela estatística • Conhecer os tipos de variáveis estatísticas • Construir um histograma • Identificar e entender o significado dos gráficos estatísticos • Conhecer e saber calcular as principais medidas de posição • Conhecer e saber calcular as principais medidas de dispersão 1.1 Conceitos Básicos A Estatística é a ciência voltada para a construção de técnicas e métodos que permitem tomar decisões nos mais deferentes setores do conhecimento. O que hoje se conhece por Estatística, é justamente esse conjunto de ferramentas de pesquisa que envolve, entre outros, o planejamento do experimento a ser realizado, a coleta qualificada dos dados, os processos de inferência estatística, bem como a análise e o processamento das informações coletadas. 1.1.1 Definições importantes Na estatística temos algumas definições importantes: • População: Qualquer conjunto de informação que tenha entre si uma característica comum que delimite os elementos pertencentes a ela. • Amostra: É um subconjunto de elementos pertencentes a uma população. • Variável: Dados referêntes a uma característica de interesse, coletados a partir de uma amostra. • Censo: Exame de todos os elementos da população. 1 / 20 images/descritiva/pop-amostra.eps Figura 1.1: População e Amostra images/descritiva/variavel.eps Figura 1.2: Exemplo de variável Temos dois tipos de variáveis: Qualitativa Nominal : sexo, cor dos olhos. Ordinal : classe social, grau de instrução. Quantitativa 1.2 Discreta : número de filhos. Continua : altura, peso, salário. Tabelas Estatísticas Na estatística é fundamental aprendermos a representar os dados que serão analisados por meio de tabelas. Uma tabela deve apresentar a seguinte estrutura: • Cabeçalho; • Corpo; • Rodapé. O cabeçalho deve conter o suficiente para que sejam respondidas as questões: • O que está representado? • Onde ocorreu? • Quando ocorreu? Além disso, a tabela é um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de maneira sistemática. 2 / 20 1.2.1 Série Cronológica ou Temporal Um exemplo muito comum e muito útil de tabela é dado pelas séries temporais. Uma série temporal consiste em uma sequência numérica cujos valores variam com o tempo. Abaixo vemos como inserir os dados de uma série temporal em uma tabela: Vendas da Companhia Alfa: 2007-2009 Anos 2007 2008 2009 Vendas em R$ 1.000,00 11.425 18.258 15.798 Fonte: Departamento de Marketing. 1.2.2 Série Geográfica Muitas vezes o dado de interesse pode depender a posição geográfica de onde foram coletados. Assim, uma série geográfica consiste em uma sequência numérica obtidas em diferentes regiões em um determinado instante do tempo. Empresas Fiscalizadas em 2008 Regiões Norte Nordeste Sudeste Sul Centro-Oeste Número de Empresas 11.425 18.258 28.157 15.798 9.236 Fonte: Mensário Estatístico. 1.2.3 Série Específica Uma série importante é formada por dados agrupados por alguma espécie ou característica comum. Assim, uma série específica é uma série numérica agrupada por tipo. Temos o exemplo abaixo: Matrículas na Pós-graduação da UFPB - 2008 Áreas de Ensino Ciências Biológicas Ciências Exatas e Tecnologia Ciências Humanas Matrículas 125 158 128 Fonte: Serviço de Educação e Cultura. 1.3 Distribuição de Frequência Uma distribuição de frequência é uma tabela que contém um resumo dos dados obtido em uma amostra. 3 / 20 A distribuição é organizada em formato de tabela, e cada entrada da tabela contém a frequência dos dados em um determinado intervalo, ou em um grupo. Abaixo vemos um exemplo simplificado de tabela de distribuição de frequência: Altura dos Alunos da UFPB - 2008 Alturas em metros 1,50 |− 1,60 1,60 |− 1,70 1,70 |− 1,80 1,80 |− 1,90 Número dos Alunos 5 15 17 3 Fonte: Serviço de Saúde. Na próxima subseção aprenderemos a construir uma distribuição de frequência completa. 1.3.1 Construção de uma distribuição de frequência Para ilustrar como se constrói uma distribuição de frequência, nós vamos considerar um exemplo específico. Assim, suponha que uma pesquisa foi feita, e o seguinte conjunto de dados foi obtido: • Dados Brutos: 24-23-22-28-35-21-23-33-34-24-21-25-36-26-22-30-32-25-26-33-34-21-31-25-31-26-25-35-33-31. A primeira coisa que fazemos é ordenar os dados do menor para o maior, formando o rol de dados: • Rol de dados: 21-21-21-22-22-23-23-24-25-25-25-25-26-26-26-28-30-31-31-31-32-33-33-33-34-34-34-35-35-36. Em seguida, calculamos a amplitude total, ou seja, o maior valor obtido na amostra subtraído do menor valor obtido na amostra: • Amplitude Total R: R = 36 − 21 = 15. Vamos agora definir as variáveis de interesse, ou seja, para cada valor distinto obtido na amostra, atribuiremos uma variável diferente: • Variável Xi : X1 = 21, X2 = 22, X3 = 23, X4 = 24, etc. O próximo passo é calcular a frequência absoluta das variáveis, ou seja, vamos calcular quantas vezes cada valor aparece na sequência. Por exemplo, o valor 21 aparece 3 vezes, o valor 22 aparece 2 vezes, etc.. Assim, obtemos: • Frequência Absoluta Fi 4 / 20 F1 = 3, F2 = 2, F3 = 2, F4 = 1, etc. Vamos calcular, agora, o tamanho amostral, ou seja, o número de observações obtidas na amostra. Desta forma, temos: • Tamanho Amostral n: n = 30. Queremos, agora, dividir a amostra em uma quantidade de grupos que formarão os intervalos. Cada grupo é chamado de classe, assim, queremos definir o número de classes a ser considerado na tabela de distribuição de frequência: • Número de Classes K: – K = 5 para n ≤ 25 e K ≈ √ n, para n > 25. – Fórmula de Sturges K ≈ 1 + 3, 22 log n. √ Logo, pela primeira regra temos K = 30 ≈ 5, 48 ≈ 6, e pela segunda regra K ≈ 1 + 3, 22 log 30 ≈ 5, 75 ≈ 6. Desta forma, em ambos os casos temos K = 6, que será o valor considerado. O próximo passo é saber o comprimento de cada intervalo a ser considerado, ou seja, calcular a amplitude de cada classe. Queremos que todas as classes tenham a mesma amplitude e portanto, temos: • Amplitude das Classes h: h= Daí, para o nosso caso, h = 15 6 R . K = 2, 5 ≈ 3. Vamos agora definir os limites das classes. Ou seja, definir os intervalos propriamente ditos. Para tanto, começamos com o menor valor obtido da amostra, ou equivalentemente, o primeiro valor do rol de dados, e vamos somando a amplitude para definir cada limite de intervalo: • Limites das Classes: 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Em seguida, calculamos os pontos médios das classes, que nada mais é que a média aritmética entre os limites das classes: • Pontos Médios das Classes pmi : 5 / 20 pm1 = 21 + 24 = 22, 5, 2 pm2 = 24 + 27 = 25, 5, 2 , etc. Agora, calculamos as frequências dos dados em cada intervalo e, chamada de frequência absoluta, e também a frequência acumulada, chamada de frequência absoluta acumulada, que considera a soma das frequências dos intervalos anteriores até o intervalo considerado: • Frequência Absoluta Acumulada Fac : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - Em seguida, inclui-se as frequências relativas dos dados, ou seja, para cada intervalo calcula-se fi = Fi /n. A frequência relativa, nos informa a proporção dos dados que pertencem a um determinado intervalo. • Frequência Relativa fi : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - fi 0,23 0,27 0,07 0,13 0,27 0,03 1,00 Para finalizar, calculamos a frequência acumulada relativa, ou seja, calculamos para cada intervalo fac = Fac /n: • Frequência Relativa Acumulada fac : Classes 21|− 24 24|− 27 27|− 30 30|− 33 33|− 36 36|− 39 Total pmi 22,5 25,5 28,5 31,5 34,5 37,5 - Fi 7 8 2 4 8 1 30 Fac 7 15 17 21 29 30 - 6 / 20 fi 0,23 0,27 0,07 0,13 0,27 0,03 1,00 fac 0,23 0,50 0,57 0,70 0,97 1,00 - 1.4 1.4.1 Gráficos Estatísticos Histograma O histograma é uma representação gráfica da distribuição de frequência. O histograma é formado por uma justaposição de retângulos de bases com mesmo comprimento. O comprimento da base é justamente a amplitude do intervalo e a altura do retângulo é dada pela frequência absoluta do intervalo. Assim, uma vez feita a distribuição de frequência, a construção do histograma é uma tarefa muito simples. Abaixo vemos um exemplo de histograma: images/descritiva/histograma.eps Figura 1.3: Histograma 1.4.2 Polígono de Frequência O polígono de frequência é uma representação gráfica obtida após ligar os pontos médios de cada classe entre si. Se já tivermos um histograma, basta ligar os pontos médios das bases superiores dos retângulos. Abaixo vemos um exemplo de polígono de frequência obtido a partir de um histograma: images/descritiva/poligono-hist.eps Figura 1.4: Polígono de Frequência Obtido a Partir de um Histograma Abaixo vemos um exemplo contendo apenas o polígono de frequência: images/descritiva/poligono.eps Figura 1.5: Polígono de Frequência Obtido a Partir de um Histograma 1.4.3 Gráfico de Linhas Suponha que temos duas variáveis, por exemplo, podemos ter os dados de uma série temporal, donde uma variável seria o valor obtido, e a outra variável seria a data em que o valor foi obtido. Outra possibilidade seria colocar dados de uma série geográfica, onde uma variável seria formada pelos dados e a outra seria a localização geográfica. O gráfico de linhas então é formado construindo pontos no plano (a partir das duas variáveis) e, em seguida, estes pontos são ligados por segmentos de retas. Abaixo vemos um exemplo de gráfico de linhas de uma série temporal images/descritiva/linha.eps Figura 1.6: Gráfico de linhas 7 / 20 1.4.4 Gráfico de Colunas Um gráfico de colunas é formado por uma coleção de colunas, com bases de mesmo comprimento, e igualmente espaçados. O eixo horizontal do gráfico consiste das diferentes categorias consideradas, e o eixo vertical é proporcional ao valor do dado. Abaixo vemos um exemplo de gráfico de colunas: images/descritiva/colunas.eps Figura 1.7: Gráfico de colunas 1.4.5 Gráfico em Barras O gráfico em barras pode ser entendido como uma variação do gráfico de colunas. De fato, o gráfico em barras é formado por uma coleção de barras, de mesma altura e igualmente espaçadas. Entretanto, neste caso o eixo vertical representa as diferentes categorias consideradas e o eixo horizontal é proporcional ao valor dado. Abaixo vemos um exemplo de gráfico em barras: images/descritiva/barras.eps Figura 1.8: Gráfico em barras 1.4.6 Gráfico de Setores O gráfico de setores, que também é popularmente conhecido como gráfico pizza, é um gráfico em que um círculo é dividido em setores (que podem ser pensados como as fatias da pizza), onde cada setor representa uma categoria considerada pelo conjunto de dados, e os ângulos dos setores são proporcionais aos valores dos dados em cada categoria. Assim, quanto maior o valor obtido, maior será o ângulo do setor (e assim, maior será a fatia da pizza). Abaixo vemos um exemplo de gráfico de setores: images/descritiva/pizza.eps Figura 1.9: Gráfico de setores 1.5 Medidas de Posição As medidas de posição são valores que representam a tendência de concentração dos dados observados. As mais importantes são as medidas de tendência central. As três medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. 8 / 20 1.5.1 Média Aritmética É um valor que representa uma característica do conjunto de dados. Essa característica é tal que a soma dos dados é preservada. A média é obtida a partir de todos os elementos da distribuição e do tamanho da amostra n. Notação: representamos a média de um conjunto de dados por X (lê-se x barra). Cálculo da Média Aritmética + • Dados não agrupados (brutos) - média aritmética simples. No caso de uma lista de dados não-agrupados, calculamos a média aritmética pela fórmula: n Xi . i=1 n X=∑ Exemplo 1.1 Exemplo de cálculo de média aritmética com dados brutos Considere os dados 2, 3, 7 e 8. Então, n = 4 e X= 2 + 3 + 7 + 8 20 = = 5. 4 4 • Dados agrupados - média aritmética ponderada. No caso em que temos os dados agrupados, ou seja, sabemos a frequência de cada observação, o cálculo da média aritmética pode ser simplificado. Assim, a média aritmética pode ser cálculada pela fórmula: n Xi · Fi . X=∑ i=1 n Exemplo 1.2 Exemplo de cálculo de média aritmética ponderada Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Assim, X = 122 18 Fi 3 5 10 18 Xi · Fi 12 30 80 122 = 6, 78. • Dados agrupados em intervalos - média aritmética ponderada No caso em que temos os dados agrupados em intervalos, utilizamos a média aritmética ponderada, onde os pesos são dados pelo ponto médio do intervalo. Assim, a média aritmética é calculada pela fórmula: n Xi · pmi X=∑ , n i=1 9 / 20 Exemplo 1.3 Exemplo de cálculo de médias com dados agrupados em intervalos Considere a seguinte tabela: Anos (Xi ) Fi pmi Xi · pmi 0`4 4 2 8 4`8 10 6 60 7 10 70 8 ` 12 Total 21 138 Assim, X = 1.5.2 138 21 = 6, 57. Moda Definimos a moda de um conjunto de dados como o valor mais frequente deste conjunto. Notação: representamos a moda de um conjunto de dados por Mo. Exemplo 1.4 Exemplo de modas • 1, 2, 4, 5 e 8 - não existe valor mais frequente - não existe moda (Amodal). • 2, 2, 3, 7 e 8 - Mo = 2 (Unimodal). • 1, 1, 10, 5, 5, 8, 7, 2 - Mo = 1 e 5 (Bimodal). • Dados agrupados - Neste caso, a moda é definida como “classe modal”, isto é, a classe com a maior frequencia. Exemplo 1.5 Exemplo de cálculo de classe modal Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Assim, Mo = 8 (F3 ). Fi 3 5 10 18 • Dados agrupados em intervalos: Neste caso, utiliza-se a fórmula de Czuber: h(FMo − Fant ) Mo = lMo + , 2FMo − (Fant + FPos ) onde: • h é a amplitude intervalar, • FMo é a frequência da classe modal, • lMo é o limite inferior da classe modal, • Fant é a frequência da classe anterior à classe modal, • FPos é a frequência da classe posterior à classe modal. 10 / 20 Exemplo 1.6 Exemplo de cálculo de moda pela fórmula de Czuber Considere a seguinte tabela: Anos (Xi ) Fi 0`4 4 4`8 10 7 8 ` 12 Total 21 Assim, h = 4, FMo = 10, lMo = 4, Fant = 4 e Fpos = 7. Daí 4 · (10 − 4) = 6, 67. Mo = 4 + 2 · 10 − (4 + 7) 1.5.3 Mediana Definimos a mediana de um conjunto de dados como o valor que divide um conjunto de dados (ordenados) em duas partes com a mesma quantidade de dados. Notação: representamos a mediana de um conjunto de dados por Md. O elemento mediano (EMd ) aponta o local (nos dados) onde a mediana está localizada. A mediana será o valor assumido na posição EMd . • Dados não agrupados (brutos) – No caso de dados brutos, se o tamanho amostral (n) é ímpar, temos que EMd = (n + 1)/2. – Note que no caso tamanho amostral é par, teremos dois valores possíveis para o elemento mediano: n/2 e n/2 + 1. Neste caso a mediana será a média dos valores assumidos nestas posições. Exemplo 1.7 Exemplo de cálculo de mediana para dados brutos • 1, 2, 4, 5 e 8. Como n é ímpar, temos EMd = 3, e Md = 4. • 2, 2, 3, 7, 8 e 10. Aqui n é par, assim EMd,1 = 6/2 = 3 e EMd,2 = 6/2 + 1 = 4. Daí Md = (3 + 7)/2 = 5. • Dados agrupados Neste caso, olhar a frequência acumulada ajuda a encontrar a médiana. • Caso 1: n ímpar. 11 / 20 Exemplo 1.8 Exemplo de cálculo de mediana com dados agrupados para n ímpar Considere a seguinte tabela:\vfill Faltas (Xi ) Fi Fac 2 1 1 3 7 8 3 11 4 Total 11 Como n = 11, temos que EMd = (11 + 1)/2 = 6. Daí Md = 3. Note que a frequência acumulada indica que nas posições de 2 até 8 temos o valor 3. • Caso 2: n par. Exemplo 1.9 Exemplo de cálculo de mediana com dados agrupados para n par Considere a seguinte tabela: Tempo de Serviço (Xi ) 4 6 8 Total Fi 3 5 10 18 Fac 3 8 18 Neste caso n = 18, daí temos EMd,1 = 18/2 = 9 e EMd,2 = 18/2 + 1 = 10. Portanto Md = (8 + 8)/2 = 8. Note, novamente, que a frequência acumulada indica que nas posições de 9 até 18 temos o valor 8. • Dados agrupados em intervalos Neste caso, utilizamos EMd = n/2 independentemente de n ser par ou ímpar. A classe mediana é a primeira classe tal que Fac ≥ EMd . Portanto, definimos a mediana pela fórmula EMd − Fac,ant Md = lMd + h · , FMd onde, • lMd é o limite inferior da classe mediana, • h é a amplitude do intervalo, • Fac,ant é a frequência acumulada da classe anterior à classe mediana, • FMd é a frequência da classe mediana. 12 / 20 Exemplo 1.10 Exemplo do cálculo da mediana para dados agrupados em intervalos Considere a seguinte tabela: Anos (Xi ) Fi Fac 0`4 4 4 4`8 10 14 7 21 8 ` 12 Total 21 Assim, EMd = 21/2 = 10, 5, e desta forma temos que a segunda classe é a classe mediana. Daí lMd = 4, h = 4, Fac,ant = 4 e FMd = 10. Portanto, 10, 5 − 4 = 6, 6. Md = 4 + 4 · 10 1.6 Medidas de Dispersão • As medidas de dispersão medem o grau de variabilidade dos elementos de uma distribuição; • O valor zero indica ausência de dispersão; • A dispersão aumenta à medida que aumenta o valor da medida de dispersão. Exemplo 1.11 Exemplo de motivação para as medidas de dispersão Notas de alunos em cinco avaliações, UFPB, 2009. Alunos Antônio João José Pedro 5 6 10 10 5 4 5 10 Notas 5 5 5 5 4 6 5 5 0 5 0 0 Média 5 5 5 5 Observa-se que: * As notas de Antônio não variaram; • As notas de João variaram menos do que as notas de José; • As notas de Pedro variaram mais do que as notas de todos os outros alunos. Principais Medidas de Dispersão: • Amplitude, • Desvio Médio, • Variância, • Desvio Padrão, • Coeficiente de Variação. 13 / 20 1.6.1 Amplitude A amplitude nos fornece uma idéia do campo de variação dos elementos. Mais precisamente, ela fornece a maior variação possível dos dados. A amplitude é dada pela fórmula A = Xmax − Xmin . Exemplo 1.12 Exemplo de cálculo de amplitude No exemplo anterior: AAntônio = 0; AJoão = 2; AJosé = 10; APedro = 10. Nota A amplitude não mede bem a dispersão dos dados porque, usam-se apenas os valores extremos, ao invés de utilizar todos os elementos da distribuição. 1.6.2 Desvio Médio Desejando-se medir a dispersão dos dados em relação a média, parece interessante a análise dos desvios em torno da média. Isto é, análise dos desvios: di = (Xi − X). Mas a soma de todos os desvios é igual a zero. Isto é: n n ∑ di = ∑ (Xi − X) = 0. i=1 i=1 Logo, será preciso encontrar uma maneira de se trabalhar com os desvios sem que a soma dê zero. Dessa forma, define-se o desvio médio. • Dados não agrupados (brutos): Neste caso, calculamos o desvio médio como: n |di | |Xi − X| =∑ . n i=1 n i=1 n DM = ∑ Nota Veja que os desvios foram considerados em módulo, evitando-se assim que a soma fosse nula. • Dados agrupados: 14 / 20 n |Xi − X| · Fi |di | · Fi =∑ . n n i=1 i=1 n DM = ∑ Nota Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes. Importante • O desvio médio é mais vantajoso que a amplitude, visto que leva em consideração todos os valores da distribuição. • No entanto, não é tão frequentemente empregado, pois não apresenta propriedades matemáticas interessantes. 1.6.3 Variância A variância é a medida de dispersão mais utilizada. É o quociente entre a soma dos quadrados dos desvios e o número de elementos. Assim, temos a seguinte definição de variância populacional: • Dados não agrupados - (brutos): Neste caso, a variância é dada pela fórmula: N di2 (Xi − X)2 =∑ . N N i=1 i=1 N σ2 = ∑ • Dados agrupados: Aqui, podemos utilizar a frequência para simplificar a fórmula: N N di2 · Fi (Xi − X)2 · Fi σ =∑ =∑ . N i=1 N i=1 2 Nota σ 2 indica a variância populacional e lê-se sigma ao quadrado ou sigma dois. Neste caso, X e N da formúla representam a média populacional e o tamanho populacional, respectivamente. Temos ainda a seguinte definição de variância amostral: • Dados não agrupados - (brutos): Neste caso, a fórmula é dada por n n di2 (Xi − X)2 =∑ i=1 n − 1 i=1 n − 1 S2 = ∑ 15 / 20 • Dados agrupados: Podemos, novamente, utilizar as frequências para simplificar a fórmula: n n di2 · Fi (Xi − X)2 · Fi =∑ . n−1 i=1 n − 1 i=1 S2 = ∑ Nota Xi representa um valor individual, no caso de uma distribuição de frequência simples, ou o ponto médio da classe ( pmi ), no caso de uma distribuição de frequência em classes. Importante Fórmulas práticas para os cálculos das variâncias são dadas a seguir: 2i (∑N 1h N 2 i=1 Xi · Fi ) σ = ∑ Xi · Fi − N i=1 N 2 ou (∑ni=1 Xi · Fi )2 i 1 h n 2 S = ∑ Xi · Fi − n − 1 i=1 n 2 que foram obtidas por transformações nas respecitivas fórmulas originais. 1.6.4 Desvio Padrão Temos também outra medida de dispersão, que é a raiz quadrada da variância, chamada de desvio padrão. Assim, √ σ = σ 2 é o desvio desvio padrão populacional e S= √ S2 é o desvio desvio padrão amostral. Nota Para o cálculo do desvio padrão deve-se primeiramente determinar o valor da variância e, em seguida, extrair a raiz quadrada desse resultado. Exemplo 1.13 Exemplo de cálculo das medidas de dispersão Calcular a amplitude, o desvio médio, a variância e o desvio padrão da seguinte distribuição amostral: Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 16 / 20 • Cálculo da amplitude: A = Xmax − Xmin = 11 − 5 = 6. • Cálculo do desvio médio: Primeiramente é preciso do valor da média. Assim, Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 n Xi · Fi 129 = = 8, 06. 16 i=1 n X=∑ Para o cálculo do DM são abertas novas colunas: Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 Portanto, |Xi − X| = |di | |5 − 8, 06| = 3, 06 |7 − 8, 06| = 1, 06 |8 − 8, 06| = 0, 06 |9 − 8, 06| = 0, 94 |11 − 8, 06| = 2, 94 - |di | · Fi 6,12 3,18 0,30 3,76 5,88 19,24 n |di | 19, 24 = = 1, 20. 16 i=1 n DM = ∑ • Cálculo do variância amostral: Observe que o cálculo será facilitado, pois sabe-se que: n = 16; ∑ Xi · Fi = 129. Resta encontrar ∑ Xi2 · Fi . Para tanto, uma nova coluna é considerada na tabela. Xi 5 7 8 9 11 Total Fi 2 3 5 4 2 16 Xi · Fi 10 21 40 36 22 129 Portanto, Xi2 · Fi 50 147 320 324 242 1083 (∑ni=1 Xi · Fi )2 i 1 h n 2 = ∑ Xi · Fi − n − 1 i=1 n h i 2 1 (129) 1h 16641 i = 1083 − = 1083 − 16 h− 1 16i 15 16 1 17328 − 16641 687 = = 2, 86. = 15 16 15 · 16 Logo, a variância amostral S2 = 2, 86. S2 17 / 20 • Cálculo do desvio padrão amostral: √ √ Como S = S2 , logo S = 2, 86 = 1, 69. Dessa forma, podemos observar que a distribuição possui média 8, 06. Isto é, seus valores estão em torno de 8, 06 e seu grau de concentração é de 1, 2, medido pelo desvio médio e de 1, 69, medido pelo desvio padrão. 1.6.5 Coeficiente de Variação Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por CV = S × 100. X onde, S é o desvio padrão amostral e X é a média amostral. O coeficiente de variação é expresso em porcentagens. Exemplo 1.14 Exemplo de cálculo do coeficiente de variação Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00, com um desvio padrão de R$ 1.200,00. Então: • Para os homens: CV = 1.500 × 100 = 37, 5%. 4.000 • Para as mulheres: 1.200 × 100 = 40%. 3.000 Logo, podemos concluir que os salários da mulheres apresenta maior dispersão relativa do que o dos homens. CV = Diz-se que a distribuição possui pequena variabilidade, ou dispersão, quando o coeficiente der até 10%; média dispersão quando estiver acima de 10% até 20%; e grande dispersão quando superar 20%. Alguns analistas consideram: • Baixa dispersão: CV ≤ 15%; • Média dispersão: 15% < CV < 30%; 18 / 20 Capítulo 2 Índice Remissivo A Absoluta Acumulada, 6 Acumulada, 6 Amostra, 1 Amostral, 15 Amplitude, 14 Amplitude Total, 4 Acumulada, 6 Frequência Absoluta, 4 G Geográfica, 3 Gráfico de Colunas, 8 de Linhas, 7 de Setores, 8 em Barras, 8 Pizza, 8 C Censo, 1 Coeficiente de Variação, 18 Contínua, 2 Cronológica, 3 H Histograma, 7 M Média, 8 Média Aritmética, 9 Ponderada, 9 Médio, 14 Mediana, 8, 11 Medidas de Dispersão, 13 de Tendência Central, 8 Moda, 8, 10 D de Colunas, 8 de Dispersão, 13 de Linhas, 7 de Setores, 8 de Tendência Central, 8 Desvio Médio, 14 Padrão, 16 Discreta, 2 Distribuição de Frequência, 3 N Nominal, 2 E Elemento Mediano, 11 em Barras, 8 Específica, 3 O Ordinal, 2 P Padrão, 16 Pizza, 8 Polígono de Frequência, 7 Ponderada, 9 População, 1 Populacional, 15 F Fórmula da Mediana, 12 Fórmula de Czuber, 10 Frequência Absoluta Acumulada, 6 Relativa, 6 19 / 20 Q Qualitativa Nominal, 2 Ordinal, 2 Quantitativa Contínua, 2 Discreta, 2 R Relativa, 6 Acumulada, 6 Rol de dados, 4 S Série Cronológica, 3 Específica, 3 Geográfica, 3 Temporal, 3 T Tabelas, 2 Tamanho Amostral, 5 Temporal, 3 V Variável, 1 Qualitativa Nominal, 2 Ordinal, 2 Quantitativa Contínua, 2 Discreta, 2 Variância Amostral, 15 Populacional, 15 20 / 20