ESTATÍSTICA Unidade II 4 DISTRIBUIÇÃO DE FREQUÊNCIAS Ao longo de nosso estudo, observamos que, para extrair dos dados estatísticos de que dispomos a correta análise e interpretação, o primeiro passo deverá ser a correta organização e sumarização destes dados; caso contrário, esses números não 5 farão qualquer sentido. Além disso, dependendo do tamanho do nosso conjunto de dados, podemos organizá-los em um rol de dados simples, ou seja, por ordem de grandeza (crescente ou decrescente), ou em rol (novamente ordenando o conjunto de dados) e, posteriormente, 10 tabelando sua distribuição de frequências. A distribuição de frequências é o modo de tratamento de dados utilizado quando é grande a quantidade de dados brutos, e passamos a agrupar os dados estatísticos em subconjuntos com características semelhantes – as classes ou categorias. 15 A distribuição de frequência é a organização de dados em classes ou intervalos, para determinar o número de observações ou a percentagem de observações de cada classe, chamada de frequência de classes. Para apresentar estes dados, podemos utilizar gráficos e 20 tabelas, bem como utilizar as medidas de posição e variabilidade para interpretá-los, mas não sem organizá-los previamente em uma distribuição, sem a qual ficaria impossível o cálculo de algumas das medidas necessárias, como média, variância etc. 53 Unidade II Tabela 4.1 Idade de 100 estudantes formandos do curso de serviço social de uma Universidade AB em dez/2008 Idade Número de estudantes 20 a 22 8 22 a 24 10 24 a 26 12 26 a 28 20 28 a 30 17 30 a 32 15 32 a 34 9 34 a 36 5 36 a 38 3 38 a 40 1 Total = 100 A tabela acima é uma distribuição de frequências das idades dos estudantes que estão se formando no curso de serviço social de uma determinada Universidade fictícia AB. A primeira classe corresponderia ao grupo de estudantes formandos em serviço 5 social no ano de 2008 e que possuem entre 20 e 22 anos, e é indicada pelo símbolo 20 |- 22. A frequência desta classe corresponde a oito, porque existem oito estudantes cuja idade faz parte desta classe. 4.1 A construção de uma distribuição de frequências para dados contínuos Para se construir uma determinada distribuição de frequências 10 é preciso, em primeiro lugar, definir o tipo de variável em questão, para depois definir os passos que devem ser seguidos para a construção desta distribuição. Vamos supor o conjunto de dados abaixo, referente às idades de uma amostra de cem alunos formandos em serviço social de uma Universidade AB: 54 ESTATÍSTICA Tabela 4.2 Dados das idades dos estudantes formandos de serviço social da Universidade AB 20 20,4 20,5 21 21 22 22 22 22,1 22,2 22,3 22,5 22,6 22,7 22,8 22,9 23 24 24,1 24,2 24,3 24,4 24,5 25 25 25,3 25,5 25,7 26 26 26,2 26,3 26,4 26,5 26,6 26,7 26,8 26,9 27 27 27,1 27,2 27,3 27,4 28 28 28 28 28 28 28,2 28,3 28,5 29 29 29 29 29,1 29,1 29,2 29,3 29,4 29,5 29,5 30 30 30 31 31 31 31 31,1 31,2 31,3 31,4 31,5 31,6 31,6 32 32 32 32 32,3 33 33 33 34 34 34 34 34 34,5 35 35 36 36 37 37,5 38 40 Como podemos observar, os dados já estão dispostos em ordem crescente de grandeza, em um rol, muito embora se trate de um conjunto de números superior a trinta observações. Esta amostra diz respeito às idades dos alunos de uma determinada 5 Universidade fictícia AB que estão se formando no curso de serviço social. Estamos considerando, portanto, uma variável contínua. Uma variável contínua é aquela que pode assumir qualquer valor num intervalo contínuo. Como vimos, tratar um conjunto de dados sob a forma de uma distribuição de frequências significa organizá-los em intervalos de classes. Precisamos, então, definir o número de classes, o 10 tamanho destas classes para, então, enquadrar os dados nas classes pela simples contagem destes dados amostrais. A primeira coisa que devemos fazer ao nos depararmos com um conjunto de dados como este apresentado na tabela 4.2 é procurar calcular a amplitude total (ou intervalo). Nesse caso, 15 será muito mais fácil, pois os números já estão dispostos em um rol. Conforme vimos anteriormente, a amplitude total (ou intervalo) poderá ser calculada da seguinte forma: Atotal = Vmáximo – Vmínimo Atotal = 40 – 20 = 20 55 Unidade II No caso do nosso exemplo, a amplitude total será igual a 20. O valor da amplitude total será importante porque, juntamente com o número de classes, definirá a chamada “amplitude de classes”. Mas como então estabelecer o número de classes? A teoria estatística tem se desenvolvido ao longo dos anos e chegou ao consenso de que é aconselhável estabelecer o número de classes entre um mínimo de cinco e um máximo de vinte classes. Uma distribuição de frequências que possua mais de vinte 10 classes torna a apresentação dos dados muito confusa e de mais difícil avaliação. Se estabelecemos um número de classes inferior a cinco, podemos correr o risco de ocultar informações importantes sobre os dados disponíveis. 5 Quando se quer determinar o número de classes em 15 função do conjunto de dados disponíveis, basta tirarmos a raiz quadrada de n, onde n corresponderia ao total de observações (seja da população ou da amostra). Sendo assim, temos: Númeroclasses = n 20 No caso do exemplo apresentado acima, temos um total de observações n=100, portanto, o número de classes será igual a 10; vejamos: Nclasses = n Nclasses = 100 = 10 25 Uma vez estabelecido o número de classes, é preciso pensar qual será o tamanho de cada classe, ou, dito de outra forma, faz-se necessário determinar a amplitude de classe desta distribuição de frequências. Para isto calculamos a amplitude total desta distribuição, a qual corresponde a uma medida 30 absoluta de variabilidade. 56 ESTATÍSTICA Assim, temos: Amplitudeclasses Amplitudetotal = Númeroclasses A amplitude de classes será calculada, então, tomando-se o valor da amplitude total e dividindo-se pelo número de classes. Seguindo o exemplo que estamos trabalhando, já fizemos o cálculo da amplitude total e do número de classes; podemos, 5 então, passar para o cálculo da amplitude de classes do exemplo. Temos, então: A classes = A total Nclasses A classes = 20 =2 10 A amplitude das classes da distribuição de frequências que 10 estamos procurando construir em nosso exemplo será igual a dois. Isso representa o intervalo ou tamanho de cada classe, em que iremos dispor os nossos dados. É importante ressaltar que uma distribuição de frequência não obrigatoriamente apresenta uma única amplitude de classes, posto que mantenha 15 a composição estrutural da distribuição. Temos agora o número de classes, a amplitude de classes; podemos, então, calcular o intervalo de classes. O intervalo de classes é composto por um limite inferior (número menor) e por um limite superior (número maior). Os limites inferior e superior podem ou 20 não estar inclusos no intervalo de classes, existindo uma simbologia própria dentro da estatística para expressar isso. Vejamos exemplos possíveis a partir da tabela 4.1 acima: • 20|–|22: diz-se que é um intervalo fechado, pois tanto o 20 quanto o 22 participam do intervalo; 25 • 22–|24: diz-se que este é um intervalo aberto, já que o limite inferior, 22, não participa do intervalo, ao passo que o limite superior participa do intervalo; 57 Unidade II •-20|–22: caso o exemplo se apresentasse assim, teríamos um intervalo de classe aberto, já que o limite inferior participa do intervalo, mas o limite superior não participa do intervalo; 5 •-20 – 22: aqui teríamos um intervalo de classe aberto, em que nem o limite inferior, nem o limite superior participam do intervalo. Após o cálculo do número de classes e da amplitude de classes, devemos definir os limites inferior e superior de cada 10 classe, começando com o menor valor, ou, no caso de dados fracionais, com um inteiro logo abaixo do menor valor. No nosso exemplo, podemos calcular as classes da seguinte forma: 15 20 •-para a primeira classe: – limite inferior: 20; – limite superior: 20 + amplitude de classe = 20 + 2 = 22. •-para a segunda classe: – limite inferior: limite superior da classe anterior = 22; – limite superior: limite inferior da segunda classe + amplitude de classe = 22 + 2 = 24. E assim sucessivamente até a classe de número 10, no nosso exemplo, que terá como limite inferior 38 e como limite superior 40. É importante frisar que determinado valor não pode pertencer a mais de uma classe, mas, por outro lado, para 25 cada valor deve haver uma classe, não permitindo a existência de lacunas na fixação destas mesmas classes. Uma vez definido o número de classes e a amplitude total, a partir delas podemos estabelecer a amplitude de classes, e podemos também definir os limites superior e inferior de 30 cada classe; resta agora confrontar as nossas classes com as observações de que dispomos na tabela 4.2. 58 ESTATÍSTICA Mediante contagem, devemos construir nossa distribuição de frequência, fixando cada observação numa classe determinada. Quando indicamos o número de observações existentes em um dado intervalo, temos a chamada frequência absoluta simples (fi). 5 A frequência absoluta é o número de vezes em que o dado aparece naquele determinado conjunto de números. É importante destacar que nenhuma classe poderá apresentar frequência absoluta igual a zero. Assim, uma primeira construção que podemos fazer nos leva à tabela 4.1, só que agora colocaremos a notação estatística trabalhada até aqui. Então, temos: Tabela 4.3 Distribuição de frequência das idades Classes Frequência absoluta simples 20 |— 22 8 22 |— 24 10 24 |— 26 12 26 |— 28 20 28 |— 30 17 30 |— 32 15 32 |— 34 9 34 |— 36 5 36 |— 38 3 38 |— 40 1 ∑ 100 É importante ressaltar que na construção da distribuição de frequências acima, uma vez que determinado valor tenha sido incluso em determinado intervalo de classes, não deverá ser incluso em um outro. Daí a razão pela qual temos intervalos em que o limite inferior está incluído, pois ele corresponde ao 15 mesmo valor do limite superior da classe anterior, portanto, o referido valor provavelmente já deve ter sido alocado numa classe anterior. Por exemplo, na tabela 4.2 temos a observação 10 59 Unidade II do dado “22” que se repete três vezes, e que será incluso no primeiro intervalo de classes. Mas esse valor não deverá ser incluso novamente no segundo intervalo de classes. A seguir, devemos calcular as frequências absolutas 5 simples acumuladas (fi, R). Frequência absoluta simples acumulada indica o número de observações acumuladas até o limite superior de uma classe. Por exemplo, na terceira classe, teríamos trinta alunos com idade entre 20 e 26 anos se formando em serviço social. Vejamos como ficaria a nova tabela, incluindo a nova notação da frequência acumulada: Tabela 4.4 Classes 10 60 Frequência absoluta simples (ƒi ) Frequência absoluta simples acumulada (ƒi , 20 |— 22 8 8 22 |— 24 10 18 24 |— 26 12 30 26 |— 28 20 50 28 |— 30 17 67 30 |— 32 15 82 32 |— 34 9 91 34 |— 36 5 96 36 |— 38 3 99 38 |— 40 1 100 ∑ 100 A) Um outro dado importante que podemos extrair da construção de uma distribuição de frequências é a frequência relativa simples (fi, R). Frequência relativa simples nos mostra a participação relativa do número de observações em uma dada classe, e deverá ser calculada da seguinte forma: fi ,R = fi ∑ fi , geralmente expressa em percentual. ESTATÍSTICA A soma das frequências relativas de todas as classes será igual a 1, se expressa em forma fracionária, ou a 100% se expressa em percentual. No caso da distribuição de frequências que estamos construindo, temos agora a seguinte tabela: Classes ƒi 20 |— 22 22 |— 24 24 |— 26 26 |— 28 28 |— 30 30 |— 32 32 |— 34 34 |— 36 36 |— 38 38 |— 40 8 10 12 20 17 15 9 5 3 1 100 ∑ Tabela 4.5 ƒi , A 8 18 30 50 67 82 91 96 99 100 ƒi , R 0,08 0,10 0,12 0,20 0,17 0,15 0,09 0,05 0,03 0,01 1 4.2 A construção de uma distribuição de frequências para dados discretos 5 Numa distribuição de frequência de dados contínuos, os valores individuais sofrem uma perda de identidade uma vez agrupados em classes, o que gera a perda de uma certa quantidade de informações. Isto ficará claro ao calcularmos a média aritmética em uma distribuição de frequência e 10 compararmos o resultado ao obtido mediante o cálculo dos dados individualmente, até mesmo no exemplo que demos neste módulo. Os resultados não serão os mesmos, considerando esta perda de informação. Dependendo do tipo de dados e dos objetivos do observador, 15 esse fenômeno pode ou não ocorrer numa distribuição de frequência com dados discretos. Quando não há perda de informação, é possível que os dados originais sejam reconstituídos a partir da tabela de distribuição de frequência com dados discretos. No caso de dados contínuos, isso não é 20 possível. 61 Unidade II Essencialmente, não existem diferenças substanciais entre uma distribuição de frequência com dados contínuos e uma com dados discretos. Os cálculos das frequências acumuladas e relativas são feitos da mesma forma, bem como os cálculos das 5 medidas de posição e variabilidade. 4.3 Representação gráfica de dados agrupados Como já mencionado na Unidade I, a confecção de gráficos permite uma melhor visualização dos dados, mostrando mais claramente as diferenças existentes. Os gráficos mais comuns são o gráfico de setor, de coluna ou de barra e o gráfico de curva. O 10 tipo de gráfico a ser utilizado depende do que se deseja enfatizar. Assim, o gráfico de coluna ou de barra mostra diferenças entre os valores absolutos, o gráfico de curva é utilizado quando se deseja mostrar variações ao longo do tempo, e o gráfico de setor, também conhecido como “gráfico de pizza”, é utilizado quando 15 se deseja ressaltar diferenças entre proporções. Esses gráficos podem ser facilmente feitos em planilhas eletrônicas, como, por exemplo, o Excel. No caso de dados agrupados, ou de distribuições de frequência, a representação gráfica utilizada é o histograma, 20 ou, ainda, o polígono de frequência. Reforçando os conceitos: 25 •-histograma: é a representação gráfica de uma distribuição de frequência por meio de retângulos justapostos em que a base colocada no eixo horizontal corresponde aos intervalos de classe e a altura é proporcional à frequência das classes. 30 •-polígono de frequências: é a representação gráfica de uma distribuição de frequência por meio de um polígono. Cada vértice do polígono tem como abscissa o ponto médio de classe e como ordenada proporcional à frequência dessa classe. 62 Distribuição de frequências é uma técnica para apresentar uma coleção de objetos classificados de modo a mostrar o número existente em cada classe. Mais ainda do que a técnica de apresentar cotações, é importante considerar a possibilidade de apresentar distribuições especiais, tal como no caso da distribuição de frequências de probabilidades e de frequências de amostragens. ESTATÍSTICA Exemplo: salários de funcionários de uma determinada empresa: Intervalos Salários Freq. Freq. acum. 15750 |-- 29000 29000 238 238 29000 |-- 42250 42250 144 382 42250 |-- 55500 55500 35 417 55500 |-- 68750 68750 29 446 68750 |-- 82000 82000 16 462 82000 |-- 95250 95250 6 468 95250 |-- 108500 108500 4 472 108500 |-- 121750 121750 1 473 121750 |-- 135000 135000 0 473 Histograma 250 200 150 100 50 0| 42 00 29 15 75 0| –2 90 0 –4 0 25 225 0 0 55 |– 5 50 55 00 0 68 |– 6 75 87 0 | 50 82 – 82 00 0 0 | 00 95 – 9 2 5 10 50 |– 250 85 00 108 12 |– 500 17 12 50 17 |– 50 13 50 00 0 Polígono de frequência 250 200 150 100 50 0 15750 29000 42250 55500 68750 82000 95250 108500 121750 |– |– |– |– |– |– |– |– |– 29000 42250 55500 68750 82000 95250 108500 121750 135000 63 Unidade II Vamos ressaltar novamente: Estatística descritiva é o nome dado ao conjunto de técnicas analíticas utilizadas para resumir o conjunto de todos os dados coletados numa dada investigação a relativamente poucos números e gráficos. Ela envolve basicamente: • distribuição de frequência: é o conjunto das frequências relativas observadas para um dado fenômeno estudado, sendo a sua representação gráfica o histograma (diagrama em que o eixo horizontal representa faixas de valores da variável aleatória e o eixo vertical representa a frequência relativa). Por uma consequência da Lei dos Grandes Números, quanto maior o tamanho da amostra, mais a distribuição de frequência tende para a distribuição de probabilidade. Frequência relativa (%) Histograma 50 40 30 20 10 0 A B C D E Faixa da variável aleatória • medidas da tendência central: são indicadores que permitem que se tenha uma primeira ideia, um resumo de como se distribuem os dados de um experimento, informando o valor (ou faixa de valores) da variável aleatória que ocorre mais tipicamente. Ao todo, são três parâmetros: - média: é a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada um resumo da distribuição como um todo; - moda: é o evento ou categoria de eventos que ocorreu com maior frequência, indicando o valor ou categoria mais provável; 64 ESTATÍSTICA - mediana: é o valor da variável aleatória a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo. Frequência relativa (%) Histograma 50 40 30 20 10 0 Tendência central A B C D E Faixa da variável aleatória • medidas de dispersão: são medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem identificar até que ponto os resultados se concentram ou não ao redor da tendência central de um conjunto de observações. Incluem a amplitude, o desvio médio, a variância, o desvio padrão, o erro padrão e o coeficiente de variação, cada um expressando diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório têm de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração, e vice-versa). Frequência relativa (%) Histograma 50 40 30 20 10 0 Dispersão A B C D E Faixa da variável aleatória A ideia básica é a de se estabelecer uma descrição dos dados relativos a cada uma das variáveis, dados esses levantados através de uma amostra. 65 Unidade II Façamos alguns exemplos para tornar as definições e suas aplicações técnicas mais claras. Exemplo 1: em uma pesquisa feita para detectar o número de filhos de empregados de uma multinacional, foram encontrados 5 os seguintes valores: 1 5 2 4 4 3 2 2 2 5 5 1 3 0 4 2 3 2 0 2 1 3 4 3 2 2 4 1 3 2 Responda as questões abaixo, para x=2 e x=4. 10 Solução • Rol (dados em ordem crescente): 0 2 3 0 2 3 1 2 4 1 2 4 1 2 4 1 2 4 2 3 4 2 3 5 2 3 5 2 3 5 • Tabela de distribuição de frequências: 15 X F fr f% F↓ F↑ F%↓ F%↑ 0 2 0,067 6,7 2 30 6,7 100 1 4 0,133 13,3 6 28 20 93,3 2 10 0,333 33,3 16 24 53,3 80 3 6 0,2 20 22 14 73,3 46,7 4 5 0,167 16,7 27 8 90 26,7 5 3 0,1 10 30 3 100 10 Total 30 1 100 - - - - • Algumas considerações ou conclusões: --Quantos empregados têm “x” filhos? A resposta é dada através de f (frequência absoluta simples). 66 ESTATÍSTICA --Quantos empregados têm menos de “x” filhos? A resposta é dada através de F↓� (frequência absoluta acumulada “abaixo de”). 5 --Quantos empregados têm mais de “x” filhos? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”). --Quantos empregados têm “x” filhos ou menos? A resposta é dada através de F↓ (frequência absoluta acumulada “abaixo de”). 10 --Quantos empregados têm “x” filhos ou mais? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”). Exemplo 2: um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 15 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Os dados são os seguintes: 20 1,51 1,69 1,67 1,46 1,76 1,66 1,52 1,65 1,22 1,60 1,72 1,62 1,36 1,66 1,58 1,22 1,23 1,56 1,96 1,43 1,90 1,54 1,68 1,54 1,43 1,66 1,26 1,59 1,65 1,47 1,73 1,69 1,51 1,47 1,47 1,40 1,68 1,43 1,15 1,31 1,52 1,86 1,61 1,49 2,18 1,89 2,29 1,57 1,73 1,08 1,80 1,46 1,47 1,58 1,33 1,55 1,81 1,33 1,53 2,00 2,34 1,86 1,52 1,38 1,83 1,60 1,58 1,66 1,75 1,40 1,56 1,50 1,59 1,37 1,71 1,57 1,86 1,83 1,46 1,49 1,40 1,44 1,83 2,02 1,26 1,43 1,51 1,57 1,66 1,73 1,90 1,31 1,44 1,51 1,58 1,66 1,75 1,96 1,33 1,46 1,52 1,58 1,66 1,76 2,00 1,33 1,46 1,52 1,58 1,66 1,80 2,02 1,36 1,46 1,52 1,59 1,67 1,81 2,18 1,37 1,47 1,53 1,59 1,68 1,86 2,29 1,38 1,47 1,54 1,60 1,68 1,86 2,34 Solução 25 30 •-Rol (dados em ordem crescente): 1,08 1,15 1,22 1,22 1,23 1,40 1,40 1,40 1,43 1,43 1,47 1,47 1,49 1,49 1,50 1,54 1,55 1,56 1,56 1,57 1,62 1,65 1,65 1,60 1,61 1,69 1,69 1,71 1,72 1,73 1,86 1,86 1,86 1,86 1,89 67 Unidade II • Amplitude total (dá uma ideia do campo de variação dos dados): A = LS - LI = (2,34) - (1,08) = 1,26 Analisando-se a quantidade de creatinina encontrada na 5 urina dos 84 pacientes, verificou-se que ocorreu a variação de 1,26 no seu campo (de 1,08 a 2,34). • Estabelecer o número de classes (c): c = 1 + (3,3333.....).log(n) = 1 + (3,3333....).log(84) = 7,414 c = 7. 10 • Estabelecer o intervalo de classe (i): i = A / c = (1,26) / 7 = 0,18. • Construção da tabela: Classes Pm fi fr f% f%↓ f%↑ F↓ F↑ 1,08 |- 1,26 5 1,17 0,059 5,9 5,9 100 5 84 1,26 |- 1,44 13 1,35 0,155 15,5 21,4 94,1 18 79 1,44 |- 1,62 32 1,53 0,381 38,1 59,5 78,6 50 66 1,62 |- 1,80 18 1,71 0,214 21,4 80,9 40,5 68 34 1,80 |- 1,98 11 1,89 0,131 13,1 94,0 19,1 79 16 1,98 |- 2,16 2 2,07 0,024 2,4 96,4 6,0 81 5 2,16 |- 2,34 3 2,25 0,036 3,6 100 3,6 84 3 Total 84 - 1 - - - - 100 Observações 15 1) O melhor valor para representar cada classe é o ponto médio (Pm), o qual se obtém pela fórmula Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2. 68 ESTATÍSTICA 2) fi: número de elementos de cada classe; fr: mede o quanto cada valor significa em relação à unidade; f%: mede o quanto cada valor significa com relação a 100. 5 3) 1,08 |- 1,26 intervalo fechado à esquerda (pertencem à classe valores iguais ao extremo inferior) e aberto à direita (não pertencem à classe valores iguais ao extremo superior). 4) não necessariamente o último número será o limite superior da última classe, mas obrigatoriamente as classes devem conter todos os elementos. 10 •-Algumas considerações ou conclusões: --Quantos pacientes têm quantidade de creatinina no intervalo de “x”? A resposta é dada através de f (frequência absoluta simples). Ex.: Quantos pacientes têm quantidade de creatinina no intervalo [1,44; 1,62)? R.: 32 pacientes. 15 --Quantos pacientes têm quantidade de creatinina inferior ao intervalo “x”? A resposta é dada através de F↓ (frequência absoluta acumulada “abaixo de”). Ex.: Quantos pacientes têm quantidade de creatinina inferior ao intervalo [1,80; 1,98)? R.: 68 pacientes. 20 --Quantos pacientes têm quantidade de creatinina superior ao intervalo “x”? A resposta é dada através de F↑ (frequência absoluta acumulada “acima de”). Ex.: Quantos pacientes têm quantidade de creatinina superior ao intervalo [1,80; 1,98)? R.: 5 pacientes. 25 Atenção: para dados agrupados ou distribuição de frequências. •-Elementos principais: --classe: é cada um dos intervalos em que os dados são agrupados; 69 Unidade II --limites de classes: são os valores extremos de cada classe: • li = limite inferior de uma classe; • Li = limite superior de uma classe; 5 --amplitude: é a diferença entre o maior valor e o menor valor de certo conjunto de dados. Pode ser referida ao total de dados ou a uma das classes em particular: • amplitude total (At): é calculada pela seguinte expressão: 10 At = Max. (rol) – Min.(rol); • amplitude das classes (h): é a relação entre a amplitude total e o número de classes, conforme mostra a expressão a seguir: Máx(rol) − Mín(rol) , onde n é o número de intervalos de n classe; h= 15 --ponto médio de classe (xi): é calculado pela seguinte expressão: xi = 20 Li + li ; 2 --frequência absoluta (fi): frequência absoluta de uma classe de ordem i é o número de dados que pertencem a essa classe; --frequência relativa (fri): frequência relativa de uma classe de ordem i é o quociente da frequência absoluta dessa classe (fi) pelo total, ou seja, 70 ESTATÍSTICA fi . Total Obs.: a soma de todas as frequências absolutas é igual ao total. fri = 5 --frequência acumulada (Fi): frequência acumulada de uma classe de ordem i, é a soma das frequências até a classe de ordem i; --frequência relativa acumulada (Fri): frequência relativa acumulada de uma classe de ordem i, é a soma das frequências relativas até a classe de ordem i. 5 AS MEDIDAS DE POSIÇÃO E VARIABILIDADE EM UMA DISTRIBUIÇÃO DE FREQUÊNCIA 10 Vamos agora usar os conhecimentos obtidos no módulo 4 para aprender a calcular as medidas de posição e variabilidade em uma distribuição de frequência. Ao longo deste módulo, continuaremos utilizando o mesmo exemplo que trabalhamos no módulo 4, da distribuição de 15 frequência das idades dos alunos formandos em serviço social de uma Universidade fictícia AB. Idade de 100 estudantes formandos do curso de serviço social de uma Universidade AB em dez/2008 Idade Número de estudantes 20 a 22 8 22 a 24 10 24 a 26 12 26 a 28 20 28 a 30 17 30 a 32 15 32 a 34 9 34 a 36 5 36 a 38 3 38 a 40 1 Total = 100 71 Unidade II Podemos, ao longo deste módulo, aproveitar uma série de informações que construímos a partir dos dados brutos que tínhamos no módulo 4, tal como disposto na tabela abaixo, e, partindo destas informações, construir as medidas de posição e 5 variabilidade para uma distribuição de frequência. Tabela 5.1 Classes ƒi ƒi, A ƒi, R 20 |- 22 8 8 0,08 22 |- 24 10 18 0,10 24 |- 26 12 30 0,12 26 |- 28 20 50 0,20 28 |- 30 17 67 0,17 30 |- 32 15 82 0,15 32 |- 34 9 91 0,09 34 |- 36 5 96 0,05 36 |- 38 3 99 0,03 38 |- 40 1 100 0,01 Σ 100 1 5.1 As medidas de posição 5.1.1 A média No módulo 2, como trabalhávamos com um conjunto de dados pequeno, para calcular a média deste grupo de números, era necessário organizá-los em um rol, identificar os valores de xi, fazer o somatório e então calcular a média a partir da fórmula 10 apresentada. No entanto, quando temos uma distribuição de frequências, nem sempre dispomos dos valores de todas as observações, ou a amostra é, por vezes, tão grande que não é viável fazer o cálculo da mesma maneira que fazemos quando os dados estão 15 dispostos em um rol. Geralmente, quando estamos diante de uma distribuição de frequência, o que dispomos é do número 72 ESTATÍSTICA de observações em cada classe, mas não dispomos dos valores em si de xi. Portanto, as observações em uma dada distribuição de frequência serão representadas pelo ponto médio de cada classe. A fórmula para o cálculo do ponto médio será: 5 Pmedio = Xi = Limiteinf erior + Limitesup erior 2 Para o cálculo da média aritmética usase uma fórmula que deriva da fórmula de cálculo da média ponderada para determinar a média de uma distribuição de frequência; substituem-se os pesos pelas frequências de classes, e xi pelo ponto médio, representado por Xi. Assim, temos que a média, numa distribuição de frequências, é: x= ∑ fiXi , onde n x : média aritmética da distribuição de frequência; ƒi: frequência absoluta simples; Xi : ponto médio de cada classe; n : número de observações. No nosso exemplo de distribuição de frequência das 10 idades, podemos calcular a média a partir da construção de uma nova tabela: Tabela 5.2 Classes ƒi ƒi, A ƒi, R Xi ƒi, Xi 20 |- 22 8 8 0,08 21 168 22 |- 24 10 18 0,10 23 230 24 |- 26 12 30 0,12 25 300 26 |- 28 20 50 0,20 27 540 28 |- 30 17 67 0,17 29 493 30 |- 32 15 82 0,15 31 465 32 |- 34 9 91 0,09 33 297 34 |- 36 5 96 0,05 35 175 36 |- 38 3 99 0,03 37 111 38 |- 40 1 100 0,01 39 39 Σ 100 1 2818 73 Unidade II Calculando a média aritmética para o exemplo, onde n = 100, temos, então: x= ∑ fiXi n (8.21) + (10.23) + (12.25) + (20.27) + (17.29) + (15.31) + (9.33) + (5.35) + (3.37) + 39 x= 100 168 + 230 + 300 + 540 + 493 + 465 + 297 + 175 + 111 + 39 2818 5 x= = 100 100 x = 28,18. A idade média dos estudantes de serviço social da Universidade AB que se formaram no ano de 2008 seria de 28,18 anos de acordo com a distribuição de frequência aqui 10 construída. 5.1.2 A mediana Em uma distribuição de frequências de uma variável contínua, devem-se seguir alguns passos para calcular a mediana. Como vimos também no módulo 2, a mediana é o elemento que ocupa a posição central num determinado conjunto de dados ordenados. Da mesma forma que nos dados organizados em um rol, precisamos primeiro identificar a posição da mediana. O primeiro n 15 passo é calcular a ordem , e parte-se para a frequência 2 acumulada para identificar a classe que contém a mediana. Feito isto, utiliza-se a seguinte fórmula para o cálculo da mediana: n ( − ∑ f ).h ~ x = MD + 2 inferior da classe da mediana; MD: limite n F n : tamanhoMD da amostra; ( − ∑ f ).h ~ onde: x = MD + 2 ∑ƒ: soma das frequências anteriores à da mediana; FMD h : amplitude da classe da mediana; FMD: frequência da classe da mediana. Para a distribuição de frequência, temos que seguir estes 20 passos para calcular a mediana. 74 ESTATÍSTICA No exemplo anterior, calcular: n 100 = = 50 ; 2 2 • identificar a classe da mediana a partir da frequência acumulada, procurando descobrir onde a observação de número 50 está alocada. No nosso exemplo, ela estará na quarta classe, que possui limite inferior de 26 e limite superior de 28; • primeiro calculamos 5 • calcular a mediana através de: n ( − ∑ ƒ ).h ~ x = MD + 2 , onde MD = 26; n = 100; ∑ ƒ = 30;FMD = 20 FMD 10 ~ x = 26 + (50 − 30).2 = 26 + 2 20 ~ x = 28. A mediana de nossa distribuição de frequência será 28 anos, ou seja, 50% dos alunos que se formaram em serviço social nesta Universidade AB têm, no máximo, 28 anos. 5.1.3 A moda 15 Depois disso aplica-se a chamada fórmula de Czuber, descrita abaixo, para o cálculo da moda, que nos dirá qual a observação mais frequente daquela distribuição. O cálculo da moda será: Para calcular a moda, é preciso identificar o intervalo de classes de maior frequência, pois é nele que ela se encontra. Mod : valor da moda; L1: limite inferior da classe modal; D1: diferença entre a frequência da classe modal D Mod = L1 + ( 1 ).h , onde e a frequência da classe anterior; D1+D2 D2 diferença entre a frequência da classe modal e a frequência da classe posterior; h: amplitude de classe. 75 Unidade II Calculemos então a moda para a nossa distribuição de frequência das idades dos alunos de serviço social da Universidade AB que se formaram em 2008. A classe modal será a quarta classe, pois é aquela que apresenta a maior frequência. Temos, então: 5 (20 − 12) Mod = 26 + .2 20 12 20 17 − + − ( ) ( ) 16 8 Mod = 26 + .2 = 26 + = 27, 5 11 8+3 A moda seria, portanto, de 27,5 anos, o que significa que a maior quantidade de alunos formando-se no curso de serviço social desta universidade fictícia teria 27,5 anos. 5.2 As medidas de dispersão numa distribuição de frequência 5.2.1 O desvio médio 10 No caso de uma distribuição de frequência, esta diferença será calculada da seguinte forma: Dmedio = ∑ Xi − x .fi , onde n Dmédio: desvio médio absoluto; Xi: ponto médio de cada classe; x: média da distribuição de frequência; ƒi: frequência absoluta; n: total de observações. No nosso exemplo, temos, então: Tabela 5.3 Classes ƒi 20 |- 22 8 ƒi, Xi Xi - x |x - x |. ƒ 8 0,08 21 168 -7,18 57,44 i i 22 |- 24 10 18 0,10 23 230 -5,18 51,8 24 |- 26 12 30 0,12 25 300 -3,18 38,16 26 |- 28 20 50 0,20 27 540 -1,18 23,6 28 |- 30 17 67 0,17 29 493 0,82 13,94 30 |- 32 15 82 0,15 31 465 2,82 42,3 32 |- 34 9 91 0,09 33 297 4,82 43,38 34 |- 36 5 96 0,05 35 175 6,82 34,1 36 |- 38 3 99 0,03 37 111 8,82 26,46 38 |- 40 1 100 0,01 39 39 10,82 10,82 Σ 100 �� 76 Xi ƒi, A ƒi, R 1 Recapitulando o módulo 3, o desvio médio indica a diferença entre cada observação e a média aritmética de um determinado conjunto de dados. 2818 342 ESTATÍSTICA Dmedio = Dmedio = ∑ Xi − x .fi n 342 = 3, 42 100 Logo, o desvio médio de nossa distribuição de frequência será de 3,42. A média, a diferença da idade de cada formando em relação 5 à média aritmética da distribuição das idades será de 3,42. 5.2.2 Variância Como vimos no módulo 3, a variância também é uma medida de dispersão que tem a média como ponto de referência. Quando se trata de uma distribuição de frequência de dados populacionais, temos: 10 σ2 = ∑ 2 ( Xi − µ) fi N onde: A variância nos indica o grau de variabilidade de uma determinada distribuição de frequência com relação a sua média aritmética. σ2: variância populacional; Xi: ponto médio de cada classe; µ: média populacional; ƒi: frequência absoluta simples; N: tamanho da população. Para o caso da variância de valores amostrais, devemos usar: s2 = ∑ ( Xi − x)2 fi n −1 onde: s2: variância amostral; Xi: ponto médio de cada classe; x: média aritmética amostral; ƒi: frequência absoluta simples; n: total de observações da amostra. No caso da distribuição de frequência das idades, é preciso 15 acrescentar mais duas colunas à tabela para calcular, no nosso exemplo, a variância amostral: 77 Unidade II ∑ ( Xi − x)2 fi s2 = n −1 Tabela 5.4 Classes ƒi ƒi, A ƒi, R Xi ƒi, Xi Xi - x |x - x |. ƒ (Xi - x)2 (Xi - x)2 ƒi 20 |- 22 8 8 0,08 21 168 -7,18 57,44 51,5524 412,42 22 |- 24 10 18 0,10 23 230 -5,18 51,8 26,8324 268,32 24 |- 26 12 30 0,12 25 300 -3,18 38,16 10,1124 121,35 26 |- 28 20 50 0,20 27 540 -1,18 23,6 1,3924 27,85 28 |- 30 17 67 0,17 29 493 0,82 13,94 0,6724 11,43 30 |- 32 15 82 0,15 31 465 2,82 42,3 7,9524 119,28 32 |- 34 9 91 0,09 33 297 4,82 43,38 23,2324 209,09 34 |- 36 5 96 0,05 35 175 6,82 34,1 46,5124 232,56 36 |- 38 3 99 0,03 37 111 8,82 26,46 77,7924 233,38 38 |- 40 1 100 0,01 39 39 10,82 10,82 117,0724 117,07 Σ 100 �� 1 2818 Assim, temos: s2 = 1752, 25 = 17, 60 . 100 − 1 Logo, a variância amostral de nosso exemplo é 17,60. 5.2.3 Desvio padrão 5 Para calcular o desvio padrão, basta extrair a raiz quadrada do valor da variância, seja ela variância populacional ou variância amostral: σ = σ2 . Já o desvio padrão amostral será dado como segue: 10 78 s = s2 . i i 342 1752,25 ESTATÍSTICA No exemplo acima, o nosso desvio padrão seria, então: s = 17, 60 = 4,1952 . Exemplo 1: consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de 5 filhos do sexo masculino: Nº de meninos (xi) ƒi 0 2 (0-2,3)=-2,3 (-2,3)2=5,29 2(5,29)=10,58 1 6 (1-2,3)=-1,3 (-1,3)2=1,69 6(1,69)=10,14 2 10 (2-2,3)=-0,3 (-0,3)2= 0,09 10(0,09)=0,9 3 12 (3-2,3)=0,7 (0,7)2= 0,49 12(0,49)=5,88 4 4 (4-2,3)=1,7 (1,7)2=2,89 4(2,89)=11,56 (xi - x) Σƒ = 34 i ƒi(xi - x)2 (xi - x)2 Σƒ (x - x) = 39,06 i i 2 Lembrando: em estatística, um histograma é uma representação gráfica da distribuição de frequências de um conjunto de medições, normalmente um gráfico de barras verticais. O histograma é um gráfico composto por retângulos justapostos, e a base de cada um deles corresponde ao intervalo de classe e a sua altura à respectiva frequência. Quando o número de dados aumenta indefinidamente e o intervalo de classe tende a zero, a distribuição de frequência passa para uma distribuição de densidade de probabilidades. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Pode indicar se uma distribuição aproxima-se de uma função normal, como pode indicar mistura de populações quando se apresentam bimodais. Informações técnicas sobre como elaborar um histograma, bem como sua interpretação, são encontradas em literaturas clássicas de estatística. Calcule a amplitude, o desvio padrão (S), a variância (S2) e o coeficiente de variação (cv). Solução Amplitude: 10 R= 4 – 0 = 4 meninos, ou seja, a maior variação encontrada neste conjunto de dados é de quatro meninos. Obs.: sabemos que a média para este conjunto de dados é x = 2,3 filhos. 79 Unidade II Desvio padrão: n s= ∑ ƒi(xi − x)2 i=1 n −1 = ƒ1( x1 − x )2 + ƒ2 ( x2 − x )2 + ... + ƒn( xn − x )2 = n −1 = 2(0 − 2, 3)2 + 6(1 − 2, 3)2 + 10(2 − 2, 3)2 + 12(3 − 2, 3)2 + 4(4 − 2, 3)2 = 34 − 1 = 2( −2, 3)2 + 6( −1, 3)2 + 10( −0, 3)2 + 12(0, 7)2 + 4(17 , )2 = 33 5 = 2(5, 29) + 6(1, 69) + 10(0, 09) + 12(0, 49) + 4(2, 89) = 33 = 10, 58 + 10,14 + 0, 9 + 5, 88 + 11, 56 = 33 = 39, 06 = 11836 , ≅ 1, 088 ≅ 1 filho , 33 ou seja, o número médio de filhos homens por família de quatro filhos é de 2,3, com uma variabilidade de, 10 aproximadamente, um filho, ou seja, a maior parte das famílias com quatro filhos têm entre 2,3 + 1 = (1,3 e 3,3) ≅ (1 e 3) filhos homens. Variância: S2 = (S)2 = (1,008)2 ≅ 1,1837 (filhos homens)2. 15 Coeficiente de variação: S 1, 088 = ≅ 0, 4730 , ou seja, existe uma variabilidade 2, 3 x de 47,30% dos dados em relação à média (variabilidade alta). cv = 80 ESTATÍSTICA Exemplo 2: considere a seguinte distribuição de frequência referente aos salários de operários de uma determinada fábrica: Custos R$ Classes de fr. Pm (xi) ƒi (xi - x) (xi - x)2 ƒi(xi - x)2 450 |- 550 500 8 (500-754,68)=-254,68 (-254,68)2 = 64861,90 8(64861,90)= 518895,2 550 |- 650 600 10 (600-754,68)=-154,68 (-154,68)2 = 23925,90 10(23925,90)=239259,0 650 |- 750 700 11 (700-754,68)=-54,68 (-54,68)2 = 2989,90 11(2989,90)=32888,9 750 |- 850 800 16 (800-754,68)=45,32 (45,32)2 = 2053,90 16(2053,90)=32862,4 850 |- 950 900 13 (900-754,68)=145,32 (145,32)2 = 21117,90 13(21117,90)=274532,7 950 |- 1050 1000 5 (1000-754,68)=245,32 (245,32)2 = 60181,90 5(60181,90)=300909,5 1050 |- 1150 1100 1 (1100-754,68)=345,32 (345,32)2 = 119245,90 1(119245,90)=119245,9 Total 64 Σƒ (x - x) = 1518593,6 i i 2 Calcule a amplitude, o desvio padrão (S), a variância (S2) e o 5 coeficiente de variação (cv). Solução Amplitude: R= 1150 – 450 = 700, ou seja, a maior diferença existente entre os salários dos 10 operários desta determinada fábrica é de R$ 700,00. Obs.: sabemos que a média para este conjunto de dados é x = 754,69 reais. 81 Unidade II Desvio padrão: n s= = ∑ ƒi(xi − x)2 i=1 n −1 = ƒ1( x1 − x )2 + ƒ2 ( x2 − x )2 + ... + ƒn( xn − x )2 = n −1 8(500 − 754, 68)2 + 10(600 − 754, 68)2 + 11700 ( − 754, 68)2 + 16(800 − 754, 68)2 + 13(900 − 754, 68)2 + 5(1000 − 754, 68)2 + 11100 ( − 754, 68)2 = 64 − 1 8( −254, 68)2 + 10( −154, 68)2 + 11( −54, 68)2 + 16(45, 32)2 + 13(145, 32)2 + 5(245, 32)2 + 1345 ( , 32)2 = = 63 ( , 90) + 16(2053, 90) + 13(21227, 90) + 5(60181, 90) + 1119245 ( , 90) 5 = 8(64861, 90) + 10(23925, 90) + 112989 = 63 = 518895, 2 + 239259, 0 + 32888, 90 + 32862, 40 + 274532, 70 + 300909, 5 + 119245, 90 1518593, 60 ≅ = 63 63 = 24104, 66 ≅ 155, 26 (reais) , ou seja, a média dos salários é de R$754,68, com uma variabilidade de aproximadamente R$155,26, ou seja, a maior 10 parte dos operários recebe entre 754,68 + 155,26 = (599,42 e 909,94) reais. Variância: S2 = (S)2 = (155,26)2 ≅ 24104,66 (reais)2. Coeficiente de variação: 15 82 S 155, 26 = ≅ 0, 2057 , ou seja, existe uma variabilidade x 754, 68 de 20,57% dos dados em relação à média. cv = ESTATÍSTICA 6 CORRELAÇÃO E REGRESSÃO LINEAR 6.1 Introdução Após uma coleta de dados referentes a duas ou mais variáveis para uma mesma amostra, é comum tentar estabelecer uma relação matemática entre estas variáveis. Deve-se então proceder à avaliação da existência de associação entre estas 5 duas características quantitativas: Se duas variáveis quantitativas variam juntas, diz-se que as mesmas estão correlacionadas. Tecnicamente, o pesquisador parte de hipóteses sobre o estudo em questão; por exemplo: Existe associação entre a quantidade de chumbo presente na água e o volume de dejetos despejados em determinado rio? O nível de pressão arterial está relacionado à idade das pessoas? Qual a relação entre o consumo de bens e a inflação? Exemplos de dados correlacionados: • idade e altura das crianças; 10 • tempo de prática de esportes e ritmo cardíaco; • tempo de estudo e nota na prova; • taxa de desemprego e taxa de criminalidade; • expectativa de vida e taxa de analfabetismo. A primeira providência para se determinar a relação é construir 15 um gráfico em um sistema de coordenadas retangulares, obtendo então o que normalmente é chamado de diagrama de dispersão. Pelo diagrama, muitas vezes, é possível visualizar a curva que melhor se aproxima dos pontos da distribuição. Tomemos por exemplo as distribuições abaixo: a) 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 83 Unidade II b) 5 4 3 2 1 -1 0 -0,5 0 -1 0,5 1 1,5 2 2,5 3 3,5 4 2,5 3 3,5 4 x 2,5 3 -2 c) y 11 10 9 8 7 6 5 4 3 2 1 0 -1,5 -1 -0,5 -1 0 0,5 -2 1 1,5 2 d) y 6,0 5,0 4,0 3,0 2,0 1,0 0,0 84 0 0,5 1 1,5 2 3,5 4 x ESTATÍSTICA Através da matemática, pode-se reconhecer que, nestes gráficos: a) não há previsão da curva aproximada; b) a curva aproximada é uma parábola (y = ax2 + bx + c); 5 c) a curva aproximada é uma reta (y = ax + b); d) a curva aproximada é uma hipérbole (y = a/x + b). O processo de ajustamento de uma distribuição de variáveis a uma curva é denominado regressão. A relação matemática entre as variáveis pode ser obtida em função de x ou em função de y. 10 A equação de y em função de x, y = f(x) é denominada equação de regressão de y sobre x, e a equação de x em função de y, x = f(y) é denominada equação de regressão de x sobre y. É aconselhável obter as duas equações e verificar qual delas é a de melhor ajuste. 15 As duas formas também são interessantes quando se deseja interpolar, isto é, dado um valor (fora da tabela) de x, calcular o valor de y a ele associado ou, quando dado um valor de y (fora da tabela), determinar um valor de x associado a ele. Tendo em vista os objetivos deste curso, analisaremos apenas 20 a regressão linear usando o método dos mínimos quadrados. 6.2 Coeficientes de correlação entre duas variáveis A avaliação quantitativa do ajuste das variáveis à equação de uma curva se faz por um número, entre -1 e 1, denominado coeficiente de correlação. Este coeficiente indica o grau em que as duas variáveis se ajustam segundo uma equação matemática. 25 Definição: sejam x e y duas variáveis pesquisadas e y = f(x) a equação ajustada ao conjunto de valores obtidos para x e y. 85 Unidade II Define-se o coeficiente de correlação R entre as duas variáveis por: R= ∑( y esp − y )2 ∑( y − y )2 Onde: ∑(yesp - y) denomina-se variação esperada; 5 ∑(y - y) denomina-se variação total; yesp são os valores de y calculados a partir da relação matemática determinada para as duas variáveis, e y é a média dos valores tabelados para y. A expressão acima pode também ser escrita na forma: 10 R2 = (variação esperada)/(variação total). Os valores de R pertencem sempre ao intervalo [-1, 1]. Se R = 1 ou R = -1, as variáveis apresentam uma correlação perfeita. À medida que R se aproxima de zero por valores menores ou maiores que zero, as variáveis não apresentam 15 correlação. Entretanto, é bom não confundir correlação com dependência. Duas grandezas podem ter um ótimo grau de correlação (próximo de –1 ou de + 1) e não apresentar nenhuma dependência. Neste caso, a equação de regressão 20 não tem nenhuma validade. Tomando, por exemplo, as variáveis X = eleitores que escolheram um candidato, A e Y = eleitores fumantes selecionados em uma mesma amostra, a tabela amostral pode apresentar um alto grau de correlação, mas, provavelmente, 25 as duas variáveis não apresentam nenhuma relação de dependência. 86 ESTATÍSTICA 6.3 Coeficiente de correlação linear A definição do coeficiente de correlação apresentada no item anterior pode ser usada para qualquer curva de regressão. Entretanto, no seu uso, é necessário determinar a equação dessa curva antes de calcular o coeficiente. 5 No caso específico de uma regressão linear, outras fórmulas podem ser usadas. Entre elas, destacamos a fórmula de Pearson, que é dada por R= n∑ xy − ∑ x ∑ y [n∑ x − (∑ x ) ].[ n∑ y − ( ∑ y ) ] 2 2 2 2 , onde n é o número de pares de observações. 10 Os limites de R são –1 e +1, ou seja –1 < R < 1, R pertence ao intervalo [-1, +1]. Se: R = +1, a correlação linear entre X e Y é perfeita positiva. R = -1, a correlação linear entre X e Y é perfeita negativa. 15 R = 0, não existe correlação linear entre X e Y. Geralmente, estabelece-se uma classificação para a intensidade da correlação linear, ou seja, qual é a qualidade do ajuste dos dados à reta de regressão. A classificação é assim constituída: 20 0 < | R | < 0,3, correlação muito fraca, provavelmente a relação matemática se afasta dos dados. 0,3 < | R | < 0,6, correlação relativamente fraca. 0,6 < | R | < 1, dados fortemente correlacionados. 87 Unidade II A tabela a seguir mostra os dados coletados para as variáveis x e y, bem como os elementos necessários para o cálculo do coeficiente de correlação linear. x Somas r= y x*y x^2 y^2 1 3 3 1 9 2 4,8 9,6 4 23,04 3 7,1 21,3 9 50,41 4 9 36 16 81 5 10,9 54,5 25 118,8 6 13,2 79,2 36 174,2 21 48,0 203,6 91 456,50 n=6 6 * 203, 6 − 21 * 48 (6 * 91 − 21 * 21) * (6 * 456, 5 − 48, 48) = 0,999452 O valor do coeficiente de correlação linear é r = 0,999452. Como r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente correlacionadas. Ou seja, a reta de regressão linear terá declividade positiva e apresentará um bom ajuste ao conjunto de pontos da tabela. 10 Regressão linear 5 O processo de regressão linear consiste em determinar a equação da reta que melhor se ajusta ao conjunto de pontos de uma distribuição. No processo de regressão linear, é aconselhável expressar: 15 20 88 • y em função de x, obtendo uma equação do tipo y = ax + b. Nesse caso, x é a variável independente e y é a variável dependente, isto é, y é estimado em função de x. A equação obtida é denominada equação de regressão de y sobre x. Usa-se essa equação quando se deseja obter valores de y que correspondem a valores de x não ESTATÍSTICA constantes da tabela (interpolação – valores no intervalo da tabela e extrapolação – valores fora do intervalo da tabela); • x em função de y obtendo uma equação do tipo x = cy + d. Para essa equação, y é a variável independente, e x, a variável dependente. Deve ser usada quando se quer determinar valores de x, quando são dados valores de y que não constam na tabela. A equação obtida é denominada equação de regressão de x sobre y. 5 10 Pode-se demonstrar que a reta, y = ax + b, que melhor se ajusta a uma distribuição de valores x e y é tal que: a= n( ∑ xy ) − ( ∑ x ).( ∑ y ) b= n( ∑ x2 ) − ( ∑ x )2 ( ∑ y ).( ∑ x2 ) − ( ∑ x ).( ∑ xy ) . n.( ∑ x2 ) − ( ∑ x )2 Para obter a equação de x em função de y, x = cy + d, as expressões são semelhantes. Basta trocar x por y e y por x nas 15 expressões anteriores. Este método é de grande valia na interpretação dos dados estatísticos obtidos, além de possibilitar, dentro das hipóteses estabelecidas para o assunto, uma previsão inicial de comportamentos futuros. 20 Exemplo: determinar a equação da reta que melhor se ajusta aos pontos da tabela: x y 1,0 3,01 2,1 5,21 3,0 7,01 3,5 8,01 3,8 8,61 3,9 8,81 4,0 9,01 6,0 13,01 89 Unidade II Completando a tabela com os valores necessários para os cálculos de a e de b, temos: x Somas y x^2 y^2 xy 1,0 3,01 1,00 9,0601 3,010 2,1 5,21 4,41 27,1441 10,941 3,0 7,01 9,00 49,1401 21,030 3,5 8,01 12,25 64,1601 28,035 3,8 8,61 14,44 74,1321 32,718 3,9 8,81 15,21 77,6161 34,359 4,0 9,01 16,00 81,1801 36,040 6,0 13,01 36,00 169,2601 78,060 27,30 62,68 108,31 551,6928 244,193 Calculando a e b, com n = 8 = números de pares: 5 a = (8*244,193 – 27,30*62,68)/(8*108,31 – 27,302) = 2. b = (62,68*108,31 – 27,30*244,193)/(8*108,31 – 27,302) = 1,01. Assim, a reta de regressão de y sobre x é y = 2x + 1,01. 6.4 Na prática É interessante observar trabalhos publicados utilizando o método em serviços sociais. Dois exemplos são apontados neste 10 trabalho. 1. Associação do índice CPO-D com indicadores socioeconômicos e de provisão de serviços odontológicos no Estado do Paraná, Brasil Baldani,Márcia Helena Vasconcelos, Ana Glória Godói Antunes, José Leopoldo Ferreira Disponível em: <http://www.scielo.br/scielo.php?script=sci_ arttext&pid=S0102-311X2004000100030>. Este estudo ecológico investigou as associações entre cárie 15 dentária, indicadores socioeconômicos e de oferta de serviços 90 ESTATÍSTICA odontológicos no Estado do Paraná, Brasil, para o ano de 1996. Dois tipos de informações foram reunidos: 1) dados sobre prevalência de cárie dentária (CPO-D aos 12 anos) para os municípios do Estado; 2) dados relativos às condições socioeconômicas e de oferta de 5 serviços odontológicos. Com base em análise de regressão linear simples demonstrou-se correlação significativa entre o índice de cárie dentária nos municípios e os vários indicadores sociais e de oferta de serviços. Resultados da análise de regressão linear múltipla apontaram que apenas um indicador de desigualdade 10 de renda permaneceu significativamente associado com cárie dentária, demonstrando que as piores condições de saúde bucal não podem ser dissociadas das disparidades de renda. Observou-se correlação negativa significativa entre o CPO-D e a proporção de população que recebe água fluorada, principalmente nos 15 municípios com piores indicadores de desigualdade de renda. Nesse sentido, sublinha-se a importância desse benefício não só como recurso para a redução dos níveis de cárie, como também para atenuar o impacto das desigualdades socioeconômicas sobre a prevalência de cárie dentária. 20 2. Homicídios e desigualdades sociais no Município de São Paulo Procure mais artigos em livros, revistas e endereços eletrônicos! Veja como esta ferramenta traz efetivamente resultados a sua escolha profissional. Vilma Pinheiro Gawryszewski1; Luciana Scarlazzari Costa2 Revista Saúde Pública vol.39 no.2 São Paulo Apr. 2005 A relação entre renda e mortalidade por violência vem sendo estudada nos últimos anos. A Síntese de Indicadores Sociais 2002, lançada pelo IBGE, refere que o traço mais marcante da 25 sociedade brasileira é a desigualdade. O propósito do estudo é testar a associação entre as taxas de homicídios e alguns indicadores de saúde e socioeconômicos. Estudo ecológico, de corte transversal. Foram analisados dados do Município de São Paulo, ano 2000, quanto a coeficientes 30 de homicídios e cinco indicadores: taxa de mortalidade infantil, renda média do chefe de família, percentual de adolescentes Secretaria de Saúde do Estado de São Paulo. São Paulo, SP, Brasil. Departamento de Epidemiologia. Faculdade de Saúde Pública. Universidade de São Paulo. São Paulo, SP, Brasil. 1 2 91 Unidade II de 15 a 17 anos que não frequentavam a escola, percentual de adolescentes grávidas de 14 a 17 anos e densidade demográfica. Para testar essas associações foram utilizados o coeficiente de correlação de Pearson e a regressão linear múltipla. 5 O coeficiente de homicídios foi 57,3/100.000. A correlação entre taxas de homicídios e renda média foi negativa e forte (r=-0,65). Maiores coeficientes foram encontrados nos distritos com menor renda e menores naqueles com maiores rendas. Para o percentual de adolescentes que não frequentavam a 10 escola (r=0,68) e para o percentual de adolescentes grávidas (r=0,67) a associação encontrada foi positiva e forte. Para a taxa de mortalidade infantil a correlação encontrada foi r=0,24 (para todos p<0,05). A densidade demográfica não apresentou correlação significativa com o coeficiente de homicídios. Na 15 análise de regressão linear múltipla foram significativas somente as variáveis renda média (negativa), trabalhada com o seu logaritmo e percentual de adolescentes que não frequentavam a escola (positiva) (para ambos indicadores: p<0,01). Os achados apontam para o problema dos homicídios e sua 20 relação com as disparidades socioeconômicas do Município de São Paulo. O desenvolvimento econômico e a redução das iniquidades podem ter impacto nas taxas de mortalidade violenta. Referências bibliográficas BRUNI, A. L. Estatística aplicada à gestão empresarial. 2. ed. São Paulo: Atlas, 2008. CRESPO, A. A. Estatística fácil. 19. ed. São Paulo: Saraiva, 2009. DOWNING, D. ; CLARK, J. Estatística aplicada. São Paulo: Saraiva, 2000. 92