Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Estatística descritiva e análise exploratória de dados 1 Conceitos fundamentais 1.1 População e amostra Como em todas as ciências, em Estatística utiliza-se uma linguagem própria. Para se falar e escrever sobre Estatística tem-se necessidade de conhecer o significado de certos termos como: população, amostra, variável estatística, etc. Muitos dos termos utilizados em Estatística são também utilizados no dia-a-dia mas com significado diferente. Considere-se o seguinte exemplo. Exemplo 1.1. Um empresário de uma fábrica de fósforos tinha necessidade de fazer um controlo de qualidade dos fósforos produzidos pela sua fábrica num mês. Naturalmente não ia acender todos os fósforos produzidos para saber se eram de boa qualidade. Retirava um número significativo de fósforos que iria utilizar e depois tirava conclusões acerca da totalidade de fósforos produzidos. Nesta situação, os fósforos produzidos no mês constituíam a população e os que foram utilizados para testar a qualidade dos mesmos constituíam a amostra. Em estatística, população é um conjunto de elementos com qualquer característica em comum e com interesse para o estudo, por exemplo: • Os resultados de lançar uma moeda ao ar um número indefinido de vezes; • Os habitantes de Lisboa maiores de 18 anos; As populações podem ser finitas ou infinitas, consoante seja finito ou infinito o número de elementos que as compõem e podem também ser reais (população das idades dos alunos que frequentam determinado curso de desporto em 2002) ou hipotéticas (conjunto dos resultados obtidos com o sucessivo lançamento de uma moeda). Dá-se o nome de unidades estatísticas (ou indivíduos) aos elementos que compõem a população. As propriedades de uma população ou variáveis, são as características comuns aos seus elementos. Por exemplo, relativamente à população de C. Fernandes & P. Ramos • A população ser infinita; • Economia de dinheiro; • Economia de tempo; • Comodidade; • Testes destrutivos. • Os peixes de um lago. Estatística descritiva e análise exploratória de dados famílias portuguesas, pode estar-se interessado nas seguintes propriedades: rendimento mensal, número de filhos, despesas mensais com a habitação, etc. Cada estudo estatístico é feito para atingir determinado objectivo. Dependendo do objectivo do estudo, vai observar-se cada unidade estatística em relação a uma ou mais variáveis. As variáveis observadas podem ser qualitativas ou quantitativas. Variáveis qualitativas são aquelas que estão relacionados com uma qualidade e apresentam-se com várias modalidades. Chamamos modalidades às diversas situações possíveis em que se pode encontrar uma unidade estatística quanto a dado atributo. Por exemplo o sexo pode ser feminino ou masculino, o estado civil pode ser casado ou solteiro, etc. As variáveis quantitativas são aquelas a que é possível atribuir uma medida. Por exemplo, o número de golos ou de faltas durante um jogo de futebol. A amostra é um subconjunto finito da população que se supõe representativo desta. Chamamos dado estatístico ao resultado da observação de uma variável qualitativa ou quantitativa. A utilização de uma amostra e não da população num estudo estatístico deve-se, pelo menos, a uma das seguintes razões: O sucesso de um estudo estatístico, baseado no estudo de uma amostra, depende da escolha desta. Uma amostra mal escolhida conduz a conclusões erradas. 1.2 Censo e sondagem Num censo ou recenseamento são observados todos os indivíduos da população relativamente aos diferentes atributos que estão a ser objecto do estudo estatístico. Em 2001 e em 2011, o Governo mandou realizar um censo. As vantagens da obtenção de resultados por este processo são, acima de tudo, de segurança 1/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 2/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística nas conclusões. O Governo para tomar medidas acertadas necessita conhecer com rigor as necessidades dos cidadãos sobre habitação, escolas, hospitais, energia, etc. Por isso, em Portugal se realizam censos de 10 em 10 anos. A alternativa ao censo é a sondagem. Numa sondagem, o estudo estatístico baseia-se numa parte da população, isto é, numa amostra que deve ser representativa dessa população. A realização de sondagens é tão habitual nas sociedades actuais que podemos dizer que elas se relacionam, em maior ou menor grau, com a vida da generalidade das pessoas. Recorrendo a empresas especializadas, os partidos políticos encomendam sondagens para estimar o número de votantes; as empresas promovem sondagens para prever o número de compradores dos seus produtos e os investigadores efectuam sondagens para avaliar o impacto social das suas descobertas. A economia de meios, a comodidade, a rapidez e o pequeno número de elementos que pode ser necessário destruir constituem vantagens das sondagens comparativamente com os censos. A grande dificuldade em obter resultados de confiança, a partir de sondagens, reside na necessidade de utilizar amostras representativas da população, o que nem sempre é fácil de se conseguir. na amostra. Esta característica inferencial desta estatística faz com que ela seja designada por estatística inferencial e aproxima-se do objectivo fundamental das ciências em geral ao generalizar resultados a universos cada vez mais vastos. A esta inferência está associada um certo grau de incerteza. A probabilidade é a medida dessa incerteza. Avaliado o grau de incerteza, caminhar do particular para o geral passa a ser um risco calculado. 1.3 Nota 1.1. Há variáveis, como a idade, que podem ser consideradas contínuas ou discretas. Se se considerar a idade um número inteiro de anos, trata-se de uma variável discreta. Se se considerar, simplesmente, a idade de uma pessoa, ela é uma variável contínua. Estatística descritiva e estatística indutiva A estatística descritiva tem por finalidade descrever certas propriedades relativas a um conjunto de dados. Depois de efectuadas as observações fica-se na posse de um conjunto caótico de dados, o que naturalmente dificulta a obtenção de conclusões. É perante esta desordem que a estatística descritiva revela a importância e interesse das suas técnicas, ao permitir classificar esses dados e deles fornecendo características sumárias. Este processo de reunir a informação contida nos dados com base num pequeno número de valores característicos é conhecido por processo de redução de dados. Obviamente que no processo de redução dos dados há informações que se perdem, o que destaca a escolha acertada dos valores característicos. Naturalmente, os métodos descritivos, enquanto meios que permitem ordenar a “desordem” e sintetizar a diversidade das informações contidas nos dados, podem aplicar-se quer à população quer à amostra. Tal aplicabilidade pode ser explicada, apesar das diferentes dimensões da população e da amostra, pelo carácter semelhante dos seus elementos. Já no caso da estatística indutiva ou inferência estatística a situação é diferente. Neste caso trata-se de generalizar os resultados obtidos à custa de um conjunto de elementos a um outro conjunto mais numeroso. A estatística indutiva procura inferir propriedades da população a partir de propriedades Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 3/45 1.4 Variável discreta e variável contínua Quando as variáveis estatísticas são quantitativas, podem dividir-se ainda em dois grupos: • Variáveis estatísticas discretas (só podem tomar um número finito ou infinidade numerável de valores). Por exemplo, o número de golos numa jornada na 1a liga; • Variáveis estatísticas contínuas (podem tomar qualquer valor dentro de um intervalo). Por exemplo, os tempos numa corrida de fórmula 1. Nota 1.2. Embora as variáveis quantitativas se classifiquem em contínuas e discretas, na prática funcionam como discretas, pois os instrumentos de medida utilizados não permitem obter todos os valores de um intervalo. Os dados podem ser expressos em vários tipos de escalas. As mais frequentes são as seguintes: • Escala binária: esta escala é usada em características com apenas dois estados possíveis, por exemplo, macho/ fêmea, presente/ausente, etc. • Escala nominal: esta escala é usada em características que apresentam mais de dois estados. Cada estado designa uma classe. As classes devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente exclusivas (cada dado pertence a uma só classe) e não ordenáveis (não existe nenhum critério relevante que permite estabelecer preferência por qualquer classe em relação às restantes). Por exemplo, cor dos olhos, marcas de reagentes, etc. Estas classes podem ser designadas, em particular, por números. Neste caso, para que a escala seja nominal, Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 4/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística não se poderá estabelecer qualquer relação de ordem entre tais números. Por exemplo, classificação dos consumidores pelo sexo: 0 (feminino) ou 1 (masculino). • Escala ordinal: esta escala ordena numa sequência lógica os vários estados (classes) que a característica pode assumir mas sem que exista qualquer implicação das distâncias entre eles. A ordenação é feita segundo algum critério relevante. Por exemplo, classificações de um teste: mau, medíocre, suficiente, bom ou muito bom. • Escala intervalar: esta escala não só ordena os valores que a característica pode assumir como permite estabelecer distâncias entre os diferentes pontos da escala, sendo necessária a existência de uma unidade de medida constante. A origem é, no entanto, arbitrária, por exemplo, a temperatura, a altitude, etc. • Escala absoluta: esta escala é como a escala intervalar só que além de uma unidade de medida constante, a origem é fixa, zero significa nada. Por exemplo, a concentração de dióxido de carbono, altura, etc. Podemos considerar que os três primeiros tipos de escalas correspondem a características qualitativas enquanto que nos dois últimos estão incluídas as características quantitativas. 2 Organização e apresentação dos dados 2.1 Fases do método estatístico Num estudo estatístico, normalmente, segue-se um conjunto de passos que se designam por fases do método estatístico: • Definição do problema: a primeira fase consiste na definição e formulação correcta do problema a ser estudado; • Planificação: definido o problema, é preciso determinar um processo para o resolver e, em especial, como obter informações sobre a variável em estudo. É nesta fase que se decide pela observação de toda a população ou de uma amostra; • Recolha de dados: os dados podem ser recolhidos através de: – observação; C. Fernandes & P. Ramos – pesquisa bibliográfica. • Organização dos dados: há duas formas de apresentação que não se excluem mutuamente: – apresentação por tabelas; – apresentação por gráficos. • Análise e interpretação dos dados: nesta fase calculam-se novos números com base nos dados estatísticos. Estes novos números permitem fazer uma descrição do fenómeno evidenciando algumas das suas características particulares. 2.2 Distribuição de frequências Dá-se o nome de distribuição de frequências ao conjunto de todos os valores de uma variável estatística com as correspondentes frequências: absolutas (número de vezes que esse valor foi observado) ou relativas (quociente entre a frequência absoluta da variável e o número total de observações). A sua disposição prática é designada por quadro de frequências. Exemplo 2.1. Foram examinados 100 lotes de 50 peças produzidas por uma máquina, para verificação do número de peças defeituosas por lote. Os resultados apresentam-se no seguinte quadro de frequências absolutas: Número de peças defeituosas por lote 0 1 2 3 4 5 6 Total Número de lotes (Frequências absolutas) 3 11 21 30 23 7 5 100 A distribuição de frequências pode ser unidimensional, bidimensional, tridimensional, etc., consoante a variável estatística seja de uma, duas, três, etc. dimensões. No Exemplo 2.1, a distribuição é unidimensional. – questionários; Estatística descritiva e análise exploratória de dados – experimentação; 5/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 6/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Podemos distinguir dois tipos de distribuições de frequências: • de valores da variável agrupados por frequência; • de valores da variável agrupados em intervalos de classe. Utilizam-se as distribuições de valores da variável agrupados por frequência quando o número de valores que toma a variável é pequeno. O procedimento está indicado principalmente para variáveis discretas, como é o caso do Exemplo 2.1. Empregam-se as distribuições de valores da variável agrupados em intervalos de classe quando o número de valores assumidos pela variável é grande ou quando se trata de variáveis contínuas. As distribuições de frequências podem classificar-se ainda em ordinárias e acumuladas. Nas distribuições ordinárias, a cada valor ou classe de valores da variável corresponde a sua frequência; nas distribuições de frequências acumuladas, a cada valor ou classe de valores da variável corresponde a sua frequência mais a de todos os valores, ou classes de valores, anteriores (ou posteriores). Exemplo 2.2. Utilizando os mesmos dados apresentados no Exemplo 2.1, tem-se a distribuição de valores da variável agrupados: Valor da variável 0 1 2 3 4 5 6 Total Frequências absolutas Ordinárias Acumuladas ` ˘ pFi q Fi 3 3 11 14 21 35 30 65 23 88 7 95 5 100 100 Frequências relativas Ordinárias Acumuladas ` ˘ pfi q fi 0,03 0,03 0,11 0,14 0,21 0,35 0,30 0,65 0,23 0,88 0,07 0,95 0,05 1,00 1,00 Classes de valores r0; 3r r3; 5r r5; 6s Total Frequências absolutas Ordinárias Acumuladas ` ˘ pFi q Fi 35 35 53 88 12 100 100 Frequências relativas Ordinárias Acumuladas ` ˘ pfi q fi 0,35 0,35 0,53 0,88 0,12 1,00 1,00 Neste caso de distribuição de frequências devemos considerar outros elementos e conceitos além dos mencionados anteriormente. O intervalo de variação da variável X é o intervalo que contém todos os valores da variável X, isto é, I “ rmin txi u ; max txi us. Classes são intervalos (intervalos de classe) cuja reunião contém o intervalo de variação da variável observada. Se considerarmos k intervalos de classe, I1 , I2 , . . . , Ik , então para que a arrumação dos valores observados nas diferentes classes seja feita sem ambiguidade, os intervalos devem ser disjuntos, isto é, i ‰ j ñ Ii XIj “ tu, e para que não figurem valores por classificar, I Ď I1 Y I2 Y ¨ ¨ ¨ Y Ik . Podemos então considerar, I1 “ rl1 ; l2 r , I2 “ rl2 ; l3 r , . . . , Ik “ rlk ; lk`1 s , onde, l1 ă l2 ă ¨ ¨ ¨ ă lk ă lk`1 , l1 ď min txi u e lk`1 ě max txi u. A amplitude da classe é dada por aj “ lj`1 ´ lj . O centro da classe Ij é o ponto médio do intervalo, isto é, xj “ O número k de classes: lj`1 `lj . 2 • deve depender do número n de observações efectuadas; • não deve ser tão elevado que sobressaiam irregularidades acidentais devido ao pequeno número de indivíduos por classe; • não deve ser tão pequeno que conduza a uma perda de informação. Agrupando, por exemplo, os valores da variável nas classes r0; 3r, r3; 5r e r5; 6s, obtém-se a distribuição de valores da variável agrupados em intervalos de classe: Para determinar o número k de classes a tomar, não há regras fixas. Iremos usar a seguinte regra: " k “?5 , se n ă 25 , k » n , se n ě 25 para amostras de pequenas dimensões. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 7/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 8/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Para amostras grandes deve usar-se a fórmula de Sturges: Fi fi “ Fi n x1 F1 rl2 ; l3 r .. . x2 .. . F2 .. . F 1 “ F1 F 2 “ F1 ` F2 .. . f1 “ F1 n F2 n rlk ; lk`1 s xk Fk n fk “ Fk n k “ 1 ` tlog2 nu “ 1 ` t3, 322 ˆ log10 nu, log10 n “ log10 2 1 “ 1` log10 n “ log10 2 Total “ 1 ` 3, 322 log10 n, onde tyu é a parte inteira de y. Em alternativa, podemos usar o menor número natural k tal que 2k ě n. Depois de determinado k e se as classes tiverem amplitude constante temos que, lk`1 ´ l1 ai “ “ amplitude de cada classe. k Sempre que possível, é vantajoso que os intervalos de classes possuam a mesma amplitude, a fim de que seja mais sugestiva a comparação das frequências de cada classe. De acordo com o exposto, o quadro de frequências para uma distribuição unidimensional de valores agrupados apresenta o aspecto seguinte: Fi Fi x1 F1 x2 .. . F2 .. . F 1 “ F1 F 2 “ F1 ` F2 .. . f1 “ Fi n F1 n F2 n xk Fk n Fk n Total n fk “ fi “ f2 “ .. . 2.3 2.3.1 f2 “ .. . fi f 1 “ f1 f 2 “ f1 ` f2 .. . 1 1 n Análise gráfica das distribuições de frequência de valores agrupados Gráficos de linhas de frequências ordinárias Para o construir um gráfico de linhas ou polígono de frequências basta representar no eixo horizontal os valores da variável estatística xi e no eixo vertical os correspondentes valores das frequências absolutas ou relativas. Depois de representados os pontos pxi , frequênciaq, obtém-se o gráfico de linhas unindo esses pontos por segmentos de recta. Um gráfico de linhas de frequências absolutas ou relativas tem então a seguinte forma: fi f 1 “ f1 Frequências X das classes rl1 ; l2 r dado que 1 ` log2 n “ 1 ` Ponto médio Fi X f 2 “ f1 ` f2 .. . 1 1 0 Valores da variável O quadro de frequências para uma distribuição de valores agrupados em intervalos de classe apresenta o aspecto seguinte: Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 9/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 10/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 2.3. Consideremos a variável que representa o número de pares de sapatos vendidos numa sapataria ao longo de uma semana, cuja distribuição é definida pela tabela seguinte: Fi 4 5 8 11 14 14 9 5 70 Um gráfico de barras de frequências absolutas ou relativas tem então a seguinte forma: fi 0,06 0,07 0,11 0,16 0,20 0,20 0,13 0,07 1,00 Frequências Xi 35 36 37 38 39 40 41 42 Total • as barras devem estar separadas umas das outras por espaços iguais. 0 Recorrendo a esta tabela podemos fazer o gráfico de linhas de frequência absoluta: Valores da variável Exemplo 2.4. Utilizando os dados apresentados no Exemplo 2.3, podemos representar o gráfico de barras de frequência absoluta: 16 Frequência absoluta Frequência absoluta 16 14 12 10 8 6 4 12 10 8 6 4 2 0 2 0 14 35 36 37 38 39 40 41 42 Tamanho dos sapatos 35 36 37 38 39 40 41 42 Tamanho dos sapatos Na construção do gráfico recorreu-se à frequência absoluta. No entanto, poderíamos igualmente recorrer à frequência relativa, obtendo-se: 2.3.2 Gráficos de barras de frequências ordinárias Frequência relativa No gráfico de barras a altura de cada barra traduz o valor da frequência absoluta ou relativa, respeitante a cada valor da variável. No eixo horizontal assinalam-se os valores possíveis da variável e no eixo vertical as frequências absolutas ou relativas. Na construção de um gráfico de barras deve atender-se a que: 0,2 0,1 0 • apenas uma das dimensões das barras varia; 35 36 37 38 39 40 41 42 Tamanho dos sapatos • a dimensão que varia corresponde às frequências dos valores da variável estatística; Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 11/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 12/45 2.3.3 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Frequência absoluta acumulada Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Gráficos de linhas de frequências acumuladas Frequências acumuladas Tal como se pode construir o gráfico de linhas de frequências absolutas e relativas, podemos, analogamente, construir o gráfico de linhas de frequências absolutas acumuladas ou relativas acumuladas. Um gráfico de linhas de frequências absolutas ou relativas acumuladas tem então a seguinte forma: 80 70 60 50 40 30 20 10 0 35 36 37 38 39 40 41 42 Tamanho dos sapatos 2.3.4 0 Gráficos de barras de frequências acumuladas Tal como construímos o gráfico de barras de frequências absolutas e relativas, podemos, analogamente, construir o gráfico de barras de frequências absolutas acumuladas ou relativas acumuladas. Um gráfico de barras de frequências absolutas ou relativas acumuladas tem então a seguinte forma: Valores da variável Fi Fi fi fi 35 36 37 38 39 40 41 42 Total 4 5 8 11 14 14 9 5 70 4 9 17 28 42 56 65 70 0,06 0,07 0,11 0,16 0,20 0,20 0,13 0,07 1,00 0,06 0,13 0,24 0,40 0,60 0,80 0,93 1,00 0 Valores da variável Exemplo 2.6. Utilizando os dados apresentados no Exemplo 2.5, podemos representar o gráfico de barras de frequência absoluta acumulada: Frequência absoluta acumulada Xi Frequências acumuladas Exemplo 2.5. Utilizando os dados apresentados no Exemplo 2.3, podemos calcular as frequências acumuladas: Recorrendo a esta tabela podemos fazer o gráfico de linhas de frequência absoluta acumulada: 80 70 60 50 40 30 20 10 0 35 36 37 38 39 40 41 42 Tamanho dos sapatos Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 13/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 14/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 2.4.1 Análise gráfica das distribuições de frequência de valores agrupados em intervalos de classe Frequência absoluta 2.4 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Histograma de frequências ordinárias No caso dos valores agrupados em intervalos de classe é muito frequente representar a distribuição através de um histograma. É um gráfico formado por rectângulos adjacentes em que a área dos rectângulos é proporcional às frequências ordinárias absolutas ou relativas. Se todos os intervalos tiverem a mesma amplitude, as alturas dos rectângulos serão proporcionais às frequências das classes e então, tomam-se as alturas numericamente iguais a essas frequências. Se os intervalos de classe não tiverem a mesma amplitude, essas alturas deverão ser ajustadas. Um histograma de frequências absolutas ou relativas tem então a seguinte forma: 4 3 2 1 1,75 1,83 1,91 1,99 2,07 2,15 Frequência relativa Altura/m 0,3 0,2 0,1 0 1,75 1,83 1,91 1,99 2,07 2,15 Altura/ m Classes Como os intervalos de classe são iguais, resulta imediatamente que as áreas dos rectângulos são proporcionais às respectivas frequências. Um histograma é construído marcando no eixo horizontal os intervalos de classe e no eixo vertical as respectivas frequências. Exemplo 2.7. Consideremos a variável que representa a altura no conjunto dos jogadores da equipa de basquetebol, cuja distribuição é definida pela tabela seguinte: Classes (altura em m) r1, 75; 1, 83r r1, 83; 1, 91r r1, 91; 1, 99r r1, 99; 2, 07r r2, 07; 2, 15s Total Fi 3 4 6 3 2 18 fi 0,17 0,22 0,33 0,17 0,11 1,00 Estatística descritiva e análise exploratória de dados Na construção de um histograma deve ter-se em conta que: • os dados devem estar agrupados em classes; • representa-se no eixo horizontal os intervalos de classe; • representa-se no eixo vertical as frequências das classes; • as barras são desenhadas verticalmente e não há qualquer espaço entre elas; • a área e cada uma das barras é proporcional à respectiva frequência. 2.4.2 Recorrendo agora aos intervalos de classe e às respectivas frequências absolutas e relativas, podemos construir os dois histogramas seguintes: C. Fernandes & P. Ramos 5 0 Frequências 0 6 15/45 Polígono de frequências ordinárias O polígono de frequências resulta da união sucessiva, através de segmentos de recta, dos pontos médios dos lados superiores dos diferentes rectângulos de um histograma, que correspondem aos pontos médios das classes. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 16/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Frequências Frequências acumuladas Um polígono de frequências absolutas ou relativas tem então a seguinte forma: 0 0 Frequência absoluta Exemplo 2.8. Utilizando os dados apresentados no Exemplo 2.7 e tendo em conta o histograma das frequências absolutas apresentado anteriormente, o polígono de frequências absolutas terá a forma: Exemplo 2.9. Utilizando os dados apresentados no Exemplo 2.7, podemos calcular as frequências acumuladas: Classes (altura em m) r1, 75; 1, 83r r1, 83; 1, 91r r1, 91; 1, 99r r1, 99; 2, 07r r2, 07; 2, 15s Total 6 5 4 3 2 1 0 Classes Classes Fi Fi fi fi 3 4 6 3 2 18 3 7 13 16 18 0,17 0,22 0,33 0,17 0,11 1,00 0,17 0,39 0,72 0,89 1,00 1,67 1,75 1,83 1,91 1,99 2,07 2,15 2,23 Altura/ m Recorrendo a esta tabela podemos fazer o histograma de frequências absolutas acumuladas: 2.4.3 Frequência absoluta acumulada Naturalmente, para construir o polígono de frequências não é necessário recorrer ao histograma. Basta determinar os pontos cujas abcissas correspondem aos pontos médios das classes e cujas ordenadas correspondem às frequências das respectivas classes e, em seguida, unir esses pontos por segmentos de recta. Histograma de frequências acumuladas Tal como construímos o histograma de frequências absolutas ou relativas, podemos, analogamente, construir o histograma de frequências absolutas acumuladas ou relativas acumuladas, considerando as frequências acumuladas de cada classe. Um histograma de frequências absolutas ou relativas acumuladas terá então a seguinte forma: Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 17/45 18 16 14 12 10 8 6 4 2 0 1,75 1,83 1,91 1,99 2,07 2,15 Altura/m Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 18/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 2.4.4 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3 Polígono de frequências acumuladas Sobre o histograma de frequências acumuladas pode definir-se o chamado polígono de frequências acumuladas, também chamado de ogiva de frequências, tal como se fez para o polígono de frequências. Um polígono de frequência acumulada terá então a seguinte forma: Medidas descritivas As medidas descritivas classificam-se em medidas de localização (de tendência central ou de tendência não central), de dispersão (ou de variabilidade), de assimetria e de achatamento (ou curtose). Frequências acumuladas 3.1 Medidas de localização de tendência central As medidas de localização (ou de tendência central) indicam os pontos em torno dos quais se encontram os valores da variável estatística, ou seja, localizam a distribuição. Por exemplo, as distribuições representadas pelas duas curvas do Exemplo 3.1 apresentam medidas de localização diferentes. Exemplo 3.1. 0 Classes No caso do polígono de frequências acumuladas, observe-se que à esquerda do limite inferior da primeira classe a frequência acumulada é zero, à direita da última classe é igual ao efectivo total n (1 no caso de se considerar a frequência relativa) e ao longo de cada classe aumenta proporcionalmente. 0 Frequência absoluta acumulada Exemplo 2.10. Utilizando os dados apresentados no Exemplo 2.9 e tendo em conta o histograma das frequências acumuladas apresentado anteriormente, o polígono de frequências absolutas acumuladas terá a forma: As medidas de localização que vamos estudar são: • Média; 18 16 • Mediana; 14 12 • Moda. 10 8 3.1.1 6 4 A média pxq da variável estatística X define-se por: 2 0 Média 1,75 1,83 1,91 1,99 2,07 2,15 x“ Altura/ m řk k Fi xi ÿ “ fi xi , n i“1 i“1 Nota 2.1. Normalmente quando se pretendem evidenciar as diferentes modalidades de uma variável qualitativa usam-se gráficos circulares, pictogramas ou gráficos de barras. ř com n “ ki“1 Fi , onde Fi representa cada uma das frequências absolutas, fi representa cada uma das frequências relativas e xi representa um valor da variável (se X é discreta e os dados estão agrupados) ou um ponto médio da classe (se X é contínua e os dados estão agrupados em intervalos de classe). Estatística descritiva e análise exploratória de dados Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 19/45 C. Fernandes & P. Ramos 20/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Dá-se o nome de desvio em relação à média à variável D “ X ´ x com di “ xi ´ x. No caso de dados não agrupados a média é dada por: řn xi x “ i“1 . n Exemplo 3.2. Considere os seguintes dados 70, 95, 85, 80, 130, 125, 135, 85, 90, 105. A média será: 70 ` 95 ` 85 ` 80 ` 130 ` 125 ` 135 ` 85 ` 90 ` 105 “ 100. x“ 10 3.1.2 Mediana Outra medida de localização muito empregada no estudo das distribuições de frequências é a mediana pMeq. É o valor que divide a distribuição de valores em duas partes iguais. Supondo que as observações dos valores da variável estatística estão ordenados sob forma crescente x1 ď x2 ď x3 ď ¨ ¨ ¨ ď xn , há a considerar duas hipóteses: • se n é ímpar: 2 • se n é par: Me “ Exemplo 3.3. Tomando a distribuição de frequências de valores, xi 0 3 5 7 9 11 13 Total vem x “ 1545 207 Fi 10 25 35 43 42 30 22 207 Me “ xp n`1 q ; onde xpiq é o i-ésimo valor observado na amostra ordenada. O cálculo da mediana pode ser efectuado através deste processo, quer os dados estejam não agrupados ou agrupados por frequência. Fi xi 0 75 175 301 378 330 286 1545 Exemplo 3.5. Considere os seguintes dados 3, 4, 4, 4, 5, 7, 8, 8, 8, 10. x `x A correspondente mediana é Me “ p5q 2 p6q “ 5`7 “ 6. 2 Exemplo 3.6. Considere os seguintes dados 3, 4, 4, 5, 6, 8, 8, 8, 10. A correspondente mediana é Me “ 6, ou utilizando os dados agrupados: “ 7, 46. Exemplo 3.4. Considerando um conjunto de dados agrupados em intervalos de classe, vem: Classes r0; 5r r5; 10r r10; 15s Total xi 2, 5 7, 5 12, 5 Fi 4 10 6 20 xp n q ` xp n `1q xp n q ` xp n`2 q 2 2 2 “ 2 ; 2 2 Fi xi 10 75 75 160 Tem-se n “ 9 e n`1 2 xi Fi Fi 3 1 1 4 2 3 5 1 4 6 1 5 8 3 8 10 1 9 “ 5 logo Me “ xp5q “ 6. Uma fórmula alternativa para obter a mediana é dada por: Tendo-se então x “ 160 20 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos Me “ p1 ´ kq xpiq ` kxpi`1q , “ 8. onde i “ ek“ xpiq é o i-ésimo valor observado na amostra ordenada e tyu é a parte inteira de y. t 21 n` 21 u 21/45 1 n` 12 ´i, 2 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 22/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 3.7. Considere os seguintes dados 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9, 9. Determine a mediana. Comecemos por determinar o valor de i “ t 12 ˆ 12 ` 12 u “ t6, 5u “ 6 e de k “ 21 ˆ 12 ` 12 ´ 6 “ 0, 5. Assim, a mediana é Me “ p1 ´ 0, 5q xp6q `0, 5xp7q “ 0, 5ˆ5`0, 5ˆ6 “ 5, 5. r3, 0; 3, 5r obtém-se a frequência acumulada 12, já superior a 10. Pode pois garantir-se que a mediana é um dos valores da classe r3, 0; 3, 5r (classe mediana). Logo, Me “ 3 ` 10´6 ˆ 0, 5 “ 3, 33. 6 No caso dos dados estarem agrupados por intervalos de classe, a mediana é o valor tal que a ordenada levantada no ponto do eixo das abcissas divide a área do histograma em duas partes iguais, isto é, a mediana será o valor n `da1 ˘abcissa a que corresponde a frequência absoluta (relativa) acumulada 2 , . 2 Obtém-se o valor da mediana através da seguinte fórmula: Me “ Li ` n 2 ´ F i´1 ˆ ai , FM e No caso de os dados se apresentarem através de um histograma de frequências acumuladas, pode usar-se um procedimento geométrico para determinar uma estimativa da mediana. Para tal, podemos recorrer ao procedimento gráfico seguinte: • começamos por construir o polígono de frequências absolutas (relativas) acumuladas; • marcamos no eixo vertical o valor n2 , para o caso de se considerarem as frequências absolutas, ou 0,5, para o caso de se considerarem as frequências relativas; • conduzimos por esse ponto do eixo vertical uma recta horizontal até intersectar o polígono de frequências acumuladas; onde: • Li - limite inferior da classe mediana; • conduzimos pelo ponto, assim definido no polígono de frequências acumuladas, uma recta vertical até intersectar o eixo horizontal. O ponto de intersecção da recta vertical com o eixo define a mediana procurada. • n - número de elementos da amostra; • F i´1 - frequência absoluta acumulada anterior à classe mediana; Exemplo 3.9. Utilizando os dados apresentados no Exemplo 3.8, podemos obter a mediana graficamente: • FM e - frequência absoluta da classe mediana; • ai - amplitude da classe mediana. Classes Fi Fi r2, 0; 2, 5r 2 2 4 6 r3, 0; 3, 5r 6 12 5 17 r2, 5; 3, 0r r3, 5; 4, 0r r4, 0; 4, 5s 3 15 10 5 2,0 2,5 3,0 Me 3,5 4,0 4,5 Peso / kg 20 Vamos determinar a mediana desta distribuição, procurando o peso do “ 10˝ bebé. Como pode observar-se, até à classe r2, 5; 3, 0r, inclusive, o total das frequências acumuladas é 6 e adicionando a frequência da classe Estatística descritiva e análise exploratória de dados 20 0 20 2 C. Fernandes & P. Ramos Frequênca absoluta acumulada Exemplo 3.8. Considerem-se os pesos, em kg, de 20 bebés à data do seu nascimento, cuja distribuição é dada pela tabela seguinte: 23/45 Observando o gráfico, conclui-se que a mediana é aproximadamente igual a 3,3 kg. A recta vertical conduzida pelo ponto do eixo Ox que tem por abcissa o valor da mediana divide o histograma em duas áreas iguais. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 24/45 Frequência absoluta Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • a perpendicular, baixada do ponto de intersecção das linhas obtidas anteriormente para o eixo das abcissas, determina, neste, a localização gráfica da moda. 6 5 4 A1 = A2 3 A1 2 Exemplo 3.10. A2 1 0 2,0 2,5 3,0 Me 3,5 4,0 4,5 70 Peso / kg Frequência 3.1.3 60 Moda Para um conjunto de dados não agrupados ou agrupados por frequência, sendo x1 ď x2 ď x3 ď ¨ ¨ ¨ ď xn os n valores de uma variável estatística, chama-se moda Mo ao valor que ocorre com mais frequência. Para dados agrupados em intervalos de classe, dá-se o nome de classe modal a qualquer classe cuja frequência não é inferior à das restantes classes (classe com maior frequência absoluta). Obtém-se o valor da moda através da seguinte fórmula: Mo “ Li ` ∆1 ˆ ai , ∆1 ` ∆2 onde: • ∆1 - excesso de frequência absoluta da classe modal sobre a imediatamente inferior; • ∆2 - excesso de frequência absoluta da classe modal sobre a imediatamente superior; 40 30 20 10 0 45 50 55 Mo 60 65 70 60 65 70 Consumo diário de leite em pó em gr Para um conjunto de dados pode existir mais do que uma moda, ou até nem existir moda. Se o conjunto de dados tiver duas modas, ele diz-se bimodal, no caso de ter mais do que duas modas, diz-se multimodal. Se o conjunto de dados não tiver moda, ele diz-se amodal. 3.1.4 • Li - limite inferior da classe modal; 50 Comparação entre Média, Mediana e Moda As distribuições de frequência podem ser simétricas ou não em relação a um eixo. No último caso, chamam-se assimétricas ou enviesadas. A posição relativa da média, mediana e moda dá informação sobre a curva da distribuição. Em distribuições simétricas unimodais, a média, a mediana e a moda têm o mesmo valor. • ai - amplitude da classe modal. No caso de os dados se apresentarem através de um histograma, pode usar-se um procedimento geométrico para determinar uma estimativa da moda. Para tal procede-se do seguinte modo: • determina-se a classe modal; Média = Mediana = Moda • unem-se os vértices superiores do rectângulo da classe modal com os vértices das classes contínuas; Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 25/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 26/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Numa distribuição assimétrica positiva, a média é maior do que a mediana e esta, geralmente (salvo casos extremos), maior do que a moda. onde xpiq é o i-ésimo valor observado na amostra ordenada, tyu é a parte inteira de y e 0 ă p ă 1. Uma outra fórmula para obter os quantis é dada por: Media na Média Mo da Qp “ p1 ´ kq xpiq ` kxpi`1q , Numa distribuição assimétrica negativa, a média é menor do que a mediana e esta, geralmente (salvo em casos extremos), menor do que a moda. onde i “ tnp ` 1 ´ pu, k “ np ` 1 ´ p ´ i, 0 ă p ă 1, xpiq é o i-ésimo valor observado na amostra ordenada e tyu é a parte inteira de y. A mediana corresponde ao quantil de ordem 21 . Os quartis correspondem aos quantis de ordem 14 , 42 e 34 . Os decis correspondem aos quantis de ordem 1 9 1 2 , 2 , 3 , . . . , 10 . Os percentis correspondem aos quantis de ordem 100 , 100 , 10 10 10 3 99 , . . . , . 100 100 O cálculo dos quantis pode ser efectuado através deste processo, quer os dados estejam não agrupados ou agrupados por frequência. 3.2.2 Quartis Vimos que a Mediana divide o conjunto de valores observados em duas partes iguais. O quartil é uma medida que divide o conjunto de valores observados em quatro partes iguais. Existem três quartis: Q1 , Q2 e Q3 : Média Mediana Moda • Q1 “ Q 1 - obtém-se determinando a mediana do conjunto de valores 4 observados que fica à esquerda da mediana; • Q2 “ Q 2 “ Q 1 - corresponde à mediana; 4 2 • Q3 “ Q 3 - obtém-se determinando a mediana do conjunto de valores 4 que fica à direita da mediana. 3.2 3.2.1 Medidas de localização de tendência não central Quantis Os quantis dividem os dados em grupos com igual número de observações. Os três principais quantis designam-se por quartis, decis e percentis. O quartil é uma medida que divide o conjunto de valores observados em quatro partes iguais, pelo que, temos três quartis. O decil divide o conjunto de valores observados em dez partes iguais, pelo que, temos nove decis. O percentil divide o conjunto de valores observados em cem partes iguais, pelo que, temos noventa e nove percentis. O quantil de ordem p, Qp , obtém-se da seguinte forma: " xpnpq `xpnp`1q , se np é inteiro 2 Qp “ , xptnpu`1q , se np não é inteiro Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 27/45 Sendo x1 , x2 , . . . , xn os n valores ordenados por ordem crescente de uma variável quantitativa e representando por Q1 , Q2 e Q3 o primeiro, segundo e terceiro quartis, respectivamente, Q1 x1 Q2 Me Q3 xn tem-se: • o primeiro quartil, Q1 “ Q 1 , é o valor que divide a sequência em 4 duas partes, de tal modo que, pelo menos, 14 ou 25% das observações sejam inferiores ou iguais a esse valor e 34 ou 75% das observações sejam superiores a esse valor; Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 28/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • o segundo quartil, Q2 “ Q 2 “ Q 1 , é o valor que divide a sequência 4 2 em duas partes iguais, de tal modo que, pelo menos, 21 ou 50% das observações sejam inferiores ou iguais a esse valor e 21 ou 50% das observações sejam superiores a esse valor; • o terceiro quartil, Q3 “ Q 3 , é o valor que divide a sequência em duas 4 partes, de tal modo que, pelo menos, 34 ou 75% das observações sejam inferiores ou iguais a esse valor e 41 ou 25% das observações sejam superiores a esse valor. Exemplo 3.11. Consideremos o conjunto de valores observados: 1, 4, 5, 6, 8, 9, 11, 14, 15, 18, 20. Determine os quartis. • Para p “ 1 4 • Para p “ 2 4 • Para p “ 3 4 vem np “ “ 1 2 “ 1 2 11 4 “ 2, 75 logo Q 1 “ xp3q “ 5; 4 vem np “ 11 2 “ 5, 5 logo Q 1 “ xp6q “ 9; vem np “ 33 4 “ 8, 25 logo Q 3 “ xp9q “ 15. • Para p “ 2 4 “ • Para p “ 11. 3 4 “ vem np “ 1 2 1 2 4 Para obter o segundo quartil (mediana), vamos começar por determinar o valor de i “ t 21 ˆ 12 ` 1 ´ 21 u “ t6, 5u “ 6 e de k “ 12 ˆ 12 ` 1 ´ 12 ´ 6 “ 0, 5. Assim, o segundo quartil é 2 Classes Fi Fi 0 10 10 Q 3 “ p1 ´ 0, 25q xp9q ` 0, 25xp10q “ 0, 75 ˆ 7 ` 0, 25 ˆ 8 “ 7, 25. 35 Exemplo 3.14. A tabela seguinte representa a distribuição do número de páginas de 25 livros escolares: 3 25 5 35 70 7 43 113 9 42 155 11 30 185 13 23 208 Total 208 4 Número de páginas por livro r175; 200r r200; 225r r225; 250r r250; 275r r275; 300s 208 4 “ 52 logo Q 1 “ vem np “ vem np “ 4 208 2 624 4 xp52q `xp53q 2 “ 104 logo Q 1 “ 2 4 “ 5`5 2 xp104q `xp105q 2 “ 156 logo Q 3 “ Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos Q 1 “ p1 ´ 0, 75q xp3q ` 0, 75xp4q “ 0, 25 ˆ 3 ` 0, 75 ˆ 4 “ 3, 75. Tal como fizemos nos casos anteriores, para obter o terceiro quartil, vamos começar por determinar o valor de i “ t 34 ˆ 12 ` 1 ´ 34 u “ t9, 25u “ 9 e de k “ 34 ˆ 12 ` 1 ´ 34 ´ 9 “ 0, 25. Assim, o terceiro quartil é 4 Determine os quartis. • Para p “ Exemplo 3.13. Considere os seguintes dados 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9, 9. Determine os quartis. Comecemos por determinar o primeiro quartil. Para este caso temos o valor de i “ t 41 ˆ 12 ` 1 ´ 14 u “ t3, 75u “ 3 e de k “ 41 ˆ 12 ` 1 ´ 14 ´ 3 “ 0, 75. Assim, o primeiro quartil é Q 1 “ Me “ p1 ´ 0, 5q xp6q ` 0, 5xp7q “ 0, 5 ˆ 5 ` 0, 5 ˆ 6 “ 5, 5. 2 Exemplo 3.12. Consideremos a distribuição de frequências de valores. 1 4 No exemplo que se segue iremos utilizar, para o cálculo dos quartis, a segunda fórmula apresentada. Localize graficamente cada um dos quartis. Para calcular os quartis começa-se por construir a tabela de frequências acumuladas. “ 5; “ xp156q `xp157q 2 7`7 2 “ Número de livros 3 5 8 7 2 “ 7; 11`11 2 “ 29/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 30/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Classes Fi Fi r175; 200r Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Tratando-se de dados agrupados em intervalos de classe, a fórmula para obter os quartis é idêntica à da mediana: F i p%q 3 3 r200; 225r 5 8 12 32 r225; 250r 8 16 64 r250; 275r 7 23 92 r275; 300s 2 25 100 Qc “ Li ` c n4 ´ F i´1 ˆ ai , Fi onde: • Li - limite inferior da classe que contém o quartil c; • c - toma os valores 1, 2 ou 3 para o primeiro, segundo e terceiro quartil, respectivamente; A observação da tabela permite identificar a classe a que pertence cada um dos quartis: • n - número de elementos da amostra; • Q 1 pertence à classe r200; 225r, pois F i (em %) toma aí o menor valor 4 igual ou superior a 25%; • F i´1 - frequência absoluta acumulada anterior à classe que contém o quartil c; • Q 1 pertence à classe r225; 250r, pois F i (em %) toma aí o menor valor 2 igual ou superior a 50%; • Fi - frequência absoluta da classe que contém o quartil c; • Q 3 pertence à classe r250; 275r, pois F i (em %) toma aí o menor valor 4 igual ou superior a 75%. • ai - amplitude da classe que contém o quartil c. Exemplo 3.15. Na tabela indicam-se os ganhos diários, em euros, dos empregados de uma empresa: Recorrendo ao polígono de frequências acumuladas, podemos determinar valores aproximados dos quartis. Para tal basta usar usado ´ o procedimento ¯ no caso da mediana, o que permite localizar Q 1 Q 1 “ Me , e repetir o 2 2 Frequência relativa acumulada (%) procedimento para Q 1 e Q 3 , agora considerando 25% ou 4 4 e 75% ou 43 das observações, respectivamente. 1 4 Ganhos diários Fi r10; 30r 4 4 16 20 r30; 50r das observações 84 104 r70; 90r 156 260 r90; 110r 24 284 r110; 130r 10 294 r130; 150s 6 300 Total 300 r50; 70r 100 90 80 75 70 60 50 40 30 25 20 Determine o primeiro, segundo e terceiro quartis. Para Q 1 , como n4 “ 75, o intervalo correspondente a esta frequência 4 acumulada é r50; 70r. Logo 10 0 175 Q Q Q 200 1225 2 250 3 275 300 Nº de páginas Q 1 “ 50 ` 4 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos Fi 31/45 75 ´ 20 ˆ 20 “ 63, 09. 84 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 32/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística “ 150, o intervalo correspondente a esta frequência Para Q 1 , como 2n 4 2 acumulada é r70; 90r. Logo 150 ´ 104 ˆ 20 “ 75, 9. 156 3n Para Q 3 , como 4 “ 225, o intervalo correspondente a esta frequência 4 acumulada é r70; 90r. Logo Q 1 “ 70 ` 2 225 ´ 104 ˆ 20 “ 85, 5. 156 Em conclusão podemos dizer que há 75 empregados (25%) com um ganho diário até 63,09 euros, 150 empregados (50%) com um ganho diário até 75,9 euros e 225 empregados (75%) com um ganho diário até 85,5 euros. 3.2.4 Outliers Em estatística, outlier, é uma observação que apresenta um grande afastamento das restantes observações, ou que é inconsistente com estas. Sendo IQ “ Q3 ´ Q1 “ Q 3 ´ Q 1 o intervalo inter-quartis, temos que: 4 4 • as observações cujo valor estiver no intervalo Q3 ` 1, 5 ˆ IQ a Q3 ` 3IQ ou no intervalo Q1 ´ 3IQ a Q1 ´ 1, 5IQ são consideradas outliers moderados; Q 3 “ 70 ` 4 3.2.3 • as observações cujo valor é inferior a Q1 ´3IQ ou superior a Q3 `3ˆIQ são consideradas outliers extremos ou severos. Diagrama de extremos e quartis sem outliers Decis e percentis O decil divide o conjunto de valores observados em dez partes iguais e o percentil em cem partes iguais. Teremos, assim, 9 decis e 99 percentis. Se se tratar de dados não agrupados ou agrupados por frequência procede1 , se de forma idêntica aos quartis, ou seja, obtendo os quantis de ordem 10 2 3 9 , , . . . , para o caso dos decis 1, 2, 3, . . . , 9, respectivamente, ou os 10 10 10 1 2 3 99 quantis de ordem 100 , 100 , 100 , . . . , 100 para o caso dos percentis 1, 2, 3, . . . , 99, respectivamente. Para dados agrupados em intervalos de classe a expressão que nos dá os decis é análoga à dos quartis: Dc “ Li ` n c 10 ´ F i´1 ˆ ai , Fi Q3/4 max{xi} Diagrama de extremos e quartis com outliers Q1/4 Q2/4=Q1/2=Me Q3/4 o m o* M onde: n c 100 • m é o menor dos valores observados que não é um outlier; ´ F i´1 ˆ ai , Fi • M é o maior dos valores observados que não é um outlier; com c “ 1, 2, . . . , 99. Exemplo 3.16. Com os dados do Exemplo 3.15, calcule D8 e P6 . Para D8 , como 8n “ 240, o intervalo correspondente a esta frequência 10 acumulada é 70 - 90. Logo D8 “ 70 ` 240´104 ˆ 20 “ 87, 43. 156 6n Para P6 , como 100 “ 18, o intervalo correspondente a esta frequência acumulada é 30 - 50. Logo P6 “ 30 ` 18´4 ˆ 20 “ 47, 5. 16 Em conclusão podemos dizer que há 240 empregados (80%) com um ganho diário até 87,43 euros e 18 empregados (6%) com um ganho diário até 47,5 euros. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos Q2/4=Q1/2=Me min{xi} * com c “ 1, 2, . . . , 9. Para os percentis temos: Pc “ Li ` Q1/4 33/45 • ˝ representa um outlier moderado; • ˚ representa um outlier extremo ou severo. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 34/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3.3 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Medidas de dispersão ou de variabilidade 3.3.3 Embora as medidas de localização forneçam indicações sobre os valores mais representativos de uma distribuição, não indicam a sua estrutura interna, isto é, a forma como os diferentes valores se distribuem a longo do intervalo de variação. Considerando as três distribuições: Momentos centrais São as médias aritméticas das 1a , 2a , 3a , 4a , potências dos desvios em relação à média aritmética. Para o cálculo dos momentos deve-se proceder do seguinte modo: • 44, 45, 50, 51, 60; • Põe-se em coluna os valores de xi (representa um valor da variável, se X é discreta ou um ponto médio de classe, se X é contínua) e as respectivas frequências; • 5, 5, 30, 100, 110; • Calcula-se a média aritmética; • 1, 1, 1, 1, 246; • Calculam-se os desvios di “ xi ´ x e as potências dos desvios d2i , d3i , d4i ; verifica-se que possuem a mesma média x “ 50. Como é evidente, a dispersão (ou variabilidade) dos valores da variável em relação à média, em cada uma das distribuições, é diferente. Na primeira distribuição, a variabilidade é pequena: os valores da variável são próximos da média; na segunda, essa variabilidade é grande: os valores da variável encontram-se muito mais afastados da média; finalmente, na terceira, a dispersão é muito maior do que na anterior. As medidas de dispersão ou medidas de variabilidade, permitem conhecer a forma como os valores da variável estatística se distribuem (dispersam) em redor dos valores centrais. 3.3.1 Amplitude total A amplitude total é a medida de dispersão mais simples. É a diferença entre os valores extremos assumidos pela variável estatística: " max pxi q ´ min pxi q , se X é discreta R“ . lk`1 ´ l1 , se X é contínua O emprego desta medida de dispersão apresenta alguns inconvenientes. A principal desvantagem resulta dela depender apenas dos valores extremos assumidos pela variável e não dos valores intermédios. Duas distribuições podem ter a mesma amplitude total mas dispersões muito diferentes. 3.3.2 Intervalo inter-quartis • Fazem-se e põe-se em coluna os produtos Fi di , Fi d2i , Fi d3i , Fi d4i e fazemse os respectivos somatórios; • Calculam-se os momentos pelas fórmulas: řk řk Fi d2i Fi di , m2 “ i“1 , m1 “ i“1 n´1 n´1 ř řk k Fi d4i Fi d3i , m4 “ i“1 , m3 “ i“1 n´1 n´1 řk onde n “ i“1 Fi . No caso dos dados não agrupados temos que Fi “ 1, para qualquer valor de xi . 3.3.4 Desvio médio Da definição de média, é imediato reconhecer que a soma dos desvios das observações em relação à média é nula. Este facto leva à definição de desvio absoluto médio ou simplesmente desvio médio dos valores xi em relação à média. O desvio médio em relação à média aritmética ou, simplesmente, desvio médio é definido por: řk řk Fi | xi ´ x | Fi | di | dm “ i“1 “ i“1 , n´1 n´1 O intervalo inter-quartis é a diferença entre o terceiro quartil e o primeiro quartil: IQ “ Q3 ´ Q1 “ Q 3 ´ Q 1 . onde Fi representa cada uma das frequências absolutas e xi representa um valor da variável (se X é discreta) ou um ponto médio de classe (se X é contínua). Por outras palavras, o desvio médio é a média aritmética dos desvios absolutos em relação à média. Quanto menos dispersos se encontrarem os valores xi relativamente à média x, menor será o desvio médio, e reciprocamente. Estatística descritiva e análise exploratória de dados Estatística descritiva e análise exploratória de dados 4 C. Fernandes & P. Ramos 4 35/45 C. Fernandes & P. Ramos 36/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3.3.5 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Variância • A variância é uma medida da variabilidade dos dados em relação à média. No caso de se ter dados não agrupados, a variância é dada por: řn řn 2 řn 2 pxi ´ xq2 x n x ´ nx2 s2 “ i“1 “ i“1 i ´ . x2 “ i“1 i n´1 n´1 n´1 n´1 Caso os dados estejam agrupados, a variância é dada por: řk řk řk Fi x2i Fi pxi ´ xq2 n Fi x2i ´ nx2 “ i“1 ´ , s2 “ i“1 x2 “ i“1 n´1 n´1 n´1 n´1 onde Fi representa cada uma das frequências absolutas e xi representa um valor da variável (se X é discreta) ou um ponto médio de classe (se X é contínua). ř10 i“1 pxi ´ xq2 “ 4650 e s2 “ řn ou s2 “ • s“ řn i“1 pxi ´ xq2 “ n´1 i“1 x2i ´ nx2 “ n´1 i“1 ? ř10 ř10 x2i “ 104650 logo ř10 pxi ´ xq2 4650 “ “ 516, 667 10 ´ 1 9 i“1 x2i ´ 10x2 104650 ´ 10 ˆ 1002 “ “ 516, 667. 10 ´ 1 9 i“1 516, 667 “ 22, 73. Exemplo 3.18. Calcule o desvio padrão da distribuição de frequências apresentada. Nota 3.1. Para o cálculo da variância apresentaram-se duas fórmulas. A segunda fórmula pode ser obtida fazendo: řn řn 2 px2 ´ 2xi x ` x2 q i“1 pxi ´ xq s2 “ “ i“1 i “ n ´ 1 n´1 ř řn 2 řn n n 1 i“1 xi i“1 xi “ ´ 2x ` x2 i“1 “ n´1 n nř ´1 řnn´ 1 2 n n n x2 n i“1 xi x2 . “ ´ 2x2 ` x2 “ i“1 i ´ n´1 n´1 n´1 n´1 n´1 xi Fi Fi xi x2i Fi x2i xi ´ x Fi pxi ´ xq2 0 1 2 3 4 5 Total 12 16 27 20 16 9 100 0 16 54 60 64 45 239 0 1 4 9 16 25 0 16 108 180 256 225 785 ´2, 39 ´1, 39 ´0, 39 0, 61 1, 61 2, 61 68, 55 30, 91 4, 11 7, 44 41, 47 61, 31 213, 79 Nota 3.2. A variância vem expressa na unidade de medida dos dados ao quadrado. Então: 3.3.6 Desvio padrão O desvio padrão é a raiz quadrada positiva da variância, em qualquer um dos casos (dados não agrupados, agrupados por frequência ou agrupados por ? intervalos de classe). Representa-se por s e obtém-se fazendo s “ s2 . O desvio padrão indica a proximidade com que os valores estão agrupados à volta da média. Um valor pequeno do desvio padrão significa que as observações estão pouco “espalhadas” à volta da média. O desvio padrão vem expresso na mesma unidade de medida que os dados. • x“ ř F i xi “ 239 “ 2, 39; n 100 ř 2 Fi x2i ´nx2 “ 785´100ˆp2,39q n´1 100´1 • s2 “ 2, 16; ? • s “ 2, 16 “ 1, 47. “ 2, 16 ou s2 “ ř Fi pxi ´xq2 n´1 “ 213,79 100´1 “ Exemplo 3.17. Consideremos os seguintes valores observados: 70, 95, 85, 80, 130, 125, 135, 85, 90, 105. Calcule o desvio padrão. ř • 10 i“1 xi “ 1000 logo řn ř10 xi xi 1000 x “ i“1 “ i“1 “ “ 100; n 10 10 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 37/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 38/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Exemplo 3.19. Calcule o desvio padrão da distribuição de frequências apresentada. Classes xi Fi Fi xi x2i Fi x2i xi ´ x Fi pxi ´ xq2 r20; 25r r25; 30r r30; 35r r35; 40r r40; 45r r45; 50r r50; 55r r55; 60s Total 22, 5 27, 5 32, 5 37, 5 42, 5 47, 5 52, 5 57, 5 9 27 36 45 18 9 3 3 150 202, 5 742, 5 1170, 0 1687, 5 765, 0 427, 5 157, 5 172, 5 5325 506, 25 756, 25 1056, 25 1406, 25 1806, 25 2256, 25 2756, 25 3306, 25 4556, 25 20418, 75 38025, 00 63281, 25 32512, 50 20306, 25 8268, 75 9918, 75 197287, 50 ´13 ´8 ´3 2 7 12 17 22 1521 1728 324 180 882 1296 867 1452 8250 ř • s2 “ 8250 150´1 F i xi “ 5325 n 150 ř Fi x2i ´nx2 n´1 197287,5´150ˆp35,5q2 150´1 “ 55, 37; ? • s “ 55, 37 “ 7, 44. “ 55, 37 ou s2 “ ř Fi pxi ´xq2 n´1 s ˆ 100%. x • se 15% ă cv ă 30%, os dados apresentam uma variabilidade média; • se cv ě 30%, os dados apresentam uma variabilidade elevada. A média será tanto mais representativa dos dados quanto menor o valor deste coeficiente. Valores de cv ą 50% indicam uma pequena representatividade da média. Estes coeficientes são particularmente úteis quando pretendemos comparar a dispersão de duas distribuições: “ • em que as respectivas variáveis não estão expressas na mesma unidade, ou seja, devemos adoptar uma medida de dispersão independente da unidade de medida da variável estatística; • com médias amostrais muito diferentes. O desvio médio é uma medida de dispersão absoluta. As medidas de dispersão relativa não dependem das unidades em que a variável é expressa, pelo que são úteis para comparar duas ou mais distribuições relativamente à dispersão (principalmente quando as unidades das variáveis são diferentes). Como medidas de dispersão relativa temos o coeficiente de dispersão, o coeficiente de variação, coeficiente de dispersão resistente e o coeficiente de variação resistente. 3.3.7 cv “ • se cv ď 15%, os dados apresentam uma variabilidade fraca; “ 35, 5; “ Coeficiente de variação O coeficiente de variação, cv , mede o grau de concentração de valores em torno da média em valor percentual: Diz-se que: Então: • x“ 3.3.8 3.3.9 cdr “ 3.3.10 Coeficiente de dispersão O coeficiente de dispersão, cd , mede o grau de concentração de valores em torno da média. É dado pelo quociente entre o desvio padrão corrigido e a média: s cd “ . x Coeficiente de dispersão resistente O coeficiente de dispersão resistente obtém-se considerando o quociente entre o intervalo inter-quartis e a mediana: IQ . Me Coeficiente de variação resistente O coeficiente de variação resistente obtém-se considerando o quociente entre o intervalo inter-quartis e a mediana e é apresentado em valor percentual: cvr “ IQ ˆ 100%. Me Os dois últimos coeficientes são mais resistentes quando existem outliers. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 39/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 40/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3.4 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística • ca ą 0, a distribuição é assimétrica positiva: Medidas de assimetria A assimetria é a falta de simetria do histograma, ou da curva de frequências, em relação à vertical que passa pela abcissa correspondente à média aritmética. As medidas de assimetria sintetizam até que ponto uma distribuição de frequência é enviesada, deformada ou assimétrica. Estas medidas utilizam-se para classificar distribuições unimodais e elucidam-nos sobre a forma geral da distribuição, isto é, se é simétrica ou, em caso contrário, se se afasta muito ou pouco da simetria. Quando a distribuição é simétrica, o coeficiente de assimetria é nulo. Quando não é nulo, a distribuição é assimétrica, sendo o grau de assimetria tanto maior quanto maior for o valor absoluto do coeficiente. Como medida de assimetria absoluta usamos o momento central de 3a ordem, m3 . O momento de 3a ordem tem como dimensões o cubo das unidades das observações. O seu valor depende, portanto, das unidades de medida, o que não é desejável para se efectuar comparações. É assim mais vantajoso usar-se o coeficiente de assimetria que é uma medida de assimetria relativa: ca “ m3 3{2 m2 “ m3 . s3 Se: Este é o coeficiente que na maioria dos casos aparece nos outputs dos programas estatísticos. No entanto, para estudar a assimetria, podemos ainda usar um dos seguintes coeficientes: • coeficiente de Pearson x ´ Mo , s com ´3 ď G ď 3, apenas podendo ser usado quando a distribuição é unimodal; G“ • coeficiente de assimetria • ca ă 0, a distribuição é assimétrica negativa: 3 px ´ Meq , s G1 “ com ´3 ď G1 ď 3; • coeficiente de Bowley G2 “ Q 3 ` Q 1 ´ 2Me 4 4 IQ , com ´1 ď G2 ď 1, sendo este o coeficiente mais resistente a outliers. • ca “ 0, a distribuição é simétrica: Para qualquer um dos coeficientes diz-se que: • se o seu valor é negativo a distribuição é assimétrica negativa; • se o seu valor é nulo a distribuição é simétrica; • se o seu valor é positivo a distribuição é assimétrica positiva. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 41/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 42/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3.5 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística Medidas de achatamento Para definirmos e visualizarmos o achatamento de uma distribuição de frequências, necessitamos da denominada curva normal que apresenta as seguintes características fundamentais: Como medida de achatamento absoluto usamos o momento central de 4a ordem, m4 . Contudo, o momento de 4a ordem depende das unidades de medida das observações, o que atrapalha quando se pretende efectuar comparações entre distribuições de frequência distintas. Surge assim o coeficiente de curtose que é uma medida de achatamento relativa: • é simétrica em relação à recta x “ x; cc “ • x ´ s e x ` s são os pontos de inflexão da curva; m4 m4 “ 4. m22 s Se: • no intervalo rx ´ s; x ` ss encontram-se 68,27% das observações; • cc ă 3 (ou cc ´ 3 ă 0), a curva diz-se platicúrtica (a distribuição é mais achatada que a normal): 68,27% x−1s x x+1s • no intervalo rx ´ 2s; x ` 2ss encontram-se 95,45% das observações; • cc “ 3 (ou cc ´ 3 “ 0), a curva diz-se mesocúrtica (o achatamento é igual ao da normal): 95,45% x−2s x+2s x • no intervalo rx ´ 3s; x ` 3ss encontram-se 99,73% das observações. • cc ą 3 (ou cc ´ 3 ą 0), a curva diz-se leptocúrtica (a distribuição é menos achatada que a normal): 99,73% x−3s x x+3s O achatamento de uma distribuição refere-se à intensidade das frequências nos valores vizinhos dos valores centrais. As medidas de achatamento (ou curtose) medem o grau de afunilamento ou de achatamento de uma curva simétrica (ou aproximadamente simétrica) em relação à curva normal. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 43/45 Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 44/45 Instituto Superior de Engenharia de Lisboa Área Departamental de Matemática Resumos sobre Probabilidades e Estatística 3.5.1 Coeficiente de achatamento Para estudar o achatamento da distribuição, podemos ainda usar o coeficiente de achatamento: IQ k“ , 2 pP90 ´ P10 q onde P90 corresponde ao quantil Q0,9 e P10 corresponde ao quantil Q0,1 . Se: • k ă 0, 263 a distribuição de frequências tem um achatamento menor do que o da curva normal. A distribuição é leptocúrtica; • k “ 0, 263 a distribuição de frequências tem um achatamento igual ao da curva normal. A distribuição é mesocúrtica; • k ą 0, 263 a distribuição de frequências tem um achatamento maior do que o da curva normal. A distribuição é platicúrtica. Este coeficiente é mais resistente a outliers. Estatística descritiva e análise exploratória de dados C. Fernandes & P. Ramos 45/45