IV - Descrição e Apresentação dos Dados Prof. Herondino Dados A palavra "dados" é um termo relativo, tratamento de dados comumente ocorre por etapas, e os "dados processados" a partir de uma etapa podem ser considerados os "dados brutos" do próximo. (Wikipédia) Dados Brutos Em informática dados brutos (raw data) designam os dados/valores recolhidos e estocados tal qual foram adquiridos, sem terem sofrido o menor tratamento (Wikipédia) Dados Brutos Suponhamos o seguintes dados Brutos como sendo a idade de alunos de uma turma de informática 14 12 13 11 12 13 16 14 14 15 17 14 11 13 14 15 13 12 14 13 14 13 15 16 12 12 Frequência A frequência de uma observação é o número de repetições dessa observação no conjunto de observações, ou ainda, é o número de vezes que conjuntos de dados aparecem em uma “população”. Tipos de Frequências Frequência simples ou absoluta (fi ) - são os valores que representam o número de dados de cada classe. Frequência relativa(fr ) - são os valores das razões entre as frequências simples e a frequência total. Frequência acumulada(fa ) – é o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe. Frequência acumulada relativa(far ) é a frequência acumulada da classe, dividida pela frequência total da distribuição. Distribuição de Frequência Simples ( f i ) Dados ou variável (Idade) xi fi 11 2 12 5 13 6 14 7 15 3 16 2 17 1 Frequência (nº de Alunos) Frequências Relativas A frequência relativa é o valor da frequência absoluta dividido pelo número total de observações. Variável (idade) xi frequência absoluta (Nº de alunos) frequência relativa fr fi 11 2 2/26 = 0,0769 12 5 5/26 = 0,1923 13 6 6/26 = 0,2308 14 7 7/26 = 0,2692 15 3 3/26 = 0,1154 16 2 2/26 = 0,0769 17 1 1/26 = 0,0385 TOTAL N fi = 26 1,0000 Frequência Acumulada Variável freqüência absoluta xi freqüência relativa fr fi frequência absoluta acumulada fa frequência relativa acumulada f ra 11 2 2/26 = 0,0769 2 2/26 = 0,0769 12 5 5/26 = 0,1923 7 7/26 = 0,2692 13 6 6/26 = 0,2308 13 13/26 = 0,5000 14 7 7/26 = 0,2692 20 20/26 = 0,7692 15 3 3/26 = 0,1154 23 23/26 = 0,8846 16 2 2/26 = 0,0769 25 25/26 = 0,9615 17 1 1/26 = 0,0385 26 26/26 = 1,0000 TOTAL f i = 26 f r =1,0000 Regras de arredondamento na Numeração Decimal Norma ABNT NBR 5891 1) Quando o algarismo imediatamente seguinte ao último algarismo a ser conservado for inferior a 5, o último algarismo a ser conservado permanecerá sem modificação Exemplo: 1,333 3 arredondado à primeira decimal tornar-se-á 1,3 Regras de arredondamento na Numeração Decimal 2) Quando o algarismo imediatamente seguinte ao último algarismo a ser conservado for superior a 5, ou, sendo 5, for seguido de no mínimo um algarismo diferente de zero, o último algarismo a ser conservado deverá ser aumentado de uma unidade Exemplo 1,666 6 arredondado à primeira decimal tornar-se-á: 1,7. 4,850 5 arredondados à primeira decimal tornar-se-ão : 4,9. Regras de arredondamento na Numeração Decimal 3) Quando o algarismo imediatamente seguinte ao último algarismo a ser conservado for 5 seguido de zeros, dever-se-á arredondar o algarismo a ser conservado para o algarismo par mais próximo. Consequentemente, o último a ser retirado, se for ímpar, aumentará uma unidade. Exemplo: 4,550 0 arredondados à primeira decimal tornar-se-ão: 4,6. Regras de arredondamento na Numeração Decimal 4) Quando o algarismo imediatamente seguinte ao último a ser conservado for 5 seguido de zeros, se for par o algarismo a ser conservado, ele permanecerá sem modificação. Exemplo: 4,850 0 arredondados à primeira decimal tornar-se-ão: 4,8. Atividade - III Verificar a altura em centímetro de cada aluno da turma e construir uma sequência de Dados Brutos; 2. A partir dos Dados Brutos obtidos, construir a distribuição de frequência absoluta simples, a frequência relativa, frequência acumulada e frequência relativa acumulada. Para o arredondamento utilize a regra da ABNT 5891. 1. Séries Estatísticas Tabela é um quadro que resume um conjunto de observações. Elementos da Tabela: Título – o que? Quando? Onde? Cabeçalho – parte superior da tabela que especifica o conteúdo Corpo – linha e colunas que contém as informações Rodapé – elementos complementares Séries Estatísticas Séries Históricas Descrevem os valores da variável, em determinado local, discriminado segundo intervalos de tempo variáveis. Série Geográficas ou espaciais Descrevem os valores da variável, em determinado instante, discriminado segundo regiões. Series Específicas ou categóricas Descrevem os valores da variável, em determinado tempo e local, discriminados segundo especificações ou categorias. Exemplo: Séries Conjugadas Quando apresenta em uma única tabela, a variação de valores de mais de uma variável. Apresentação dos dados “O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, o investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compressão que as séries” (Crespo, 2002) Quando se dispõe de um grande número de observações, torna-se extremamente difícil a leitura de valores colocados em tabela. Colunas ou em barras É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas) ou horizontalmente (em barras) Histograma Um histograma é uma representação gráfica de uma única variável que representa a frequência de ocorrências (valores dos dados) dentro de categorias de dados. O histograma tanto pode ser representado para as frequências absolutas como para as frequências relativas. Nota 0 1 2 3 4 5 6 7 8 9 10 Total nº de Alunos 1 1 2 4 6 8 12 10 3 2 1 50 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 Polígono de Frequência O Polígono de frequências é obtido ligando-se os pontos médios dos topos dos retângulos de um histograma. 14 12 12 10 10 8 8 6 6 4 4 3 2 2 1 2 1 1 0 0 1 2 3 4 5 6 7 8 9 10 Sobrepondo 14 14 12 12 12 10 10 10 88 8 66 6 44 4 3 22 2 1 00 00 2 1 11 1 22 33 44 55 66 77 88 99 10 10 Histograma de frequência acumulada (ou ogiva) histograma de frequência acumulada (ou ogiva) é a representação gráfica do comportamento da frequência acumulada. Distribuição por Frequência Acumulada Frequência Acumulada 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 Gráfico de Setores É designado por um círculo, onde cada classe é representada por um setor circular, cujo ângulo é proporcional ao tamanho da amostra. 0% Gráfico de Setores 2% 4% 18% 5% 7% 9% 16% 11% 15% 0 1 2 3 13% 4 5 6 7 8 9 10 Distribuição de Frequência agrupadas em Classe Para a determinação de classes não existe uma regra pré estabelecida, sendo necessário um pouco de tentativa e erro para a solução mais adequada. 1. Definir o número de classes Se n representa o número de observações (na amostra ou na população, conforme for o caso) o número aproximado de classes pode ser calculado por Número de Classes = n arredondando os resultados. Exemplo Altura em cm da Turma CA 2013 Nº de Classes = 30 5,47 Fazendo arredondamento para 6 Fonte: Marques, 2013 Distribuição de Frequência agrupadas em Classe 2. Calcular a amplitude das classes Essa será obtida conhecendo-se o número de classes e amplitude total dos dados. A amplitude total dos dados é o resultado da subtração valor máximo - valor mínimo da série de dados Amplitude Total = Valor Max - Valor Min Amplitude de classe = Amplitude Total número de classes Exemplo Rol Fonte: Vaz,2013 Amplitude Total = 188 -152 36 Amplitude de classe = 36 6 6 Distribuição de Frequência agrupadas em Classe 3. Distribui a frequência dos dados agrupados por classe O limite superior de cada classe é aberto (e consequentemente, o limite inferior de cada classe é fechado), ou seja, cada intervalo de classe não inclui o valor de seu limite superior, com exceção da última classe. (Nº de Ordem) (Altura em cm) ( Nº de alunos) xi i fi 01 152 158 02 158 164 03 164 170 04 170 176 05 176 182 06 182 188 Total Limite Inferior Limite Superior Distribuição de Frequência agrupadas em Classe (Nº de Ordem) (Altura em cm) ( Nº de alunos) fi xi i 01 152 158 9 02 158 164 8 03 164 170 5 04 170 176 4 05 176 182 3 06 182 188 1 Total f i 30 Fonte: Tillmann, 2013 Medidas de posição ou tendência central 1. Média Aritmética n x1 x2 ... xn X n x i 1 n i Exemplo: A nota final (NF) do curso será dada pela fórmula: NF Em que: AP AF 2 AP – Avaliação Parcial AF – Avaliação Final AT 1 AT 2 ... ATn AP n Sendo AP (Avaliação Parcial) a média aritmética das atividades propostas (AT1, AT2,...,ATn) A cada AT será atribuído valores de 1 a 5. Exemplo: X 152 152 154 154 155 156 ... 188 163,833... 164 30 n X x i 1 n i 164 Medidas de posição ou tendência central Propriedades da média aritmética 1. A média é um valor típico, ou seja, ela é o centro de gravidade da distribuição, um ponto de equilíbrio. Seu valor pode ser substituído pelo valor de cada item na série de dados sem mudar o total. Simbolicamente temos: n X xi x i 1 i n n 2. A soma dos desvios das observações em relação a média é igual a zero. (x i 3. X) 0 A soma dos desvios elevados ao quadrado das observações em relação a média é menor que qualquer soma de quadrados de desvios em relação a qualquer outro número. Em outras palavras, 2 é um mínimo. ( x X ) i Exemplo xi X xi X (x X ) 0 i n X xi n x i 1 n i ( xi X ) 2 (x X ) i 2 Medidas de posição ou tendência central 2. Média Ponderada n x1. p1 x2 . p2 ... xn . pn XP p1 p2 ... pn Onde pi é o peso da observação i x p p i 1 i i i Exemplo A universidade definiu que as avaliações parciais teriam peso de 30% e a prova final teria peso de 40% no cálculo dos rendimentos dos alunos. Veja o quadro abaixo e calcule a média do aluno. Ap Ap 1 Ap 2 Final peso nota 8,0 0,30 9,0 0,30 9,6 0,40 8 0,3 9 0,3 9,6 0,4 XP 0,3 0,3 0,4 Média aritmética Ponderada em dados agrupados (Nº de Ordem) (Altura em cm) ( Nº de alunos) fi xi i 01 152 158 02 158 03 164 04 170 176 4 05 176 182 3 06 182 188 1 ( Ponto médio) xm xm f i 9 n 164 x f X f 8 i 1 170 5 m i Total f i 30 n x i 1 m . fi i Média aritmética Ponderada em dados agrupados L L x inf m (Nº de Ordem) (Altura em cm) ( Nº de alunos) fi xi i sup 2 ( Ponto médio) xm f i xm 01 152 158 9 155 1395 02 158 164 8 161 1288 03 164 n 170 5 167 835 04 170 176 4 173 692 05 176 182 3 179 537 06 182 Total 188 1 f i 185 185 30 4932 n x i 1 m . fi x f X f i 1 m i i X 4.932 164 30 Mediana (Md) A mediana é o valor do item central da série quando estes são arranjados em ordem de magnitude Exemplo: a) 2, 4, 5, 7, 8 b) 2, 5, 6, 9, 10, 13, 15 c) 3, 5 ,8 ,10, 15 ,21 Md=5 Md=9 Md=9 Para o calculo da mediana, têm-se: n 1 Se a série for ímpar sua posição será dada porposição 2 Par a sua posição é dada por n n 2 2 1 posição 2 ou se for Mediana (Md) Cálculo da mediana Se série ímpar posição n 1 2 Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 2, 5 } posição 9 1 5ª 2 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 0 0 1 1 2 2 3 4 5 Md=2 Mediana (Md) Cálculo da mediana n n 2 2 1 posição 2 Se a sequência for par Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 10 10 2 2 1 5ª 6ª posição 2 2 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª 0 0 1 1 2 3 3 4 5 6 23 Md 2,5 2 Dados Agrupados Sem intervalos de Classe Identificar a frequência Acumulada imediatamente superior à metade da soma das frequência, ou seja, f 30 15 2 2 i Dados Agrupados Se existir uma frequência acumulada (fa ), tal que: fa fi 2 a mediana será dada por: Md xi xi 1 2 Veja no exemplo ao lado. xi fi fa 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 f 8 fa 4 2 i 8 Md 15 16 31 15,5 2 2 Mediana em dados Agrupados 1º Determinar as frequências acumuladas. 2º Calcular f i 2 3º Encontrar a classe correspondente à frequência acumulada fi imediatamente superior à 2 - classe mediana fa f 2 i Mediana (Md) para valores agrupados fa 17 n 1 30 1 15,5 2 2 9 Md 158 15,5 9 164 158 17 9 6,5 Md 6 158 8 Md 162,8 158 Md 164 xi Mediana (Md) para valores agrupados (n 1) / 2 f a Md L inf Md c f Md L inf Md = limite de classe inferior da classe da mediana; f a = frequência acumulada da classe imediatamente anterior à classe da mediana; f Md = frequência absoluta simples da classe da mediana, c = amplitude (tamanho) da classe da mediana. Exemplo: L inf Md 158 fa 9 f Md 8 c6 (n 1) / 2 f a Md L inf Md c f Md (30 1) / 2 9 Md 158 6 8 15,5 9 Md 158 6 8 6,5 Md 158 6 8 Md 158 4,87 Md 162,87 Moda (Mo) É o valor que ocorre com maior frequência em uma série de valores. Exemplos: a){ 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda é igual a 10. b){ 3 , 5 , 8 , 10 , 12 } não apresenta moda. A série é amodal. c){ 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7. A série é bimodal. Moda (Mo) – Dados agrupados o Sem intervalo de classe: é o valor da variável de maior frequência. o Exemplo: Nota 0 1 2 3 4 5 6 7 8 9 10 Total nº de Alunos 1 1 2 4 6 8 12 10 3 2 1 50 Moda (Mo) – Dados agrupados o Com intervalos de classe: A classe que apresenta a maior frequência é denominada classe modal. Nesta, é o valor dominante que está compreendido entre os limites da classe modal. O cálculo da moda consiste em tomar o ponto médio da classe modal (Moda Bruta). Mo ( Linf Lsup ) 2 (Nº de Ordem) (Altura em cm) fi xi i 01 152 158 9 02 158 164 8 03 164 170 5 04 170 176 4 05 176 182 3 06 182 188 1 Total 152 158 Mo 155 2 Moda (Mo) – Classes agrupada Método pela fórmula de CZUBER: xi fi d1 h Mo Linf d1 d 2 54 58 9 58 62 11 62 66 8 d1 f Mo f ant d 2 f Mo f post 66 70 5 Linf : limite inferior da classe modal f ant f post f Mo h : frequência anterior a classe modal : frequência posterior a classe moda : frequência da classe modal : amplitude da classe modal 11 9 4 Mo 58 (11 9) (11 8) 2 Mo 58 4 23 2 Mo 58 4 5 Mo 58 1,6 59,6 Interpretação Geométrica fi Mo xi Atividade IV 1. Procure exemplos de séries estatísticas em jornais e revistas de enfoque ambiental e classifique essas séries; 2. Procure exemplos de gráficos em jornais e revistas de enfoque ambiental e classifique esses gráficos 3. Um processo de medida no laboratório foi avaliada através da inserção aleatoriamente de 27 amostras possuindo uma concentração conhecida de η=8.0 mg/L para o fluxo normal de trabalho ao longo de um período de 2 semanas. O resultado na ordem de observação foram 6.8, 7.8, 8.9, 5.2, 7.7, 9.6, 8.7, 6.7, 4.8, 8.0, 10.1, 8.5, 6.5, 9.2, 7.4, 6.3, 5.6, 7.3, 8.3, 7.2, 7.5, 6.1, 9.4, 5.3, 7.6, 8.1, e 7.9 mg/L. A partir dos valores observados, obter: a distribuição de frequência agrupada em classe, a frequência relativa, frequência acumulada e frequência relativa acumulada. Para o arredondamento utilize a regra da ABNT 5891; Construa o seu histograma, o polígono de frequência, ogiva e o gráfico de setores; A média aritmética, a moda, a mediana e localize essas medidas no histograma. Atividade IV 4) Considerando os conjuntos de dados: a)3,5,2,6,5,9,5,2,8,6 b)20,9,7,2,12,7,20,15,7 c)51,6; 48,7; 50,3; 49,5; 48,9 Mês d)15, 18, 20, 13, 10, 16, 14 nov dez jan fev mar abr mai jul ago set out nov Calcule a média, a mediana e a moda. 5) Os dados de DBO coletados na tabela ao lado, são do baixo Rio Jari, realizada no período de novembro de 2009 a novembro de 2010. A partir desses dados construa: a) a sua distribuição de frequência agrupada em classe; b) O histograma, a ogiva e o gráfico em função do tempo; c) A media, a mediana e a moda. L1 8,09 8,46 6,75 5,51 4,96 6,37 8,92 7,87 0,83 1,07 1,82 2,53 DBO(mg/L) L2 L3 8,22 8,20 9,11 9,72 5,96 6,41 5,48 5,39 5,22 4,38 6,24 5,74 8,85 7,94 7,94 7,75 1,28 1,70 1,47 1,41 1,62 1,74 2,58 2,44 Fonte: Oliveira,2013 L4 8,11 8,66 6,24 4,91 4,77 5,92 8,08 7,85 1,18 1,84 2,33 2,31 Referência BERTHOUEX, Paul Mac; BROWN, Linfield C.. Statistics for Environmental Engineers. 2ª Boca Raton London New York Washington, D.c: Lewis Publishers, 2002. MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. São Paulo: Saraiva, 2006. TRIOLA, Mario F. Introdução à estatística. Rio de Janeiro: LTC, 1999. OLIVEIRA, B. S. Sangel. Qualidade da água associada à vulnerabilidade climática e riscos sanitários no baixo Rio Jarí – AP / Brunna Stefanny Sangel de Oliveira; orientador Alan Cavalcanti da Cunha. Macapá, 2013.