UNIVERSIDADE FEDERAL DO PARÁ CAMPUS UNIVERSITÁRIO DO BAIXO TOCANTINS COLEGIADO DE PEDAGOGIA DISCIPLINA ESTATÍSTICA APLICADA A EDUCAÇÃO PROFESSORA : DEBORA ALFAIA DA CUNHA TURMA PEDAGOGIA EMENTA: introdução e conceitos fundamentais; estatística descritiva: métodos gráficos e tabulares. Medidas de tendência central; separatrizes e de dispersão. Correlação e regressão. Probabilidades e intervalos de confiança. Testes. APRESENTAÇÃO: O curso se constitui num treinamento introdutório em Estatística e suas variadas aplicações, permitindo ao aluno compreender a utilização de alguns dos principais instrumentos de análise estatística. Apesar de não tratar-se de um curso de Estatística Matemática, que constaria de demonstrações de teoremas e de uma densa base de formalização, pretende-se apresentar um tratamento teórico e conceitual nos muitos momentos em que este mostrar-se imprescindível. O principal desafio na formação em estatística é o de mostrar a grande amplitude de seu campo de aplicação e a articulação e fundamentação deste com a base conceitual e teórica. CONTEÚDOS 1. Introdução e conceitos fundamentais: Definição, divisão da estatística, população, censo, amostra, amostragem. Variáveis aleatórias discretas e contínuas. 2. Estatística descritiva: métodos gráficos e tabulares: normas de apresentações tabulares, séries estatísticas e distribuição de freqüência. Representação gráfica: conceitos, requisitos, tipos de gráficos. Índices e taxas. 3. Propriedades do somatório 4. Medidas de tendência central; separatrizes e de dispersão: conceitos. Média, mediana e moda. Quartil, decil e percentil. Desvio médio, variância, propriedades da variância, desvio padrão e coeficiente de variação. 5. Correlação e regressão: diagrama de dispersão e coeficiente de correlação de Pearson. Ajustamento da reta de míninos quadrados.. 6. Probabilidades e intervalos de confiança. 7. Testes de Hipóteses. Testes de Hipóteses utilizando Intervalos de Confiança. Valor de Prova e Nível de Significância de uma Teste de Hipóteses. Teste Clássico de Hipóteses. Erros Tipo I e Tipo II.. PROCEDIMENTOS METODOLÓGICOS: No curso será utilizada uma abordagem em que se problematizam os diversos tópicos a serem tratados, com a apresentação de diversos estudos de casos que serão resolvidos em grupo. Atividades práticas objetivando facilitar a formalização. AVALIAÇÃO: processual e somativa. Uma pesquisa em grupo sobre o uso das técnicas na área de educação. Duas avaliações individuais. BIBLIOGRAFIA Levine, D.M., Berenson, M.L. e Stephan, D. Estatística: Teoria e Aplicações, LTC. Rio de Janeiro, 2000. Triola, M.F. Introdução à Estatística. LTC. Rio de Janeiro, 1999. Downing, D. Clark, J. Estatística Aplicada. Editora Saraiva. São Paulo. 1998. Lapponi J. C. Estatítica Usando o Excell. Lapponi Treinamento e Editora Ltda., 1985. Mendenhall, W. Probabilidade e Estatística, 5a. edição, Editora Campus, 1985.(*) Merril, W.C. e Fox K. Estatística Econômica – Uma Introdução. Atlas, 1980.(*) Spiegel, M.R. Estatística. Coleçào Schaum. Editora Mcgraw-Hill do Brasil Ltda, 1977.(*) Site consultado: "http://pt.wikipedia.org/wiki/" E : http://www.inf.ufsc.br/~borgatto/Economia/Apostila%20Completa.pdf http://alea-estp.ine.pt/html/nocoes/html/cap1_1_0.html I. INTRODUÇÃO E CONCEITOS FUNDAMENTAIS O QUE É? Estatística é uma área do conhecimento que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados, determinar as correlações que apresentem, tirando delas suas consequências para descrição e explicação do que passou e previsão e organização do futuro. A estatística é também uma ciência e prática de desenvolvimento de conhecimento humano através do uso de dados empíricos. Baseia-se na teoria estatística, um ramo da matemática aplicada. Na teoria estatística, a aleatoriedade e incerteza são modeladas pela teoria da probabilidade. Algumas práticas estatísticas incluem, por exemplo, o planejamento, a sumarização e a interpretação de observações. Definição: O termo estatística surge da expressão em Latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Lena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século XIX. COMO SE DIVIDE? I.ESTATÍSTICA DESCRITIVA: É aquela que se preocupa com a organização e apresentação dos dados estatísticos. A estatística descritiva é um ramo da estatística que aplica várias das muitas técnicas usadas para sumarizar um conjunto de dados. De certa forma estamos tentando descrever ou sumarizar as características dos dados que pertencem a esse conjunto. II.ESTATÍSTICA INFERENCIAL: também conhecida como indutiva ou amostral, é o conjunto de técnicas utilizadas para identificar relações entre variáveis que representem ou não relações de causa e efeito. Objetiva ainda a generalização do que é estudado descritivamente, em subconjuntos, para o conjunto que as contêm. Fundamenta-se na teoria da propabilidade. O QUE BUSCA? Pela estatística buscamos descrever o nosso conhecimento (e ignorância) de forma matemática e tentamos aprender mais sobre aquilo que podemos observar. Isto requer 3 passos: 1º. O planejamento das observações de forma a controlar a sua variabilidade (concepção do experimento) 2º. Sumarização da coleção de observações 3º. Inferência estatística - obter um consenso sobre o que as observações nos dizem sobre o mundo que observamos Em algumas formas de estatística descritiva, nomeadamente em mineração de dados (data mining), os segundo e terceiro passos tornam-se normalmente mais importantes que o primeiro. PARA QUE SERVE? Estatística é uma ferramenta chave na pesquisa social, nos negócios e na industrialização como um todo. É utilizada a fim de entender sistemas variados, controle de processos (chamado de "controle estatístico de processo" ou CEP), para sumarização de dados, e para tomada de decisão baseada em dados. Nessas funções ela é uma ferramenta chave, e é a única ferramenta RACIONAL segura. Porque o objetivo da estatística é a produção da "melhor" informação possível a partir dos dados disponíveis, alguns autores sugerem que a estatística é um ramo da teoria da decisão. Em educação a estatística permite tomar a decisão mais acertada em face dos dados disponíveis. Algumas ciências usam a estatística aplicada tão extensivamente que elas tem uma terminologia especializada. Estas disciplinas incluem: Bioestatística e Estatística Social (para todas as ciências sociais, onde se inclui a educação). PALAVRAS E CONCEITOS IMPORTANTES PROPABILIDADE? A probabilidade de um evento é freqüentemente definida como um número entre zero e um. Na realidade, porém, nunca há situações que tenham probabilidades 0 ou 1. Você pode dizer que o sol irá certamente nascer na manhã, mas e se acontecer um evento extremamente difícil de ocorrer que o destrua? E se ocorrer uma guerra nuclear e o céu ficar coberto de cinzas e fumaças? Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elas são tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como probabilidade de um ou zero. ESTATÍSTICA ROBUSTA? É o conjunto de técnicas utilizadas para atenuar o efeito de agregação dos dados e preservar a forma de uma distribuição tão aderente quanto possível aos dados empíricos. As técnicas usadas costumam classificar-se como: 1. Gráficos descritivos, quando gráficos são usados para sumarizar os dados. 2. Discrição Tabular, na qual usamos tabelas para sumarizar os dados 3. Descrição Paramétrica, na qual estimamos os valores de certos parâmetros os quais assumimos que completem a descrição do conjunto dos dados. PARÂMETROS? Objectivos dos parâmetros: 1. Podemos querer escolher um parâmetro que nos mostre como as diferentes observações são semelhantes. Os textos académicos costumam chamar a este objectivo de medida de tendência central. 2. Podemos querer escolher parâmetros que nos mostrem como aquelas observações diferem. Costuma chamar-se a este tipo de parâmetros de medidas de dispersão estatística. ERRO? A Estatística é uma ferramenta matemática que nos informa sobre o quanto de erro nossas observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim o conhecimento de teoria de conjuntos, análise combinatória e cálculo são indispensáveis para compreender como o erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da observação e do delineamento experimental. A faceta dessa ferramenta mais palpável é a Estatística Descritiva. A descrição dos dados coletados é comumente apresentado em gráficos ou relatórios e serve tanto a prospecção de uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a apresentação de resultados de delineamentos experimentais. DADOS? É um fenômeno qualquer desprovido de um significado, no momento em que o dado é contextualizado em um determinado nível de abstração passa a ser identificado como uma informação(Borges, Alessandro dos Santos; 2006). Os dados são quaisquer registros ou indícios relacionáveis a alguma entidade ou evento.Por exemplo, um documento de identificação pode conter vários dados de uma pessoa como nome, sexo, data de nascimento, etc. Outros exemplos de dados são a temperatura de uma cidade, ou a área de um território. Ainda que estes pareçam, por vezes, isolados, podem sempre englobar-se em conjuntos (as temperaturas das cidades de uma província ou país, ou as áreas de um conjunto de territórios) ou séries (as temperaturas de uma cidade ao longo do tempo). DADOS BRUTOS? São os dados obtidos diretamente da pesquisa, sem terem passados por nenhum processo de síntese ou análise. Apesar de todos estes valores terem sido obtidos na mesma empresa, nota-se uma grande variação em seus resultados. Esta variabilidade exige que o padrão de referência procurado seja expresso por uma faixa e não por um único valor. Pode-se perceber a grande variabilidade entre os dados considerados no exemplo anterior. Assim, os métodos estatísticos são fundamentais para o estudo de situações em que a variabilidade é inerente. A Estatística Descritiva ajuda na percepção, avaliação e quantificação da variabilidade em tabelas e gráficos obtidos a partir de um conjunto de dados que sintetizem os valores, com o objetivo de se ter uma visão global e clara da variação existente nas variáveis. CENSO? É o conjunto dos dados estatísticos dos habitantes de uma cidade, estado, pais, etc. Com todas as suas características, num determinado período de tempo. É a coleta exaustiva das informações de todas as N unidades da poipulação. POPULAÇÃO (N)? é o conjunto finito ou infinito que possui ao menos uma característica comum entre todos os seus elementos componentes. Em nível estatístico, população é sinónimo de universo, isto é, a colecção completa de unidades (exemplos: pessoas, instituições, registos ou acontecimentos), a partir da qual se podem constituir amostras AMOSTRA (n)? È um subconjunto de elementos pertencentes a uma população. A informação recolhida para uma amostra é depois generalizada a toda a população.Nem sempre as amostras reflectem a estrutura da população de onde foram retiradas ou são representativas dessas populações, podendo levar nesses casos a inferências erradas ou ao enviesamento dos resultados.As amostras podem ser aleatórias ou não aleatórias. AMOSTRAGEM? É o processo de coleta das informações de parte de uma população – n – mediante método adequado de seleção dessas unidades. Assim, é o estudo de um pequeno grupo de elementos retirado de uma população que se pretende conhecer, ou ainda: Técnica de pesquisa na qual um sistema preestabelecido de amostras é considerado idôneo para representar o universo pesquisado, com margem de erro aceitável. VARIÁVEL? É qualquer quantidade ou característica que pode assumir diferentes valores numéricos. Por exemplo, um questionário de uma pesquisa em marketing contém as seguintes perguntas: VARIÁVEL ALEATÓRIA? Pode ser considerada como o resultado numérico de operar um mecanismo não determinístico ou de fazer uma experiência não determinística para gerar resultados aleatórios. Por exemplo, ao atirar os dados e registar os resultados estaremos produzindo uma variável aleatória com extensão total { 1, 2, 3, 4, 5, 6 }. Outro exemplo seria a experiência de escolher uma pessoa ao acaso entre os passantes e medir a sua altura. CLASSIFICAÇÃO DAS VARIÁVEIS? Ao se fazer um estudo estatístico de um determinado fato ou grupo, tem-se que considerar o tipo da variável. Pode-se ter variáveis qualitativas ou quantitativas. As variáveis qualitativas são as que descrevem os atributos de um indivíduo, tais como: sexo, estado civil, grau de instrução, etc. Já as variáveis quantitativas são as provenientes de uma contagem ou mensuração, tais como: idade, salário, peso, etc. As variáveis qualitativas e as quantitativas dividem-se em dois tipos: VARIÁVEL ALEATÓRIA DISCRETA? Em matemática, e em particular na Estatística, uma variável aleatória é discreta se a sua distribuição de probabilidade é discreta. Se uma variável aleatória é discreta então o conjunto de todos os possíveis valores que ela pode assumir é finito ou contavelmente infinito, porque a soma de muitos números positivos reais incontáveis diverge sempre para o infinito. Assim, VAD são aquelas que podem assumir somente alguns valores num interavlo de observação e esses valores podem ser contados. O valor inteiro que não pode ser partido. VARIÁVEL ALEATÓRIA CONTÍNUA? É aquela que pode assumir qualquer valor num intervalo de observação. Refere-se principlamente a medidas. Valor em intervalos. ROL? Rol é o arranjo dos dados brutos numéricos em ordem crescente ou decrescente, se os dados forem qualitativos o rol é construído em ordem alfabética. Pode-se, pelo rol, verificar de maneira mais clara e rápida a composição do conjunto identificando o maior e o menor valor, além de alguns elementos que podem se repetir várias vezes, mostrando assim o comportamento dos dados. Como exemplo, o rol dos dados anterior fica: NÍVEL DE MEDIÇÃO? II. ESTATÍSTICA DESCRITIVA: MÉTODOS GRÁFICOS E TABULARES REPRESENTAÇÃO TABULAR Consiste em apresentar os dados coletados através de tabelas dando uma visão mais clara do que ocorre com os dados observados. Para organizar uma série estatística ou uma distribuição de freqüências, existem algumas normas nacionais ditadas pela Associação Brasileira de Normas Técnicas (ABNT) e pelo Conselho Nacional de Estatística ( resolução Nº 886/66 de 26/10/66) as quais devem ser respeitadas. Assim, toda tabela estatística deve conter: a) Elementos essenciais Título – indica a natureza do fato estudado (o quê?), as variáveis escolhidas na análise do fato (como?), o local (onde?) e a época (quando?). Corpo – é o conjunto de linhas e colunas que contém, respectivamente, as séries horizontais e verticais de informações. Cabeçalho – designa a natureza do conteúdo de cada coluna. Coluna indicadora – mostra a natureza do conteúdo de cada linha. b) Elementos complementares (se necessário) Fonte – é o indicativo, no rodapé da tabela, da entidade responsável pela sua organização ou fornecedora dos dados primários. Notas – são colocadas no rodapé da tabela para esclarecimentos de ordem geral. Chamadas – são colocadas no rodapé, servem para esclarecer minúcias em relação as caselas, colunas ou linhas. Nenhuma casela da tabela deve ficar em branco, apresentando sempre um número ou sinal. OBS: usa-se um traço horizontal ( - ) quando o dado for nulo. Usa-se (...) quando não se dispuser dos dados, embora ele possa ser quantificado. Usa-se ( 0 ) quando o valor for muito baixo para ser expresso pela unidade utilizada.ex: 02 quando em centena. SÉRIES ESTATÍSTICAS Existem várias maneiras de representar um conjunto de dados através de tabelas, dependendo para isso, dos tipos de dados e da classificação que se queira dar. Fixando uma das três modalidades que caracterizam um fato: tempo, local e fato observado, pode-se classificá-las em cinco tipos: - Série Cronológica (varia o tempo e fixa o local e o fato). - Série Geográfica (varia o local e fixa o tempo e o fato). - Série Categórica (varia o fato e fixa o tempo e o local). - Série Conjugada ou Mista (combinação de duas séries acima). - Distribuição de Freqüência.(específica para valores numéricos). Série Unidimensional TABELA DE DISTRIBUIÇÃO DE FREQÜÊNCIAS (séries de magnitude de variável) TIPOS: Sem classe ou por ponto: Para dados discretos. Onde o somatório de fi = n Com Classe ou por faixa: é a série estatística na qual a variável observada está dividida em subintervalos do intervalo total observado e o tempo, a espécie e a região permanecem fixas. Assim, tendo os dados relativos a uma variável quantitativa contínua é razoável apresenta-los por intervalos de acordo com a precisão necessária, assim, pode-se construir uma tabela de distribuição de freqüências, como observa-se no exemplo: Para agrupar os dados selecionamos intervalos contínuos para os quais cada valor coletado será alocado. Estes intervalos são chamados de intervalos de classe. É aconselhável que sejam sempre do mesmo tamanho. O número intervalos pode ser um problema, pois poucos intervalos podem resultar em perda da informação. Por outro lado, muitos intervalos não resumem a informação. ELEMENTOS DE UMA DISTRIBUIÇÃO: Rol – é um arranjo de dados numéricos brutos em ordem crescente ou decrescente de grandeza. Limite inferior da distribuição de freqüência : valor a partir do qual são contadas as observações (LI) Limite superior da distribuição de freqüência : valor até o qual são contadas as observações (LS) Amplitude Total – é a diferença entre o maior e o menor número do rol (AT). Número de classe – Não há uma fórmula exata para o cálculo do número de classes (K). Amplitude das classes ( h ): é o comprimento da classe, dada pela equação h = AT / K (onde: AT = LS – LI) OBSERVAÇÕES: Arredondar o número correspondente à amplitude do intervalo de classe para facilitar os cálculos. Limites de classes - limite inferior ( Linf) e limite superior (Lsup), ou li e ls. Freqüência simples ou absoluta de classe (fi): é o número de observações contadas dentro da classe. Freqüência absoluta acumulada da classe ( Fi ): é a acumulação sucessiva, a partir da primeira classe até uma classe qualquer, das fi das classes. Ponto Médio da Classe (xi): média aritmética dada por: xi = ls + li / 2 Freqüência relativa da classe (fr): é a relação entre fi e o número de observação da variável (∑fi, lembrando que este é = n). Então: fr = fi / ∑fi ou ainda fi/n Freqüência relativa acumulada crescente da classe ( Fr ): acumulação sucessiva de fr Obs: fr pode ser entendido como sendo a percentagem de observações de fi, pois a freqüência percentual (fp ) é dada por fp = fr x 100. ETAPAS PARA A CONSTRUÇÃO DE TABELAS DE DISTRIBUIÇÃO DE FREQÜÊNCIA: 1. Colocar os dados brutos em forma de rol. 2) Encontrar o menor e o maior valor do conjunto de dados e calcular a amplitude total (AT) At = no do maior – no do menor, ou LS – LI = AT 3) Determinar o número de classes (k). Não existindo um critério rígido para estabelecer o número ideal de intervalos, sugere-se que não se utilize menos de 6 e não mais de 15 intervalos. A experiência tem demonstrado que se pode fixar o número de intervalo como: K 1 3,3 log n ou k n Obs 1: A primeira forma denomina-se de fórmula de STURGES. A segunda parte do método prático que parte do pressuposto que: se n< 25 utiliza-se k = 5 e se n > ou = 25 utiliza-se o valor relativo a raiz quadrada de n. Obs 2: No arredondamento de k é correto faze-lo para maior. 4) Calcular o tamanho ou amplitude do intervalo de classe (h), dado por: h = AT/K 5) Determinar os limites de classe, dado por LI + h = ls da primeira classe. 6) Construir a tabela de freqüências: simples, acumulada, relativa, relativa acumulada, percentual, percentual acumulada, ponto médio. Ou: fi, FI, fr, Fr, f%, F%, xi a) b) c) d) A tabela seguinte representa as alturas (em cm) de 40 alunos de uma classe. 162 163 148 166 169 154 170 166 164 165 159 175 155 163 171 172 170 157 176 157 157 165 158 158 160 158 163 165 164 178 150 168 166 169 152 170 172 165 162 164 Calcular a amplitude total. Admitindo-se 6 classes, qual a amplitude do intervalo de classe? Construir uma tabela de freqüências simples absoluta e relativa das alturas dos alunos admitindo que o limite inferior da 1a classe seja 148 cm. Determinar os pontos médios das classes. REPRESENTAÇÃO GRÁFICA O gráfico estatístico é uma forma de apresentação de dados estatísticos cujo objetivo é o de produzir, no investigador ou no público, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries. Assim a representação gráfica é usada para aumentar a legibilidade do resultado de uma pesquisa. Os gráficos devem ser auto-explicativos e de fácil compreensão. Devem sempre: Ter um título, onde se destaca o fato, o local e o tempo; • Ser construídos em uma escala que não desfigure os fatos ou as relações que se deseja destacar. Assim, a altura de um gráfico deve compreender entre 60% a 80% da largura; • Colocar a fonte de obtenção dos dados, caso não seja o próprio autor que tenha feito a coleta. Simplicidade, clareza e veracidade. PRINCIPAIS TIPOS DE GRÁFICOS: DIAGRAMAS: são gráficos geométricos de, no máximo, duas dimensões. Usa-se o sistema cartesiano em sua construção. CARTOGRAMA: É a representação sobre uma carta geográfica. É usado para representar dados estatísticos diretamente relacionados com áreas geográficas ou políticas. Pode ser usado para representar dados absolutos, referentes à população (usa-se pontos em número proporcionais) ou dados relativos, referentes a densidade (usa-se ranhuras ou cores). PICTOGRAMA: representação gráfica que consta de figuras que lembram o fato. REPRESENTAÇÃO PARA VARIÁVEL QUALITATIVA (CATEGÓRICA) Para esse tipo de variável os gráficos mais utilizados são os de: COLUNAS OU EM BARRAS: É a representação de uma série por meio de retângulos, dispostos verticalmente (colunas) ou horizontalmente (barras). Quando em colunas os retângulos tem a mesma base e as alturas são proporcionais aos respectivos dados.quando em barras os retângulos tem a mesma altura e os comprimentos são proporcionais aos respectivos dados. Sempre que os dizerem a serem escritos forem extensos, deve-se dar preferência ao gráfico em barras. Se ainda assim preferir o gráfico em coluna, os dizeres deverão ser dispostos de baixo para cima. A ordem a ser observada é a cronológica se a série for histórica e a decrescente ser geográfica ou categórica. Ex: SETORES: Esse gráfico é construído com base em um círculo, e é empregado sempre que se deseja ressaltar a participação do dado no total. O total é representado pelo círculo que fica dividido em tantos setores quantas são as partes. Os setores são proporcionais aos dados da série. Cada setor é calculado por uma regra de três simples, onde o total da série é 360º. Ex: a escola Cajuína teve 972 alunos aprovados em 2006 de um total de 1.667 alunos. Temos: 1.667 ___360 Ou então : fr x 360 = 972 ____ X1 X1 = 209,9, logo = 210º Com os valores em graus, marca-se num círculo de raio arbitrário, com um transferidor, os arcos correspondentes. Obs: esse tipo de gráfico só deve ser usado quando há, no máximo, sete setoores. Se a série já apresenta os dados percentuais obtêm-se os valores em graus multiplicando o valor percentual por 3,6. Ex de gráfico de setor: LINHA: Representação das funções num sistemas de coordenadas cartesianas. Neste, faz-se uso de duas retas perpendiculares. As retas são os eixos das coordenadas e o ponto de intersecção, a origem. O eixo horizontal é o eixo das abscissas (ou do x) e o vertical das ordenadas ( ou do y). Representação gráfica de variáveis quantitativas Resultados referentes a variáveis contínuas freqüentemente são organizadas em tabelas de distribuições de freqüências por intervalos. Três tipos de gráficos geralmente são utilizados neste caso: histograma, polígono de freqüência e ogivas. Para a representação gráfica de dados contínuos, usa-se um diagrama de áreas ou histograma, formado por uma sucessão de rectângulos adjacentes, tendo cada um por base um intervalo de classe e por área a frequência relativa (ou a frequência absoluta). Deste modo a área total será igual a 1 (resp. igual a n, a dimensão da amostra). O aspecto apresentado pelo histograma, depende em grande parte do agrupamento que se tenha feito para os dados. Assim, a escolha de uma amplitude de classe muito pequena traduz-se num grande nº de classes, que não permitem que sobressaiam as características fundamentais dos dados, uma vez que se lhe poderá sobrepor o aspecto aleatório dos dados. Por outro lado um nº muito pequeno de classes, poderá não mostrar alguns aspectos importantes dos dados. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal, como pode indicar mistura de populações quando se apresentam bimodais. POLIGONO DE FREQUENCIA: As freqüências no eixo vertical e no horizontal os pontos médios dos intervalos de cada classe. Numa distribuição por ponto o ponto médio é substituído por esses pontos. OGIVA : Para representar graficamente as frequências acumuladas considera-se a função cumulativa. A construção se exemplifica a seguir: - Antes do limite inferior da 1ª classe, isto é o ponto 0, a frequência acumulada é nula, pelo que se traça um segmento de recta sobre o eixo dos xx, até esse ponto. - No limite inferior da 2ª classe, isto é o ponto 10, a frequência acumulada é a frequência da classe anterior, ou seja 0.42. Agora, admitindo que a frequência se distribui uniformemente sobre o intervalo da classe, unimos o ponto (0,0) com o ponto (10, 0.42). - No limite inferior da 3ª classe, a frequência acumulada é a soma das frequências das duas classes anteriores, sendo portanto 0.56. Então, unimos o ponto (10, 0.42) com o ponto 20, 0.56). - Quando chegarmos à última classe, temos a garantia que a frequência acumulada correspondente ao seu limite superior é igual a 1, pelo que nesse ponto marcamos 1 e continuamos com um segmento de recta paralelo ao eixo dos xx. Pode-se chamar a atenção para algumas propriedades da função cumulativa, tal como foi construída: - Está definida para todo o x real; - É sempre não decrescente; - Só assume valores no intervalo [0, 1] ANALISE EXPLORATÓRIA DOS DADOS: A REPRESENTAÇÃO DE CAULE E FOLHA É um tipo de representação que se pode considerar entre a tabela e o gráfico, uma vez que são apresentados os verdadeiros valores da amostra, mas numa apresentação sugestiva, que faz lembrar um histograma. Consiste em escrever do lado esquerdo de uma linha vertical o dígito (ou dígitos) da classe de maior grandeza, seguidos dos restantes. A representação obtida terá o seguinte aspecto Exemplo: Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuações 75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89 68 57 95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58 93 85 70 62 80 74 69 90 62 84 64 73 48 72 Fazer uma representação em caule-e-folhas destes dados. Por vezes, utiliza-se o "caule" horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-efolhas. Caule horizontal Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou dum caule-e-folhas? Dada uma amostra, o aspecto do histograma reflete a forma da distribuição da População subjacente aos dados observados ! Este é um dos aspectos da redução dos dados, em que se perde alguma informação contida nesses dados, mas em contrapartida obtemos a estrutura da População, que eles pretendem representar Quais os aspectos mais frequentes apresentados por um histograma ? OU: MODELOS DE DISTRIBUIÇÃO DE FREQUENCIA Distribuições simétricas A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média: Caso especial de uma distribuição simétrica Um caso especial de uma distribuição simétrica é aquele que sugere a forma de um "sino" e que é apresentado por amostras provenientes de Populações "Normais". O significado deste termo será explicado mais tarde, no âmbito das Probabilidades. b. Distribuições enviesadas A distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro: . Distribuições com "caudas" longas A distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais: . Distribuições com vários "picos" ou modas A distribuição das frequências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos: OBS: Desvio padrão Em probabilidade e Estatística, o desvio padrão é a medida mais comum da dispersão estatística. O desvio-padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que seja: 1. um número não negativo; 2. use as mesmas unidades de medida que os nossos dados. Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um sub-conjunto em amostra. O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas". O desvio padrão de uma variável aleatória X é definido como: onde E(X) é o valor esperado de X. Nem todas variáveis aleatórias possuem desvio padrão, desde que esses valores esperados não precisam existir. Se uma variável aleatória X toma os valores x1,...,xN (que são números reais) com igual probabilidade, então seu desvio padrão pode ser computada como segue. Primeiro, a média de X, , é definida como: Depois, o desvio padrão simplifica-se em: Em outras palavras, o desvio padrão de uma variável aleatória uniformizada discreta X pode ser calculada como: 1. Para cada valor xi calcula-se a diferença entre xi e o valor médio . 2. Calcula-se o quadrado dessa diferença. 3. Encontra-se a média das diferenças dos quadrados. Esta quantidade é a variância. σ2. 4. Tome a raiz quadrática da variância. Propriedades A distribuição normal. De uma distribuição normal unimodal, simétrica, de afunilamento médio (ou mesocúrtica) podemos dizer o seguinte: 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão. 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão. 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão. Esta informação é conhecida como a regra dos "68-95-99,7".