Estatística Professor conteudista: Maurício Martins do Fanno Sumário Estatística Unidade I 1 COLETA DE DADOS .............................................................................................................................................7 1.1 Dados e variáveis estatísticas .............................................................................................................7 1.2 Classificações das variáveis .............................................................................................................. 10 1.3 Amostragem ............................................................................................................................................11 1.4 Processos estatísticos ......................................................................................................................... 15 1.5 Coletas de dados................................................................................................................................... 16 2 REPRESENTAÇÃO DOS DADOS COLETADOS ......................................................................................... 19 2.1 Conceito de frequência ...................................................................................................................... 19 2.2 Distribuições ou tabelas de frequências ..................................................................................... 20 2.2.1 Dados isolados ou dados não agrupados em classes ............................................................. 20 2.2.2 Dados agrupados em classes ............................................................................................................ 21 2.3 Frequências acumuladas ................................................................................................................... 26 2.4 Representações gráficas .................................................................................................................... 28 2.4.1 Histogramas .............................................................................................................................................. 28 2.4.2 Gráfico de colunas ................................................................................................................................. 30 2.4.3 Gráfico de barras ..................................................................................................................................... 31 2.4.4 Diagrama de ogiva ................................................................................................................................. 32 2.4.5 Setorgrama ................................................................................................................................................ 34 2.4.6 Gráficos de dispersão ............................................................................................................................ 36 Unidade II 3 MEDIDAS OU PARÂMETROS ESTATÍSTICOS .......................................................................................... 39 3.1 Média......................................................................................................................................................... 40 3.2 Mediana ................................................................................................................................................... 43 3.3 Moda ......................................................................................................................................................... 49 4 MEDIDAS DE DISPERSÃO ............................................................................................................................. 55 4.1 Medidas de dispersão absolutas ..................................................................................................... 55 4.1.1 Amplitude total ....................................................................................................................................... 55 4.1.2 Desvio médio ............................................................................................................................................ 56 4.1.3 Variância ..................................................................................................................................................... 59 4.1.4 Desvio padrão........................................................................................................................................... 60 4.2 Medidas de dispersão relativas ....................................................................................................... 66 4.3 Relações gráficas entre as medidas estatísticas ...................................................................... 68 4.3.1 Assimetria .................................................................................................................................................. 70 4.3.2 Curtose ........................................................................................................................................................ 71 ESTATÍSTICA Unidade I Apresentação da disciplina Prezado aluno, Este texto foi produzido para apresentar os principais conceitos de estatística da maneira mais aproximada da prática administrativa possível, evitando-se, portanto, aprofundamento 5 desnecessário na área de cálculo. É necessária, no entanto, uma base matemática já adquirida em disciplinas anteriores. Na medida do possível, procurou-se rever os conceitos matemáticos necessários. O estudo da estatística, como de todas as ciências exatas, 10 obriga à repetição, o maior número de vezes possível, de exercícios de fixação. No presente material, os cálculos definidos são mostrados uma única vez, como exemplo, mas o aluno deve se lembrar de que terá à disposição nos materiais complementares uma grande quantidade de exercícios e problemas e que o 15 aprendizado somente será garantido caso eles sejam feitos em sua totalidade. Objetivamente, o primeiro passo do nosso caminhar é entender o que é, como se divide e são quais os objetivos da estatística, algo que faremos imediatamente. 20 Define-se estatística como o conjunto de métodos e processos destinados a permitir o entendimento de um universo submetido a certas condições de incerteza, ou seja, de não determinismo matemático. Por exemplo, o dimensionamento do diâmetro das hastes do amortecedor de um automóvel é feito 1 Unidade I por meio de cálculos matemáticos de elevada precisão estudados num capítulo da física chamado de resistência de materiais. No entanto, a vida útil deste mesmo amortecedor depende não só de seu dimensionamento, mas também de 5 uma série de condições em que impera a incerteza que pode, resumidamente, ser chamada de condições de uso. Neste último caso, entraríamos no campo da estatística. De modo mais sintético, poderíamos dizer que a estatística é a ciência que se ocupa de descrever, analisar e interpretar dados 10 experimentais. Para entendermos melhor o processo estatístico, é necessário definir dois conceitos básicos: população e amostra. Considera-se população o conjunto formado por todos os elementos que têm em comum a característica que 15 estamos estudando. Por exemplo, se estamos pesquisando sobre o aprendizado de música, a população é formada por todas as pessoas que aprendem ou aprenderam música em algum momento. Deve-se notar que a população estatística normalmente é 20 muito numerosa, às vezes infinita, e eventualmente formada por elementos ainda não existentes. Assim, quando queremos saber qual é a expectativa de vida de um brasileiro, estamos diante de uma população muito extensa (todos os brasileiros) e formada por elementos prováveis, visto que as pessoas que 25 estão sendo estudadas ainda não morreram. Em razão dessas características da população, o processo estatístico começa pelo estudo de uma amostra, que é um pedaço da população. Mas um pedaço coerente com a população, ou seja, que siga todas as características da população. Assim, 30 por exemplo, se determinada população tem 62% de mulheres, as amostras tiradas dela terão que ter 62% de mulheres se o sexo for fator importante no comportamento da característica estudada. 2 ESTATÍSTICA Uma amostra é finita e tem relativamente poucos elementos, de valores definidos. Deste modo, se quisermos definir a expectativa de vida de todos os brasileiros, pegaríamos uma amostra finita de poucos brasileiros já mortos. Assim, haveria 5 poucos elementos a se estudar e de valor definido (a idade em que morreram). Deve-se ressaltar que essa amostra retirada deveria reproduzir todas as condições importantes para a duração da vida da população, tais como sexo, posição socioeconômica, educação, etc. 10 Tanto os elementos das populações quanto os elementos das amostras assumem valores para a característica que estamos estudando; por exemplo, a população formada pelos seguidores religiosos pode apresentar católicos, evangélicos, espíritas, etc. Esses são alguns dos valores que a variável religião pode assumir. 15 Assim, a característica da população ou da amostra que estamos estudando pode ser expressa em termos de uma variável, que pode assumir diferentes valores. Podemos distinguir as variáveis em dois grupos: 20 25 30 • variáveis qualitativas: apresentam atributos como valor, por exemplo, cor de cabelos, opções sexuais, times de futebol etc.; • variáveis quantitativas: apresentam valores numéricos, tais como peso de pessoas, idade, número de defeitos na produção de uma peça, etc. Também podem ser divididas em duas categorias: - discretas: são variáveis que podem apresentar apenas valores predeterminados dentro de um conjunto, ou seja, não existirão valores intermediários. Exemplo: números de filhos de um casal; número de defeitos numa linha de produção; quantidade de ações em alta numa bolsa de valores, etc. Essas variáveis estão ligadas às contagens; 3 Unidade I 5 - contínuas: apresentam teoricamente qualquer valor dentro de um faixa possível. Por exemplo: pesos dos estudantes desta faculdade, diâmetros dos eixos produzidos por certa máquina; índices de inflação em vários períodos, etc. Essas variáveis estão ligadas às medições. Deve-se notar que essa diferenciação entre variáveis discretas e contínuas pode ser tênue, em função da quantidade de elementos envolvidos e da precisão de medida. Por exemplo: 10 se medirmos o diâmetro de uma peça com paquímetro, iremos obter medidas em centésimos de milímetro, quer dizer, a medida 18,56 mm na verdade é um valor entre 18,555 e 18,564; não é possível saber, a menos que troquemos o paquímetro por um micrômetro. Assim sendo, a variável contínua diâmetro da peça 15 se comporta como discreta após a precisão de centésimos de milímetro. A existência dos conceitos de população e de amostra nos conduz à diferenciação entre dois campos da estatística: a estatística descritiva e a estatística indutiva. 20 A estatística descritiva cuida da coleta, da organização, do resumo e da apresentação dos dados de um conjunto (no fundo, é um tratamento das variáveis estatísticas). Evidentemente, esse conjunto tem que ser finito e com elementos com valores definidos e determináveis, ou seja, uma amostra. 25 Já a estatística indutiva procura inferir conclusões e respaldar decisões coerentes acerca de uma população, normalmente respaldadas em dados obtidos pela estatística descritiva de uma amostra. Vamos supor que queiramos determinar a expectativa de 30 vida dos brasileiros. A população, evidentemente, é todos os brasileiros vivos. O que nos conduz a dois entraves: a quantidade de elementos da população é muito grande e os valores da 4 ESTATÍSTICA variável, idade de morte, são prováveis, não reais. A maneira de se contornar isso é através de amostragem: pegamos uma amostra (segundo regras estatísticas que veremos) que represente a população brasileira, ou seja, mesma divisão por 5 sexos, classes sociais, regiões geográficas etc., e cujos elementos, já tendo morrido, permitam a coleta das idades de morte. Essa coleta, bem como todo o tratamento posterior da amostra, é feita através da estatística descritiva, e os resultados deste tratamento estatístico da amostra são estendidos à população 10 toda, através de ferramentas da estatística indutiva. Desta forma, podemos determinar a expectativa de vida de todos os brasileiros, com algumas ressalvas: 15 • a indução vale para a população como um todo homogêneo; não é possível aplicá-la para um indivíduo específico; 20 • a previsão é de um valor provável, portanto, sujeito a um erro estatístico, ou seja, a uma faixa de incerteza, determinada estatisticamente, em torno do resultado esperado. Esse erro depende das condições da população e da amostra. Note que quando falamos de um resultado obtido para uma população, falamos em valor provável, e não num valor exato. Isso nos remete ao campo da matemática que estuda a teoria das probabilidades. 25 O estudo da teoria das probabilidades com os estudos da estatística descritiva e da amostragem são as ferramentas necessárias para a utilização da estatística indutiva. Neste curso de estatística, trataremos da estatística descritiva, ficando para o curso de estatística para administradores o estudo 30 de probabilidades e da estatística indutiva. 5 Unidade I O curso de estatística foi dividido em duas unidades, totalizando quatro módulos. No módulo I, trataremos dos assuntos referentes à seleção e à coleta de dados, ponto de partida para qualquer estudo estatístico. 5 No módulo II, iremos verificar como esses dados coletados são inicialmente tratados através da tabulação, do resumo e da representação dessas informações, tanto do ponto de vista gráfico quanto analítico. Os módulos III e IV (unidade II) tratam dos parâmetros ou 10 das medidas estatísticas. O primeiro, das medidas de posição, e o segundo, das medidas de dispersão. Terminados esses assuntos, estaremos aptos a entender o comportamento estatístico de amostras e iniciarmos os estudos da indução estatística, predizendo características de populações 15 estatísticas. Esperamos que, com esse material, você tenha a oportunidade de aprender os conceitos básicos de estatística e esteja apto para continuar os estudos nessa área quando necessário for. Bons estudos! 20 6 Prof. Maurício Martins do Fanno ESTATÍSTICA ANÁLISE EXPLORATÓRIA DE DADOS 1 COLETA DE DADOS Objetivos Entende-se por estatística o conjunto de conceitos, técnicas e ferramentas destinados a organizar, descrever, analisar e interpretar dados. Dados são valores apresentados 5 por um determinado fenômeno ou observação, como, por exemplo, as alturas dos alunos de uma classe, o salário dos funcionários de um departamento, o volume de vendas de uma empresa ou a cor dos olhos das modelos de uma agência. Esses dados são coletados em estado bruto e submetidos a 10 sucessivos tratamentos no sentido de organizá-los, resumi-los e analisá-los. Neste primeiro momento, iremos nos ater à coleta e à organização dos dados. 1.1 Dados e variáveis estatísticas Entendemos como conjunto de dados o objeto de trabalho da estatística. Esses dados são valores assumidos pelos 15 elementos de um conjunto de indivíduos que apresentam em comum uma característica estudada. Caso você olhe à sua volta na empresa em que trabalha, verá uma grande quantidade de indivíduos, todos eles dotados de infinitas características, tais como cor dos olhos e cabelos, altura e peso, salário e 20 idade, time de futebol do coração ou religião. Dessas infinitas características, estaremos atentos a uma delas, objeto do nosso estudo estatístico. Digamos que estamos, no momento, desejando entender como se comporta a remuneração dos funcionários dessa 25 sua empresa. Iremos então coletar dados relativos a essa remuneração, ou seja, os salários. Salário, portanto, será a característica que estamos estudando e que poderá assumir um determinado valor dentro de uma faixa lógica. 7 Unidade I Dizemos, assim, que nesse referido estudo salário é a variável estudada. Perceba que todos os funcionários da empresa têm uma série de outras características, mas a característica que nos interessa é o salário. As outras poderão 5 ter importância para nós, mas não será nossa variável de estudo. Coletar dados é obter os diversos valores que a variável estudada assume. Outro fator importante de ser observado é a quantidade de elementos com que temos condição de trabalhar e a 10 possibilidade ou não de se medir seu valor. Dependendo dessas duas observações, deveremos utilizar ferramentas diferentes de organização e análise dos dados. Observe os seguintes exemplos, para tornarmos mais claro o raciocínio: 15 20 25 30 8 a. desejamos saber se os chefes de família das casas da rua em que moramos são mais ou menos altos em relação ao conjunto de brasileiros de modo geral. A primeira providência a se tomar seria medir todos os chefes de família, para obter os valores da variável estudada (altura). Perceba que, a não ser que moremos numa rua muito extensa, o processo de coleta de dados não será tão trabalhoso assim, principalmente pelo fato de que todos saberão responder a altura que têm. No entanto, caso, b. desejarmos saber se os chefes de família de todas as casas de nossa cidade são mais ou menos altos em relação aos brasileiros, passaremos a ter um primeiro inconveniente: a quantidade de elementos que deverão ser medidos. Mesmo que moremos numa cidade pequena, a quantidade de dados a serem coletados pode atingir facilmente a casa dos milhares. Perceba que o trabalho que teremos em levantar esses dados possivelmente não será compensado pela informação obtida. Por outro lado, imagine a seguinte situação, em que ESTATÍSTICA 5 c. desejamos saber se as crianças da nossa rua serão mais ou menos altas em relação aos brasileiros quando crescerem. Nesse caso, a quantidade de crianças não deve ser tão grande, mas, em compensação, não teremos como medi-las no dia de hoje; elas ainda estão crescendo, portanto, a altura delas quando adultas não é um valor definido, e sim provável. Perceba, pelos exemplos acima, que, dependendo da situação, teremos dificuldades (ou facilidades) diferentes. Em estatística, 10 costuma-se dividir as situações descritas em dois grandes campos: amostra e população. Amostra é um conjunto que tem relativamente poucos elementos, e o valor da variável estudada para esses elementos é real e verificável. É o caso do item a acima. População é o 15 conjunto que tem relativamente muitos elementos e/ou cujos valores da variável estudada não são reais e verificáveis, casos dos itens b e c acima. Observe que, para configurarmos uma amostra, é necessário que a quantidade de elementos seja pequena e o valor seja real; 20 em casos contrários, estaremos configurando uma população. Note também que é evidente o fato de que situações envolvendo amostras terão tratamentos diferentes daquelas envolvendo populações. É importante também notar que, quando falamos em 25 quantidades grandes ou pequenas, estamos relativizando-as, ou seja, trabalhar com mil elementos pode ser uma grande quantidade ou uma pequena quantidade, depende dos recursos (monetários, de tempo, de espaço etc.) disponíveis. Exemplificando: suponha que queiramos levantar as 30 idades de todos os alunos que estão cursando estatística neste semestre. Caso nós tenhamos ao nosso dispor os cadastros dos alunos no sistema de informação da instituição, 9 Unidade I a quantidade de alunos será relativamente pequena, pois temos recursos suficientes, mas, se tivermos que consultar um por um dos alunos, a quantidade será relativamente grande, pois não teremos recursos para tanto. 5 De modo geral, podemos dizer que informações envolvendo amostras são obtidas através da estatística descritiva, enquanto aquelas envolvendo populações, através da estatística indutiva, e que, para conhecermos o comportamento estatístico das populações, retiramos delas 10 amostras para estudo. 1.2 Classificações das variáveis Vimos anteriormente que entendemos por variável a característica envolvida em nosso estudo estatístico. Essa variável pode se apresentar de vários tipos diferentes, os quais determinarão os estudos estatísticos possíveis. 15 Algumas variáveis expressam atributos ou qualidades dos indivíduos como, por exemplo, religião, sexo, estado civil etc. São as chamadas variáveis qualitativas. Outras variáveis apresentam como resultados possíveis valores numéricos; por exemplo, o número de filhos, a altura, salário, idade etc. São as 20 chamadas variáveis quantitativas. As variáveis qualitativas podem ser divididas, por sua vez, em duas categorias: variáveis qualitativas nominais, quando não é possível fazer qualquer tipo de ordenação, e variáveis qualitativas ordinais, quando alguma ordenação 25 é possível. Podemos citar como exemplo a pergunta: “Você pratica esportes?”. Há duas respostas possíveis: sim e não. Trata-se, portanto, de uma variável qualitativa nominal. Caso a pergunta fosse: “Com que intensidade você pratica esportes?”, a resposta poderia ser: nenhuma, pequena, média 30 ou grande. Estaríamos tratando de uma variável qualitativa ordinal. 10 ESTATÍSTICA As variáveis quantitativas, por seu lado, também podem apresentar duas categorias: as variáveis quantitativas discretas são aquelas em que os resultados formam um conjunto finito e previsível de números, enquanto que 5 as variáveis quantitativas contínuas apresentam como resultados todos os valores numéricos dentro de um intervalo de números reais. A pergunta “Quantos irmãos você tem?” produz uma variável quantitativa discreta (0,1,2,3,... irmãos). Já a pergunta “Quanto você pesa?” gera 10 uma variável quantitativa contínua (qualquer valor dentro de uma faixa lógica para um ser humano). Para simplificar, costumamos dizer que, quando contamos, estamos diante de uma variável quantitativa discreta e, quando medimos, estamos diante de uma variável quantitativa contínua. 15 Perceba que eu conto o número de irmãos que tenho e meço o meu peso numa balança. É importante observar que os estudos estatísticos apresentam quantidade de informação diferente para cada tipo de variável na seguinte sequência crescente: variáveis 20 qualitativas nominais; variáveis qualitativas ordinais; variáveis quantitativas discretas e variáveis quantitativas contínuas. 1.3 Amostragem Falamos anteriormente que amostra e populações são tratadas de maneira diversa na estatística e também que 25 os elementos de um conjunto de indivíduos têm inúmeras características, uma das quais está sendo estudada e é chamada de variável. Falta falarmos das demais características desses elementos e de algumas relações entre as populações e amostras. 30 Frequentemente, quando desejamos saber algo a respeito de uma população, utilizamos uma amostra como campo de estudo do fenômeno e expandimos (extrapolamos) as 11 Unidade I conclusões para a população. A situação mais conhecida e mais didática que podemos usar são as pesquisas eleitorais. Meses ou dias antes de uma eleição, desejamos saber (antever ou prever ou predizer) o resultado dessa eleição. Isso é possível 5 com certa margem de erro através de um processo conhecido como amostragem. Esse processo de amostragem inicia-se a partir do planejamento da amostra, que deve reproduzir em pequena escala todas as características da população. A ideia é a mesma 10 do enólogo (aquele que prova vinhos): ele não precisa beber uma garrafa inteira de vinho (ou um tonel) para dizer se o vinho é bom ou ruim; basta uma pequena dose, a amostra. Ocorre que o vinho é uma substância totalmente homogênea, todas as partes dele são idênticas. Já se fosse uma feijoada, não teríamos 15 a mesma homogeneidade. A feijoada é heterogênea. Isso significa que não podemos usar o mesmo princípio de amostragem do vinho para a feijoada? Não. Podemos usar sim, mas com alguns cuidados! Na amostra de feijoada que iremos provar, é necessário que todas as suas 20 partes sejam representadas, ou seja, precisamos pegar um prato em que estejam representados todos os pertences da feijoada (linguiças, paio, toucinho etc.). Note que é mais fácil definir a qualidade do vinho do que de uma feijoada, ou seja, termos maior margem de erro no teste 25 da feijoada que do vinho. Por quê? Justamente devido à heterogeneidade da feijoada. Anote isso; voltaremos a esse assunto oportunamente. No caso da pesquisa eleitoral, a situação é a mesma da feijoada. A população eleitoral (todos os eleitores inscritos em determinada região eleitoral) é heterogênea, logo, a amostra retirada deverá representar essa heterogeneidade naquilo que 30 é importante para a definição do voto. Vamos exemplificar numericamente. Suponha que os dados do quadro a seguir representam algumas das características da população de 12 ESTATÍSTICA eleitores de uma determinada cidade na qual o próximo prefeito será eleito em novembro. Sexo Idade Homens 48,2% Mulheres 51,8% 16 a 20 anos 12,3% 20 a 30 anos 24,6% 30 a 40 anos 26,9% 40 a 50 anos 15,8% 50 a 60 anos 14,6% acima de 60 anos 5,8% Classe econômica Time preferido de futebol A 8% B 22% C 43% D 27% Arranca Toco FC 45% Se Deixa que xuto 32% CA Avezesobrio 23% Dados fictícios Perceba que, quando fazemos uma pesquisa eleitoral, queremos saber em quem o leitor irá votar, ou seja, a 5 característica que nos interessa é a intenção de voto. Portanto, a variável de uma pesquisa eleitoral é a intenção de voto. Mas essa não é a única característica com a qual iremos nos preocupar. Sabemos por experiência anterior que, por exemplo, homens 10 e mulheres têm comportamentos diferentes na hora de votar, quer dizer, utilizam critérios diferentes para escolher suas preferências. Desta forma, quando tomarmos uma amostra, nós precisaremos tomar cuidado com a quantidade de homens e mulheres que farão parte da amostra. Não podemos pegar uma 15 amostra na qual só temos homens ou mulheres. Digamos que na cidade vamos fazer uma pesquisa eleitoral a partir de uma amostra de 1.000 eleitores. Essa amostra deverá ser formada por 482 homens (48,2% de 1.000) e por 518 mulheres (51,8% de 1.000). 20 Do mesmo modo, nós deveríamos nos comportar com relação às outras características que têm importância na definição dos votos. Isso quer dizer que deveríamos manter a proporcionalidade de eleitores com relação à idade e à classe econômica, características que sabidamente influem na 13 Unidade I definição de voto. Caso não fosse feito assim, introduziríamos uma falha no nosso processo estatístico, introduziríamos um viés estatístico. E a característica “time de futebol preferido”? Precisamos 5 nos preocupar com ela? Evidentemente que não. A preferência por um time de futebol não interfere na opção de voto (a não ser em casos muito especiais, dos quais a estatística não consegue se encarregar). Note que nós podemos, portanto, dividir as características 10 dos elementos de uma população ou de uma amostra em três categorias: a(s) características(s) estudada(s), chamada(s) variável(eis) estatística(s); características principais, que definem a proporcionalidade das populações e suas amostras e as características secundárias, que não interferem nos nossos 15 estudos estatísticos. Assim sendo, é possível assumir que, a partir de uma amostra corretamente estabelecida, é possível conhecer uma população, por maior que seja ou menos real que sejam seus elementos. O princípio é o mesmo do enólogo. Conhecermos o todo por uma 20 pequena parte dele. É claro que esse conhecimento não será composto de certezas absolutas; deverá haver alguma incerteza, em outras palavras, certa tolerância com as nossas conclusões. Assim, se numa amostra colhida para uma pesquisa eleitoral 25 for revelada a preferência de 46% para o candidato A, poderemos afirmar que a população provavelmente também terá 46% de eleitores para esse candidato. Mas isso não é uma certeza, pode haver alguma variação, para mais ou para menos. 30 14 Essa tolerância é chamada de margem de erro e depende basicamente de três fatores: ESTATÍSTICA 1. O grau de homogeneidade da população. Quer dizer, quanto mais homogênea for uma população, menor será a margem de erro. 5 10 2. O tamanho da amostra tomada. Tamanho da amostra é a quantidade de elementos pela qual é composta. Desta forma, uma pesquisa com 1.000 eleitores tem maior margem de erro do que uma feita com 5.000 eleitores. 3. O grau de confiabilidade com o qual queremos trabalhar. Podemos optar por ter maior ou menor confiança nas respostas obtidas. Quanto maior confiança quiser ter, maior será a margem de erro. 1.4 Processos estatísticos Utilizando os conceitos dos itens anteriores, podemos definir os passos do processo estatístico: 15 1. Definir o objeto do estudo, as populações e as amostras envolvidas. Planejar amostras de modo que representem corretamente, sem vieses, as populações de que foram retiradas. 2. Coletar os dados amostrais, ou seja, medir a variável estatística de cada um dos elementos da amostra. 20 3. Tabular e representar os dados colhidos na forma de tabelas e gráficos, que permitam visualizar de modo amigável as informações disponíveis. 4. Cálculo dos parâmetros estatísticos. Esses parâmetros são medidas que “resumem” as informações coletadas de modo mais imediato. 25 5. Indução de parâmetros amostrais em parâmetros populacionais ou vice-versa. Consiste em fazer a relação entre populações e amostras, conforme descrito acima. 15 Unidade I Os passos de um a cinco acima constituem o campos da estatística descritiva, objeto de estudo desta apostila. O passo cinco é o campo da estatística indutiva, assunto que veremos na disciplina Estatística para Administradores. 5 Passaremos, então, a nos preocupar com cada um dos passos acima visando percorrer todo o processo estatístico. 1.5 Coletas de dados A coleta de dados é uma operação típica de campo na qual identificamos os valores da variável estatística para todos os elementos de uma amostra previamente definida. 10 Frequentemente, essa amostra tem seus elementos definidos por escolha aleatória, ou seja, sorteamos um elemento da população para fazer parte da amostra. Como exemplo, imagine que eu, pesquisador de campo, precise entrevistar um eleitor com as seguintes características: 15 mulher; classe econômica B; grau de instrução superior; idade entre 30 e 35 anos; moradora da zona leste. Para cumprir minha tarefa, irei a um local em que mais provavelmente encontrarei alguém nessas condições e, após algumas pré-entrevistas, determinarei um elemento com 20 exatamente essas características. Esse elemento fará parte da minha amostra e para ele irei fazer as perguntas desejadas; por exemplo, em quem ele pretende votar. As respostas dos elementos escolhidos para a amostra constituirão os dados brutos ou rol do meu estudo, ou seja, 25 uma relação de respostas às minhas questões sem nenhum tipo de ordenação, classificação ou elaboração. A tabela 1 exemplifica os dados brutos de uma pesquisa feita entre 42 alunos de uma universidade a respeito de vários assuntos: 16 ESTATÍSTICA Tabela 1 - Dados brutos de uma amostra de alunos de uma universidade Ordem Nome do Aluno Estado civíl Curso matriculado Qualidade atribuída à instituição Sexo Idade em anos Renda familiar nº de DPs. 1 Daiane solteiro Jornalismo Ótima F 19 R$ 3.220,00 2 2 Alberto solteiro Administração Boa M 20 R$ 4.050,00 0 3 Rui casado Direito Regular M 25 R$ 1.950,00 4 4 Carolina casado Engenharia Ruim F 21 R$ 1.682,00 6 5 Joaquim divorciado Marketing Péssima M 28 R$ 7.850,00 8 6 Rubens solteiro Engenharia Ótima M 23 R$ 4.567,00 0 7 Jéssica solteiro Administração Boa F 20 R$ 10.567,00 0 8 Luis Carlos solteiro Engenharia Regular M 20 R$ 2.687,00 2 9 Fernando casado Direito Ótima M 27 R$ 3.654,00 1 10 Mayra solteiro Marketing Ruim F 19 R$ 956,00 1 11 Cristina solteiro Administração Boa F 18 R$ 1.350,00 0 12 Walter casado Direito Péssima M 30 R$ 4.560,00 2 13 Leonardo solteiro Jornalismo Boa M 34 R$ 5.892,00 3 M 29 R$ 7.652,00 5 14 Guilherme divorciado Engenharia Regular 15 Paula solteiro Administração Ruim F 20 R$ 1.950,00 5 16 Danilo solteiro Marketing Boa M 20 R$ 1.386,00 2 17 Camila solteiro Administração Ótima F 20 R$ 9.560,00 2 18 Pedro solteiro Direito Regular M 18 R$ 4.325,00 2 19 Vinicius casado Administração Péssima M 26 R$ 1.956,00 1 20 José solteiro Engenharia Boa M 24 R$ 2.654,00 3 21 Carlos solteiro Administração Ótima M 23 R$ 1.965,00 0 22 Vanessa solteiro Administração Ruim F 22 R$ 3.645,00 0 23 Samantha casado Jornalismo Boa F 21 R$ 2.987,00 0 24 Mauro casado Administração Regular M 29 R$ 3.652,00 0 25 Mariana solteiro Engenharia Ruim F 23 R$ 1.978,00 0 26 Juliana casado Administração Boa F 24 R$ 5.478,00 1 27 Arnaldo solteiro Marketing Regular M 26 R$ 6.352,00 4 28 Marília solteiro Administração Péssima F 24 R$ 4.231,00 2 29 Neiva solteiro Administração Boa F 27 R$ 1.289,00 3 30 Roberto solteiro Direito Regular M 23 R$ 2.987,00 4 31 Wilson divorciado Administração Ótima M 28 R$ 3.645,00 5 32 Manoel casado Direito Regular M 22 R$ 9.564,00 3 17 Unidade I 33 Marina solteiro Engenharia Boa F 21 R$ 6.523,00 4 34 Gustavo solteiro Direito Ruim M 19 R$ 4.235,00 1 35 Maicon solteiro Administração Ótima M 18 R$ 5.634,00 0 36 Ladyjane casado Administração Péssima F 34 R$ 1.965,00 0 37 Maria solteiro Direito Boa F 36 R$ 1.932,00 1 38 Gabriel solteiro Administração Regular M 27 R$ 1.002,00 0 39 Karina solteiro Jornalismo Ótima F 20 R$ 2.342,00 1 40 Diego solteiro Direito Ruim M 21 R$ 2.569,00 2 41 Marcos solteiro Engenharia Boa M 21 R$ 3.789,00 2 42 Valquiria casado Administração Ruim F 29 R$ 4.675,00 3 Observe que as características arroladas no quadro são variáveis de diferentes tipos, como mostrado abaixo: Variável Ordem Nome do aluno Estado civil Curso matriculado Qualidade atribuída à instituição Sexo Idade Renda familiar Número de DPs 18 Significado É a ordem com que coletamos os dados. Relaciona a entrevista à sequência utilizada. Tipo de variável Variável qualitativa nominal. É apenas um atributo qualitativo. Variável qualitativa nominal. É apenas um atributo qualitativo. Variável qualitativa nominal. Estado civil do aluno. É apenas um atributo qualitativo. Variável qualitativa nominal. Curso ao qual o aluno É apenas um atributo pertence. qualitativo. Variável qualitativa ordinal. É Qual é a qualidade do curso apenas um atributo qualitativo percebida pelo aluno. que mostra intensidade. Variável qualitativa nominal. M significa Masculino; F É apenas um atributo significa Feminino. qualitativo. Variável quantitativa contínua. Apesar de ser dada em anos, Quantos anos cada aluno permitiria que fosse medida tem. em valores fracionários (meses, dias, até horas). Variável quantitativa Qual é a renda da família continua. É medida em valores nuclear do aluno. fracionários. Variável quantitativa Quantas dependências o discreta. Os valores são aluno tem para cursar. obrigatoriamente inteiros. Não existe “meia DP”. O primeiro nome de cada um dos entrevistados. ESTATÍSTICA A tabela 1 relaciona uma grande quantidade de dados que dificilmente poderão ser entendidos se não forem agrupados, organizados, resumidos e apresentados de modo minimamente atraente. 5 As maneiras mais comuns de trabalharmos esses dados é o assunto do nosso próximo módulo. 2 REPRESENTAÇÃO DOS DADOS COLETADOS Objetivos Os dados brutos trazem toda informação necessária para se entender estatisticamente determinado assunto, mas como 10 o próprio nome indica, a ausência de algum refinamento faz com que não seja possível chegar-se a conclusões de qualidade. Para permitir essas conclusões e mesmo o entendimento das informações, devemos representar esses dados de uma forma mais imediata, seja analiticamente, através de quadros e tabelas, 15 seja graficamente, aproveitando-se do impacto visual que os gráficos nos trazem. Faremos isso com uma sequência de definições e procedimentos objetos deste módulo. 2.1 Conceito de frequência É o número de vezes que determinado valor (ou faixa de valores) se repete dentro da amostra. Inicialmente, podemos 20 citar: 25 • Frequência simples (fi): é o número de vezes em que determinado valor aparece, contado diretamente. O símbolo mencionado significa a frequência do iésimo valor, ou seja, de um determinado valor que será numerado em sequência. Deste modo, o primeiro valor terá a frequência f1, o segundo, a frequência f2 e assim por diante. Essa notação do iésimo termo será utilizada em todas as definições posteriores. A somatória de todas as frequências gerará 19 Unidade I a frequência total (ft), que corresponderá, evidentemente, ao número total de elementos da amostra (N). A fórmula matemática envolvendo essas definições é: n n i=1 i=1 ft = ∑ fi ou N = ∑ fi 5 10 • Frequência relativa (fri): é a frequência simples dividida pela frequência total, ou seja, é o “peso” que cada valor tem na amostra total. Pode ser apresentada em valor decimal ou em valor percentual. Evidentemente que a somatória das frequências relativas de todos os valores é igual a 1 ou 100%. fri = fi ∑ n i=1fi ou fri % = fi ∑ n i=1fi x 100 Com essa duas definições, podemos começar a agrupar os dados coletados em tabelas mais resumidas; são as chamadas tabelas ou distribuições de frequências. 2.2 Distribuições ou tabelas de frequências É o quadro que resume os valores da variável estudada na 15 amostra, através do relacionamento do valor com sua frequência. Pode assumir dois formatos diferentes: 2.2.1 Dados isolados ou dados não agrupados em classes Neste caso, os valores dos dados são tomados como foram colhidos, sem nenhum tipo de agrupamento, relacionados à sua frequência. Como os valores são exatamente como foram 20 colhidos, não há perda de precisão. O inconveniente é que pode-se gerar uma tabela de frequências com muitos dados, o que dificulta o tratamento estatístico. Normalmente, é utilizado este formato quando trabalhamos com variáveis qualitativas ou variáveis quantitativas discretas. A tabela 2 mostra alguns 20 ESTATÍSTICA exemplos de distribuições de frequências deste tipo produzidas a partir dos dados brutos constantes da tabela 1 (página 17). Perceba que ela foi construída unicamente pela contagem e pelo relacionamento dos dados coletados. Tabela 2 - Distribuições de Frequências - dados não agrupados Distribuição de frequências Distribuição de frequências Estados civis Cursos matriculados Estado Frequências relativas Curso Frequências relativas Matriculado Frequência simples Decimal Percentual fri% xi fi fri fri% Civil Frequência simples Decimal Percentual xi fi fri Casados 11 0,262 26,2% Administração 17 0,405 40,5% Divorciados 3 0,071 7,1% Direito 9 0,214 21,4% Solteiros 28 0,667 66,7% Engenharia 8 0,190 19,0% Total 42 1,000 100,0% Jornalismo 4 0,095 9,5% Marketing 4 0,095 9,5% Total ft 42 1,000 100,0% Distribuição de frequências Número de dependências Frequências relativas Número de dependências Frequência simples Decimal Percentual xi fi fri fri% 0 12 0,286 28,6% 1 7 0,167 2 9 3 Distribuição de frequências Sexo Frequências relativas Sexo Frequência simples Decimal Percentual 16,7% xi fi fri fri% 0,214 21,4% Masculino 24 0,571 57,1% 5 0,119 11,9% Feminino 18 0,429 42,9% 4 4 0,095 9,5% Total ft 42 1,000 100,0% 5 3 0,071 7,1% 6 1 0,024 2,4% 8 1 0,024 2,4% Total ft 42 1,000 100,0% Agrupamento de dados brutos relacionados na tabela 1 2.2.2 Dados agrupados em classes 5 Neste caso, os valores são agrupados por classes, o que reduz a quantidade de informações trabalhadas, mas provoca, 21 Unidade I consequentemente, uma perda de precisão. Esse formato é o indicado quando trabalhamos com variáveis quantitativas contínuas. A construção dessa tabela é mais trabalhosa que a 5 anterior e se justifica pelo fato de que apresenta os dados de modo mais resumido. Caso não a utilizássemos, iríamos produzir uma tabela de frequências muito extensa, com excesso de valores diferentes, cada um deles com baixa frequência. Para construí-la, necessitamos definir alguns 10 conceitos e tomar algumas decisões. A primeira providência que devemos tomar é escolher o número de classes (n) em que iremos agrupar os dados. Deve-se notar que, se utilizarmos muitas classes, estaremos aumentando o trabalho no tratamento dos dados, e se 15 utilizarmos poucas, estaremos prejudicando a precisão das conclusões. Existem muitas recomendações diferentes para a adoção do número de classes; iremos adotar a relação de Sturges: n = 1+1,44 lnN 20 Onde n é o número de classe recomendado e N é o número de total de elementos da nossa amostra. Lembre-se de que: N = ft Na tabela 1, nós temos uma amostra de 42 alunos, portanto, caso queiramos montar a tabela de frequências das rendas 25 familiares deles (que é uma variável quantitativa contínua), deveremos usar 7 classes: n = 1+1,44 ln42 => n = 1+1,44 x 3,74 => n = 6,4 Obs.: evidentemente, não podemos usar 6,4 classes. Optamos então pelo valor inteiro mais próximo acima ou 22 ESTATÍSTICA abaixo. Optamos por usar 7 classes porque assim teremos mais precisão do que com 6. Essas sete classes devem abranger todos os valores do rol que está sendo estudado, desde o menor até o maior; deste 5 modo, devemos determinar estes valores, que são chamados, respectivamente, de limite mínimo da distribuição (Lmin) e limite máximo da distribuição (Lmax). Em tese, o valor do limite inferior da distribuição coincide com o valor inicial da primeira classe da tabela (esses valores 10 iniciais de cada classe são chamados de limites inferiores de classe (lii)), e o limite superior da distribuição coincide com o valor final da última classe da distribuição (esses valores finais de cada classe são chamados de limites superiores de classe (lsi)). Na prática, pode ser necessário algum ajuste desses últimos dois 15 valores para podermos trabalhar com dados arredondados. Entre o limite superior e o limite inferior de cada classe, existe um intervalo chamado de intervalo de classe (h), e ele deve ser determinado a partir da amplitude total (At), que é a diferença entre o maior e o menor valor do rol e do número de 20 classes, utilizando as seguintes fórmulas: At n A t = Lmax − Lmin h= Deste modo, o limite superior de cada classe será o valor inferior dela mesma mais a amplitude de classe, ou seja: 25 lsi = lii+h Observemos os 42 valores relacionados na tabela 1 na coluna “Renda familiar”. Iremos agrupá-los em 7 classes conforme os passos a seguir. 23 Unidade I Podemos determinar o intervalo (ou a amplitude) de classes, desde que tenhamos a amplitude total, e para tanto precisamos determinar os valores máximos e mínimos da distribuição, que, no nosso exemplo, são, respectivamente: 5 Lmax = R$ 10.567,00 Lmin = R$ 956,00 Logo, a amplitude total será: At = Lmax - Lmin => At =10.567 - 956 => At = R$ 9.611,00 Consequentemente, a amplitude de cada classe1 será: 10 h= At 9611 => h = => h = R$1.373, 00 n 7 Definidos o número de classes e a amplitude de classe, podemos montar a tabela de frequências. O limite inferior da primeira classe coincide com o limite inferior da distribuição, e o limite da oitava (e última classe) coincide com o limite superior 15 da distribuição (ressalvando o exposto no rodapé). Os demais limites superiores de classe são obtidos somandose o limite inferior da classe com a amplitude da classe. O limite inferior de uma classe tem o mesmo valor do limite superior da classe inferior. Assim, o limite superior da primeira classe é dado 20 por: ls1 = 956 + 1373 = > ls1 = 2329 E o limite inferior da segunda classe é dado por: li2 = ls1 = > li2 = 2329 Neste exemplo, a amplitude de classe é um valor exato dentro da quantidade de casas decimais utilizadas; se isso não ocorresse, seria necessário ajustar a amplitude total de modo que a amplitude de classe assumisse um valor exato. Assim sendo, o limite superior da distribuição ou o limite inferior ou ambos deveriam ser alterados para corresponderem à nova amplitude total, quando da montagem da tabela de frequências. 1 24 ESTATÍSTICA Devemos definir também qual dos limites será aberto e qual será fechado de modo que não haja possibilidade de algum valor ficar sem sua classe perfeitamente definida. Entende-se por limite fechado aquele que inclui o valor 5 nominal, e por limite aberto, aquele que não inclui. Uma barra vertical indica o limite fechado, e sua ausência, o limite aberto. A simbologia para um e para outro é a seguinte: |------- Limite fechado (obviamente à esquerda) ------- Limite aberto (tanto à direita quanto à esquerda) 10 Note, na tabela 3, que a primeira classe é limitada pelos valores 956 e 2329, sendo o valor 956 um limite fechado e 2329, aberto. Isso quer dizer que o valor 956 está incluído nesta classe, e o 2329, na classe seguinte. Pode-se fixar de modo arbitrário os limites aberto ou fechado, desde que para cada valor exista uma e apenas uma 15 classe possível. Definidas as classes, procedemos à contagem dos elementos abrangidos por cada uma delas. O número de elementos encontrados em cada uma delas é a já definida frequência 20 simples. Tabela 3 - Distribuições de frequências - dados agrupados Renda familiar Classe Limites de classes em R$ número li ls Frequências relativas Contagem Frequência simples Decimal Percentual 1 956 |----- 2329 IIIII IIIII III 13 0,310 31,0% 2 2329 |----- 3702 IIIII IIIII I 11 0,262 26,2% 3 3702 |----- 5075 IIIII III 8 0,190 19,0% 4 5075 |----- 6448 IIII 4 0,095 9,5% 5 6448 |----- 7821 II 2 0,048 4,8% 6 7821 |----- 9194 I 1 0,024 2,4% 7 9194 |----- 10567 III 3 0,071 7,1% 42 1,000 100,0% Total ft 25 Unidade I Perceba que transformamos 42 informações em 7, o que nos poupará muito tempo e custo nos estudos estatísticos, além de nos permitir uma melhor visualização dos dados. 2.3 Frequências acumuladas Voltando aos dados da tabela 1, poderiam surgir questões do 5 tipo: quantos alunos têm idade superior a 23 anos? Ou então, quantos alunos têm renda familiar acima de R$ 5.000,00? Ou ainda, quantos alunos acham que a faculdade é acima de regular? Essas questões são respondidas com as chamadas frequências acumuladas, que podem ser crescentes e decrescentes. 10 Assim, podemos conceituar e calcular as frequências acumuladas acima de (ou decrescentes), e as frequências acumuladas, abaixo de (ou crescentes), respectivamente. As frequências acumuladas acima de (ou decrescentes) correspondem à quantidade total de elementos que existem 15 na amostra acima de dado valor. No caso de dados agrupados, a frequência acumulada acima de determinada classe é a somatória das frequências posteriores, incluindo a da própria classe. Deste modo, a frequência acumulada acima da primeira classe é a frequência total, e a da segunda classe é a frequência 20 total menos a frequência da primeira classe e assim por diante. Notar que a frequência acumulada acima da última classe é a frequência simples da própria classe. Raciocínio oposto se faz para a frequência acumulada abaixo de (ou frequência crescente). Nesse caso, a frequência 25 acumulada abaixo de uma classe (ou valor) é a somatória da quantidade de elementos de menor valor, incluída a frequência da própria classe. Assim sendo, a frequência acumulada abaixo da primeira classe é a frequência dela mesma, a da segunda é a soma das frequências da primeira e segunda classe e assim 30 por diante. Notar que a frequência acumulada abaixo da última classe é a frequência total. 26 ESTATÍSTICA A tabela 4 apresenta os cálculos feitos para a variável “quantidade de dependências”, e a tabela 5, para a variável “Idades”, sempre a partir dos dados da tabela 1. Tabela 4 - Distribuições de frequências - dados não agrupados Número de dependências Frequências relativas Frequências acumuladas Número de dependências Frequência simples Decimal Percentual Abaixo de ou crescente Acima de ou decrescente xi fi fri fri% fac↓ fac↑ 0 12 0,286 28,6% 12 42 1 7 0,167 16,7% 19 30 2 9 0,214 21,4% 28 23 3 5 0,119 11,9% 33 14 4 4 0,095 9,5% 37 9 5 3 0,071 7,1% 40 5 6 1 0,024 2,4% 41 2 8 1 0,024 2,4% 42 1 Total ft 42 1,000 100,0% Tabela 5 - Distribuições de frequências - dados agrupados Idades Classe número Limites de classes em anos li Frequência simples Frequências relativas Frequências acumuladas Decimal Percentual Abaixo Acima de de ou ou crescente decrescente ls fi fri fri% fac↓ fac↑ 1 18 |--- 21 13 0,310 31,0% 13 42 2 21 |--- 24 11 0,262 26,2% 24 29 3 24 |--- 27 6 0,143 14,3% 30 18 4 27 |--- 30 8 0,190 19,0% 38 12 5 30 |--- 33 1 0,024 2,4% 39 4 6 33 |--- 36 3 0,071 7,1% 42 3 42 1,000 100,0% Total 27 Unidade I 2.4 Representações gráficas Os dados agrupados em tabelas de frequências mantêm basicamente a mesmas informações do rol, com a diferença de que são mais resumidos, fáceis de entender e mais impactantes. Mais impactantes ainda são os dados organizados 5 e apresentados na forma de gráficos. A visualização da informação é normalmente um meio de comunicação mais eficaz dos que as tabelas e os quadros analíticos, apesar de que haverá sempre uma perda parcial das informações, que será largamente compensada pela concisão e pela facilidade 10 de interpretação dos gráficos. Existe uma infinidade de gráficos diferentes, cada um deles adequando-se a determinadas finalidades. Os recursos eletrônicos, em especial planilhas como o Excel, tornaram mais simples a elaboração e mais atrativo o uso de informações 15 gráficas. Essa enorme variedade pode, no entanto, ser agrupada em alguns tipos principais dos quais os outros são variações estéticas e artísticas. A seguir, mostraremos os tipos mais comuns e usados de gráficos 2.4.1 Histogramas São dos mais simples e utilizados gráficos na estatística. 20 Representam, normalmente, a frequência simples através de linhas verticais ou colunas cuja altura é proporcional à frequência do valor na qual está centrada. Para dados quantitativos não agrupados, utilizam-se linhas verticais posicionadas no valor correspondente e desenhadas 25 sobre um plano cartesiano. A tabela 6 e o gráfico 1 mostram o histograma do número de dependências entre os alunos da tabela 1. 28 ESTATÍSTICA Tabela 6 - Distribuição de frequência Número de dependências Número de dependências Frequência simples 0 12 1 7 2 9 3 5 4 4 5 3 6 1 8 1 Total 42 Gráfico 1 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 Número de dependências por aluno 8 9 Para dados agrupados em classes, as linhas verticais transformam-se em colunas cuja largura da base é proporcional ao intervalo de classe. A tabela 7 e o gráfico 2 referem-se à renda familiar dos alunos da amostra relacionada na tabela 1. Tabela 7 - Distribuições de frequências - dados agrupados Renda familiar Classe Frequência Limites de classes em R$ número simples 1 2 3 4 5 6 7 Total ft li 956 2329 3702 5075 6448 7821 9194 |----|----|----|----|----|----|----- ls 2329 3702 5075 6448 7821 9194 10567 fi 13 11 8 4 2 1 3 42 29 Unidade I Frequência simples Gráfico 2 - Renda familiar 14 12 10 8 6 4 2 0 956 2329 3702 5075 6448 7821 9194 10567 Renda mensal 2.4.2 Gráfico de colunas É muito semelhante ao histograma, mas, normalmente, é utilizado para representar variáveis qualitativas, nominais ou ordinais. A frequência continua sendo colocada no eixo vertical, mas, no eixo horizontal, são colocados os atributos. Além disso, como regra, as 5 colunas são desenhadas separadas umas das outras. A tabela 8 e o gráfico 3 são exemplos do gráfico de colunas, representando os cursos em que os alunos da tabela 1 estão matriculados. Tabela 8 - Distribuição de frequência Cursos matriculados Curso matriculado Frequência simples xi fi Administração 17 Direito 9 Engenharia 8 Jornalismo 4 Marketing 4 Total ft 42 Frequência simples Gráfico 3 - Cursos matriculados 18 16 14 12 10 8 6 4 2 0 Administração Direito Engenharia Cursos 30 Jornalismo Marketing ESTATÍSTICA 2.4.3 Gráfico de barras Este gráfico é uma variação dos gráficos de colunas e dos histogramas. Nele, as frequências são representadas no eixo horizontal, e os atributos ou valores das variáveis são representados no eixo vertical. Os gráficos 4 e 5 e as tabelas 9 e 5 10 representam, respectivamente, as variáveis sexo e idade dos alunos relacionados na tabela 1. Tabela 9 - Distribuição de frequência Sexos Sexo Frequência simples xi fi Masculino 24 Feminino 18 Total ft 42 Gráfico 4 - Sexos Sexos Feminino Masculino 0 5 10 15 20 Quantidade de aluno 25 30 Tabela 10 - Distribuições de frequências - dados agrupados Idades Classe número Limites de classes em R$ li Frequência simples ls fi 1 18 |----- 21 13 2 21 |----- 24 11 3 24 |----- 27 6 4 27 |----- 30 8 5 30 |----- 33 1 6 33 |----- 36 3 Total ft 42 31 Unidade I Gráfico 5 - Idades 33|----36 Idades 30|----33 27|----30 24|----27 21|----24 18|----21 0 2 4 6 8 10 Número de alunos 12 14 2.4.4 Diagrama de ogiva São gráficos frequentemente destinados a representar as frequências acumuladas, apesar de que nada impede que representem frequências simples ou frequências relativas. Quando representam frequências acumuladas, recebem o nome 5 de ogivas de Galton. A ogiva é formada pela sucessão de segmento de retas que unem os pontos coordenados formados por (valor; frequência), como no caso representado na tabela 11 e no gráfico 6, que informam o comportamento acumulado da variável quantidade 10 de dependências dos nossos já conhecidos alunos da tabela 1. Tabela 11 - Distribuição de frequência - dados não agrupados Número de dependências 32 Número de dependências Frequências acumuladas Abaixo de ou crescente Valor Frequência 0 12 1 19 2 28 3 33 4 37 5 40 6 41 7 41 8 42 ESTATÍSTICA Qtde. Acumulada de DPs Gráfico 6 - Quantidade de dependências 45 40 35 30 25 20 15 10 5 0 0 1 2 3 4 5 Quantidade de alunos 6 7 8 Percebam que, no gráfico anterior, por ser uma variável quantitativa discreta, cada ponto é facilmente determinado pela sua coordenada y (quantidade de Dps) e pela coordenada x (quantidade de alunos com Dps). Mas se nós formos trabalhar 5 com variáveis quantitativas contínuas, teremos dificuldades em identificar a variável x porque ela não é mais um valor, mas uma faixa de valores. Para resolver esse impasse, introduziremos um novo conceito que nos será importante sempre que estivermos 10 trabalhando com variáveis contínuas: o ponto médio de classe. O ponto médio de classe é o valor intermediário aos limites superior e inferior de classe, ou seja: pmi = 15 lsi + lii 2 Onde o índice i corresponde ao número da classe. Na tabela 12, estão calculados os pontos médios para as classes de rendas familiares dos nossos conhecidos alunos, e o gráfico 7 representa as frequências acumuladas acima de (ou decrescentes) da referida distribuição. 33 Unidade I Tabela 12 - Distribuições de frequências - dados agrupados Renda familiar Classe número Limites de classes em R$ li Pontos médios de classe Frequências acumuladas Abaixo de ou crescente ls pmi fac↑ 1 956 |---- 2329 1642,5 13 2 2329 |---- 3702 3015,5 24 3 3702 |---- 5075 4388,5 32 4 5075 |---- 6448 5761,5 36 5 6448 |---- 7821 7134,5 38 6 7821 |---- 9124 8507,5 39 7 9124 10567 9880,5 42 Freq. acumulada de alunos Gráfico 7 - Rendas familiares 45 40 35 30 25 20 15 10 5 0 1642,5 3015,5 4388,5 5761,5 Renda em R$ 7134,5 8507,5 2.4.5 Setorgrama É também chamado de gráfico de setores ou, mais vulgarmente, de gráfico de pizza. É a representação típica das frequências relativas, pois é como essas mostram a participação da parte no todo. O todo, no caso, é representado pelo círculo 5 (a pizza), e cada valor ou classe de valores, por um setor circular (a fatia da pizza) de ângulo proporcional à participação deste valor ou classe de valores. O cálculo do setor circular é feito por regra de três, ou seja, 100% está para 360º assim como x% está para yº. 34 ESTATÍSTICA Os gráficos 8 e 9 são os setorgramas das distribuições de cursos matriculados e de idade, respectivamente, dos nossos tradicionais alunos da tabela 1. As tabelas 13 e 14 apresentam os valores dos ângulos calculados, para efeito 5 de demonstração; atualmente, este cálculo não é mais necessário porque usaremos sempre recursos computacionais para gerar os gráficos. Tabela 13 - Distribuição de frequências Cursos matriculados Curso matriculado Frequência simples Frequências relativas Decimal Ângulo do setor circular Percentual αº Administração 17 0,405 40,5% 146 Direito 9 0,214 21,4% 77 Engenharia 8 0,190 19,0% 69 Jornalismo 4 0,095 9,5% 34 Marketing 4 0,095 9,5% 34 Total 42 1,000 100,0% 360 Gráfico 8 - Cursos matriculados 10% 10% Administração Direito 40% 19% Engenharia Jornalismo Marketing 21% 35 Unidade I Tabela 14 - Distribuições de frequências - dados agrupados Idades Limites de classes em anos Classe número li Frequência simples Frequências relativas Decimal Percentual Ângulo do Setor Circular αº ls 1 18 |---- 21 13 0,310 31,0% 111 2 21 |---- 24 11 0,262 26,2% 94 3 24 |---- 27 6 0,143 14,3% 51 4 27 |---- 30 8 0,190 19,0% 69 5 30 |---- 33 1 0,024 2,4% 9 6 33 |---- 36 3 0,071 7,1% 26 42 1,000 100,0% 360 Total 3% 7% Gráfico 9 - Idades dos alunos 18 |---- 21 21 |---- 24 19% 24 |---- 27 31% 27 |---- 30 30 |---- 33 14% 33 |---- 36 26% 2.4.6 Gráfico de dispersão É o gráfico que relaciona duas variáveis numéricas diferentes, como, por exemplo, salários e idades. Utilizaremos esse gráfico principalmente quando discutirmos regressão e correlação. Neste momento, daremos apenas um exemplo 5 dele utilizando os dados da tabela 15 e mostrando-o no gráfico 10. 36 ESTATÍSTICA Tabela 15 Saláríos e tempos na função de gerente de 1ª linha Tempo de exercício na função (em anos) Ganho médio 2 R$ 2.650 3 R$ 3.350 4 R$ 4.100 5 R$ 4.321 6 R$ 4.600 7 R$ 5.725 8 R$ 6.240 9 R$ 7.450 10 R$ 7.500 11 R$ 7.900 12 R$ 8.200 Ganhos médios Gráfico 10 - Salários x tempo R$ 9.000 R$ 8.000 R$ 7.000 R$ 6.000 R$ 5.000 R$ 4.000 R$ 3.000 R$ 2.000 R$ 1.000 R$ 0 0 2 4 6 8 10 Tempo em anos na função 12 14 Como falado anteriormente, os gráficos têm uma grande aplicação porque apresentam os dados estatísticos de maneira agradável e impactante, permitindo que o leitor ou o assistente de uma apresentação compreenda com facilidade e rapidez as 5 informações apresentadas. Deve-se, no entanto, tomar cuidado para que essas informações sejam mostradas com qualidade, em especial evitando-se os seguintes vícios: 1. Gráficos atulhados com muitas figuras e informações pobres. 37 Unidade I 2. Ausência de escala correta, que induza o leitor a dar maior ou menor importância a determinado elemento do gráfico do que o real. 5 3. Eixos comprimidos, de modo que muitas informações fiquem concentradas em pequeno espaço do gráfico. 4. Ausência da origem, ou seja, do ponto zero, que pode induzir o leitor a erro. 38