ISBN 978-85-8015-053-7 Cadernos PDE VOLUME I I Versão Online 2009 O PROFESSOR PDE E OS DESAFIOS DA ESCOLA PÚBLICA PARANAENSE Produção Didático-Pedagógica GOVERNO DO PARANÁ SECRETARIA DE ESTADO DA EDUCAÇÃO DO PARANÁ PROGRAMA DE DESENVOLVIMENTO EDUCACIONAL – PDE FORMAÇÃO CONTINUADA EM REDE CADERNO PEDAGÓGICO ESTATÍSTICA APLICADA COM O USO DA INFORMÁTICA SIRLEI DA APARECIDA KURCREVSKI calipolensebasket.wordpress.com PITANGA 2010 2 GOVERNO DO PARANÁ SECRETARIA DE ESTADO DA EDUCAÇÃO DO PARANÁ PROGRAMA DE DESENVOLVIMENTO EDUCACIONAL – PDE FORMAÇÃO CONTINUADA EM REDE ESTATÍSTICA APLICADA COM USO DA INFORMÁTICA Professora PDE: Sirlei da Aparecida Kurcrevski Disciplina: Estatistica Professor Orientador: Professor Mestre: SAULO H. WEBER UNIVERSIDADE ESTADUAL DO CENTRO-OESTE-UNICENTRO PITANGA 2010 3 SUMÁRIO Apresentação ...................................................................................................................... 04 Unidade I – Conceitos estatísticos .................................................................................... 06 Módulo I – Revisão histórica e conceitos.............................................................. 07 Módulo II – População e amostras em pesquisas ................................................ 20 Módulo III – Apuração dos resultados em uma pesquisa estatística ................ 30 Módulo IV – Gráficos estatísticos ......................................................................... 37 Módulo V – A utilização de planilhas eletrônicas para análise estatística ....... 51 Unidade II – Investigação Estatística ............................................................................... 53 Módulo I – Conteúdos e objetivos a serem trabalhados ..................................... 54 Módulo II – Recursos, habilidades e interpretação dos resultados com a utilização de planilhas ........................................................................................... 59 CONSIDERACOES FINAIS............................................................................................ 61 REFERËNCIAS................................................................................................................ 62 Anexo .................................................................................................................................. 63 4 APRESENTAÇÃO Na busca da melhoria da qualidade do ensino, enquanto profissionais da área da educação, procuramos encontrar formas que maximizem o processo de aprendizagem em um contexto focado na realidade do aluno. Esta tem sido a principal busca dos educadores, sobretudo na área de ciências exatas. Consciente de que a solução para a melhoria do ensino/aprendizagem nas ciências constitui-se em um processo educacional contínuo coletivo e que demanda a socialização dos métodos implementados, apresentamos esse trabalho. Este Caderno Pedagógico faz parte do Projeto de Intervenção Pedagógica na Escola, pensado a partir da realidade da escola pública, principalmente o EJA, apresentando-se como atividade relacionada ao Programa de Desenvolvimento Educacional-PDE, proposto pela Secretaria de Estado da Educação do Paraná. O enfoque desta produção consubstancia-se no fato de que a evolução tecnológica tem disponibilizado novas formas de comunicações. Dentre elas estão às comunicações estatísticas, utilizando-se de tabelas e gráficos, que permitem disponibilizar uma grande quantidade de informações. Assim essa ferramenta matemática, encontra-se cada vez mais presente em jornais; revistas e panfletos dentre outros. Portanto, para se ter uma compreensão mais ampla e critica da realidade é necessário saber ler e interpretar tabelas e gráficos. Contudo observa-se que os alunos, em sua grande maioria, apresentam dificuldades na leitura e interpretação gráfica, tornando-se necessário implementar ações educativas que possam minimizar essas dificuldades. Para contribuir com a melhoria do processo de ensino, este material teórico foi concebido tendo como referencia não apenas as teorias estatísticas disponíveis como também a elaboração de um trabalho de pesquisa com os alunos. Para a conclusão deste trabalho de pesquisa, os resultados serão analisados através da utilização de planilhas eletrônicas, utilizando-se os equipamentos computacionais disponibilizados pelo Estado. Esta relação teoria/prática com resultados obtidos com o auxilio da computação encontra-se em harmonia com as Diretrizes Curriculares da Educação de Jovens e Adultos (2006, p.27) que prega “... enfrentar problemas novos construindo soluções originais com agilidade e rapidez, a partir do 5 uso metodologicamente adequado de conhecimentos científicos; tecnológicos e sociohistoricos...” O Caderno Pedagógico foi dividido em duas unidades, a primeira tratando da fundamentação teórica sobre os conceitos estatísticos básicos e a segunda sobre investigação estatística, composta de uma pesquisa de campo. Objetivamos, por meio do Caderno Pedagógico, contribuir com o processo de ensino, acreditando que este material possa ser “útil para aflorar maiores reflexões sobre o ensino da estatística.” Juntos buscaremos construir uma educação mais democrática, participativa e voltada para a inclusão das tecnologias no processo de ensino. 6 UNIDADE I CONCEITOS ESTATÍSTICOS 7 MÓDULO I REVISÃO HISTÓRICA E CONCEITOS 8 REVISÃO HISTÓRICA Origem: Embora a palavra estatística ainda não existisse, há indícios de que 3000 anos a.C. se faziam censos na Babilônia, China e Egito. A própria Bíblia leva a essa recuperação histórica: o livro quarto (Números) do Velho Testamento começa com uma instrução a Moisés. Fazer um levantamento dos homens de Israel que estivessem aptos a guerrear. A palavra estatística vem de “STATUS” (Estado, em latim). Sob essa palavra acumularam-se descrições e dados relativos ao Estado. A Estatística, nas mãos dos estadistas constituiu-se verdadeira ferramenta administrativa. Evolução: A evolução da estatística fez com que “Raciocinar estatisticamente será H.G. Wells, há um século, dissesse: um dia tão necessário quanto à habilidade de ler e escrever”. Atual: Historicamente, o desenvolvimento e o crescimento da estatística moderna podem ser relacionados, como vimos, a três fenômenos isolados: a necessidade do governo de coletar dados sobre os cidadãos; o desenvolvimento da teoria da probabilidade e o advento da informática. A observação histórica revela que durante as civilizações egípcia, grega e romana, os dados eram obtidos principalmente com o objetivo de recolher imposto e para o recenseamento militar. Na idade média, as instituições religiosas freqüentemente mantinham registros relativos a nascimentos, mortes e casamentos. Nos EUA, mantinham-se vários registros durante o período colonial e a partir de 1790 a Constituição deste país passou a exigir um censo a cada 10 anos. De fato a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. As tabelas se tornaram mais completas, levando a necessidade da elaboração dos primeiros gráficos para representação de dados coletados e tabelados estatisticamente. Com a utilização do estudo das probabilidades para a analise e interpretação de fenômenos coletivos a Estatística deixou de ser uma simples captação de dados numéricos. 9 A base dos estudos da Estatística é intimamente ligada aos fenômenos coletivamente típicos de populações que apresentam uma característica comum. AMOSTRAGEM, ESTATÍSTICA DESCRITIVA, PROBABILIDADES E INFERÊNCIA ESTATÍSTICA INTRODUÇÃO A Estatística pode ser considerada como um método quantitativo que se preocupa e coletar, organizar, analisar e interpretar um conjunto de observações, visando à tomada de decisões. O principal objetivo da Estatística é possibilitar o estudo de conclusões para o todo “População”, a partir de informações e /ou observações de parte do todo “Amostra”. DEFINIÇÃO: É a Ciência dos dados, constituída de um conjunto de métodos e processos quantitativos que servem para estudar e medir fenômenos coletivos. Assim, a Estatística permite resumir, descrever, diagnosticar ou estimar fenômenos coletivos baseados em estudos ou medições a respeito do fenômeno ou da determinação de alguns de seus indicadores. Pode-se dizer que toda ciência que manipula dados experimentais necessita da Estatística como método de análise de dados, para que o pesquisador possa tirar conclusões que tenham validade científica. Na área de Engenharia, a aplicação da Estatística é muito vasta, estando presente principalmente no estudo do controle estatístico da qualidade industrial, onde a técnica de controle tem evoluído e proporcionado resultados importantes. Para ilustrar, suponha um processo produtivo onde ao se fabricar certa peça, uma de suas dimensões é planejada em 5 cm com desvio padrão de 0,02 cm, Um conjunto de 36 peças fabricadas forneceu uma média de 4,95 cm; podemos dizer que elas estão dentro da especificação desejada? O comprimento médio verdadeiro é menor que 5 cm? O número de peças observadas é suficiente para se obter conclusões acerca de toda produção? Pode-se constatar uma série de indagações que poderiam surgir e cujas respostas serão possíveis graças aos métodos desenvolvidos mais adiante. O estudo que irá se desenvolver pode ser dividido em quatro partes: Estatística Descritiva, Probabilidades, Amostragem e Inferência Estatística. A Estatística Descritiva se 10 preocupa apenas em organizar e descrever um conjunto de observações. O estudo da Amostragem vai possibilitar o conhecimento das principais técnicas de obtenção de amostras bem como suas aplicações. O estudo de Probabilidades será necessário para que possamos desenvolver os principais métodos de Inferência Estatística. A Inferência Estatística vai possibilitar a tomada de decisões acerca de populações partindo de amostras. ESTATÍSTICA GERAL Visa elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos coletivos de massa. A estatística matemática e a parte da estatística geral que tem por finalidade o estudo das propriedades matemáticas dos fenômenos coletivos de massa e a dedução e demonstração rigorosa dos procedimentos e formulas usada. A estatística geral ainda pode ser dividida em dois grandes campos. ESTATÍSTICA DESCRITIVA - consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um numero pequeno de medidas, substitutas e representantes daquela massa de dados. Nesse aspecto, trata da coleta, de organização, classificação, apresentação e descrição dos dados observados, referindo-se a maneira de apresentar um conjunto de dados em tabelas e gráficos e a maneira de resumir, através de certas medidas, as informações contidas nestes dados. ESTATÍSTICA INDUTIVA - refere-se a um processo de generalização, a partir de resultados particulares e, consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo (população) a partir de uma parte do universo (amostra). O processo de generalização, que e característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza e tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. O MÉTODO ESTATÍSTICO Método é um conjunto de meios dispostos convenientemente para se chegar a um fim que se deseja. 11 Muitos dos conhecimentos que temos foram obtidos na antiguidade por acaso e outros, por necessidades práticas, sem aplicação de um método. Atualmente, quase todo acréscimo de conhecimento resulta da observação e de um estudo. Dos métodos científicos, destacam-se o método experimental e estatístico. O método experimental consiste em manter constantes todas as causas (fatores) e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. E o método preferido no estudo das ciências da natureza, como a Física, a Química, etc. O método estatístico muitas vezes há necessidade de descobrir fatos em um campo em que o método experimental não pode ser aplicado, nas ciências sociais, por exemplo, já que os vários fatores que afetam o fenômeno em estudo não podem permanecer constantes enquanto se faz variar a causa que, naquele momento interessa que seja avaliada. (como exemplo, podese citar a determinação das causas que definem preço de uma mercadoria. Para ser aplicado o método experimental, terá que fazer variar a quantidade da mercadoria e verificar se tal fato ira influenciar seu preço, porem, seria necessário que não houvesse alteração nos outros fatores. Assim, deveria existir, no momento da pesquisa, uma uniformidade dos salários, o gosto dos consumidores deveria permanecer constante, seria necessária a fixação do nível geral dos preços das outras necessidades etc. Mas isso tudo e impossível). O método estatístico, embora mais difícil e menos preciso, diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influencias cabem a cada uma delas. FASES DO MÉTODO ESTATÍSTICO As principais fases do Método Estatístico são: Definição ou Delimitação do problema Planejamento Execução Definição ou Delimitação do problema: É saber exatamente aquilo que se deseja pesquisar ou analisar. Saber que tratamento Estatístico é de interesse consistindo em uma definição ou formulação correta do problema a ser estudado. Além de considerar minuciosamente o problema do estudo um pesquisador deve levantar e examinar trabalhos realizados no mesmo 12 campo e em campos análogos que possam dar informações preliminares antes de se dedicar diretamente à Pesquisa. Uma lista de fatores relevantes deverá resultar dessa investigação preliminar. Saber exatamente o que se pretende pesquisar é o mesmo que definir o problema corretamente. Planejamento: Consiste na definição dos objetivos da pesquisa e de toda a operacionalização. É a determinação das fontes de dados e como obter as informações, ou seja, a escolha do método de pesquisa; da forma de coleta dos dados; definir claramente que tipo de delineamento estatístico será empregado ou, no caso de aplicação de questionários, escolher corretamente as perguntas, verificar sua correta formulação; da construção e teste do instrumento de coleta dos dados; da definição do plano de amostragem e do tamanho da amostra; do processamento e análise dos dados; da definição dos recursos necessários (humanos, financeiros, materiais e tecnológicos); da definição dos procedimentos de campo; da definição de responsabilidades, cronograma e definição de custos, prazos e datas para o cumprimento de cada etapa da pesquisa. São fases do planejamento: Definição clara dos objetivos da pesquisa: A definição do objetivo da pesquisa deve estar perfeitamente amarrada à solução do problema de pesquisa. Alem disso, devem ser levados em consideração. tempo disponível; recursos disponíveis (físicos, humanos, financeiros e tecnológicos); acessibilidade aos detentores dos dados; disponibilidade de meios de captação dos dados. EXEMPLO: Qual a eficiência dos programas educacionais do Governo Federal? Objetivo Principal: Reunir informações que possibilitem ao Governo determinar quais programas educacionais alcançam melhores níveis de eficiência. Objetivos Secundários: apontar em que nível os objetivos estão sendo cumpridos; determinar o número de beneficiados em cada programa; verificar se o recurso disponibilizado foi alocado corretamente. 13 FORMULAÇÃO DE QUESTÕES E HIPÓTESES: São indagações amplas, que, para serem respondidas, vão exigir a colocação de um conjunto de perguntas especificas no questionário. Em relação ao exemplo anterior, são questões de pesquisa: Quais programas estão cumprindo seus objetivos. Quantas pessoas são beneficiadas por este ou aquele programa. Quando a pesquisa quer relacionar causa e efeito entre variáveis, surge a necessidade do estabelecimento de hipóteses ou proposições de pesquisa. Uma hipótese consiste numa afirmação sobre o possível relacionamento de causa e efeito dentre variáveis. Esta hipótese será verificada por meio das informações obtidas pela pesquisa e poderá ser rejeitada ou não. Em relação ao exemplo anterior, são hipóteses de pesquisa: o número de beneficiados pelo programa atingiu o patamar mínimo previamente estabelecido, então o programa cumpre seus objetivos. os recursos disponibilizados foram alocados corretamente, então maiores serão os níveis de eficiência do programa. ESTABELECIMENTO DE NECESSIDADES DE DADOS E DEFINIÇÃO DE VARIÁVEIS DA PESQUISA Para a realização da pesquisa, e preciso conhecer a fonte, ou seja, descobrir onde se encontram os dados, quem os possui como estão armazenados, se estão disponíveis etc. As fontes de dados dividem-se em duas formas: Fontes Primárias: aquelas portadoras de dados que nunca foram coletados, tabulados e analisados. São fontes primarias: contribuintes, telespectadores, radiouvintes, leitores, etc. Fontes Secundárias: são aquelas que possuem dados que já foram coletados, tabulados e analisados. São fontes de dados secundários: FIBGE, Fundação SEADE, FIPE, FGV, relatórios de pesquisa, jornais, revistas, livros etc. 14 DETERMINAÇÃO DA METODOLOGIA DE PESQUISA Na determinação da metodologia de pesquisa a ser utilizada devemos levar em consideração o quanto segue: 1 – Determinação do tipo de pesquisa: pesquisa exploratória; pesquisa conclusiva descritiva; pesquisa conclusiva causal. 2 – Determinação dos métodos e técnicas de coleta de dados: levantamentos bibliográficos ou documentais; estatísticas publicadas; entrevistas com entendidos; observação sistemática; entrevistas pessoais ou por telefone; questionários distribuídos e recolhidos pessoalmente ou pelo correio; levantamento de campo; estudos em laboratórios; estudos de caso. 3 – Determinação da população de pesquisa, do tamanho da amostra e do processo de amostragem. É um dos passos mais importantes do processo de pesquisa, principalmente quando se tratar de pesquisas descritivas. Nesse sentido, é preciso determinar qual a população de interesse, ou seja, grupo de indivíduos ou produtos que tenham pelo menos uma característica em comum. Estabelecida a população de interesse, determina-se em seguida o tipo de levantamento de dados: levantamento censitário; levantamento por amostragem. 4 – Planejamento da coleta de dados: consiste na definição de uma série de medidas que venham a facilitar a realização da coleta de dados e que minimizem a ocorrência de fatores que possam comprometer os resultados da pesquisa. A coleta dos dados depende do tipo de 15 pesquisa e dos métodos e técnicas a serem utilizados. Pode compreender as seguintes definições: perfil dos entrevistados e dos supervisores de campo; número e distribuição de entrevistadores e de supervisores de campo pelas áreas de pesquisa, número de entrevistas diárias por entrevistador; prazo para realização do campo; sistema de remuneração dos entrevistadores; material e forma de treinamento dos entrevistadores; procedimentos de supervisão a serem seguidos pelos supervisores de campo; procedimentos de verificação das entrevistas realizadas. 5 – Previsão do processamento e análise dos dados: neste passo, o pesquisador deverá prever como os dados deverão ser processados e que análises deverão ser efetuadas para se resolver o problema de pesquisa. Essa previsão pode incluir a definição de: tabelas, quadros, gráficos e figuras; variáveis que terão tabulação simples; variáveis que terão tabelas cruzadas; medidas estatísticas a serem calculadas para cada variável; variáveis que serão submetidas a testes estatísticos. EXECUÇÃO Nesta etapa procede-se a efetiva realização da pesquisa. Compreendendo a Coleta dos dados e seu Processamento, analise e interpretação. A execução de uma pesquisa pode ser dividida em três etapas: 1 - Preparação do Campo: Consistindo em: construção, pré-teste e reformulações, quando necessárias, do instrumento de pesquisa e do manual de campo; impressão do instrumento e do manual do campo: recrutamento, seleção e treinamento dos pesquisadores de campo; distribuição do trabalho entre a equipe. 2 - Campo: Consiste na realização efetiva da pesquisa ou obtenção de dados, com as necessárias verificações das possíveis falhas por parte dos pesquisadores ou do instrumento de pesquisa: 16 coleta dos dados; conferencia, verificação e correção dos preenchimentos dos instrumentos de coleta de dados. 3 - Coleta dos dados: refere-se à obtenção e registro das informações, que pode ocorrer por meio de coletas, contagem ou experimentação. A coleta de dados e dita direta, quando feita sobre elementos informativos de registros obrigatórios. A coleta direta e dividida em continua (registro de nascimento, casamento, óbitos etc.), periódica (censo populacional, quantidade de produção de certa cultura sazonal), ou ocasional (determinada por algum acontecimento fortuito, epidemias, catástrofes, etc.). A coleta de dados e dita indireta, quando feita com elementos conhecidos por coleta direta ou do conhecimento de outros fenômenos relacionados com o aquele estudado. CRÍTICA DOS DADOS É o estudo cuidadoso a procura de possíveis falhas, imperfeições ou discrepâncias, a fim de evitar erros grosseiros, que possam influir sensivelmente nos resultados. A crítica dos dados e dita externa quando visa erros do informante e interna quando visa erros originais da coleta. PROCESSAMENTO E ANÁLISE Apuração dos dados: e o processamento dos dados e a disposição mediante critérios de classificação. Consiste em digitar e condensar ou classificar os dados coletados. Exposição ou apresentação dos dados: visa tornar mais fácil o exame daquilo que e objeto de tratamento estatístico, os dados podem ser apresentados em tabelas ou gráficos, permitindo visualmente a comparação com outros elementos ou ainda previsões básicas descritivas. Analise e interpretação dos resultados: e a ultima fase do trabalho e permite tirar conclusões que auxiliem na solução de problemas. Após a obtenção de informações suficientes, pode-se estabelecer parâmetros amostrais (estimativas) para a população com uma determinada probabilidade de erro. 17 COMPONENTES DO MÉTODO ESTATÍSTICO VARIÁVEIS: são as características que podem ser observadas (ou medidas) em cada elemento da população, sob as mesmas condições. Uma variável observada (ou medida) num elemento da população deve gerar apenas um resultado. As variáveis surgem quando perguntamos o quê vamos observar ou medir nos elementos de uma população. Como definir uma variável na prática? Na população de funcionários de uma empresa, podemos definir variáveis, tais como: tempo de serviço, estado civil, etc. Podemos pensar em observá-las com perguntas do tipo: Há quanto tempo o Sr. (ou Sr.ª) trabalha nesta empresa? ________________________ Qual o seu estado civil? _______________________ Estas perguntas, contudo, não estão identificando bem as variáveis de interesse, pois os funcionários podem interpretá-las de diferentes formas e, por exemplo, para a primeira pergunta, podem ocorrer respostas tais como: há pouco mais de 12 anos. Há 7 meses, há muito tempo, etc., não caracterizando propriamente observações da variável tempo de serviço, por não estarem sendo observadas de forma homogênea. Para que as observações do tempo de serviço sejam feitas sob as mesmas condições, precisamos estabelecer a sua unidade de medida, como, por exemplo, anos completos de trabalho na empresa. E a pergunta poderia ser: Há quanto tempo o Sr. (ou a Sr.ª) trabalha nesta empresa? ______________ anos completos. Quanto à variável estado civil, suas possíveis respostas são atributos. Para evitar alguma resposta estranha, podemos estabelecer previamente as possíveis alternativas de resposta. E a pergunta poderia ser: Qual seu estado civil? ( ) solteiro ( ) casado ( ) desquitado ( ) viúvo ( ) divorciado Ao efetuar estas perguntas a um funcionário da empresa, teremos, para cada pergunta, apenas uma resposta. Cada pergunta está, então, associada a uma variável. Na descrição ou análise de um conjunto de dados estatísticos, pode-se associar a eles certos tipos de variáveis, pois o tratamento matemático exigido e o método estatístico a ser 18 utilizado dependem dessa variável. Podemos considerar dois tipos de variáveis: qualitativas e quantitativas. Variáveis qualitativas estão associadas a uma característica que denota qualidade ou atributo. Alguns exemplos de variáveis qualitativas são: cor dos olhos dos operários de certa indústria (azuis, castanhos, verdes), desempenho dos operários (ótimo, bom, sofrível, etc.), qualidade dos produtos (defeituosos, perfeitos, recuperáveis, etc.). Variáveis quantitativas estão associadas a valores numéricos, podendo ser discretas ou contínuas. Variável quantitativa discreta: quando o número de valores possíveis for finito ou infinito enumerável. Como exemplos de variáveis discretas pode-se citar: números de peças produzidas por uma indústria, número de defeitos encontrados em seus produtos, número de dias que choveu durante o mês de março em certa localidade, etc. Variável quantitativa contínua é aquela que pode, ao menos teoricamente, assumir qualquer valor entre dois valores possíveis dessa variável. Alguns exemplos de variáveis contínuas são: comprimentos de parafusos fabricados por certa máquina, tempos gastos pelos operários para realizar certa tarefa, resistência à ruptura dos cabos produzidos por certa companhia, etc. Costuma-se dizer, de uma maneira quase geral, que as variáveis discretas estão associadas às contagens e as variáveis contínuas às medições. Para ilustrar: Pode-se dizer que: NOME SEXO JOÃO MASC MARIA FEM PEDRO MASC LÚCIA FEM 19 É uma forma de medida? De certa maneira, pode-se, dizer que sim. É a chamada medida QUALITATIVA. Mas pode-se também associar a masculino o nº 1 e a feminino nº 2 e a tabela transforma-se em QUANTITATIVA: NOME SEXO JOÃO 1 MARIA 2 PEDRO 1 LÚCIA 2 Poderia ser também: SEXO QUAN TIDADE MASC 1) 2 FEM (2) 2 20 MÓDULO II POPULAÇÃO E AMOSTRAS EM PESQUISAS 21 POPULAÇÃO E AMOSTRA Ex. Em uma pesquisa sobre o perfil de trabalho dos funcionários de uma empresa, a população pode ser definida como o conjunto de todos os funcionários da empresa, numa determinada época. Contudo, se a coleta de dados for feita no próprio local de trabalho e no período de uma semana, os funcionários que neste período estão de férias ou de licença ficam inacessíveis de serem observados e portanto temos uma redução nesta população. Esta redução no número de elementos é o que chamamos de amostra. População ou universo – é qualquer conjunto de informações que tenham, entre si, uma característica comum. No exemplo das pessoas da comunidade, observa-se que o conjunto de todas as estaturas constitui uma população de estaturas; o conjunto de todos os pesos constitui uma população de pesos; o conjunto de todas as cores de olhos constitui uma população de cores de olhos. Para ilustrar: Então, POPULAÇÃO não implica necessariamente pessoas? Exatamente! O que importa é a variável estudada. Você pode ter uma população de pesos de ratos ou de comprimento de minhocas. Se uma população for muito grande (por exemplo, o conjunto de todas as estaturas de uma comunidade), o pesquisador poderá ter um trabalho astronômico para estudá-la. E em alguns casos os resultados serão sempre falhos. É só pensar no número de nascimentos e mortes diários, isto é, na entrada e saída de informações, para avaliar a dificuldade e a imprecisão do trabalho. Nesses casos, o Estatístico recorre a uma amostra. 22 Amostra: constitui uma redução da população a dimensões menores, com a menor perda possível das características essenciais. Por exemplo: considere uma escola com 400 alunos (meninos, entre 6 e 16 anos). Ao fazer um estudo das estaturas (qual a estatura média?) pode-se simplificar o trabalho colhendo-se uma amostra de 40 alunos e estudar-se o comportamento da variável estatura apenas nesses alunos. Para ilustrar: A variável estudada poderia ser inteligência ou nº de filhos? Claro! Como poderiam ser outras variáveis: nº de cáries, notas em História ou renda familiar. E eu posso escolher que quiser para a minha amostra? Só os meus amigos? NÃO! Se você fizer isso não estará sendo IMPARCIAL. Uma amostra, para ser boa, te de ser representativa, ou seja, deve conter em proporção tudo o que a população possui qualitativa e quantitativamente. E tem de ser imparcial, isto é, todos os elementos da população devem ter igual oportunidade de fazer parte da amostra, também chamada de amostra probabilística. Para garantir a REPRESENTATIVIDADE e a IMPARCIALIDADE é preciso obedecer a certas regras: BUSCA-SE FAZ-SE Análise da população para ver se seus elementos distribuem-se homogeneamente ou se formam REPRESENTATIVIDADE grupos com características peculiares. Se esse for o caso, temos de respeitar as proporções com que esses grupos integram a população. Sorteio (mediante a utilização de um IMPARCIALIDADE dispositivo que gere números aleatórios) dos elementos que farão parte da amostra. 23 Ao disponibilizar-se uma amostra representativa da população inicial, as pessoas (no caso, os alunos) passam a ser tratadas como DADOS e podem dar origem a diversas RELAÇÕES ESTATÍSTICAS, como por exemplo, média aritmética, mediana, moda, variância, desvio padrão, etc. Essas relações Estatísticas possibilitam descrever sob diversos ângulos, o conjunto de dados representado pela amostra. Por essa razão, o estudo dessas relações pertence ao campo da ESTATÍSTICA DESCRITIVA. O interesse do pesquisador está voltado para a população da qual se originou a amostra. Ele estuda as características da am ostra (isto é, calcula as relações Estatísticas) com o objetivo de transferir, de generalizar suas conclusões para a população.A parte da Estatística que se interessa pelas generalizações, ou seja, pelas transferências de conclusões das amostras para as populações chama-se ESTATÍSTICA INFERENCIAL. Na transferência de suas conclusões (da amostra para a população) o pesquisador valese de um poderoso recurso que é a TEORIA DAS PROBABILIDADES. Essa teoria permite avaliar (e controlar) o tamanho do erro que ele estará cometendo ao fazer generalizações (= inferência). Finalmente, uma consideração importante com respeito à utilização de amostras. Se uma população for muito grande o trabalho estatístico poderá ser astronômico do ponto de vista do trabalho, do custo e dos recursos humanos. Por essa razão é que se vale de uma amostra. Uma amostra também pode ser útil quando o processo de pesquisa é destrutivo. Por exemplo: em r uma população de fósforos deseja-se avaliar a porcentagem de falhas. Há dois caminhos: 1) Risca-se um por um e ao cabo de algum tempo concluí-se que a falha é da ordem de, digamos, 2%.Neste caso há a queima de todo o estoque. 2) Colhe-se, com critério, uma amostra, risca-se um por um os fósforos que a compõem e, ao cabo de algum tempo (menor, sem dúvida, que no caso anterior), concluí-se que a falha é de aproximadamente 2%, podendo ser 1,8% ou 2,2%. Na obtenção das amostras, deve-se usar técnicas adeq uadas para que as mesmas sejam representativas das populações, ou seja, devem possuir características básicas das populações. Evidentemente, devido a aleatoriedade, sempre existirão certas discrepâncias no processo de amostragem. 24 TIPOS DE AMOSTRAGEM Pode-se falar em dois tipos de amostragem: Amostragem probabilística: Quando todo o elemento da população tem probabilidade conhecida e diferente de zero, de pertencer à amostra. Amostragem não-probabilística: Quando nem todos os elementos da população tem probabilidade conhecida de pertencer à amostra. A vantagem do uso da amostragem probabilística é que a mesma permite o cálculo do erro amostral, o que não acontece com a amostragem não-probabilística. Há três tipos de amostragens probabilísticas básicas: Amostragem casual simples (ao acaso, aleatória, elementar) é aquela onde todos os elementos da população têm igual probabilidade de pertencer à amostra. Essa técnica é equivalente a um sorteio lotérico, ou seja, enumeramos a população de 1 a N, sorteando a seguir, por meio de dispositivo aleatório qualquer, k elementos dessa seqüência, os quais corresponderão aos elementos da amostra (n). A probabilidade de cada elemento tem de pertencer a amostra é n/N (chamada de fração amostral). Quando a amostragem for feita com reposição o número de amostras possíveis é dado por Nn, enquanto que, para a amostragem sem reposição esse número é dado por C n N Uma maneira utilizada para fazer o sorteio dos elementos que compõem a amostra é o uso de uma tabela de números aleatórios. Essa tabela consiste de inúmeros dígitos, obtidos por um processo equivalente a um sorteio equiprovável. EXEMPLOS: 1) Obter uma amostra de 30% dos alunos do 2º E.E. e determinar o peso médio dos alunos amostrados. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 25 2) Obtenha uma amostra de 10% de um grupo de 90 alunos ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ 3) Selecionar aleatoriamente uma amostra de 7 elementos de um conjunto formado pelos números de 1 a 3500. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 4) Obter uma amostra de 30 elementos de uma população de 500 elementos. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- Amostragem sistemática é uma forma simplificada de amostragem casual simples, podendo ser utilizada quando os elementos da população se apresentam ordenados a retirada dos elementos para compor a amostra é feita periodicamente. Por exemplo, em um processo de produção, onde se deseja executar o controle de qualidade, podemos tomar uma peça para compor a amostra, em cada k (salto) peças produzidas. Ou então, em um arquivo de nomes de pessoas que estão em ordem alfabética, também podemos pegar uma ficha a cada k fichas. O primeiro elemento deve ser sorteado. Se há possibilidade de saber o total podemos calcular o salto que deve ser dado por k N n , onde N é o tamanho da população e n é o tamanho da amostra. EXEMPLOS: 1) Compor uma amostra de 7 elementos retirados de uma população de 490 elementos. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 26 2) Obter uma amostra sistemática de 10% dos elementos de um grupo de 160 indivíduos. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------3) Formar uma amostra de 7 elementos retirados de um conjunto de 412 elementos. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- Amostragem estratificada é utilizada quando a população pode ser dividida em subpopulações ou estratos, devendo a variável de interesse ser mais ou menos homogênea dentro de cada estrato. Na composição da amostra devem ser sorteados elementos de todos os estratos, para que todos sejam representados na amostra. Para se especificar quantos elementos de cada estrato deverão fazer parte da amostra, existem 3 maneiras. (1) Uniforme: Quando há o sorteio de um mesmo número de elementos de cada estrato. Evidentemente, esse processo deve ser utilizado se os estratos da população forem pelo menos aproximadamente do mesmo tamanho. (2) Proporcional: Quando há o sorteio um número de elementos proporcional ao tamanho de cada estrato. Sua utilização é mais geral que a uniforme, pois, independe do tamanho de cada estrato. (3) Ótima: Quando leva-se em consideração o tamanho de cada estrato e também a variação da variável de interesse dentro de cada estrato. Essa variação é expressa em termos do desvio padrão de cada estrato. Dessa maneira, o estrato que tiver menor variação contribuirá com uma quantidade menor de elementos. EXEMPLOS: 1) Em uma sala com 90 alunos, 54 são homens e 36 são mulheres. Obtenha uma amostra estratificada de 10%. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 27 2) Tem-se uma comunidade com 528 pessoas, distribuídos pelas classes A(67), B(113), C(320) e D(28). Selecionar uma amostra: a) aleatória de 3% b) aleatória de 15 pessoas c) de 4% das pessoas, proporcionalmente às classes d) sistemática de 5% de pessoas. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- QUESTÕES TEÓRICAS 1) Quais são as três principais áreas da Estatística? 2) Defina o termo Estatística. 3) Defina os termos amostra e população. 4) Quais são as principais razões da amostragem? 5) Em que circunstâncias é a amostragem preferível a um censo completo? 6) Para ser útil, que características deve ter uma amostragem? 7) Dê cinco exemplos em que a Estatística é útil. 8) Contraste dados quantitativos e qualitativos. PROBLEMAS PROPOSTOS 1) Uma população é constituída de 2500 elementos. Obter uma amostra casual simples de 50 elementos, explicando o procedimento utilizado. 2) Uma população é constituída pelos 800 alunos de uma escola. Tendo uma listagem dessa população, já ordenada, explique qual o procedimento para obter uma amostra sistemática de 40 alunos. 3) A Receita Federal arquiva as declarações de imposto de renda pela ordem de chegada. Selecionar uma amostra sistemática de 2% de um lote de 800 declarações. 28 4) Em uma turma estão matriculados 53 alunos, sendo os 20 primeiros do sexo masculino. Sortear uma amostra aleatória simples de 25% desses alunos, indicando cada componente da amostra pelo seu número e sexo. 5) Um serviço de contabilidade atende 70 pequenas empresas, 20 médias e 5 grandes. Sortear uma amostra de 20% proporcional ao tamanho da empresa. 6) Uma população encontra-se dividida em 3 estratos, com tamanhos respectivamente, n1 = 40, n2 = 100 e n3 = 60. Sabendo-se que ao ser realizada uma amostragem estratificada proporcional, 9 elementos da amostra foram retirados do 3º estrato, determine o número total de elementos da amostra. 7) O Edifício Central foi sorteado para efeito de um levantamento por amostragem. Informações coletadas na portaria do prédio revelaram: os moradores desses apartamentos são 18 comerciários, 5 industriais, 28 bancários e 9 profissionais liberais. Selecionar uma amostra de 20%, proporcionalmente às profissões. 8) Indicando cada elemento por seu número, selecionar uma amostra de 3% proporcional ao sexo de um grupo de 240 pessoas, das quais as 67 primeiras são do sexo masculino. 9) Em uma cidade com 3000 habitantes, deseja-se fazer uma pesquisa sobre a preferência por tipo de lazer entre as pessoas de 20 anos de idade, levando em consideração o sexo. a) qual a população envolvida na pesquisa? b) supondo que na cidade existam 560 mulheres e 600 homens com 20 anos, selecione uma amostra sistemática e uma amostra estratificada de 3% desses habitantes. CRÍTICA DOS DADOS obtidos os dados, eles devem ser cuidadosamente criticados à procura de possíveis falhas e imperfeições, a fim de não incorrermos em erros grosseiros ou de certo vulto, que possam influir sensivelmente nos resultados. APURAÇÃO DOS DADOS: nada mais é do que a soma e o processamento dos dados obtidos na amostragem. Pode ser manual ou eletrônica. 29 Exemplo: uma amostragem realizada em uma favela, sobre a renda familiar, em salários mínimos, apresentou o seguinte resultado. 1,3 2,4 3,2 1,5 1,0 1,0 1,3 1,5 1,6 2,3 4,2 1,8 3,2 74,1 3,5 2,0 1,8 1,9 2,2 2,0 3,1 2,2 3,0 2,7 1,7 1,5 0,9 O valor 74,1 muito provavelmente não pertence a um morador da favela, este dado deve ser desconsiderado, pois o mesmo ou foi anotado errado ou a resposta foi mentirosa. Citar mais exemplos de peso e estatura. 30 MÓDULO III APURAÇÃO DOS RESULTADOS EM UMA PESQUISA ESTATÍSTICA 31 EXPOSIÇÃO DOS RESULTADOS Um conjunto de observações de certo fenômeno, não estando adequadamente organizado, fornece poucas informações de interesse do pesquisador. Para obter-se informações de interesse sobre o fenômeno em estudo, deve-se agrupar as observações em tabelas ou gráficos convenientemente construídos. O tipo de tabela ou gráfico utilizado é em função do tipo de variável que representa o fenômeno de interesse. Tabela é um quadro que resume um conjunto de observações, que ajuda muito a compreender um fenômeno. Uma Tabela deve seguir um conjunto de Normas convencionadas pelo Conselho Nacional de Estatística. As normas servem como instrumento capaz de orientar todos que se utilizam de dados numéricos, de modo a garantir a clareza das informações. Uma Tabela deve ser clara, objetiva, concisa e auto-suficiente, isto é, deve ter significado próprio, eliminando a necessidade de textos explicativos, bem como a Tabela deve ser exaustiva e mutuamente exclusiva, ou seja, não deve apresentar itens para os quais não tenha classe nem sequer itens que pertençam a mais de uma classe. A Tabela é composta basicamente dos seguintes elementos: a) Corpo: conjunto de linhas e colunas que contém informações sobre a variável em estudo; b) Cabeçalho: parte superior da tabela que especifica o conteúdo das colunas; c) Coluna Indicadora: parte da tabela que especifica o conteúdo das linhas, d) Coluna Numérica: parte da tabela que especifica a quantidade das linhas; e) Linhas: informações das variáveis; e) Título: conjunto de informações, as mais completas e resumidas possíveis, respondendo às perguntas: o quê? quando? onde?, localizado no topo da tabela; f) Rodapé: parte inferior da tabela contendo a fonte e informações adicionais. 32 EXEMPLOS: 1) TABELA SIMPLES EXPORTAÇÕES Produtores toneladas Soja 1300 Milho 270 Arroz 320 Banana 50 2) DUPLA ENTRADA OU CONJUGADA NOTAS DOS ALUNOS - 2000 Alunos 1º bim 2ºbim. A 4,5 2,3 B 7,8 8,2 C 10,0 9,5 D 2,0 3,5 Fonte: DIAP 3) Segundo o setor de Cadastro da Receita Estadual, em 1993 ocorreram 746 novos cadastros no ICMS/PR entre Regime Simples e Regime Normal. Em 1994, ocorreram 1024 novos cadastrados. Em 1993, 496 eram enquadradas no Regime Simples, das quais 168 Indústrias. Em 1994, 633 eram do Comércio e das 1024, 800 eram de Regime Normal, sendo 256 Indústrias. Com Regime Normal, em 1993, 70% eram do Comércio. Construir uma tabela que retrate a situação acima. REGIME Anos Total Regime Normal Regime Simples Total 33 PROBLEMAS PROPOSTOS 1) O Movimento religioso de certo município, no período de 1992/1994, apresentou os seguintes dados: - em 1992, houve 56738 batizados (dos quais 26914 do sexo feminino), 15884 casamentos e 13678 extrema-unções; - em 1993, houve 33915 batizados do sexo masculino e 29568 do sexo feminino; os casamentos foram em número de 17032 e as extrema-unções, 14328; - em 1994, de um total de 71232 nascimentos, 34127 eram do sexo masculino; as extrema-unções foram 16107 e os casamentos 16774. Construa uma tabela. 2) Construir uma tabela para os dados. No ano de 1993, houve 627 matrículas na Escola Rural e, em 1994, 813. Em 1993, 595 eram brasileiros, dos quais 185 mulheres, sendo que havia apenas 5 moças estrangeiras. Em 194 foram matriculados 50 estrangeiros, dos quais apenas 12% eram mulheres; dos brasileiros matriculados nesse ano, havia 204 mulheres. Em 1995, dos 849 alunos não havia nenhuma moça estrangeira, mas dos 797 brasileiros, 185 eram do sexo feminino. 3) Numa pesquisa visando avaliar o desempenho escolar dos alunos do Colégio “XXX”, um dos pontos de interesse recaiu sobre a renda familiar e o tamanho das famílias dos alunos. Uma amostra de 150 alunos foi entrevistada e os resultados são: dos 52 alunos provenientes de famílias de baixa renda, 5 tinham famílias pequenas e 15 tinham famílias médias. Dentre aqueles com renda média baixa, 8 tinham famílias pequenas, 10 famílias médias e 20 famílias grandes. Dentre os 45 alunos de famílias de renda média, 25 eram provenientes de famílias médias e 10 de famílias grandes. De modo análogo, dos 12 que representavam as famílias de renda média alta, 5 eram de famílias pequenas e apenas 2 de famílias grandes. Além disso, a amostra continha 3 alunos oriundos de famílias de alta renda: duas pequenas e uma grande. Mostre uma tabela adequada. 34 DISTRIBUIÇÕES DE FREQUÊNCIAS Quando trabalha-se com poucos valores numéricos, o trabalho estatístico fica sensivelmente reduzido. No entanto, normalmente tem-se que trabalhar com grande quantidade de dados. Um dos objetivos da Estatística Descritiva neste caso é obter uma significativa redução na quantidade de dados com os quais devemos operar d iretamente. Isto pode ser conseguido modificando-se a forma de apresentação destes dados. Suponha que observando-se as notas de 30 alunos em uma prova, obtém-se os seguintes valores: X: 3,5 5 4,5 4 4,5 5 3,5 4 4 5 2 3 4,5 3,5 4 4,5 3 4 3 4 3,5 3,5 3,5 4 4 3 4 4 5 3 Interpretando-se como freqüência simples de um elemento o número de vezes que este elemento figura no conjunto de dados, pode-se reduzir significativamente o número de elementos com os quais deve-se trabalhar. DISTRIBUIÇÃO DA FREQUÊNCIA – VARIÁVEL DISCRETA é uma representação tabular de um conjunto de valores onde coloca-se na primeira coluna em ordem crescente apenas os valores distintos da série e na segunda coluna dispõe-se os valores das freqüências simples correspondentes. Usando-se f para representar a freqüência simples, a seqüência pode ser representada pela tabela: NOTAS DOS ALUNOS xi fi 2 1 3 5 3,5 6 4 10 4,5 4 5 4 Fonte: Escola “X” 35 Observações: 1) a colocação de um índice i para x e para f tem a finalidade de referência. Deste modo x i representa o primeiro valor distinto da série e fi representa a freqüência simples do primeiro valor e assim sucessivamente. 2) Consegue-se reduzir de 30 elementos que constituíam a série original para apenas 12 elementos. Deve-se optar por uma variável discreta na representação de uma série de valores quando o número de elementos distintos da série for pequeno. CONSTRUÇÃO DA VARIÁVEL DISCRETA A construção de uma variável discreta é bastante simples. Basta observar quais são os elementos da seqüência (dados brutos), ordená-los (rol), e colocá-los na primeira coluna da tabela. Em seguida, computar a freqüência simples de cada elemento distinto e colocá-la na segunda coluna da tabela. Exemplo de construção de uma variável discreta. A seqüência abaixo representa a observação do número de acidentes por dia, em uma rodovia, durante 20 dias. X: (pontos) 0 2 0 1 1 0 0 0 3 2 1 0 1 2 0 1 3 2 2 0 Os valores distintos da série são: 0, 1, 2 e 3. As freqüências simples respectivas são: 8, 5, 5 e 2. Portanto, a variável discreta representativa desta seqüência é: Nº DE ACIDENTES NA BR 123 xi fi 0 8 1 5 2 5 3 2 Fonte: P.R.F. 36 QUESTÕES TEÓRICAS 1) Qual é o objetivo de agrupar os dados por freqüência? 2) O que é uma variável discreta? 3) Qual a característica de um conjunto de dados que indique o uso de uma variável discreta ao se agrupar os dados por freqüência? PROBLEMA PROPOSTO 1) Os resultados do lançamento de um dado 50 vezes foram os seguintes: 6 5 2 6 4 3 6 2 6 5 1 6 3 3 5 1 3 6 3 4 5 4 3 1 3 5 4 4 2 6 2 2 5 2 5 1 3 6 5 1 5 6 2 4 6 1 5 2 4 3 Forme uma distribuição de freqüência sem intervalos de classes. 37 MÓDULO IV GRÁFICOS ESTATÍSTICOS 38 GRÁFICOS ESTATÍSTICOS Representar graficamente significa fazer um desenho que sintetize de maneira clara o comportamento de uma ou mais variáveis. Existem vários tipos de representações gráficas. Os melhores gráficos são os que primam pela simplicidade e clareza. PRINCIPAIS GRÁFICOS: DIAGRAMA POR LINHA POLIGONAL – é a representação gráfica de uma série estatística, por meio de segmentos de retas, que une em seqüência, os pontos de um sistema cartesiano. Exemplos: 1) Mês VENDAS (R$ ) Janeiro 170 Fevereiro 230 Marco 320 Abril 410 Maio 530 Junho 600 Fonte: loja Z 39 2) COMÉRCIO EXTERIOR US$ (bilhões) ANOS Importação Exportação 1996 12 14 1997 15 17,2 1998 17 24,3 1999 19,2 20,4 2000 21,2 22,5 2001 25,4 20,3 Fonte: BB * Previsão 40 GRÁFICO EM BARRAS é a representação gráfica de uma série estatística, em ordem crescente ou decrescente, por meio de retângulos dispostos na horizontal, com espaço entre eles. Exemplo: MOVIMENTO DA LOJA “IMPORTADOS” – AGO/2000 Modelos Unidades BMW 30 HONDA 23 FERRARI 07 GOLF 32 BESTA 48 Fonte: Loja “Importados” GRÁFICO EM SETORES é a representação gráfica de uma série estatística por meio de superfícies setoriais. Exemplo: PRODUÇÃO NA REGIÃO “ABC” Produtos Toneladas Feijão 170 Trigo 230 Soja 570 Milho 830 Total Fonte: Cooperativa “ABC” 41 HISTOGRAMA (variável discreta) é um conjunto de hastes, representadas em um sistema cartesiano que tem por base os valores distintos da série (xi) e por altura, os valores proporcionais às freqüências simples correspondentes destes elementos (fi). Exemplo: DEPENDENTES POR FAMÍLIA Dependentes fi 2 1 3 4 5 8 6 6 7 2 Fonte: Empresa “XX” 42 MEDIDAS DE POSIÇÃO Medidas de Tendência Central são medidas, isto é, Estatísticas, cujos valores estão próximos do CENTRO de um conjunto de dados. As principais medidas de tendência central são: MÉDIA ARITMÉTICA, MEDIANA e MODA. PARA DADOS NÃO AGRUPADOS (ISOLADOS) MÉDIA ARITMÉTICA ( x ) – é o quociente entre a soma dos valores de uma série e o número dos valores das séries. n x1 x 2 ... xn x = n x i x = i 1 n Propriedade: “A soma dos desvios a partir da média é sempre nula.” Ex: dada a série: 20, 35, 25, 40Kg IMPORTANTE: a média aritmética é o valor que pode SUBSTITUIR todos os valores da variável, isto é, é o valor que a variável teria se em vez de VARIÁVEL, ela fosse constante. MÉDIA PONDERADA (P) – é o quociente entre o produto dos valores pelos respectivos pesos e a soma dos pesos. P= x1P1 x 2 P 2 ... xnPn P1 P 2 ... * Pn P= x P 1 P1 1 43 Exemplo: As notas de um aluno são: 35, 47, 53 e 70 pontos, com pesos 1, 2, 3, 10, respectivamente, calcule a média. MEDIANA (Md) – é o valor central de uma série, ordenada. A mediana é útil principalmente quando o conjunto de dados é muito influenciado pelos extremos, refletindo aqui com mais fidelidade que a média aritmética a medida de tendência central correspondente. Ex: 1) 20, 19, 17, 18, 17, 23 e 27 anos. 2) 120, 130, 110, 140, 150 e 180 toneladas. IMPORTANTE: quando n é ímpar, a Md é um valor do próprio conjunto; quando n é par, a MD é a média aritmética dos valores centrais. (Por isso, no caso de n par, a mediana é sempre um valor teórico) MODA (Mo) – é o valor de uma série que ocorre com maior freqüência, ou seja, o valor que ocorre o maior número de vezes. Um conjunto de valores pode não apresentar moda, como também a moda poderá não ser única. Ex: 1) 170, 180, 190, 170, 120, 170 e 210 cm. 2) 70, 80, 50, 80, 90, 70 e 100 kg. 3) 20, 30, 22, 25, 27 e 43 anos. Exercícios: 1) Calcule a média, mediana e moda da série: 170, 180, 145, 123 e 124, 145 cm. 44 MEDIDAS DE POSIÇÃO PARA DADOS AGRUPADOS MÉDIA ARITMÉTICA ( X ) – é a média ponderada, onde os pesos são as freqüências das classes. X= Xf f I i i EXEMPLO 1: Considere-se a distribuição relativa a 34 famílias de 4 filhos, tomando para variável o número de filhos do sexo masculino. Determine a média. Nº de FILHOS fi 0 2 1 6 2 10 3 12 4 4 Total 34 EXEMPLO 2: O número de dependentes dos funcionários da empresa X é dado por Xi fi 1 2 2 4 3 6 4 7 5 3 6 1 45 MODA (MO) Nº de FILHOS Fi 0 2 1 6 2 10 3 12 4 4 Total 34 A maior freqüência é 12, logo a moda é 3, ou seja Mo = 3 MEDIANA (Md) P é a posição da mediana, P = fi e o valor de P deve ser localizado na 2 freqüência acumulada. Nº de FILHOS Fi 0 2 1 6 2 10 3 12 4 4 Total 34 UTILIZAÇÃO DAS MEDIDAS DE TENDÊNCIA CENTRAL Na maioria das situações, não se necessita calcular as três medidas de tendência central. Normalmente, precisa-se de apenas uma das medidas para caracterizar o centro da série. Surge, então, a questão: qual medida deve ser utilizada? A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando todos os dados de uma série estatística são iguais, a média, a mediana e a moda coincidirão com este valor e, portanto, qualquer uma delas representará bem a série. No entanto, este caso dificilmente ocorrerá na prática. 46 Na maioria das vezes, tem-se valores diferenciados para a série e conseqüentemente a medida irá representar bem, apenas os dados da série que se situam próximos a este valor. Os dados muito afastados em relação ao valor da medida, não serão bem representados por ela. Desta forma, se uma série apresenta forte concentração de dados em sua área central, a média, a mediana e a moda ficam também situadas e sua área central representando bem a série. Como a mais conhecida é a média, opta-se por esta medida de tendência central. Concluindo, deve-se optar pela média, quando houver forte concentração de dados na área central da série. Se uma série apresenta forte concentração de dados em seu início, a mediana e a moda estarão posicionadas mais no início da série, representando bem esta concentração. A média que é fortemente afetada por alguns valores posicionados no final da série se deslocará para a direita desta concentração não a representando bem. Como a mais conhecida entre a mediana e a moda é a mediana, esta será a medida indicada neste caso.A mesma situação ocorre se a série apresenta forte concentração de dados e seu final. Concluindo, deve-se optar pela mediana quando houver forte concentração de dados no início ou no final da série. A moda deve ser opção como medida de tendência central apenas em séries que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à freqüência dos outros elementos da série. EXERCÍCIOS PROPOSTOS 1) Um produto é acondicionado em lotes contendo cada um deles 10 unidades. O lote só é aprovado se apresentar um peso superior a 40 quilos. Se as unidades que compõem determinado lote pesam: 3; 4; 3,5; 5,0; 3,5; 4; 5; 5,5; 4; 5, este lote será aprovado? Qual é o peso médio do produto? 2) A média aritmética de 3 números é 24, sendo os números 26, 30 e x. Encontre o valor de x. 47 MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE Se a natureza fosse estável, se as mesmas causas produzissem sempre os mesmos efeitos, é bem possível que o homem nunca tivesse desenvolvido a noção de variação. Mas a realidade é outra: o mundo está em permanente oscilação. Assim como o homem sempre se preocupou com “medir as coisas” (extensão das propriedades, tamanho dos rebanhos, quantidade de dinheiro, etc) preocupou-se também com a criação de métodos matemáticos que possibilitassem medir as variações ocorridas. Ao conjunto das medidas, isto é, estatísticas, que mede as oscilações de uma variável deu-se o nome de MEDIDAS DE VARIABILIDADE. Embora existam várias medidas de variabilidade, vamos ocupar-nos de apenas duas: VARIÂNCIA e DESVIO PADRÃO. Imagine-se dois conjuntos (A e B) de atiradores. Os números nos quadros abaixo, dão os acertos de cada atirador, os totais de acertos e o número de atiradores de cada conjunto. CONJUNTO A 8, 9, 10, 8, 6, 11, 7, 13 TOTAL DE ACERTOS: 72 TOTAL DE ATIRADORES: 8 CONJUNTO B 7, 3, 10, 6, 5, 13, 18, 10 TOTAL DE ACERTOS: 72 TOTAL DE ATIRADORES: 8 Pode-se fazer a seguinte pergunta: qual dos grupos de atiradores é mais estável? Ou, em qual dos grupos a variação entre os desempenhos é menor? Recorrer à média aritmética de acertos NÃO RESOLVE o problema (em ambos os casos x A = x B = 9 acertos); concluir que os conjuntos são igualmente estáveis também não dá, pois no CONJUNTO A os acertos variam de 6 a 13, portanto a amplitude total de variação é 13 – 6 = 7; e no CONJUNTO B os acertos variam de 3 a 18, portanto a amplitude total de variação é 18 – 3 = 15 acertos. Para dizer que algo variou, precisamos de um ponto de 48 referência. E esse ponto vai ser a média aritmética de cada conjunto (média que, por coincidência, é igual em A e B). DADOS NÃO AGRUPADOS VARIÂNCIA (s2) S2 = ( Xi X )2 n 1 EXEMPLO 1) Calcular a variância do exemplo dos atiradores; Para fugir dessa unidade de medida tão embaraçosa, vamos extrair a RAIZ QUADRADA positiva dessas variâncias. O resultado é uma nova medida: o DESVIO PADRÃO que tem a vantagem de vir expresso em uma unidade de medida linear. DESVIO PADRÃO (s) – é a medida de dispersão mais utilizada. Trata-se da medida da oscilação dos valores de uma série em torno da média. O desvio padrão é indicado pela letra S, para dados amostrais e por , para dados populacionais. Convencionalmente, para efeito de cálculos, consideraremos populacional se n > 30. S= X X 2 n 1 = X X 2 n EXEMPLO 1) Calcular o dp do exemplo; Essas fórmulas lembram médias. De fato, pode-se interpretar o desvio padrão como uma média capaz de medir variação. 49 ATENÇÃO Quanto maior a variância, maior a heterogeneidade entre os elementos de um conjunto. Quanto maior a variância, maior o correspondente desvio padrão. INTERPRETAÇÃO DO DESVIO PADRÃO O desvio padrão é, sem dúvida, a mais importante das medidas de dispersão. É fundamental que o interessado consiga relacionar o valor obtido do desvio padrão com os dados da série. Quando uma curva de freqüência representativa da série é perfeitamente simétrica, podemos afirmar que o intervalo [ X - ; X - ] contém aproximadamente 68% dos valores da série. O intervalo [ X - 2 ; X - 2 ] contém aproximadamente 95% dos valores da série. E o intervalo [ X - 3 ; X - 3 ] conte aproximadamente 99% dos valores da série. Estes percentuais vão ser mais tarde comprovados, no estudo da Distribuição Normal de Probabilidade. Para a compreensão inicial do desvio padrão, estas noções são suficientes. QUESTÕES TEÓRICAS 1) Indique três medidas de tendência central. 2) Em que condições são iguais a média e a mediana de uma distribuição? 3) Quando a mediana é melhor do que a média como a medida do valor típico em um grupo? 4) Ante a entrada súbita de elementos muito altos em uma população, o que ocorreria com a média? Com a mediana? E com a variância? 1) Calcule o desvio padrão dos números: a) 9, 9, 9, 9, 9, 9, 9 b) 12, 10, 20, 13, 15 50 2) Calcule o desvio padrão dos seguintes dados de pesos em quilogramas de 2 grupos (A e B) de alunos, dizendo ainda com base nesse cálculo, qual o grupo mais homogêneo (menos disperso)? Grupo A: 43, 45, 52, 54, 56 Grupo B: 46, 53, 58, 60, 66 3) Calcule a variância das distribuições onde os desvios padrões são: a) 8,9 kg b) 6,2 kg 4) Calcule o coeficiente de variação dos números: a) 3, 7, 2, 4, 8, 3 b) 16, 16, 16, 16, 16 5) A regional da Receita Federal efetuou um levantamento nas declarações das cidades A e B e constatou: Cidade A: X = R$ 27000 S = R$ 1500 Cidade B: X = R$ 32000 S = R$ 1700 Determine a cidade com menor dispersão. 6) Numa empresa, o salário médio dos homens é R$ 2000,00 com S = R$ 750,00 e o das mulheres é em média R$ 1500,00 e S = R$ 600,00. Determine que classe possui maior dispersão. 7) O fornecedor “A” de parafusos enviou ao departamento de compras de uma empresa, uma amostra de 2000 parafusos, variando entre 101 e 113 mm. O departamento de compras efetuou uma análise e encontrou X = 107,9 mm e S = 2,72mm. O fornecedor “B” apresentou um lote deste mesmo parafuso com X = 108 mm e S = 1,08 mm, qual o lote que você escolheria se fosse o comprador? Justifique. 8) A série a, b, c, d tem média 100 kg e variância 200 kg. Se todos os elementos da série forem multiplicados por 10, qual o valor da média, do desvio padrão e da variância de nova série? 51 MÓDULO V A UTILIZAÇÃO DE PLANILHAS ELETRÔNICAS PARA ANÁLISE ESTATÍSTICA Tela com gráfico - Excel 52 Planilhas eletrônicas Desde o advento da revolução da informática, textos estatísticos vêm despendendo esforços para alcançar a maneira apropriada de incorporar o uso de pacotes de software para a estatística. Um dilema envolvendo o ensino desse curso na faculdade é de que modo os estudantes poderiam ter acesso (frequentemente através de licenças de uso e versões para alunos) ao software estatístico selecionado e como esses pacotes poderiam ser utilizados no curso. Geralmente , os estudantes não estão familiarizados com esses pacotes antes do curso de estatística, e somente um número limitado pode utilizá-los nos cursos subsequentes. Assim sendo, os estudantes podem vê-los apenas como mais um obstáculo a ser ultrapassado durante o curso de estatística. No entanto, nos últimos anos, com o crescimento da funcionalidade e do poder dos aplicativos de planilhas de cálculo, praticamente todos os tipos de análise estatística ensinados num curso introdutório têm o suporte direto de planilhas eletrônicas, gratuitamente disponibilizadas por instituições de ensino superiores, disponível para uma variedade de diferentes sistemas incluindo Windows e Macintosh. Além de seu possível uso num curso de estatística, os alunos constantemente aprendem os fundamentos de uma aplicação de planilha de cálculo em um curso de sistemas de computação, e então utilizam as planilhas em cursos de contabilidade, finanças e outras áreas de administração. Tendo em vista que a habilidade em aplicações de planilhas de cálculo dos alunos principiantes efetivamente varia, e como a disponibilidade de computadores na escola e em casa é geralmente limitada, a demonstração das planilhas pode ser incorporada através do ensino em laboratórios escolares.. 53 UNIDADE II INVESTIGAÇÃO ESTATÍSTICA 54 MÓDULO I CONTEÚDOS E OBJETIVOS A SEREM TRABALHADOS 55 A introdução do computador, no ambiente escolar, é hoje uma necessidade para o crescimento de uma pedagogia inovadora, assentada na capacidade de educadores propensos a didáticas renovadoras. E a importância do papel do educador neste processo informatizado está em se conscientizar de que se ele não se colocar dentro de seu tempo e caminhar em direção ao desenvolvimento ficará muito difícil gerar um atuação docente de qualidade.O educador tem que estar consciente de que a tecnologia computadorizada não se resume em teclado, mouse, CPU e software, mas sim em saber empregá-los numa realidade existencial.É preciso existir uma aliança na utilização de novas tecnologias, buscando a possibilidade de criar e transformar conhecimentos estimulando a comunicação entre as pessoas e visando a expansão da autonomia pessoal nos processos de aprendizado. O uso destas tecnologias irá mudar o enfoque do processo escolar para o qual os usuários tenham um conhecimento intelectual e profissional de acordo com seus objetivos. Após o ensino dos conteúdos estatísticos teóricos básicos e ensino de utilização de planilhas no laboratório de informática, elaborar-se-á um trabalho de pesquisa com os alunos que além de promover o ensino de estatística através de um trabalho prático busca desenvolver um método de ensino com auxilio da tecnologia da informática, disponível nas escolas. Para essa pesquisa, haverá a elaboração e aplicação de questionários, que serão respondidos pelos alunos, após análise das reservas florestais existentes em cada propriedade rural onde o mesmo resida ou com a qual tenha contato. Neste questionário serão obtidas diversas informações, dentre elas diâmetro dos caules das árvores, as quais subsidiarão todo o estudo envolvido. Assim o discente verificará, na prática, os conceitos estatísticos anteriormente revisados além de aprender a organizar os dados em tabelas. A primeira parte do trabalho, será através uma investigação estatística com as características abaixo. 56 INVESTIGAÇÃO ESTATÍSTICA 1. CONTEÚDOS A SEREM TRABALHADOS: Conhecimentos básicos de Estatística: Distinção entre população e amostra; técnica de coleta de dados; cálculo de média, mediana, moda, variância e desvio padrão; construção de gráficos estatísticos; análise e interpretação dos resultados. 2. OBJETIVO GERAL: Por meio de observação em uma área rural, de sua propriedade ou da vizinhança, aplicar os conceitos básicos de Estatística, a partir da obtenção dos diâmetros dos caules de árvores. 2.1. OBJETIVOS ESPECÍFICOS: - Aplicar os conhecimentos básicos de Estatística verificados em sala de aula: população e amostra; técnica de coleta de dados; cálculo de média, mediana, moda, variância e desvio padrão; construção de gráficos estatísticos; análise e interpretação dos resultados; - Possibilitar a interdisciplinaridade com conteúdos de diferentes disciplinas. 3. PÚBLICO ALVO: Alunos do CEEBJA-Pitanga 4. SEQUÊNCIA DIDÁTICA DA ATIVIDADE: Após o ensino dos conteúdos básicos de estatística , promover-se-á uma reunião com o grupo de estudantes para apresentação dos objetivos do trabalho e os dados a serem obtidos; identificação de um local onde serão coletados os dados a serem trabalhados estatisticamente e realização da coleta de dados. Estes dados deverão ser obtidos aleatoriamente por meio de uma amostra de 40 árvores existentes no local, onde serão coletados dos dados do “Diâmetro à Altura do Peito – DAP”. (*DAP: Diâmetro à Altura do Peito, convencionado como o diâmetro do tronco a 1,3 m de altura.). Para a anotação destes dados, os alunos preencherão a seguinte planilha: 57 NOME: .................................................................................................... LOCAL DO EXPERIMENTO:................................................................ DATA: ..................................................................................................... MEDIDAS DOS DIÂMETROS DAS ARVORES (DAP)-cm 5. RECURSOS DIDÁTICOS: Lápis, caneta, borracha, calculadora,fita métrica, máquina fotográfica, quadro branco, pincel, planilhas eletrônicas e computador. 6. HABILIDADES TRABALHADAS: Utilizar-se das linguagens como meio de expressão, comunicação e informação; interrelacionar pensamentos, idéias e conceitos ;desenvolver o pensamento crítico e flexível e a 58 autonomia intelectual; adquirir, organizar, avaliar e transmitir informações; entender e ampliar fundamentos e conceitos científicos e tecnológicos; desenvolver a criatividade e a responsabilidade. 7 . RESULTADOS ESPERADOS. A partir dos dados obtidos dos Diâmetros à Altura do Peito (DAPs) de uma amostra de vegetação existente, os alunos serão capazes de aplicar os conhecimentos básicos de Estatística. Para isso cada aluno preencherá uma planilha eletrônica, similar a disposta na pagina 59, e através dela e dos aplicativos gráficos aplicará alguns conceitos estatísticos, que compreendem: a) Diferenciar População e Amostra; b) Aplicar a técnica de coleta de dados aleatória; c) Organizar os dados; d) Organizar os dados em tabelas de distribuição de freqüências; e) Aplicar os conceitos de medidas de tendência central (Média Aritmética, Mediana e Moda) e de medidas de dispersão (Variância e Desvio padrão); f) Representar graficamente dos dados obtidos; g) Analisar e interpretar os dados obtidos. h) Concluir os resultados obtidos, fazendo projeções e perspectivas em relação ao ambiente estudado. 59 MÓDULO II RECURSOS, HABILIDADES E INTERPRETAÇÃO DE RESULTADOS COM A UTILIZAÇÃO DE PLANILHAS 60 A seguinte tabela será preenchida sob a forma de planilha eletrônica e contribuirá para o entendimento prático de conceitos estatísticos.licativos computacionais livres, que disponibilizam a elaboração de planilhas e gráficos, permitindo o tratamento da informação na sua plenitude. Cada aluno fará uma análise em intervalos de classe: a)Monte uma tabela, considerando uma variável contínua, com as características abaixo: Classes Intervalo Ponto 1 2 3 4 5 6 Soma DAP Médio (cm) (xi) Frequência Cálculo (fi) x= xi.fi Média x Cálculos Acessórios x xi x xi x 2 fi fi .(xi - x ) Desvio Padrão s 2 fi ( xi x) fi 1 2 61 CONSIDERAÇÕES FINAIS Muitos foram os desafios para a produção deste trabalho. No entanto a expectativa quanto os resultados, deu – nos forças para que continuássemos. Ao final dos estudos realizados para a construção desse caderno pedagógico, percebem-se os grandes desafios que os profissionais educadores da área de ciências terão que enfrentar. O domínio apenas dos conceitos matemáticos e estatísticos, não são suficientes para o ensino das ciências: eles são necessários pois demandam a utilização das tecnologias atualmente disponíveis para que o aluno possa vivenciar a sua real necessidade. 62 REFERÊNCIAS BIBLIOGRÁFICAS BARBETTA, Pedro Alberto. Estatística Aplicada às Ciências Sociais. UFSC, 2002. GONCALVES, Fernando Antonio. Estatística Descritiva. ATLAS, 1977. LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatística: Teoria e Aplicações. LTC, 2000. MARTINS, Gilberto de Andrade. Princípios de Estatística. ATLAS, 1983. TOLEDO, Geraldo Luciano. Estatística Básica. ATLAS, 1988. 63 LISTA DE ANEXOS Anexo I Slides de apresentação de conteúdos estatísticos da unidade I .................... 64 Slides de apresentação da unidade II ............................................................. 70 64 Slides 1 – 8 Unidade I 1 2 3 4 6 8 Slides 9 – 16 Unidade I 9 10 11 12 13 14 15 16 65 66 Slides 17 – 24 Unidade I 17 18 19 20 21 22 23 24 Slides 25 – 32 Unidade I 25 26 27 28 29 30 31 32 67 Slides 33 – 40 Unidade I 33 34 35 36 37 38 39 40 68 69 Slides 41 – 43 Unidade I 41 42 43 Slides 1 – 6 Unidade II 1 2 3 4 5 6 70 Slides 7 – 13 Unidade II 8 7 9 10 11 12 13 71