CADERNOS DO IME – Série Estatística Universidade do Estado do Rio de Janeiro- UERJ Rio de Janeiro – RJ - Brasil ISSN 1413-9022 / v. xx, p. xx - xx, 2011 A HISTÓRIA DA ESTATÍSTICA Ciro Melo do Valle Instituto de Matemática e Estatística da Universidade de São Paulo [email protected] Resumo O objetivo desse artigo é resumir a história da ciência estatística. Ele será divididonessascincopartes, que são as mais importantes: os primórdios, a Escola Biométrica, a fase da experimentação, o levantamento de dados através de técnicas de amostragem e a era atual. Não escreverei somente do ponto de vista teórico, mas evidenciareiainfluência recíproca de diferentes personagens que tiveram grande importância nodecorrerdessa história. Afinal, foi essa troca de informações entre pensadores da área que fez com que os métodos e técnicas usados atualmente fossem desenvolvidos. Explicarei o porquê de a estatística ser um conjunto de métodos que possibilitam o tratamento de dados numéricos influenciados por uma multiplicidade de fatores causais a fim de chegar a uma conclusão.A descrição dessa história será importante para que os leitorem quebrem o conceito restrito que a maioria das pessoas tem sobre o que éa Estatística. Palavras-chave: história; estatística; amostragem; experimentação. 1. Primórdios Dadosforam levantados por Confúncio, na China, mais de 2000 anos antes da era cristã. Alémdesse caso, há muitos outros relatos de pessoas que levantaram dadosantes da emergência da estatística,que ocorreu no século XVI, na Itália. Foi o movimento renascentista que, por volta de 1560, incentivou a coleta de dados realizada pelo governo, similar aos censos realizados atualmente. Essa coleta era feita a fim de obter maior sucesso na administração pública dascidadesitalianas, através de registros de batismos,casamentoseóbitos. Os alemães continuaram os estudosdo que já havia sido iniciado pelos italianos, criandoformasdesistematização e novastécnicas descritivas.Inclusive, o criador do termo "estatística", amplamente usado atualmente, foi o alemão Gottfried Achenwall (1719 - 1772), professor da Universidade de Gottingen. A primeira tentativa de chegar a conclusões através dos dados numéricos coletados ocorreu na Inglaterra, somente no século XVII. Foi o londrino John Graunt (1620 - 1674) quem a fez. Ele chegou a diversas conclusões através dos dados coletados na paróquia de Londres, comoque haviammaismeninos nascendo doquemeninasequeosíndices de mortalidade eram maiores nas zonas urbanas do que nas rurais. Porém, foi seu sucessor William Petty (1623 -1683) quem criou o termo Aritmética Política, quesignificavaraciocinar por meio de dados relacionados ao governo. A primeira tábua de sobrevivência, que utilizava registros vitais de uma cidade alemã, foi feita no ano de 1693 pelo astrônomo inglês Edmond Halley (1656 1742).Estas são amplamenteutilizadasno ramo das ciências atuariais atualmente para cálculodeseguros de vida. Por isso, ele é considerado o criador do cálculo atuarial. O cálculo de probabilidades foi criado correspondentemente por dois matemáticos do século XVII: Blaise Pascal (1623 - 1662) e Pierre de Fermat (1601 1665). Eles tinham a intenção de solucionar problemas relacionados à jogos de azar, que eram muitíssimo populares entre os membros daaristocracia francesa na época. Porém, eles só foram capazesdeconsiderar casos em que todas as probabilidades são equiprováveis, como um jogo de dados, por exemplo. Foi Jacob Bernoulli (1654 - 1705), matemático suíço, a primeira pessoa capaz de considerar os casos não equiprováveis. A novidade de seu pensamento consistia na ideia de que quanto maior o número de observações, maior tornava-se a precisão da proporção observada até que chegasse um ponto em que esse número fosse tão grande a ponto de que fosse possível considerar a probabilidade observada como verdadeira. 2. A Escola Biométrica A Escola Biométrica surgiu na Inglaterra entre o final do século XIX e o começo do século XX. Esse foi um período de grande avanço nas técnicas estatísticas, especialmente para as técnicas de correlação e ajustamento de curvas.KarlPearson(1857- 1936) foi o principal representante dessa fase e, por isso, éconsiderado o fundador da Estatística. Pearson estudou matemática na Universidade de Cambridge e exerceu algumas outras atividades antes de se interessar pela estatística. Em 1892, publicou um artigo dizendo que toda variação se dava numa escala contínua, até mesmo as descontínuas, pois estas seriam na verdade contínuas com interrupções.Essa afirmação gerou bastante repercussão por ser completamente inovadora e infuenciou o estudo da Psicometria, quebrando o conceito de que somente as variáveis contínuas eram mensuráveis, o que fez com que a Psicologia deixasse de ser uma ciência somente teórica, possibilitando a realização de experimentos psicológicos. A princípio, ele se envolveu no estudo da estatística voltada para a genética, mas ao longo do tempopassou a estudar a regressão e a criar fórmulas para a medição de correlações múltiplas. Tinha alguns colaboradores, mas, dentre esses, o que mais se destacou foiGeorge Udny Yule, que criou um coeficiente que mede o grau da associação entre duas variáveis em tabelas de contingência 2 x 2.Alémdisso, Yule também inventouocorrelograma e as séries auto-regressivas. Pearson não se interessou somente pelo estudo da correlação, mas também pelas distribuições de frequência que não seguiam o padrão normal. Dessa forma, gerou um sistema genérico de curvas de frequência, conhecido hoje como Sistema de Curvas de Pearson. Foi através do aprofundamento dessa área que ele criou o teste Qui-quadrado, mesmo tendo cometido erros no uso dos graus de liberdade e vindo a ser corrigido somente no futuro por R. A. Fisher. Conforme fazia novas descobertas, Pearson ficava ainda mais interessado em aprofundar-se nos estudos.Por isso, arrecadou fundos para exercer atividades no Laboratório de Biometria, no ano de 1903.As doações se tornaram mais frequentes e foram suficientes para que ele fundasse o Laboratório de Eugenia, no ano de 1907. Em 1911, juntou esses dois laboratórios e os determinou comoo Departamento de Estatística Aplicada. De 1894 a 1930, o único lugaremqueerapossível estudar estatística avançada era o University College, em Londres. Nessa época, Pearson foi procurado por William Sealy Gosset (1876 - 1937), mais conhecido como Student, para fornecê-lo ajuda na análise de amotras de pequeno tamanho. Gosset estagiou durante um ano sob a orientação de Pearson e descobriu que qualquer experimento pode ser considerado um indivíduo de uma população de experimentos realizados sob as mesmas condições. Ao observar que o método usado para estimação de uma amostra através da aproximação pela distribuição normal através da tábua de integrais de probabilidade era falho quando o número total de observações era pequeno, ele propôs um novo estimador para esse caso, gerando uma nova distribuição. Essa distribuição ainda é conhecida como distribuição t de Student, denominada dessa forma pelo próprio Gosset. Pearson acabou por desenvolver algumas tabelas estatísticas para diferentes distribuições a fim de que as pessoas aplicassem os novos métodossem terem que usar máquinas de calcular. Além disso, manteve-se ocupado com as funções que exercia na edição da revista Biometrika. Para incentivar o estudo da estatística por novos pesquisadores, fundou uma outra revista, que visava somente a publicação de artigos relacionados a essa ciência: a The Annals of Eugenics. Com a aposentadoria de Pearson, o departamento se dividiu em dois: o de Eugenia e o de Estatística. Fisher passou a ser professor catedrático Galton de Eugenia e editor da The Annals of Eugenics. No entanto, no ano de 1943, Fisher saiu para trabalhar como professor da Universidade de Cambridge e seu substituto, L. S. Penrose, dedicou-se somente a escrever artigos relacionados à genética, alterando o nome da revista para Annals of Human Genetics, o qual é mantido até hoje. O departamento de estatística ficou por conta do filhodePearsoneelecontinuou como editor da Biometrika até a sua morte, que ocorreu três anos depois. 3. A Fase da Experimentação Ao contrário das pesquisas realizadas pela Escola Biométrica, as pesquisas estatísticas de caráter experimental exigiam adaptação à pequenas amostras. Como vimos na seção anterior, Gosset dedicou-se ao estudo de amostras desse tipo. No entanto, foi R. A. Fisher quem, posteriormente, aprofundou-se ainda mais nesse assunto, tornando-se a principal figura da Fase da Experimentação. Ronald Aylmer Fisher (1890 - 1962) terminou seus estudos secundários em Harrow, uma das escolas mais famosas da Inglaterra, e ingressou no curso de Matemática na Universidade de Cambridge no ano de 1909.Formou-se no ano de 1912, mas passou mais um ano dedicando-se ao estudo da Mecânica Estatística e da Física Quântica. Foi ao longo de sua carreira profissional que fez grandes descobertas no ramo da estatística, sendo estas principalmente relacionadas ao delineamento de experimentos e à genética. É certo que Fisher foi o maior estatístico de sua época, mas há muitos que dizem que ele foi também o maior de todos os tempos. Sua primeira descoberta foi relatada no artigo (Fisher, 1912), no qual ele enunciou o conceito da máxima verossimilança no ajustamento de curvas de frequência.Pouco tempo depois, deu continuidade ao trabalho de Student e estudou a distribuição t e o coeficiente de correlação em pequenas amostras. Sempre disposto a aprender coisas novas, prosseguiu estudando as distribuições amostrais, criando diversas distribuições exatas e desenvolvendo alguns testes de significância. Entre essas, está a sua própria distribuição z, usada preferencialmente pela representação hipergeométrica.Além disso, conseguiu achar a relação entre o seu teste (z) e o teste qui-quadrado. Ironicamente, só teve um artigo publicado na revista Biometrika, que falava sobre a distribuição de razão de variância,mais conhecidacomoF.A maioria de seus artigos foram disponibilizadosna revista internacional, de grande importância na época,Metron. Ao escrever sobre Fisher, o autor Yates & Mather afirmou que, sem dúvidas, a sua maior contribuição para a estatística foi o desenvolvimento do método da máxima verossimilhança. O conceito básico dessa metodologia baseia-sena ideia de que nem sempre todos os parâmetros têm estimadoressuficientes,masquando têm, o estimador da máxima verossimilhança é um estimador suficiente. Nas palavras de Fisher, "um estimador suficiente é aquele que contém toda a informação contida na amostra, sendo desnecessário considerar qualquer outro estimador". Outra grande contribuição de Fisher foi o conceito de probabilidade fiducial. Ele baseou-se parcialmente no teorema de Bayes a fim de solucionar o problema principal da inferência estatística: como fazer afirmativas de probabilidade sobre um parâmetro desconhecido sem conhecer as probabilidades a priori. Isso só era possível anteriormente quando as probabilidades eram conhecidas. 4. Desenvolvimento dos Levantamentos por Amostragem Trataremos agora de coletas de informações sem controle das fontes de variação por parte do pesquisador. Apesar de existirem de certa forma desdeo iníciodosestudosdaestatística, só passaram a ser desenvolvidos métodos depois de algumas contribuições teóricas feitas por alguns estudiosos. A diferença básica dessa proposta é que, ao invés de basear-se em populações infinitas e abstratas, os levantamentos possibilitaram a análise de populações finitas e reais. Já que possui um caráter mais aprofundado e complicado, o estudo de populações finitas só passou a ser feito mais recentemente. Como podem imaginar, essas novas técnicas foram muito esperadas, pela maior facilidade em lidar com dados concretos, e, dessa forma, surgiram muitos diferentes planos de amostragem. Estes são amplamente usados atualmente em pesquisas dos mais variados tipos. A primeira pessoa a advogar o uso da amostragem em pesquisas foi Kiaer, utilizando seu método de representatividade. Sua intenção era coletar uma amostra que representasse uma "miniatura" da população em questão. Dessa forma, desenvolveu um método que considerava fatores geográficos, sociais e econômicos a fim de selecionar a amostra boa quanto à sua representatividade da população. Foi, principalmente, graças à Arthur Lyon Bowley (1869 - 1957), professor de Estatística da London School of Economics, que a teoria e as aplicações práticas do método representativo foram introduzidas. Ele considerou duas possíveis formas derealizar uma amostra representativa eficiente: a seleção intencional ou ao acaso. Na amostra intencional, utilizam-se técnicas para selecionar os grupos de forma que eles possuam as mesmas características que a população e, na amostra ao acaso, como o próprio nome sugere, a seleção era feita de forma aleatória. Há também a possibilidade de colher uma amostra mesclando esses dois tipos de seleção. Após a descoberta de que esse método de amostragem era falho diante de certas circunstâncias, uma nova ideia foi proposta por Neyman.Ele provou a maior eficiência da amostragem aleatória estratificada em relação a seleção intencional. Além disso, apresentou novidades no estudo da inferência em populações finitas na base da casualização. E, pela primeira vez, tratou a estimação intervalar através de intervalos de confiança, os quais são muitoconhecidos pelos estatísticos atuais. Dessa forma, passaram a selecionar amostras por apreciação subjetiva ou simplesmente por conveniência. Um método muito utilizado foi o da amostragem por quotas, onde cada quota (ou estrato) tem um número tal que sua proporção na amostra é a mesma na população, ou muito próxima. Alguns estudiosos foram contra esse tipo de coleta, pois diziam que ela não possibilitava o cálculo do erro da amostragem. 5. A Era Atual Atualmente, a estatística vem recebendo uma influência gradativa da ciência matemática. Na década de 40, a estatística poderia ser compreendida por alguém que não tinha um conhecimento muito aprofundado de matemática, mas agora é necessário ter um grande conhecimento dessa área para compreender os artigos relacionados à estatística que são publicados. No entanto, é importante ressaltar que são ciências distintas. A estatística trata de coleta, análise e interpretação de dados, enquanto o estudo da matemática exige capacidade de demonstração de teoremas e rigor teórico. O período de 1925 a 1960 é considerado como a época áurea do pensamento estatístico, pois obteve trabalhos realizados por Fisher, Neyman, Egon Pearson (filho de Pearson) e Wald. Foram principalmente esses pesquisadores que desenvolveram as técnicas de levantamento de dados por amostragem e tiveram novas ideias sobre análise multidimensional e séries temporais. David Roxbee Cox (1924 - ) é um dos maiores estatísticos da era atual. Ele já publicou mais de 200 artigos e mais de 15 livros e é formado emMatemáticapelaUniversidade de Cambridge, apesar de ter feito o seu doutorado na Universidade de Leeds. Em um de seus artigos, afirmou que a introdução às máquinas de calcular gerou a primeira revolução no estudo da ciênciaestatística, fazendo com que desenvolvessem novos métodos e implementassem outros já existentes. O que já havia se tornado muito mais fácil na década de 40, com a introdução das calculadoras, passou a ser ainda mais fácil com a possibilidade de utilização de computadores eletrônicos. Atualmente, estão quase extintos os estatísticos que não dispõem de uma máquina para auxílio nos estudos e a existência de diversos programas, como o Statistical Analysis System (ou simplesmente SAS), facilitou ainda mais a análise de dados experimentais. Referências MEMÓRIA, J. M. P.; Breve História da Estatística. Embrapa Informação Tecnológica, Brasília, 2004. Neyman, J.: The Emergence of Mathematical Statistics. A Historical Sketch with Particular Reference to the United States. In: On the History of Statistics and Probability. Ed. D.B. Owen, Marcel Dekker, New York, 1976. Pearson, K.: The History of Statistics in the 17th and 18th Centuries against the changing background of intellectual, scientific and religious thought. Edited by E.S. Pearson. Charles Griffin, London, 1978. THE HISTORY OF STATISTICS Abstract This article is about the history of statistics. It is divided in five main parts: the early days, the Biometric School, the experimentation's phase, the collection of data and the present time. It's not only written in a theoretical point of view, but also shows the mutual influence between different researchers. Therefore, this exchanging information was responsible for the development of the techniques used nowadays. It also describes why the statistics science is a group of methods that helps people to deal with numerical data when they want to reach a conclusion. This description is important to make people know exactly what statistics is about, because most people don't know much about it. Key-words: statistics; data; history; experimentation. COMENTÁRIOS; Seu trabalho está for a da formatação proposta pelo modelo que apresentei a vocês – reveja isso. O fato de ter usado (muito!) o copiar/colar, deixou muitas palavras ‘grudadas’ – reescreva. Eu disse a você que, se quisesse fazer um artigo de revisão bibliográfica, deveria consultar muitas fontes – dez ou quinze, no mínimo. Não foi o que você fez. Seu artigo é só um acúmulo de informações coladas e copiadas quase que exclusivamente de uma só fonte: “Breve História da Estatística”. Reelabore tudo!